LA CALIFICACIÓN DE LA PRUEBA DE EIE EN UN EXAMEN PROGRESIVO

Gloria García Catalán

Universidad de Salamanca

1. LOS EXÁMENES PROGRESIVOS Y LOS EXÁMENES ADAPTATIVOS

Aunque ni el Marco común europeo de referencia (MCER: 2002) ni el Diccionario de términos clave de ELE (Instituto Cervantes: 2008) ofrecen una definición concreta de los exámenes progresivos, podríamos decir que dentro del ámbito de la certificación de lenguas se entiende por tal aquel que ha sido diseñado no para evaluar un nivel específico, sino el nivel de dominio de un candidato dentro de un sistema o escala multinivel. Los candidatos que se presentan a dicho examen pueden demostrar, por lo tanto, gracias al diseño del mismo, su grado de dominio dentro de una escala que abarca varios niveles.

Su característica principal es que todas las tareas que lo componen siguen un orden de dificultad ascendente, que es la esencia que los diferencia de los exámenes adaptativos por ordenador (CAT, en sus siglas en inglés)[1].

Los CAT son exámenes informatizados que ofrecen tareas adaptadas al desempeño de los candidatos para medir su nivel. Si un candidato responde a una pregunta de manera inadecuada, el programa le dará otra de nivel inferior. Si, por el contrario, el candidato responde satisfactoriamente, el programa le ofrecerá una tarea de nivel superior. Se ha demostrado que este tipo de exámenes son muy precisos a la hora de situar a los candidatos con calificaciones extremas (muy altas o muy bajas) dentro de un rango. Sin embargo, los CAT también tienen algunas desventajas. Una de ellas es que no permiten, a priori, incluir pruebas subjetivas siguiendo un modelo estrictamente adaptativo. Además, tras analizar algunos exámenes multinivel, hemos comprobado que la mayoría presenta una prueba de Expresión e Interacción Escrita (EIE) con carácter progresivo y este será precisamente el objeto de estudio de este trabajo.

2. EJEMPLOS DE EXÁMENES MULTINIVEL (ADAPTATIVOS Y PROGRESIVOS)

Damos cuenta en lo que sigue de algunos modelos de exámenes progresivos y adaptativos de algunas de las principales lenguas de cultura (inglés, español, francés, alemán). Como se podrá apreciar, cada examen ofrece características particulares en función de sus circunstancias y sus objetivos, pero todos muestran bastantes similitudes en cuanto al planteamiento y a la calificación de la expresión escrita.

2.1. Exámenes para varios idiomas

2.1.1. Linguaskill

Linguaskill[2] evalúa la competencia y el conocimiento general en inglés, francés, alemán, español y holandés. Este examen determina habilidades lingüísticas individuales y las clasifica en 5 niveles (1-5). Linguaskill se adapta a cada nivel individual de conocimiento y, constantemente, se está mejorando y actualizando. Ha sido desarrollado por expertos en evaluación, en el seno de ALTE –Association of Language Testers in Europe-. En cuanto a los contenidos del examen, Linguaskill consta solamente de pruebas objetivas que evalúan las destrezas pasivas y el conocimiento de gramática y vocabulario. Los resultados se ofrecen en forma numérica en una escala comprendida entre 0 y 100.

2.1.2. BULATS (Business Language Testing Service)

BULATS se presenta como una herramienta de evaluación comparativa global para medir el nivel de aptitud lingüística, la capacitación y los niveles lingüísticos de los profesionales en el lugar de trabajo. Se ofrece en diferentes idiomas y se administra a través de Internet. Sin embargo, la prueba de EIE para el español (también para el alemán, el francés y el holandés) se sigue realizando en papel, siendo su versión en inglés la única que de momento cuenta con una prueba de EIE en línea.

Existe, además, una prueba BULATS en papel que incluye algunas actividades diferentes a las que se ofrecen en su versión en línea. Deducimos, lógicamente, que la versión en papel es una versión progresiva del examen. En cuanto a la versión en línea de la EIE para el inglés, podemos considerar que en este caso también se trata de una prueba progresiva al constar únicamente de dos tareas. La primera de ellas de carácter obligatorio.

Como es habitual, se recomienda repetir el examen cada dos años para verificar las capacidades del candidato.

En cuanto al sistema de calificación, se recoge en su página web lo siguiente:

La prueba de comprensión auditiva y escrita online y la prueba estándar en papel están divididas en dos secciones: comprensión auditiva, por un lado, y comprensión de lectura y conocimiento del idioma, por el otro. La puntuación general de la prueba BULATS no es solamente el promedio de las puntuaciones de las dos secciones. El programa utiliza tablas de búsqueda cifradas para calcular la puntuación general, ya que la ponderación de la capacidad es diferente en las dos secciones. Por ejemplo, si la puntuación de la sección comprensión oral es 30 y la puntuación de la sección comprensión escrita y conocimiento del idioma es 40, el resultado general de la prueba no será necesariamente 70[3].

2.2. Exámenes para el inglés

2.2.1. TOEFL (Test Of English as a Foreign Language)

La versión TOEFL PBT se administra en papel y está próxima a desaparecer según se recoge en su página web:

El 96% de las personas que rinden el examen TOEFL en todo el mundo rinden el examen TOEFL iBT y el acceso continúa ampliándose. Además, el examen TOEFL iBT es solicitado por las universidades, debido a que mide las cuatro habilidades comunicativas: leer, escribir, escuchar y hablar. Por este y otros motivos, consideramos que es momento de suspender los exámenes en papel[4].

Por este motivo, nos centraremos en la versión para ordenador, TOEFL iBT, que se administra por Internet y tiene carácter adaptativo.

El examen TOEFL iBT mide la capacidad del candidato para utilizar y entender inglés académico o universitario. Además, evalúa la combinación de habilidades auditivas, orales, de lectura y de escritura para desarrollar tareas académicas. Su calidad está avalada por numerosas universidades americanas que utilizan este sistema como referencia para acreditar el nivel de lengua de los estudiantes que intentan acceder a sus facultades. Además, al igual que otros exámenes de dominio, tiene una validez de dos años después de la fecha del examen.

Dado su origen americano, no existe una relación oficial entre los niveles que evalúa y el MCER. Los resultados del TOEFL se clasifican en Alto, Intermedio y Bajo, para la prueba de Listening (Comprensión auditiva) y Reading (Comprensión de lectura); en Bueno, Regular, Limitado y Malo, para la prueba de Speaking (Expresión oral) y, en Bueno, Regular, Limitado en la prueba de Writing (Expresión escrita). Resulta interesante, en especial para este trabajo, la distribución de los puntos de corte con que cuenta el TOEFL. La calificación total del examen oscila entre los 0 y los 120 puntos, que resultan de la suma de las 4 pruebas que componen el examen. Cada una de estas pruebas puntúa en un rango equitativo que oscila entre 0 y 30. Llama la atención el hecho de que, mientras que para las pruebas objetivas (CL y CA) se han establecido puntos de corte idénticos, para las pruebas subjetivas (EIE y EIO) se han fijado puntos de corte diferentes. Se ve más claro en la siguiente tabla que reproducimos de http://www.ets.org/es/toefl/ibt/scores/understand/.



La prueba de EIE del TOEFL cuenta con dos tareas que no vamos a analizar aquí en detalle. Interesa especialmente lo que se refiere a su proceso de calificación que, según se dice en su web, es llevado a cabo por un calificador humano y por un corrector automatizado, el sistema eRater, que es capaz de extraer un conjunto de características que representan aspectos importantes sobre la calidad de la escritura. Estas características deben predecir las calificaciones de los calificadores, teniendo en cuenta y guardando cierta lógica con las escalas de calificación con las que cuentan los calificadores humanos[5].

Las escalas de calificación a las que hacíamos referencia antes cuentan con seis bandas, comprendidas entre 0 y 5, y una sola categoría de análisis que se puede considerar holística. Es interesante señalar, además, que existe una escala específica para cada una de las dos tareas de la prueba de EIE, dado que cada tarea se basa en un tipo de texto diferente. Se pueden consultar las escalas en su versión en inglés en www.ets.org/es/toefl/ibt/scores/understand.

2.2.2. Aptis

Según su página web, Aptis se puede realizar en ordenador en algunas ciudades y es:

Un innovador test de inglés del British Council. Diseñado para realizar una valoración práctica y precisa del nivel de inglés, es apropiado tanto para quienes deseen certificar sus propios conocimientos de lengua inglesa como para empresas e instituciones que necesiten evaluar la competencia lingüística en este idioma. Además, ya es reconocido oficialmente por numerosas instituciones públicas, con lo que se puede conseguir un certificado de nivel de inglés en 48 horas[6].

El examen consiste en una prueba central de gramática y vocabulario que se combina con los demás componentes: comprensión lectora, expresión escrita, comprensión auditiva o expresión oral. Estos componentes pueden seleccionarse de forma adicional, con un total de 15 combinaciones.

El sistema de calificación del examen es este:

Los resultados obtenidos en cada competencia se indican también conforme al Marco Común Europeo de Referencia para las Lenguas. El candidato recibirá puntuaciones numéricas (0-50) tanto para el apartado de gramática y vocabulario como para cada una de las competencias lingüísticas que realice, a las que se añadirá el nivel correspondiente en el Marco Común Europeo (A1 – C) para cada una de estas competencias lingüísticas y una calificación global de acuerdo con el Marco Común Europeo. Ello reflejará el nivel lingüístico del candidato[7].

La página web muestra una tabla en la que se explica el valor de cada prueba y un modelo de certificado. Al igual que en otros exámenes mencionados en este trabajo, la escala de calificación comprende seis niveles para cada prueba o destreza[8].

2.3. Exámenes para el español

2.3.1. SIELE (Servicio Internacional de Evaluación de la Lengua Española)

Este examen nace con carácter progresivo, pero se espera que con el tiempo evolucione hasta convertirse en un examen adaptativo. En su página web se lee:

Es el Servicio Internacional de Evaluación de la Lengua Española, el sistema que evalúa y certifica el nivel de competencia del español para estudiantes y profesionales en los cinco continentes por medios electrónicos [ordenador]. Está promovido por el Instituto Cervantes, la Universidad Nacional Autónoma de México y la Universidad de Salamanca, lo que garantiza la calidad de las pruebas y la consideración de todas las variedades lingüísticas desde una visión panhispánica. Consta de cuatro pruebas para calificar distintas competencias lingüísticas, y sus valoraciones tienen correspondencia con el Marco Común Europeo de Referencia para las Lenguas (MCER) del Consejo de Europa[9].

En cuanto a las pruebas subjetivas del examen, SIELE cuenta con una prueba de Expresión e interacción escrita y otra de Expresión e interacción oral. Ambas puntúan entre 0 y 250 puntos, al igual que las otras dos pruebas (Comprensión lectora y Comprensión auditiva), sumando un total de 1000 puntos en la versión completa del examen. La prueba de EIE, que es lo que más nos interesa, consta de dos tareas que serán evaluadas por personal cualificado y acreditado para ello.

2.3.2. EPLE (Examen de Posesión de la Lengua Española)

EPLE es un examen progresivo de español diseñado por el CEPE (Centro de Enseñanza para Extranjeros) de la Universidad Nacional Autónoma de México. Según su página web, “es un examen tipo score que evalúa de manera progresiva los conocimientos lingüísticos de los candidatos, independientemente de la forma en que hayan sido adquiridos dichos conocimientos”. Las pruebas de Comprensión auditiva, Comprensión de lectura y vocabulario y Estructuras y expresión escrita, se aplican en línea. La Expresión oral se evalúa mediante entrevista personal con un evaluador. Sin embargo, no existe una tarea de expresión escrita con respuesta abierta, ya que la prueba denominada Estructuras y expresión escrita, es una prueba con ítems de opción múltiple y, por lo tanto, una prueba objetiva.

La escala global del EPLE puntúa sobre un total de 1000 puntos, siendo 701 el mínimo para obtener el certificado[10]. Este certificado incorpora una escala en la que se diferencian 6 niveles de actuación, aunque estos no corresponden directamente con los niveles del MCER. Otro aspecto que llama la atención es que cada prueba puntúa sobre un valor distinto para después sumarse al valor total de la prueba, 1000 puntos[11].

2.3.3. DELE (Diploma de Español como Lengua Extranjera) y DELE Escolar A2/B1

En este caso no se trata de un examen progresivo ni adaptativo, más bien podríamos definirlo como un examen de doble salida, pero es por este mismo motivo, por su carácter multinivel, por lo que nos interesa conocer sus características y su proceso de calificación. El examen se administra en papel y sus resultados están anclados con los niveles A2 y B1 del MCER; los contenidos de las pruebas se encuentran incluidos en el documento Niveles de Referencia para el Español (NRE) que se puede consultar en línea en http://cvc.cervantes.es/ensenanza/biblioteca_ele/plan_curricular/.

La prueba de EIE consta de dos tareas y su valor total para el cómputo de la nota final es del 25%, aunque en este caso el resultado final no es numérico, sino la equivalencia directa al nivel A2 o al nivel B1.

En cuanto al sistema de calificación, se recoge la siguiente información en la Guía del examen Dele A2/B1 para escolares, accesible en la página web http://escolares.dele.cervantes.es/especificaciones_a2b1.htm:

Para la calificación de la prueba de Expresión e interacción escrita se usa una escala analítica con cuatro categorías, que consta de cuatro bandas ordinales que se extienden en un rango único que va del 1 al 4. A cada una de las bandas corresponde un único descriptor ilustrativo con el que se compara la actuación del candidato. La banda 2 es el equivalente a la descripción del nivel A2 (Plataforma) del Marco común europeo de referencia. La banda 3 es el equivalente a la descripción del nivel B1 (Umbral) del Marco común europeo de referencia. La banda 4 describe una consecución sobrada del nivel B1. La banda 1 supone la no consecución del nivel A2[12].

Se reproducen seguidamente en la web las escalas de calificación y algunas muestras estandarizadas que no reproducimos aquí por falta de espacio, pero que pueden ser consultadas en el enlace anteriormente citado.

2.4. Exámenes para el francés

2.4.1. TCF (Test de Connaissance du Français)

El TCF se administra en papel y en ordenador, se presenta en forma de cuestionario de opción múltiple y contiene un total de 76 preguntas que están ordenadas progresivamente desde el nivel A1 hasta el nivel C2 del MCER. Este test estandarizado ha sido calibrado y diseñado por el Centro Internacional de Estudios Pedagógicos (CIEP), organismo de certificación y miembro de ALTE.

Las pruebas subjetivas han sido tratadas como Pruebas complementarias, aunque se advierte que, para la acreditación de nivel, es necesario superar las cuatro destrezas. La EIE consta de tres tareas que se ordenan de menor a mayor dificultad.

En cuanto a la evaluación, se recoge en su página web lo siguiente:

La corrección de las pruebas obligatorias es informatizada (por escáner) y no es objeto de la apreciación personal del corrector. La corrección es objetiva, fiable y rápida. La corrección de las pruebas complementarias la realiza un equipo de docentes habilitados, formados por el CIEP. Cada copia de expresión escrita y cada grabación de la prueba de expresión oral es objeto de una doble corrección. La entrevista se graba en formato mp3, para ser enviada a continuación al CIEP[13].

El certificado incluye en su reverso una escala global en la que se recogen las correspondencias de las notas con los niveles del MCER.

Como conclusión de este recorrido se puede afirmar que la tendencia actual se dirige hacia lo adaptativo, más que hacia lo progresivo, sobre todo en el entorno informatizado. Las pruebas subjetivas suelen tener carácter progresivo, generalmente, y en su calificación interviene siempre un calificador humano, aunque merece la pena recordar el caso del examen TOEFL, que cuenta con un sistema informático de corrección, e-Rater. No sabemos cómo funciona, pero resultaría interesante estudiarlo para poder desarrollar algo similar para el español que pudiera implementarse después en el SIELE, que como ya hemos comentado nos interesa aquí porque la Universidad de Salamanca está involucrada en su proceso de desarrollo.

3. LA PUNTUACIÓN EN LOS EXÁMENES PROGRESIVOS

Se considera que existen dos tipos de puntuación: objetiva y subjetiva. La puntuación objetiva es aquella que utilizamos para calificar los ítems cuya respuesta es necesariamente correcta o incorrecta. Las tareas que responden a este modelo suelen ir acompañadas de una clave o plantilla de corrección en la que se incluyen las soluciones. La tarea de los examinadores en este caso es la de comparar las respuestas de los candidatos con la clave (Alderson, Clapham y Wall: 1998, 106). Incluso es habitual que esta tarea la lleve a cabo una máquina y no un calificador. En consecuencia, podríamos decir que la calidad de los resultados en las pruebas objetivas depende principalmente de la destreza de los creadores de ítems. La calidad de los resultados de las pruebas subjetivas, en cambio, depende, además, de otros factores: la precisión de las escalas, la preparación de los calificadores y, también, de la fiabilidad del procedimiento mediante el cual se fijan los puntos de corte.

Una fase importante de la creación de un examen de idiomas multinivel es la de determinar los puntos de corte de las pruebas y, por ende, del examen. Mientras que en la mayor parte de los exámenes tradicionales este proceso consiste simplemente en hallar el punto de corte entre apto y no apto, o aprobado y suspenso, en estos otros exámenes habrá que hallar los puntos de corte para cada uno de los niveles que queremos evaluar. Este proceso resulta más o menos sencillo cuando hablamos de pruebas objetivas, pero en lo que respecta a las pruebas subjetivas, el proceso es más complicado. En este caso, la evaluación es fruto de la comparación de la actuación de los candidatos con un criterio, en este caso una escala, que comprende seis descriptores de nivel y analiza una o más categorías lingüísticas y formales. La suma de todas esas notas determina en qué nivel se encuentra cada candidato. Otro factor que dificulta el proceso de determinación de los puntos de corte para una prueba de EIE es que, como hemos visto en los exámenes que se han analizado, en la mayor parte de los casos esta prueba consiste en dos tareas que deben posibilitar la evaluación de cinco o seis niveles de dominio.

Partiendo de esta situación, proponemos aquí un procedimiento de análisis válido para cualquiera de los exámenes tipo analizados anteriormente o para otros posibles que se pretendan desarrollar en el futuro.

El procedimiento que se propone en este trabajo para establecer los puntos de corte tiene como base una prueba de EIE similar a las que se muestran en los exámenes analizados y que consistiría en dos tareas. La tarea 1 aborda los contenidos relativos a los niveles A1, A2 y B1 del MCER. La tarea 2, por su parte, centra sus pautas de ejecución en los niveles B2 y C1. Esto significa que la tarea 1 podrá determinar si un candidato tiene un nivel de dominio equivalente a A1, a A2, a B1, superior a B1, o inferior a A1. Con la tarea 2, podremos determinar si un candidato tiene un nivel de dominio equivalente al B2, al C1 o superior, o inferior al B2.

El proceso que se deberá seguir es el siguiente:

1) Experimentación de la prueba con un total de 100 candidatos controlados. Esto quiere decir que debemos conocer previamente el nivel consolidado de estos candidatos, pues será un dato necesario y útil para la toma de decisiones posterior mediante juicios de experto.

2) Calificación de las muestras por parte de un grupo de calificadores formados. La herramienta fundamental aquí es la escala (ver Tabla 2) que contará, en este caso, con seis bandas que representarán los niveles: inferior a A1, A1, A2, B1, B2 y C1. Y una categoría para el análisis lingüístico global y otra relacionada con el cumplimiento de las pautas de la tarea[14].

3) Fijación de las notas estandarizadas para cada nivel en un juicio de expertos. Los expertos deberán reflexionar sobre las siguientes preguntas y tomar una decisión que pueda ser debidamente justificada:

¿Qué nota alcanzaría un candidato de A1 en esta prueba?

Los expertos podrían determinar, teniendo en cuenta esta escala (ver Tabla 2), que la nota de corte para un A1 es:

T1: 1, 1

T2: 0, 0

Esto quiere decir que un candidato que obtiene una calificación final de A1 en la prueba de EIE deberá, como mínimo, obtener una puntuación igual a la descrita. Como ya hemos dicho, los jueces deberán acompañar cada resolución de notas de corte de una justificación que se apoye en los descriptores de las escalas y en las pautas de las tareas.

El procedimiento seguiría el mismo esquema hasta establecer una nota de corte para cada nivel.

¿Qué nota alcanzaría un candidato de A2 en esta prueba?

Los expertos podrían fijar la nota para el nivel A2 en:

T1: 2, 2

T2: 0, 0

Lo que quiere decir que todas las posibles combinaciones entre la nota de corte del nivel A1 y del nivel A2 serán parte del rango de notas del nivel A1.

– ¿Qué nota alcanzaría un candidato de B1 en esta prueba?

Los expertos podrían fijar la nota para el nivel B1 en:

T1: 3, 3

T2: 0, 0

– ¿Qué nota alcanzaría un candidato de B2 en esta prueba?

En este caso debemos tener en cuenta lo siguiente: la puntuación mínima deseable en la T1 para poder alcanzar el nivel B2. Esa nota podría traducirse en:

T1: 3, 3

¿Por qué? En la banda ٣ se describe una ejecución óptima de la Tarea 1 por parte del candidato porque su descriptor coincide con el nivel B1 que es, además, el nivel máximo que evalúa la tarea y, por lo tanto, el nivel esperable y deseable de cualquier candidato que la realiza. Es por este motivo por el que no debemos “penalizar” a un candidato de nivel alto que no alcance la banda 4 o 5 en la primera tarea (y lo estaríamos penalizando si exigiéramos una banda 4 en la T1 para la obtención de los niveles B2 y C1). La función de estas bandas, 4 y 5, será entonces la de sumar algunos puntos, pero en ningún caso podrían servir para determinar un nivel B2 o C1 en la Tarea 1 porque, simplemente, esa tarea no se ha concebido para evaluar específicamente dichos niveles.

En cuanto a la Tarea 2, la puntuación mínima deseable para poder alcanzar el nivel B2 sería de:

T2: 4, 3

Porque la banda 4 describe una ejecución propia de un candidato de B2 en las categorías lingüísticas. En cuanto al cumplimiento, se mantiene en la banda 3 pues en ella se dice que el candidato “resuelve la tarea”; por lo tanto, el mínimo de cumplimiento debe fijarse en 3.

Alguien se podría preguntar por qué le asignamos 1 en cumplimiento a la nota de corte del nivel A1, y un 2 a la nota de corte del nivel A2. Esta decisión viene motivada por la diferente naturaleza de las tareas. Si T1 está anclada en los niveles A1 – B1, no podemos esperar que los candidatos de nivel A1 y A2 la resuelvan como se describe en la banda 3 “Resuelve la tarea: aporta la información requerida…”, sino que más bien la resolverán con dificultades y omitiendo algunos puntos, muy probablemente los que están diseñados y anclados en los niveles A2 y B1.

– ¿Qué nota alcanzaría un candidato de C1 en esta prueba?

La puntuación mínima deseable en la T1 para poder alcanzar el nivel C1 es de:

T1: 3, 3

Por los mismos motivos expuestos antes para B2. Y en cuanto a la Tarea 2, la puntuación mínima deseable para poder alcanzar el nivel C1 sería de:

T2: 5, 3

Por los mismos motivos expuestos antes para B2.

En resumen, las notas de corte serían:

Tabla 1

4) Asignar un valor a cada nota estandarizada para calcular los puntos de corte. Esta parte del proceso consiste en asignar un valor a cada nota estandarizada. Ese valor dependerá, directamente, del valor de la escala global que hayamos establecido para nuestro examen. Imaginemos un examen modelo que tiene un valor total de 1000 puntos, divididos a partes iguales entre las 4 pruebas (CL, CA, EIE e EIO) que componen el examen. La prueba de EIE tendría un valor total de 250 puntos, repartidos entre las dos tareas que la componen al 50%, es decir, cada tarea de la EIE tendría un valor total de 125 puntos.

Tomemos la escala de la página siguiente como modelo. Para simplificar el proceso hemos decidido utilizar aquí una escala que cuenta con dos criterios de análisis: uno que hemos llamado Uso de la lengua y representa todos los rasgos lingüísticos que queremos analizar y otra que valora el cumplimiento de las pautas de la tarea, que hemos llamado Adecuación a la tarea (ver Tabla 2). El proceso sería el mismo si utilizáramos, por ejemplo, una escala analítica con varios criterios lingüísticos. Lo único que deberíamos tener en cuenta en ese caso sería la ponderación del valor de cada criterio sobre el valor total de la tarea. En este caso, habíamos establecido anteriormente que Uso de la lengua tendría un valor del 66% sobre el valor total de la tarea y que Adecuación a la tarea representaría el 34% restante.

Tabla 2

Para asignar un valor a cada banda y a cada criterio debemos comenzar por preguntarnos lo siguiente: ¿cuántos niveles puedo certificar con esta tarea? A1, A2 y B1, pero tenemos que tener en cuenta que el nivel B1 lo certifico con la banda 3, por lo que las bandas 4 y 5, en la Tarea 1, solo sumarán unos puntos extra; puntos que en ningún caso serán suficientes para alcanzar los niveles B2 y C1. Deberíamos establecer, entonces, una ponderación de puntos para cada nota (ver tabla 3) con el fin de que las categorías superiores (bandas 4 y 5) sumen puntos, es decir, premien a aquellos que las alcanzan en la tarea 1, pero en ningún caso sirvan para acceder directamente o para dar paso a los niveles B2 y C1.


Tabla 3


Para calcular el valor de las puntuaciones llevamos a cabo las siguientes operaciones: (125 * 0,66) * 0,05 = Punto extra; (125 * 0,66) * 0,3 = Punto de nivel; (125 * 0,34) * 0,2 = Punto de adecuación. Los resultados obtenidos se presentan en la Tabla 4.

Tabla 4

El cumplimiento de la tarea se ha mantenido con el mismo valor en las dos tareas y en todas las bandas, pues entendemos que este criterio es independiente de los que se refieren estrictamente a la competencia lingüística por como ha sido redactado, pues creemos que es muy posible que cualquier candidato, independientemente de su nivel lingüístico, pueda realizar la prueba en cualquiera de los niveles de adecuación descritos.

Para establecer el valor de las puntuaciones de la Tarea 2 hemos seguido el mismo razonamiento, pero en este caso las puntuaciones con valor de Punto extra serán las que corresponden a las bandas 1, 2 y 3 de la categoría Uso de la lengua.

Se ha asignado, en este caso, un valor ponderado de 41% a los Puntos de nivel y un valor del 6% a los Puntos extra de esta Tarea 2. Las operaciones que se han llevado a cabo son: (125 * 0,66) * 0,41 = Puntos de nivel de la Tarea 2; (125 * 0,66) * 0,06 = Puntos extra de la Tarea 2. La categoría de Adecuación a la tarea se ha mantenido igual que en la tarea 1. El resultado para esta tarea 2 se presenta en la Tabla 5 y en la Tabla 6.

Tabla 5

Tabla 6

5) El último paso consiste en calcular los puntos de corte sobre la escala global teniendo en cuenta, por una parte, las notas de corte que hemos fijado para cada nivel y, por otro, los valores que acabamos de calcular para cada nota.

Se puede apreciar que el rango de puntos que ocupa el nivel B1 es mayor que el rango del resto de niveles. Esto es algo habitual por lo que hemos podido comprobar en el análisis de otros exámenes multinivel, y tiene una explicación lógica: los candidatos de B1 están capacitados para cumplir con la primera tarea y, en muchos casos, con parte de la segunda; lo que reportará algunos puntos que sirven para diferenciar niveles de destreza dentro de un mismo nivel y, en consecuencia, una suma de puntos que hace que este nivel tenga un rango mayor.

6) La última fase de este procedimiento consistiría en la aplicación de estos valores a las muestras calificadas por el grupo de expertos. En esta fase los jueces deben comprobar que las notas de corte resultantes para las muestras, los niveles consolidados de los candidatos y las impresiones de los expertos coinciden. En caso de que algún punto de corte resultara alto o bajo, bastaría con repetir el mismo procedimiento: replantearse la nota de corte establecida en base a las escalas, volver a calcular el valor de las puntuaciones, calcular los nuevos puntos de corte y comparar con las muestras calificadas por el grupo de expertos.

Alderson, Clapham y Wall (1998, 154) mencionan de pasada dos procedimientos alternativos para establecer los límites entre aprobado y suspenso en una prueba subjetiva. Se puede considerar que la propuesta que hemos presentado es una versión nueva del enfoque de Determinación de criterios, adaptada a un examen multinivel y desarrollada.

REFERENCIAS BIBLIOGRÁFICAS

Alderson, J. Charles, Clapham, Caroline y Dianne, Wall. Exámenes de idiomas (Trad. de Neus Figueras). Madrid: Cambridge University Press, 1998.

Aptis: <www.britishcouncil.es/examenes/aptis> [consultado en febrero de 2016].

BULATS: <http://www.bulats.org/es> [consultado en febrero de 2016].

Ministerio de Educación, Cultura y Deporte: Marco común europeo de referencia para las lenguas: aprendizaje, enseñanza y evaluación. Madrid: Secretaría General Técnica del MCER-Subdirección General de Información y Publicaciones, y Grupo ANAYA, 2002. En: <http://cvc.cervantes.es/obref/marco> [consultado en enero de 2016].

DELE: <http://escolares.dele.cervantes.es/a2b1.htm> [consultado en febrero de 2016].

DELE: <http://escolares.dele.cervantes.es/pdf/guia_examen_dele_a2b1_escolares.pdf > [consultado en febrero de 2016].

EPLE: <http://132.248.130.236/eple/> [consultado en febrero de 2016].

eRater: <www.ets.org/erater/> [consultado en enero de 2016].

Instituto Cervantes. Diccionario de términos clave para la enseñanza de ELE. Madrid: Instituto Cervantes y SGEL, 2008. [en línea] <http://cvc.cervantes.es/Ensenanza/biblioteca_ele/diccio_ele/default.htm> [consultado en enero de 2016].

Jones, Neil. Multilingual Frameworks. The Construction and Use of Multilingual Proficiency Frameworks [en línea]. Cambridge: Cambridge University Press, 2014.<https://books.google.es/books?id=Imc3BAAAQBAJ&pg=PA65&lpg=PA65&dq=ALTE+linguaskill&source=bl&ots=4wzw9ATMiw&sig=tIYJO4VglbsV5Et9_3QXveXMOQA&hl=es&sa=X&ved=0ahUKEwjE1bfRxI3LAhVMXRQKHePXBCMQ6AEIJjAB#v=onepage&q=linguaskill&f=false> [consultado en enero de 2016].

SIELE: <www.siele.org> [consultado en enero de 2016].

TCF: <www.ciep.fr/es/tcf> [consultado en febrero de 2016].

TOEFL: <http://www.ets.org/es/toefl/ibt/about/> [consultado en enero de 2016].

TOEFL: <www.ets.org/es/toefl/pbt/about> [consultado en enero de 2016].


NOTAS

[1] Los CAT nos interesan especialmente aquí porque el examen SIELE, en cuyo desarrollo estamos trabajando desde hace algún tiempo, nace como examen progresivo, pero con la intención de convertirlo en adaptativo en un futuro próximo.

[2] Puede verse Jones (2014, 63).

[3] Puede consultarse www.bulats.org/es

[5] Aunque resultaría muy interesante analizar con mayor detenimiento el funcionamiento de eRater, no lo haremos por falta de espacio. Puede verse: www.ets.org/erater/

[9] Puede verse www.siele.org

[10] Quede constancia de nuestro agradecimiento por su ayuda a Ileana Lugo, Jefa del Departamento de Evaluación del CEPE de la UNAM.

[13] Puede consultarse www.ciep.fr/es/tcf

[14] Se ha creado una escala muy básica para que sirva de ilustración en este trabajo. Sus contenidos se basan en las propuestas de DIALANG y ALTE, recogidas por el MCER en los Anejos A y D.