Evaluaciones Internacionales de Calidad Educativa: enero 2013

sábado, 26 de enero de 2013

Evaluación de Lectura en PISA, variables de situación

Una de las áreas que se ocupan las pruebas PISA es la de la competencia Lectora ¿Cuáles son las variables de situación consideradas? Las siguientes definiciones fueron ofrecidas por los organizadores.

La definición de situación se tomó del estudio del Consejo de Europa sobre el lenguaje. Se identificaron cuatro variables de situación: lectura para fines privados, lectura para fines públicos, lectura para fines profesionales y lectura para fines educativos. Aunque la intención de la evaluación de la competencia lectora de PISA es medir los tipos de lectura que tienen lugar tanto dentro como fuera de las aulas, la definición de situación no podía basarse exclusivamente en el lugar en el que se llevaba a cabo la actividad. Los libros de texto, por ejemplo, se leen tanto en la escuela como en el hogar, y ni el proceso ni el propósito de su lectura difieren mucho en uno u otro lugar. Además, la lectura también está influida por el uso al que la destine el autor, por los diferentes tipos de contenido y por el hecho de que a veces son terceros (por ejemplo, docentes o superiores profesionales) quienes deciden qué ha de leerse y con qué fin.

Así pues, a efectos de esta evaluación, la situación puede entenderse como una categorización general de los textos según el uso pretendido por su autor, según la relación con terceros relacionados implícita o explícitamente con el texto y según su contenido general. Los textos de muestra fueron extraídos de una variedad de situaciones con el fin de maximizar la diversidad de contenidos en el estudio de la competencia lectora. Se puso especial cuidado en la selección de los textos según su origen. El objetivo de la selección era llegar a un punto intermedio entre la definición general de la competencia lectora que emplea PISA y la diversidad lingüística y cultural de los países que participaban en el estudio. Solo así podía garantizarse que ningún grupo se viera favorecido o desfavorecido por el contenido de la evaluación.

Las cuatro variables de situación tomadas del estudio del Consejo de Europa pueden describirse de la siguiente manera:

• Lectura para fines privados (personal). Es aquella que lleva a cabo una persona con el fin de satisfacer sus propios intereses, ya sean de orden práctico o intelectual. También se califica así a la lectura encaminada a entablar o conservar relaciones personales con otras personas. En esta categoría se encuentran las cartas personales, así como los textos de ficción, biográficos o informativos que se leen por curiosidad, o como parte de actividades recreativas o de ocio.

• Lectura para fines públicos. Es aquella que se practica para tomar parte en actividades sociales o comunitarias; por ejemplo, la lectura de impresos oficiales o de textos informativos sobre acontecimientos públicos. Por lo general, estas actividades comportan un contacto, más o menos anónimo, con otras personas.

• Lectura para fines profesionales (entorno laboral). Aunque no todos los jóvenes de 15 años tendrán que leer en sus entornos laborales, es importante calibrar la capacidad de una persona de esa edad para introducirse en el mundo del trabajo, pues en la mayoría de los países más del 50 % de ellos pasarán a formar parte de la población laboral en un plazo de uno o dos años. Las tareas típicas de esta categoría suelen recogerse bajo la fórmula «leer para hacer», ya que están encaminadas al desempeño de una tarea inmediata.

• Lectura para fines educativos. Este tipo de lectura suele formar parte de la adquisición de conocimientos dentro de una tarea educativa más amplia. Con frecuencia, los materiales escritos no los escoge el lector, sino el docente. Normalmente, su contenido ha sido explícitamente elaborado para cumplir una función formativa. Las tareas típicas de este tipo de lecturas se identifican con la función «leer para aprender».

Extraído de

PISA 2006
MARCO DE LA EVALUACIÓN
Conocimientos y habilidades en Ciencias, Matemáticas y Lectura

miércoles, 16 de enero de 2013

La calidad de la educación y su medición en gran escala

Si consideramos que es imposible definir de manera única el concepto de “Calidad Educativa”, su medición será siempre insuficiente. En la actualidad se emplean gran cantidad de recursos en las evaluaciones, tanto a nivel nacional como internacional ¿Podemos aceptarlas como veredicto final? Por otra parte ¿Estas evaluaciones pueden interferir en el proceso educativo? ¿Promueven la mejora de los mismos? Además ¿Cuál es su nivel de fiabilidad? En cuanto al uso de los resultados ¿Pueden ser inapropiados?

La calidad de la educación y su medición en gran escala: un referente bien elaborado, con una aplicación defectuosa
Si una definición de calidad educativa ha resultado difícil de legitimar, lo mismo ocurre cuando se plantea la necesidad de evaluar el sistema educativo nacional y acercarse a una definición de su nivel de calidad. La solución a esta necesidad resulta insuficiente aún, pues son los exámenes censales a gran escala el instrumento desde el cual ha de tomarse tal medición.

A más de una década de estos ejercicios de evaluación a gran escala, la consolidación de la multicitada calidad educativa no ha sido posible, abriéndose una paradoja: se ha puntualizado dónde están las deficiencias pero no se ha dicho cómo superarlas.

Sobre todo, a raíz de los resultados de las evaluaciones internacionales, principalmente de PISA, que es la más difundida, y, muchas otras a nivel nación.

De lo anteriormente mencionado se infiere que en la actualidad la expresión o la medida de la calidad educativa la aportan casi exclusivamente los exámenes de opción múltiple que se aplican anualmente en las escuelas de México. Una pregunta que quizá se formule de manera muy frecuente es: ¿No resulta esto una involución?

Desde la perspectiva pedagógica de la evaluación educativa, se encuentran en desventaja evaluaciones de este tipo, donde se dejan de lado muchos otros recursos que permiten formarse una idea más precisa del avance de los alumnos y, por tal, del trabajo del profesor, como puede ser un portafolio de evaluación, con productos que prueben la competencia en alguna ejecución de los alumnos, o bien evaluar el desarrollo de la expresión oral, o la competencia en la redacción de textos, o la medición de longitudes, elaboración de figuras y cuerpos geométricos; estos son algunos de los contenidos que no pueden ser medidos a través de exámenes con el formato de opción múltiple. Quienes elaboran este tipo de evaluaciones en nuestro país reconocen la existencia de: “Aspectos esenciales que no evalúan las pruebas en gran escala, como la expresión escrita y oral, la formación de actitudes y valores, la educación artística, e incluso los niveles cognitivos más complejos de las áreas tradicionalmente cubiertas de Lectura, Matemáticas y Ciencias” (Shepard).

Aun así, puede considerarse, desde la perspectiva de la misma autora, que este tipo de instrumentos podrían ser un buen coadyuvante, que junto a las evaluaciones que realizan los docentes puede contribuir a la mejora educativa.

La autora pone énfasis en el uso que se haga de las evaluaciones, que pueden convertirse en herramientas muy útiles, con la capacidad de arrojar luz sobre zonas oscuras que frecuentemente quedan fuera de la reflexión para los profesores y para las escuelas; sobre todo, si se trabajan como complementos de las evaluaciones formativas.

Por otra parte, los exámenes de gran escala pueden llegar a interferir en el proceso educativo en un aula o escuela, ya que no está indicado el uso de estos instrumentos para evaluar el proceso enseñanza-aprendizaje en el interior de un grupo escolar, sino que se constituyen en un referente para docentes, alumnos, padres de familia, directivos y colectivo escolar para tomar nota de las áreas de oportunidad que sean señaladas a partir de estos instrumentos de evaluación; es decir, no es correcto ni ético dar un uso a los exámenes que no corresponde con el objetivo para el que fueron creados, ni con los alcances que este formato de examen presenta. A este respecto, Martínez y Santos formulan una crítica al empleo inadecuado de los resultados obtenidos en la prueba ENLACE:
El desconocimiento de los alcances y límites de las pruebas ENLACE ha hecho que sus resultados se utilicen para propósitos para los que no son adecuados, en particular para valorar la calidad de una escuela solamente con base en el puntaje promedio obtenido por sus alumnos y, lo que es aún más inadecuado, para valorar el desempeño de los maestros.

Este señalamiento es grave, ya que en lugar de promover la mejora de los profesores y de los centros educativos, se genera una obsesión por los resultados. Y además de esto, se sabe que una cantidad considerable de casos de copiado por parte de alumnos pasan inadvertidos; al respecto Martínez y Santos señalan lo siguiente:
[Se] hace inevitable el riesgo de que algunos alumnos copien las respuestas de otros, lo que se facilita por las dimensiones del sistema educativo y el carácter masivo de ENLACE, que dificultan el control de su aplicación, por lo que se decidió utilizar procedimientos computarizados para la detección de posibles casos de copia.

No se sabe hasta qué punto la falta de control en la aplicación de dichos exámenes incide en su resultado. Los exámenes se aplican a través de un personal capacitado ex profeso para ese evento: a cada plantel se le asigna una persona responsable de hacer llegar los exámenes a la escuela y de explicar al director y a la planta de docentes el procedimiento de aplicación, ya que son estos últimos quienes son asignados a un grupo que no es el suyo, estableciéndose frecuentemente entre los docentes algunas complicidades, de manera que no resulta difícil el dictado de respuestas o la permisión hacia la copia entre alumnos, porque aunque los exámenes se presentan en dos versiones distintas para evitar la copia, después de algunos años de aprendizaje, los docentes y los propios alumnos saben que si van a copiar tiene que ser a un examen de la misma versión que el que se tiene.

Esta es un área que requiere de mayor investigación y, aunque lógicamente resulta difícil aproximarse al objeto de estudio desde algunas perspectivas, sí podría ser un terreno propicio para metodologías como las representaciones sociales, imaginario social, interaccionismo simbólico, etnografía o etnometodología respecto al copiado en los exámenes en gran escala.

A pesar de ser este un asunto muy evidente, pues cualquier profesor de educación básica sabe que esto ocurre de ordinario, sin embargo, es un tema que ha quedado en un segundo plano, siendo que esta podría constituir una fuente de error muy sensible en este tipo de exámenes; y esto ocurre lógicamente debido a que los resultados de los exámenes afectan de manera positiva o negativa a los docentes y al plantel educativo en el que se laboran, como consecuencia de que se hacen del conocimiento de toda la estructura educativa, desde jefes de sector, supervisores, directores de escuela y docentes; por lo que la posición obtenida en las evaluaciones es socializada en las zonas escolares, haciéndose la escuela de una especie de fama, dependiendo del lugar en que haya sido ubicado, de acuerdo a los resultados de los exámenes; es decir, se presta a que se creen sanciones sociales entre colegas y entre directivos hacia los docentes. De esta manera, los profesores y los directivos desean que su grupo, escuela y zona escolar aparezcan con una buena calificación. Shepard advierte del tipo de escenarios que se generan a partir de estimular o castigar por medio de las evaluaciones en gran escala:
Otros ejemplos de manejo inapropiado de los resultados de las evaluaciones en gran escala son la asignación de estímulos a los docentes o la elaboración de ordenamientos simples de escuelas supuestamente en función de la calidad de unas y otras, sin tener en cuenta los numerosos factores que inciden en los resultados de los alumnos en las pruebas ni tener en cuenta las limitaciones de éstas. En vez de ello, para facilitar el aprendizaje, es igualmente importante que la retroalimentación esté vinculada explícitamente a criterios claros de desempeño y que se proporcione a los estudiantes estrategias de mejoramiento.

Según estas palabras, cuando se socializa el lugar que obtiene la escuela y esto provoca la comparación entre docentes, se crea una serie de estímulos y castigos sociales percibidos por algunos alumnos, docentes y directivos como una experiencia desalentadora. Esto se desvía del propósito al que toda evaluación educativa se encuentra orientada, que es el de mejorar las prácticas a partir de la retroalimentación que proporciona. Shepard explica que “Tal vez las consecuencias negativas más serias de las prácticas tradicionales de calificación provienen del uso de comparaciones normativas”.

Al parecer, este escenario se recrudecerá, debido a que en el ciclo escolar 2009-2010 se inició con el otorgamiento de estímulos a docentes y directivos por buenos desempeños en la prueba ENLACE, en el marco del Programa de Estímulos a la Calidad Docente, contraviniendo las recomendaciones de los expertos en evaluación, en el sentido de que no debe estimularse a los profesores a partir de los resultados de estos exámenes. El escenario que se genera a partir de estos usos de las evaluaciones en gran escala en nuestro país lo describe Padilla:
La enseñanza y el aprendizaje se han convertido hoy en una especie de adiestramiento para pasar la prueba. Más que preocuparse por el aprendizaje de sus alumnos, los maestros procuran entrenarlos para aprobar exámenes como ENLACE. Para que la evaluación cumpla con su función formativa de mejorar la enseñanza y el aprendizaje, es necesario pasar de la evaluación como objetivo, o más aún como indicador, a la evaluación vinculada al proceso de aprendizaje, al contenido de evaluación y a las formas de enseñanza.

Esto implica desviarse de los objetivos del currículo y de las intenciones de alcanzar una educación de calidad para apropiarse de objetivos personales relacionados a la obtención de un estímulo económico, para lo cual se tendría que trabajar en función del examen.

El uso de calificaciones como recompensa contribuye a lo que Lave y Wenger llamaron la “comercialización del aprendizaje”. Cuando no se da un valor cultural al incremento de la habilidad y la participación de alguien en un esfuerzo, la única razón para participar es obtener un conocimiento superficial que puede exhibirse para que lo evalúen. En revisiones de estudios experimentales, los investigadores descubrieron que el uso de recompensas externas puede minar realmente el interés intrínseco de los estudiantes en una tarea.

A este respecto el INEE plantea de manera muy precisa la siguiente recomendación, que es ignorada por las autoridades educativas:
Es importante no invertir recursos económicos en premiar a escuelas o docentes por resultados espurios, ya que no solo se desperdician los recursos, sino que se mandan mensajes equivocados a la comunidad educativa y a la sociedad… y evitar que se utilicen como evidencia de logros educativos.

Esto es precisamente lo que ocurrió durante el ciclo escolar 2009-2010, en que se asignó un estímulo económico para profesores y directivos, tomando como referencia para ello los resultados del examen ENLACE, con lo que probablemente se estimulen dos comportamientos entre los docentes y directivos, quienes naturalmente esperan obtener dicho estímulo económico el próximo ciclo escolar:

-Establecer acuerdos por escuela para dictar resultados o permitir la copia entre alumnos.

-Que los docentes privilegien los contenidos evaluados en los exámenes de ENLACE y EXCALE, y descuiden los contenidos que no son evaluados, como expresión oral, escritura y medición, entre otros. De ocurrir esto, se estarían abriendo huecos en la formación de los alumnos de educación básica.

Esto, como consecuencia de un tratamiento poco crítico de los resultados que se obtienen en los exámenes, tal como lo sugiere el INEE:
Baste señalar que no es adecuado dar por buenos sin más, los resultados que parecen mostrar la presencia de tendencias de clara mejoría en los niveles de aprendizaje de los alumnos de educación básica del sistema educativo nacional, pero que tampoco se puede descartar que sean reales.

Como respuesta a esta idea, Muñoz y Biel sostienen que es necesario reclamarle calidad a la evaluación de la calidad educativa. Por supuesto que esto es importante, porque, a pesar de los grandes esfuerzos que se hacen y de los avances a los que se ha arribado, estas evaluaciones poseen serias limitaciones. De ahí que, además de exigir calidad en estas mediciones, sea necesario exigir responsabilidad en las inferencias e interpretaciones que se extraen a partir de los resultados estadísticos.

Autores
José Francisco Miranda Esquer
Maestro en educación, campo formación docente por la Universidad Pedagógica Nacional.
Jesús Bernardo Miranda Esquer
Doctor en educación por la Universidad Autónoma de Sinaloa.
En
EDUCERE • Artículos arbitrados
Año 16, Nº 53 • Enero-Abril de 2012 • 43 52

domingo, 6 de enero de 2013

¿El poder desmesurado dado a los instrumentos de medición, afecta negativamente la calidad de la educación?

Las reacciones frente a las Evaluaciones Estandarizadas son diversas. En algunos lugares los resultados son considerados socialmente importantes ¿Qué efectos produce? ¿Ayuda a la mejora de la Educación?

Voluntaria o involuntariamente se le ha dado a este tipo de evaluación la legitimidad y el poder de ser el eje articulador de la política educativa. Es a partir de los resultados de las pruebas de evaluación que se desprenden las políticas de accountablity, de incentivos y castigos, de focalización recursos, de orientación de las capacitaciones, de uso de información para la toma de decisiones etc. Este es un contrasentido si lo contrastamos con las intenciones de mejorar la calidad de la educación. Si analizamos lo que ha ocurrido con la puesta en marcha de estos sistemas, veremos que trata de un mecanismo que en la práctica sirve para empeorar y no mejorar la calidad de la educación. De paso, vale la pena notar que es un error político el señalar que el éxito o fracaso de una política es subir los puntajes en una medición que no mide lo que se le atribuye, y que el sistema tal como esta concebido no puede modificar.

Uno podría preguntarse ¿Porqué se afirma que el tipo de evaluación, instalada como medio de gestión, se ha convertido en un instrumento que baja la calidad, cuando esta diseñada para subir la calidad en educación? La respuesta es que no solo se ha convertido en un freno al desarrollo de la educación, sino que contrariamente a lo que se afirma en los medios, esta involucionando el sistema. Esto se puede fundamentar desde distintos ángulos. A título de ejemplo podemos destacar que:

1. Los puntajes bajan. Como ya se ha señalado, la mera observación de las estadísticas comparables muestra que, a pesar de todos los esfuerzos, los puntajes siguen bajando. Ante esta situación, la tentación es profundizar una política de ejercer más presión sobre los docentes, en vez de revisar el sistema.

2. Efectos perversos de las pruebas. La importancia que se le ha dado a esta forma de evaluación, hace que calidad de educación se haya transformado en sinónimo de un puntaje en las pruebas. Esta es una identificación nefasta tiene a su vez varios efectos:

a. hace que el foco de la educación se ponga en la respuesta a pruebas psicométricas y no en la enseñanza, que es el fundamento de la profesión,

b. saca de la vista cosas que son importantes como finalidades de la educación a saber: el desarrollo de la personalidad, el respeto, la ciudadanía, la curiosidad, la postura valórica, las ganas de descubrir conocimientos, compromiso con la sabiduría, etc. Todas cosas que no son evaluadas por la pruebas psicométricas. En definitiva, lo que es la finalidad de la educación queda de lado en el proceso educativo porque no es evaluado.

3. Subir puntajes crea una ilusión. Identificar la calidad de la educación con subir los puntajes de la pruebas de medición genera situaciones ilusorias. Entrenar para responder una prueba estandardizada, es como cuando a una persona que tiene fiebre se la baja con medicamentos o enfriándole la cabeza, de manera que cuando se le pone el termómetro para medir la fiebre, ésta ha bajado, se concluye que el enfermo sanó. Igualmente, los puntajes se pueden subir o desvirtuar de muchas maneras, como por ejemplo:

a. Inflando las notas (como lo muestran los sistemas de acceso a las universidades)

b. Sacando a los “malos” alumnos cuando haya que dar las pruebas (cuando ese concepto de “malo” no tiene contenido específico sino que es sólo una interpretación)

c. Entregando el resultado de las pruebas a los alumnos

d. Entrenando a los alumnos a responder las pruebas.

e. Los alumnos tienen la libertad de responder al azar

4. La educación se vuelve superficial. Focalizar la política en las pruebas instala una dinámica que hace que la educación se vuelva superficial.

a. Porque la habilidad de responder a pruebas de alternativas múltiples no implica reflexionar de cómo alcanzar una respuesta, sino solo el acto elegir una respuesta. Aprender a reflexionar es importante porque es así como se logra profundizar un tema, y por ende elevar el nivel de calidad de dominio del contenido.

b. Porque responder a pruebas de alternativas múltiples no requiere pensar ni razonar, sino reconocer una respuesta. Aprender a pensar y a razonar es importante porque permite encontrar las estructuras lógicas y a conectar los acontecimientos.

c. Porque responder a pruebas de este tipo, no requiere de la competencia de construir conocimientos, sino a la capacidad de “apuntarle” a una respuesta ya dada

d. “Enseñar para la prueba” implica que los profesores ocupan su tiempo en ejercitar a los alumnos a elegir. Implica que los profesores no le dedican tiempo a enseñar o a pensar.

e. Subir o bajar los puntajes, es una actividad superficial que no tiene que ver con una educación de calidad. Pensar que un sistema educativo mejora (o empeora) porque se suben (o bajan) los puntajes, es pesar que la salud es mejor cuando se le pone el termómetro a los enfermos después de haberles aplicado aspirinas y compresas de agua fría.

5. Consecuencias sociales: aumenta la desigualdad.

a. En los colegios de bajos recursos, enseñar para la prueba “para subir los puntajes … cueste lo que cueste”, significa que los profesores se ven forzados a no educar, sino a entrenar a los alumnos para responder pruebas de opciones múltiples. En los sectores mas pudientes de la sociedad, esta actividad se paga fuera de las horas de clases.

b. Orienta el gasto hacia las pruebas en vez de la enseñanza. En la teoría subyacente a esta visión, se supone que el nivel de ingreso de la familia determina el resultado de la prueba. Las diferencias en los resultados de dichas pruebas no se deben a factores educativos. Entonces, como ya se sabe el resultado de antemano, y también siendo conscientes de que las variaciones son marginales, en vez de seguir evaluando (y pagando por ello) sería mas útil utilizar los recursos de la evaluación a actividades educaciones mas ricas y productivas para los alumnos.

Autor

Juan Casassus – UMCE, Santiago, Chile

En: Evaluación educativa, segmentación social y pérdida de calidad