Evaluaciones Internacionales de Calidad Educativa: Las Evaluaciones Educativas que América Latina Necesita III

LOS PROPÓSITOS Y LOS USOS DE LOS RESULTADOS DE LAS EVALUACIONES ESTANDARIZADAS
Sea en la implementación de un sistema de evaluación o en su reforma, es necesario considerar algunas opciones básicas de acuerdo a lo que se espera de él.

El primer paso es definir cuál será el propósito del sistema de evaluación y para qué se usarán sus resultados

Es preciso considerar diversas opciones, que no son necesariamente excluyentes. Un sistema puede combinar varias de ellas, pero es importante tener conciencia de que cada opción requiere de un determinado diseño y tiene exigencias técnicas y de costos diferentes. Se debe analizar si el sistema nacional de evaluación será:

de carácter diagnóstico (para alumnos, escuelas o sistema educativo), sin consecuencias directas para los estudiantes, cuya finalidad principal es enriquecer con información de calidad las percepciones, decisiones y acciones de diversos actores del sistema –autoridades y cuerpos técnicos, supervisores, directivos, docentes, estudiantes y sus familias– para mejorar la enseñanza y el aprendizaje.
de certificación de los logros educativos de los estudiantes, cuyo propósito central es establecer quiénes han alcanzado los conocimientos y desempeños necesarios para aprobar un curso o nivel y, en consecuencia, aprueba o reprueba.

Es necesario también establecer un adecuado balance entre la implementación de pruebas nacionales y la participación en pruebas internacionales

Las pruebas nacionales pueden ofrecer una mirada más apropiada acerca de qué aprenden los estudiantes de aquello que se les está enseñando, mientras que las pruebas internacionales pueden servir para ubicar la situación del país en relación a lo que saben y son capaces de hacer los estudiantes en otras sociedades y enriquecer el debate sobre el currículo nacional y el enfoque de la enseñanza. Los países deberían analizar cuidadosamente en qué pruebas internacionales participar, teniendo en cuenta lo que cada una pretende evaluar y su pertinencia en relación a los objetivos nacionales. Parece recomendable participar periódicamente en al menos una evaluación regional o internacional, en el marco de la política de prioridades que cada país defina.

Evaluaciones para la certificación de los aprendizajes de los estudiantes

Un sistema de evaluación para certificar los aprendizajes de los estudiantes a través de exámenes nacionales de alta calidad técnica tiene ventajas asociadas a la transparencia y responsabilidad por los resultados

Hoy es común que dos estudiantes que han aprobado un mismo nivel educativo en dos regiones distintas de un país, posean en realidad niveles de conocimiento muy diferentes. Los sistemas de evaluación para la certificación dan transparencia al valor de los certificados educativos ante la sociedad. Además, dichos sistemas hacen responsables tanto a los docentes como a los propios estudiantes por alcanzar los conocimientos y capacidades que evalúa el examen, lo cual tiene impactos positivos sobre el aprendizaje. En todo caso, la evaluación externa con propósitos de certificación es más apropiada para los ciclos superiores del sistema educativo, sobre todo hacia el final de la educación media.

Un sistema de evaluación para la certificación implica algunos requerimientos que son costosos

Por una parte, las pruebas deben ser de carácter censal y cada estudiante debe tener más de una oportunidad para rendirla, lo cual requiere implementar varios operativos de evaluación cada año. Por otra parte, las pruebas deben tener una amplia cobertura curricular, lo cual requiere que sean extensas, en lo posible con preguntas de respuesta construida (que tienen un importante costo de codificación) y deben abarcar varias asignaturas o disciplinas.

Un sistema de evaluación para la certificación puede generar tensiones importantes que es necesario anticipar

Si las pruebas son exigentes, ello puede conducir a niveles de reprobación muy altos, que afectarían principalmente a los sectores sociales más vulnerables y podrían agudizar problemas como la deserción y el desempleo juvenil, lo cual las haría insostenibles desde el punto de vista social y político. Por ello, es preciso acompañar este tipo de evaluaciones (en realidad todo tipo de evaluaciones, pero estas en particular) con acciones pedagógicas de carácter complementario y compensatorio. Proponer estándares altos implica asumir responsabilidad sistémica por proporcionar todas las oportunidades para aprender: textos, materiales, instalaciones y preparación de maestros, entre otros. Existen diversos caminos para enfrentar este problema:

Establecer que la evaluación estandarizada constituya solo una parte del proceso de certificación de aprendizajes de los estudiantes (por ejemplo, el 40% de su calificación final). El resto de la nota correspondería a las evaluaciones que realizan los docentes a cargo de los estudiantes. Si bien en este caso se mantiene el problema respecto a la heterogeneidad de los criterios de evaluación empleados por los docentes, es una forma de combinar la evaluación externa y la interna, e incluso de aportar a los docentes una mirada externa que les permita reflexionar sobre sus propios criterios.
Establecer un periodo de transición hacia estándares únicos y universalmente aplicables. Durante dicho período, el foco principal se centra en la mejoría o progreso de los estudiantes de cada escuela respecto a su situación anterior, y no únicamente en el cumplimiento del estándar absoluto de certificación.

La peor respuesta que podría darse a este problema sería establecer un porcentaje fijo de reprobación, por ejemplo, no debe reprobar más del 10% de los estudiantes. Ello implica utilizar pruebas más fáciles y, por lo tanto, enviar a estudiantes, familias y educadores una señal equivocada respecto a las expectativas de aprendizaje.

Evaluaciones de carácter diagnóstico y formativo

Un sistema de evaluación de tipo formativo y sin consecuencias directas para los estudiantes tiene ventajas en términos de costos, posibilidades de diseño y de establecimiento de estándares altos, y aporte a una cultura de evaluación

Los costos de aplicación de estas pruebas pueden ser menores, dado que pueden hacerse en base a muestras y aplicarse solo en algunos grados claves y cada cierto número de años. Por otra parte, las pruebas pueden diseñarse con carácter matricial, en que no todos los estudiantes responden a las mismas preguntas sino a bloques de las mismas, lo cual permite trabajar con una cantidad muy grande de preguntas y obtener un análisis más detallado de los distintos aspectos del currículo. Estos sistemas permiten definir estándares o niveles de expectativa exigentes sin que ello produzca un fracaso generalizado. Asimismo, ayudan a construir una cultura de la evaluación y a acumular capacidad técnica, de modo que, cuando se analice la posibilidad de establecer un sistema con consecuencias, existan las condiciones para hacerlo apropiadamente. Una de las alternativas a considerar entre los usos de carácter formativo es la de “liberar” una prueba completa para que sea aplicada en forma autónoma por parte de los maestros, con el fin de ayudarles a identificar dificultades de alumnos individuales y de enriquecer su repertorio de instrumentos de evaluación.

El principal problema de estas evaluaciones es que pueden carecer de impacto si no se toman algunas acciones complementarias

Las evaluaciones de carácter diagnóstico y formativo pueden resultar intrascendentes si no van acompañadas de una estrategia precisa y de una inversión importante para asegurar la divulgación de los resultados y su uso en acciones educativas posteriores, puesto que su efectividad se juega en que los diferentes actores reciban, comprendan y utilicen los resultados. Por esto hay que tener presente que:

Para que los resultados de este tipo de evaluaciones tengan impacto sobre las políticas educativas, se debe invertir tiempo en el análisis y discusión de los mismos por parte de diversas áreas del Ministerio de Educación y otros actores relevantes, en la comprensión de los problemas y deficiencias que los resultados ponen de manifiesto y en la concepción de acciones e inversiones apropiadas para hacerles frente. Las autoridades deben estar dispuestas a someter sus políticas y decisiones al escrutinio de la ciudadanía, para lo cual es necesario también invertir en la comunicación apropiada y permanente de los resultados a la opinión pública.
Para que los resultados tengan impacto sobre las prácticas de enseñanza, es imprescindible asimismo invertir tiempo en el análisis e interpretación de sus implicancias didácticas: si los estudiantes no son capaces de resolver cierto tipo de situaciones, ¿qué es lo que se está haciendo de manera insuficiente o inapropiada en las aulas y qué es lo que se debería hacer? Este tipo de análisis debe ser realizado tanto por especialistas en la didáctica de las áreas evaluadas como por los docentes, creando para este último efecto espacios permanentes y sistemáticos de formación en servicio y de trabajo colectivo al interior de las escuelas. Es muy importante que los maestros puedan analizar la mayor cantidad posible de ítemes para poder identificar cuáles revelan un bloqueo importante para el desarrollo de nuevos conceptos o capacidades. Sin embargo, siempre será necesario conservar el carácter confidencial de una parte de los ítems para poder realizar mediciones comparables en el tiempo.
Para que los resultados tengan impacto sobre la motivación de los estudiantes y sobre la actitud de las familias hacia el aprendizaje escolar, es necesario proveerles de información apropiada y comprensible acerca de lo que se considera imprescindible haber aprendido en cada grado o nivel educativo y de las acciones que pueden contribuir al logro de dichos aprendizajes.

Evaluar con una perspectiva ampliada

Es muy importante que las pruebas no se limiten a evaluar los conocimientos y competencias correspondientes a un único grado (aquel en que se aplica la evaluación), sino que incluyan una perspectiva más amplia de niveles de desempeño –desde más básicos a más complejos– a lo largo de varios grados, de modo de identificar qué han aprendido los estudiantes en grados anteriores y qué necesitan ahora. De este modo, los docentes podrán constatar y subsanar las deficiencias en los aprendizajes de cursos previos, que impiden a los estudiantes continuar avanzando y los resultados serán útiles no sólo para los docentes del grado evaluado, sino también para los de grados anteriores. El énfasis no estará puesto en comunicar a los docentes que los estudiantes “aprueban” o “desaprueban”, sino en comunicar que están en diferentes puntos de un continuo de aprendizaje, en el que todos pueden y necesitan progresar.

Las pruebas de tipo diagnóstico pueden tener carácter muestral o censal, dependiendo de la estrategia de cambio educativo

El carácter censal o muestral tiene diversas implicancias, aunque también es posible combinar una aplicación por muestras controlada con una distribución censal de las pruebas para su aplicación en forma autónoma por parte de las escuelas, con fines formativos y de análisis de resultados e identificación de estudiantes que necesitan apoyos complementarios.

Las pruebas a base de muestras sirven para tener un diagnóstico global del sistema. Requieren de un cuidadoso diseño de la muestra, de modo de obtener información representativa para los niveles de desagregación en los que se desee actuar y tomar decisiones (regional, provincial, municipal; urbano y rural; escuelas indígenas, etc.). El impacto de los resultados de estas pruebas depende principalmente de las medidas de política educativa que se tomen a nivel central y de una estrategia de difusión apropiada que llegue a todas las escuelas.
Las pruebas censales sirven para obtener información de cada una de las escuelas e incluso de los alumnos. El impacto de sus resultados depende de la devolución de la información a cada comunidad educativa, con un enfoque y un formato adecuados para promover una mayor participación y compromiso a nivel local. La información también puede resultar muy útil para dirigir mejor las políticas hacia distritos o escuelas con mayores problemas, ya que se puede contar con un “mapa” de resultados de todas las escuelas, zonas, provincias, tipos de escuela, etc.

Uso de las evaluaciones para establecer incentivos
Además de las opciones examinadas, existen políticas de evaluación estandarizada dirigidas a establecer incentivos económicos en función de los resultados o a propiciar un mercado competitivo entre las escuelas

Tres son las principales modalidades en este tipo de políticas:

Utilizar los resultados para construir rankings de escuelas y hacerlos públicos, como forma de: fomentar la responsabilidad de las escuelas por sus resultados; entregar a las familias información para la toma de decisiones sobre la escuela a la cual enviar a sus hijos; promover la competencia entre los centros educativos por obtener mejores resultados.
Utilizar los resultados para entregar incentivos económicos a las escuelas que obtienen mejores resultados o mejoras en relación a sus resultados en evaluaciones anteriores.
Utilizar los resultados como indicador de la calidad del trabajo de cada docente y como criterio para otorgar incentivos económicos.

Estos enfoques de uso de la evaluación a veces se constituyen, con o sin intención deliberada, en un mecanismo por el cual el Estado renuncia a su responsabilidad por los resultados del sistema educativo

En ocasiones, el Estado limita su accionar a la realización de evaluaciones, la entrega de resultados y el establecimiento de incentivos en función de estos resultados, transfiriendo la responsabilidad por los resultados a la relación entre escuelas y familias, como si se tratase de un asunto entre actores privados, en lugar de ocuparse de crear las condiciones para que la enseñanza resulte efectiva proveyendo los recursos necesarios, constituyendo un elenco docente adecuadamente formado y estableciendo mecanismos idóneos para la evaluación y la orientación de la labor de las escuelas. Este modo de operar no considera la complejidad de la labor educativa, en especial en medios socialmente desfavorecidos, y la necesidad de invertir en la creación de capacidades como herramienta principal para la mejora de la enseñanza y el aprendizaje.

Criterios básicos para la divulgación y uso de los resultados
La responsabilidad por los resultados debe ser compartida por diversos actores
Debería evitarse todo uso de los resultados con el fin deliberado o implícito de culpabilizar o responsabilizar de manera exclusiva a ciertos actores. La responsabilidad debe ser compartida entre las autoridades nacionales y regionales, los cuerpos docentes, los estudiantes y sus familias.

La responsabilidad por los resultados requiere de una adecuada combinación entre las exigencias y los apoyos a las escuelas y a los docentes

Por un lado, es necesario que escuelas y docentes asuman su responsabilidad respecto al objetivo de que todos los estudiantes aprendan lo que se espera de ellos. Simultáneamente, es deber de las autoridades establecer las políticas de apoyo necesarias para que escuelas y docentes puedan desarrollar su labor de manera apropiada. Un esquema de exigencias altas sobre escuelas y docentes sin los correspondientes apoyos solo puede generar malestar y desánimo. Un esquema de apoyos sin contrapartes y exigencias puede generar autocomplacencia.
Es inapropiado utilizar los resultados de las pruebas estandarizadas como indicador principal de la calidad del trabajo del docente o de la escuela

Esto es importante, en particular si no se ha controlado el efecto de otros factores internos y externos al sistema educativo y si no se tiene en cuenta que el aprendizaje depende también de la motivación y esfuerzo personal del estudiante. Además, dado que los resultados de pruebas estandarizadas no son el único indicador de la calidad de la educación, es preciso considerarlos en conjunto con otros aspectos relevantes como la retención, la pertinencia y relevancia de lo que se enseña, la formación de valores y hábitos o la formación ciudadana. Debe evitarse la identificación del término “calidad” con resultados de pruebas estandarizadas.

Para facilitar la comprensión y uso de los resultados, no basta con ofrecer resultados numéricos

Es fundamental ilustrar a los distintos actores acerca del tipo de tareas que los estudiantes debieron resolver en las pruebas. Este criterio debe combinarse adecuadamente con la necesidad de mantener el carácter confidencial de un conjunto de preguntas, que puedan emplearse en futuras evaluaciones para establecer mediciones comparables en el tiempo. Si bien no se pretende que los docentes utilicen pruebas estandarizadas para evaluar a sus estudiantes, el conocimiento y la comprensión de las mismas pueden contribuir a mejorar sus modos de evaluar y a desarrollar una cultura de la evaluación.

Al reportar las diferencias de resultados en función de la composición sociocultural del alumnado de las escuelas, se debe cuidar de no crear un sistema de expectativas de logro diferenciado por grupos sociales
En todo caso, las diferencias deberían producirse en las políticas para crear condiciones apropiadas para enseñar a los grupos más desfavorecidos. Se debería descartar también cualquier tipo de uso de los resultados que, directa o indirectamente, propicie la selección de estudiantes por parte de las escuelas a los efectos de mejorar sus resultados.

Advertencias sobre la comparación de resultados entre escuelas
Aunque los resultados de pruebas estandarizadas no dan cuenta en forma exhaustiva de la calidad educativa de una escuela, sí aportan información relevante de los niveles de desempeño alcanzados

La información sobre resultados en dos pruebas estandarizadas –en general, lenguaje y matemática– no constituye por sí misma una evaluación de la “calidad educativa” de las escuelas ni debería presentarse al público como tal. La “calidad” de una escuela incluye otros aspectos relevantes y valorados por los docentes, estudiantes y familias, tales como el desarrollo emocional, las relaciones interpersonales, la formación cívica y en valores, entre otros. Aun así, la información comparativa acerca de los niveles de desempeño alcanzados por los estudiantes en una diversidad de escuelas puede ser relevante para los equipos docentes de las escuelas, en la medida en que enriquece la percepción de la propia labor, permitiéndoles ubicar los logros de sus estudiantes en el contexto de los alcanzados por los estudiantes en otras escuelas.

Para que la comparación entre los niveles de desempeño de los estudiantes sea apropiada, se deben considerar sus condiciones sociales de origen

Los resultados académicos de las escuelas deberían poder compararse con los de escuelas de similar composición social, dado que los retos y dificultades que implica enseñar a estudiantes de origen desfavorecido (o de lengua materna indígena) son muy diferentes que en el caso de estudiantes de familias con educación secundaria completa y/o terciaria. También hay que tener en cuenta las tasas de deserción de las escuelas y sus políticas de selección de estudiantes, dado que una escuela puede mejorar sus resultados a través de la exclusión de estudiantes con dificultades.

Las comparaciones entre escuelas deben considerar la diferencia entre medir el “logro educativo” y medir el “aprendizaje”

En rigor, si el propósito es entregar a las escuelas, familias y/o autoridades, información acerca de la capacidad de enseñar de los docentes y las escuelas, es necesario medir el progreso de los estudiantes a lo largo de un período lectivo (“aprendizaje”) y no únicamente el resultado final (“logro”). Las diferencias entre estos dos términos se expresan en que:

El aprendizaje puede ser definido como el cambio ocurrido en los conocimientos y capacidades de cada estudiante a lo largo del año lectivo. Su medición requiere la aplicación de dos pruebas, una al inicio y otra al final. De este modo es posible constatar el progreso realizado por cada alumno.
El “logro educativo” en cambio, se mide con una única prueba y refleja la acumulación de conocimientos y capacidades a lo largo de toda la vida del estudiante, lo cual incluye el capital cultural familiar y sus experiencias en otras escuelas o con otros docentes.

Debe tenerse siempre presente que el aprendizaje y el logro educativo de los estudiantes dependen tanto de lo que hacen las escuelas y docentes, como del esfuerzo de los propios estudiantes, del apoyo de las familias a la tarea escolar, del contexto comunitario y cultural y de las políticas educativas. Los problemas educativos no pueden ser resueltos apelando exclusiva ni principalmente a mecanismos de mercado.

Los resultados expresados en términos de rankings de escuelas deben ser mirados con precaución

La mayoría de rankings de escuelas transmiten una falsa imagen de ordenamiento. Una escuela puede ocupar el primer lugar y otra el número 40 y, sin embargo, las diferencias entre sus promedios pueden no ser estadísticamente significativos. Esto significa que no puede decirse si un promedio es realmente superior al otro, porque las diferencias entran dentro de los márgenes de error de la medición. Pero aun cuando las diferencias en los promedios sean estadísticamente significativas, pueden ser irrelevantes en términos de las proporciones de alumnos que logran los niveles de desempeño esperados.

Itinerario para la toma de decisiones
Considerando las alternativas existentes para una política de evaluación, antes de poner en marcha un sistema de evaluación (o de modificar uno existente) es indispensable seguir un itinerario de decisiones para definir las características del sistema que incluya al menos las siguientes preguntas básicas:

¿Para qué se quiere evaluar?
¿Quiénes usarán los resultados y con qué propósitos?
¿Qué se espera saber que no se sepa ya?
¿Cuáles serán las unidades de análisis para el reporte de resultados: estudiantes individuales, grupo de clase/maestros, escuelas, tipos de escuela, entidades subnacionales, sistema educativo?
De acuerdo a los propósitos definidos, ¿qué es más apropiado evaluar –aprendizaje o logro educativo– al egreso de determinados grados o ciclos?
¿Qué tipo de consecuencias tendrán los resultados y para quiénes?
De acuerdo a los propósitos definidos, ¿es necesario trabajar en forma censal o son suficientes evaluaciones en base a muestras?
¿Qué grados y qué disciplinas es importante evaluar?
¿Cada cuánto tiempo es necesario y adecuado realizar las evaluaciones?

Las respuestas a estas preguntas deberían plasmarse en un plan de evaluación a corto, mediano y largo plazo, claro y explícito. En la elaboración de dicho plan es muy importante considerar los costos en dinero implicados en cada opción y los recursos humanos necesarios para su adecuada implementación. En particular, se debe balancear la inversión a realizar en la recogida de información con la inversión en la difusión y uso de los resultados. Muchos Ministerios de Educación destinan importantes sumas de dinero a recoger una gran cantidad de información todos los años, que luego casi no se analiza, ni se difunde ni se utiliza. Es absolutamente inconducente implementar un primer operativo de evaluación si no se ha elaborado un plan de trabajo de largo plazo.

“Mandatos” útiles al momento de tomar decisiones políticas respecto al sistema de evaluación:

“No harás daño”. Una de las primeras normas del juramento hipocrático señala que el médico se abstendrá de todo aquello que pueda generar daño o perjuicio a sus pacientes. Del mismo modo, a la hora de pensar en un sistema de evaluación es importante considerar los riesgos de efectos no deseados y perjudiciales que la estrategia de evaluación diseñada podría tener sobre el propio sistema educativo que se desea mejorar.
“El consumo excesivo de este producto puede resultar perjudicial para la salud”. La evaluación no puede estar por encima de la educación. El exceso de evaluaciones puede producir perjuicios para la salud del sistema educativo, en especial si solo hay evaluaciones pero no hay políticas para dar respuesta a los problemas que estas ponen de manifiesto.
“El consumo exclusivo de este producto también puede resultar perjudicial para la salud”. La evaluación no produce mejoras por sí misma. Debe estar alineada con otro conjunto de elementos para que aquellas se produzcan. Se debe evitar la ingenuidad de pensar que evaluando mucho – y poco más que eso – se va a mejorar la educación.
“No evaluarás en vano”. Se debe evitar recoger todos los años información que nunca será analizada ni utilizada. Para que un sistema de evaluación tenga impacto, debe tener una periodicidad que garantice que los datos puedan ser analizados, discutidos, comprendidos y utilizados. Incorporar la nueva información y traducirla en decisiones y acciones lleva tiempo. Los cambios en el sistema educativo requieren más tiempo aun.
“Vísteme despacio Sancho, que estoy apurado”. Es muy importante que quienes toman las decisiones en los Ministerios de Educación desestimen la creencia ingenua en la existencia de caminos fáciles y rápidos. No es posible montar un programa de evaluación serio en tres meses. No existe coyuntura ni “ventana de oportunidad” que lo justifique: las consecuencias de la improvisación se harán sentir tarde o temprano. La evaluación requiere reflexión cuidadosa acerca de sus fines y usos; discusión pública sobre qué es lo fundamental a evaluar; diálogo e involucramiento de diferentes actores; conformación de equipos técnicos competentes en diversos aspectos; e información previa para que los actores se involucren con la evaluación.

Extraído de
http://rinace.net/riee/numeros/vol1-num1/art4_htm.html
Pedro Ravela, Patricia Arregui, Gilbert Valverde, Richard Wolfe, Guillermo Ferrer, Felipe Martínez Rizo, Mariana Aylwin y Laurence Wolff

martes, 24 de marzo de 2009

Las Evaluaciones Educativas que América Latina Necesita III

No hay comentarios:

Busca en mis sitios