"La polémica tarea de evaluar la calidad"
Revista UMC # 2 del Ministerio de Educación, Julio 2001
Habida
cuenta que el movimiento de los estándares de contenidos y rendimiento ya llegó al Perú,
impulsado por los organismos internacionales, vale la pena revisar algunos de sus antecedentes,
fundamentos y objeciones para ubicarnos en el mejor plano posible.
Estos organismos internacionales se han nutrido del debate interno en Estados Unidos iniciado
hace unos años como consecuencia de las crecientes evidencias sobre el descenso en el rendimiento
que tuvieron los estudiantes de ese país que culminaron la secundaria en las décadas de
1970 y 1980. Las mediciones desalentadoras que se obtenían con las pruebas NAEP y SAT
(Una nación en riesgo, 1993), así como los bajos resultados comparativos obtenidos frente
a los estudiantes europeos y asiáticos en el TIMSS, motivaron a los políticos norteamericanos
a promover el establecimiento de estándares nacionales que sirvieran, a la vez, como metas y
como medidas de progreso hacia esas metas, para evaluar la educación escolar de los estudiantes
norteamericanos.
Sin embargo, no todos los antecedentes académicos respaldaban el uso de las pruebas estandarizadas.
Por ejemplo, un estudio de cinco años reportado en 1986 por Donald Dorr-Bremme y Joan Herman,
de la Universidad de California -confirmado por otros estudios de 1990 y 1992- mostraron
que los profesores entrevistados no usaban los resultados de las pruebas para mejorar su
enseñanza, porque no los consideraban una buena medida de lo que ellos enseñaban. Además,
los resultados llegaban meses después de aplicadas las pruebas, sin especificar el detalle
de cada alumno, por lo que no servían como retroalimentación.
Lo paradójico era que a pesar de ello las pruebas tenían un enorme impacto en la vida del
aula, porque los profesores se sentían obligados a enseñar en función de ellas, más aún
si sus resultados definían sus promociones y bonificaciones. Ocurrió entonces que los profesores
empezaron a entrenar a los alumnos para mejorar sus puntajes en estas pruebas, dejando de
lado aquellos temas que, siendo importantes, no serían evaluados.
De la fracasada experiencia israelí también aprendemos los inconvenientes que ocasiona
el intento de generar igualdad de oportunidades a partir de la exigencia de estándares
iguales de contenido y rendimiento para todos los alumnos. Los resultados de las pruebas
segmentaron a los alumnos en dos: los que lograron puntajes altos (generalmente más por
su procedencia socioeconómica y cultural que por la labor del colegio) y los que lograron
puntajes bajos, lo que llevó a etiquetar negativamente a los alumnos y a los profesores
de los colegios más bajos. Los resultados aumentaron la presión de los padres por mandar
a sus hijos a los mejores colegios públicos y generó una gran frustración en quienes
tenían que conformarse con los colegios de menores logros o emergentes, especialmente
los de zonas periféricas que atendían a alumnos de procedencias étnicas o económicas con
desventajas económicas o sociales (hijos de pobres, hijos de inmigrantes, etcétera).
¿De qué estándares estamos hablando?
Hay tres tipos de estándares básicos: los estándares de contenidos (que se encuentran en
los "programas oficiales"), que establecen el listado de temas o competencias que deberían
ser aprendidos por todos los alumnos; los estándares de desempeño, que definen los grados
de avance o niveles de logro alcanzados por los alumnos; y los estándares sobre las oportunidades
para aprender, referidos a los programas, profesores, equipos y otros recursos disponibles
para que cualquier alumno pueda alcanzar los estándares de contenido y desempeño.
La experiencia mundial enseña que, tomados como conjunto, los colegios más pobres siempre
alcanzan menores logros de desempeño que los colegios económicamente más solventes. Sabemos
que el nivel socioeconómico de las familias de los alumnos es un predictor directo de su
aprendizaje en el colegio. Por ello, medir a todos con la misma vara resulta inequitativo
y discriminatorio, ya que a igualdad de logros esperados, el esfuerzo que deben hacer los
alumnos pobres para alcanzarlos es mucho mayor que el que deben hacer los alumnos de familias
bien dotadas. Los estándares nacionales pueden crear la ilusión de que todos tienen una
posibilidad razonable de alcanzar los mismos estándares; pero como eso no va a ocurrir,
se tenderá a culpar a los profesores o a los alumnos pobres por no haberse esforzado lo
suficiente. Esto termina privilegiando a los centros educativos privados de mayor nivel,
cuyos alumnos exhibirán -de manera natural- los rendimientos más meritorios. No pocas voces
habrán de surgir entonces para sugerir alguna forma de privatización de la educación.
¿Para qué se aplican estas pruebas?
Debemos clarificar para qué se aplican estas pruebas y qué se puede concluir a partir de
ellas. En el caso norteamericano, la racionalidad que sostiene el uso de las pruebas
estandarizadas para medir el avance en la adquisición de los conocimientos o las competencias
que harán que los alumnos sean más competitivos cuando ingresen al mercado laboral y tengan
un impacto favorable en el desarrollo científico y económico del país, choca con las evidencias
de que quienes obtiene altos puntajes en las pruebas no necesariamente son los alumnos
mejor formados y con mayores probabilidades de éxito en sus desempeños extraescolares.
Lo que realmente miden estas pruebas es la capacidad de los alumnos de rendir bien en
pruebas similares, nada más.
Adria Steinberg, Roberta Tovey, y Howard Gardner ("Focus Series # 2", The Harvard Educational
Letter,1996) plantean que las pruebas estandarizadas solo enfocan el uso estrecho del
conocimiento que hace una cabeza individual en un momento determinado, pero son pésimos
predictores del éxito postescolar.
Por otro lado, sostienen que la mayoría de las pruebas evalúan solamente las inteligencias
lingüística y lógico-matemática, por ser las más fáciles de medir, pero desconocen todas
las otras inteligencias de los estudiantes que pueden promover el éxito en sus vidas.
Como resultado de ello, generalmente fallan en predecir cuán bien un alumno se desempeñará
en los niveles postsecundarios o en el puesto de trabajo. Mucho menos permiten hacer
inferencias sobre el desempeño del país en su conjunto. Por ejemplo en el TIMSS los
asiáticos sacan puntajes muy altos pero no alcanzar el desarrollo económico, científico
y tecnológico que logra Estados Unidos, que se ubica a media tabla.
La misma línea de pensamiento la tiene el experto norteamericano en economía de la educación
Dr. Henry Levin, de las universidades de Stanford y Columbia. En su artículo publicado
en Educational Researcher (vol. 27, N.° 4, mayo de 1998) él expresa su desacuerdo con
quienes han venido asumiendo una relación positiva entre un incremento en los logros
académicos (medidos en la forma de puntajes más altos en las pruebas estandarizadas) y el
incremento en la productividad del trabajador.
Levin sostiene que en la investigación no hay sustento alguno como para argumentar que
estándares más altos y desempeños más elevados en pruebas estandarizadas sean las claves
para una mayor productividad en el trabajo y mejores ingresos en la vida laboral. Él dice
que no hay duda de que a más años de educación, el adulto obtiene mejores ingresos; pero
que eso no implica que los nuevos estándares traerán consigo una mayor productividad en
la economía.
Uniformización
Otro efecto lamentable de la estandarización de contenidos es que al exponer a todos los
colegios al mismo criterio de éxito o calidad, se les obliga a ceñirse a ellos sacrificando
su identidad y orientación particulares. Esto lleva a un perjudicial estrechamiento del
currículo porque la administración de estas pruebas y el uso de sus resultados para otorgar
estímulos económicos a los profesores y colegios alienta a los directores y docentes a
que se preocupen por enseñar solamente aquello que aparecerá en las pruebas, para convertir
a los alumnos en "buenos solucionadores de tests".
Esto es más notorio aún en aquellos casos en los que se usa la evaluación computadorizada
, porque esto desplaza a varias importantes áreas del currículo que son muy enriquecedoras
para los alumnos pero difíciles (o imposibles) de evaluar mecanizadamente; por ejemplo,
los programas de arte. Curiosamente, alumnos que desarrollan buenos programas de arte logran
mejores desempeños postescolares que muchos de aquellos que se dedican a la computación.
Adquirir cualquier habilidad artística requiere paciencia y perseverancia, desarrollar
sensibilidades especiales y además alienta a los niños a ser confiados en sí mismos y
autodisciplinados. Con seguridad, estas son metas importantes del sistema educacional.
¿Qué tienen de positivo?
Quienes promueven estas pruebas ven en los estándares una manera de elevar las exigencias
y con ello los rendimientos. Encuentran que sirven a la vez como metas y como medidas de
progreso hacia esas metas impulsando hacia arriba el desempeño de los alumnos. Además,
afirman, proporcionan protección al consumidor mediante el suministro de información
precisa a estudiantes y padres.
Por otro lado, estos estándares nacionales cumplen la función coordinadora de las diversas
partes del sistema educativo: los profesores que preparan sus lecciones, las universidades
que forman profesores, los diseñadores de programas para apoyar la educación y los expertos
que preparan las pruebas de rendimiento.
Sin embargo, quienes se preocupan por la igualdad de oportunidades confrontan lo anterior
sosteniendo que estos estándares se convertirán en sobreexigencias para los grupos más
débiles, lo que a la larga llevará a producir mayores fracasos en los niños pobres, a
facilitar su estigmatización negativa y a promover la privatización.
El Laboratorio de Medición de Calidad de Unesco (1997)
En el caso peruano, la decisión de incorporarnos a un esquema de evaluación comparativa
internacional ha estado llena de errores de los cuales es necesario sacar importantes
lecciones.
a) Un primer gran error fue ingresar a la medición comparativa internacional de manera inconsulta y
autoritaria, sin haberlo debatido previamente en la comunidad educativa nacional para
preparar el terreno para sacarle provecho, y sin haber acumulado previamente suficiente
experiencia nacional para conocer sus alcances y limitaciones para el caso peruano.
b) Otro gran error cometido estuvo en las inadecuadas estrategias de involucramiento de
los centros educativos de la muestra que utilizó el Ministerio de Educación a la hora de
aplicar las pruebas. Nuevamente de manera autoritaria y descortés, lejos de pedir la
colaboración de los colegios se les conminó a participar, sin beneficiarse de la
motivación que podrían haber comunicado los profesores a los alumnos participantes.
Después de aplicadas las pruebas, no se les devolvió ni a los profesores ni a los alumnos los resultados, por lo que no les han podido dar ningún uso. La publicación de resultados globales no sirve de manera específica a cada colegio participante.
c) Otro tremendo desacierto fue la argumentación oficial para no publicar los resultados,
aduciendo atingencias técnicas que -lejos de ser puestas a consideración de los expertos
junto con los resultados- sirvieron como excusa para ocultarlos, lo que tan solo corroboró
que el Perú había salido muy mal (los resultados buenos no se esconden) y que todo esto
era una simple maniobra político-electoral. Además, con el antecedente del uso de la
infraestructura educativa para fines electorales, se desacreditó totalmente la Unidad de
Medición de Calidad y cualquier documento que ella pudiera producir.
d) Si bien en los últimos meses se han empezado a publicar los resultados globales y comparativos
entre los países que participaron del Laboratorio de Medición de la Calidad de Unesco
1997, mientras no se publiquen las preguntas no se podrá saber realmente de qué tipo de
habilidades, conocimientos o competencias carecen los alumnos peruanos evaluados, por lo
que quedan truncados el juicio correcto sobre el nivel de su desempeño y la retroalimentación
destinada a superar las deficiencias.
e) Los resultados publicados respecto al pésimo desempeño de los estudiantes peruanos en
Matemáticas y Lenguaje, o a que la educación privada rinde mejor que la pública y a que
ésta va de mejor a peor desde las zonas urbanas costeñas monolingües hacia las urbano-marginales
y rurales bilingües de sierra y selva, no nos dicen nada nuevo. ¿Tantos millones de dólares
invertidos para saber aquello que podía haberse conocido con una buena muestra nacional?
¿Hasta qué punto en esta era de la tercerización se justifica el establecimiento de una
burocracia ministerial para cumplir una tarea que podía entregarse a algunos centros de
investigación de universidades?
f) Seamos claros: mientras el Perú no salga de su pobreza, sus logros educacionales
(tomados como conjunto) no llegarán muy lejos y todas las pruebas que se apliquen producirán
la misma información ya conocida que refleja la estratificación educativa de la sociedad
peruana. La medición del impacto de los factores asociados con el bajo rendimiento como
son la tasa de alfabetización de adultos, el índice de desarrollo humano, el producto
bruto interno per cápita y el gasto en educación como porcentaje del gasto público corroboran
esta presunción.
Reflexión final
El énfasis en las pruebas nacionales convencionales puede terminar distrayéndonos de asuntos
más centrales como la búsqueda de una educación integral que procure el desarrollo personal,
social, cívico, científico, físico, ético, artístico y estético de los jóvenes. Por lo
tanto, si el movimiento por los estándares procurara identificar los avances en esas
áreas podría ser muy interesante. Pero si eso es lo que se pretende, ¿cómo se logrará a
partir del uso de los estándares y las pruebas convencionales que pretenden medir habilidades
en Lenguaje y Matemáticas?
Igualmente lamentable es que aun en Lenguaje y Matemáticas, sabiendo que las pruebas
convencionales tienen severas limitaciones de diseño, no se utilizan estrategias más
relevantes. Por ejemplo, que el trabajo desempeño evaluado sea el producto de una construcción
original y no una reproducción del conocimiento ya existente, o la habilidad para encontrar
información y comunicar las ideas en forma coherente.
No hay que ser adivino para predecir que esos objetivos serán retirados de los estándares
nacionales y nos quedaremos solamente con los que se puedan medir uniformemente, como por
ejemplo los que se obtienen de las pruebas de Matemáticas, Lenguaje y Ciencias.
Quizá trabajar con muestras más pequeñas pero con evaluaciones más integrales nos daría
información mucho más significativa.