Chapter 2. Data, Model and Methods
2.2 Model
2.2.2 Model Domain and Settings
Una primera consideración metodológica a tener presente, es que, para efectos de este trabajo y todos los procedimientos de análisis aquí implementados, el portafolio será considerado un test con puntuaciones iguales para cada indicador, entendiendo el estudio DIF como un análisis de las propiedades psicométricas de cada indicador, independiente del proceso de ponderación que deriva en la determinación del puntaje final del instrumento portafolio en el contexto del proceso de Evaluación Docente. De este modo, los análisis consideran variables de emparejamiento definidas por la sumatoria de puntajes obtenidos en conjuntos de indicadores, sin considerar la ponderación que implica la pertenencia a una dimensión u otra, como tampoco se vincula con las decisiones para determinar los puntajes de corte que determinan finalmente los niveles de desempeño reportados para este instrumento. De todos modos, con el fin de determinar si la utilización de los puntajes sumados modificaría significativamente la distribución de la población, pudiendo conducir a una interpretación distorsionada del desempeño docente, se analizó la relación entre la variable que contenía la puntuación
final en el instrumento (ponderando el peso de cada indicador según su dimensión de pertenencia) “Prom_Pond_Portafolio” y una nueva variable calculada con la sumatoria de los puntajes en cada indicador, “Suma_Portafolio”, encontrándose una correlación fuerte entre ambas variables (r=0,986).
Un segundo tema a tener en consideración, es la estructura dimensional del instrumento portafolio, puesto que los procedimientos de análisis acá implementados, utilizan variables de emparejamiento definidas por la puntuación obtenida en el test completo, lo que significa que todos los ítems del test están enfocados en la medición de una única dimensión. Cuando se viola el supuesto de la unidimensionalidad, las estimaciones basadas en la comparación entre las proporciones de respuesta de cada ítem y las proporciones de respuesta al test completo, pueden conducir a sacar conclusiones erróneas acerca de los ítems. Lo anterior significa que si un evaluado tiene diferentes niveles de habilidad en los diferentes rasgos medidos, estos rasgos pueden aparecer sobre representados o sub representados en el puntaje total del test, lo que podría conducir a estimaciones equivocadas acerca del comportamiento de los ítems que miden dichos rasgos. Por esta razón, los procesos cuyas variables de emparejamiento se obtienen a partir del puntaje total, requieren que se cumpla el supuesto de la unidimensionalidad, lo que significa que las respuestas serán producidas en base a un único atributo o rasgo latente (Hattie, 1985). A partir de lo anterior, cabría esperar que la varianza de un test fuera explicado por una única variable latente, lo que es ciertamente improbable en la realidad (Wright & Linacre, 1989), por lo que se han definido una serie de criterios para determinar si un test cumple con el mínimo de unidimensionalidad necesaria, que permita considerar que mide un único constructo. Para el presente estudio, se considerará el criterio de Reckase (1979), según el cual, un test se considera unidimensional si el primer factor extraído explica un 20% de la varianza total del test.
No obstante lo anterior, un test puede estar diseñado multidimensionalmente, es decir, se espera que el test mida variables que representan subescalas o dimensiones de
un constructo más amplio, o bien, que para su respuesta requieran de procesos cognitivos diversos. En la práctica, es esperable que, en contextos de evaluación educativa, un test mida más de una dimensión, es decir, que en algún grado, no se cumpla el supuesto de la unidimensionalidad (Reckase, 1979). La violación sistemática de este supuesto, por razones cuya legitimidad no está en entredicho, genera una problemática compleja en relación con los análisis DIF, Fidalgo y Ferreres (2002) señalan que, cuando un test busca medir diferentes dimensiones, no debe utilizarse el puntaje final del test para estimar el funcionamiento de un ítem, sino que debe definirse una variable de emparejamiento a partir de la suma de las puntuaciones de los ítems de cada dimensión. Por otra parte, una postura algo diferente, sostiene que en los análisis DIF, el desempeño de cada ítem se evalúa en relación con un constructo particular, cuya medición está controlada por la puntuación del test (Linn & Werts, 1971), en virtud de esto, a pesar de reconocer en la dimensionalidad un aspecto en el cual se debe profundizar las investigaciones, y que este aspecto puede constituir una posible fuente de complicaciones para los análisis DIF, estas complicaciones parecen despreciables frente a otras influencias que pueden socavar los estudios DIF (Dorans, 2013).
En cuanto a la unidimensionalidad del portafolio, es esperable que, dados los fines que persigue, y considerando su diseño, no cumpla con dicho supuesto, esto se acentúa si consideramos, además, la diferencia en el tipo de información recogida por los dos módulos que componen su estructura más gruesa, mientras el Módulo1 recoge información y evidencia documental del quehacer docente, el Módulo2 recoge información por medio de un registro performático, la realización de una clase, lo que implica que los procesos cognitivos involucrados para el desarrollo de ambos módulos involucran habilidades y competencias diferentes. Por otra parte, la posibilidad de considerar subescalas o sustest a partir de cada módulo, o de cada una de las dimensiones reviste una dificultad técnica para la implementación de los análisis DIF, dado que el reducido número de ítems presentes en cada dimensión del portafolio dificulta los procedimientos de análisis estadísticos. Además, al tratar cada dimensión
como un test independiente, es esperable que la consistencia interna de cada dimensión disminuya, dada la sensibilidad de los coeficientes alpha a la disminución de la cantidad de ítems.