Appendix B – Control variable information

En la mayoría de los trabajos descritos en el estado del arte acerca de la evaluación por pares, las medidas que se obtienen para valorar la confiabilidad, la validez o el sesgo son globales, es decir, dan una medida de estos valores para todo el proceso, pero no permiten un estudio individualizado del grado de validez, confiabilidad o sesgo de cada evaluación. A nosotros nos interesa obtener unas medidas que puedan valorar el comportamiento de todo el sistema en su conjunto, pero también individualmente o segmentado según nos interese en cada caso. En este apartado presentamos las medidas que proponemos para nuestro sistema de evaluación y en apartados posteriores destacaremos las ventajas que nos ofrece poder tener esta visión del sistema desde diferentes perspectivas.

De forma previa vamos a definir la diferencia entre evaluaciones como medida en la que se van a basar las demás medidas (Ecuación 3). Sea un producto p evaluado por dos evaluadores ej y ek, y sean vij y vik las evaluaciones dadas por estos evaluadores para

cada faceta fi de ese producto. Definimos la diferencia djk entre las evaluaciones de los

evaluadores ej y ek como:

𝑑_>4 =∑∀@(∈A?'_B()9'(6? Ecuación 3

donde F es el conjunto de facetas y n el número de facetas. Obsérvese que las diferencias se suman en valor absoluto para evitar que diferencias positivas y negativas se anulen.

Validez

La validez es, como hemos comentado, el grado de acuerdo entre las evaluaciones realizadas por los evaluadores y la evaluación canónica, que se supone que es justa y precisa (Thiry, 2011).

Consideramos conocida la evaluación canónica, denotada vic, de la faceta fi de un

producto p y que esa evaluación canónica es una buena aproximación al nivel de creatividad real de cada faceta del producto. A continuación, discutiremos cómo calcular la evaluación canónica, pero asumiendo que es correcta y justa, podemos considerar que un evaluador es tanto mejor cuanto más se acercan sus evaluaciones a esta evaluación. Definimos la diferencia con la evaluación canónica DCj para un evaluador determinado ej como la diferencia entre su evaluación vij de cada faceta de

un producto y la evaluación canónica vic del mismo producto. Esta medida se puede

definir formalmente en términos de la diferencia entre evaluaciones descrita en la

Ecuación 4:

𝐷𝐶_> = 𝑑_>5 =∑∀@(∈A?'_B()9'(E? Ecuación 4

donde el subíndice c denota a la evaluación canónica. En nuestro sistema utilizaremos

DCj como estimación de la validez de la evaluación dada por el evaluador ej. Obsérvese

que esta medida de la validez se define en el intervalo [0,4] (aunque podría normalizarse fácilmente para que se definiera en el intervalo [0,1]) y debemos interpretar que cuanto menor es esta medida mayor es la validez de la evaluación emitida por el evaluador. Además, debemos resaltar que esta medida tiene carácter individual, frente a otras medidas que estiman la validez de un sistema de evaluación en su conjunto.

Evaluación canónica

La evaluación canónica es el gold standard del sistema, es decir, el patrón base con el que se compara cualquier evaluación y que nos permitirá calcular la validez del sistema. A la evaluación canónica se le considera como la evaluación ideal, precisa y justa de las facetas del producto. Puesto que la evaluación canónica no existe como tal, es necesario buscar un patrón que nos permita las comparaciones y la evaluación del sistema en el sentido adecuado.

Aunque la selección de la evaluación canónica podría realizarse teóricamente de numerosas maneras, en nuestro caso se han valorado dos posibles opciones de evaluaciones como canónicas. Por un lado, la resultante del propio sistema (definida en la Ecuación 1) en la que se tienen en cuenta todas las valoraciones en diferentes medidas (media ponderada de las evaluaciones), y como segunda opción, tener en cuenta únicamente las evaluaciones de los expertos. Veamos a continuación las ventajas e inconvenientes de una y otra opción. La primera tiene como ventaja que recoge todos los puntos de vista de todos los evaluadores, luego puede ser más justa. Sin embargo, el sistema sería algo inestable, porque no se podría predecir hacia donde evoluciona. La segunda tiene como ventaja que, al utilizar solo la opinión de los expertos, empuja al sistema a comportarse como ellos, es decir, puntúa mejor a los evaluadores que se parecen a los expertos, aunque no lo sean. La elección de la

evaluación canónica puede marcar el comportamiento del sistema y en el futuro se prevé estudiar la importancia de esta elección.

En el modelo propuesto tenemos en cuenta esta segunda opción como primera aproximación. No obstante, no se descarta, en función del uso, pasar a la primera o incluso a una tercera opción.

Esta sería la fórmula de la evaluación canónica (basada en el juicio únicamente de los expertos de nivel 5):

𝑣_$5 =∑∀-)∈.E_F '()

E Ecuación 5

Siendo Ec el conjunto de los evaluadores para la evaluación canónica (equivalente al

nivel 5, el de expertos) y mc el tamaño de ese conjunto.

Confiabilidad

Confiabilidad significa coherencia de los juicios realizados por varios revisores sobre el mismo original. (Thiry, 2011).

Para estimar la confiabilidad de una evaluación vamos a definir la medida grado de

acuerdo. El grado de acuerdo, como ocurre con la diferencia con la evaluación

canónica, es una medida individual para cada evaluador y no global y consiste en el promedio de las diferencias entre las evaluaciones del evaluador analizado y las de todos los demás. Basándonos en la definición de la diferencia entre evaluaciones de la Ecuación 3, definimos grado de acuerdo GAj para un evaluador determinado ej

como la media de las diferencias entre su evaluación vij de cada faceta de un producto

y las evaluaciones de los demás evaluadores del sistema:

𝐺𝐴_> =∑∀-6∈.∗_F92I)6 Ecuación 6

donde E*_{es el conjunto total de evaluadores eliminando al propio evaluador y m es} el número total de evaluadores. GAj mide, en definitiva, lo cerca que la evaluación de

un determinado evaluador está de las evaluaciones de los demás evaluadores. Como en el caso de DC, GA puede tomar valores en el intervalo [0,4] de modo que GAj=0

significa un acuerdo completo en la evaluación con los otros evaluadores del mismo producto y GAj=4 significa que la evaluación realizada por el evaluador es totalmente

diferente de la de sus compañeros. Al igual que para la medida DC, el grado de acuerdo puede normalizarse para definirlo en el intervalo [0,1].

Sesgo

El sesgo es la tendencia sistemática a que las evaluaciones estén influenciadas por cualquier cosa que no sea el trabajo que se está midiendo (Thiry, 2011). Tiende a aparecer cuando hay decisiones humanas.

Mediana de la evaluación y rango intercuartílico

La mediana de evaluación de un revisor y su rango intercuartílico representan el valor central y la dispersión de las evaluaciones de un revisor. En su lugar, podrían utilizarse otras medidas de posición central y dispersión, como la media y la desviación estándar, pero se prefieren la mediana y el rango intercuartílico porque no están sesgados por valores extremos. Además, se pueden calcular incluso para datos ordinales, en los que los valores se ordenan entre sí, pero no representan una medida absoluta. Este es el caso de las clases categóricas para las cuales se puede establecer un orden.

La mediana y el rango intercuartílico permiten estimar dos posibles sesgos del revisor: tendencia central y restricción de rango. El sesgo de restricción de rango, o la tendencia a calificar cada trabajo con el mismo grado debido a la falta de discriminación entre los diferentes niveles de valoración, está presente cuando hay un valor bajo para el rango intercuartílico, ya que hay una baja dispersión entre los valores. Además, si se combina un valor bajo de rango intercuartílico con una mediana que está cerca del centro del intervalo de tasas posibles, se puede considerar que existe un sesgo de tendencia central, es decir, la tendencia a dar siempre calificaciones de rango medio independientemente de la calidad real del trabajo. En caso de rango intercuartílico bajo y mediana cerca de los extremos del intervalo de tasas posibles, podríamos concluir una cierta tendencia a sobrevalorar o infravalorar las obras. Sin embargo, dado que la mediana no se calcula con respecto a ningún valor de referencia como la evaluación canónica, no se puede establecer si realmente existen o no estos sesgos. En este caso, las medidas que se definen a continuación son mucho más significativas.

Diferencia promedio a la evaluación canónica y su desviación estándar

La diferencia promedio es la media de las diferencias entre las evaluaciones de cada evaluador y la evaluación canónica, es decir, la de los expertos, como vemos en la Ecuación 7.

𝐷𝐶K

LLLLL =∑_∀@(∈AM'()9'(EN

B) Ecuación 7

En este caso, las diferencias pueden ser negativas o positivas, de forma que al sumarlas se puede detectar el predominio de diferencias de un signo o de otro. En otras palabras, esta diferencia promedio es positiva si las evaluaciones están en su conjunto por encima de la evaluación canónica, y negativa si están por debajo. La desviación estándar de la medida anterior se calcula según la Ecuación 8 de la forma habitual.

𝑠_PQ> = R∑ M'()9PQ>N

S ∀@(∈A

B)92 Ecuación 8

La combinación de valores de la diferencia promedio a la evaluación canónica y su desviación estándar pueden ayudar a detectar posibles sesgos de clemencia o dureza. Un valor alto (positivo) de la diferencia promedio es un indicador de posible sesgo de clemencia, en el que el evaluador tiene una tendencia clara a sobrevalorar los productos que evalúa. En el caso de un valor bajo (negativo) para esta diferencia promedio, estamos ante un posible caso de sesgo de dureza, puesto que la tendencia del evaluador es a infravalorar los productos. En ambos casos, el valor de referencia es la evaluación canónica. Si además el valor de la desviación estándar, que indica dispersión, es bajo, las tendencias son todavía más pronunciadas.

In document QUALITY OF GOVERMENT AND INTERNAL CONFLICT A large N study of developing countries (Page 53-55)