Categorising faces and data - Unfamiliar face matching in the applied context

Sin duda la prueba más conocida para el análisis de variables cualitativas es la de ji cuadrada (X2), que toma su nombre de la distribución ji cuadrada de probabili-

dad en la cual se basa. La prueba de X2 para independencia entre dos variables cualitativas fue desarrollada por Pearson (1900), y sirve precisamente para probar hipótesis en relación con la independencia entre dos variables nominales u ordina- les; proporcionando un medio para verificar si las frecuencias observadas en cada

categoría son compatibles con la independencia entre las dos variables consideradas (en el Cap. I se explica el concepto de independencia). Para lograrlo se calculan los valores que indicarían la independencia absoluta, llamados frecuencias esperadas. Las hipótesis consideradas en esta prueba son:

Ho: Las variables son independientes Ha: Las variables están asociadas

La prueba de X2sólo puede aplicarse a estudios basados en muestras independientes (véase el Cap. II para aclarar este concepto) cuando todos los valores esperados son mayores de cinco. Los esperados se obtienen conforme la hipótesis de independencia, es decir son los que indican la independencia absoluta entre las dos variables. Para el caso de la tabla 2 x 2 se obtienen mediante las siguientes expresiones:

Esperado en la celda: a = r0 c0 / N

b = r0 c1 / N

c = r1 c0 / N

d = r1 c1/ N

La prueba de X2 utiliza una aproximación a la distribución ji cuadrada para evaluar la probabilidad de una discrepancia igual o mayor que la existente entre los datos y la hipótesis nula; la exactitud de esta aproximación depende de que los valores esperados no sean muy pequeños y, en menor medida, de que el contraste en- tre ellos no sea demasiado grande. Al usar la prueba de X2 debe cuidarse que se cumplan estas condiciones.

La comparación de los valores esperados con sus correpondientes observados se efectúa mediante:

La expresión indica que deben sumarse las diferencias entre las frecuencias observadas y las esperadas conforme a la hipótesis de independencia, elevadas al cuadrado y divididas entre la esperada. Para el caso de la tabla 2 x 2, el cálculo puede reducirse a:

El resultado de este cálculo se compara con la distribución de ji cuadrada con un grado de libertad, por lo que si es mayor de 6.63 (a = 0.01) o de 3.84 (a = 0.05) se considera que la desviación con respecto a la independencia es significativa, es decir que las variables no son independientes. Si el valor es menor que 3.84 se dice

que los datos no indican una relación significativa entre las variables, o bien que no se encontró una desviación significativa respecto de la independencia entre ellas. En datos de muestreos comparativos o experimentales, al probar las hipótesis relacionadas con la independencia entre la variable de respuesta y la explicativa, la prueba de X2permite averiguar, de modo implícito, si el porcentaje de respuesta es igual en ambos grupos:

Ho: p1 = p2

Ha: p1 p2

a) CORRECCIÓN DE YATES

A consecuencia de utilizar una distribución continua —la de X2— para representar

un fenómeno discreto —el número de casos en cada clasificación—, existe una pe- queña falla en la aproximación. Yates (1934) propuso una corrección que ajusta a este hecho y que mejora la concordancia con la distribución de X2.

Se ha hablado mucho sobre la conveniencia de usar la corrección de Yates, las conclusiones al respecto indican que debe aplicarse en todos los casos (Fleiss, 1973). El efecto de esta corrección es notorio en muestras pequeñas, pero es muy reducido cuando se tienen muchos datos. En seguida se muestra la expresión que permite calcular el valor de X2para una tabla 2 x 2 con la corrección de Yates:

Las barras (|) indican que debe hacerse caso omiso del signo al obtener la diferencia señalada, dejando el resultado como positivo.

Ejemplo IV. 1: la prueba de X2

A fin de comparar la eficiencia de dos vacunas se formaron al azar dos lotes de gallinas de postura, cada lote recibió un tipo de vacuna. En un momento determi- nado se expusieron las aves a la enfermedad y se registró el número de gallinas

Cuadro IVA Resultado de la comparación entre dos vacunas para aves

Vacuna A Vacuna B Total

Resultado Enfermó 20 15 35

del

desafío No enfermó 80 85 165

enfermas en cada lote. El porcentaje de aves que resistieron el desafío señala la efi- cacia de la vacuna (80% vs 85%).

Como el valor de X2calculada es menor que el de la distribución de X2(3.84 para a = 0.05), se concluye que los datos no indican una diferencia significativa en la eficiencia de ambas vacunas.

De una manera más formal se diría: no hubo diferencia significativa en la eficacia de ambas vacunas (p>0.05). En el paréntesis se especifica que se usó 0.05 como nivel de significancia y que la eficacia estimada para las vacunas no fue lo bastante distinta como para rechazar la igualdad de efectos.

Ejemplo IV.2: otro caso de la prueba de X2

Para estudiar la ventaja de un tratamiento de acupuntura para vacas que no han quedado preñadas después de varios servicios, se dividió al azar en dos grupos a las vacas que mostraban problemas reproductivos; unas fueron sometidas a la acupuntura y en seguida se inseminaron, y otras sólo se inseminaron.

Cuadro IV. 5 Efecto de la acupuntura sobre la concepción en vacas*

Acupuntura Testigo Total

Resultado Gestantes 20 4 24

de la

inseminación No gestantes 17 27 44

Total 37 31 68

* Datos de Vázquez et al. (1984)

Para este ejemplo el valor calculado (X2 = 10.77) es mayor que el correspon-

diente a a = 0.01 en la distribución de X2con un grado de libertad (6.63), por lo que se concluye que existe una diferencia altamente significativa en el porcentaje de vacas gestantes en ambos grupos: 54% contra 13% (p < 0.01). Anotar que se usó

a = 0.01 o señalar "p < 0.01" indica que se tiene una probabilidad de 1% o menor

de cometer un error de tipo I, es decir de afirmar una diferencia inexistente. Es importante destacar que la conclusión enunciada deriva de que la prueba detectó que la variable "aplicación o no de la acupuntura" está asociada con el resultado de la inseminación: gestante o vacía. Como el concepto de independencia

entre dos variables binarias (véase el Cap. 1) implica que cuando están asociadas se presentan diferentes probabilidades en una variable al cambiar de uno a otro nivel de la otra variable, entonces se deduce que los porcentajes de concepción difieren entre las vacas no tratadas y las sometidas a acupuntura.

In document Unfamiliar face matching in the applied context (Page 77-93)