El análisis de varianza es un procedimiento poderoso para probar la homogeneidad de un conjunto de medias. Sin embargo, si rechazamos la hipótesis nula ( ) y aceptamos la alterna (que no todas las medias son iguales) aún no sabemos cuáles de las medias poblacionales son iguales y cuáles son diferentes.
Comparación de parejas de medias de tratamientos.
Cuando no se rechaza la H0: 1 = 2 = 3, el objetivo del experimento está cubierto y
la conclusión es que los tratamientos no son diferentes. Si por el contrario se rechaza
H0, y por consiguiente se acepta la H1: No todas las poblaciones tienen la misma media,
es necesario investigar cuáles tratamientos resultaron diferentes, o cuáles provocan la diferencia.
Estas interrogantes se responden probando la igualdad de todos los posibles pares de medias, para lo cual se han propuesto varios métodos, conocidos como
métodos de comparaciones múltiples o pruebas de rango múltiple. La diferencia
primordial entre los métodos radica en la potencia que tienen para detectar las diferencias entre las medias. Se dice que una prueba es más potente si es capaz de detectar diferencias más pequeñas.
Hay varios métodos estándar para realizar comparaciones pareadas que apoyen la credibilidad de la tasa de error tipo I.
Método de la diferencia mínima significativa de Fisher (método LSD).
Una vez que se rechazo en el ANOVA, el problema es probar la igualdad de todos los posibles pares de medias con la hipótesis:
Comparación o pruebas de rangos múltiples 63
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
para toda . Para tratamientos se tienen en total pares de medias. Por ejemplo, si existen posibles pares de medias. El estadístico de prueba para cada una de las hipótesis dadas es la correspondiente diferencia en valor absoluto entre sus medias muestrales . Se rechaza la hipótesis si ocurre que
(2.14)
donde el valor de se lee en las tablas de la distribución T de student con grados de libertad que corresponde al error, el es el cuadrado medio del error y se obtiene de la tabla ANOVA, y son el número de observaciones para los tratamientos , respectivamente. La LSD se llama diferencia mínima significativa de Fisher, ya que es la diferencia mínima que debe existir entre dos medias muestrales para considerar que los tratamientos correspondientes son significativamente diferentes. Así, cada diferencia de medias muestrales que si el diseño es balanceado, es decir, si
, la diferencia mínima significativa se reduce a:
(2.15)
En caso de rechazar se acepta la hipótesis alternativa la cual nos dice que las medias de los tratamientos son diferentes. El método LSD tiene una potencia importante, por lo que en ocasiones declara significativas aun pequeñas diferencias.
Ilustremos esta prueba continuando con el ejemplo 1, en el cual, con el ANOVA se rechazó la hipótesis nula y se aceptó que al menos un par de medias de tratamientos (métodos de ensamble) son diferentes entre sí. Para investigar cuáles pares de medias son estadísticamente diferentes se prueban los seis posibles pares de hipótesis:
(2.16)
Utilizando el método de LSD. EN el ANOVA se observa que los grados de libertad del error son , y que el cuadrado medio del error es . Si usamos una significación predefinida de , de la tabla de la distribución T de
64 CAPÍTULO 2 Diseño de experimentos de un factor
Student con 12 grados de libertad, se obtiene que , . Como
en cada tratamiento se hicieron pruebas, entonces
La decisión sobre cada una de las seis hipótesis listadas arriba se obtiene al comparar las correspondientes diferencias de medias muestrales en valor absoluto con el número LSD = 2,42. Se declaran significativas aquellas diferencias que son mayores a este número. Los resultados se muestran en la tabla 2,5, de donde se concluye que
mientras que .
Tabla 2,5 Aplicación de la prueba LSD a métodos de ensamble
Diferencia poblacional Diferencia muestral en valor absoluto Decisión 7,25 - 8,50 = 1.25 2,42 7,25 – 12,75 = 5,50 2,42 7,25 – 10,50 = 3,25 2,42 8,50 – 12,75 = 4,25 2,42 8,50 – 10,50 = 2 2,42 12,75 – 10,50 = 2,25 2,42 No significativo Significativo Significativo Significativo No significativo No significativo
En el resultado de comparación de parejas arrojado por minitab, por el método de LSD, observamos que este nos indica los intervalos de confianza para las comparaciones de cada par de muestras, por lo que debemos tomar el punto medio de cada comparación (centro) y contrastarlo con el valor del estadístico t de student obtenido en tablas (2,42) y tomar la decisión que corresponda
Intervalos de confianza individuales de Fisher(LSD) del 95% Todas las comparaciones en parejas en Minitab
Se restó A a:
Inferior Centro Superior ---+---+---+---+-- B -1,166 1,250 3,666 (---*---) C 3,084 5,500 7,916 (---*---) D 0,834 3,250 5,666 (---*---) ---+---+---+---+-- -4,0 0,0 4,0 8,0 Se restó B a:
Inferior Centro Superior ---+---+---+---+-- C 1,834 4,250 6,666 (---*---) D -0,416 2,000 4,416 (---*---)
---+---+---+---+-- -4,0 0,0 4,0 8,0 Se restó C a:
Inferior Centro Superior ---+---+---+---+-- D -4,666 -2,250 0,166 (---*---)
---+---+---+---+-- -4,0 0,0 4,0 8,0
Comparación o pruebas de rangos múltiples 65
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Método de Tukey.
Es el método más conservador para comparar pares de medias de tratamientos, el cual consiste en comparar las diferencias entre medias muestrales con el valor crítico dado por:
(2,17)
donde
Es el cuadrado medio del error ( / glb )
Es el número de observaciones por tratamiento Es el número de tratamientos
Es igual a los grados de libertad para el error Es el nivel de significancia prefijado
Son puntos porcentuales de la distribución del rango estudentizado, que se obtienen de la correspondiente tabla
Se declaran significativamente diferentes los pares de medias cuya diferencia muestral en valor absoluto sea mayor que . A diferencia de los métodos LSD y Duncan, el método Tukey trabaja con un error muy cercano al declarado por el experimentador.
Ejemplo. Al aplicar el método de Tukey al ejemplo 1 de los métodos de ensamble, a partir de la tabla ANOVA correspondiente, se toma la información pertinente y de las tablas del rango estudentizado (tabla 1) dada en el apéndice.
( / glb ) = 2,45
4 4 12 0,05
66 CAPÍTULO 2 Diseño de experimentos de un factor
sustituyendo en la ecuación tenemos
Que al compararlo con las diferencias de medias muestrales, los resultados sobre las hipótesis son:
Diferencia poblacional Diferencia muestral 1,25 3,27 5,50 3,27 3,25 3,27 4,25 3,27 2,00 3,27 2,25 3,27 Decisión No significativo Significativo No significativo Significativo No significativo No significativo
De esta tabla se concluye que , , y .
Observe que esta prueba no encuentra diferencias entre los métodos d ensamble A y D, la cual si se detecta por otros métodos. Esto es congruente con el hecho de que la prueba de Tukey es menos potente que la prueba LSD (diferencia mínima significativa)
En el resultado de comparación de parejas arrojado por minitab, por el método de Tukey, observamos que este nos indica los intervalos de confianza para las comparaciones de cada par de muestras, por lo que debemos tomar el punto medio de cada comparación (centro) y contrastarlo con el valor del estadístico de rango estudentizado obtenido en tablas (4,20) y sustituyendo en la formula obteniendo el valor de , el cual se contrasta con la diferencia de medias y se tomar la decisión que corresponda
Intervalos de confianza simultáneos de Tukey del 95% Todas las comparaciones en parejas en Minitab
Se restó A a:
Inferior Centro Superior ---+---+---+---+---- B -2,043 1,250 4,543 (---*---) C 2,207 5,500 8,793 (---*---) D -0,043 3,250 6,543 (---*---) ---+---+---+---+---- -5,0 0,0 5,0 10,0 Se restó B a:
Inferior Centro Superior ---+---+---+---+---- C 0,957 4,250 7,543 (---*---)
D -1,293 2,000 5,293 (---*---)
---+---+---+---+---- -5,0 0,0 5,0 10,0 Se restó C a:
Inferior Centro Superior ---+---+---+---+---- D -5,543 -2,250 1,043 (---*---)
---+---+---+---+---- -5,0 0,0 5,0 10,0
Comparación o pruebas de rangos múltiples 67
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Método de Duncan.
En este método para la comparación de medias, si las muestras son de igual tamaño, los promedios se acomodan en orden ascendente y el error estándar de los promedios se estima con
(2,18)
Este procedimiento de Duncan también se llama prueba de rango múltiple de Duncan. Este procedimiento también se basa en la notación general del rango studentizado. El rango de cualquier subconjunto de medias muestrales debe exceder cierto valor antes de que se encuentre que cualquiera de las medias es diferente. Este valor se llama rango de menor significancia para las medias y se denota como
(2,19)
( = muestras)
= Grados de libertad para el error que corresponden a ( ) = Cuadrado medio del error ( / glb )
= Numero de observaciones por tratamiento
=
Valores críticos para la prueba de Duncan (obtenidos en tabla)Los valores de la cantidad , que se denominan rango studentizado de menor significancia, dependen del nivel de significancia que se desea y el número de grados de libertad del cuadrado medio del error. Estos valores se pueden obtener de la tabla valores críticos para la prueba de Duncan (tabla 2)
Las diferencias observadas entre las medias muestrales se comparan con los rangos (rango de menor significancia) de la siguiente manera:
Primero se comparan la diferencia entre la media más grande y la más pequeña con el rango
Luego, la diferencia entre la media más grande y la segunda más pequeña se compara con el rango
Estas comparaciones continúan hasta que la media mayor se haya comparado con todas las demás.
Enseguida, se compara la diferencia entre la segunda media más grande y la media menor con el rango
Después la diferencia entre la segunda media más grande y la segunda más pequeña se compara con el valor de
Y así sucesivamente hasta que se comparan los pares de medias posibles con el rango que les corresponda
En las comparaciones donde la diferencia observada es mayor que el rango respectivo, se concluye que esas medias son significativamente diferentes. Si dos
68 CAPÍTULO 2 Diseño de experimentos de un factor
medias caen entre otras dos que no son muy diferentes, entonces esas dos medias poblacionales también se consideran estadísticamente iguales.
Ejemplo. Supongamos que nos interesa probar las seis hipótesis para los cuatro métodos de ensamble del problema anterior.
= 0,05 = 12 = 2,46 = = 0,78
= Estos valores se obtienen de la tabla correspondiente
Substituyendo en la ecuación tenemos:
= (3,08)(0,78)
= (3,23)(0,78) = (3,33)(0,78)
Estos rangos se comparan con las diferencias de medias de acuerdo al método descrito anteriormente.
Las cuatro medias muestrales acomodadas en orden ascendente son:
de aquí se obtienen las diferencias en el orden dado por el método de Duncan y se van comparando con el rango correspondiente.
En la siguiente tabla se resumen los resultados
Diferencia poblacional Diferencia muestral Comparada con su rango 12,75 – 7,25 = 5,5 2,60 = 12,75 – 8,50 = 3,27 2,52 = 12,75 – 10,50 = 2,25 2,40 = 10,50 – 7,25 = 3,25 2,60 = 10,50 – 8,50 = 2,0 2,40 = 8,50 – 7,25 = 1,25 2,40 = Decisión Significativo Significativo No significativo Significativo No significativo No significativo
Comparación o pruebas de rangos múltiples 69
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
De esta tabla se concluye que , y , mientras que , y . Que son las mismas conclusiones que se obtuvieron con el método LSD. En general, las pruebas de Duncan y LSD tienen un desempeño similar.
Método de Dunnet (Comparación de tratamientos con un control).
En muchos problemas científicos y de ingeniería no interesa extraer inferencias con respecto a todas las posibles comparaciones entre las medias de los tratamientos. En su lugar, el experimento a menudo dicta la necesidad de comparar de manera simultánea cada tratamiento con un control. Por ejemplo, al comparar varios medicamentos para el resfriado es conveniente que uno de los tratamientos sea que los pacientes no utilicen ningún medicamento, esto sirve como referencia para decidir la posible utilidad de los medicamentos.
Un procedimiento de prueba desarrollado por C.W. Dunnett determina diferencias significativas entre cada media del tratamiento y el control, en un solo nivel de significancia.
Por facilidad, denotemos como tratamiento control al tratamiento. Hacer comparaciones con respecto al control implica probar las hipótesis dadas por:
con , donde es el tratamiento control. La hipótesis nula se rechaza si,
donde
= Media del tratamiento
= Media del tratamiento control
Valor encontrado en tablas de Dunnett = Grados de libertad del cuadrado medio del error = Cuadrado medio del error
Donde se encuentra en las tablas (tabla 3) valores críticos para la prueba de Dunnett; son los grados de libertad del cuadrado medio del error. Se recomienda que el tamaño de muestra del tratamiento control sea grande, a fin de estimar su media con mayor precisión.
Ejemplo. Para ilustrar el procedimiento de Dunnett , consideremos los datos experimentales de la siguiente tabla para la clasificación unilateral donde se estudia el efecto de tres catalizadores sobre el rendimiento de una reacción. Un cuarto tratamiento, sin ningún catalizador, se utiliza como control.
70 CAPÍTULO 2 Diseño de experimentos de un factor
Rendimiento de la reacción
Control Catalizador 1 Catalizador 2 Catalizador 3 50,7 54,1 52,7 51,2 51,5 53,8 53,9 50,8 49,2 53,1 57,0 49,7 53,1 52,5 54,1 48,0 52,7 54,0 52,5 47,2 = 53,5 54,04 49,38 = 51,44 = = = 2,59 = grados de libertad del erros medio
, como es prueba bilateral = = 53,5 – 51,44 = 2,06 = 54,04 – 51,44 = 2,6 = 49,38 – 51,44 = 2,06 = 2,59 = 2,59(0,9593) = 2,48
2,06 2,48 Se acepta la hipótesis nula, no hay diferencia significativa de la muestra 1 con la patrón
2,60 2,48 Se rechaza la nula y se acepta la alterna 2,06 2,48 Se acepta la hipótesis nula
RESUMEN
Grupos Cuenta Suma Promedio Varianza
Control 5 257,2 51,44 2,478
Catalizador 1 5 267,5 53,5 0,465
Catalizador 2 5 270,2 54,04 3,238
Catalizador 3 5 246,9 49,38 3,022
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Entre grupos 67,786 3 22,59533333 9,82085552 0,000651134 3,238871522
Dentro de los grupos 36,812 16 2,30075
Total 104,598 19
Comparación o pruebas de rangos múltiples 71
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
ANOVA unidireccional: Control; Catalizador 1; Catalizador 2; Catalizador 3
Fuente GL SC MC F P Factor 3 67,79 22,60 9,82 0,001 Error 16 36,81 2,30
Total 19 104,60
Nivel N Media Desv.Est. Control 5 51,440 1,574 Catalizador 1 5 53,500 0,682 Catalizador 2 5 54,040 1,799 Catalizador 3 5 49,380 1,738
Comparación de Dunnett con un control nivel de significancia de la familia = 0,05 nivel de significancia individual = 0,0196 Valor crítico = 2,59
Control = Control
Intervalos para media de tratamientos menos media de control Nivel Inferior Centro Superior
Catalizador 1 -0,427 2,060 4,547 Catalizador 2 0,113 2,600 5,087 Catalizador 3 -4,547 -2,060 0,427 Nivel ---+---+---+---+- Catalizador 1 (---*---) Catalizador 2 (---*---) Catalizador 3 (---*---) ---+---+---+---+- -2,5 0,0 2,5 5,0