§ 209 County option
NOTES 2007 Electronic Update
Existen casos cuando se desea conocer la relación funcional que puede existir entre dos o más variables cuantitativas, en estos casos la regresión es muy útil. También un análisis de regresión nos puede servir para predecir o describir el comportamiento de una variable respecto al comportamiento de otra, que por su naturaleza es difícil la observación directa, por lo que con la ayuda de un modelo se puede entender lo anterior relacionando una o más de una variable.
RL Simple
Cuando se relaciona una variable dependiente o explicada con una variable independiente o explicativa realizamos un análisis de regresión simple, con la finalidad de generar un modelo que exprese el comportamiento de la variable dependiente respecto a la independiente.
Tomado de López, E. 2008.
a) El coeficiente de posición (α) o intercepto, indica la posición en la cual la recta
corta el eje Y. Si la recta pasa por el origen, entonces α =0. En términos prácticos, indica el valor que asume la variable Y cuando la variable es X=0. En algunos casos se requiere que la recta corte en el origen, esto siguiendo la lógica de la variable explicada.
b) El coeficiente de regresión lineal (β) o coeficiente angular de la regresión,
determina la pendiente de la recta. Este coeficiente indica la variación en Y causada por la variación de una unidad en X.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
37
Supuestos del modelo de regresión
1. El término de error ε es una variable aleatoria con media o valor esperado igual a cero, esto es, E(ε). Esto implica que como α y β son constantes, E(α )= α y E(β)=β.
2. La varianza de ε representada por σ2, es igual para todos los valores de x. Homocedasticidad. Implicación: la varianza de y es igual a σ2, y es la misma para todos los valores de x.
3. Los valores de ε son independientes.
Implicación: el valor de ε para un determinado valor de x no se relaciona con el valor de ε para cualquier otro valor de x; así, el valor de y para determinado valor de x no se relaciona con el valor de y para cualquier otro valor de x.
4. El término de error ε es una variable aleatoria con distribución normal.
Implicación: como y es una función lineal de ε, y es también una variable aleatoria distribuida normalmente.
La siguiente figura ilustra los supuestos del modelo y sus implicaciones:
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
38
Ejemplo: Video.
Cuadro 18: Datos de tres variables de 10 híbridos de caña de azúcar.
Híbrido peso del tallo Kg Rendimiento de caña Kg Brix Kg 1 1.12 7.74 0.9 2 1.21 8.02 0.87 3 0.99 8.16 0.92 4 1.02 8.46 0.99 5 0.93 6.3 0.58 6 1.14 10.01 1.11 7 0.86 4.79 0.53 8 1.03 7.04 0.73 9 1.22 7.62 0.87 10 1.17 7.54 0.9
Datos tomados del articulo Combining ability and yield component in five parent diallet cross in sugarcane, por el Dr. J. D. Miller.
Se pide que se investigue la relación Rendimiento de caña en Kg (X) y Brix en Kg (Y). Es importante que tengamos en cuenta que al realizar el análisis de varianza, evaluamos la hipótesis de que β (la pendiente de la recta) es igual a cero, por lo que no existe relación entre ambas variables.
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
39
Es importante que recordemos al momento de indicar las variables a análisis, que la variable dependiente en este caso es Brix en Kg (Y), y la variable regresora es el rendimiento de caña en Kg (X).
Figura 24: Diagnostico de la regresión lineal simple.
En el cuadro de análisis de regresión lineal, en la pestaña diagnóstico debemos de indicar las graficas que deseamos como prueba de los supuestos y si deseamos se debe de indicar que la presencia de las bandas de confianza y predicción en el gráfico del modelo.
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC
Brix Kg 10 0.92 0.91 5.0E-03 -26.30 -25.40
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows
const -0.10 0.10 -0.33 0.13 -1.03 0.3326
Rendimiento 0.12 0.01 0.09 0.15 9.54 <0.0001 82.02
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor Modelo 0.26 1 0.26 91.03 <0.0001 Rendimiento de caña 0.26 1 0.26 91.03 <0.0001 Error 0.02 8 2.9E-03 Total 0.29 9
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
40
En base al análisis de varianza se acepta la hipótesis alterna, donde se dice que β es distinto a 0, y por lo tanto la variable Y está explicada o relacionada con la variable X.
Utilizando los coeficientes de los parámetros, se puede generar un modelo que prediga el comportamiento de la variable Brix Kg en función de rendimiento de caña en Kg.
Y= -0.103 + 0.125X Donde:
Y= Kg Brix y X= Kg de caña.
Y en base al coeficiente de determinación ajustado, se puede afirmar en un 91% de certeza que el modelo puede predecir la realidad.
4.53
5.96
7.40
8.84
10.27
Rendimiento de caña
0.31
0.56
0.82
1.07
1.33
Bri
x
Kg
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
41 RL Múltiple
En este caso se relaciona una variable dependiente (Y), con dos o más variables independientes (X). El modelo que relaciona esta variable dependiente que debe de ser aleatoria y variables independientes que son fijas y predeterminadas, medidas sin error, se llama ecuación de regresión múltiple.
Este modelo se diferencia de la regresión lineal simple, ya que la adición de una o más variables independientes, debe de contribuir significativamente a la predicción de la variable dependiente (Y), después de haber tomado en cuenta la contribución de la variable independiente de la RLS.
También es importante tener en cuenta un supuesto que se agrega a los de la RLS, este considera que dos variables independientes no debes de tener correlación entre ellas, pues al existir esta relación la variable dependiente es mejor explicada únicamente con una sola variable independiente al presentar un modelo más simple, a este supuesto se le llama multicolinalidad.
Para realizar una RLM en InfoStat, se siguen los mismos pasos que para realizar una RLS, únicamente se agrega las variables independientes deseadas en la casilla de “Regresoras”.
Ejemplo: Video.
Con las variables del ejemplo anterior (RLS), realice un análisis de regresión lineal múltiple.
El primer paso es el realizar una matriz de correlación, como ya se ha visto en incisos anteriores.
Coeficientes de correlación
Correlacion de Pearson: coeficientes\probabilidades
Brix Kg % Brix Rendimiento de caña Brix Kg 1.000 0.070 1.2E-05 % Brix 0.595 1.000 0.331 Rendimiento de caña 0.959 0.344 1.000
Como se puede apreciar en la matriz anterior, se observa que existe correlación entre las variables Brix Kg y rendimiento de caña y Brix Kg y % Brix mayor a un 10% de significancia, por lo que son útiles en la elaboración de un modelo de RLM. También se observa que no existe correlación entre las variables de Rendimiento de caña y % Brix, por
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
42
lo que se cumple con el supuesto de multicolinalidad y ambas variables contribuyen a la predicción de la variable Brix Kg.
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC
Brix Kg 10 1.00 1.00 1.5E-04 -70.02 -68.80
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows const -0.74 0.03 -0.80 -0.68 -27.50 <0.0001 Rendimiento de caña 0.11 1.5E-03 0.11 0.11 73.50 <0.0001 4729.69 % Brix 0.05 1.8E-03 0.04 0.05 25.88 <0.0001 588.05
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 0.29 2 0.14 4184.19 <0.0001 Rendimiento de caña 0.18 1 0.18 5402.93 <0.0001 % Brix 0.02 1 0.02 669.63 <0.0001
Error 2.4E-04 7 3.4E-05
Total 0.29 9
El modelo tomando en cuenta los coeficientes anteriores se presentaría de la siguiente manera:
Y= -074 + 0.11X1 + 0.05X2
Donde:
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
42
Bibliografía
Anderson, E; Black, W; Hair, F; Tatham, R. (1999). Análisis Multivariado. Madrid. Prentice Hall Iberia. Hines, W; Montgomery, D. (1995). Probabilidades y estadística para ingenieria y administración. México. Compañía editorial continental, S.A. de C.V. México.
InfoStat. (2009). InfoStat versión 2009. Grupo InfoStat, FCA, Universidad Nacional de Córdova, Argentina. Levin, R. (1981). Estadística para administradores. México. Prentice Hall.
López, E. (2008). Diseño y análisis de experimentos, fundamentos y aplicaciones en agronomía. Guatemala. USAC.
López, E. (2008). Elaboración de proyectos de investigación, notas de acompañamiento de curso. Guatemala. USAC.
López, E. (2008). Estadística, con aplicaciones en agronomía y ciencias forestales. Guatemala. USAC. Martínez, A. (1988). Diseños experimentales: métodos y elementos de teoría. México. Trillas.
Mendenhall, W; Scheaffer, R; Wackerly, D. (1986). Estadística matemática con aplicaciones. México. Iberoamérica.
Pérez, O. (2002). Diplomado de estadística: experimentos factoriales. Santa Lucia Cotz. CENGICAÑA. Quemé, J. (2002). Análisis de regresión. Santa Lucía Cotz. CENGICAÑA.
Quemé, J. (2002). Introducción al uso del ayudante de datos MST y MSTAT-C. Santa Lucía Cotz. CENGICAÑA.
Quemé, J. (2002). Sitematización de una prueba de hipótesis, diseños completamente al azar, bloques
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
43
Anexos
Cuadro 19: Resumen. Términos a considerar en la definición del modelo, en InfoStat.
Diseño
Términos del modelo.
Diseño completamente
al azar. DCA. Tratamiento
(1)Diseño completamente
al azar con submuestreo
DCAsm. Tratamiento
Repetición*Tratamiento>Muestreo Diseño de bloques
completos al azar. DBCA. Bloque Tratamiento
(1)Diseño de bloques completos
al azar con submuestreo.
DBCAsm. Bloque
Tratamiento
Bloque*Tratameinto>Muestreo Serie de experimentos
con DBCA. Localidad\Localidad>Bloque Localidad>Bloque
Tratamiento
Localidad*Tratamiento Arreglo combinatoria en
DBCA. (Factorial) Bloque Factor A
Factor B
Factor A*Factor B Parcelas divididas Bloque
Factor A\Factor A*Bloque Factor A*Bloque
Factor B
Factor A*Factor B Franjas divididas Bloque
Factor A\Factor A*Bloque Factor A*Bloque
Factor B\Factor B*Bloque Factor B*Bloque
Factor A*Factor B
(1)
Cuando se definen modelos con submuestro es importante que tengamos en cuenta las distintas decisiones que debemos de tomar en el momento de aceptar o rechazar una hipótesis. InfoStat realiza de forma parcial el análisis de este modelo, por lo que se debe de seguir los siguientes pasos:
1. Prueba de hipótesis para evaluar la efectividad del muestreo. Ho: σ2
e = 0
Ha: σ2 e > 0
En este caso si se acepta la Ho, se dice que el muestreo no fue efectivo, en caso contrario, si se rechaza la Ho se dice que el muestreo fue efectivo. Para esto se debe realizar los siguientes cálculos:
InfoStat. | Centro guatemalteco de investigación y capacitación de la caña de azúcar.
44