Query Refinement - A Survey on Question Answering System

CHAPTER 1 A Survey on Question Answering System

9. Query Refinement

En los modelos de regresión múltiple pueden darse problemas estructurales en su especificación entre otras causas por la inclusión de variables irrelevantes. Esto es que en el modelo pueden incluirse una o más variables independientes, aunque no tengan un efecto parcial en la población (es decir que su coeficiente

26 poblacional sea cero). En términos del insesgamiento de los restantes



j _{, no} hay ningún efecto sin embargo puede afectar las varianzas de los estimadores MCO. Otra causa puede ser el sesgo de variable omitida. En este caso se omite una variable que sí pertenece al modelo verdadero (o poblacional) y este problema hace que los estimadores de los MCO sean sesgados (Gujarati, 2004). El contraste de hipótesis permite realizar inferencias acerca de parámetros poblacionales utilizando datos provenientes de una muestra. El contraste de hipótesis implica tomar la decisión, sobre la base de los datos muestrales, de rechazar o no que ciertas restricciones sean satisfechas por el modelo básico asumido. Para realizar el contraste de hipótesis estadístico, en general, hay que realizar los siguientes pasos (Espasa, 1978):

1. Establecer una hipótesis nula y una hipótesis alternativa relativas a los parámetros de la población.

2. Fijar el nivel de confianza.

3. Construir un estadístico para contrastar las hipótesis formuladas.

4. Definir una regla de decisión para determinar si la hipótesis nula debe ser, o no, rechazada en función del valor que tome el estadístico construido. 1.3.4.1 Contraste de significatividad individual de los parámetros utilizando el estadístico t

Una vez especificado el modelo correctamente, evidentemente es relevante determinar la importancia de cada variable explicativa elegida para marcar la evolución de la endógena; es decir, estimar el valor de los parámetros. Dado el carácter aleatorio del modelo econométrico, dicha estimación no ofrece un cálculo exacto como resultado, sino un valor aleatorio que, como tal, tendrá un rango de variación determinado por su función de densidad.

De entre las hipótesis más comunes que se pueden realizar, destaca la que nos servirá para comprobar en qué medida podríamos asumir que el verdadero

27 valor de un parámetro βj, concreto es igual a cero o no. Es decir, podríamos plantear H0 (βj =0) y trasladarla a la expresión (Wooldridge, 2006):

ee (βj)= S(βj)es el error estándar en el muestreo en la estimación de βj

Si la hipótesis planteada de nulidad del parámetro “j” es compatible con la realidad, el valor del estadístico empírico calculado debe seguir entre los valores que las tablas de la t-student nos indican que se encuentra algo que como tal se distribuye para el nivel de confianza elegido, de tal forma que:

K es la cantidad de parámetros contenidos en el modelo, n el tamaño de la muestra.

En definitiva, el contraste t-student de significatividad individual de los parámetros servirá para juzgar si se debe incluir o no una variable en la especificación del modelo, en la medida en que, si el verdadero valor del parámetro fuera igual a cero está claro que la importancia de dicha variable para explicar a la endógena sería nula, y viceversa.

En cualquier caso, durante el proceso de modelización hasta llegar a la expresión final de la ecuación, es frecuente que nos encontremos con parámetros estadísticamente no significativos que, posteriormente, sí lo serán. La razón más habitual para que se dé este hecho es la inclusión de variables repetidas o irrelevantes en el modelo. Recordemos que, tal y como se ha visto

28 que se calcula la desviación típica de los parámetros, el número de grados de libertad es fundamental para aumentar o disminuir los resultados de la t-student. Contrario, en un modelo en que faltarán variables relevantes, los primeros análisis podrían dar lugar a valores significativos de las variables presentes que, después de incluir las ausentes inicialmente, podrían dejar de ser significativas. En definitiva, la especificación correcta del modelo en cuanto a la inclusión- exclusión de variables vuelve a ser un factor fundamental para dotar de validez a estos contrastes (Morales, 2011).

1.3.4.2 Contraste de significación conjunta de los parámetros

El objetivo que se pretende en este tipo de contraste del modelo, es poder dar una medida numérica representativa de la capacidad global de todas las variables explicativas para seguir la evolución de la variable endógena.

Para comprobar si la diferencia entre dos valores del error es significativamente distinta de cero, necesitamos comparar el valor obtenido con valores estadísticos críticos predeterminados, y es por ello por lo que recurrimos a una expresión de cálculo que, además de entenderse de forma intuitiva, siga una distribución conocida, en este caso, una ratio F, Fisher (Martín, 2004). En esta ratio se podría presentar una hipótesis nula a contrastar más razonable, que sería la nulidad de todos los parámetros menos el del término independiente H0:( b1 =...=bk =0)

La R2, coeficiente de correlación, representa la proporción de la varianza de la variable endógena real (y) que viene explicada por la varianza de la variable estimada. Es decir: 1 / ) 1 ( / 2 2     k n R k R F

La mayor parte de los paquetes de regresión reportan el estadístico F en forma automática, lo que vuelve tentador aplicar este estadístico para probar

29 restricciones de exclusión, la forma es válida para probar la exclusión conjunta de todas las variables independientes. Si no es posible rechazar, entonces no hay evidencia de que alguna de las variables independientes pueda rechazar la variable dependiente (Wooldridge, 2006).

1.3.4.2 Contraste de heteroscedasticidad

El modelo básico de regresión lineal exige, como hipótesis básica, que la varianza de las perturbaciones aleatorias, condicional a los valores de los regresores X, sea constante (Martín, 2004):

Var



u i /X i





Para comprender de forma intuitiva esta restricción podemos razonar del siguiente modo. Iguales varianzas de “u” para los distintos valores de “x” implica necesariamente igual dispersión (varianza) de “y” para distintos valores de “x”2

lo que implica necesariamente que la recta de regresión de “Y” sobre “X” va a representar con igual precisión la relación entre “x” e “y” independientemente de los valores de “x”.

En términos generales los efectos de la presencia de heterocedasticidad sobre el modelo estimado con Mínimos Cuadrados Ordinarios son (Martín, 2004):

1. El estimador de Mínimos Cuadrados Ordinarios sigue siendo lineal, insesgados y consistente, pero deja de ser eficiente (varianza mínima). Es interesante recordar que la homocedasticidad de la perturbación no juega ningún papel relevante en la insesgadez o la consistencia, propiedades muy importantes que sí se alteran, sin embargo, ante la presencia de regresores estocásticos o, en muchas ocasiones, ante la omisión de variables relevantes.

2. Las varianzas del estimador de Mínimos Cuadrados Ordinarios, además de no ser mínimas, no pueden calcularse con la expresión utilizada en

30 presencia de homocedasticidad. Dicho de otro modo, esta expresión es un estimador sesgado de la verdadera varianza de los parámetros.

3. En realidad, cabe también pensar en la posibilidad que el patrón de heterocedasticidad esté relacionado con los valores de alguna variable no incluida en el modelo (una variable omitida, consciente o inconscientemente) aunque, en general, y quizá por un criterio de sencillez operativa, los métodos de corrección y detección se suelen concentrar en la lista de variables exógenas incluidas en la especificación.

4. Así pues, si se sigue utilizando la versión “homocedástica” de MCO, se cometerá un error de cálculo en la varianza lo que implica, básicamente, que nuestros cálculos “t” ya no podrán comprarse con los valores de referencia correctos de distribuciones “t”, y lo mismo ocurrirá con el resto de cálculos “derivados” de la varianza estimada.

Uno de los procedimientos más empleados para detectar la presencia de heteroscedasticidad es el contraste de Breusch-Pagan (Wooldridge, 2006): La idea del contraste es comprobar si se puede encontrar un conjunto de variables Z que sirvan para explicar la evolución de la varianza de las perturbaciones aleatorias, estimada está a partir del cuadrado de los errores del modelo inicial sobre el que se pretende comprobar si existe o no heterocedasticidad. El proceso a seguir para llevar a cabo este contraste es el siguiente:

1. Estimar el modelo inicial, sobre el que se pretende saber si hay o no heterocedasticidad, empleando MCO y determinando los errores.

2. Calcular una serie con los errores del modelo anterior al cuadrado estandarizados

3. Estimar una regresión del error calculado en el paso (2) explicado por una constante y el conjunto de las variables Z que se pretende saber si

31 producen o no heterocedasticidad en el modelo, obteniéndose la R2_de

este modelo y la varianza de la estimada.

4. En principio, dado que el modelo tiene termino constante, se cumple la regla general de las regresiones según la cual la varianza de la endógena real es igual a la suma de la varianza de la endógena estimada más la varianza del error obtenido en el modelo o su equivalente multiplicando a ambos lados de la igualdad por el número de observaciones “n”, donde en vez de varianzas hablaremos de Sumas al cuadrado. En definitiva, y siguiendo el interés que aquí buscamos, si la varianza de la endógena estimada en este segundo modelo es muy pequeña, estaremos afirmando que el poder explicativo del conjunto de variables Z sobre la representación de la varianza de las perturbaciones aleatorias es escaso. A partir de esta afirmación, podríamos generar un contraste calculado con la suma residual, a sabiendas de que cuanto más cerca de cero se encuentre, más probabilidades de homocedasticidad habrá en el modelo. El contraste propuesto es:

5. Los autores demuestran que, en el caso de un modelo homocedástico, se distribuye como una _{, con lo que, si el valor del ratio supera al valor de}

tablas, se rechaza la hipótesis nula (homocedasticidad); es decir, se acepta que el conjunto de variables Z está produciendo heterocedasticidad en el modelo original.

El contraste de Breusch Pagan efectivamente nos servirá para aceptar o descartar la presencia de heterocedasticidad debida a ese conjunto de variables Z citado, pero su operatividad es limitada. Si el conjunto de las variables Z contiene variables no incluidas en el modelo original, parece difícil no haberlas tenido en cuenta antes para realizar una buena especificación y si tenerlas en cuenta ahora para el contraste. Por otro lado, la lista de variables Z debe ser necesariamente pequeña para poder realizarse el contraste.

32 La heteroscedasticidad no destruye las propiedades de insesgamiento y de consistencia de los estimadores, sin embargo, ya no son eficientes, ni siquiera en muestras grandes. Esta falta de eficiencia resta credibilidad a los procedimientos de pruebas de hipótesis, por eso es necesario introducir medidas remediales (Guajarati, 2004).

En las últimas décadas, los econometristas han aprendido a ajustar los errores estándares y los estadísticos a fin de que sean válidos, a estos errores ajustados se les conoce como errores estándares robustos y son válidos al menos en muestras grandes, tengan o no los errores varianza constante.

El procedimiento propuesto por White permite una estimación que, en términos asintóticos, permite la utilización de los procedimientos de inferencia estadística clásica. Básicamente, la idea consiste en utilizar los errores cuadráticos de una estimación previa de MCO como elementos de la matriz de varianzas de la perturbación (matriz Σ). White demostró que, esta estrategia de “ponderación” permite obtener estimadores consistentes de las varianzas de los parámetros. La mayor parte de los paquetes informáticos incorporan este cálculo de modo que, en general, su utilización parece recomendable, al menos con fines exploratorios.

Otra medida remedial, es emplear la transformación logarítmica, esto se debe a que las transformaciones logarítmicas comprimen las escalas en las que se miden las variables, pero no siempre eliminan la presencia de heteroscedasticidad, cuando los valores de las variables son 0 o negativos no se puede aplicar.

Existe demás otra posibilidad, que implica usar estimadores más eficientes que los MCO y obtener estadísticos adecuados para los contrastes e intervalos, el problema básico es conocer la forma de la heteroscedasticidad (Wooldridge, 2006).

In document Improving Retrieval of Information from the Internet (Page 119-123)