A New Model
3.3 An Illustrative Example
A continuación se comentan algunos de los procedimientos concretos a tener en cuenta para la selección de las variables y de la mejor ecuación para la regresión desde el punto de vista estadístico. Para ello es conveniente partir de la situación más general posible, que consiste en establecer una ecuación de regresión lineal para una respuesta concreta
Y
, en función de una serie de variables predictoras básicask
X
X
X
1,
2,...,
, que representan el conjunto completo de variables a partir de lascuales la ecuación debe ser elegida. En este conjunto, se puede incluir, en una primera aproximación, cualquier tipo de función para las variables, tales como cuadrados, productos cruzados, logaritmos, inversas, potencias etc. Ante esta situación es preciso considerar, en principio, dos criterios contrapuestos a la hora de la elección del número de variables a considerar:
En primer lugar y con objeto de que la ecuación sea útil para los propósitos predictivos, el modelo debería incluir tantas variables
X′
s como fuesennecesarias para mantener el sesgo del posible error dentro de unos valores reducidos o, al menos, dentro de un margen “controlado”.
Por otra parte, la ecuación en cuestión debería incluir el número mínimo de variables
X
s′necesarias, para mantener la varianza de las predicciones dentrode unos márgenes razonablemente pequeños (es preciso recordar que la varianza media de Yˆi, es
pσ
2/n
, donde p es el número de parámetros del modelo y n el número de observaciones) y también para mantener el coste de las observaciones razonablemente controlado (este coste aumenta, evidentemente, con el número de muestras recogidas).El compromiso entre estas dos aproximaciones es lo que se suele llamar en la práctica como “la selección de la mejor ecuación posible de regresión”. A este respecto, lo primero que es necesario comentar es que no hay un único procedimiento estadístico para lograrlo. Sin embargo, en la literatura, hay tres métodos, perfectamente aplicables además al caso analizado en la presente Tesis, que son los que mejor resuelven el dilema y son los basados en:
Criterios paramétricos
Regresión incremental (Stepwise regression)
Eliminación de variables (Backward elimination)
En los puntos siguientes se comentan más en detalle las características generales del primero de ellos por ser éste el utilizado en la presente Tesis.
C.2.8.1.Criterios paramétricos
Estos procedimientos, aunque son los más laboriosos de los tres mencionados con anterioridad, también son los más precisos ya que requieren la construcción de todas las posibles curvas de regresión lineales con todas las combinaciones posibles de las variables independientes
X
0,X
1,...X
r. Es preciso pensar que, como cada una de las variablesX
i puede estar o no en la ecuación, resultan, al menos en teoría, r2
ecuaciones a estudiar, aunque en la práctica se limita bastante este número por el tipo concreto de relaciones que se observen entre las variables, lo que hace eliminar a priori la mayor parte de ellas.
109 Cada una de las ecuaciones de regresión construidas se examina de acuerdo a los tres criterios siguientes:
El valor del coeficiente de Determinación General
R
2 El valor de 2
s
, cuadrado de la media de los residuos El estadístico de Mallows,
C
pC.2.8.1.1.Uso del estadístico R2
El uso de este método, en la práctica, se puede resumir realizando los siguientes pasos:
Paso 1. Efectuar el proceso siguiente:
1. Escribir una ecuación A, con sólo el término independiente, es decir, del tipo 0
β
=
Y
2. Escribir todas las ecuaciones B, con sólo el término independiente y cada una de las posibles variables, es decir, ecuaciones del tipo
Y
=β
0+β
iX
i3. Escribir todas las ecuaciones C, D,… con sólo el término independiente y las parejas de combinaciones de todas las posibles variables
X
i,X
j,...X
r, esdecir, ecuaciones para el caso de dos variables, del tipo
Y
=β
0+β
iX
i+β
jX
j, etc.4. Finalizar con una ecuación tipo N, con el término independiente y todas las posibles combinaciones lineales de todas las variables introducidas en el modelo, es decir, ecuaciones del tipo
Y
=β
0+β
iX
i+β
jX
j+...+β
rX
rPaso 2. Ordenar de mayor a menor, para cada uno de los tipos de ecuaciones manejados, los Coeficientes de Correlación Múltiples manejados.
Paso 3. Examinar los valores máximos en cada uno de los grupos anteriores, analizando la naturaleza de cada una de las variables introducidas en cada caso. Analizar las consecuencias de la introducción o no de nuevas variables en función de los resultados de
R
2, analizando, igualmente, la matriz de correlación de los datos para ver los posibles grados de asociación entre las diferentes parejas.Paso 4. Elegir la mejor ecuación. Para ello se tendrá que tomar una decisión entre la utilización de una ecuación más o menos compleja (nº de variables incluidas) y la aportación real al valor del Coeficiente de Determinación General R2. Para tomar
una decisión adecuada acerca de la selección correcta de las variables a incluir en el modelo resulta útil también observar el valor de los términos de la matriz de correlación de los datos en función de su mayor o menor proximidad a la unidad. C.2.8.1.2.Uso del estadístico s2
Cuando el número de variables potenciales del modelo, p, es grande (un valor aceptado en la práctica es
p>10
) y cuando el número de muestras es mucho más grande que p (por ejemplo≥5p
), el gráfico des
2(p)
, es decir, el cuadrado de lamedia de los residuos, es normalmente, una herramienta de gran utilidad para decidir el número de variables a incluir en el modelo de regresión.
110
A medida que se van añadiendo más variables al modelo, el valor de 2
s
, tiende a estabilizarse aproximándose a un valor que coincide, aproximadamente, con el número óptimo de variables a considerar en el modelo.C.2.8.1.3.Uso del estadístico
C
p de MallowsUna alternativa de interés, a la hora de fijar el número de variables óptimas a utilizar en el modelo; es la sugerida por C.L. Mallows (Mallows 1973) y tiene la forma de la (ec. C.2.152). ) 2 ( /s2 n p RSS Cp = p − − (ec. C.2. 152) En la ecuación anterior,
RSS
p es la suma residual de los cuadrados de un modelo que contiene p parámetros, incluidoβ
0, y2
s
, es la media de los cuadrados de los residuos de la mayor ecuación postulada conteniendo todas las variablesX
s′demanera que sea, presumiblemente, la estimación no sesgada más segura de la varianza del error
σ
2.Es preciso notar aquí que, el estadístico
C
p, no está completamente explícito ya que hay diferentesC
p para cada uno de los valores dep
, de manera que, este valor sólo estará completamente claro, cuando en la ecuación intervengan todas las variables,r, siendo, en este caso,
C
p=C
r+1. Este último valor, de hecho, no es una variable aleatoria propiamente dicha (ec. C.2.153).(
)
[
1
2]/
2[
2(
1)]
1
1
=
−
−
−
−
−
+
=
+
+
n
r
s
s
n
r
r
C
r (ec. C.2. 153)Esencialmente lo que se trata de comparar por este procedimiento son los diferentes modelos con
p
parámetros cada uno, con el modelo completo conr+1
parámetros.
p
C
, está íntimamente relacionado con el estadístico ajustado, 2a
R
, que, a su vez, como también es conocido, está relacionado con el estadísticoR
2. De ese modo cuando una ecuación conp
parámetros sea la adecuada, como se está asumiendo como verdadero que 2 2)
(s
=σ
E
, se tiene que, aproximadamente, el cociente 2/s
RSSp , tendrá como valor esperado
n−p
2 2=n−
p
/
)
(
σ
σ
, de manera que,también aproximadamente, la esperanza matemática de
C
p dará el número de parámetros ec. C.2.154.111
113