• No results found

A New Model

3.3 An Illustrative Example

A continuación se comentan algunos de los procedimientos concretos a tener en cuenta para la selección de las variables y de la mejor ecuación para la regresión desde el punto de vista estadístico. Para ello es conveniente partir de la situación más general posible, que consiste en establecer una ecuación de regresión lineal para una respuesta concreta

Y

, en función de una serie de variables predictoras básicas

k

X

X

X

1

,

2

,...,

, que representan el conjunto completo de variables a partir de las

cuales la ecuación debe ser elegida. En este conjunto, se puede incluir, en una primera aproximación, cualquier tipo de función para las variables, tales como cuadrados, productos cruzados, logaritmos, inversas, potencias etc. Ante esta situación es preciso considerar, en principio, dos criterios contrapuestos a la hora de la elección del número de variables a considerar:

ƒ En primer lugar y con objeto de que la ecuación sea útil para los propósitos predictivos, el modelo debería incluir tantas variables

X

s como fuesen

necesarias para mantener el sesgo del posible error dentro de unos valores reducidos o, al menos, dentro de un margen “controlado”.

ƒ Por otra parte, la ecuación en cuestión debería incluir el número mínimo de variables

X

snecesarias, para mantener la varianza de las predicciones dentro

de unos márgenes razonablemente pequeños (es preciso recordar que la varianza media de Yˆi, es

pσ

2

/n

, donde p es el número de parámetros del modelo y n el número de observaciones) y también para mantener el coste de las observaciones razonablemente controlado (este coste aumenta, evidentemente, con el número de muestras recogidas).

El compromiso entre estas dos aproximaciones es lo que se suele llamar en la práctica como “la selección de la mejor ecuación posible de regresión”. A este respecto, lo primero que es necesario comentar es que no hay un único procedimiento estadístico para lograrlo. Sin embargo, en la literatura, hay tres métodos, perfectamente aplicables además al caso analizado en la presente Tesis, que son los que mejor resuelven el dilema y son los basados en:

ƒ Criterios paramétricos

ƒ Regresión incremental (Stepwise regression)

ƒ Eliminación de variables (Backward elimination)

En los puntos siguientes se comentan más en detalle las características generales del primero de ellos por ser éste el utilizado en la presente Tesis.

C.2.8.1.Criterios paramétricos

Estos procedimientos, aunque son los más laboriosos de los tres mencionados con anterioridad, también son los más precisos ya que requieren la construcción de todas las posibles curvas de regresión lineales con todas las combinaciones posibles de las variables independientes

X

0

,X

1

,...X

r. Es preciso pensar que, como cada una de las variables

X

i puede estar o no en la ecuación, resultan, al menos en teoría, r

2

ecuaciones a estudiar, aunque en la práctica se limita bastante este número por el tipo concreto de relaciones que se observen entre las variables, lo que hace eliminar a priori la mayor parte de ellas.

109 Cada una de las ecuaciones de regresión construidas se examina de acuerdo a los tres criterios siguientes:

ƒ El valor del coeficiente de Determinación General

R

2

ƒ El valor de 2

s

, cuadrado de la media de los residuos

ƒ El estadístico de Mallows,

C

p

C.2.8.1.1.Uso del estadístico R2

El uso de este método, en la práctica, se puede resumir realizando los siguientes pasos:

Paso 1. Efectuar el proceso siguiente:

1. Escribir una ecuación A, con sólo el término independiente, es decir, del tipo 0

β

=

Y

2. Escribir todas las ecuaciones B, con sólo el término independiente y cada una de las posibles variables, es decir, ecuaciones del tipo

Y

0

i

X

i

3. Escribir todas las ecuaciones C, D,… con sólo el término independiente y las parejas de combinaciones de todas las posibles variables

X

i

,X

j

,...X

r, es

decir, ecuaciones para el caso de dos variables, del tipo

Y

0

i

X

i

j

X

j, etc.

4. Finalizar con una ecuación tipo N, con el término independiente y todas las posibles combinaciones lineales de todas las variables introducidas en el modelo, es decir, ecuaciones del tipo

Y

0

i

X

i

j

X

j

+...+β

r

X

r

Paso 2. Ordenar de mayor a menor, para cada uno de los tipos de ecuaciones manejados, los Coeficientes de Correlación Múltiples manejados.

Paso 3. Examinar los valores máximos en cada uno de los grupos anteriores, analizando la naturaleza de cada una de las variables introducidas en cada caso. Analizar las consecuencias de la introducción o no de nuevas variables en función de los resultados de

R

2, analizando, igualmente, la matriz de correlación de los datos para ver los posibles grados de asociación entre las diferentes parejas.

Paso 4. Elegir la mejor ecuación. Para ello se tendrá que tomar una decisión entre la utilización de una ecuación más o menos compleja (nº de variables incluidas) y la aportación real al valor del Coeficiente de Determinación General R2. Para tomar

una decisión adecuada acerca de la selección correcta de las variables a incluir en el modelo resulta útil también observar el valor de los términos de la matriz de correlación de los datos en función de su mayor o menor proximidad a la unidad. C.2.8.1.2.Uso del estadístico s2

Cuando el número de variables potenciales del modelo, p, es grande (un valor aceptado en la práctica es

p>10

) y cuando el número de muestras es mucho más grande que p (por ejemplo

≥5p

), el gráfico de

s

2

(p)

, es decir, el cuadrado de la

media de los residuos, es normalmente, una herramienta de gran utilidad para decidir el número de variables a incluir en el modelo de regresión.

110

A medida que se van añadiendo más variables al modelo, el valor de 2

s

, tiende a estabilizarse aproximándose a un valor que coincide, aproximadamente, con el número óptimo de variables a considerar en el modelo.

C.2.8.1.3.Uso del estadístico

C

p de Mallows

Una alternativa de interés, a la hora de fijar el número de variables óptimas a utilizar en el modelo; es la sugerida por C.L. Mallows (Mallows 1973) y tiene la forma de la (ec. C.2.152). ) 2 ( /s2 n p RSS Cp = p − − (ec. C.2. 152) En la ecuación anterior,

RSS

p es la suma residual de los cuadrados de un modelo que contiene p parámetros, incluido

β

0, y

2

s

, es la media de los cuadrados de los residuos de la mayor ecuación postulada conteniendo todas las variables

X

sde

manera que sea, presumiblemente, la estimación no sesgada más segura de la varianza del error

σ

2.

Es preciso notar aquí que, el estadístico

C

p, no está completamente explícito ya que hay diferentes

C

p para cada uno de los valores de

p

, de manera que, este valor sólo estará completamente claro, cuando en la ecuación intervengan todas las variables,

r, siendo, en este caso,

C

p

=C

r+1. Este último valor, de hecho, no es una variable aleatoria propiamente dicha (ec. C.2.153).

(

)

[

1

2

]/

2

[

2(

1)]

1

1

=

+

=

+

+

n

r

s

s

n

r

r

C

r (ec. C.2. 153)

Esencialmente lo que se trata de comparar por este procedimiento son los diferentes modelos con

p

parámetros cada uno, con el modelo completo con

r+1

parámetros.

p

C

, está íntimamente relacionado con el estadístico ajustado, 2

a

R

, que, a su vez, como también es conocido, está relacionado con el estadístico

R

2. De ese modo cuando una ecuación con

p

parámetros sea la adecuada, como se está asumiendo como verdadero que 2 2

)

(s

E

, se tiene que, aproximadamente, el cociente 2

/s

RSSp , tendrá como valor esperado

np

2 2

=n

p

/

)

(

σ

σ

, de manera que,

también aproximadamente, la esperanza matemática de

C

p dará el número de parámetros ec. C.2.154.

111

113