Term Structure of Variance Risk Premia - Parameter Identification

A.3 Proofs and Additional Expressions

A.3.2 Parameter Identification

3.2.6 Term Structure of Variance Risk Premia

Se ha seguido el siguiente esquema:

1. Análisis de la correlación lineal entre la humedad de los combustibles y las variables ambientales.

2. Empleo de técnicas de regresión lineal con métodos de selección de variables tratando de evitar los posibles problemas de colinealidad en la construcción de los modelos.

3. Modelización del término del error para corregir los problemas de auto correlación en los modelos derivados de contar con medidas repetidas.

4. Por último, se ha realizado un test estadístico para determinar si los parámetros de los modelos obtenidos deben ser diferentes cuando se modeliza el proceso de adsorción que cuando se modeliza el proceso de desorción de humedad.

Análisis de la correlación lineal entre la humedad del combustible y las variables ambientales

El análisis de correlación es útil para detectar qué variables explican mejor la evolución de cualquier otra (suponiendo una relación lineal). Para llevar a cabo este análisis se ha utilizado el estadístico de correlación lineal de Pearson calculado mediante el procedimiento CORR del paquete SAS/STAT (SAS Institute Inc., 1999). El coeficiente de correlación simple de Pearson, que mide la asociación lineal entre dos variables aleatorias, es el cociente entre la covarianza y el producto de las desviaciones estándar y

un vez simplificando responde a la siguiente expresión en la que x e y son las variables,

n es el número de parejas de valores enfrentados y xe y son los valores medios de

dichas variables:

(

)

(

)

(

)

∑

= = = − − − − n i n i i i n i i i x x y y x x y y 1 1 2 2 1 ) (

Esta técnica descrita aquí también se ha aplicado en la primera línea del trabajo para obtener la correlación entre distintas parejas de humedades y más adelante para obtener la correlación entre las humedades observadas y las estimadas por distintos modelos de predicción ya existentes.

Técnicas de regresión lineal

El análisis de regresión es una técnica estadística consistente en el ajuste de ecuaciones que describen la forma en que una determinada variable denominada dependiente está relacionada con otra u otras variables denominadas independientes o regresoras. Los valores que adopta la variable dependiente dependen por una parte de los valores de las variables independientes analizadas y por otro lado de otras variables que no han sido evaluadas, de manera que se pueden distinguir dos componentes en su variabilidad: uno sistemático y otro aleatorio. La parte sistemática puede modelizarse como una función de las variables independientes, denominándose a esa función ecuación de regresión; la parte aleatoria, denominada error aleatorio, se debe a que dicha ecuación de regresión no puede describir exactamente la respuesta de la variable dependiente a las diferentes combinaciones de valores de las variables independientes.

La diferencia entre análisis de la varianza y análisis de la regresión radica en la forma de tratar las variables independientes o factores. En el análisis de regresión todos los factores son cuantitativos y se tratan cuantitativamente. En el análisis de varianza los factores suelen ser cualitativos, pero si alguno es cuantitativo, se trata cualitativamente

(Perez, 2001). De forma que, en el caso más general de que se disponga de k variables

independientes con n observaciones o mediciones cada una, el modelo lineal toma la

expresión siguiente, similar a la del modelo lineal general presentado al hablar del análisis de varianza: i ik k i i i x x x y =β₀ +β₁ ₁+β₂ ₂ +...+β +ε

Donde yi es la variable dependiente (i = 1,2,..., n), xij son las variables independientes

(j = 1,…, k), β_l (l = 0,..., k) son parámetros a estimar y ε_i es el error aleatorio o

perturbación de la observación iésima.

Existen diferentes metodologías para estimar los valores de los parámetros β_l que

intervienen en la ecuación de regresión. El método empleado en la tesis ha sido el de mínimos cuadrados. El objetivo de esta metodología es determinar los valores de los parámetros que minimizan la suma de cuadrados de las diferencias entre los valores reales de la variable dependiente y los valores predichos por la ecuación de regresión. A estas diferencias, que son función de los parámetros, se las denomina errores. Los

estimadores de dichos parámetros

( )

βˆ_l son variables aleatorias (pues varían según la

muestra que se tome), y poseen las propiedades de ser estimadores lineales insesgados óptimos. Las hipótesis sobre las que se basa el método de mínimos cuadrados y las inferencias sobre los parámetros del modelo son (Vanclay, 1994):

1. Los errores se distribuyen según una Normal.

2. La esperanza matemática de los errores es nula: E(ε_i) = 0; i = 1,2,…,n.

3. La dispersión de los errores que se obtienen al estimar yi es constante para cualquier

valor de las variables regresoras xij. Es la propiedad de homogeneidad de varianza

de los errores, también llamada homocedasticidad, es decir, _var

( )

_ε ₌_σ2

i ;

(i = 1,2,…,n)

4. Las observaciones yi son independientes, lo que implica que también lo son los

errores.

5. Ninguna de las variables explicativas es una combinación lineal de las demás, lo que

implica que las xij son linealmente independientes entre ellas. En caso contrario

aparece un problema denominado colinealidad.

La comprobación del cumplimiento de estas hipótesis de partida tiene importancia para dar validez a las estimaciones de los parámetros obtenidos en los ajustes y, por tanto, a las estimaciones de la variable dependiente. Su no cumplimiento afecta a estas estimaciones de forma diferente dependiendo de la hipótesis quebrantada. Por orden de importancia la dependencia de errores (lo cual ocurre en la experiencia en la caseta), la falta de homogeneidad de varianza y la falta de normalidad de los errores son los defectos más graves.

El ajuste de los modelos lineales se ha realizado por mínimos cuadrados empleando el

procedimiento REG del programa estadístico SAS/STAT(SAS InstituteInc., 1999).

Selección de las variables independientes del modelo

En algunas ocasiones, como es el caso de la tesis, se dispone de un conjunto grande de variables independientes o regresoras potenciales de incluir en el modelo, por lo que es necesario recurrir a métodos de selección de variables para obtener el modelo de regresión idóneo. En este sentido hay que tener en cuenta que cuantas más variables independientes se incluyan en un modelo, mayor será el valor del coeficiente de determinación, sin embargo, puede acarrear graves problemas cuando existe una fuerte correlación entre las variables incluidas (colinealidad). Los efectos negativos que la colinealidad acarrea sobre el modelo obtenido son, de acuerdo con Myers (1986) y Kozak (1997):

• La colinealidad puede provocar un aumento de los errores estándar de los

parámetros del modelo (β_l), lo que puede inducir a error a la hora de decidir si un

parámetro debe eliminarse o no del modelo.

• Dificulta la interpretación de la variabilidad explicada por cada variable

independiente. Cuanto mayor sea la colinealidad más difícil resulta establecer el aporte respectivo de cada variable independiente sobre el valor de la variable dependiente.

La colinealidad se puede evitar haciendo una correcta selección de las variables independientes. Existen diversos métodos de cálculo de modelos de regresión lineal que se pueden emplear para auxiliar en la elección de las variables independientes que deben constituir la ecuación final (Draper y Smith, 1981). Todos ellos van seleccionando paso a paso las variables independientes más influyentes según distintos

criterios (maximizar el coeficiente de determinación R2 _{o minimizar el valor del}

estadístico F usado en el contraste del modelo). Entre estos métodos destacan los de

eliminación progresiva (backward regression), de introducción progresiva (forward

regression) y de regresión paso a paso (stepwise regression).

En este trabajo se empleará el método stepwise puesto que permite el control de la

entrada y salida de variables. En términos generales los pasos que sigue este algoritmo son los siguientes:

1. Determinación del modelo de regresión que, considerando sólo una de todas las variables independientes analizadas proporciona el mejor ajuste, es decir, un mayor

R2.

2. Incorporación al modelo anterior de aquella nueva variable independiente que proporcione el modelo con mejor ajuste empleando el mismo criterio que en el caso anterior.

3. Determinación del aporte parcial al modelo global de cada variable incluida en él mediante el cálculo de un estadístico que se distribuye según una F de Snedecor. Si el estadístico asociado a alguna variable independiente no supera un umbral fijado de antemano dicha variable es excluida del modelo.

4. Se repiten los dos últimos pasos hasta que ninguna nueva variable independiente pueda ser incluida en el modelo ni ninguna de las ya existentes pueda ser excluida.

En Hocking (1976), Drapper y Smith (1981) o Judge et al. (1985) se puede encontrar

una descripción más detallada de esta metodología.

Diagnóstico de colinealidad

Como se ha comentado en el apartado anterior, la inclusión de un número elevado de variables en un modelo matemático provoca a menudo problemas de colinealidad, o alto grado de correlación entre variables independientes. Esto sucede cuando varias variables representan o miden fenómenos similares. Es importante identificar posibles asociaciones lineales entre las variables independientes.

Una primera aproximación al grado de colinealidad de un modelo puede obtenerse a través del cálculo de las correlaciones simples de Pearson entre las variables

independientes. También, el método de regresión paso a paso que se acaba de describir supone una primera criba de variables correlacionadas. Un método más riguroso, que se ha empleado en la tesis, consiste en la estimación del factor de inflación de varianza

(VIF) para cada variable. Este factor se define como la inversa de la unidad menos el

coeficiente de determinación 2

R que resulta de la regresión lineal de la variable dada

frente a las otras variables explicativas del modelo:

2 1 1 i R VIF − =

Si una variable independiente yi no presenta una fuerte relación lineal con el resto de

variables independientes, entonces el coeficiente de determinación 2

R de ajustar un

modelo en el que yi esté a la izquierda de la igualdad (variable dependiente) y las

restantes a la derecha es muy bajo, por lo que el denominador de la expresión anterior

vale casi 1 y el VIF es muy pequeño. Si una variable explicativa está muy estrechamente

ligada a las otras, entonces el denominador de la expresión anterior se acerca mucho a

cero y el VIF es muy grande. En general, se asume un valor crítico de este estadístico de

5, por encima del cual existe colinealidad entre las variables predictoras (van Laar,

1991; Schröder et al., 2002).

Análisis de correlación entre las observaciones; modelización del término del error

Los métodos estadísticos habitualmente utilizados en el análisis de variables numéricas

continuas están diseñados para situaciones en las que se registra una única medida por

cada unidad de observación. A este tipo de datos se les denomina datos transversales. En la tesis, la unidad de observación es la humedad de una muestra concreta de un tipo de combustible determinado en una parcela y especie y son datos transversales únicamente los de la experiencia en monte.

En el caso de que se realicen remediciones de la unidad de observación (datos longitudinales), como es el caso de las experiencias en la caseta, se cuenta con valores de la variable dependiente en diferentes momentos. En esta situación, las diferentes humedades de un mismo tipo de combustible y especie concreta están correlacionadas. Por tanto, estas observaciones no se pueden considerar como independientes y el término del error está seriamente afectado por problemas de auto correlación, incumpliéndose un supuesto básico para realizar estimaciones en un modelo de regresión.

La correlación se produce porque la medición de una variable en un determinado momento incluye los valores de las anteriores mediciones. Si los términos del error en un modelo (cuyos parámetros se han estimado mediante mínimos cuadrados ordinarios) están auto correlacionados, aparecen una serie de consecuencias con respecto a las

inferencias estadísticas (West et al., 1984; Neter et al., 1989; Zeide, 1993; West, 1995;

Kozak, 1997):

1. Los estimadores de los coeficientes de regresión son insesgados y consistentes, pero no poseen la propiedad de mínima varianza.

2. El error medio cuadrático calculado puede subestimar la varianza real del término del error, mientras que los errores estándar de los coeficientes de regresión pueden estar seriamente subestimados.

3. Los tests estadísticos usando la distribución t o la distribución F y los intervalos de

confianza no proporcionan valores reales.

Todo esto implica que no hay garantías de obtener el modelo que mejor representa a los datos reales. Es por ello que, actualmente, el problema de construcción de modelos con datos repetidos se está resolviendo mediante dos procedimientos estadísticos: modelos no lineales con efectos mixtos y mínimos cuadrados ordinarios (OLS), modelizando la estructura del error.

La segunda metodología, que es la empleada en la tesis, consiste en asumir una estructura particular del error. En este caso se ha considerando que cada error está relacionado con los anteriores según los mismos modelos descritos anteriormente al hablar de la matriz de varianzas-covarianzas del error en los modelos lineales mixtos. Los ajustes se han realizado con el procedimiento MODEL del programa SAS/ETS v.8.12 (SAS Institute Inc., 2000).

Comparación de los modelos para los procesos de adsorción y desorción

Con el fin de comparar las diferencias de los modelos de estimación de la humedad de los combustibles para los procesos de adsorción y desorción de humedad se ha empleado un test estadístico que permite determinar si existen diferencias significativas entre los valores de los parámetros de ambos modelos. Este test, propuesto por Bates y Watts (1988), se denomina método de la suma de cuadrados extra y se basa en el ajuste de dos modelos, un modelo denominado reducido, en el que los parámetros son comunes para los procesos de adsorción y desorción y otro modelo denominado completo en el que se obtiene un conjunto de parámetros específico para cada proceso. Los parámetros del modelo completo se obtienen “expandiendo” los del modelo

reducido al incluir un parámetro asociado y una nueva variable (I) para diferenciar entre

ambas situaciones pues sólo toma dos valores: 0 para el proceso de desorción y 1 para el proceso de adsorción:

I b b b_i = _i₀ + _i₁

Donde bi es un parámetro del modelo reducido, bi0 y bi1 son los correspondientes

parámetros del modelo completo correspondiente e I es la nueva variable que toma los

valores 0 o 1. Una vez ajustados ambos modelos se calcula el siguiente estadístico:

C C R df C SSE df df C SSE R SSE F* ( ) ( )÷ ( ) − − =

Donde SSE(R) es la suma de cuadrados del error del modelo reducido; SSE(C) es la

suma de cuadrados del error del modelo completo; dfR y dfC son los grados de libertad

del modelo reducido y del modelo completo, respectivamente y la F* sigue una

distribución F de Snedecor con (dfR – dfC) grados de libertad en el numerador y dfC

4.6.3 Procedimientos estadísticos de adaptación de los modelos de estimación de

In document Essays on variance risk (Page 101-110)