Se tienen los datos de la población total de Colombia desde enero del 2001 hasta abril del 2008 en una periodicidad mensual. Se quiere analizar el comportamiento de la variable en estas fechas.
Se procede a insertar los datos que usted encuentra en el repositorio (recuerde que SAS admite formatos de Excel solo hasta .xls) por el método de importación y llamaremos a los datos “pob”.
104
proc sgplot data=pob;scatter y=poblacion x=fecha; run;
A continuación aparece el siguiente gráfico que presenta, en primera medida, el crecimiento de la población colombiana del 2001 al primer trimestre del 2008.
Se puede observar que la población a lo largo del tiempo ha aumentado de forma lineal del 2001 al 2008 y no hay mayor variación.
Después de esto se inserta la programación correspondiente para calcular el modelo ARIMA de la serie:
proc arimadata=pob ;
identify var=poblacion nlag=24;
run;
105
En esta primera parte se puede ver la autocorrelación en el ruido blanco, primero se realiza una introducción que indica la media, desviación estándar y número de observaciones de la serie. Se puede observar que para cada retardo, la autocorrelación del ruido blanco es contrastada con una prueba Chi-cuadrado, donde la hipótesis nula es que no existe autocorrelación; con un p-valor < 0,001 en todos los retardos podemos rechazar la hipótesis nula y concluir que existe autocorrelación del ruido blanco, luego la serie de la Población no es estacionaria. Gráficamente se observa:
106
Es decir que, gráficamente, se corrobora que la serie de la población no es estacionaria, el primer gráfico representa nuevamente la serie graficada contra el tiempo y observamos que efectivamente la media no es constante en el tiempo. El segundo gráfico corresponde al gráfico de autocorrelación simple que corresponde a la parte MA del modelo, se puede observar que las barras del gráfico caen suavemente lo que indica que existe autocorrelación en los errores también. El tercer gráfico muestra la autocorrelación parcial (es decir la parte AR) y éste no presenta ningún inconveniente; el cuarto y último gráfico representa el coeficiente de cointegración de la serie de tiempo, que para este caso será igual a 1.
Dado que la serie no es estacionaria, se debe aplicar una diferencia para que esta se vuelva estacionaria. La razón de la caminata aleatoria de la variable es porque esta es una variable en constante crecimiento que jamás logrará mantener su media constante, por ello hay que diferenciarla. Se aplica la siguiente programación:
proc arima data=pob ; identify var=poblacion(1); run;
107
Al diferenciar la serie (es decir, al incluir (1) en la programación) se encuentra que gráficamente la serie tiene una media constante, sin embargo por los picos que se observan no se puede afirmar que se tenga una varianza constante, es decir, se deben agregar órdenes AR y MA para solucionar el problema, para ello se usan los gráficos de ACF (para MA) y PACF (para AR).
Teniendo en cuenta lo anterior, por el método gráfico (es decir, observando las columnas azules que salen del intervalo de confianza que está en azul claro) se determina qué órdenes de AR y MA son convenientes y modelarlos. Se puede observar que basta con agregar un orden en MA y uno en AR para corregir la serie, así que la programación se plantea:
procarimadata=pob; identifyvar=poblacion(1); estimateq=(1) nointmethod=ml; estimatep=(1) nointmethod=ml;
forecastid=fecha interval=month printallout=b; run;
108
Se observan, en primera medida, algunos datos como el método de estimación, la cantidad de estimadores, algunos valores máximos y coeficientes que no tocaremos en este curso, note, por ejemplo, que el cuadro inicial avisa que las estimaciones no han convergido a un valor.
109
Se observa que las correlaciones para el orden MA aún son altas y efectivamente el problema no se ha corregido como se puede observar gráficamente.
110
Sin embargo puede notarse que los residuos siguen una distribución normal y los residuales oscilan alrededor de la media.
111
En cambio AR muestra bajas correlaciones al aplicar estos rezagos, lo cual quiere decir que se está solucionando el problema.
112
Observe entonces que se hacen necesarios otros órdenes de AR y MA para modelar la serie de tiempo.
113
En cuanto a los residuales, se observa que estos tienden más a la media igual a cero, sin embargo se desvían más de la media de los datos.
En cuanto al procedimiento FORECAST que se observa en la programación que se insertó, encontramos que se encarga de realizar el pronóstico de los datos hasta 112 pasos adelante (es decir, más de 11 años de pronóstico para la periodicidad que se está manejando. Primero se visualiza la tabla de datos del pronóstico.
El gráfico del pronóstico en cambio muestra grandes intervalos de confianza lo que muestra que el modelo no es confiable para la predicción, éste es un grave error ya que el principal objetivo de una serie de tiempo es la predicción:
Para corregir esto entonces, existe la opción de diferenciar de nuevo la variable aún arriesgando la estabilidad de la media y varianza de los datos, sin embargo se realiza y se incluyen los órdenes de AR y MA que se consideran pertinentes:
procarimadata=pob; identifyvar=poblacion(2);
estimateq=(1,2,12) nointmethod=ml; estimatep=(1,3,7,8) nointmethod=ml;
forecastid=fecha interval=month printallout=b; run;
114
Los resultados son los siguientes:Note, entonces, que aún se necesitan más órdenes que ya fueron agregados a la programación con anterioridad, a nivel general parece que el problema se ha solucionado, observamos entonces lo que ocurrió con los grados AR y MA:
115
Observe que las correlaciones han bajado un poco, aunque se siguen manteniendo altas, en comparación, por ejemplo, con las correlaciones que muestra la parte autorregresiva del modelo.
116
Como se puede ver, gráficos nos sugieren por ejemplo agregar el orden 2 a MA, cuando éste ya está agregado, así que este tipo de avisos del modelo no son tenidos en cuenta.
117
En cuanto a los residuos, éstos se han ajustado más a la prueba de normalidad y cada vez oscilan más cerca de la media, por lo cual podemos concluir que es el órden adecuado para el modelo. Ahora observamos la parte AR:
Vease que el grado de autocorrelación ha disminuído en una gran cantidad frente a los rezagos.
118
Como se puede observar, al ejecutar el grado MA y AR el problema se ha solucionado y se han agregado los órdenes pertinentes.
En cuanto a los residuales, observe que siguen una distribución normal y que el 75% de los datos oscila alrededor de la media.
119
Finalmente, el procedimiento FORECAST nos arroja la senda de pronótico para la variable que es eminentemente lineal, sin embargo, a diferencia de lo anterior, tiene unos intervalos de confianza más bajos, lo que le da mayor credibilidad al modelo.