Para que ambos modelos –lineal y/o cuadrático– obtenidos anteriormente tanto para pasajeros subidos como para pasajeros bajados, puedan ser útiles en la determinación de la capacidad, estos deben cumplir ciertas hipótesis de modelo que implica el uso de herramientas de comprobación adecuadas.
En las pruebas de diagnosis debe demostrarse que se cumplen aspectos clave como: linealidad, homocedasticidad –variabilidad uniforme– y normalidad en el modelo. Estas pruebas estadísticas conllevan el análisis de la parte no controlada del modelo –los residuos– frente a los estimadores considerados de mayor influencia que constituyen al propio modelo.
En general, podemos decir que la demanda de pasajeros en parada –subidos y bajados– constituye el estimador principal a ser evaluado frente a los residuos para comprobar los aspectos que debe cumplir el modelo. En concreto, para determinar la linealidad y homocedasticidad necesaria en el modelo se aplican gráficos de residuos frente al estimador de demanda, y para evaluar la normalidad, se aplican tanto histogramas de residuos como medida descriptiva y gráficos de probabilidad normal Q-Q como análisis más profundo.
Evaluando los resultados, la figura 3.11 muestra el gráfico de residuos para el caso de pasajeros subidos, donde se cumple con el aspecto de linealidad pero se tiene tendencia clara a la heterocedasticidad, es decir, menos dispersión a la izquierda para valores de baja demanda y más dispersión a la derecha a medida que esta aumenta.
Esta situación invalida los modelos lineales asumidos en el ajuste del apartado anterior, lo que hace pensar en un estudio más detallado sobre el origen de esta variabilidad tratando de descartar primero la existencia de datos anómalos que puedan incidir en los resultados de diagnosis.
-40 -30 -20 -10 0 10 20 30 40 0 5 10 15 20 25 30 35 40 N (pasajeros subidos) R esi duos
Figura 3.11. Residuos versus N pasajeros subidos. Linealidad y mayor dispersión a la derecha.
Analizando el caso de pasajeros bajados, la figura 3.12 muestra los puntos más próximos a la línea horizontal lo que demuestra menos variabilidad. Aunque el efecto parece contrario al caso anterior –mayor variabilidad del lado izquierdo–, no obstante, destaca la ausencia de datos de demora a demanda alta de pasajeros por desestimación de los bajados por puerta central del vehículo, cuyo tiempo no fue medido.
-15 -10 -5 0 5 10 15 0 5 10 15 20 25 30 35 N (pasajeros bajados) R esi duos
Figura 3.12. Residuos versus N pasajeros bajados. Menos dispersión con puntos de mayor variabilidad en el centro e izquierda del gráfico.
En suma, se puede decir que se cumple con el aspecto de linealidad y los datos de demora para valores altos de pasajeros bajados se encuentran más próximos a la línea horizontal donde se hecha en falta mayor número de datos. Sin embargo, se presume la misma variabilidad presentada en el caso anterior de pasajeros subidos.
Finalmente, para cerrar el análisis de diagnosis se debe comprobar la hipótesis de normalidad y, para ello, se realizan dos pruebas adicionales: los histogramas de residuos que proporcionan cierta definición descriptiva y los gráficos de probabilidad normal (Q-Q) frente a los residuos como una prueba más contundente.
Las figuras 3.13 y 3.14 muestran los histogramas de residuos para el caso de pasajeros subidos y bajados, respectivamente.
0 50 100 150 200 250 300 -5 -4 -3 -2 -1 0 1 2 3 4 5 y m ayor ... Residuos estandarizados Fr e c ue nc ia p a s a je ro s s u bi d os
Figura 3.13. Histograma de residuos en el caso de pasajeros subidos. Tendencia a distribución normal.
Estos histogramas describen una tendencia a la normalidad de los datos según el arreglo de la frecuencia que presenta forma de campana típica similar a los casos de distribución normal, generada por la tendencia de los residuos a agruparse alrededor de un valor central, siendo esta apreciación, un resultado primario sobre este análisis.
0 50 100 150 200 250 300 350 400 450 -5 -4 -3 -2 -1 0 1 2 3 4 5 y ma yor. .. Residuos estandarizados Fr ecuenci a pasaj er os ba ja dos
Figura 3.14. Histograma de residuos en el caso de pasajeros bajados. Tendencia a distribución normal.
Las figuras 3.15 y 3.16 seguidamente, muestran los resultados de la segunda prueba de normalidad, en donde se compara la distribución de la muestra con la distribución normal mediante gráficos de probabilidad normal (Q-Q). Los datos deberían estar más próximos a la línea de correlación para demostrar que ambas distribuciones –muestral y normal– son similares entre si.
-5 -4 -3 -2 -1 0 1 2 3 4 5 0.0001 0.0005 0.001 0.005 0.01 0.05 0.1 0.25 0.5 0.75 0.9 0.95 0.99 0.995 0.999 0.9995 0.9999 Residuos Pr o b a b il id a d
Figura 3.15. Gráfico de probabilidad normal Q-Q en demoras por pasajeros subidos. Los puntos deberían estar más próximos a la línea de correlación en sus extremos.
-6 -4 -2 0 2 4 6 0.0001 0.00050.001 0.005 0.01 0.05 0.1 0.25 0.5 0.75 0.9 0.95 0.99 0.995 0.999 0.9995 0.9999 Residuos P rob a b il ida d
Figura 3.16. Gráfico de probabilidad normal Q-Q en demoras por pasajeros bajados. Los puntos deberían estar más próximos a la línea en sus extremos.
En general, ambas gráficas de probabilidad normal Q-Q demuestran que los puntos están separados ampliamente en los extremos de la línea de correlación y más apegados en su parte central.
Por tanto, se rechaza la hipótesis de normalidad en ambos casos de pasajeros subidos y bajados. En consecuencia, si rechazamos o dudamos de la hipótesis de normalidad, una solución más simple y efectiva es aplicar la transformación idónea a los datos buscando mejorar los aspectos de diagnosis señalados.
Previamente, se debe comprobar que los problemas no se deben a datos anómalos que puedan influir de forma determinante en los problemas encontrados, lo que obliga a realizar un estudio que determine la existencia de este tipo de datos, que es incluido en el apartado sobre fiabilidad de los modelos.
En suma, los gráficos de residuos versus el número de pasajeros muestran heterocedasticidad en cada caso, y los gráficos de probabilidad normal (Q-Q), señalan que no se cumple con la hipótesis de normalidad necesaria.
La forma de triangulo que abre a la derecha mostrado en los gráficos de residuos determina que el problema de heterocedasticidad puede ser corregido mediante transformación logarítmica. Esta transformación debe permitir que se cumpla igualmente la prueba de normalidad para que los resultados esperados sean acertados. Los nuevos cálculos estadísticos de regresión deben hacerse a los datos transformados, y si estos cumplen las pruebas de diagnosis citadas, el modelo válido resultante será aquel que se obtenga de la conversión inversa del logaritmo a su escala natural.