Luego de haber determinado que el modelo logit será el empleado para el análisis de los datos, se detalla enseguida el proceso de estimación propuesto por Hair, Black, Babin y Anderson (2010). En primer lugar se resume cada etapa (Cuadro 2) para posteriormente explicar con más detalle cada una de ellas.
35 Fuente: Hair et. al (2010)
Elaboración: Autor
La estimación de un modelo logit consta de dos partes; la explicación y la predicción. La primera tiene como objetivo identificar las variables independientes que mayoritariamente explican la diferencia entre un grupo y otro (pobres y no pobres). Y la segunda, establecer un sistema de clasificación, que permita que un individuo fuera de la muestra pueda ser catalogado en uno de los dos grupos; siempre que se tenga acceso a los valores de las variables explicativas utilizadas (Etapa 1).
Acorde al diseño se destacan dos aspectos, la naturaleza de la variable dependiente y el tamaño de la muestra. La variable dependiente es binaria y toma valores de cero o uno, la
OBJETIVO
Definir la variable binaria
Clasificar las observaciones en grupos excluyentes
Identificar fuentes de discriminación entre los grupos
CONSIDERACIONES DE DISEÑO
Selección de las variables independientes
Consideraciones del tamaño de la muestra (número de observaciones)
Análisis de los datos
SUPUESTOS
No hace falta que se cumpla con normalidad, homocedasticidad o linealidad de las variables independientes.
ESTIMACIÓN Y EVALUACIÓN
Transformación de la probabilidad
Estimación del modelo
Bondad de ajuste
ETAPA 5
INTERPRETACION DE LOS RESULTADOS
Verificar si los coeficientes son significativos
Observar el signo de los estimadores en las dos especificaciones del modelo
Calcular e interpretar los efectos marginales ETAPA 4
ETAPA 3 ETAPA 2 ETAPA 1
36 codificación influye solamente en la interpretación. Por ejemplo, si las personas pobres son codificadas con uno y las no pobres con cero, los coeficientes reflejaran el efecto que la variable explicativa genera en la probabilidad de que la persona sea pobre (Etapa 2)
Otro aspecto que se debe considerar en el diseño es el uso de la curva logística. Al ser la variable dependiente dicotómica, el valor predicho debe estar obligatoriamente en el intervalo [0 1], lo que la función logística garantiza; ya que a niveles bajos de la variable independiente la probabilidad se aproxima a cero, y a niveles altos se acerca a uno. Al ser la variable dependiente categórica, el error sigue una distribución binomial, lo que invalida las pruebas estadísticas regidas por el supuesto de normalidad. Por lo tanto, la interpretación de los coeficientes, los estadísticos de ajuste y el proceso de estimación (máxima verosimilitud) es diferente al utilizado en una regresión múltiple. Es importante recalcar que el modelo logit fue diseñado para corregir estos problemas y obtener resultados robustos, sin embargo la muestra total debe ser mayor a las 400 observaciones, y tener como mínimo 10 observaciones para cada una de las variables independientes (Etapa 2).
En referencia a los supuestos; no hace falta que las variables independientes sigan una distribución normal; puede existir heterocedasticidad y no es necesario que exista una relación lineal entre la variable dependiente y las independientes (Etapa 3).
Acorde a la evaluación y estimación se identifican tres pasos: transformación de la probabilidad, modelo de estimación y evaluación de la bondad de ajuste. En primer lugar se transforma la probabilidad ya que en general las probabilidades no se encuentran acotadas entre cero y uno, para lograr esto existen dos opciones, la primera es el cálculo del ratio de probabilidad11 y la segunda es la obtención de los logit12. Un coeficiente de 0.70 –expresado
como razón de probabilidades- indica que la probabilidad de éxito (ser pobre) es 2.3 veces mayor a la de no ser pobre, asimismo un logit será mayor a cero cuando el ratio de probabilidad sea mayor a uno y menor a cero alternativamente, en el primer caso indicara un efecto positivo y en el segundo uno negativo sobre la probabilidad de éxito (Etapa 4).
En la estimación del modelo, se utiliza la metodología de máxima verosimilitud, ya que se requiere estimar los coeficientes de manera que exista la mayor posibilidad de acierto al momento de predecir que un evento ocurra. Es importante mencionar que independientemente de la especificación que se utilice logarítmica13 o exponencial14, el
procedimiento es el mismo. Asimismo, vale mencionar que los estadísticos de ajuste no son los mismos a los de una regresión múltiple, siendo las medidas más utilizada para evaluar el ajuste del modelo − �� que es igual a menos dos veces el logaritmo de la verosimilitud (mientras más bajo sea este valor mejor poder explicativo tiene el modelo) y el p-seudo � 15 cuya interpretación es análoga a la del � de una regresión normal. Un modelo con un − ��
de cero tendrá un p-seudo � de uno y por lo tanto un ajuste perfecto.
11 Pi/ − Pi 12 log Pi/ − Pi ) 13 log P−P = α + ∑i=n αixi 14 P −P = exp α + ∑i=n αixi 15 � =− ��− ��− ��
37 Las medidas previamente descritas evalúan el poder explicativo de la regresión logística, mientras que la matriz de clasificación valora la capacidad predictiva. La matriz identifica el porcentaje de casos correctamente clasificados (ratio total de acierto). La sensibilidad que es la probabilidad de que el modelo clasifique a una persona como pobre cuando efectivamente lo es y la especificidad que calcula la posibilidad de que la persona sea catalogada como no pobre cuando no lo es (Etapa 4).
Finalmente, se interpretan los efectos marginales16. En primer lugar, se verifica que los
coeficientes obtenidos de la especificación original del modelo sean significativos con el test de Wald (análogo a la prueba t), posterior a ello se calculan los efectos marginales debido a que su interpretación es igual a la de un coeficiente de una regresión simple; es decir muestran el efecto ocasionado en la variable dependiente ante un aumento unitario de la independiente alrededor del individuo medio (Etapa 5).