Summary - Big Data for Traffic Engineering in Software-Defined Networks

En primer lugar, es necesario probar el modelo que incluye a todas las variables:

𝑃(𝐶_𝑆) = 𝑔 (𝑠𝑎𝑡𝑖𝑠𝑓𝑎𝑐𝑐𝑖ó𝑛, 𝑙𝑖𝑑𝑒𝑟𝑎𝑧𝑔𝑜, 𝑔é𝑛𝑒𝑟𝑜_𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜, 𝑒𝑑𝑎𝑑_𝑚𝑒𝑛𝑡𝑎𝑙, 𝑒𝑑𝑢_𝑓ℎ) Tabla 7: Prueba Omnibus sobre los coeficientes del Modelo

Chi- square df Sig. Paso 1 Step _221.600 ₅ _.000 Block _221.600 ₅ _.000 Modelo _221.600 ₅ _.000 Elaboración: Propia

La prueba Omnibus tiene como Hipótesis nula que todos los coeficientes del modelo (logístico binario) son 0 a excepción de la constante (Aguayo, 2012). Dado que los niveles de significancia son inferiores a 0.05, entonces la hipótesis nula es rechazada. Luego, se acepta que algunas de las variables del modelo tienen un coeficiente diferente a cero (Tranmer & Elliot, s.f.). Esta información puede ser complementada con la siguiente tabla:

Tabla 8: Estadísticos de Bondad de Ajuste

Estadística Independiente Full

Observaciones 403 403 Suma de los pesos 403.000 403.000

DF 402 397

-2 Log(Likelihood) 485.567 263.967 R²(McFadden) 0.000 0.456 R²(Cox and Snell) 0.000 0.423 R²(Nagelkerke) 0.000 0.604 AIC 487.567 275.967 SBC 491.566 299.961 Interacción 0 12

Elaboración: Propia

En la tabla anterior los estadísticos más importantes son los valores de R². Para el modelo, dadas todas las variables, la variabilidad del indicador preferencia de consumo influenciada por el social media (0 = improbable, 1 = probable) queda explicada entre un 42.3% y 60.4% por las variabilidades de los indicadores psicodemográficos. Este nivel de ajuste puede ser considerado aceptable para el modelado de acuerdo con (Tranmer & Elliot, s.f.)

Luego, queda analizar la primera tabla de clasificación:

Predicción Probabilidad de que el consumo sea

influenciado por el Social Media Porcentaje Correcto Improbable Probable Paso 0 Probabilidad de que el consumo sea influenciado por el Social Media Improbable 0 117 0.0 Probable 0 286 100.0 Porcentaje Total 71.0 Elaboración: Propia

El modelo tiene una especificidad alta (100%) y una sensibilidad nula (0%) con las variables predictores, lo cual es adecuado en un modelo aceptable. Por último, en cuanto a cada una de las variables se obtiene:

Tabla 9: Variable en la ecuación del modelo

B S.E. Wald df Sig. Exp(B)

Liderazgo -10.766 1.361 62.613 1 0.000 0.000 Satisfacción Vida -6.48 2.142 9.148 1 0.020 0.002 Edad Mental -0.251 0.054 21.95 1 0.000 0.778 Género Estimado (femenino) 1.922 0.34 31.971 1 0.000 6.833 Edu_fh (educación) 0.01 0.01 1.029 1 0.310 1.01 Constante 11.539 1.684 46.959 1 0.000 Elaboración: Propia

En la tabla anterior está evidenciada las primeras relaciones entre la variable dependiente con las independientes bajo el modelo propuesto. Dado que el nivel de significancia es de 0.05; es necesario retirar del modelo al índice de Fernández– Huerta, variables vinculadas a la educación en la escritura. Dicho de otra forma, bajo el modelo propuesto el hecho de que el Social Media influya o no en el caso de las seguidoras de influencers peruanas de moda es independiente del nivel de instrucción que evidencian al momento de escribir en la red social Twitter. Luego, existe una relación inversa entre satisfacción con la vida, liderazgo y satisfacción con la vida y la variable del tipo consumo. Por el contrario, el género estimado (femenino) tiene impacto positivo en la variable dependiente asociado al hecho de consumir productos influenciado por el Social Media,

El modelo, entonces, queda como sigue:

𝑃(𝐶_𝑆) = 𝑔 (𝑠𝑎𝑡𝑖𝑠𝑓𝑎𝑐𝑐𝑖ó𝑛, 𝑙𝑖𝑑𝑒𝑟𝑎𝑧𝑔𝑜, 𝑔é𝑛𝑒𝑟𝑜_𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜, 𝑒𝑑𝑎𝑑_𝑚𝑒𝑛𝑡𝑎𝑙) TABLA 10:ESTADÍSTICOS DE BONDAD DE AJUSTE PARA EL MODELO MODIFICADO

Estadística Independencia Full Observaciones 403 403 Sumade los pesos 403.000 403.000

DF 402 398

-2 Log(Likelihood) 485.567 265.006 R²(McFadden) 0.000 0.454 R²(Cox and Snell) 0.000 0.421 R²(Nagelkerke) 0.000 0.602 AIC 487.567 275.006 SBC 491.566 295.001 Iteración 0 12

Elaboración: Propia

En este modelo, los valores de R-cuadrado ha disminuido en un porcentaje casi ínfimo en comparación al modelo que incluía todas las variables. En este caso la probabilidad de consumo influenciada por el Social Media queda explicada entre un 42.1% y 60.2% por las variables dependientes, exceptuando la variable del tipo educación (excluida).

Tabla 11: Variables en la ecuación del modelo modificado

B S.E. Wald df Sig. Exp(B)

Paso 1a Liderazgo -10.578 1.336 62.643 1 0.000 0.000 Satisfacción Vida -6.283 2.103 8.929 1 0.003 0.002 Edad Mental -0.245 0.053 21.186 1 0.000 0.782 Género Estimado (Femenino) 1.923 0.338 32.324 1 0.000 6.844 Constante 11.729 1.674 49.073 1 _0.000 Elaboración: Propia

De la tabla anterior, es posible inferir que todas las variables deben permanecer en el modelo: ninguna debe ser excluida. Este segundo modelo tiene mayor consistencia que el primero en este aspecto.

Sin embargo, todavía, no se está ante un modelo que pueda ser calificado como adecuado. Es recomendable aplicar el test específico para determinar si efectivamente el modelo se ajusta a una regresión binaria. Los resultados son como siguen:

Tabla 12: Test de Hosmer- Lemeshow

Estadística Chi-square DF Pr > Chi² Hosmer-

Lemeshow

Statistic 10.652 9 0.300

Elaboración: Propia

En este caso, el p-valor asociado es de 0.30; lo cual favorece al modelado, ya que valores por debajo del nivel de significancia (0.05) evidenciarían que la regresión logística binaria no es el método más adecuado para el modelo propuesto, situación que no se ha producido.

A fin de enriquecer, los resultados puede aplicarse el Test de Kolmogorv-Smirnov en los residuos no estandarizados.

Tabla 13: Prueba de Kolmogorov – Smirnov

Difference between observed and predicted probabilities

N ₄₀₃

Normal Parameters Mean _.0000000

Std.

Deviation .31097116

Most Extreme Differences Absolute _.219

Positive _.138

Negative -.219

Test Statistic _.219

Asymp. Sig. (2-tailed) ,000

Dado que el nivel de significancia supera el valor de 0.05, entonces es posible afirmar que los residuos del modelado no poseen una distribución normal.

Por último, es posible construir la tabla de predictibilidad del modelo tal como sigue:

TABLA 14:TABLA DE CLASIFICACIÓN DEL MODELO MODIFICADO

Predicción Probabilidad de que el consumo

sea influenciado por el Social

Media Porcentaje Correcto Improbable Probable

Paso 0 Probabilidad de que el consumo sea influenciado

por el Social Media

Improbable ₇₇ ₄₀ _65.8

Probable

17 269 94.1

Porcentaje Total 85.9

En promedio el modelo tiene un nivel de acierto de 85.9%. Esto también favorece al modelado, ya que un modelo adecuado debería alcanzar al menos un 75% (Addinsoft, 2014).

Luego, es posible estimar la curva ROC para el modelo:

Figura 10: Curva ROC para el Modelo

El modelado, empleando la perspectiva de la Curva ROC puede recibir el calificativo de muy bueno, ya que el área bajo la curva supera al valor de 0.90 (Addinsoft, 2014).

Pred(Score ) = 1 / (1 + exp(-(11.729-10.578*Liderazgo-6.283*SatisfacciónVida- 0.245*Edad Mental+1.923*Género_Estimado(Femenino))))

La anterior ecuación representa la función matemática para la función binaria que incluye tanto a la variable dependiente como a las independientes pertinentes en el modelado.

In document Big Data for Traffic Engineering in Software-Defined Networks (Page 32-40)