Chapter 5: Fieldwork Methods
5.2. Qualitative Interviewing
Una vez decidida la manera de comparar los distintos modelos, es momento de comparar los mismos. Para ello, se ha realizado la t´ecnica de validaci´on cruzada, con la t´ecnica de leave-one-out, dado que es el mejor m´etodo de validaci´on cruzada [Kohavi95] siempre y cuando se tengan m´as de 60 instancias.
En primer lugar se han utilizado todas las variables disponibles, convertidas en String (excepto NotaAdmisi´on, AnioNacimiento y AnioAccesoSUE), de modo que los algoritmos de tipo ´arbol no realicen c´alculos a trav´es de las distancias entre las distintas variables (dado que en este caso los n´umeros no representan distancias). Las pruebas se han realizado con los distintos algoritmos que se pueden encontrar en la tabla 4.2.
Algoritmo Resultado F´ormula
SMO 0,6985
Naive Bayes Tree 0,7125 Random Forest 0,7128 Logistic 0,7078 KNIME Tree 0,6991
C4.5 0,7074
Tabla 4.2: Comparaci´on de algoritmos utilizando todas las variables disponible
Los malos resultados obtenidos pueden deberse a varios motivos. Algunos de ellos son los siguientes:
La elecci´on de variables puede no ser la adecuada. Hay muchas variables que se no tienen importancia a nivel sem´antico. Puede que con una mejor elecci´on de variables, el resultado mejore.
De los 983 alumnos que tenemos en la tabla, hay 761 que no abandonan y 222 que s´ı que lo hacen, lo que significa que la clase no est´a ajustada. Una manera de mejorar el modelo ser´ıa igualar el n´umero de alumnos que no abandonan con los
4. Modelizaci´on y evaluaci´on
que s´ı abandonan, bien generando artificialmente alumnos que abandonan o bien filtrando alumnos que no abandonan.
Por ´ultimo, cabe la posibilidad de que con estos datos no exista un buen modelo capaz de predecir el abandono.
4.3.2.
Reelecci´on de variables
Lo primero que vamos a hacer para intentar mejorar el resultado ser´a escoger las variables que m´as sentido tienen en este problema a nivel sem´antico. Adem´as, se elimi- nar´an tambi´en aquellas variables que est´en a NULL en m´as de la mitad de los alumnos. Las variables elegidas siguiendo lo comentado anteriormente son las siguientes:
Pa´ıs Nacionalidad Sexo
Dedicaci´on Estudio Familia Numerosa Nivel Estudio Padre Nivel Estudio Madre Ocupaci´on Padre Ocupaci´on Madre Forma Admisi´on
Pa´ıs Fin de Estudio Acceso Naturaleza Centro Secundaria A˜no Acceso SUE
Nota de Admisi´on Rezagado
Centro Secundaria Madrid Edad
Con estas variables convertidas a String (excepto AnioAccesoSUE, NotaAdmisi´on y Edad) por los problemas que tienen los algoritmos de tipo ´arbol, se han obtenido los resultados que aparecen en la tabla 4.3. Como se puede apreciar en dicha tabla, los resultados han sido bastante malos.
4. Modelizaci´on y evaluaci´on
Algoritmo Resultado F´ormula
SMO 0,7068
Naive Bayes Tree 0,7069 Random Forest 0,7033 Logistic 0,7039 KNIME Tree 0,6814
C4.5 0,7102
Tabla 4.3: Comparaci´on de algoritmos utilizando una selecci´on de variables a nivel sem´antico
4.3.3.
Ajuste de la distribuci´on de la clase
Existen dos maneras para ajustar la distribuci´on de la clase [Rahman13]:
Oversampling (sobremuestreo): Consiste en generar de manera artificial instan- cias de una de las clases con el fin de ajustar la distribuci´on del conjunto de datos. Esta generaci´on de instancias se realiza con distintos algoritmos como K-Means.
Subsampling osampling (muestreo): Consiste en eliminar o descargar instan- cias de la clase predominante, con el fin de ajustar la distribuci´on del conjunto de datos. Esta eliminaci´on se suele realizar de manera aleatoria y estratificada. Dado que el tiempo disponible para realizar el proyecto es limitado, solo se rea- lizar´a una de las t´ecnicas para ajustar la distribuci´on de la clase: Oversampling. El conjunto de datos, despu´es del ajuste realizado, contiene 1522 instancias. Con este con- junto de datos y con todas las variables disponibles, se han obtenido los resultados que se pueden ver en la tablas 4.4.
Algoritmo Resultado F´ormula
SMO 0,6318
Naive Bayes Tree 0,7434
Random Forest 0,8308
Logistic 0,6457 KNIME Tree 0,7477
C4.5 0,7503
Tabla 4.4: Comparaci´on de algoritmos utilizando la t´ecnica de oversampling y todas las variables disponibles
Adem´as, se han realizado tambi´en los modelos con el conjunto de variables con significado sem´antico, que se pueden encontrar en la tabla 4.5. En ambas tablas se
4. Modelizaci´on y evaluaci´on
aprecia tambi´en como el algoritmo de Random Forest es el que destaca del resto. La matriz de confusi´on resultante de ambos m´etodo se puede encontrar en la tabla 4.6. Tambi´en en dicha tabla se puede observar que ambos conjuntos de matrices cumplen con los criterios de ´exito, es decir, el accuracy (porcentaje de bien clasificados) est´a en torno al 80 %±2 % y los False Negative (aquellos clasificados como no abandono que finalmente abandonan) menor que el 5 %.
Algoritmo Resultado F´ormula
SMO 0,6525
Naive Bayes Tree 0,7409
Random Forest 0,7595
Logistic 0,6315 KNIME Tree 0,7464
C4.5 0,6625
Tabla 4.5: Comparaci´on de algoritmos utilizando la t´ecnica de oversampling y una selecci´on de variables a nivel sem´antico
Conjunto de variables Matriz de confusi´on F´ormula Accuracy False Negative Todas las variables 599 162 0,8308 86,01 % 3,35 %
51 710
Selecci´on de variables 524 237 0,7595 80,68 % 3,74 %
57 704
Tabla 4.6: Comparaci´on de los modelos con oversampling y Random Forest a trav´es de la selecci´on de variables
Por ´ultimo, en la tabla 4.7 se pueden encontrar las variables m´as importantes para el modelo tanto con todas las variables como con la selecci´on sem´antica.