• No results found

Chapter 5: Fieldwork Methods

5.2. Qualitative Interviewing

Una vez decidida la manera de comparar los distintos modelos, es momento de comparar los mismos. Para ello, se ha realizado la t´ecnica de validaci´on cruzada, con la t´ecnica de leave-one-out, dado que es el mejor m´etodo de validaci´on cruzada [Kohavi95] siempre y cuando se tengan m´as de 60 instancias.

En primer lugar se han utilizado todas las variables disponibles, convertidas en String (excepto NotaAdmisi´on, AnioNacimiento y AnioAccesoSUE), de modo que los algoritmos de tipo ´arbol no realicen c´alculos a trav´es de las distancias entre las distintas variables (dado que en este caso los n´umeros no representan distancias). Las pruebas se han realizado con los distintos algoritmos que se pueden encontrar en la tabla 4.2.

Algoritmo Resultado F´ormula

SMO 0,6985

Naive Bayes Tree 0,7125 Random Forest 0,7128 Logistic 0,7078 KNIME Tree 0,6991

C4.5 0,7074

Tabla 4.2: Comparaci´on de algoritmos utilizando todas las variables disponible

Los malos resultados obtenidos pueden deberse a varios motivos. Algunos de ellos son los siguientes:

La elecci´on de variables puede no ser la adecuada. Hay muchas variables que se no tienen importancia a nivel sem´antico. Puede que con una mejor elecci´on de variables, el resultado mejore.

De los 983 alumnos que tenemos en la tabla, hay 761 que no abandonan y 222 que s´ı que lo hacen, lo que significa que la clase no est´a ajustada. Una manera de mejorar el modelo ser´ıa igualar el n´umero de alumnos que no abandonan con los

4. Modelizaci´on y evaluaci´on

que s´ı abandonan, bien generando artificialmente alumnos que abandonan o bien filtrando alumnos que no abandonan.

Por ´ultimo, cabe la posibilidad de que con estos datos no exista un buen modelo capaz de predecir el abandono.

4.3.2.

Reelecci´on de variables

Lo primero que vamos a hacer para intentar mejorar el resultado ser´a escoger las variables que m´as sentido tienen en este problema a nivel sem´antico. Adem´as, se elimi- nar´an tambi´en aquellas variables que est´en a NULL en m´as de la mitad de los alumnos. Las variables elegidas siguiendo lo comentado anteriormente son las siguientes:

Pa´ıs Nacionalidad Sexo

Dedicaci´on Estudio Familia Numerosa Nivel Estudio Padre Nivel Estudio Madre Ocupaci´on Padre Ocupaci´on Madre Forma Admisi´on

Pa´ıs Fin de Estudio Acceso Naturaleza Centro Secundaria A˜no Acceso SUE

Nota de Admisi´on Rezagado

Centro Secundaria Madrid Edad

Con estas variables convertidas a String (excepto AnioAccesoSUE, NotaAdmisi´on y Edad) por los problemas que tienen los algoritmos de tipo ´arbol, se han obtenido los resultados que aparecen en la tabla 4.3. Como se puede apreciar en dicha tabla, los resultados han sido bastante malos.

4. Modelizaci´on y evaluaci´on

Algoritmo Resultado F´ormula

SMO 0,7068

Naive Bayes Tree 0,7069 Random Forest 0,7033 Logistic 0,7039 KNIME Tree 0,6814

C4.5 0,7102

Tabla 4.3: Comparaci´on de algoritmos utilizando una selecci´on de variables a nivel sem´antico

4.3.3.

Ajuste de la distribuci´on de la clase

Existen dos maneras para ajustar la distribuci´on de la clase [Rahman13]:

Oversampling (sobremuestreo): Consiste en generar de manera artificial instan- cias de una de las clases con el fin de ajustar la distribuci´on del conjunto de datos. Esta generaci´on de instancias se realiza con distintos algoritmos como K-Means.

Subsampling osampling (muestreo): Consiste en eliminar o descargar instan- cias de la clase predominante, con el fin de ajustar la distribuci´on del conjunto de datos. Esta eliminaci´on se suele realizar de manera aleatoria y estratificada. Dado que el tiempo disponible para realizar el proyecto es limitado, solo se rea- lizar´a una de las t´ecnicas para ajustar la distribuci´on de la clase: Oversampling. El conjunto de datos, despu´es del ajuste realizado, contiene 1522 instancias. Con este con- junto de datos y con todas las variables disponibles, se han obtenido los resultados que se pueden ver en la tablas 4.4.

Algoritmo Resultado F´ormula

SMO 0,6318

Naive Bayes Tree 0,7434

Random Forest 0,8308

Logistic 0,6457 KNIME Tree 0,7477

C4.5 0,7503

Tabla 4.4: Comparaci´on de algoritmos utilizando la t´ecnica de oversampling y todas las variables disponibles

Adem´as, se han realizado tambi´en los modelos con el conjunto de variables con significado sem´antico, que se pueden encontrar en la tabla 4.5. En ambas tablas se

4. Modelizaci´on y evaluaci´on

aprecia tambi´en como el algoritmo de Random Forest es el que destaca del resto. La matriz de confusi´on resultante de ambos m´etodo se puede encontrar en la tabla 4.6. Tambi´en en dicha tabla se puede observar que ambos conjuntos de matrices cumplen con los criterios de ´exito, es decir, el accuracy (porcentaje de bien clasificados) est´a en torno al 80 %±2 % y los False Negative (aquellos clasificados como no abandono que finalmente abandonan) menor que el 5 %.

Algoritmo Resultado F´ormula

SMO 0,6525

Naive Bayes Tree 0,7409

Random Forest 0,7595

Logistic 0,6315 KNIME Tree 0,7464

C4.5 0,6625

Tabla 4.5: Comparaci´on de algoritmos utilizando la t´ecnica de oversampling y una selecci´on de variables a nivel sem´antico

Conjunto de variables Matriz de confusi´on F´ormula Accuracy False Negative Todas las variables 599 162 0,8308 86,01 % 3,35 %

51 710

Selecci´on de variables 524 237 0,7595 80,68 % 3,74 %

57 704

Tabla 4.6: Comparaci´on de los modelos con oversampling y Random Forest a trav´es de la selecci´on de variables

Por ´ultimo, en la tabla 4.7 se pueden encontrar las variables m´as importantes para el modelo tanto con todas las variables como con la selecci´on sem´antica.