Qualitative Interviewing - Fieldwork Methods

Chapter 5: Fieldwork Methods

5.2. Qualitative Interviewing

Una vez decidida la manera de comparar los distintos modelos, es momento de comparar los mismos. Para ello, se ha realizado la técnica de validación cruzada, con la técnica de leave-one-out, dado que es el mejor método de validación cruzada [Kohavi95] siempre y cuando se tengan más de 60 instancias.

En primer lugar se han utilizado todas las variables disponibles, convertidas en String (excepto NotaAdmisión, AnioNacimiento y AnioAccesoSUE), de modo que los algoritmos de tipo árbol no realicen cálculos a través de las distancias entre las distintas variables (dado que en este caso los números no representan distancias). Las pruebas se han realizado con los distintos algoritmos que se pueden encontrar en la tabla 4.2.

Algoritmo Resultado F´ormula

SMO 0,6985

Naive Bayes Tree 0,7125 Random Forest 0,7128 Logistic 0,7078 KNIME Tree 0,6991

C4.5 0,7074

Tabla 4.2: Comparaci´on de algoritmos utilizando todas las variables disponible

Los malos resultados obtenidos pueden deberse a varios motivos. Algunos de ellos son los siguientes:

La elección de variables puede no ser la adecuada. Hay muchas variables que se no tienen importancia a nivel semántico. Puede que con una mejor elección de variables, el resultado mejore.

De los 983 alumnos que tenemos en la tabla, hay 761 que no abandonan y 222 que s´ı que lo hacen, lo que significa que la clase no est´a ajustada. Una manera de mejorar el modelo ser´ıa igualar el n´umero de alumnos que no abandonan con los

4. Modelizaci´on y evaluaci´on

que s´ı abandonan, bien generando artificialmente alumnos que abandonan o bien filtrando alumnos que no abandonan.

Por ´ultimo, cabe la posibilidad de que con estos datos no exista un buen modelo capaz de predecir el abandono.

4.3.2. Reelecci´on de variables

Lo primero que vamos a hacer para intentar mejorar el resultado será escoger las variables que más sentido tienen en este problema a nivel semántico. Además, se elimi- narán también aquellas variables que estén a NULL en más de la mitad de los alumnos. Las variables elegidas siguiendo lo comentado anteriormente son las siguientes:

Pa´ıs Nacionalidad Sexo

Dedicación Estudio Familia Numerosa Nivel Estudio Padre Nivel Estudio Madre Ocupación Padre Ocupación Madre Forma Admisión

Pa´ıs Fin de Estudio Acceso Naturaleza Centro Secundaria A˜no Acceso SUE

Nota de Admisi´on Rezagado

Centro Secundaria Madrid Edad

Con estas variables convertidas a String (excepto AnioAccesoSUE, NotaAdmisi´on y Edad) por los problemas que tienen los algoritmos de tipo ´arbol, se han obtenido los resultados que aparecen en la tabla 4.3. Como se puede apreciar en dicha tabla, los resultados han sido bastante malos.

4. Modelizaci´on y evaluaci´on

Algoritmo Resultado F´ormula

SMO 0,7068

Naive Bayes Tree 0,7069 Random Forest 0,7033 Logistic 0,7039 KNIME Tree 0,6814

C4.5 0,7102

Tabla 4.3: Comparación de algoritmos utilizando una selección de variables a nivel semántico

4.3.3. Ajuste de la distribuci´on de la clase

Existen dos maneras para ajustar la distribuci´on de la clase [Rahman13]:

Oversampling (sobremuestreo): Consiste en generar de manera artificial instancias de una de las clases con el fin de ajustar la distribuci´on del conjunto de datos. Esta generaci´on de instancias se realiza con distintos algoritmos como K-Means.

Subsampling osampling (muestreo): Consiste en eliminar o descargar instancias de la clase predominante, con el fin de ajustar la distribución del conjunto de datos. Esta eliminación se suele realizar de manera aleatoria y estratificada. Dado que el tiempo disponible para realizar el proyecto es limitado, solo se rea- lizará una de las técnicas para ajustar la distribución de la clase: Oversampling. El conjunto de datos, después del ajuste realizado, contiene 1522 instancias. Con este conjunto de datos y con todas las variables disponibles, se han obtenido los resultados que se pueden ver en la tablas 4.4.

Algoritmo Resultado F´ormula

SMO 0,6318

Naive Bayes Tree 0,7434

Random Forest 0,8308

Logistic 0,6457 KNIME Tree 0,7477

C4.5 0,7503

Tabla 4.4: Comparaci´on de algoritmos utilizando la t´ecnica de oversampling y todas las variables disponibles

Además, se han realizado también los modelos con el conjunto de variables con significado semántico, que se pueden encontrar en la tabla 4.5. En ambas tablas se

4. Modelizaci´on y evaluaci´on

aprecia también como el algoritmo de Random Forest es el que destaca del resto. La matriz de confusión resultante de ambos método se puede encontrar en la tabla 4.6. También en dicha tabla se puede observar que ambos conjuntos de matrices cumplen con los criterios de éxito, es decir, el accuracy (porcentaje de bien clasificados) está en torno al 80 %±2 % y los False Negative (aquellos clasificados como no abandono que finalmente abandonan) menor que el 5 %.

Algoritmo Resultado F´ormula

SMO 0,6525

Naive Bayes Tree 0,7409

Random Forest 0,7595

Logistic 0,6315 KNIME Tree 0,7464

C4.5 0,6625

Tabla 4.5: Comparación de algoritmos utilizando la técnica de oversampling y una selección de variables a nivel semántico

Conjunto de variables Matriz de confusi´on F´ormula Accuracy False Negative Todas las variables 599 162 0,8308 86,01 % 3,35 %

51 710

Selecci´on de variables 524 237 0,7595 80,68 % 3,74 %

57 704

Tabla 4.6: Comparación de los modelos con oversampling y Random Forest a través de la selección de variables

Por último, en la tabla 4.7 se pueden encontrar las variables más importantes para el modelo tanto con todas las variables como con la selección semántica.

In document Through struggle and indifference: the UK academy's engagement with the open intellectual commons (Page 145-148)