Chapter 5: Fieldwork Methods
5.3. Interview Participants
M´as concretamente, los conocimientos adquiridos por la realizaci´on del proyecto son los siguientes:
Se ha aprendido a realizar un proyecto de Data Mining, llevando a cabo la meto- dolog´ıa CRISP-DM.
La mayor´ıa de algoritmos utilizados para el modelo eran completamente desco- nocidos. Con la realizaci´on del proyecto, el conocimiento sobre los mismos ha aumentado notablemente, adquiriendo la capacidad de analizar por qu´e un algo- ritmo es mejor que otro en algunos aspectos.
El uso de herramientas de bases de datos era m´as te´orico que pr´actico, as´ı como del lenguaje SQL. Con este proyecto, dichos conocimientos son m´as amplios y profundos.
El conocimiento de programaci´on modular era ´unicamente te´orico y aunque la programaci´on en Clementine y Knime es modular, no ha habido problema alguno a la hora de comprender el flujo o el significado de los m´odulos o nodos utilizados. Por ´ultimo, cabe destacar el conocimiento nulo del sistema de composici´on de textos LATEX a la hora de comenzar el proyecto, pero que a la finalizaci´on del
mismo, se puede defender a la hora de realizar documentos con dicha herramienta.
6.3.
Posibles utilidades
Uno de los puntos que m´as motivaci´on ha otorgado ha sido que el proyecto no es s´olo un proyecto te´orico, sino que es un punto de partida que tiene como fin la reducci´on del abandono en la Escuela T´ecnica Superior de Ingenieros Inform´aticos. La posibilidad de trabajar directamente con el director de la escuela V´ıctor Robles, ha sido no s´olo un orgullo sino que tambi´en un aliciente, puesto que sus distintas explicaciones y ambiciones a la hora de reducir el abandono a trav´es de la motivaci´on a los estudiantes han hecho que el esfuerzo a la hora de realizar el proyecto sea m´aximo. En definitiva, el fin de este proyecto es detectar aquellos alumnos que tienen mayor posibilidad de abandonar para as´ı realizar pol´ıticas que puedan motivarlos.
6.4.
Experiencia personal
La experiencia ha sido satisfactoria y muy grata. Si bien es cierto que se ha echado de menos algo de implementaci´on, esto no ha sido un obst´aculo motivacional, simple- mente un punto de vista distinto a la hora de contemplar un problema de un inge- niero inform´atico: no todo es programar. Esta experiencia es ´unicamente el principio
6. Conclusiones y l´ıneas futuras
de una carrera profesional y todo el conocimiento adquirido no s´olo estos meses, sino que tambi´en estos a˜nos de grado ser´a de utilidad a la hora de madurar personal y profesionalmente.
6.5.
L´ıneas futuras
Existen varias l´ıneas abiertas para futuras investigaciones que deben de ser tratadas en los meses pr´oximos:
La t´ecnica utilizada para igualar el n´umero de alumnos que abandonan con aque- llos que no abandonan ha sido “oversampling”, que consiste en ampliar artificial- mente el n´umero de instancias que abandonan. Una l´ınea futura ser´ıa en utilizar otros m´etodos alternativos para igualar el n´umero de instancias que abandonan con aquellas que no abandonan, como el “sampling”, que consiste en eliminar instancias de la variable predominante.
Dado que ´unicamente se dispone de cuatro cursos en el conjunto de datos, ser´ıa muy interesante que el modelo aprendiese de tres de ellos y validase con el cuarto, para para as´ı comprobar la eficacia del mismo. Adem´as, cuantos m´as a˜nos se utilicen para realizar el modelo, mejor va a ser ´este, por lo que ser´ıa conveniente realizar el modelo en cursos futuros.
Aunque el modelo ha sido probado exclusivamente con los alumnos de la Escuela T´ecnica Superior de Ingenierieros Inform´aticos, tambi´en ser´ıa posible el uso en el resto de escuelas de la Universidad Polit´ecnica de Madrid, por lo que otra l´ınea futura es ampliar el proyecto al resto de escuelas y facultades.
A pesar de la complejidad del proyecto y aunque se ha intentado sistematizar, el hecho de haber encontrado un modelo capaz de predecir el abandono con seme- jante porcentaje anima a la automatizaci´on del proyecto, desarrollando en Java la programaci´on modular realizada con Knime y mediante scripts la parte relativa al manejo de la base de datos.
Cap´ıtulo 7
Referencias
[Garc´ıa13 ] A. Garc´ıa, J. Blanco, A. Casaravilla, A. Castej´on, A. Gonzalo, M. A. Mah´ıllo, M. Malinga Protocolo de Calidad para la Tasa de Permanencia a un
A˜no en la UPM III CLABES pg 985-995 ISBN: 978-84-15302-71-1 2013
[Frawley96 ] W. J. Frawley, G. Piatestky-Shapiro, P. Smyth From Data Mining to Kowledge Discovery: An Overview Advances in Knowledge Discovery and Data
Mining. ed. W. J. Frawley, G. Piatestky-Shapiro, P. Smyth and Uthurusamy,
AAAI Press 1996
[Piatesky91 ] G. Piatesky-Shaphiro,Report on the AAAI-91 Workshop on Knowledge
Discovery in Databases, IEEE Expert 6(5), October, pp. 74-76.
[Fayyad 96 ] U. Fayyad, G. Piatestky-Shaphiro, P. Smyth Knowledge Discovery and
Data Mining: Towards a Unifying Framework, In Proceedings The Second Inter-
national Conference on Knowledge discovery and Data Mining, August 1996, pp. 82-88.
[Cabena 97 ] P. CabenaDiscovering Data Mining: From Concept to Implementation, IBM, 1997, ISBN 01-374-3980-6.
[Wirth00 ] R. Wirth, J. Hipp CRISP-DM: Towards a Standard Process Model for
Data Mining, 2000
[Kohavi95 ] R. Kohavi, A Study of Cross-Validation and Bootstrap for Accuracy Es-
timation and Model Selection, In International Joint Conference on Artificial In-
telligence (IJCAI), 1995
[Rahman13 ] M. Mostafizur Rahman and D. N. Davis,Addressing the Class Imbalance
Problem in Medical Datasets, In International Journal of Machine Learning and
Este documento esta firmado por
Firmante CN=tfgm.fi.upm.es, OU=CCFI, O=Facultad de Informatica - UPM, C=ES
Fecha/Hora Fri Jun 06 20:37:53 CEST 2014
Emisor del Certificado
[email protected], CN=CA Facultad de Informatica, O=Facultad de Informatica - UPM, C=ES
Numero de Serie 630