For simplicity's sake, this discussion on packaging focuses on the use of JDK 1.2 If you are using JDK 1.1, the syntax for
ID NLS_CHARSET_NAME 0003 WE8HP 002d VN8MSWIN
3.4 Getting Around the Sandbo
3.4.1 Using Connection Manager
Esta fase del proceso se iniciará seleccionando los DataSet definitivos a partir de los atributos y datos recogidos y explorados en la fase anterior; para luego proceder a su preparación para adaptarlos a las técnicas de Minería de Datos a ser aplicadas más adelante; esta preparación de datos incluye tareas de limpieza y transformación de tablas, registros y atributos con el fin de lograr calidad en la información resultante.
6.3.1. Selección de Datos
Como ya se lo había mencionado y descrito de manera preliminar en la fase anterior, para la aplicación de las técnicas de minería de datos se ha definido tres DataSet que van acorde a las hipótesis que se necesita confirmar, mismas que son:
DataSet – Ingreso Económico del estudiante
Contiene los datos de ingreso familiar del estudiante, está compuesto de un campo ing, mismo que podrá tener registrado uno de cinco rangos de acuerdo al dato ingresado en la encuesta. Este DataSet será relacionado con los DataSet Uso internet en actividades de académicas y Uso internet en actividades de entretenimiento, para la generación del modelo.
DataSet – Uso internet en actividades académicas
Contiene los datos de las diferentes formas de uso del internet en actividades académicas por parte del estudiante, este DataSet está compuesto de los campos detallados en la [Sección 6.2, punto 6.2.2, tabla 4], y será relacionado con los DataSet Ingreso económico del estudiante y Rendimiento académico, para la generación del modelo.
DataSet – Uso internet en actividades de entretenimiento.
Contiene los datos de las diferentes formas de uso del internet en actividades de entretenimiento por parte del estudiante, está compuesto de los campos detallados en la [Sección 6.2, punto 6.2.2, tabla 5], y será relacionado con dos
126
DataSet: Ingreso económico del estudiante y Rendimiento académico, para la generación del modelo.
Rendimiento académico
Contiene los datos de número de materias en las que se matriculo el estudiante encuestado, y el número de materias que aprobó, está compuesto de los campos detallados en la [Sección 6.2, punto 6.2.2, tabla 6] y será relacionado con los DataSet Uso internet en actividades de académicas y Uso internet en actividades de entretenimiento, para la generación del modelo.
6.3.2. Limpieza de los Datos
Se ha procedido a realizar la limpieza de los datos de acuerdo a lo levantado en [Sección 6.2, punto 0] de verificación de calidad de datos; esta limpieza consistió en establecer una definición que dé solución a los registros que en la información levantada se encontraban vacíos o con valores errados, para luego proceder a ejecutar la limpieza de los datos de la siguiente manera:
Atributo as_mat_se .- Eneste atributo existe un registro con dato cero (0), para lo cual se procedió a reemplazar el dato de este registro con el valor de la media resultante respecto a todos los registros que conforman el atributo.
Atributo as_apr_se .- En este atributo existen quince registros con dato cero (0), para lo cual se procedió a reemplazar los datos de estos registros con el valor de la media resultante respecto a todos los registros que conforman el atributo.
6.3.3. Estructuración e Integración de los Datos
En esta fase nos enfocamos a la verificación y generación de nuevos atributos a partir de otros ya existentes, para facilidad de adaptación de los datos a las técnicas de Minería de datos que aplicaríamos más adelante.
Dentro de los DataSet definidos tenemos el de Rendimiento académico, el cual estaba originalmente compuesto por dos atributos, sin embargo con el fin de hacer posible la aplicabilidad de las técnicas de minería de datos, se vio necesaria la creación de un
127
nuevo atributo como resultado de la diferencia entre atributo as_mat_se y el atributo as_apr_se, mismo que se tipificará como as_rep_se (asignaturas reprobadas), que presentaría el resultado de la resta entre las materias en las que se matriculo menos las aprobadas. Para lograr lo antes indicado se procedió a aplicar el filtro AddExpression de la herramienta Weka, el mismo que permitió agregar al final un atributo resultante de una función, es necesario especificar la fórmula que describe este atributo, en donde podemos calcular dicho atributo a partir de los valores de otro u otros ya existentes. Para mayor detalle del proceso aplicado y de los parámetros ingresados para lograr la creación del nuevo atributo diríjase al [ANEXO 3]. Las operaciones estadísticas en el nuevo atributo están descritas en [Figura 31].
Función
Figura 31. Operaciones estadísticas como resultado del nuevo atributo Fuente: Generado desde herramienta WEKA
Luego de ello, con la finalidad de hacer más fácil la aplicación de la relación del
“rendimiento académico” con los otros DataSet, se procedió a crear atributo categórico
de cuatro niveles con nombre rendiemiento_academico, tomando como base el atributo as_rep_se. En este nuevo atributo categórico el nivel 1 figura a los estudiantes que no reprobaron asignaturas, el nivel 2 figura a los estudiantes que reprobaron una asignatura, el nivel 3 figura a los estudiantes que reprobaron dos asignaturas, y el nivel 4 figura a los estudiantes que reprobaron tres o más asignaturas. Para mayor detalle
128
del proceso aplicado y de los parámetros ingresados para logra la creación del nuevo atributo diríjase al [ANEXO 4].
6.3.4. Formateo de los Datos
Se ha procedido a cambiar al formato necesario a cada uno de los campos que conforman los cuatro DataSet, esto para hacer factible la aplicación de las técnicas de minería de datos. No se procede a depurar comas, tabuladores, caracteres especiales en los datos en este punto del proceso ya que los mismos fueron depurados al momento de digitalización de información.