3.5 Data analysis
3.5.1 Analytic strategy and design
El proceso de minería es iterativo ya que el resultado de una fase puede hacer retroceder en el proceso y se requiere realizar varias iteraciones hasta obtener conocimiento confiable; así mismo, es interactivo ya que se requiere la intervención de especialistas para la preparación de los datos y validación del conocimiento (Hernández y Otros., 2004), las fases del proceso se describen en el Gráfico 1.
37 Gráfico 1. Fases del proceso de extracción de conocimiento en bases de datos
Fuente:Hasperué, 2012
2.5.3.1. Integración y recopilación.
La primera fase del proceso KDD tiene como objetivo identificar las fuentes de datos y la recopilación e integración de los mismos en una base o repositorio; el origen de los datos es diverso y puede ser interno o externo a la organización, en caso de ser interno es posible considerar bases de datos corporativas, data werehouse, o crear una particular para el problema que se busque resolver; por ejemplo, (aplicación de encuestas, entrevistas, o la generación de nuevos atributos a partir de los ya existentes en base); desde esta fase es importante cuidar la calidad de los datos, puesto que constituyen la materia prima para representar los modelos de la mejor manera. posible. Para (Bravo Ramón 2009) el input de esta fase corresponde a los distintos orígenes de datos, mientras el output es una base de datos con la información disponible para resolver el problema.
2.5.3.2. Selección limpieza y transformación.
El objetivo principal de esta fase es obtener una vista minable que no es otra cosa que el (conjunto de datos que incluye todos los atributos de interés para el problema de estudio en formato adecuado); cuidando de la limpieza, transformación y selección del subconjunto de datos contenidos en la base para aplicar el proceso de minería; en está fase, se pretende realizar un análisis para determinar que se debe hacer con los datos de poca relevancia e innecesarios, datos que no se ajustan al comportamiento normal de la mayoría (outliers- valores atípicos), datos faltantes o perdidos (missing values-valores faltantes), a fin de eliminar el ruido de la base y asegurar la calidad del conocimiento que se vaya a generar.
38
Limpieza y trasformación.
Información incorrecta, datos inconsistentes son algunos de los problemas heredados de la fase anterior; para realizar la limpieza de los datos se debe identificar claramente el origen de los mismos a fin de realizar validaciones y verificaciónes, en el caso de transformación de los datos. Hasperué (2012) menciona que es todo proceso u operación que modifica la forma de los datos, entre ellos se puede: transformar un conjunto de atributos en otros, derivar nuevos atributos, cambiar el tipo de dato (mediante numerización o discretización) o el rango (mediante escalado).
Los procesos de discretización y numerización son conceptualizados por (Bravo Ramón 2009) como sigue:
Discretización.
Significa la conversión de un valor numérico en un valor nominal ordenado que representa un intervalo, se recomienda aplicarlo cuando el error de la medida puede ser grande, como: la existencia de umbrales significativos, integración de escalas diferentes, la interpretación de la medida no es lineal y sobre todo cuando se tiene atributos nominales, numéricos y requiere convertirlos a nominales.
Numerización
Es el proceso inverso de discretización es decir, que permite convertir valores de tipo nominal a numérico, muy útil en casos cuando el método de minería no admite datos de tipo nominal. Se puede realizar numerización “1 a n” que consiste en la creación de varios atributos indicadores y para cuando un atributo nominal tiene n posibles valores se crean n atributos numéricos, con valores 0 o 1 dependiendo de si la variable toma ese valor o no.
Exploración y selección.
Cuando las tareas de recopilación, integración y limpieza han concluido, se hace necesario un análisis exploratorio de los datos con el objetivo de tener un mayor conocimiento de los mismos antes de dar paso a la tarea de minería de datos; el objetivo principal radica en la selección definitiva de los datos con lo que se trabajará y las tareas que se realizará sobre el conjunto de datos seleccionados (Gutiérrez Rüegg 2008).
39 2.5.3.3. Minería de datos.
Esta fase es considerada el nucleó del proceso y su objetivo principal es producir conocimiento útil para el usuario expresado mediante un modelo que tiene como base la vista minable, producto de la fase anterior. Dicho modelo describe patrones y relaciones que pueden ser usados para realizar predicciones, mejorar la comprensión de datos y facilitar la explicación de escenarios pasados.
La fase de minería contiene algunos tipos de tareas, consideradas como un problema que debe ser resulto por un algoritmo de minería de datos; se distingue dos grupos; en el primero, se encuentran las tareas predictivas como: clasificación y regresión y en el segundo grupo, las descriptivas como: agrupamiento (clustering), reglas de asociación, reglas de asociación secuenciales, correlaciones y para la ejecución de estas tareas la minería se apoya en técnicas de minería de datos (Aguilar, 2014).
Tareas de minería de datos.
Las tareas de minería de datos son consideras como un tipo de problema que se puede resolver mediante un algoritmo de minería de datos, los resultados que arroja cada tarea pueden ser diferentes para los mismos datos, en vista de ello surge la importancia de analizar y seleccionar la tarea más apropiada de acuerdo a los datos almacenados y al objetivo del caso de estudio. Los tipos de tareas de minería de datos son:
Predictivas o entrenamiento supervisado.
Este tipo de tareas se aplica a problemas en los que hay que predecir uno o más valores para unos o más ejemplos, dentro de este tipo de tareas de minería se pueden citar:
La clasificación: se considera como la tarea más utilizada, se enfoca en clasificar un dato
dentro de las clases definidas en el modelo que se está trabajando (Escobar Heughes 2007).
La regresión: su principal objetivo es encontrar la similitud entre los atributos de una
determinada clase del modelo que se está trabajando; es decir, que busca aprender una función que represente la correspondencia existente en las variables (Rodríguez 2006).
40
Descriptivas o entrenamiento no supervisado.
Agrupamiento o clustering: Hernández y otros. (2004), indican que esta tarea permite
formar grupos tales que los objetos de un mismo grupo presentan características muy similares entre sí y a su vez son muy diferentes a los objetos de otro grupo. Uno de los algoritmos mayormente utilizados para llevar a cabo esta tarea es:
Algoritmo K-means: es un algoritmo recomendado por ser veloz, eficaz y se encuentra dentro de la clasificación de técnicas de minería como no supervisado o descriptivo según (Ordóñez, 2013). Este algoritmo de agrupación de casos no jerárquico busca una partición de los datos tal que cada punto esté asignado al grupo cuyo centro (centroide), sea más cercano. K-means requiere se le indique el número de clústeres deseado, ya que no puede determinarlo por sí solo.
El proceso lo describe claramente Gutiérrez Rüegg (2008), al escribir que K-means inicia particionado los datos en k subconjuntos no vacíos, aleatoriamente o usando alguna heurística; luego calcula el centroide de cada partición lo que llama el punto medio del clúster para luego ir asignando cada dato al clúster cuyo centroide sea el más próximo. Posteriormente se recalcula los centroides para los nuevos grupos el proceso se repite hasta lograr la convergencia total de los datos; es decir, que los datos ya no cambien de grupo de una iteración a otra.
Correlaciones y factorizaciones: son una tarea descriptiva que se usa para examinar el
grado de similitud de los valores de dos variables numéricas. El objetivo de esta tarea es ver la relevancia de atributos, detectar atributos redundantes o dependencias entre atributos. Los estudios correlacionales y factoriales se centran exclusivamente en los atributos numéricos y permiten ver si dos variables están correlacionados linealmente o relacionados de algún otro modo (Hasperué, 2012).
Técnicas de minería de datos.
Para resolver las tareas mencionadas en el apartado anterior se requiere la aplicación de técnicas o algoritmos de minería da datos. Estas técnicas pueden ser descriptivas o predictivas, en el caso de de las descriptivas describen las propiedas de los datos en una base de datos; por el contrario las predictivas realizan inferencias en los datos con el objetivo de poder realizar predicciones, para entender que técnica utilizar se debe tener claro el objetivo del caso de estudio o investigación (Escobar Heughes, 2007).
41 Esas son algunas de las ténicas más utilizadas, clasificadas según sean descriptivas o predictivas:
Tabla 3. Clasificación de las técnicas de minería de datos
SUPERVISADOS O PREDICTIVOS NO SUPERVISADOS O DESCRIPTIVOS Arboles de decisión Detección de desvios
Inducción neuronal Segmentación
Regresión Agrupamiento (“Clustering”)
Series temporales Reglas de asociación
Patrones secuenciasle Fuente: (Gutiérrez Rüegg, 2008)
2.5.3.4. Evaluación e implementación.
Según Escobar Heughes (2007), para aceptar un modelo de minería de datos se debe medir la calidad de los patrones que deje como resultado el algoritmo Aprobado, dichos patrones deben incluir tres cualidades como son: precisos, comprensibles, e interesantes; esta fase permite la evaluación y posterior implementación de un modelo de minería y se apoya en técnicas de evaluación, como son: validación simple o más conocido como el método de validación básico, la validación cruzada con n pliegues que es el método usado con mayor. El modelo de regresión según (Peláez, 2006), permiten evaluar la relación entre un atributo (dependiente) respecto a otros atributos en conjunto (independientes).
CAPÍTULO III
43 En el presente capítulo se describe la metodología empleada para el desarrollo de la presente investigación, se inicia con la descripción de la población y muestra, las fases del proceso KDD con las respectivas tareas, técnicas y algoritmos involucrados en cada una de ellas.