5.5 LRC Code Construction from Vector Space
5.5.4 Relation to Other Works
Como primer paso en la etapa del modelado es preciso seleccionar la técnica que se utilizará. Las distintas técnicas disponibles deben evaluarse en relación a su capacidad para alcanzar los objetivos de Data Mining, teniendo en cuenta las restricciones de recursos del proyecto. Hay que tomar en cuenta que no todas las herramientas y técnicas son aplicables a cada tarea, para ciertos problemas solo algunas técnicas son apropiadas. Puede ser el caso de que solamente una herramienta o técnica esté disponible para resolver el problema, y aun aquella puede no ser del todo técnicamente la mejor alternativa.
Técnica de modelado
La técnica del modelado a utilizar se selecciona luego de estudiar su funcionamiento, por lo que la técnica seleccionada se agregara a la información que se ha obtenido en el proceso anterior con el objetivo de resolver un problema de Data Mining.
La técnica de modelado se escoge en base a los siguientes criterios:
- Ser apropiada al problema
- Disposición de los datos adecuados
- Cumplimiento de los requerimientos del problema
- Tiempo necesario para obtener un problema
- Conocimiento de la técnica.
La técnica seleccionada tomando en cuenta cada uno de los anteriores criterios es: El algoritmo de Arboles de Decisión de Microsoft, cuya documentación para mayor comprensión de la misma se muestra a continuación.
116 Algoritmo de Arboles de Decisión de Microsoft
El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y regresión proporcionada por Microsoft SQL Server Analysis Services para el modelado y predicción de atributos discretos y continuos.
Los arboles de decisión son probablemente la técnica de Data Mining más popular por la plataforma de entrenamiento más rápido, alto grado de exactitud, comprensión de patrones. La tarea más común de los árboles de decisión es la clasificación, que determina si el conjunto de datos pertenece a un tipo específico o clase. Por ejemplo, los solicitantes de préstamos pueden ser clasificados por bajo o alto riesgo, y el árbol de decisión determina las reglas para llevar a cabo la clasificación basada en los datos históricos.
La principal idea de los árboles de decisión es dividir los datos recursivamente dentro de subconjuntos. Cada atributo de entrada es evaluado para determinar cuan limpiamente se dividen los datos a través de las clases (o estados) de la variable. El proceso de evaluación de todas las entradas se repite en cada subconjunto. Cuando el proceso recursivo se ha completado, el árbol de decisión está formado.
Arboles de decisión ofrecen diferentes ventajas por encima de otros algoritmos de Data Mining. Los arboles de decisión son rápidos en construir y fáciles de interpretar. Cada nodo en el árbol es claramente etiquetado en términos de atributos de entrada, y cada trayectoria formada desde la raíz hasta una hoja forma una regla sobre la variable. La predicción basada en arboles de decisión es eficiente.
Arboles de decisión pueden realizar tareas de regresión para predecir variables continuas. Por ejemplo, además de predecir si una pareja está en alto o bajo riesgo para un préstamo, un árbol se puede construir para predecir la tasa de interés exacta que debe cargarse al cliente. Desarrollado por el equipo de investigación de Microsoft, el algoritmo de árboles de decisión de Microsoft, es un algoritmo de árboles de decisión hibrido, realiza tareas de clasificación y regresión.
117 Una de las características únicas del algoritmo de árboles de decisión de Microsoft es que también puede ser aplicado para asociación y análisis.
¿Por qué Arboles de Decisión?
El algoritmo es llamado Arboles de decisión de Microsoft en lugar de Árbol de decisión de Microsoft por diferentes razones. Primero, la configuración del parámetro puede ser ajustado de tal manera que los árboles resultantes pueden ser muy diferentes en términos de nodos divididos y formas de árbol, o hasta criterios de división, entonces ellos pueden ser considerar diferentes algoritmos de decisión. Segundo, el algoritmo de árboles de decisión de Microsoft permite la creación de múltiples arboles apuntando a múltiples atributos en un simple modelo. Un árbol modelo puede contener cientos y cientos de árboles, dependiendo de la forma de los datos. Estos árboles pueden ser visualmente vinculados a través de una red de dependencia para su posterior análisis.
¿Cómo funciona el Algoritmo?
El algoritmo de árboles de decisión de Microsoft genera un modelo de minería de datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlación significativa con la columna de predicción. La forma en que el algoritmo determina una división varía en función de si predice una columna continua o una columna discreta.
El algoritmo de árboles de decisión de Microsoft utiliza la selección de características para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos de Analysis Services utilizan la selección de características para mejorar el rendimiento y la calidad del análisis. La selección de características es importante para evitar que los atributos irrelevantes utilicen tiempo de procesador. Si utiliza demasiados atributos de predicción o de entrada al diseñar un modelo de minería de datos, el modelo puede tardar mucho tiempo en procesarse o incluso quedarse sin memoria. Entre los métodos que se usan
118 para determinar si hay que dividir el árbol figuran métricas estándar del sector para la entropía y las redes Bayesianas.
Datos requeridos para los modelos de Arboles de Decisión
Los requisitos para un modelo de Arboles de Decisión son los siguientes:
Una columna única key. Debe contener una columna numérica o de texto que identifique cada registro de manera única.
Una columna de predicción. Se requiere una columna de predicción. Se pueden incluir varios atributos de predicción en un modelo y pueden ser de tipos diferentes, numérico o discreto. Sin embargo, el incremento del número de atributos de predicción puede aumentar el tiempo de procesamiento.
Columnas de entrada. Se requieren columnas de entrada, que pueden ser discretas o continuas. Aumentar el número de atributos de entrada afecta al tiempo de procesamiento.
El algoritmo de árboles de decisión es un algoritmo de clasificación y regresión para modelar la predicción de atributos (clase) discretos o continuos.
Atributos continuos. Son aquellos atributos por lo general numéricos tales como 23.49, 34.4533, 87. Por ejemplo una columna puede contener información de ventas, que son atributos continuos.
Atributo discreto. Son aquellos datos categóricos tales como alto, bajo, hombre, mujer .Generalmente se afirma que un atributo es discreto cuando tiene una cantidad posible de valores diferentes que se pueden contar. Por ejemplo una columna puede contener información de intervalos de ventas, que son discretos.
Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como estados, de estas columnas para predecir los estados de una columna que se designa como elemento de
119 predicción, el algoritmo identifica las columnas de entrada que se correlacionan con la columna de predicción13.
Predicciones Binarias.
Un árbol de decisión recibe como input un conjunto de atributos y entrega una decisión que puede ser vista como una predicción del output dados los inputs. Los inputs. Los inputs y los outputs de un árbol de decisión pueden ser discretos o continuos, no obstante en el proyecto se supondrán inputs discretos y outputs booleanos. Un árbol llega a una decisión luego de aplicar en cada nodo un test a un atributo. Cada rama corresponde a uno de los valores posibles de dicho atributo. Las hojas entregan el output del árbol. La lista de atributos que constituyen el input del árbol y que permiten tomar la decisión son las siguientes: capacitaciones, ventas, calidad de producto o servicios, asesorías, sector productivo, entre otras. Una vez obtenidos los inputs, el árbol de decisión permite clasificar a las empresas como “Si han alcanzado potencial de desarrollo” (1) o “No han alcanzado potencial de desarrollo” (0)