Appendix A: Glossary - User s Guide. &21752/'(6.23(5$7,216 Center Management System 6/99 BOWLIN

El aprendizaje de árboles de decisión es uno de los métodos de inferencia inductiva más utilizado en aplicaciones de diagnóstico médico, predicción de fraudes en créditos bancarios, organización personalizada de eventos en una agenda, etc.[31]. Esto es debido a que tiene la ventaja de aprender funciones de valores discretos, es robusto al ruido que existe en los datos, y se puede obtener un conjunto de expresiones disyuntivas que es transformable a un conjunto de reglas[31].

Figura 2.4: Representación de un árbol de decisión para administrar un fármaco. Un árbol de decisión puede tener una estructura con los siguientes tipos de nodos(véase figura 2.4):

nodo interno se derivan tantas ramas como respuestas haya a la pregunta, es decir, el n´umero de posibles valores que puede tener dicho atributo.

Nodo hoja: Corresponde al valor de clase buscada.

La mayor´ıa de los algoritmos para inferir árboles de decisión son variaciones de un algoritmo básico que emplea una búsqueda descendente y ego´ısta en el espacio de posibles árboles de decisión.

El algoritmo básico ID3, construye un árbol de decisión de manera descendente, la pregunta inicial para la construcción del árbol es ¿cuál de los atributos debe ser colocado como la ra´ız del árbol?, para resolver esto, se evalúan todos los atributos utilizando una prueba estad´ıstica(p. ej. la medida de la Entrop´ıa [31]) para determinar qué tan bien clasifica él solo los datos de entrenamiento. El atributo con mejor valor en la evaluación es selecciona- do y colocado como ra´ız del árbol. Por cada valor posible se crea una rama y los ejemplos de entrenamiento son distribuidos a la rama apropiada. El proceso se repite utilizando so- lamente el conjunto de entrenamiento asociado con cada rama para seleccionar el mejor atributo en ese punto del árbol.

Para medir cuál es el mejor atributo para cada nodo del árbol, se utiliza una propiedad estad´ıstica, llamada ganancia de información, que mide qué tan bien, un atributo separa un conjunto de entrenamiento de acuerdo a su etiqueta de clase. ID3 utiliza esta medida para seleccionar un atributo en cada paso.

La ganancia de información está basada en otra medida utilizada en la teor´ıa de in- formación conocida como entrop´ıa, que mide la “impureza” de una colección arbitraria de ejemplos, es decir, si un atributo contiene sólo valores de una clase se dice que es perfectamente “puro”, y sino de dice que tiene cierto grado de “impureza”. Una interpretación de la entrop´ıa de la teor´ıa de información es que este espec´ıfica el m´ınimo número de bits de información necesario para codificar la clasificación de un miembro arbitrario del conjunto de datos. La forma de calcular este valor para cvalores posibles de la clase es:

Entropia(S) = c X i=1 −pilog2pi (2.5) Donde: c es el n´umero de clases. pi es la probabilidad de la clasei en S

La ganancia de información es la reducción de la entrop´ıa causada por dividir el conjunto de entrenamiento S con respecto a un atributo A, el cálculo es obtenido de la siguiente forma: Ganancia(S, A) =Entropia(S)− X v∈V alores(A) |Sv| |S|Entropia(Sv) (2.6) Donde:

V alores(A) es el conjunto de todos los posibles valores del atributo

|Sv| es el subconjunto de S para cual un atributoA tiene un valor v

La ganancia de información puede ser vista como el número de bits “ahorrados” cuando la codificación de la función objetivo de un valor miembro arbitrario de S, dado un valor del atributo A

El algoritmo ID3 crece cada rama del árbol en profundidad hasta que logra clasificar la mayor´ıa de los ejemplos de entrenamiento. Esta estrategia es razonable, pero puede dificul- tarlo si los datos de entrenamiento presentan ruido o cuando un conjunto de entrenamiento es pequeño para ser representativo de la verdadera función objetivo. En estos casos, ID3 puede producir árboles que se sobreajustan a los datos de entrenamiento. Puesto que el sobreajuste puede reducir la precisión de un árbol inducido por ID3 entre un 10 % y un 15 %(veáse figura 2.5), diferentes enfoques han sido propuestos para evitar este problema [31]:

Figura 2.5: Impacto del sobreajuste. Comportamiento de la precisi´on del clasifica- dor utilizando el conjunto de datos de entrenamiento(l´ınea continua), utilizando un conjunto de prueba(l´ınea punteada)[31].

un punto donde clasifique perfectamente los ejemplos de entrenamiento Enfoque en donde se deja crecer el ´arbol para despu´es podarlo.

Aunque el primer enfoque parece ser más directo, en el segundo enfoque, la poda pos- terior del árbol ha mostrado tener mayor éxito en la práctica. Esto es debido a la dificultad de estimar en que momento debe detenerse el crecimiento del árbol. Independientemente del enfoque se han utilizado algunas formas de contender con el problema [31]:

Usar un conjunto de ejemplos, diferentes de los utilizados en el conjunto de entrenamiento para evaluar la utilidad de eliminar nodos del ´arbol.

Usar ejemplos disponibles para el entrenamiento, pero aplicando una prueba para estimar cuando agregar o eliminar un nodo, podr´ıa producir una mejora al clasificar nuevos ejemplares.

Usar expl´ıcitamente una medida de complejidad para codificar los ejemplos de entrenamiento y el árbol de decisión, deteniéndo el crecimiento cuando el tamaño del árbol

codificado sea minimizado. Por ejemplo el principio de descripci´on m´ınima(MDL)[44].

In document User s Guide. &21752/'(6.23(5$7,216 Center Management System 6/99 BOWLING IS SOLD ON BRUNSWICK. WORLDWIDE. (Page 74-95)