• No results found

El aprendizaje de ´arboles de decisi´on es uno de los m´etodos de inferencia inductiva m´as utilizado en aplicaciones de diagn´ostico m´edico, predicci´on de fraudes en cr´editos bancarios, organizaci´on personalizada de eventos en una agenda, etc.[31]. Esto es debido a que tiene la ventaja de aprender funciones de valores discretos, es robusto al ruido que existe en los datos, y se puede obtener un conjunto de expresiones disyuntivas que es transformable a un conjunto de reglas[31].

Figura 2.4: Representaci´on de un ´arbol de decisi´on para administrar un f´armaco. Un ´arbol de decisi´on puede tener una estructura con los siguientes tipos de nodos(v´ease figura 2.4):

nodo interno se derivan tantas ramas como respuestas haya a la pregunta, es decir, el n´umero de posibles valores que puede tener dicho atributo.

Nodo hoja: Corresponde al valor de clase buscada.

La mayor´ıa de los algoritmos para inferir ´arboles de decisi´on son variaciones de un algoritmo b´asico que emplea una b´usqueda descendente y ego´ısta en el espacio de posibles ´arboles de decisi´on.

El algoritmo b´asico ID3, construye un ´arbol de decisi´on de manera descendente, la pre- gunta inicial para la construcci´on del ´arbol es ¿cu´al de los atributos debe ser colocado como la ra´ız del ´arbol?, para resolver esto, se eval´uan todos los atributos utilizando una prueba estad´ıstica(p. ej. la medida de la Entrop´ıa [31]) para determinar qu´e tan bien clasifica ´el solo los datos de entrenamiento. El atributo con mejor valor en la evaluaci´on es selecciona- do y colocado como ra´ız del ´arbol. Por cada valor posible se crea una rama y los ejemplos de entrenamiento son distribuidos a la rama apropiada. El proceso se repite utilizando so- lamente el conjunto de entrenamiento asociado con cada rama para seleccionar el mejor atributo en ese punto del ´arbol.

Para medir cu´al es el mejor atributo para cada nodo del ´arbol, se utiliza una propiedad estad´ıstica, llamada ganancia de informaci´on, que mide qu´e tan bien, un atributo separa un conjunto de entrenamiento de acuerdo a su etiqueta de clase. ID3 utiliza esta medida para seleccionar un atributo en cada paso.

La ganancia de informaci´on est´a basada en otra medida utilizada en la teor´ıa de in- formaci´on conocida como entrop´ıa, que mide la “impureza” de una colecci´on arbitraria de ejemplos, es decir, si un atributo contiene s´olo valores de una clase se dice que es perfecta- mente “puro”, y sino de dice que tiene cierto grado de “impureza”. Una interpretaci´on de la entrop´ıa de la teor´ıa de informaci´on es que este espec´ıfica el m´ınimo n´umero de bits de informaci´on necesario para codificar la clasificaci´on de un miembro arbitrario del conjunto de datos. La forma de calcular este valor para cvalores posibles de la clase es:

Entropia(S) = c X i=1 −pilog2pi (2.5) Donde: c es el n´umero de clases. pi es la probabilidad de la clasei en S

La ganancia de informaci´on es la reducci´on de la entrop´ıa causada por dividir el conjunto de entrenamiento S con respecto a un atributo A, el c´alculo es obtenido de la siguiente forma: Ganancia(S, A) =Entropia(S)− X v∈V alores(A) |Sv| |S|Entropia(Sv) (2.6) Donde:

V alores(A) es el conjunto de todos los posibles valores del atributo

|Sv| es el subconjunto de S para cual un atributoA tiene un valor v

La ganancia de informaci´on puede ser vista como el n´umero de bits “ahorrados” cuando la codificaci´on de la funci´on objetivo de un valor miembro arbitrario de S, dado un valor del atributo A

El algoritmo ID3 crece cada rama del ´arbol en profundidad hasta que logra clasificar la mayor´ıa de los ejemplos de entrenamiento. Esta estrategia es razonable, pero puede dificul- tarlo si los datos de entrenamiento presentan ruido o cuando un conjunto de entrenamiento es peque˜no para ser representativo de la verdadera funci´on objetivo. En estos casos, ID3 puede producir ´arboles que se sobreajustan a los datos de entrenamiento. Puesto que el sobreajuste puede reducir la precisi´on de un ´arbol inducido por ID3 entre un 10 % y un 15 %(ve´ase figura 2.5), diferentes enfoques han sido propuestos para evitar este problema [31]:

Figura 2.5: Impacto del sobreajuste. Comportamiento de la precisi´on del clasifica- dor utilizando el conjunto de datos de entrenamiento(l´ınea continua), utilizando un conjunto de prueba(l´ınea punteada)[31].

un punto donde clasifique perfectamente los ejemplos de entrenamiento Enfoque en donde se deja crecer el ´arbol para despu´es podarlo.

Aunque el primer enfoque parece ser m´as directo, en el segundo enfoque, la poda pos- terior del ´arbol ha mostrado tener mayor ´exito en la pr´actica. Esto es debido a la dificultad de estimar en que momento debe detenerse el crecimiento del ´arbol. Independientemente del enfoque se han utilizado algunas formas de contender con el problema [31]:

Usar un conjunto de ejemplos, diferentes de los utilizados en el conjunto de entrena- miento para evaluar la utilidad de eliminar nodos del ´arbol.

Usar ejemplos disponibles para el entrenamiento, pero aplicando una prueba para estimar cuando agregar o eliminar un nodo, podr´ıa producir una mejora al clasificar nuevos ejemplares.

Usar expl´ıcitamente una medida de complejidad para codificar los ejemplos de entre- namiento y el ´arbol de decisi´on, deteni´endo el crecimiento cuando el tama˜no del ´arbol

codificado sea minimizado. Por ejemplo el principio de descripci´on m´ınima(MDL)[44].

Related documents