Principalmente existen tres clases de m´etodos de selecci´on de caracter´ısticas: m´etodos embebidos (embedded methods), m´etodos envoltorio (wrapper methods) y m´etodos de filtra- do. Los m´etodos de filtrado se basan en la estimaci´on de una m´etrica de inter´es calculada directamente del conjunto de datos, sin recibir retroalimentaci´on directa de un clasificador construido a partir de un algoritmo de aprendizaje. Lo interesante de este tipo de algoritmos es que requieren de mucho menos coste computacional que el resto de m´etodos. Los m´etodos de filtrado calculan un ´ındice de relevancia (ya est´e relacionado con la informaci´on, consis- tencia o similaridad entre caracter´ısticas), una m´etrica de distancia o una medida estad´ıstica que puede ser combinada con uno de los otros dos m´etodos. N´otese que, en este trabajo, por relevancia se entiende lo siguiente: una caracter´ıstica X es relevante en el proceso de distinguir una claseY =yde otras, si y solo si para algunos valores deX =xpara los cuales P(X =x)>0 la probabilidad condicional P(Y =y|X =x) es diferente que la probabilidad incondicional P(Y =y).
Los ´ındices de relevancia son calculados para cada caracter´ıstica individualXi, i= 1, . . . , N,
proporcionando un ordenamiento de los mismos J(Xi1)≤J(Xi2). . .≤J(XiN). Aquellas ca- racter´ısticas por debajo de un umbral establecido son filtradas. Esto resulta suficiente para caracter´ısticas estad´ısticamente independientes. Sin embargo, si las caracter´ısticas est´an co- rrelacionadas muchas de ellas pueden resultar redundantes.
No obstante, ordenar las caracter´ısticas no garantiza que se encuentre el conjunto m´as grande de caracter´ısticas importantes. Adem´as, dado que no existe experiencia emp´ırica sobre qu´e m´etodos de filtrado funcionan mejor y para qu´e clasificadores, a continuaci´on, se realizan varios estudios de m´etodos de filtrado para diferentes ´ındices de relevancia.
4.3.1.1. M´etodos de filtrado basados en el an´alisis de correlaci´on.
Los m´etodos de correlaci´on son quiz´as el enfoque m´as simple para ordenar las variables acorde a su importancia. A diferencia de otras t´ecnicas como la informaci´on te´orica y ´arboles de decisi´on, el an´alisis de correlaci´on evita problemas con la estimaci´on de las densidades de probabilidad as´ı como la discretizaci´on de caracter´ısticas continuas y, por tanto, puede ser usado como una primera etapa para filtrar las caracter´ısticas menos relevantes.
El an´alisis de los coeficientes de correlaci´on lineal de Pearson, definidos como (4.6) cuan- tifica la dependencia lineal entre dos variables aleatorias continuas x1 y x2 que no tienen
porqu´e seguir una distribuci´on normal. En (4.6) cov(X1, X2) designa la covarianza de las
variables del rango y σXi la desviaci´on est´andar.ρX1,X2 toma valores en el rango (−1,1). Los valores pr´oximos a cero indican ausencia de correlaci´on. Un criterio de corte habitual es un valor entre 0.75 y 0.9.
ρX1,X2 =
cov(X1, X2)
σX1σX2
(4.6) Sin embargo, este criterio de correlaci´on s´olo puede detectar dependencias lineales entre una caracter´ıstica en particular y su variable respuesta. Con el fin de analizar varias t´ecnicas de filtrado, en esta tesis se van a emplear los siguientes m´etodos:
Un m´etodo de filtrado que est´e relacionado con la informaci´on aportada por las carac- ter´ısticas: Ganancia de Informaci´on.
Un m´etodo de filtrado basado en medidas estad´ısticas: An´alisis de Varianza.
Un m´etodo de filtrado basado en medidas de distancia entre caracter´ısticas: algoritmo Relief-F.
4.3.1.2. Criterio de la ganancia de informaci´on (Information-Gain).
Algunos de los ´ındices m´as usados para evaluar caracter´ısticas son aquellos basados en la teor´ıa de la informaci´on. La informaci´on, que es lo mismo que la negaci´on de la entrop´ıa, contenida en la distribuci´on de la clase es:
H(Y) = − K X i=1
P(yi) log2P(yi) (4.7)
dondeP(yi) = m1 es la fracci´on de muestrasxde la claseyi, i= 1. . . K. La misma expresi´on se
a caracter´ısticas continuas es necesario discretizarlas agrup´andolas en “bins” o se las puede ajustar con funciones “kernel” para aproximar su funci´on de densidad transformando en este caso la suma en una integral. La informaci´on contenida en la distribuci´on conjunta de las clases y las caracter´ısticas, sumada sobre todas las clases, da una estimaci´on de la importancia de la caracter´ıstica. La informaci´on contenida en la distribuci´on conjunta es:
H(X, Y) =−X i K X j=1 P(yi, xi) log2P(yj, xj) (4.8)
siendo para las caracter´ısticas continuas: H(X, Y) = − K X j=1 Z P(yi, x) log2P(yj, x) (4.9)
donde P(yj, xj), j = 1, . . . K es la probabilidad conjunta (densidad para las caracter´ısticas
continuas) de encontrar el valor de la caracter´ısticaX =xi para los vectoresxque pertenecen
a alguna clase yj; y P(xi) es la probabilidad (o densidad en su caso) de encontrar vectores
con valor de la caracter´ıstica X =xi. Valores peque˜nos de H(X, Y) indican que los vectores
de una sola clase dominan en algunos intervalos, haciendo a la caracter´ıstica m´as apta para la predicci´on. La informaci´on es aditiva para las variables aleatorias independientes. La dife- rencia GI(Y, X) = H(Y) +H(X)−H(Y, X) puede ser usada como ganancia de informaci´on (GI) o informaci´on mutua. La f´ormula est´andar de la GI se puede expresar de la siguiente manera: GI(Y, X) = H(Y)−H(Y |X) = H(Y) +X i,j P(yi, xi) log2P(yj |xi) = =H(Y)−X i,j P(xi)[−P(yj |xi) log2P(yj |xi)] (4.10)
Una caracter´ıstica es m´as importante si la ganancia de informaci´on GI(Y, X) entre las distribuciones de la variable respuesta y la caracter´ıstica son m´as grandes.
4.3.1.3. An´alisis de Varianza o ANalysis of VAriance (ANOVA).
Aunque el an´alisis ANOVA fue introducido hace bastante tiempo, es una herramienta muy ´
util para comparar grupos. Tanto es as´ı que el an´alisis ANOVA junto con modelos aditivos ya ha sido empleado para analizar las firmas de fallo de MI alimentados por inversor [120]. Por lo tanto, esta t´ecnica puede resultar apropiada para obtener informaci´on de las firmas
de fallo empleadas en la presente tesis. El an´alisis de varianza permite probar la hip´otesis de si las medias de dos o m´as poblaciones son iguales. Los ANOVA sirven para evaluar la importancia de una o m´as caracter´ısticas ya que comparan las medias de la variable respuesta en los diferentes niveles de los factores. La hip´otesis nula establece que todas las medias de la poblaci´on (medias de los niveles de los factores) son iguales mientras que la hip´otesis alternativa establece que al menos una es diferente. La expresi´on simplificada para realizar un an´alisis ANOVA es la siguiente [172]:
F = P ini( ¯Yi−Y¯)2/(K −1) P ij(Yij −Y¯i)2/(N −K) (4.11) donde n es el n´umero de observaciones del grupo i, ¯Yi es la media del grupoi, ¯Y es la media
total, Yij es la observaci´on j en el grupo i, N es el n´umero total de observaciones y K es el
n´umero de grupos.
4.3.1.4. Algoritmo Relief-F.
Originalmente, el algoritmoRelief [173, 174], fue desarrollado para estimar la calidad de las caracter´ısticas (tanto discretas como continuas) en problemas de dos clases. La principal caracter´ıstica de Relief es que es sensible a interacciones entre caracter´ısticas ponderando cada una de ellas. La idea principal de esta familia de algoritmos se basa en ponderar cada caracter´ıstica estimando c´omo de bien el valor de la caracter´ıstica ayuda a distinguir entre observaciones que est´an pr´oximas entre s´ı [168, 173, 175]. Para una observaci´on dada, Relief busca sus dos vecinos m´as cercanos: uno de la misma clase y el otro de diferente clase. La ponderaci´on de la caracter´ıstica o el ´ındice de relevancia de este algoritmo JR(X) para una
caracter´ısticaX, se incrementa por una peque˜na cantidad proporcional a la diferencia|X(x)−
X(xd)| ya que su relevancia deber´ıa crecer para aquellas caracter´ısticas que separan vectores
de diferente clase, y se reduce por una peque˜na cantidad proporcional a|X(x)−X(xs)|. Por
tanto, el ´ındice de relevancia para este algoritmo puede ser definido de la siguiente manera: JR(X)←JR(X) +η(|X(x)−X(xd)| − |X(x)−X(xs)|) (4.12)
donde η es el orden de m1, siendo m el n´umero de observaciones. Despu´es de un n´umero grande de iteraciones, este ´ındice captura las correlaciones locales entre los valores de la caracter´ıstica y su habilidad para ayudar a discriminar los vectores de las diferentes clases.
Dada la utilidad que tiene este algoritmo, en esta tesis se emplea una extensi´on del mismo denominada Relief-F [173], que permite su empleo en problemas de clasificaci´on multi-clase
y est´a basado en los k-vecinos m´as cercanos de la misma clase, y el n´umero de vectores de diferentes clases. Relief-F es m´as robusto a la presencia de ruido en los datos y se define en [175] de la siguiente manera: JR(X)←JR(X)−η |X(x)−X(xd)|+ X Yi6= Yj P(Yi)× |X(x)−XYi(xs)| (4.13)
Este tipo de algoritmos Relief representa un enfoque diferente para la selecci´on de ca- racter´ısticas que no est´a basado en la evaluaci´on de una densidad de probabilidad unidi- mensional, sino en encontrar los vecinos m´as cercanos, lo que asegura que los pesos de las caracter´ısticas sean sensibles al entorno, siendo a´un indices globales.
Hasta ahora se han introducido los m´etodos de filtrado que se van a emplear y que ayudan a ordenar las caracter´ısticas de an´alisis. Sin embargo, el establecimiento del umbral de corte de la ordenaci´on de las caracter´ısticas no es una tarea trivial. En esta tesis, se propone una t´ecnica de selecci´on de caracter´ısticas basada en el algoritmo RF para evaluar la importancia de las caracter´ısticas por medio de la eliminaci´on recursiva de caracter´ısticas la cual se describe a continuaci´on.