Diffusion Theory and Transport Parameters

Principalmente existen tres clases de métodos de selección de caracter´ısticas: métodos embebidos (embedded methods), métodos envoltorio (wrapper methods) y métodos de filtrado. Los métodos de filtrado se basan en la estimación de una métrica de interés calculada directamente del conjunto de datos, sin recibir retroalimentación directa de un clasificador construido a partir de un algoritmo de aprendizaje. Lo interesante de este tipo de algoritmos es que requieren de mucho menos coste computacional que el resto de métodos. Los métodos de filtrado calculan un ´ındice de relevancia (ya esté relacionado con la información, consis- tencia o similaridad entre caracter´ısticas), una métrica de distancia o una medida estad´ıstica que puede ser combinada con uno de los otros dos métodos. Nótese que, en este trabajo, por relevancia se entiende lo siguiente: una caracter´ıstica X es relevante en el proceso de distinguir una claseY =yde otras, si y solo si para algunos valores deX =xpara los cuales P(X =x)>0 la probabilidad condicional P(Y =y|X =x) es diferente que la probabilidad incondicional P(Y =y).

Los ´ındices de relevancia son calculados para cada caracter´ıstica individualXi, i= 1, . . . , N,

proporcionando un ordenamiento de los mismos J(Xi1)≤J(Xi2). . .≤J(XiN). Aquellas caracter´ısticas por debajo de un umbral establecido son filtradas. Esto resulta suficiente para caracter´ısticas estad´ısticamente independientes. Sin embargo, si las caracter´ısticas est´an co- rrelacionadas muchas de ellas pueden resultar redundantes.

No obstante, ordenar las caracter´ısticas no garantiza que se encuentre el conjunto más grande de caracter´ısticas importantes. Además, dado que no existe experiencia emp´ırica sobre qué métodos de filtrado funcionan mejor y para qué clasificadores, a continuación, se realizan varios estudios de métodos de filtrado para diferentes ´ındices de relevancia.

4.3.1.1. Métodos de filtrado basados en el análisis de correlación.

Los métodos de correlación son quizás el enfoque más simple para ordenar las variables acorde a su importancia. A diferencia de otras técnicas como la información teórica y árboles de decisión, el análisis de correlación evita problemas con la estimación de las densidades de probabilidad as´ı como la discretización de caracter´ısticas continuas y, por tanto, puede ser usado como una primera etapa para filtrar las caracter´ısticas menos relevantes.

El an´alisis de los coeficientes de correlaci´on lineal de Pearson, definidos como (4.6) cuan- tifica la dependencia lineal entre dos variables aleatorias continuas x1 y x2 que no tienen

porqu´e seguir una distribuci´on normal. En (4.6) cov(X1, X2) designa la covarianza de las

variables del rango y σXi la desviación estándar.ρX1,X2 toma valores en el rango (−1,1). Los valores próximos a cero indican ausencia de correlación. Un criterio de corte habitual es un valor entre 0.75 y 0.9.

ρX1,X2 =

cov(X1, X2)

σX1σX2

(4.6) Sin embargo, este criterio de correlación sólo puede detectar dependencias lineales entre una caracter´ıstica en particular y su variable respuesta. Con el fin de analizar varias técnicas de filtrado, en esta tesis se van a emplear los siguientes métodos:

Un método de filtrado que esté relacionado con la información aportada por las caracter´ısticas: Ganancia de Información.

Un m´etodo de filtrado basado en medidas estad´ısticas: An´alisis de Varianza.

Un m´etodo de filtrado basado en medidas de distancia entre caracter´ısticas: algoritmo Relief-F.

4.3.1.2. Criterio de la ganancia de informaci´on (Information-Gain).

Algunos de los ´ındices más usados para evaluar caracter´ısticas son aquellos basados en la teor´ıa de la información. La información, que es lo mismo que la negación de la entrop´ıa, contenida en la distribución de la clase es:

H(Y) = − K X i=1

P(yi) log2P(yi) (4.7)

dondeP(yi) = _m1 es la fracci´on de muestrasxde la claseyi, i= 1. . . K. La misma expresi´on se

a caracter´ısticas continuas es necesario discretizarlas agrupándolas en “bins” o se las puede ajustar con funciones “kernel” para aproximar su función de densidad transformando en este caso la suma en una integral. La información contenida en la distribución conjunta de las clases y las caracter´ısticas, sumada sobre todas las clases, da una estimación de la importancia de la caracter´ıstica. La información contenida en la distribución conjunta es:

H(X, Y) =−X i K X j=1 P(yi, xi) log2P(yj, xj) (4.8)

siendo para las caracter´ısticas continuas: H(X, Y) = − K X j=1 Z P(yi, x) log2P(yj, x) (4.9)

donde P(yj, xj), j = 1, . . . K es la probabilidad conjunta (densidad para las caracter´ısticas

continuas) de encontrar el valor de la caracter´ısticaX =xi para los vectoresxque pertenecen

a alguna clase yj; y P(xi) es la probabilidad (o densidad en su caso) de encontrar vectores

con valor de la caracter´ıstica X =xi. Valores peque˜nos de H(X, Y) indican que los vectores

de una sola clase dominan en algunos intervalos, haciendo a la caracter´ıstica más apta para la predicción. La información es aditiva para las variables aleatorias independientes. La diferencia GI(Y, X) = H(Y) +H(X)−H(Y, X) puede ser usada como ganancia de información (GI) o información mutua. La fórmula estándar de la GI se puede expresar de la siguiente manera: GI(Y, X) = H(Y)−H(Y |X) = H(Y) +X i,j P(yi, xi) log2P(yj |xi) = =H(Y)−X i,j P(xi)[−P(yj |xi) log2P(yj |xi)] (4.10)

Una caracter´ıstica es más importante si la ganancia de información GI(Y, X) entre las distribuciones de la variable respuesta y la caracter´ıstica son más grandes.

4.3.1.3. An´alisis de Varianza o ANalysis of VAriance (ANOVA).

Aunque el an´alisis ANOVA fue introducido hace bastante tiempo, es una herramienta muy ´

util para comparar grupos. Tanto es as´ı que el análisis ANOVA junto con modelos aditivos ya ha sido empleado para analizar las firmas de fallo de MI alimentados por inversor [120]. Por lo tanto, esta técnica puede resultar apropiada para obtener información de las firmas

de fallo empleadas en la presente tesis. El análisis de varianza permite probar la hipótesis de si las medias de dos o más poblaciones son iguales. Los ANOVA sirven para evaluar la importancia de una o más caracter´ısticas ya que comparan las medias de la variable respuesta en los diferentes niveles de los factores. La hipótesis nula establece que todas las medias de la población (medias de los niveles de los factores) son iguales mientras que la hipótesis alternativa establece que al menos una es diferente. La expresión simplificada para realizar un análisis ANOVA es la siguiente [172]:

F = P ini( ¯Yi−Y¯)2/(K −1) P ij(Yij −Y¯i)2/(N −K) (4.11) donde n es el n´umero de observaciones del grupo i, ¯Yi es la media del grupoi, ¯Y es la media

total, Yij es la observaci´on j en el grupo i, N es el n´umero total de observaciones y K es el

n´umero de grupos.

4.3.1.4. Algoritmo Relief-F.

Originalmente, el algoritmoRelief [173, 174], fue desarrollado para estimar la calidad de las caracter´ısticas (tanto discretas como continuas) en problemas de dos clases. La principal caracter´ıstica de Relief es que es sensible a interacciones entre caracter´ısticas ponderando cada una de ellas. La idea principal de esta familia de algoritmos se basa en ponderar cada caracter´ıstica estimando cómo de bien el valor de la caracter´ıstica ayuda a distinguir entre observaciones que están próximas entre s´ı [168, 173, 175]. Para una observación dada, Relief busca sus dos vecinos más cercanos: uno de la misma clase y el otro de diferente clase. La ponderación de la caracter´ıstica o el ´ındice de relevancia de este algoritmo JR(X) para una

caracter´ısticaX, se incrementa por una peque˜na cantidad proporcional a la diferencia|X(x)−

X(xd)| ya que su relevancia deber´ıa crecer para aquellas caracter´ısticas que separan vectores

de diferente clase, y se reduce por una peque˜na cantidad proporcional a|X(x)−X(xs)|. Por

tanto, el ´ındice de relevancia para este algoritmo puede ser definido de la siguiente manera: JR(X)←JR(X) +η(|X(x)−X(xd)| − |X(x)−X(xs)|) (4.12)

donde η es el orden de _m1, siendo m el número de observaciones. Después de un número grande de iteraciones, este ´ındice captura las correlaciones locales entre los valores de la caracter´ıstica y su habilidad para ayudar a discriminar los vectores de las diferentes clases.

Dada la utilidad que tiene este algoritmo, en esta tesis se emplea una extensi´on del mismo denominada Relief-F [173], que permite su empleo en problemas de clasificaci´on multi-clase

y está basado en los k-vecinos más cercanos de la misma clase, y el número de vectores de diferentes clases. Relief-F es más robusto a la presencia de ruido en los datos y se define en [175] de la siguiente manera: JR(X)←JR(X)−η  |X(x)−X(xd)|+ X Yi6= Yj P(Yi)× |X(x)−XYi(xs)|   (4.13)

Este tipo de algoritmos Relief representa un enfoque diferente para la selección de caracter´ısticas que no está basado en la evaluación de una densidad de probabilidad unidi- mensional, sino en encontrar los vecinos más cercanos, lo que asegura que los pesos de las caracter´ısticas sean sensibles al entorno, siendo aún indices globales.

Hasta ahora se han introducido los métodos de filtrado que se van a emplear y que ayudan a ordenar las caracter´ısticas de análisis. Sin embargo, el establecimiento del umbral de corte de la ordenación de las caracter´ısticas no es una tarea trivial. En esta tesis, se propone una técnica de selección de caracter´ısticas basada en el algoritmo RF para evaluar la importancia de las caracter´ısticas por medio de la eliminación recursiva de caracter´ısticas la cual se describe a continuación.

In document Complex Tissue Characterization using Ultrasound Multiple Scattering. (Page 35-59)