• No results found

2.3 Analytical pressure equalization models

2.3.1 Orifice flow

Para atacar el problema de la Selección de Atributos con atributos continuos y clase discreta, se pueden plantear diversas formas de solución.

La primera, y más directa, es aplicar discretización a los atributos continuos y a continuación aplicar los métodos descritos en la Sección 3.3. Un inconveniente es tener que realizar el paso previo de discretización antes de aplicar los métodos de Selección de Atributos. Otro inconveniente es que se deberá elegir el método de discretización apropiado que mejor traduzca los datos numéricos a discretos, para no perder en el proceso información importante de los datos continuos [Mejía, 1998], [Dougherty, 1995], [Mittal, 2002]. Fuera de estos inconvenientes, esta forma de atacar el problema resulta relativamente sencilla.

Una segunda forma es estimar la distribución de probabilidad de los datos continuos y luego calcular la entropía en su versión para datos continuos12 n-dimensional [Shannon, 1948]. La dificultad con este esquema es que resulta muy costoso computacionalmente obtener la estimación de la distribución de probabilidad n-dimensional, y aunque existen trabajos que buscan reducir esta complejidad [Miller, 2003], al final se termina por realizar alguna especie de discretización. Esto también aplica a algunos clasificadores como C4.5 y J4.8 que realizan una discretización por particiones binarias de los datos continuos, para luego poderlos procesar con la entropía en su versión para datos discretos. Por otro lado, los árboles de regresión sí trabajan directamente sobre los datos continuos, pero sólo son apropiados para cuando tanto los atributos como la clase son continuos.

Nosotros hemos trabajado en este problema y hemos propuesto algunos esquemas alternos de solución. Por ejemplo, en [Mejía, 2004c], [Mejía, 2005] extendimos lo propuesto por Mangasarian [1998a] para seleccionar atributos en el marco de la optimización con el esquema FSV descrito antes en la Sección 2.5.4. En [Mejía, 2006b] realizamos una adecuación al paradigma de Redes Neuronales Perceptron, para aplicarlo a la Selección de Atributos con datos continuos y clase discreta. En ambos trabajos obtuvimos resultados alentadores. Aunque estos esquemas no son aplicables en todos los dominios y sufren de algunas limitaciones, pensamos que representan avances en el análisis y tratamiento del problema, y que podrían servir de base para futuros desarrollos.

Sobre esta misma línea de ideas, y buscando evitar los inconvenientes antes mencionados, nosotros proponemos usar, como criterio para evaluar un subconjunto de atributos continuos, una función que se inspira en la entropía de Shannon para datos continuos y en la Ganancia de Información, los cuales emergen del área de la Teoría de Información.

Para explicar cómo se llegó a la métrica que finalmente propondremos, describiremos el proceso de razonamiento seguido, comenzando por algunas definiciones básicas.

La entropía Hc para datos continuos, según Shannon[1948] es:

Hc = – ∫ p(x) log2 p(x) dx

donde p(x), es la función de distribución de densidad la cual generalmente es desconocida y, como ya se comentó anteriormente, debe ser estimada a partir de los datos.

Una práctica razonable y comunmente aceptada por investigadores en las áreas de la estadística y de la física, es asumir que la distribución de densidad es gaussiana, con desviación estándar S. Así también lo maneja Shannon [1948] quien bajo esta suposición y haciendo la manipulación necesaria a partir de la ecuación para Hc encuentra una nueva expresión de la entropía para datos continuos:

H c = log2 { 2

π

e }1/2 S

Observando esta ecuación podemos decir que la entropía uni-dimensional, para datos continuos asumiendo distribución gaussiana, depende directamente de su desviación estándar S: si S es relativamente pequeña, entonces la entropía será pequeña y viceversa. Esta observación es importante puesto que el caso que nos ocupa no es encontrar la entropía exacta, sino más bien obtener una métrica que evalúe y diferencíe la cantidad de información proporcionada por cada atributo continuo, dada una clase discreta.

Por otro lado sabemos que la Ganancia de Información In (para el caso de atributos nominales o discretos y clase discreta con valores de clase c1 y c2 ) nos dice cuánta información se obtiene si consideramos un atributo en particular [Quinlan, 1993], y se calcula con:

In = H (c1 , c2 ) – { p/(p+n) H (c1) + n/(p+n) H (c2) }

donde p/(p+n) y n/(p+n) son la probabilidad (o peso) de la cantidad de instancias o ejemplos de cada clase (c1 ó c2 ), respecto al total de instancias (p+n), y H es la entropía para datos nominales. La ecuación para la Ganancia de Información cuando se tienen más de dos valores de clase se obtiene directamente a partir de la ecuación para dos valores de clase.

Nosotros combinamos estas ideas, para proponer una nueva forma de Ganancia de Información Ic aplicada a datos continuos con clase discreta, y queda expresada de la siguiente forma:

I c = S2 (c1 , c2 ) – { p/(p+n) S2 (c1 ) + n/(p+ n) S2 (c2 ) }

donde S2 es la varianza, en tanto que c1 y c2 son los valores continuos para cada clase. La ecuación para más de dos valores de clase se obtiene directamente a partir de la anterior ecuación. Con esta métrica, entre más alto sea el valor de ganancia, más es la información contenida por el atributo (a diferencia de la entropía, que mientras más bajo es el valor para un atributo, más información relevante tiene).

Con esta ecuación podemos obtener la relevancia de los atributos en un esquema tipo filtro-ranking, sin necesidad seleccionar un método apropiado de discretización, o realizar estimación de densidades, ni hacer ajuste de parámetros, además de que se puede calcular computacionalmente de manera simple y eficiente, realizando únicamente una lectura de los datos, pues para obtener S2 en vez de usar Σ(x – xm)2 , donde xm es la media de x, nosotros aplicamos:

S2 = Σ x2 – (Σ x) 2 / m

Por analogía, nosotros denominamos esta métrica como Ganancia de varianza ó vG. Así, los pasos a seguir para realizar la Selección de Atributos usando esta métrica se presentan en la Figura 3.6.

Dada una base de datos con n atributos,

1. Realizar normalización de los atributos, entre 0 y 1 (para tener la misma escala para todos los atributos continuos de la base de datos).

2. Aplicar la métrica vG a cada atributo (para obtener la relavancia de cada uno). 3. Ordenar descendentemente los atributos de acuerdo a vG.

4. Seleccionar los mejores atributos (nosostros definimos un umbral para separar atributos relevantes e irrelevantes, siguiendo el criterio de [Liu, 2004]).

5. Utilizar los atributos seleccionados para realizar la inducción de conocimiento (proceso de Minería de Datos).

En el capítulo de experimentos se verá que este método resulta ser eficiente, efectivo y competitivo al ser comparado contra otras métricas.

Una limitante de esta propuesta es que no considera las inter-dependencias de atributos. Para resolver esto de nuevo tomamos algunas ideas del artículo seminal de Shannon [1948]. En este artículo se menciona que la entropía n-dimensional para atributos continuos, asumiendo distribución gaussiana, se puede obtener con:

H c = log2 { 2

π

e }n/2 | aij|-1/2

en donde podemos observar que en este caso la entropía depende de | aij| , es decir, el determinante de la matriz de covarianzas. Este determinante viene siendo el equivalente de la varianza, sólo que en un espacio n-dimensional. De hecho el significado geométrico del valor absoluto del determinante es el área del paralelogramo formado por dos vectores en un espacio bi-dimensional. En tres dimensiones, el valor absoluto del determinante es el volumen de un paralelepípedo formado por tres vectores, etc. Es decir, que mientras más volumen tenga el paralelepípedo, los tres vectores serán más independientes entre sí, y viceversa, según se muestra en la Figura 3.7.

En consecuencia, y generalizando este razonamiento, vectores “similares” arrojarán valores absolutos de determinantes relativamente pequeños, lo cual a su vez indica poca “varianza” n-dimensional, lo que a su vez implica una baja entropía.

Figura 3.7. Significado geométrico del determinante.

Por lo tanto nos pareció razonable sustituir la varianza por el determinante en la métrica vG, obteniendo así la métrica para el caso n-dimensional, denominado dG:

dG = | aij| (c1 ,c2 ) – { p/(p+n) | aij| (c1 ) + n/(p+n) | aij| ( c2 ) }

Con esta métrica estaríamos buscando encontrar las inter-dependencias de atributos. Por ejemplo, en el caso del problema XOR, con la métrica propuesta se obtienen las siguientes evaluaciones:

dG(X) = 0 – (0 + 0) = 0.0 dG(Y) = 0 – (0 + 0) = 0.0 dG(X,Y) = 0.0625 – (0 + 0) = 0.0625

lo cual nos indica que aislados tanto el atributo X, como el Y, no descriminan la clase, en tanto que considerados juntos sí son capaces de predecir la clase.

Considerando otro ejemplo con más datos, como los datos mostrados en la Figura 3.8, obtenemos los siguientes resultados:

dG(X) = 14.59 – (5.10 + 5.36) = 9.36 dG(Y) = 12.77 – (3.34 + 3.61) = 9.29 dG(X,Y) = 99.52 – (17.08 + 19.37) = 81.36

lo cual sugiere que la métrica está detectando correctamente la inter-dependencia que existente entre los dos atributos considerados (puesto que considerar X ó Y en forma aislada no proporciona suficiente información para discriminar la clase).

0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 Atributo X Atributo Y clase N clase P

La métrica dG puede ser empleada en combinación con los métodos de búsqueda descritos anteriormente en la Sección 3.3. Los resultados obtenidos con esta métrica se mostrarán en el capítulo de experimentos.