5.1 Drive Cycle Accuracy
5.1.3 Drive Cycle Software Settings Validation
Durante las etapas de diseño de un sistema de reconocimiento de formas (ver Figura 3.11), la selección y extracción de características es un aspecto fundamental para una correcta clasificación.
Selección del Universo de Trabajo Segmentación Selección y Extracción de Rasgos. Cálculo de Funciones Discriminantes Clasificación
En muchas ocasiones los datos obtenidos tras el análisis de un fenómeno son altamente redundantes (contienen poca información significativa). En estos casos conviene realizar una transformación que permita representar dichos datos de una manera más concreta, pero que al mismo tiempo conserve las relaciones subyacentes que los hacen únicos. Dado que la caracterización del conjunto de datos depende en gran medida del dominio en el que se trabaje, conviene considerar algunas propiedades que una característica representativa de un conjunto de datos debe cumplir (Gómez Allende 1993) (Sossa Azuela 2006).
1. Capacidad Discriminante. Es decir, que separe lo más nítidamente posible las clases existentes. Los rasgos deben permitir discriminar entre los objetos de diferentes clases; tienen que proporcionar valores numéricos para objetos de clases distintas.
2. Fiabilidad. Esto es, los objetos de una misma clase deberán presentar la menor dispersión posible.
3. Incorrelación. Nunca deben utilizarse características que dependan fuertemente entre sí, ya que no añaden información discriminante.
4. Rapidez de cálculo. Esta propiedad está sujeta al sistema en el que se desarrolle el sistema de reconocimiento de formas. Las características deben poder calcularse en tiempos aceptables. Este es un requisito que puede llegar a ser determinante en ciertas aplicaciones.
5. Economía de cálculo. Es una propiedad hasta cierto punto independiente del diseño teórico del sistema, pero esencial desde un punto de vista práctico.
La Incorrelación es medida sobre las combinaciones posibles de parejas de dos características, clase a clase, a partir de la matriz de covarianza.
(3.20)
El coeficiente de correlación de dos características genéricas se define como:
(3.21)
Estas variables serán tanto más independientes entre sí cuanto más próximo a cero sea su coeficiente de correlación. La cuantificación de la fiabilidad se calcula utilizando la matriz de covarianza y analizando los valores de la diagonal principal, clase a clase. Los elementos de la diagonal principal de son precisamente las varianzas de las correspondientes características. Cuantos mayores sean estos elementos, mayor es la dispersión estadística de las características.
3.4.1. Selección del Vector de Características.
Aunque la selección de características tiene el objetivo primario de seleccionar características relevantes e informativas, puede tener otras motivaciones (Guyon y Elisseeff 2004).
1. Reducción General de los Datos. Para limitar los requerimientos e incrementar la velocidad de los algoritmos.
2. Reducción del conjunto de características. Para ahorrar recursos en la siguiente recolección de datos o durante la utilización.
3. Mejorar el desempeño. En específico para mejorar la eficiencia predictiva.
4. Entendimiento de los datos. Para ganar conocimiento acerca del proceso que genero los datos o simplemente para ayudar a la visualización de los datos.
El problema de la selección consiste en pasar de un conjunto de características a un subconjunto de características, que dé lugar a un rendimiento igual o menor al obtenido con el conjunto de caracteristicas.
Aunque es posible evaluar el comportamiento o bondad de una característica a través de parámetros como el coeficiente de correlación o el radio de Fisher (Gómez Allende 1993), estos sólo se evalúan para una característica aislada del resto. No basta con calcular los parámetros descritos anteriormente para las características disponibles y eliminar aquellas que no superen un cierto umbral. Sólo en el caso de que todas las características elegidas fueran estadísticamente independientes, podríamos basar nuestra selección en parámetros como el radio de Fisher. Sin embargo, dado que el total de características opera como un conjunto es necesario tomar en cuenta otras aproximaciones para resolver este problema.
1. Selección de un subconjunto de características. Consiste en evaluar el rendimiento global del sistema para una serie de subconjuntos de características; eligiéndose el que aporte los mejores resultados.
2. Transformación del vector de características. Se basa en aplicar una transformación matricial del vector original de características:
(3.22)
De tal forma que las nuevas componentes del vector de características
estén incorrelacionadas, con lo que se podría evaluar la bondad discriminante de cada una de ellas con independencia de las demás y eliminar aquellas que no superen un cierto umbral discriminante.
3.4.2. Transformación del Vector de Características.
El objetivo de aplicar transformaciones al vector de características es mejorar la calidad de las mismas. Es decir, se busca que el rendimiento del sistema sea mayor tras una transformación del vector de características (Guyon y Elisseeff 2004).
Algunas de las transformaciones más comunes incluyen:
Mapeos Lineales y No Lineales. Cuando la dimensionalidad de los datos es muy alta, algunas técnicas pueden utilizarse para proyectar los datos en un espacio vectorial de menor dimensionalidad al mismo tiempo que se retiene la mayor cantidad de información posible. Ejemplos de estas técnicas son: El Análisis de Componentes Principales y el Escalamiento Multidimensional. Las coordenadas de los puntos que representas los datos pueden ser utilizadas como características o como medios para visualizar los datos.
Expansiones No Lineales. Aunque la reducción de la dimensionalidad es altamente utilizada cuando se trabaja con datos complejos, algunas veces es mejor incrementarla. Esto sucede cuando el problema es muy complejo y las interacciones de primer orden no son suficientes para derivar buenos resultados. Típicamente el proceso consiste en computar productos de las características originales para crear monomios .
Transformaciones a Espacios Discretos. Algunos algoritmos no manejan adecuadamente datos definidos en un espacio continuo. Para resolver esto, conviene realizar una conversión a un espacio discreto y finito. Este paso, no solo facilita el uso de ciertos algoritmos, podría además, simplificar la descripción de los datos y facilitar su entendimiento.
La extracción y selección de características es un paso clave en el diseño de cualquier sistema de reconocimiento de formas, condicionando en gran medida el éxito del mismo. Un aspecto clave en la extracción y selección de características es cuidar que la cantidad de información que se retiene sea suficiente para asegurar un buen rendimiento del sistema.