En la discusión anterior, se hizo referencia a dos tipos de discriminantes obtenidos a partir de la suposición de normalidad en las distribuciones de probabilidad de las clases: el discriminante lineal y el discriminante cuadrático.
Existen, por supuesto, otros tipos de clasificadores, cada uno con sus especificaciones y problemática particular. Aunque hemos visto que calculando las probabilidades a posteriori, seremos capaces de conseguir la clasificación “ideal”, en la práctica, diversos factores complican tremendamente este cálculo y se hace preciso abordar el problema desde otra perspectiva. Lo más habitual es ir probando diferentes modelos de clasificadores hasta dar con el más adecuado. En la Figura 3.6 se muestra un esquema con algunos de los clasificadores más comunes.
Figura 3.6. Alguno de los tipos de clasificadores más comunes.
A continuación se hará una breve descripción de los diferentes tipos de clasificadores, insistiendo en aquellos que se han utilizado en este trabajo.
Clasificadores Paramétricos: Discriminantes Lineal y Cuadrático.
Consideraremos clasificadores paramétricos a aquellos cuyo diseño supone dar valores a una serie de parámetros. Aunque esta definición podría aplicarse a cualquier clasificador, dado que, siempre hay algún parámetro que ajustar, nos referimos, en concreto, a los casos en los que se asume una determinada estructura dependiente de cierto número de parámetros.
Otra cuestión es si esta estructura paramétrica se asume para las densidades de probabilidad de las clases, o para las probabilidades a posteriori. Ambas formas de plantear el problema, se han mostrado efectivas en la práctica y habrá que optar por la que se crea más conveniente para un problema dado.
Los discriminantes lineal y cuadrático constituyen la opción más simple, pero también la menos flexible. A pesar de esta falta de flexibilidad, son muy usados en
la práctica debido a la seria limitación que supone disponer de un número, habitualmente escaso, de patrones de entrenamiento. Se definen, como vimos, independientemente de la suposición de normalidad. En el caso particular del discriminante lineal, podemos escribir (para dos clases):
es decir, una combinación lineal de las componentes de . Dependiendo de la
dirección del vector , obtendremos una mejor o peor separación de las clases. Se trata entonces de imponer criterios que permitan encontrar el valor óptimo de
. El umbral vendrá determinado por el criterio escogido.
Existen diferentes criterios para fijar . El más clásico da lugar a lo que se conoce como discriminante de Fisher (24), y consiste en maximizar la siguiente función:
,y es la matriz de dispersión entre-clases, definida como:
Es fácil demostrar que el valor de w que maximiza la función anterior viene dado por:
En definitiva, hemos pasado del problema original en múltiples dimensiones, a una sola dimensión. Esto puede resultar ventajoso, sobre todo cuando no se dispone de muchos patrones de entrenamiento. El valor umbral queda indeterminado y deberá fijarse con algún criterio razonable. Si las distribuciones de las clases son normales con matrices de covarianza iguales, obtendremos, como caso particular, el discriminante lineal de la sección anterior.
Así como para el discriminante lineal existen otros criterios que permiten fijar el valor de (23), para el discriminante cuadrático resulta mucho más complicado
maximizar cualquier función de , debido al gran número de parámetros implicados. Por este motivo, se suele utilizar la expresión ya vista, sin más.
Clasificadores No Paramétricos
En este tipo de clasificadores, no se asume ninguna forma paramétrica, ni de las densidades de probabilidad de las clases, ni de las probabilidades a posteriori. Los procedimientos que se siguen están precisamente orientados a la estimación de las densidades de probabilidad a partir de los patrones disponibles, o bien, a la estimación directa de las probabilidades a posteriori.
En el primer caso, tenemos los métodos que se denominan, genéricamente, de kernel, porque se basan precisamente en eso, en funciones kernel (por ejemplo, gaussianas), que de forma local, tratan de aproximar la forma de la densidad de probabilidad de la población de la que proceden los patrones (19, 20, 22).
Por otro lado, están los métodos que intentan estimar directamente las probabilidades a posteriori de las clases. Como ejemplo representativo de este tipo de clasificadores, podemos citar los de vecinos próximos (19, 20, 22), que aproximan las probabilidades a posteriori para cada valor de , asignándole la
clase más representada entre los ejemplares de entrenamiento más cercanos.
Un resultado bastante significativo relacionado con los clasificadores de vecinos próximos es el que demuestra que el error asintótico (infinitos datos) es menor que dos veces el error de Bayes (19, 20, 22, 23). Hay que tener en cuenta que este procedimiento de clasificación no usa ninguna información acerca de la estructura probabilística del problema.
En ambos casos, y especialmente en el primero, se necesitan muchos patrones para que estos métodos resulten eficientes, por lo cual, en ocasiones, su aplicabilidad práctica puede llegar a ser un tanto limitada.
Otros Clasificadores
Dentro de la categoría de otros clasificadores, incluimos aquellos que tratan del problema desde una perspectiva bastante diferente a los anteriores. Por ejemplo, métodos que consisten en particionar el espacio de características en regiones, y asignar una clase a cada región.
Dentro de esta filosofía, se encuentran los árboles de clasificación (19, 20, 22), los cuales tienen la virtud de su fácil interpretabilidad, pero no resultan tan eficicientes como discriminadores.