• No results found

En la construcción de un multiclasificador los clasificadores de base pueden ser construidos con subconjuntos de rasgos diferentes, lo cual es otra forma de buscar diversidad. La selección de rasgos tiene como objetivo una mayor eficiencia en los cálculos así como una mayor exactitud del multiclasificador. Existen muchos modelos de multiclasificadores que utilizan subconjuntos de rasgos diferentes como los descritos por Kuncheva (Kuncheva, 2004).

La elección de estos subconjuntos de rasgos puede ser realizada de diferentes vías. Entre ellas podemos mencionar la selección aleatoria (Random Selection), conocida también como método del subespacio aleatorio (ramdom subspace method), donde cada clasificador es construido sobre un subconjunto aleatorio de rasgos de tamaño d. Se han obtenido buenos resultados utilizando clasificadores con d=n/2 rasgos, donde n es el número total de rasgos. Con el método de selección aleatoria se han obtenido buenos resultados cuando hay información redundante la cual está dispersa por todos los rasgos en lugar de estar concentrada en un subconjunto (Skurichina, 2001, Ho, 1998).

Otro método propone combinar bagging con selección aleatoria (Random Selection). Se seleccionan B subconjuntos aleatorios de la base de entrenamiento y para cada uno de ellos se seleccionan R subconjuntos de rasgos. El multiclasificador consta de L=B+R

clasificadores. Esta combinación de bagging con selección aleatoria busca alcanzar una mayor diversidad entre los clasificadores que con la utilización de cualquiera de los dos de manera independiente. Se ha demostrado que esta combinación es más ventajosa que si se usan por separado.

La elección de los subconjuntos también se puede realizar de manera no aleatoria. Un algoritmo utilizado es el conocido como input decimation, donde al multiclasificador está compuesto por C clasificadores, donde C es igual al número de clases del problema. Cada clasificador tiene una clase favorita. Para encontrar el subconjunto de rasgos del

clasificador Ci con clase favorita i, se calcula la correlación entre cada rasgo y la clase. Los rasgos correspondientes a la mayor correlación son elegidos como subconjunto para el clasificador Ci. Este método ha demostrado tener un mayor rendimiento que el método del subespacio aleatorio.

Otro método utilizado propone basado en un conjunto de clasificadores de base obtenidos a partir de input decimation o con elección aleatoria, buscar el clasificador cuya salida difiera menos con relación a las salidas de los otros clasificadores. Este clasificador es identificado utilizando alguna medida de diversidad por pares y se le conocerá como clasificador medio. A este clasificador se le modificará su subconjunto de rasgos, conformando un conjunto de clasificadores similares a éste pero con los rasgos modificados. Si hay un clasificador de este conjunto que sea mejor que el clasificador medio, se seleccionará el que tenga la mayor precisión el cual remplazará al clasificador medio en el conjunto de clasificadores de base y se repetirá el proceso a partir de la búsqueda del clasificador medio, de lo contrario el multiclasificador quedará conformado por el conjunto actual.

1.5.5.Evaluación en la clasificación

Para evaluar la clasificación existen una serie de medidas que son calculadas a partir de los resultados de las predicciones del modelo cuando es probado en un conjunto de datos que no intervienen en el entrenamiento.

Entre estas medidas podemos destacar el error, la exactitud, la razón de verdaderos positivos y la razón de falsos positivos.

Si bien con las medidas antes mencionadas se puede determinar qué tan bueno es un modelo de clasificación, la forma de dividir los datos en conjunto de entrenamiento y prueba es también muy importante. Existen diferentes técnicas para esto, como es el método hold-out el cual reserva una cierta cantidad de casos para probar y usa el resto para entrenamiento, por lo general se entrena con 2/3 de los datos y utiliza 1/3 para prueba. Tiene como dificultad que si hay una cantidad de datos pequeña los ejemplos pueden no ser representativos ya que puede ocurrir que haya pocas o ninguna instancia

de algunas clases, también puede dar una solución “buena” a partir de haber hecho una división de la base muy oportuna.

Con el objetivo de buscar una mayor precisión en el método hold-out se creó el hold-out repeated que es repetir hold-out varias veces creando de manera aleatoria los conjuntos de entrenamiento y prueba, los errores de cada iteración se promedian para dar el resultado final.

Otra alternativa es usar el conjunto de datos de entrenamiento para prueba, esto nos puede traer el problema conocido como overfitting o sobreentrenamiento, además de que puede llegar a conclusiones apresuradas pues no se está teniendo en cuenta cómo reacciona el modelo ante casos que no ha visto antes, que es lo que le daría la medida de generalización.

El método de validación cruzada con k subconjuntos (k-foldcross-validation) es uno de los más usados, este método se basa en dividir la base en k partes iguales. Se realizan k

entrenamientos del modelo, tomando siempre una parte para prueba y las restantes para entrenamiento, se mide el error con los ejemplos de prueba. Tiene la ventaja que todos los ejemplos de la base de casos son, eventualmente usados para ambos procesos, entrenamiento y prueba. Como inconveniente podemos señalar que en grandes volúmenes de datos la validación se haría muy demorada(Efron and Tibshirani, 1993). Las bases de datos de este trabajo son de un tamaño mediano, en cuanto a cantidad de casos, aunque presentan una gran cantidad de rasgos. Se utilizará el método de validación cruzada con k subconjuntos para evaluar la clasificación de los diferentes modelos de clasificación utilizados y se evaluara además utilizando una base de prueba. Como medida de eficiencia utilizaremos la exactitud.

Related documents