4.3 Results and Discussions
5.2.4 Absorption coe ffi cient and Density matrix method
La heur´ıstica de inicializaci´on de las MSV por medio de KSK es la heur´ıstica que reporta los tiempos m´as grandes de optimizaci´on. Incluso comparando con el algoritmo Chunking tradi- cional, esta heur´ıstica consume m´as tiempo. La inicializaci´on de las MSV a trav´es de KSK tiene desventajas en comparaci´on con las otras heur´ısticas, dichos problemas causan que el tiempo de entrenamiento aumente considerablemente. Las desventajas de la heur´ıstica son:
* Un gran n´umero de iteraciones para llegar al ´optimo.
* El n´umero de Kernel-evaluaciones es mayor que en la heur´ıstica que utiliza Kernel- Perceptr´on.
De la misma manera, esta heur´ıstica tiene la ventaja de que el conjunto de patrones obtenidos s´ı contiene a los vectores de soporte del problema, lo cual implica que el entrenamiento del algoritmo Chunking se realiza en muy poco tiempo. Desafortunadamente, el poco tiempo que tarda Chunking en optimizar es insuficiente para compensar el alto tiempo de aprendizaje del algoritmo KSK.
Como se pudo observar el las tablas anteriores, se presenta un error de generalizaci´on en el entrenamiento de bases como: Tic-Tac-Toe, Fonemas y Adult. Dicho error de generalizaci´on es muy peque˜no, por lo que no se considera que sea un problema en la heur´ıstica.
5.
CONCLUSIONES
Las M´aquinas de Soporte Vectorial representan un m´etodo que d´a soluci´on al problema de clasificaci´on de datos presente en diferentes ´areas de las ciencias computacionales. Este m´etodo, a pesar de tener caracter´ısticas que lo hacen robusto, tiene como desventajas el tiempo de computo y la memoria necesarios para la soluci´on de problemas, en los que el volumen de datos es grande. As´ı, actualmente existe un esfuerzo constante por mejorar el desempe˜no de este m´etodo con lo que se abren diferentes l´ıneas de investigaci´on.
En esta investigaci´on se abordo un enfoque heur´ıstico para mejorar el rendimiento de las MSV, de tal forma que se lograron implementar diferentes heur´ısticas para disminuir el tiempo de entrenamiento de las MVS, adem´as de reducir los requerimientos de memoria del m´etodo. La idea principal fue obtener soluciones preliminares mediante las cuales se pudo identificar f´acilmente un conjunto de datos reducido que contiene los vectores de soporte del problema. Dicho subconjunto se utiliz´o para realizar el entrenamiento de las MSV y as´ı obtener la soluci´on global del problema. Debido a las caracter´ısticas de los vectores de soporte, fue posible asegurar que al realizar el entrenamiento de las MVS con el conjunto de datos encontrado, obtener la misma soluci´on que al realizar el entrenamiento con el conjunto de datos original, pero con la ventaja de que se reduce tanto el tiempo de entrenamiento como el espacio de almacenamiento requerido. Para llevar a cabo el entrenamiento de las MSV, se decidi´o utilizar el algoritmo Chunking, el cual consiste en dividir el problema en sub problemas que se resuelven iterativamente hasta encontrar la soluci´on
´optima. Los sub problemas se forman de manera aleatoria por lo que es precisamente ah´ı donde se pueden incorporar las soluciones preliminares obtenidas y obtener un Chunking-heur´ıstico que evite las desventajas de las MSV.
Las heur´ısticas desarrolladas para mejorar el rendimiento de las MSV fueron: * Inicializaci´on de las MSV utilizando el algoritmo Perceptr´on.
* Inicializaci´on de las MSV mediante el algoritmo PCB. * Inicializaci´on por medio de Kernel Perceptr´on.
* Inicializaci´on con Kernel Schlesinger-Kozinec.
Diferente pruebas se realizaron con cada heur´ıstica con lo que se concluye lo siguiente:
Inicializaci´on de las MSV utilizando el algoritmo Perceptr´on. Esta heur´ıstica mejora el
desempe˜no del algoritmo Chunking tradicional, tanto en tiempo de entrenamiento como en la memoria utilizada. Los resultados a pesar de ser buenos, no mejoran los tiempos reportados por el m´etodo SV Mlighten bases de datos peque˜nas. En el caso de bases de datos de mayor tama˜no o de mayor complejidad con pocos vectores de soporte, se observo que la heur´ıstica si mejora el tiempo de entrenamiento utilizado por SV Mlight pero con la desventaja de que el consumo de memoria se eleva considerablemente, debido a que se trata con m´as de 10,000 patrones. Con lo anterior se puede concluir que esta heur´ıstica s´ı cumple con el objetivo de disminuir el tiempo de entrenamiento de bases de datos en las que el conjunto de vectores de soporte es s´olo una peque˜na porci´on del total de patrones. Desafortunadamente, a´un cuando la cantidad de memoria utilizada es menor que la que utiliza Chunking tradicional, est´a sigue siendo un problema fuerte cuando se trata con grandes vol´umenes de datos.
Inicializaci´on de las MSV mediante el algoritmo PCB. Esta heur´ıstica no s´olo mejora
los resultados del Chunking tradicional, si no que adem´as mejora los resultados de la heur´ıstica que utiliza Perceptr´on. El proceso de optimizaci´on de esta heur´ıstica muestra que el n´umero de vectores de soporte que se encuentran en cada iteraci´on es mayor al encontrado por la heur´ıstica con Perceptr´on. Adem´as, en bases de datos grandes con pocos vectores de soporte se observa que se tiene una disminuci´on de tiempo considerable pero, al igual que con Perceptr´on, el consumo de memoria es alto. Con los resultados de la base de datos Adult, se puede concluir que cuando el n´umero de vectores de soporte es un porcentaje considerable de la base de datos, entonces no s´olo
se incrementa el consumo de memoria sino que tambi´en incrementa el tiempo de entrenamiento. Por ´ultimo se concluye que esta heur´ıstica tambi´en cumple con el objetivo de disminuir el tiempo de entrenamiento de las MSV y, bajo ciertas restricciones, se cumple el objetivo de disminuir el consumo de memoria.
Inicializaci´on por medio de Kernel Perceptr´on. Los resultados de la inicializaci´on con
esta heur´ıstica muestran tiempos de optimizaci´on muy buenos pero, se tienen dos problemas importantes: a) la convergencia s´olo se logra con ciertos valores dados a la funci´on Kernel, b) existen casos en los que el algoritmo no converge. La idea de esta inicializaci´on fue hacer aproximaciones en el mismo espacio dimensional en el que se utiliza Chunking, de tal forma que un mayor n´umero de vectores de soporte fueran encontrados. Esto no se logr´o ya que a´un cuando se busca en el mismo espacio dimensional, Kernel-Perceptr´on no es un clasificador de margen m´aximo, por lo que la soluci´on encontrada puede estar cerca o lejos de la soluci´on de las MSV. En conclusi´on, el objetivo de disminuir el tiempo de entrenamiento de las MSV si se cumple, ya que el error encontrado no es muy significativo. El consumo de memoria es muy similar a la heur´ıstica que utiliza PCB o Perceptr´on por lo que la disminuci´on del requerimiento de memoria se cumple con la restricci´on de que en bases de datos grandes esta puede crecer demasiado.
Inicializaci´on con Kernel Schlesinger-Kozinec. Con esta heur´ıstica, se observo que los vec-
tores de soporte son f´acilmente identificados. La afirmaci´on anterior se debe a que tanto los m´eto- dos de clasificaci´on preliminar como el algoritmo Chunking se encuentran trabajando en la misma dimensi´on y adem´as KSK es un algoritmo de margen m´aximo por lo que la soluci´on encontrada es muy similar a la de las MSV. Sin embargo se presentaron dos desventajas al utilizar esta heur´ıstica: * Las diferentes Kernel-evaluaciones de KSK aumentan considerablemente el tiempo de en- trenamiento, por lo que se afirma que esta heur´ıstica no cumplen con el objetivo de reducir el tiempo de entrenamiento de las MSV.
* El espacio de almacenamiento es mayor con respecto a las heur´ısticas que utilizan PCB o Perceptr´on pero, es menor con respecto al entrenamiento tradicional de las MSV. As´ı, el objetivo de disminuir los requerimientos de memoria se cumplen con cierta restricci´on.
En conclusi´on, las heur´ısticas que cumplen con los objetivos de esta tesis son las que utilizan: Perceptr´on, PCB y Kernel-Perceptr´on en algunos casos, recalcando que la heur´ıstica que utiliza PCB mostr´o el mejor desempe˜no. En contraste, la principal desventaja de esta investigaci´on, es que las heur´ısticas utilizadas siguen calculando y almacenando la matriz hessiana, por lo que, en problemas en los que el n´umero de vectores de soporte es tan grande como patrones tiene la base de datos, existen todav´ıa problemas de almacenamiento y de tiempo de entrenamiento. En el trabajo realizado se obtuvieron resultados satisfactorios, cumpli´endose los objetivos planteados al inicio de la investigaci´on, sin embargo, el campo de estudio no termina ah´ı, por lo que a continuaci´on se listan las posibles mejoras que pueden ser aplicadas a las heur´ısticas desarrolladas:
* Uno de los principales retos a vencer fue la selecci´on adecuada de la funci´on Kernel, con lo que se afirma que se tiene abierta una fuerte l´ınea de investigaci´on en la cual se desarrollen m´etodos o heur´ısticas que permita identificar cual es la funci´on Kernel adecuada para cada problema. En gran parte, la convergencia de nuestro algoritmo estuvo en funci´on del Kernel seleccionado. En esta investigaci´on, se utilizaron funciones de base radial (RBF) para las diferentes pruebas observando los siguientes resultados:
o Se obtuvieron buenos resultados en el entrenamiento de las MSV al utilizar bases de datos grandes y peque˜nas.
o Al combinar este tipo de funciones con las MSV se evito el problema de encontrar estructuras sobre-dimensionadas (con sobre-aprendizaje).
* Si se logra combinar la caracter´ıstica de poco consumo de memoria del m´etodo SV Mlight con la velocidad de entrenamiento de la heur´ıstica que utiliza PCB, se puede obtener un m´etodo robusto que entrene problemas con grandes cantidades de datos y de vectores de soporte (m´as de 10, 000).
Por ´ultimo, el trabajo futuro de esta investigaci´on se enfoca hacia los siguientes puntos: * Extender el uso de las heur´ısticas desarrolladas para tratar problemas de multi-clasificaci´on
de datos (en lugar de haber 2 salidas{1,−1}, tenernsalidas{1,2, ..., n}).
* Utilizar las heur´ısticas para dar soluci´on a modelos de regresi´on o a problemas de estimaci´on de densidad.
BIBLIOGRAF´IA
[1] N. Friedman. Bayesian Network Classifier. Machine Learning, 29, 131-161, 1997.
[2] Ljucpo Todorovski. Combining Classifiers with Meta Decision Trees. Machine Learning, 50, 223-249, 2003.
[3] Scott E. Fahlman and C. Lebiere. The Cascade-Correlation learning architecture. Technical report CMU-CS-90-100, 1991.
[4] V. Vapnik. Theory of Pattern Recognition. Akademie-Berlag, 1979.
[5] B. E. Boser, I. Guyon and V. Vapnik. A training algorithm for optimal margin classifiers. Proceedings of the 5th Annual ACM Workshop on Computational learning Theory, 144-152, 1992.
[6] F. Rosenblatt. The Perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 65(6), 386-408, 1958.
[7] Franc Vojtech and Vaclav Hlavac. Generalization of the Schlesinger-Kozinec´s algorithm for Support Vector Machines. Center of Machine Perception, CTU Prague.
[8] B. N. Kozinec. Recurrent algorithm for separating convex hulls of two sets. Learning algo- rithms in pattern recognition, 43-50, 1973.
[9] H. Poulard and D. Est`eve. Barycentric Correction Procedure: A fast method of learning threshold unit. World Congress on Neuronal Networks, 1, 710-713, 1995.
[10] Adam Kowalczyk. Maximal Margin Perceptron MIT Press, Cambridge, MA, 1999.
[11] E. Osuna, R. Freund and F. Girosi. An improved training algorithm for Support Vector Ma- chines. Neural Networks for Signal Processing, 7, 276-285, 1997.
[12] J. C. Platt. Sequential Minimal Optimization: A fast algorithm for training Support Vector Machines. Technical Report MSR-TR-98-14, 1998.
[13] Joachims Thorsten. Making Large-Scale SVM Learning Practical. Technical Report LS-8 report 24, 1998.
[14] A. Murtagh and M. Saunders. MINOS 5.4, User´s Guide. System Optimization Laboratory, 1995.
[15] J. Vanderbei. LOQO: An interior point code for quadratic programming. Technical Report SOR, 94-15, 1994.
[16] P. M. Murphy and D. W. Aha. UCI Repository for machine learning databases. ml- [email protected], 1996.