Absorption coe ffi cient and Density matrix method

4.3 Results and Discussions

5.2.4 Absorption coe ffi cient and Density matrix method

La heur´ıstica de inicialización de las MSV por medio de KSK es la heur´ıstica que reporta los tiempos más grandes de optimización. Incluso comparando con el algoritmo Chunking tradicional, esta heur´ıstica consume más tiempo. La inicialización de las MSV a través de KSK tiene desventajas en comparación con las otras heur´ısticas, dichos problemas causan que el tiempo de entrenamiento aumente considerablemente. Las desventajas de la heur´ıstica son:

* Un gran n´umero de iteraciones para llegar al ´optimo.

* El n´umero de Kernel-evaluaciones es mayor que en la heur´ıstica que utiliza Kernel- Perceptr´on.

De la misma manera, esta heur´ıstica tiene la ventaja de que el conjunto de patrones obtenidos s´ı contiene a los vectores de soporte del problema, lo cual implica que el entrenamiento del algoritmo Chunking se realiza en muy poco tiempo. Desafortunadamente, el poco tiempo que tarda Chunking en optimizar es insuficiente para compensar el alto tiempo de aprendizaje del algoritmo KSK.

Como se pudo observar el las tablas anteriores, se presenta un error de generalización en el entrenamiento de bases como: Tic-Tac-Toe, Fonemas y Adult. Dicho error de generalización es muy pequeño, por lo que no se considera que sea un problema en la heur´ıstica.

5. CONCLUSIONES

Las Máquinas de Soporte Vectorial representan un método que dá solución al problema de clasificación de datos presente en diferentes áreas de las ciencias computacionales. Este método, a pesar de tener caracter´ısticas que lo hacen robusto, tiene como desventajas el tiempo de computo y la memoria necesarios para la solución de problemas, en los que el volumen de datos es grande. As´ı, actualmente existe un esfuerzo constante por mejorar el desempeño de este método con lo que se abren diferentes l´ıneas de investigación.

En esta investigación se abordo un enfoque heur´ıstico para mejorar el rendimiento de las MSV, de tal forma que se lograron implementar diferentes heur´ısticas para disminuir el tiempo de entrenamiento de las MVS, además de reducir los requerimientos de memoria del método. La idea principal fue obtener soluciones preliminares mediante las cuales se pudo identificar fácilmente un conjunto de datos reducido que contiene los vectores de soporte del problema. Dicho subconjunto se utilizó para realizar el entrenamiento de las MSV y as´ı obtener la solución global del problema. Debido a las caracter´ısticas de los vectores de soporte, fue posible asegurar que al realizar el entrenamiento de las MVS con el conjunto de datos encontrado, obtener la misma solución que al realizar el entrenamiento con el conjunto de datos original, pero con la ventaja de que se reduce tanto el tiempo de entrenamiento como el espacio de almacenamiento requerido. Para llevar a cabo el entrenamiento de las MSV, se decidió utilizar el algoritmo Chunking, el cual consiste en dividir el problema en sub problemas que se resuelven iterativamente hasta encontrar la solución

´optima. Los sub problemas se forman de manera aleatoria por lo que es precisamente ah´ı donde se pueden incorporar las soluciones preliminares obtenidas y obtener un Chunking-heur´ıstico que evite las desventajas de las MSV.

Las heur´ısticas desarrolladas para mejorar el rendimiento de las MSV fueron: * Inicializaci´on de las MSV utilizando el algoritmo Perceptr´on.

* Inicialización de las MSV mediante el algoritmo PCB. * Inicialización por medio de Kernel Perceptrón.

* Inicializaci´on con Kernel Schlesinger-Kozinec.

Diferente pruebas se realizaron con cada heur´ıstica con lo que se concluye lo siguiente:

Inicializaci´on de las MSV utilizando el algoritmo Perceptr´on. Esta heur´ıstica mejora el

desempeño del algoritmo Chunking tradicional, tanto en tiempo de entrenamiento como en la memoria utilizada. Los resultados a pesar de ser buenos, no mejoran los tiempos reportados por el método SV Mlighten bases de datos pequeñas. En el caso de bases de datos de mayor tamaño o de mayor complejidad con pocos vectores de soporte, se observo que la heur´ıstica si mejora el tiempo de entrenamiento utilizado por SV Mlight pero con la desventaja de que el consumo de memoria se eleva considerablemente, debido a que se trata con más de 10,000 patrones. Con lo anterior se puede concluir que esta heur´ıstica s´ı cumple con el objetivo de disminuir el tiempo de entrenamiento de bases de datos en las que el conjunto de vectores de soporte es sólo una pequeña porción del total de patrones. Desafortunadamente, aún cuando la cantidad de memoria utilizada es menor que la que utiliza Chunking tradicional, está sigue siendo un problema fuerte cuando se trata con grandes volúmenes de datos.

Inicializaci´on de las MSV mediante el algoritmo PCB. Esta heur´ıstica no s´olo mejora

los resultados del Chunking tradicional, si no que además mejora los resultados de la heur´ıstica que utiliza Perceptrón. El proceso de optimización de esta heur´ıstica muestra que el número de vectores de soporte que se encuentran en cada iteración es mayor al encontrado por la heur´ıstica con Perceptrón. Además, en bases de datos grandes con pocos vectores de soporte se observa que se tiene una disminución de tiempo considerable pero, al igual que con Perceptrón, el consumo de memoria es alto. Con los resultados de la base de datos Adult, se puede concluir que cuando el número de vectores de soporte es un porcentaje considerable de la base de datos, entonces no sólo

se incrementa el consumo de memoria sino que también incrementa el tiempo de entrenamiento. Por último se concluye que esta heur´ıstica también cumple con el objetivo de disminuir el tiempo de entrenamiento de las MSV y, bajo ciertas restricciones, se cumple el objetivo de disminuir el consumo de memoria.

Inicialización por medio de Kernel Perceptrón. Los resultados de la inicialización con

esta heur´ıstica muestran tiempos de optimización muy buenos pero, se tienen dos problemas importantes: a) la convergencia sólo se logra con ciertos valores dados a la función Kernel, b) existen casos en los que el algoritmo no converge. La idea de esta inicialización fue hacer aproximaciones en el mismo espacio dimensional en el que se utiliza Chunking, de tal forma que un mayor número de vectores de soporte fueran encontrados. Esto no se logró ya que aún cuando se busca en el mismo espacio dimensional, Kernel-Perceptrón no es un clasificador de margen máximo, por lo que la solución encontrada puede estar cerca o lejos de la solución de las MSV. En conclusión, el objetivo de disminuir el tiempo de entrenamiento de las MSV si se cumple, ya que el error encontrado no es muy significativo. El consumo de memoria es muy similar a la heur´ıstica que utiliza PCB o Perceptrón por lo que la disminución del requerimiento de memoria se cumple con la restricción de que en bases de datos grandes esta puede crecer demasiado.

Inicializaci´on con Kernel Schlesinger-Kozinec. Con esta heur´ıstica, se observo que los vec-

tores de soporte son fácilmente identificados. La afirmación anterior se debe a que tanto los méto- dos de clasificación preliminar como el algoritmo Chunking se encuentran trabajando en la misma dimensión y además KSK es un algoritmo de margen máximo por lo que la solución encontrada es muy similar a la de las MSV. Sin embargo se presentaron dos desventajas al utilizar esta heur´ıstica: * Las diferentes Kernel-evaluaciones de KSK aumentan considerablemente el tiempo de entrenamiento, por lo que se afirma que esta heur´ıstica no cumplen con el objetivo de reducir el tiempo de entrenamiento de las MSV.

* El espacio de almacenamiento es mayor con respecto a las heur´ısticas que utilizan PCB o Perceptr´on pero, es menor con respecto al entrenamiento tradicional de las MSV. As´ı, el objetivo de disminuir los requerimientos de memoria se cumplen con cierta restricci´on.

En conclusión, las heur´ısticas que cumplen con los objetivos de esta tesis son las que utilizan: Perceptrón, PCB y Kernel-Perceptrón en algunos casos, recalcando que la heur´ıstica que utiliza PCB mostró el mejor desempeño. En contraste, la principal desventaja de esta investigación, es que las heur´ısticas utilizadas siguen calculando y almacenando la matriz hessiana, por lo que, en problemas en los que el número de vectores de soporte es tan grande como patrones tiene la base de datos, existen todav´ıa problemas de almacenamiento y de tiempo de entrenamiento. En el trabajo realizado se obtuvieron resultados satisfactorios, cumpliéndose los objetivos planteados al inicio de la investigación, sin embargo, el campo de estudio no termina ah´ı, por lo que a continuación se listan las posibles mejoras que pueden ser aplicadas a las heur´ısticas desarrolladas:

* Uno de los principales retos a vencer fue la selección adecuada de la función Kernel, con lo que se afirma que se tiene abierta una fuerte l´ınea de investigación en la cual se desarrollen métodos o heur´ısticas que permita identificar cual es la función Kernel adecuada para cada problema. En gran parte, la convergencia de nuestro algoritmo estuvo en función del Kernel seleccionado. En esta investigación, se utilizaron funciones de base radial (RBF) para las diferentes pruebas observando los siguientes resultados:

o _{Se obtuvieron buenos resultados en el entrenamiento de las MSV al utilizar bases de} datos grandes y peque˜nas.

o _{Al combinar este tipo de funciones con las MSV se evito el problema de encontrar} estructuras sobre-dimensionadas (con sobre-aprendizaje).

* Si se logra combinar la caracter´ıstica de poco consumo de memoria del método SV Mlight con la velocidad de entrenamiento de la heur´ıstica que utiliza PCB, se puede obtener un método robusto que entrene problemas con grandes cantidades de datos y de vectores de soporte (más de 10, 000).

Por último, el trabajo futuro de esta investigación se enfoca hacia los siguientes puntos: * Extender el uso de las heur´ısticas desarrolladas para tratar problemas de multi-clasificación

de datos (en lugar de haber 2 salidas{1,−1}, tenernsalidas{1,2, ..., n}).

* Utilizar las heur´ısticas para dar solución a modelos de regresión o a problemas de estimación de densidad.

BIBLIOGRAF´IA

[1] N. Friedman. Bayesian Network Classifier. Machine Learning, 29, 131-161, 1997.

[2] Ljucpo Todorovski. Combining Classifiers with Meta Decision Trees. Machine Learning, 50, 223-249, 2003.

[3] Scott E. Fahlman and C. Lebiere. The Cascade-Correlation learning architecture. Technical report CMU-CS-90-100, 1991.

[4] V. Vapnik. Theory of Pattern Recognition. Akademie-Berlag, 1979.

[5] B. E. Boser, I. Guyon and V. Vapnik. A training algorithm for optimal margin classifiers. Proceedings of the 5th Annual ACM Workshop on Computational learning Theory, 144-152, 1992.

[6] F. Rosenblatt. The Perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 65(6), 386-408, 1958.

[7] Franc Vojtech and Vaclav Hlavac. Generalization of the Schlesinger-Kozinec´s algorithm for Support Vector Machines. Center of Machine Perception, CTU Prague.

[8] B. N. Kozinec. Recurrent algorithm for separating convex hulls of two sets. Learning algo- rithms in pattern recognition, 43-50, 1973.

[9] H. Poulard and D. Est`eve. Barycentric Correction Procedure: A fast method of learning threshold unit. World Congress on Neuronal Networks, 1, 710-713, 1995.

[10] Adam Kowalczyk. Maximal Margin Perceptron MIT Press, Cambridge, MA, 1999.

[11] E. Osuna, R. Freund and F. Girosi. An improved training algorithm for Support Vector Ma- chines. Neural Networks for Signal Processing, 7, 276-285, 1997.

[12] J. C. Platt. Sequential Minimal Optimization: A fast algorithm for training Support Vector Machines. Technical Report MSR-TR-98-14, 1998.

[13] Joachims Thorsten. Making Large-Scale SVM Learning Practical. Technical Report LS-8 report 24, 1998.

[14] A. Murtagh and M. Saunders. MINOS 5.4, User´s Guide. System Optimization Laboratory, 1995.

[15] J. Vanderbei. LOQO: An interior point code for quadratic programming. Technical Report SOR, 94-15, 1994.

[16] P. M. Murphy and D. W. Aha. UCI Repository for machine learning databases. ml- [email protected], 1996.

In document The Study of Nano-optics In Hybrid Systems (Page 89-104)