• No results found

4.7 Integerisation

4.7.1 Method

Uno de los principales obstáculos a los que se enfrenta este algoritmo se presenta al ex- plorar características con el mismo valor de ganancia de información, razón de ganancia

de información o χ2. Esto se ve más claro en el cruzamiento, ya que si ambas caracte-

rísticas tienen el mismo valor entonces la probabilidad de selección será la misma para cualquiera de las dos. Considerando que, un número considerable de características tienen un valor de 0en cualquiera de los tres indicadores y que no existen pruebas denitivas para descartar estas características es necesario diseñar un mecanismo que las explore. En el algoritmo que se presenta, la exploración de estas es estocástica, pero se propone incluir información del mismo clasicador basado en SVM en el proceso de cruzamiento, un ejemplo de esta información es el uso de los pesos vectoriales, que se obtienen después de cada clasicación y determinan la distancia que existe entre la frontera de división y los vectores. En el trabajo de Abbasi et al. (2008) se menciona un ejemplo de un ltro diseñado con esta información. Sin embargo, el peso será distinto en cada clasicación y es necesario diseñar reglas para la consideración de los distintos pesos, lo cual requiere de un análisis más detallado.

Otra modicación a considerar es en la ecuación de mutación, Storn y Price (1997) y Onwubolu y Davendra (2009) proponen diferentes versiones para la misma, una de ellas es cambiar la selección aleatoria de individuos para la mutación por una selección de los individuos con mejor aptitud con algunas excepciones incluidas para evitar la convergencia prematura. Además, falta observar la sensibilidad del presente algoritmo a distintos tipos de clasicadores tal como los mencionados en el Capítulo 2.

Finalmente, un trabajo futuro relacionado es aplicar el algoritmo a clasicación de documentos en español, así como a documentos de diferentes dominios distintos a las críticas de cine y a selección de características para clasicación de texto en general, esto para determinar la efectividad del método en otras áreas.

Referencias bibliográcas

Abbasi, A. (2010). Intelligent Feature Selection for Opinion Classication. IEEE Intel- ligent Systems, 25(4):7579.

Abbasi, A., Chen, H., y Salem, A. (2008). Sentiment analysis in multiple languages: Feature selection for opinion classication in Web forums. ACM Transactions on Information Systems (TOIS), 26(3):1 34.

Abraham, A., Das, S., y Konar, A. (2006). Document Clustering Using Dierential Evolution. En 2006 IEEE International Conference on Evolutionary Computation , páginas 17841791. IEEE.

Ahmad, K. (2011). The Return and Volatility of Sentiments:An Attempt to Quantify the Behaviour of the Markets? . Text, Speech and Language Technology , 45:8999. Annett, M. y Kondrak, G. (2008). A comparison of sentiment analysis techniques:Po- larizing movie blogs. En 21st Conference of the Canadian Society for Computational Studies of Intelligence, Canadian AI 2008 , páginas 25 35, Windsor.

Atserias, J., Casas, B., Comelles, E., González, M., Padró, L., y Padró, M. (2006). FreeLing 1.3:Syntactic and semantic services in an open-source NLP library. En Proceedings of the fth international conference on Language Resources and Evalua- tion (LREC 2006), ELRA, Genoa. Universitat Politécnica de Catalunya.

Balahur, A. y Steinberger, R. (2009). Rethinking Sentiment Analysis in the News:from Theory to Practice and back. En Proceeding of 1st Workshop on Opinion Mining and Sentiment Analysis, páginas 112, Sevilla.

Banea, C., Mihalcea, R., Wiebe, J., y Hassan, S. (2008). Multilingual subjectivity analysis using machine translation. En Proceedings of the Conference on Empirical Methods in Natural Language Processing , páginas 127135, Waikiki, Hawaii. Associ- ation for Computational Linguistics.

Batra, S. y Rao, D. (2011). Entity Based Sentiment Analysis on Twitter. Science, 325: 112.

Bautin, M., Vijayarenu, L., y Skiena, S. (2008). International sentiment analysis for news and blogs. En Proceedings of the 3rd AAAI International Conference on Weblogs and Social Media (ICWSM), páginas 1926, San Jose, CA.

Boulis, C. y Ostendorf, M. (2005). Text Classication by Augmenting the Bag-of-Words Representation with Redundancy- Compensated Bigrams. En Workshop on Feature Selection in Data Mining, in conjunction with SIAM conference on Data Mining , páginas 916.

Brooke, J., Toloski, M., y Taboada, M. (2009). Cross-linguisticsentiment analysis: From english to spanish. En Proceedings of the 7th International Conference on Recent Advances in Natural Language Processing , páginas 5054, Borovets.

Carreras, X., Chao, I., Padró, L., y Padró, M. (2004). Freeling: An open-source suite of language analyzers. En Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'04), 2004 , páginas 4855, Barcelona. Universitat Politécnica de Catalunya.

Cruz, F., Troyano, J. A., Enríquez, F., y Díaz, V. J. (2009). Construcción de un sistema PLN usando el framework UIMA. Procesamiento del Lenguaje Natural , 43: 351 352.

Cruz, L., Troyano, J. A., Enriquez, F., y Ortega, J. (2008). Clasicación de documentos basada en la opinión : experimentos con un corpus de críticas de cine en español. Procesamiento del Lenguaje Natural , 41: 7380.

Cruz Mata, F. (2011). Extracción de Opiniones sobre Características : Un Enfoque Práctico Adaptable al Dominio. Tesis de doctorado, Universidad de Sevilla, Sevilla. Das, A. y Bandyopadhyay, S. (2010). Subjectivity Detection using Genetic Algorithm.

En 1st Workshop on Computational Approaches to Subjectivity and Sentiment Anal- ysis, Lisbon.

Denecke, K. (2008). Using SentiWordNet for multilingual sentiment analysis. En Data Engineering Workshop, 2008. ICDEW 2008., páginas 507512. IEEE.

Duric, A. y Song, F. (2011). Feature selection for sentiment analysis based on content and syntax models. En Proceedings of the 2nd Workshop on Computational Ap- proaches to Subjectivity and Sentiment Analysis, ACL-HLT 2011 , páginas 96103, Portland, Oregon.

Efron, B. (1979). Bootstrap methods: another look at the jackknife. The annals of Statistics, 1(1): 26.

Engelbrecht, A. P. (2007). Computational intelligence: an introduction . John Wiley and Sons, Ltd, South Africa, segunda edición.

Friedman, N. y Goldszmidt, M. (1996). Building classiers using bayesian networks. En Proceedings of the national conference on articial intelligence , páginas 12771284, Portland, Oregon.

Fürnkranz, J. (1998). A Study Using n -gram Features for Text Categorization. Austrian Research Institute for Articial Intelligence , 3: 110.

Ginsca, A.-L., Boros, E., Iftene, A., Trandabat, D., Toader, M., Corici, M., Perez, C.- A., y Cristea, D. (2011). Sentimatrix: multilingual sentiment analysis service. En Proceedings of the second Workshop ACL - WASSA, páginas 189195, Alicante.

Go, A., Bhayani, R., y Huang, L. (2009). Twitter sentiment classi- cation using distant supervision. Reporte técnico, CS224N Project Re- port, Stanford, Stanford, California. Recuperado de http://cs.wmich.edu/ tl- lake/leshare/TwitterDistantSupervision09.pdf.

Goldberg, D. E. y Holland, J. H. (1988). Genetic algorithms and machine learning. Machine learning, 3: 9599.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., y Witten, I. (2009). The WEKA data mining software: an update. Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD) Explorations , 11(1): 1018.

Hsu, C.-W., Chang, C.-C., Lin, C.-J., et al. (2003). A practi- calguide to support vector classication. Reporte técnico, Na- tionalTaiwan University, Taipei 106, Taiwan. Recuperado de https://www.cs.sfu.ca/people/Faculty/teaching/726/spring11/svmguide.pdf.

Jo, T. (2010). NTC (NeuralText Categorizer): NeuralNetwork for Text Categorization. International Journal of Information Studies , 2(2): 8396.

Joachims, T. (1998). Text categorization with support vector machines: Learning with many relevant features. En 10th European Conference on Machine Learning , páginas 137142, Chemnitz. Klunstliche Intelligenz.

Keerthi, S. y Lin, C. (2003). Asymptotic behaviors of support vector machines with Gaussian kernel. Neural computation, 15(7): 16671689.

Kim, J., Li, J.-J., y Lee, J.-H. (2010). Evaluating multilanguage comparability of subjectivity analysis systems. En Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics , páginas 595603, Upsala.

Koncz, P. y Paralic, J. (2011). An approach to feature selection for sentiment analysis. En 15th IEEE International Conference on Intelligent Engineering Systems , páginas 357362, Poprad.

Ku£era, H. y Francis, W. N. (1969). Computationalanalysis of present-day American English. International Journal of American Linguistics , 35: 7175.

Lichtblau, D. (2012). Dierential Evolution in Discrete Optimization. International Journal of SwarmIntelligence and Evolutionary Computation , 1: 110.

Liu, B., Hu, M., y Cheng, J. (2005). Opinion observer: analyzing and comparing opinions on the web. En Proceedings of the 14th international conference on World Wide Web, páginas 342351. ACM.

Manning, P., Raghavan, C., y Schütze, H. (2008). An Introduction to Information Retrieval. Cambridge University Press, New York.

Martínez, E., Martín, T., Perea, J., y Ureña, A. (2011). Técnicas de clasicación de opiniones aplicadas a un corpus en español. Procesamiento de Lenguaje Natural , 47(Septiembre): 163170.

Mayeld, E. y Rosé, C. (2012). LightSIDE: text mining and machine learning user manual. Recuperado de http://www.cs.cmu.edu/emayel/LightSIDE.pdf.

Mori, T. (2002). Information gain ratio as term weight: the case of summarization of ir results. En Proceedings of the 19th international conference on Computational Linguistics, páginas 1 7, Morristown, NJ.

O'Keefe, T. y Koprinska, I. (2009). Feature selection and weighting methods in senti- ment analysis. En Proceedings of the fourteenth Australasian Document Computing Simposium, páginas 6781, Sidney.

Onwubolu, G. y Davendra, D. (2009). Dierential Evolution for Permutation Based Combinatorial Problems. Dierential Evolution: A Handbook for Global Permutation-Based Combinatorial Optimization , 175: 1334.

Ortiz, A. M., Pozo, Á. P., y Sánchez, S. T. (2010). Sentitext: sistema de análisis de sentimiento para el español. Procesamiento del Lenguaje Natural , 45: 297298. Padró, L. y Stanilovsky, E. (2012). Freeling 3.0: towards wider multilinguality. En Pro-

ceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA. , Estambul.

Padró, L., Collado, M., Reese, S., Lloberes, M., y Castellón, I. (2010). Freeling 2.1: Five years of open-source language processing tools. En Proceedings of 7th Language Resources and Evaluation Conference (LREC 2010), ELRA, La Valletta.

Pak, A. y Paroubek, P. (2010). Twitter as a corpus for sentiment analysis and opinion mining. En Proceedings of LREC 2010 , páginas 13201326, Paris.

Pang, B. y Lee, L. (2004). A sentimental education: Sentiment analysis using subjec- tivity summarization based on minimum cuts. En ACL '04 Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics , páginas 271 278, Barcelona.

Pang, B. y Lee, L. (2006). Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval , 1(2): 91231.

Platt, J. et al. (1998). Sequential minimal optimization: A fast algorithm for training support vector machines. Reporte técnico, MSR-TR-98-14 Microsoft Research. Ráez, A. M., Cámara, E. M., Valdivia, M. T. M., y López, L. A. U. (2012). Detección

de la polaridad en citas periodísticas: una solución no supervisada. Procesamiento del Lenguaje Natural , 49: 149156.

Rao, D. y Ravichandran, D. (2009). Semi-supervised polarity lexicon induction. En EACL '09 Proceedings of the 12th Conference of the European Chapter of the Asso- ciation for Computational Linguistics , páginas 675682, Atenas.

Riquelme, J., Ridao, M., Camacho, E., y Toro, M. (1997). Using Genetic Algorithm With Variable-length Individuals For Planning Two Manipulators Motion. En Pro- ceedings of the International Conference on Articial Neural Networks and Genetic Algorithms, páginas 2630, Norwich.

Rosá, A. (2011). Identicación de Opiniones de diferentes fuentes en Textos en Es- pañol. Tesis doctoral, Instituto de Computación de la Universidad de la República de Montevideo, Uruguay.

Rosá, A., Wonsever, D., y Minel, J.-L. (2010). Opinion identication in spanish texts. En Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Compu- tational Approaches to Languages of the Americas , páginas 5461.

Storn, R. y Price, K. (1997). Dierential Evolution: A Simple and Ecient Heuristic for Global Optimization over Continuous Spaces. Journal of global Optimization, 11: 341359.

Taboada, M., Brooke, J., y Toloski, M. (2011). Lexicon-based methods for sentiment analysis. Computational linguistics, 37: 267 307.

Wallach, H. (2006). Topic modeling: beyond bag-of-words. En ICML '06 Proceedings of the 23rd international conference on Machine learning , páginas 977984, New York, NY.

Westerski, A. (2007). Sentiment Analysis: Introduction and the State of the Art overview. Reporte técnico, Universidad Politecnica de Madrid, España. Recuperado de http://www.adamwesterski.com/wp- content/les/docsCursos/sentimenta_doc_tlaw.pdf.

Whitelaw, C., Garg, N., y Argamon, S. (2005). Using Appraisal Groups for Sentiment Analysis. En Proceedings of the 14th ACM Conference on Information and Knowledge Management, páginas 625631.

Wilson, T., Wiebe, J., y Homann, P. (2005). Recognizing contextual polarity in phrase-level sentiment analysis. En Proceedings of the conference on Human Lan- guage Technology and Empirical Methods in Natural Language Processing - HLT '05 , páginas 347354, Morristown, NJ.

Wong, K. P. y Dong, Z. (2005). Dierential evolution, an alternative approach to evolutionary algorithm. En Intelligent Systems Application to Power Systems, 2005. Proceedings of the 13th International Conference on , páginas 7383.

Yang, Y. y Pedersen, J. O. (1997). A comparative study on feature selection in text cat- egorization. En Proceedings of the Fourteenth International Conference on Machine Learning (ICML), Vol. 97, páginas 412420, Nashville, Tennessee.

Yuan, H. y He, J. (2010). Evolutionary design of operational amplier using variable- length dierential evolution algorithm. En International Conference on Computer Application and System Modeling (ICCASM), páginas 606610, Taiyuan.

Zhang, T. y Oles, F. (2001). Text categorization based on regularized linear classica- tion methods. Information retrieval , 4(1): 30.

Apéndice A

A.1 Pruebas de desempeño

A continuación se presentan los resultados de las distintas pruebas de desempeño real- izadas con el método de Selección de Características con Evolución Diferencial. Para ello se utilizó la siguiente conguración:

ˆ Lenguaje de programación: Java JDK (versión 7.21) ˆ Plataforma de desarrollo: Eclipse Juno (4.2.2) ˆ Sistema Operativo: Windows 7 64 bits SP1 ˆ Procesador: Intel Core i5 2.67GHz

ˆ Memoria RAM: 6 GB ˆ Modelo: Asus U43F

ˆ Corpus: 300 críticas de cine (150 negativas y 150 positivas) de longitud menor a una cuartilla.