acceso r´apido a cualquier entidad nominal sin importar el tama˜no del ´ındice se pueden indexar todas las entidades detectadas, pero, si se desea que el tama˜no del ´ındice sea menor y que se puedan resolver las consultas m´as relevantes, resulta mejor almacenar ´
unicamente a las ´entidades que tengan mayor medida de frecuencia en los documentos. Las correferencias se presentan en gran cantidad en los documentos lo que hace que su detecci´on sea potencialmente un gran aporte en el enriquecimiento de la informaci´on almacenada en ´ındices de t´erminos. Sin embargo, este aporte depende de la calidad del proceso de detecci´on. Si la detecci´on de correferencias es realizada por un experto esta informaci´on es de gran valor, pero si este proceso es realizado mediante otro tipo de t´ecnica es posible que se afecten las medidas de precisi´on y recuerdo del sistema. El ´ındice de frases parciales que almacena entidades nominales y n-gramas compues-tos por palabras de alta frecuencia y entidades nominales que aparecen en posiciones consecutivas, puede ser utilizado para examinar segmentos de consultas con el fin de reducir tiempos de b´usqueda obtenidos mediante la utilizacii´on del ´ındice de frases par-ciales tradicional en el proceso de recuperaci´on de informaci´on para consultas basadas en frases. Esta reducci´on de tiempo se ve especialmente reflejada en la resoluci´on de consultas que contienen entidades nominales entre sus t´erminos.
Debido a que los sistemas de recuperaci´on de informaci´on para consultas basadas en frases deben recuperar la frase exacta expresada por el usuario, es posible asumir que la consulta es un t´ermino. En consecuencia, por medio de la utilizaci´on de la medida de frecuencia en el documento de la consulta y la cantidad de t´erminos que contiene cada documento es posible realizar una clasificaci´on jer´arquica de documentos adecuada para los resultados obtenidos mediante el proceso de recuperaci´on de informaci´on para consultas basadas en frases.
La utilizaci´on del sistema de clasificaci´on jer´arquica de documentos propuesto junto a un sistema de visualizaci´on que permita explorar los documentos y observar las posiciones en las que aparece una consulta basada en frases en cada uno de ´ellos, puede ser de gran utilidad para asistir al usuario en el proceso de selecci´on de informaci´on recuperada.
6.2. Trabajo Futuro
El reconocimiento e indexaci´on de entidades nominales puede utilizarse para tareas de recomendaci´on de consultas al usuario. Este ser´ıa un trabajo complementario que permitir´ıa aprovechar de mejor forma el ´ındice de almacenamiento de entidades pro-puesto.
La resoluci´on de correferencias puede ser empleada en procesos de eliminaci´on de am-biguedad en las consultas, por medio de sugerencias de posibles alternativas a los t´erminos indicados por el usuario y en especial a las entidades nominales.
La utilizaci´on de correferencias en sistemas de recuperaci´on de informaci´on para con-sultas basadas en frases es bastante prometedor a pesar del rendimiento de los sistemas de resoluci´on actuales. En el futuro estos sistemas pueden llegar a ser de gran utili-dad para el incremento del rendimiento de la medida de recuerdo de los sistemas de recuperaci´on de informaci´on, por lo que la realizaci´on de mejoras en los sistemas de resoluci´on de correferencias es una tarea a trabajar en el futuro.
El sistema de recuperaci´on de informaci´on presentado se puede extender a otros con-juntos de datos que presenten documentos de diversos dominios.
El sistema de recuperaci´on de informaci´on se puede enriquecer mediante informaci´on obtenida de ontolog´ıas y diccionarios que permitan obtener nuevas relaciones entre los t´erminos que se encuentran en los documentos con el fin de encontrar mayor cantidad de resultados que den soluci´on a las consultas basadas en frases.
A. Anexo: Modelos de Correferencia
Utilizados por Stanford Core
Stanford CoreNLP es una herramienta compuesta por m´ultiples modelos que son implemen-tados para la resoluci´on de correferencias. Los modelos son ordenados en forma decremental de acuerdo a la medida de recuerdo (recall) que permiten obtener, con el fin de detectar (o descartar) antecedentes de correferencias. Esta detecci´on de antecedentes se realiza en base a la estructura de las oraciones en el texto y utiliza ´arboles de an´alisis sint´actico, ocurrencias de entidades nominales y patrones anotados manualmente para este fin. A continuaci´on se presentan los modelos utilizados por Stanford CoreNLP en el proceso de detecci´on de corre-ferencias los cuales se ejecutan en secuencia (esta informaci´on fue extra´ıda de los art´ıculos [34, 45]).
Filtro de detecci´on de Menciones: Permite marcar los pronombres, frases nominales y enti-dades nominales como posibles candidatos a tener una relaci´on de correferencia.
Filtro de procesamiento de discurso: Permite detectar correferencias de discurso entre ha-blantes y pronombres en oraciones que contengan comillas.
Coincidencia exacta: Se˜nala a las menciones que contengan el mismo texto como correferen-tes.
Coincidencia de cadena liberada: Se˜nala que dos menciones son correferentes si tienen coin-cidencia al eliminar el texto que acompa˜na a sus palabras principales.
Construcci´on precisa: Enlaza a dos menciones si satisfacen las siguientes condiciones: i) se encuentran en una construcci´on apositiva, ii) son nominales o pronominales y se encuentran en una relaci´on copulativa de sujeto y objeto, iii) la palabra principal del antecedente es un nombre y el antecedente aparece como un modificador en una frase nominal encabezada por la menci´on actual (en este caso se realiza ´unicamente si la menci´on actual es una persona y el g´enero del antecedente no es neutral), iv) son etiquetadas como nombres propios en singular y una menci´on es acr´onimo de la otra.
Coincidencia estricta de palabras principales: Permite detectar si existe correferencia entre dos menciones que poseen la misma palabra principal por medio de las siguientes condicio-nes: i) la palabra principal de la menci´on coincide con cualquier palabra principal que se encuentre en el grupo del antecedente, ii) el antecedente candidato contiene todas las pa-labras que no sean irrelevantes de la menci´on, iii) el antecedente candidato contiene a los modificadores de la menci´on que son nombres o adjetivos iv) las menciones no se encuentran
en una construcci´on i-entre-i [Haghighi and Klein, 2009].
Coincidencia de nombre propio como palabra principal: Detecta correferencia si dos mencio-nes poseen la misma palabra principal, la cual debe ser un nombre propio, y satisfacen las siguientes condiciones: i) no tienen una relaci´on “i entre i”, ii) “sus modificadores no pueden contener diferentes entidades nominales de localizaci´on, otros nombres propios ni modifica-dores espaciales”, iii) “la segunda menci´on no puede tener un n´umero que no aparezca en el antecedente”, iv) la distancia entre un pronombre y su antecedente no debe ser mayor a 3, v) los plurales sin determinante no pueden tener antecedentes correferentes.
Filtro de Alias: Detecta correferencia si los encabezados de dos menciones tienen una rela-ci´on de alias.
Coincidencia de encabezados liberada: Indica que hay correferencia si el encabezado de una menci´on coincide con cualquier palabra del antecedente y ambos son entidades nominales del mismo tipo.
Filtro de cadena l´exica: Considera que existe correferencia entre dos menciones nominales si est´an separadas por menos de cuatro oraciones y “se encuentran enlazadas por una cadena l´exica de WordNet de longitud menor a 5 que atraviesa relaciones de hiperonimia o sinoni-mia”.
Correferencia pronominal: En base a los grupos de menciones creados en procesos anteriores ´este filtro permite detectar correferencia pronominal en menciones tienen concordancia en los atributos de n´umero, persona, animacidad y etiqueta de entidad nominal.
Bibliograf´ıa
[1] Apache Lucene Core. http://lucene.apache.org/core/
[2] Stanford CoreNLP. http://nlp.stanford.edu/software/corenlp.shtml
[3] Stanford NLP Named Entity Recognition Results.
http://nlp.stanford.edu/projects/project-ner.shtml
[4] Proceedings of CoNLL-2003. http://www.clips.ua.ac.be/conll2003/ner/. 2003
[5] The ACE 2005 (ACE05) evaluation plan. http://www.nist.gov/speech/tests/ace/ace05/doc/ace05-evalplan.v3.pdf. 2005.
[6] Ahh, D.: The stages of event extractionThe stages of event extraction. En: COLING-ACL 2006 Workshop on Annotating and Reasoning about Time and Events, 2006 [7] Baeza-Yates, Ricardo ; Ribeiro-Neto, Berthier: Modern Information Retrieval.
Harlow : Addison Wesley, 1999
[8] Bagga, Amit ; Baldwin, Breck: Algorithms for Scoring Coreference Chains. En: The First International Conference on Language Resources and Evaluation Workshop on Linguistics Coreference, 1998.
[9] Bahle, D. ; Williams, H.E. ; Zobel, Justin: Efficient Phrase Querying with an Au-xiliary Index. En: Proceedings of the 25th annual international conference on Research and development in information retrieval SIGIR ’02, 2002, p. 215–221
[10] BORTHWICK, A: A Maximum Entropy Approach to Named Entity Recognition, New York University, Tesis de Grado, 1999
[11] Budi, Indra ; Bressan, Stephane: Association Rules Mining for Name Entity Recog-nition. En: Proceedings of the 6Fourth International Conference on Web Information Systems Engineering, 2003
[12] Cardie, C. ; Wagsta, K. Noun phrase coreference as clustering. 1999
[13] Chieu, Hai L. ; Ng, Hwee T.: Named Entity Recognition with a Maximum Entropy Approach. En: In Proceedings of the Seventh Conference on Natural Language Learning (CoNLL-2003, 2003, p. 160–163
[14] Clark, Alexander: Combining distributional and morphological information for part of speech induction. En: Proceedings of the Conference of the European Chapter of the Association for Computational Linguistics, 2003., p. 59–66
[15] van Deemter, Kees ; Kibble, Rodger: On coreferring: coreference in MUC and related annotation schemes. En: Comput. Linguist. 26 (2000), Dezember, p. 629–637. – ISSN 0891–2017
[16] Doddington, George ; Mitchell, Alexis ; Przybocki, Mark ; Ramshaw, Lance ; Strassel, Stephanie ; Weischedel, Ralph: The Automatic Content Extraction (ACE) Program Tasks, Data, and Evaluation. En: Proceedings of LREC 2004, 2004, p. 837–84
[17] Ekbal, A. ; Haque, R. ; Bandyopadhyay, S: Named Entity Recognition in Bengali: A Conditional Random Field Approach. En: IJCNLP 2008, 2008, p. 589–594
[18] Elango, P: Coreference resolution: a survey / University of Wisconsin, Madison. 2005. – Informe de Investigaci´on
[19] Evans, Richard: A Framework for Named Entity Recognition in the Open Domain. En: Recent Advances in Natural Language Processing, 2003
[20] Feldman, Ronen ; Sanger, James: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, Dezember 2006. – ISBN 0521836573
[21] Fellinghaug, A: Phrase searching in text indexes, Norwegian University of Science and Technology, Tesis de Grado, 2008
[22] Finkel, Jenny R. ; Grenager, Trond ; Manning, Christopher: Incorporating non-local information into information extraction systems by gibbs sampling. En: In ACL, 2005, p. 363–370
[23] Fu, Guohong ; Luke, Kang-Kwong: Chinese named entity recognition using lexicalized HMMs. En: Proceedings of the SIGKDD, 2005
[24] G. Simoes, H. G. ; Coheur., L.: Information extraction tasks: a survey. En: INForum 2009, 2009
[25] Ge, Niye ; Hale, John ; Charniak, Eugene: A statistical approach to anaphora resolution. En: Proceedings of the Sixth Workshop on Very Large Corpora, 1998, p. 161–171
Bibliograf´ıa 71
[26] Guo, Jiafeng ; Xu, Gu ; Cheng, Xueqi ; Li, Hang: Named entity recognition in query. En: Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, 2009
[27] Gutwin, Carl. ; Paynter, Gordon. ; Witten, Ian. ; Nevill-Manning, Craig. ; Frank, Eibe.: Improving browsing in digital libraries with keyphrase indexes. En: Decision Support Systems 27, 1-2 (1998), p. 81–104
[28] Hatcher, Erik ; Gospodnetic, Otis ; McCandless, Mike: Lucene in Action. 2nd revised edition. Manning, 8 2010. – ISBN 9781933988177
[29] In: Hobbs, J: Resolving pronoun references. San Francisco, CA, USA : Morgan Kauf-mann Publishers Inc., 1986, p. 339–352. – ISBN 0–934613–11–7
[30] Jansen, B. ; Pooch, U.: A review of web searching studies and a framework for future research. En: Journal of the American Society for Information Science and Technology 52 (2001), p. 235–246
[31] Kaiser, Katharina ; Miksch, Silvia: Information extraction. A survey / Vienna University of Technology, Institute of Software Technology and Interactive Systems. 2005. – Informe de Investigaci´on
[32] Klein, D. ; Manning, C.: Accurate Unlexicalized Parsing. En: ACL 2003, 2003 [33] Klein, D. ; Manning, C.: Fast Exact Inference with a Factored Model for Natural
Language Parsing. En: Fast Exact Inference with a Factored Model for Natural Language Parsing, 2003
[34] Lee, Heeyoung ; Peirsman, Yves ; Chang, Angel ; Chambers, Nathanael ; Sur-deanu, Mihai ; Jurafsky, Dan: Stanford’s Multi-Pass Sieve Coreference Resolution System at the CoNLL-2011 Shared Task. En: Proceedings of the CoNLL-2011 Shared Task, 2011
[35] Lin, Xu-Dong ; Peng, Hong ; Liu, Bo: Chinese Named Entity Recognition using Support Vector Machines. En: International Conference on Machine Learning and Cy-bernetics, 2006
[36] Luo, Xiaoqiang: On coreference resolution performance metrics. En: Proceedings of Hu-man Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, 2005.
[37] Manning, Christopher D. ; Raghavan, Prabhakar ; Schtze, Hinrich: Introduction to Information Retrieval. New York, NY, USA : Cambridge University Press, 2008. – ISBN 0521865719, 9780521865715
[38] Mansouri, Alireza ; Affendey, Lilly S. ; Mamat, Ali: A New Fuzzy Support Vec-tor Machine Method for Named Entity Recognition. En: International Conference on Computer Science and Information Technology, 2008
[39] Mitkov, Ruslan: Robust pronoun resolution with limited knowledge. En: Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 2. Stroudsburg, PA, USA : Association for Computational Linguistics, 1998 (ACL ’98), p. 869–875
[40] Mitkov, Ruslan ; Sb, Wolverhampton W.: Anaphora Resolution: The State Of The Art. 1999. – Informe de Investigaci´on
[41] Nadeau, David ; Sekine, Satoshi: A survey of named entity recognition and classi-fication. En: Lingvisticae Investigationes 30 (2007), Januar, Nr. 1, p. 3–26. – ISSN 0378–4169
[42] Nadeau, David ; Turney, P ; Matwin, S.: Unsupervised Named Entity Recognition: Generating Gazetteers and Resolving Ambiguity. En: Canadian Conference on Artificial Intelligence, 2006
[43] Pradhan, Sameer ; Ramshaw, Lance ; Mitchell Marcus, Martha P. ; Weische-del, Ralph ; Xue, Nianwen: CoNLL-2011 Shared Task: Modeling Unrestricted Core-ference in OntoNotes. En: Proceedings of the Fifteenth ConCore-ference on Computational Natural Language Learning (CoNLL 2011), 2011
[44] Pradhan, Sameer S. ; Hovy, Eduard H. ; Marcus, Mitch ; Palmer, Martha ; Rams-haw, Lance A. ; Weischedel, Ralph M.: OntoNotes: A Unified Relational Semantic Representation. En: International Journal of Semantic Computing 1 (2007), p. 405–419 [45] Raghunathan, Karthik ; Lee, Heeyoung ; Rangarajan, Sudarshan ; Chambers, Nathanael ; Surdeanu, Mihai ; Jurafsky, Dan ; Manning, Christopher: A Multi-Pass Sieve for Coreference Resolution. En: Proceedings of EMNLP 2010, 2010
[46] Ramshaw, L ; Weischedel, R: Information extraction. En: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005
[47] Recasens, Marta ; Hovy, Eduard: Blanc: Implementing the rand index for coreference evaluation. En: Natural Language Engineering 3 (2010), p. 1–26
[48] Recasens, Marta ; Mart´ı, M. A. ; Taul´e, Mariona: Where anaphora and coreference meet. Annotation in the Spanish CESS-ECE corpus. En: Proceedings of RANLP 2007 [49] Riloff, Ellen ; Jones, R: Learning Dictionaries for Information Extraction using
Bibliograf´ıa 73
[50] Robertson, Stephen: Understanding inverse document frequency: On theoretical ar-guments for IDF. En: Journal of Documentation 60 (2004), p. 503–520
[51] Shinyama, Y ; Sekine, S: Named Entity Discovery Using Comparable News Articles. En: International Conference on Computational Linguistics, 2004
[52] Soon, Wee M. ; Ng, Hwee T. ; Lim, Daniel Chung Y.: A machine learning approach to coreference resolution of noun phrases. En: Comput. Linguist. 27 (2001), Dezember, p. 521–544. – ISSN 0891–2017
[53] Spink, A ; Wolfram, D. ; Jansen, B. J. ; Saracevic, T.: Searching the web: The public and their queries. En: Jour. of the American Society for Information Science 52 (2001), p. 226–234
[54] Todorovic, B. ; Rancic, S. ; Markovic, I. ; Mulalic, E.H. ; Ilic, V.: Named Entity Recognition and Classification using Context Hidden Markov Model. En: 9th Symposium on Neural Network Applications in Electrical Engineering, 2008
[55] Vilain, M. ; Burger, J. ; Aberdeen, J. ; Connolly, D. ; Hirschman, L.: A model theoretic coreference scoring scheme. En: Proceedings of the Sixth Message Undersatn-ding Conference (MUC-6), 1995, p. 45–52
[56] Wagstaff, K. L.: Intelligent Clustering with Instance-Level Constraints, Cornell Uni-versity, Tesis de Grado, August 2002
[57] Williams, H. E. ; Zobel, J. ; Anderson, P.: What’s next? index structures for eficient phrase querying. En: Australasian Database Conference, 1999
[58] Williams, Hugh E. ; Zobel, Justin ; Bahle, Dirk: Fast phrase querying with com-bined indexes. En: ACM Trans. Inf. Syst. 22 (2004), October, p. 573–594. – ISSN 1046–8188
[59] Wu, Ho C. ; Robert, Wing Pong L. ; Wong, Kam F. ; Kwok, Kui L.: Interpreting TF-IDF term weights as making relevance decisions. En: ACM Transactions on Information Systems (TOIS) Volume 26 Issue 3 (2008), p. 1–37
[60] Yin, Xiaoxin ; Shah, Sarthak: Building taxonomy of web search intents for name entity queries. En: Proceedings of the 19th international conference on World wide web, 2010