Description of the Thesis - Three-dimensional modelling and inversion of controlled source elec

acceso rápido a cualquier entidad nominal sin importar el tamaño del ´ındice se pueden indexar todas las entidades detectadas, pero, si se desea que el tamaño del ´ındice sea menor y que se puedan resolver las consultas más relevantes, resulta mejor almacenar ´

unicamente a las éntidades que tengan mayor medida de frecuencia en los documentos. Las correferencias se presentan en gran cantidad en los documentos lo que hace que su detección sea potencialmente un gran aporte en el enriquecimiento de la información almacenada en ´ındices de términos. Sin embargo, este aporte depende de la calidad del proceso de detección. Si la detección de correferencias es realizada por un experto esta información es de gran valor, pero si este proceso es realizado mediante otro tipo de técnica es posible que se afecten las medidas de precisión y recuerdo del sistema. El ´ındice de frases parciales que almacena entidades nominales y n-gramas compues-tos por palabras de alta frecuencia y entidades nominales que aparecen en posiciones consecutivas, puede ser utilizado para examinar segmentos de consultas con el fin de reducir tiempos de búsqueda obtenidos mediante la utilizaciión del ´ındice de frases par-ciales tradicional en el proceso de recuperación de información para consultas basadas en frases. Esta reducción de tiempo se ve especialmente reflejada en la resolución de consultas que contienen entidades nominales entre sus términos.

Debido a que los sistemas de recuperación de información para consultas basadas en frases deben recuperar la frase exacta expresada por el usuario, es posible asumir que la consulta es un término. En consecuencia, por medio de la utilización de la medida de frecuencia en el documento de la consulta y la cantidad de términos que contiene cada documento es posible realizar una clasificación jerárquica de documentos adecuada para los resultados obtenidos mediante el proceso de recuperación de información para consultas basadas en frases.

La utilización del sistema de clasificación jerárquica de documentos propuesto junto a un sistema de visualización que permita explorar los documentos y observar las posiciones en las que aparece una consulta basada en frases en cada uno de éllos, puede ser de gran utilidad para asistir al usuario en el proceso de selección de información recuperada.

6.2. Trabajo Futuro

El reconocimiento e indexaci´on de entidades nominales puede utilizarse para tareas de recomendaci´on de consultas al usuario. Este ser´ıa un trabajo complementario que permitir´ıa aprovechar de mejor forma el ´ındice de almacenamiento de entidades pro-puesto.

La resolución de correferencias puede ser empleada en procesos de eliminación de am-biguedad en las consultas, por medio de sugerencias de posibles alternativas a los términos indicados por el usuario y en especial a las entidades nominales.

La utilización de correferencias en sistemas de recuperación de información para con-sultas basadas en frases es bastante prometedor a pesar del rendimiento de los sistemas de resolución actuales. En el futuro estos sistemas pueden llegar a ser de gran utili-dad para el incremento del rendimiento de la medida de recuerdo de los sistemas de recuperación de información, por lo que la realización de mejoras en los sistemas de resolución de correferencias es una tarea a trabajar en el futuro.

El sistema de recuperaci´on de informaci´on presentado se puede extender a otros con-juntos de datos que presenten documentos de diversos dominios.

El sistema de recuperación de información se puede enriquecer mediante información obtenida de ontolog´ıas y diccionarios que permitan obtener nuevas relaciones entre los términos que se encuentran en los documentos con el fin de encontrar mayor cantidad de resultados que den solución a las consultas basadas en frases.

A. Anexo: Modelos de Correferencia

Utilizados por Stanford Core

Stanford CoreNLP es una herramienta compuesta por múltiples modelos que son implemen-tados para la resolución de correferencias. Los modelos son ordenados en forma decremental de acuerdo a la medida de recuerdo (recall) que permiten obtener, con el fin de detectar (o descartar) antecedentes de correferencias. Esta detección de antecedentes se realiza en base a la estructura de las oraciones en el texto y utiliza árboles de análisis sintáctico, ocurrencias de entidades nominales y patrones anotados manualmente para este fin. A continuación se presentan los modelos utilizados por Stanford CoreNLP en el proceso de detección de corre-ferencias los cuales se ejecutan en secuencia (esta información fue extra´ıda de los art´ıculos [34, 45]).

Filtro de detecci´on de Menciones: Permite marcar los pronombres, frases nominales y enti-dades nominales como posibles candidatos a tener una relaci´on de correferencia.

Filtro de procesamiento de discurso: Permite detectar correferencias de discurso entre ha-blantes y pronombres en oraciones que contengan comillas.

Coincidencia exacta: Se˜nala a las menciones que contengan el mismo texto como correferen-tes.

Coincidencia de cadena liberada: Se˜nala que dos menciones son correferentes si tienen coin-cidencia al eliminar el texto que acompa˜na a sus palabras principales.

Construcción precisa: Enlaza a dos menciones si satisfacen las siguientes condiciones: i) se encuentran en una construcción apositiva, ii) son nominales o pronominales y se encuentran en una relación copulativa de sujeto y objeto, iii) la palabra principal del antecedente es un nombre y el antecedente aparece como un modificador en una frase nominal encabezada por la mención actual (en este caso se realiza únicamente si la mención actual es una persona y el género del antecedente no es neutral), iv) son etiquetadas como nombres propios en singular y una mención es acrónimo de la otra.

Coincidencia estricta de palabras principales: Permite detectar si existe correferencia entre dos menciones que poseen la misma palabra principal por medio de las siguientes condicio-nes: i) la palabra principal de la mención coincide con cualquier palabra principal que se encuentre en el grupo del antecedente, ii) el antecedente candidato contiene todas las pa-labras que no sean irrelevantes de la mención, iii) el antecedente candidato contiene a los modificadores de la mención que son nombres o adjetivos iv) las menciones no se encuentran

en una construcci´on i-entre-i [Haghighi and Klein, 2009].

Coincidencia de nombre propio como palabra principal: Detecta correferencia si dos mencio-nes poseen la misma palabra principal, la cual debe ser un nombre propio, y satisfacen las siguientes condiciones: i) no tienen una relación “i entre i”, ii) “sus modificadores no pueden contener diferentes entidades nominales de localización, otros nombres propios ni modifica-dores espaciales”, iii) “la segunda mención no puede tener un número que no aparezca en el antecedente”, iv) la distancia entre un pronombre y su antecedente no debe ser mayor a 3, v) los plurales sin determinante no pueden tener antecedentes correferentes.

Filtro de Alias: Detecta correferencia si los encabezados de dos menciones tienen una rela-ci´on de alias.

Coincidencia de encabezados liberada: Indica que hay correferencia si el encabezado de una menci´on coincide con cualquier palabra del antecedente y ambos son entidades nominales del mismo tipo.

Filtro de cadena léxica: Considera que existe correferencia entre dos menciones nominales si están separadas por menos de cuatro oraciones y “se encuentran enlazadas por una cadena léxica de WordNet de longitud menor a 5 que atraviesa relaciones de hiperonimia o sinoni-mia”.

Correferencia pronominal: En base a los grupos de menciones creados en procesos anteriores ´este filtro permite detectar correferencia pronominal en menciones tienen concordancia en los atributos de n´umero, persona, animacidad y etiqueta de entidad nominal.

Bibliograf´ıa

[1] Apache Lucene Core. http://lucene.apache.org/core/

[2] Stanford CoreNLP. http://nlp.stanford.edu/software/corenlp.shtml

[3] Stanford NLP Named Entity Recognition Results.

http://nlp.stanford.edu/projects/project-ner.shtml

[4] Proceedings of CoNLL-2003. http://www.clips.ua.ac.be/conll2003/ner/. 2003

[5] The ACE 2005 (ACE05) evaluation plan. http://www.nist.gov/speech/tests/ace/ace05/doc/ace05-evalplan.v3.pdf. 2005.

[6] _{Ahh, D.: The stages of event extractionThe stages of event extraction. En:} COLING-ACL 2006 Workshop on Annotating and Reasoning about Time and Events, 2006 [7] _{Baeza-Yates, Ricardo ; Ribeiro-Neto, Berthier: Modern Information Retrieval.}

Harlow : Addison Wesley, 1999

[8] _{Bagga, Amit ; Baldwin, Breck: Algorithms for Scoring Coreference Chains. En:} The First International Conference on Language Resources and Evaluation Workshop on Linguistics Coreference, 1998.

[9] _{Bahle, D. ; Williams, H.E. ; Zobel, Justin: Efficient Phrase Querying with an} Au-xiliary Index. En: Proceedings of the 25th annual international conference on Research and development in information retrieval SIGIR ’02, 2002, p. 215–221

[10] BORTHWICK, A: A Maximum Entropy Approach to Named Entity Recognition, New York University, Tesis de Grado, 1999

[11] Budi, Indra ; Bressan, Stephane: Association Rules Mining for Name Entity Recog-nition. En: Proceedings of the 6Fourth International Conference on Web Information Systems Engineering, 2003

[12] Cardie, C. ; Wagsta, K. Noun phrase coreference as clustering. 1999

[13] Chieu, Hai L. ; Ng, Hwee T.: Named Entity Recognition with a Maximum Entropy Approach. En: In Proceedings of the Seventh Conference on Natural Language Learning (CoNLL-2003, 2003, p. 160–163

[14] Clark, Alexander: Combining distributional and morphological information for part of speech induction. En: Proceedings of the Conference of the European Chapter of the Association for Computational Linguistics, 2003., p. 59–66

[15] van Deemter, Kees ; Kibble, Rodger: On coreferring: coreference in MUC and related annotation schemes. En: Comput. Linguist. 26 (2000), Dezember, p. 629–637. – ISSN 0891–2017

[16] Doddington, George ; Mitchell, Alexis ; Przybocki, Mark ; Ramshaw, Lance ; Strassel, Stephanie ; Weischedel, Ralph: The Automatic Content Extraction (ACE) Program Tasks, Data, and Evaluation. En: Proceedings of LREC 2004, 2004, p. 837–84

[17] Ekbal, A. ; Haque, R. ; Bandyopadhyay, S: Named Entity Recognition in Bengali: A Conditional Random Field Approach. En: IJCNLP 2008, 2008, p. 589–594

[18] Elango, P: Coreference resolution: a survey / University of Wisconsin, Madison. 2005. – Informe de Investigaci´on

[19] Evans, Richard: A Framework for Named Entity Recognition in the Open Domain. En: Recent Advances in Natural Language Processing, 2003

[20] Feldman, Ronen ; Sanger, James: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, Dezember 2006. – ISBN 0521836573

[21] Fellinghaug, A: Phrase searching in text indexes, Norwegian University of Science and Technology, Tesis de Grado, 2008

[22] Finkel, Jenny R. ; Grenager, Trond ; Manning, Christopher: Incorporating non-local information into information extraction systems by gibbs sampling. En: In ACL, 2005, p. 363–370

[23] Fu, Guohong ; Luke, Kang-Kwong: Chinese named entity recognition using lexicalized HMMs. En: Proceedings of the SIGKDD, 2005

[24] G. Simoes, H. G. ; Coheur., L.: Information extraction tasks: a survey. En: INForum 2009, 2009

[25] Ge, Niye ; Hale, John ; Charniak, Eugene: A statistical approach to anaphora resolution. En: Proceedings of the Sixth Workshop on Very Large Corpora, 1998, p. 161–171

Bibliograf´ıa 71

[26] Guo, Jiafeng ; Xu, Gu ; Cheng, Xueqi ; Li, Hang: Named entity recognition in query. En: Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, 2009

[27] Gutwin, Carl. ; Paynter, Gordon. ; Witten, Ian. ; Nevill-Manning, Craig. ; Frank, Eibe.: Improving browsing in digital libraries with keyphrase indexes. En: Decision Support Systems 27, 1-2 (1998), p. 81–104

[28] Hatcher, Erik ; Gospodnetic, Otis ; McCandless, Mike: Lucene in Action. 2nd revised edition. Manning, 8 2010. – ISBN 9781933988177

[29] In: Hobbs, J: Resolving pronoun references. San Francisco, CA, USA : Morgan Kauf-mann Publishers Inc., 1986, p. 339–352. – ISBN 0–934613–11–7

[30] Jansen, B. ; Pooch, U.: A review of web searching studies and a framework for future research. En: Journal of the American Society for Information Science and Technology 52 (2001), p. 235–246

[31] Kaiser, Katharina ; Miksch, Silvia: Information extraction. A survey / Vienna University of Technology, Institute of Software Technology and Interactive Systems. 2005. – Informe de Investigaci´on

[32] Klein, D. ; Manning, C.: Accurate Unlexicalized Parsing. En: ACL 2003, 2003 [33] Klein, D. ; Manning, C.: Fast Exact Inference with a Factored Model for Natural

Language Parsing. En: Fast Exact Inference with a Factored Model for Natural Language Parsing, 2003

[34] Lee, Heeyoung ; Peirsman, Yves ; Chang, Angel ; Chambers, Nathanael ; Sur-deanu, Mihai ; Jurafsky, Dan: Stanford’s Multi-Pass Sieve Coreference Resolution System at the CoNLL-2011 Shared Task. En: Proceedings of the CoNLL-2011 Shared Task, 2011

[35] Lin, Xu-Dong ; Peng, Hong ; Liu, Bo: Chinese Named Entity Recognition using Support Vector Machines. En: International Conference on Machine Learning and Cy-bernetics, 2006

[36] Luo, Xiaoqiang: On coreference resolution performance metrics. En: Proceedings of Hu-man Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, 2005.

[37] Manning, Christopher D. ; Raghavan, Prabhakar ; Schtze, Hinrich: Introduction to Information Retrieval. New York, NY, USA : Cambridge University Press, 2008. – ISBN 0521865719, 9780521865715

[38] Mansouri, Alireza ; Affendey, Lilly S. ; Mamat, Ali: A New Fuzzy Support Vec-tor Machine Method for Named Entity Recognition. En: International Conference on Computer Science and Information Technology, 2008

[39] Mitkov, Ruslan: Robust pronoun resolution with limited knowledge. En: Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 2. Stroudsburg, PA, USA : Association for Computational Linguistics, 1998 (ACL ’98), p. 869–875

[40] Mitkov, Ruslan ; Sb, Wolverhampton W.: Anaphora Resolution: The State Of The Art. 1999. – Informe de Investigaci´on

[41] Nadeau, David ; Sekine, Satoshi: A survey of named entity recognition and classi-fication. En: Lingvisticae Investigationes 30 (2007), Januar, Nr. 1, p. 3–26. – ISSN 0378–4169

[42] Nadeau, David ; Turney, P ; Matwin, S.: Unsupervised Named Entity Recognition: Generating Gazetteers and Resolving Ambiguity. En: Canadian Conference on Artificial Intelligence, 2006

[43] Pradhan, Sameer ; Ramshaw, Lance ; Mitchell Marcus, Martha P. ; Weische-del, Ralph ; Xue, Nianwen: CoNLL-2011 Shared Task: Modeling Unrestricted Core-ference in OntoNotes. En: Proceedings of the Fifteenth ConCore-ference on Computational Natural Language Learning (CoNLL 2011), 2011

[44] Pradhan, Sameer S. ; Hovy, Eduard H. ; Marcus, Mitch ; Palmer, Martha ; Rams-haw, Lance A. ; Weischedel, Ralph M.: OntoNotes: A Unified Relational Semantic Representation. En: International Journal of Semantic Computing 1 (2007), p. 405–419 [45] Raghunathan, Karthik ; Lee, Heeyoung ; Rangarajan, Sudarshan ; Chambers, Nathanael ; Surdeanu, Mihai ; Jurafsky, Dan ; Manning, Christopher: A Multi-Pass Sieve for Coreference Resolution. En: Proceedings of EMNLP 2010, 2010

[46] Ramshaw, L ; Weischedel, R: Information extraction. En: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005

[47] Recasens, Marta ; Hovy, Eduard: Blanc: Implementing the rand index for coreference evaluation. En: Natural Language Engineering 3 (2010), p. 1–26

[48] Recasens, Marta ; Mart´ı, M. A. ; Taul´e, Mariona: Where anaphora and coreference meet. Annotation in the Spanish CESS-ECE corpus. En: Proceedings of RANLP 2007 [49] Riloff, Ellen ; Jones, R: Learning Dictionaries for Information Extraction using

Bibliograf´ıa 73

[50] Robertson, Stephen: Understanding inverse document frequency: On theoretical ar-guments for IDF. En: Journal of Documentation 60 (2004), p. 503–520

[51] Shinyama, Y ; Sekine, S: Named Entity Discovery Using Comparable News Articles. En: International Conference on Computational Linguistics, 2004

[52] Soon, Wee M. ; Ng, Hwee T. ; Lim, Daniel Chung Y.: A machine learning approach to coreference resolution of noun phrases. En: Comput. Linguist. 27 (2001), Dezember, p. 521–544. – ISSN 0891–2017

[53] Spink, A ; Wolfram, D. ; Jansen, B. J. ; Saracevic, T.: Searching the web: The public and their queries. En: Jour. of the American Society for Information Science 52 (2001), p. 226–234

[54] Todorovic, B. ; Rancic, S. ; Markovic, I. ; Mulalic, E.H. ; Ilic, V.: Named Entity Recognition and Classification using Context Hidden Markov Model. En: 9th Symposium on Neural Network Applications in Electrical Engineering, 2008

[55] Vilain, M. ; Burger, J. ; Aberdeen, J. ; Connolly, D. ; Hirschman, L.: A model theoretic coreference scoring scheme. En: Proceedings of the Sixth Message Undersatn-ding Conference (MUC-6), 1995, p. 45–52

[56] Wagstaff, K. L.: Intelligent Clustering with Instance-Level Constraints, Cornell Uni-versity, Tesis de Grado, August 2002

[57] Williams, H. E. ; Zobel, J. ; Anderson, P.: What’s next? index structures for eficient phrase querying. En: Australasian Database Conference, 1999

[58] Williams, Hugh E. ; Zobel, Justin ; Bahle, Dirk: Fast phrase querying with com-bined indexes. En: ACM Trans. Inf. Syst. 22 (2004), October, p. 573–594. – ISSN 1046–8188

[59] Wu, Ho C. ; Robert, Wing Pong L. ; Wong, Kam F. ; Kwok, Kui L.: Interpreting TF-IDF term weights as making relevance decisions. En: ACM Transactions on Information Systems (TOIS) Volume 26 Issue 3 (2008), p. 1–37

[60] Yin, Xiaoxin ; Shah, Sarthak: Building taxonomy of web search intents for name entity queries. En: Proceedings of the 19th international conference on World wide web, 2010

In document Three-dimensional modelling and inversion of controlled source electromagnetic data (Page 31-33)