Example - Estimation of Disaggregated Indicators with Application to the Household Finance and

Para desambiguación de sentidos el trabajo de referencia en el momento de escribir esta tesis esIt Makes Sense[Zhong and Ng, 2010]. Es un sistema para desambiguación de sentidos de palabras en inglés. El sistema puede ser ajustado a las necesidades del usuario, pero originalmente está empaquetado con un clasificador vectorial de soporte lineal con múltiples características basadas en el conocimiento.

McCarthy y Carroll [McCarthy and Carroll, 2003] trabajaron en la desambiguación de sustantivos, verbos y adjetivos utilizando preferencias selectivas adquiridas a partir de texto automáticamente preprocesado y analizado. Las preferencias selectivas se adquieren para relaciones gramaticales (sujeto, objetos directos y sustantivo-adjetivo) que involucran sustantivos y adjetivos o verbos relacionados gramaticalmente. Utilizan synsets de WordNet para definir el inventario de sentidos. Su método explota los enlaces hipónimos que se dan para los sustantivos (por ejemplo,quesoes un hipónimo de comida), los enlaces troponímicos para los verbos (por ejemplo, murmurar es un tropónimo decaminar), y la relación “similar a” dada para los adjetivos (por ejemplo, una sentido debarato es similar a endeble). A partir del documento, no está claro si las preferencias selectivas tienen un impacto positivo en desambiguación de sentidos verbales.

Ye y Baldwin [Ye and Baldwin, 2006] usan preferencias selectivas extraídas con un etiquetador de roles semánticos para desambiguación de sentidos verbales. Su marco de desambiguación de sentidos verbales se basa en tres componentes: la extracción de las características de desambiguación, la selección de las mejores características de desambiguación con respecto a datos nunca antes vistos y la sintonización de los pa- rámetros del aprendedor. Para su estudio utilizan un algoritmo de Máxima Entropía [Berger et al., 1996]. Las características de desambiguación de sentidos verbales que usaron incluyen preferencias selectivas y características sintácticas, por ejemplo, bolsa de palabras, bolsa de etiquetas PoS; características basadas en árboles analizados usando diferentes niveles del árbol como fuente de información; y características sin- tácticas basadas en árboles no analizados, por ejemplo, voz del verbo. Muestran un

mejor rendimiento de su sistema cuando se tienen en cuenta las preferencias seleccti- vas.

Otro trabajo sobre desambiguación de sentidos verbales del inglés es el de Chen y Palmer [Chen and Palmer, 2009], que presenta un sistema amplia cobertura de alto rendimiento de desambiguación de sentidos verbales para el inglés que utiliza características motivadas lingüísticamente y un modelo de aprendizaje de máxima entropía suavizado. Kawahara y Palmer [Kawahara and Palmer, 2014] presentaron un método supervisado para desambiguación de sentidos verbales basado en VerbNet. Contrariamente a los métodos desambiguación de sentidos verbales más comunes, que crean un clasificador para cada verbo que alcanza un umbral de frecuencia, crearon un único clasificador para ser aplicado a verbos raros o no vistos en un texto nuevo. Su clasificador también explota las características semánticas generalizadas de un verbo y sus modificadores para tratar mejor los verbos raros o no vistos.

El trabajo de Sudarikov et al. [Sudarikov et al., 2016] muestra una aplicación di- recta de desambiguación de sentidos verbales en otro campo de estudio. Presentan experimentación en traducción automática usando información de desambiguación de sentidos verbales. Evalúan varias opciones para utilizar los sentidos verbales en el idioma de origen como un factor adicional para el sistema de traducción automá- tica estadística de Moses. Sus resultados muestran una mejora de la calidad de la traducción estadísticamente significativa.

Muchas de las características que se usan para desambiguación de sentidos verbales del inglés no están disponibles para desambiguación de sentidos verbales del español porque las herramientas de preprocesamiento y los corpus anotados están menos desarrollados.

Para desambiguación de sentidos en el español, Màrquez et al. [Màrquez et al., 2007] se enfoca principalmente en desambiguación de sentidos para sustantivos. Utili- zaron un enfoque de tres vías: si la palabra tiene más de un número umbral de ocurrencias, se clasifica con un clasificador SVM; si la palabra tiene menos ocurrencias que el umbral, se le asigna el sentido más frecuente (MFS) en el corpus de capacitación; si la palabra no se presenta en el corpus de capacitación, se le asigna el MFS en WordNet. Las características del clasificador SVM eran una bolsa de palabras, n-gramas de etiquetas pos y lemas parciales del habla, y una etiqueta sintáctica y función sintáctica del constituyente que tiene el sustantivo objetivo como cabeza.

Anther work in WSD with applications in Spanish is the work of Montoyo et al. [Montoyo et al., 2011] where the task of WSD consists in assigning the correct sense to words using an electronic dictionary as the source of word definitions. They present a knowledge-based method and a corpus-based method. In the knowledge-based method the underlying hypothesis is that the higher the similarity between two words, the larger the amount of information shared by two of their concepts. The corpus-based method is based on conditional maximum-entropy models, it was implemented using a supervised learning method that consists of building word-sense classifiers using a semantically annotated corpus. Among the features for the classifier they used word

forms, words in a window, part-of-speech tags and grammatical dependencies. Otro trabajo en desambiguación de sentidos con aplicaciones para el español es el trabajo de Montoyo et al. [Montoyo et al., 2011] donde la tarea de desambiguación de sentidos consiste en asignar el sentido correcto a las palabras utilizando un diccionario electrónico como fuente de definiciones de palabras. Presentan un método basado en el conocimiento y un método basado en el corpus. En el método basado en el conocimiento, la hipótesis subyacente es que cuanto mayor es la similitud entre dos palabras, mayor es la cantidad de información compartida por dos de sus conceptos. El método basado en corpus se basa en modelos de máxima entropía condicional, se implementó utilizando un método de aprendizaje supervisado que consiste en construir clasificadores de sentido de palabra utilizando un corpus semánticamente anotado. Entre las características del clasificador se utilizaron formas de palabras, palabras en una ventana, etiquetas de parte de voz y dependencias gramaticales.

Es notable que las características para desambiguación de sentidos del español son más superficiales que las disponibles para el inglés. En esta tesis exploraremos más combinaciones de características dirigidas específicamente al desambiguación de sentidos verbales del español.

In document Estimation of Disaggregated Indicators with Application to the Household Finance and Consumption Survey (Page 43-48)