La tercera edición de Senseval se ha desarrollado entre febrero y abril de 2004. El workshop para la presentación, análisis y comparación de los resultados obtenidos por los sistemas de DSA participantes en el ejercicio tuvo lugar el 25 y el 26 de julio de 2004, en el marco de la conferencia ACL de Barcelona.
Tareas. Respecto a las ediciones anteriores, Senseval-3 aportó una serie de novedades, ante todo en cuanto a las tareas. Así, se inauguraron las tareas de adquisición automática de subcategorización, inventario multilingüe de palabras, DSA de glosas de WordNet, papeles semánticos, formas lógicas, que detallamos a continuación.
La tarea de adquisición automática de subcategorización supone la evaluación de los sistemas de DSA en el contexto de este proceso. La tarea se organizó, en inglés, para 30 verbos difíciles, o sea altamente frecuentes y con muchos sentidos, cada verbo con unas 1000 ocurrencias. Las asignaciones de sentido recibidas de parte de los participantes, en términos de synsets de WordNet 1.7.1., se traducen a clases verbales al estilo de Levin, y se introducen, como entrada, en el sistema de adquisición de subcategorización de Anna Korhonen. Los esquemas (frames) así adquiridos se evalúan luego contra un conjunto de esquemas gold standard obtenidas a mano, lo que proporciona la clasificación de los sistemas de DSA.
La tarea multilingüe de inventario limitado de palabras (
en inglés,
multilingual lexical sample) tuvo como objetivo crear un marco para la evaluación de sistemas de Traducción Automática. En vez de usar el inventario de sentidos de un diccionario, se usan las traducciones de las palabras por desambiguar en una segunda lengua. Los contextos son en inglés y las etiquetas de las palabras por desambiguar son sus traducciones a una segunda lengua. Se eligieron palabras con diferentes grados de ambigüedad interlingüe. La tarea se organizó para dos pares de idiomas, inglés y francés, respectivamente inglés e hindi, con aproximadamente cincuenta palabras por desambiguar en cada caso. Los datos se coleccionaron a través de Open Mind Word Expert (edición bilingüe)183.La desambiguación de las glosas de WordNet se desarrolló usando el etiquetado manual de glosas realizado dentro de los proyectos WordNet 2.0 y Extended WordNet184 como corpus de entrenamiento y de prueba. La tarea se concebió como all-words, o sea se debían desambiguar todas las palabras de contenido léxico de las glosas: nombres, adjetivos, verbos, adverbios.
El etiquetado de papeles semánticos se desarrolló en el marco de FrameNet185, que proporcionó también los datos etiquetados a mano que se tomaron como punto de referencia. La tarea se organizó sobre las bases del trabajo de Gildea y Jurafsky (2000), en que se proponen un conjunto de métricas para la evaluación de los sistemas.
La identificación de formas lógicas se organizó sólo para inglés, con el propósito de transformar las oraciones del inglés en una notación de la lógica de primer orden. Las palabras de contenido léxico corresponden a predicados, mientras que las conjunciones, las preposiciones y los argumentos tienen valores sintácticos. Los resultados se evaluaron al nivel de la oración y del predicado, con la ayuda de unas medidas de precisión absoluta y relativa contra un golden standard construido a mano.
Además, el ejercicio Senseval se abrió hacia otras lenguas (como el chino y el rumano) en la tarea de DSA para inventario limitado, mientras que para el italiano se organizó por primera vez la tarea para inventario ilimitado. Como novedad también, por primera vez se coordinaron (parcialmente) las tareas de inventario limitado en varias lenguas; así, se han eligieron diez palabras comunes para el catalán, el español, el inglés, el italiano, el rumano y el vasco.
183
Ver nota 188.
184 Hemos presentados ambas fuentes léxicas en el apartado 3.1.1.3. 185 Ver el apartado 3.1.1.3.
Nuestro principal interés se dirige hacia las tareas “clásicas” de Senseval, de relevancia para la presente tesis, por lo que a continuación nos centramos en la tarea de inventario limitado186. Para el inglés, el ejercicio utilizó como fuentes léxicas de referencia WordNet 1.7.1. (para nombres y adjetivos) y Wordsmyth187 (para los verbos). El corpus etiquetado con sentidos se obtuvo mediante el sistema Open Mind Word Expert188, con un nivel de acuerdo entre los anotadores de 67,3%. La heurística de referencia del sentido más frecuente alcanzó el 55,2% para la granularidad fina y el 64,5% para la granularidad basta. Los resultados de los sistemas participantes, en su gran mayoría, superaron sensiblemente estos niveles. Para los sistemas supervisados, se alcanzó el 72,9% para la granularidad fina y el 79,3% para la granularidad basta, mientras que los sistemas no supervisados obtuvieron una precisión absoluta del 65,7% y del 74,1% respectivamente. Varios sistemas mejor clasificados consistieron en una combinación de clasificadores, lo que confirmó que los sistemas complejos superan a los clasificadores individuales. A la vez, el ejercicio demostró que se pueden obtener sistemas no supervisados de buena fiabilidad (Mihalcea et al., 2004).
Respecto a la edición anterior de Senseval, el progreso de la calidad de los sistemas no supervisados es de 25,6% frente al progreso de 8,7% en el caso de los sistemas supervisados. A la vez, esto significa la reducción drástica de la distancia entre los sistemas supervisados y los sistemas no supervisados, de 24,1% en Senseval-2 a sólo 7,2% en Senseval-3. En nuestra opinión, la evolución comentada indica que el enfoque no supervisado es una línea de investigación con un potencial todavía por explorar, mientras que el enfoque supervisado parece haber encontrado cierto tope. Significativamente, los primeros catorce sistemas supervisados en la clasificación (de los 37 participantes) ocupan un intervalo de sólo 2%.
La organización de la tarea española de inventario limitado puso una atención especial en la preparación de los recursos lingüísticos. El diccionario Minidir 2.1.189 se elaboró específicamente para la tarea de DSA, lo que permitió obtener un alto grado de acuerdo entre los anotadores en el etiquetado del corpus, del 90% para nombres, del 83% para los adjetivos y del 83% para los verbos. Los resultados obtenidos en esta tarea alcanzaron el 84,2% de precisión relativa y absoluta, mucho por encima de la heurística de referencia del sentido más frecuente (67,72%).
En nuestra opinión, las dos conclusiones más importantes de Senseval-3 son, primero, los resultados obtenidos para las tareas del inglés y del español y, segundo, la evolución de estos resultados en la última edición del ejercicio respecto a la edición anterior. Así, en Senseval-3 la precisión alcanzada en el ejercicio para el español (84,2%) supera la precisión obtenida para el inglés (el 72,9% para la granularidad fina y respectivamente el 79,3% para la granularidad basta). El salto cualitativo respecto a Senseval-2 fue de 8,7% para la granularidad fina y respectivamente de 8% para la granularidad basta en la tarea inglesa supervisada, frente a un salto de 13% en la tarea española. Consideramos que estas diferencias evidencian el impacto que la calidad de las fuentes léxicas ha tenido sobre el nivel de la desambiguación en el caso del español190.
El experimento de Màrquez et al. (2004a), posterior a Senseval-3, confirma estas conclusiones, demostrando que efectivamente hay un paralelismo entre, por una parte, el grado de acuerdo entre los anotadores humanos en el etiquetado de un corpus en base a una fuente léxica dada y, por otra parte, la calidad de la desambiguación obtenida por un algoritmo entrenado sobre el mismo corpus etiquetado191. Los autores expresan cierta reserva acerca de la causa real que determina el aumento de precisión en la desambiguación: la mejora cualitativa de la fuente léxica o la reducción de la granularidad. Sin embargo, el análisis de los resultados obtenidos, por una parte en la tarea española de Senseval-2 y de Senseval-3 (71,2% vs. 84,2%) y, por otra parte, en la tarea inglesa de Senseval-2 y 3
186 Para los resultados y las conclusiones de las tareas nuevas introducidas en Senseval-3, consultar Proceedings
of Senseval-3 (2004).
187 http://www.wordsmyth.net/ 188
Open Mind Word Expert es un sistema que permite coleccionar corpora anotados manualmente a través de la red (Chklovsky y Mihalcea, 2002). Se puede accesar al sito: http://teach-computers.org.
189 Ver el capítulo 1.
190 La tarea catalana se ha organizado por el mismo equipo y por lo tanto la metodología para la elaboración del
diccionario y del corpus anotado es igual. El nivel de precisión alcanza el 85,82% (Màrquez, 2004b).
191 En el capítulo 1, hemos remitido a otro experimento parecido en que se comparaba el grado de acuerdo en la
para la granularidad fina frente a la granularidad basta (en Senseval-2, 64,2% vs. 71,3%, y en Senseval-3, 72,9% vs. 79,3%), parece indicar que el aumento cualitativo no se debería sólo a la diferencia de granularidad. En la tarea inglés, la agrupación de los sentidos en WordNet lleva a un aumento cualitativo de un 7-8% para los métodos supervisados. Además, el nivel así alcanzado (79,3%) queda por debajo del nivel de la tarea española (84,2%).