Chapter 2 System Architecture
2.4 Implementation of High Availability
Nuestra propuesta permite ante todo la adquisición de conocimiento léxico, pero es igualmente útil para aplicaciones concretas del PLN, como la recuperación de información, la traducción automática, sistemas de pregunta-respuesta, etc. A continuación, nos centramos en la adquisición de conocimiento léxico, aprovechable dentro de la DSA misma (subapartado 8.3.1.) o bien para el enriquecimiento de las fuentes léxicas (subapartado 8.3.2.).
8.3.1. A través del método propuesto, se puede obtener conocimiento que, en un proceso de feed-back,
nutre la misma tarea de DSA. Nos referimos aquí a patrones etiquetados a nivel de sentido, claves de sentido y ejemplos etiquetados con sentidos.Así, como resultado de la aplicación de nuestro sistema de DSA, se obtienen patrones etiquetados a nivel de sentido, en términos de sentidos y de synsets de EuroWordNet. Por lo tanto, proyectamos la construcción de una base de datos de patrones anotados con sentidos, con el formato siguiente:
Votos por sentido Tipo de patrón (categorías sobre posiciones) Palabra -2 -1 0 +1 +2 Ejemplo (nivel de lema) s1 (02831270n) s2 (03650737n) s3 (05302115n) s4 (0797735 0n) s5 (02604665n) Sentido más votado informe de órgano 100% s2 … N S N … Órgano afectado 12,5% 62,5% 25% s3 … órgano N A …
Figura 8.1. Formato de la base de patrones anotados con sentidos
Vemos útil esta base de patrones para la reutilización de las asignaciones de sentido obtenidas para llevar a cabo futuras desambiguaciones. Obviamente, esta reutilización se hace en base de la hipótesis asumida que hay una tendencia hacia un único sentido por patrón léxico-sintáctico. Como hemos mencionado a lo largo de la presente tesis, en algunos casos la desambiguación mediante el uso de patrones léxico-sintácticos es parcial, o sea se reduce pero no se resuelve por completo la ambigüedad, por lo tanto la explotación de los patrones etiquetados es más bien un pre-etiquetado a nivel de sentido.
Como consecuencia de la anotación de los patrones, hemos proyectado un proceso de adquisición de claves de desambiguación, es decir palabras o expresiones complejas asociadas a los sentidos. Hemos presentado la tipología de estas claves en el apartado 8.1.
Otra consecuencia de la aplicación del método es la generalización de los patrones léxico- sintácticos a clases de palabras. Los patrones generalizados contendrán los hiperónimos de palabras que ocupan cada una de las dos posiciones de contenido léxico dentro de un tipo de patrón fijado. Creemos que de esta manera se reduce el problema de la escasez de datos, en el sentido que se cubren casos no registrados en el corpus. Por otra parte, esta generalización representa una posibilidad de delimitar tipos de patrones léxico-sintácticos en que participan las clases de palabras y de aquí identificar casos de polisemia regular.
Además, debido a que no necesita ningún tipo de intervención humana, nuestro sistema de DSA se puede usar como método para el etiquetado semántico automático de ejemplos para palabras dadas. Estos ejemplos pueden constituir corpus de entrenamiento para los sistemas supervisados (Nica et al., 2003a).
Saliendo de la esfera de la DSA, nos proponemos comprobar la utilidad de la Prueba de Conmutabilidad (en forma débil, cf. apartado 8.1.) para la identificación de colocaciones respecto a las locuciones. En concreto, consideraremos que la existencia de sustitutos (próximos en EWN) de una palabra dentro del patrón indica que se trata de una colocación y no de una estructura fosilizada. La falta de sustitutos nos sugiere que se trata más probablemente de una locución, pero no nos podemos pronunciar de manera segura, sino con reserva debido a la escasez de datos. O sea, es posible que estos sustitutos no aparezcan en el corpus que estamos usando.
8.3.2.
La adquisición de conocimiento que supone la aplicación de nuestro método encuentra unaaplicación en el enriquecimiento de las fuentes léxicas, mediante las siguientes operaciones: incorporación o ampliación de información sintagmática, desambiguación de unidades léxicas (en las definiciones o en los ejemplos asociados a los sentidos), agrupación de los sentidos, establecimiento de correspondencia entre las fuentes léxicas.
Desde la perspectiva de la DSA, EuroWordNet tiene dos grandes limitaciones: la falta de información sintagmática asociada a los sentidos y la excesiva granularidad de los sentidos (cf. apartado 3.1.1.3.). Una aplicación inmediata de nuestra propuesta es el enriquecimiento de EuroWordNet con información sintagmática bajo la forma de patrones léxico-sintácticos etiquetados con sentidos (Nica et al., 2004c). Para la agrupación de los sentidos de EuroWordNet, proponemos la evidencia empírica que resulta de la desambiguación de las palabras dentro de sus diferentes patrones en un corpus amplio. Si a los patrones de una palabra se les asignan de manera sistemática los mismos sentidos diferentes, consideramos que los sentidos se deben unificar en uno solo. En otras palabras, los sentidos que aparecen sistemáticamente en los mismos contextos sintácticos no justifican su separación.
En nuestro trabajo (Nica, 2002b), hemos usado los patrones para la desambiguación de unidades léxicas de un diccionario en formato electrónico. Aunque se trataba de patrones léxico-semánticos de meronimia, el hecho de que la meronimia se exprese predilectamente mediante el patrón [N de-PREP N] hace que estos patrones sean a la vez de tipo sintáctico.
Además, probaremos nuestro método en la tarea de desambiguación de las glosas de WordNet (variante española) inaugurada en Senseval-3. Creemos que el método es idóneo para esta tarea debido a que trabaja sobre el contexto local reducido a patrones léxico-sintácticos.
Como consecuencia directa de la desambiguación de elementos de las fuentes léxicas proponemos el establecimiento de correspondencia entre estas fuentes. Precisamente, mediante la desambiguación de la palabra de entrada en los patrones que aparecen en los ejemplos asociados a los sentidos de la entrada. Debido a que la desambiguación se realiza en términos de synsets de EuroWordNet, el sentido correspondiente estará vinculado, a través de la desambiguación, a un synset de EWN. Siguiendo este procedimiento, se pueden poner en correspondencia cualquiera dos fuentes léxicas que tengan ejemplos asociados a los sentidos.
En la actividad de preparación de Senseval-3, hemos investigado la posibilidad de enriquecer el diccionario allí usado, MiniDir 2.1. En concreto, nos hemos centrado en la ampliación de la lista de colocaciones que el diccionario ofrecía, mediante el uso de los patrones y de la Prueba de Conmutabilidad. Los primeros estudios nos han traído resultados esperanzadores, aunque falta profundizar el procedimiento.