Software Application Building Blocks

Chapter 4 Software Architecture

4.1 Software Application Building Blocks

A lo largo del presente trabajo se ha presentado una visión de conjunto del campo de investigación de la desambiguación semántica automática. La DSA es un campo muy activo de la lingüística computacional, con un desarrollo destacable en las últimas dos décadas. Sin embargo, sigue siendo una de las mayores cuestiones no resueltas del PLN. A pesar de la gran variedad de enfoques y propuestas para solucionar la ambigüedad de las palabras a nivel de sentidos, los resultados están muy por debajo de los obtenidos para los demás niveles de análisis del lenguaje, lo que hace que la DSA se halle en un sensible desfase respecto de éstos. Concluimos la presentación con un resumen de los aspectos más relevantes de la problemática relacionada con la DSA y de las principales líneas de investigación actuales.

La dificultad de la tarea de DSA, un tema recurrente en toda la bibliografía, radica en la necesidad de disponer del conocimiento del mundo, del sentido común, etc., para una buena solución. La muy difícil obtención y representación de estos conocimientos explica la diversidad de enfoques y de información usada. Por otra parte, las limitaciones y los pobres resultados de cada una de las aproximaciones han llevado al uso de sistemas híbridos, que tienden a ser la nota dominante en la labor actual en la DSA.

El progreso realizado recientemente en la investigación de DSA y el rápido desarrollo de los métodos para solucionar el problema ha requerido centrar los esfuerzos en la síntesis, evaluación y comparación de los trabajos realizados para establecer el estado de la cuestión, y considerar los pasos futuros necesarios227.

Como esperamos haber puesto de manifiesto, los problemas que todavía quedan por superar son tanto de orden teórico como computacional. Ide y Véronis (1998) identifican en la desambiguación semántica automática, por encima de los problemas metodológicos específicos de los distintos sistemas, tres grandes problemas abiertos: a) el papel del contexto, b) la división de sentidos, y c) la evaluación de la tarea de DSA. Hemos tratado estas cuestiones en apartados o capítulos específicos (3.3., 2.2. y 5, respectivamente).

En relación con la mencionada cuestión de la división de los sentidos, el análisis de los resultados últimamente obtenidos (véase, por ejemplo, Senseval-2) ha reafirmado la necesidad de distinciones de sentido claras y bien motivadas, útiles para la DSA. Senseval-3 lo ha demostrado para el español y el catalán en la tarea “lexical sample”. Así, se da más relieve a la información sintagmática en la delimitación de los sentidos de una palabra (v. 2.2.). El hecho de que el conocimiento útil para la DSA se extraiga predominantemente de las fuentes léxicas existentes ha motivado la tendencia a construir lexicones computacionales o bases de conocimiento léxico adecuadas a las necesidades de la DSA. Una alternativa para solucionar la cuestión del inventario de sentidos usados en la DSA está representada, por ejemplo, en la construcción de redes semánticas dinámicas, a base del análisis de ejemplos, como es el caso de MindNet (v. 3.1.1.3.). Se intenta así evitar establecer divisiones arbitrarias entre los sentidos y tratar casos de sentidos nuevos o palabras desconocidas, para alcanzar una amplia cobertura.

227_{Recordamos aquí los números monográficos de Computational Linguistics. Special Issue on Word Sense}

Disambiguation, 24 (1), 1998227, y de Computers and the Humanities. Special Issue: Evaluating Word Sense

Disambiguation Programs, 34 (1-2), 2000 y de Natural Language Engineering, 8(4), 2002, o los Proceedings of SENSEVAL-2. Second International Workshop on Evaluating Word Sense Disambiguation Systems, ACL, 2001.

Según Màrquez (2002), actualmente se pueden ver como dominantes en la labor de DSA dos líneas de investigación:

1) las aproximaciones basadas en técnicas supervisadas de aprendizaje automático a partir de corpus etiquetados semánticamente;

2) las aproximaciones basadas en el uso de fuentes de conocimiento léxico-semántico preexistentes (DAM, corpus bilingües alineados, ontologías y taxonomías semánticas de tipo WordNet, etc.), en las cuales no se realiza ningún aprendizaje a partir de los ejemplos.

Muchos estudios y experimentos recientes se dirigen hacia las necesidades específicas de cada una de estas dos líneas de investigación.

Las tres ediciones de la competición Senseval han puesto de manifiesto la superioridad de los sistemas de DSA supervisados. Sus resultados sensiblemente mejores hacen que dichos sistemas se vean actualmente como la línea de investigación más fecunda en DSA. De manera implícita, su gran limitación, la dependencia de corpus etiquetados, ha estimulado la investigación para compensar esta carencia (v. 3.1.2.). Tal como ha demostrado la tarea española de Senseval-3, la inversión en la calidad de las fuentes léxicas estructuradas y de aquí en los corpus etiquetados en base a estas fuentes tiene un impacto positivo evidente sobre el nivel de la DSA supervisada. Vemos en esta mejora cualitativa de las fuentes léxicas que se usan para la preparación de la anotación de los corpus de entrenamiento un potencial motor de progreso en la DSA supervisada.

Por otra parte, la edición de Senseval-3 aporta una nueva luz sobre el "equilibrio de fuerzas" entre los métodos supervisados y no supervisados. En la tarea del inglés de inventario limitado, la DSA no supervisada ha registrado un salto cualitativo notable, de casi 25% más que en Senseval-2, reduciendo así la distancia respecto a los sistemas supervisados en un sólo 7%. Con lo cual, consideramos que la DSA no supervisada no ha agotado su potencial y es un terreno fértil, insuficientemente explorado, con la gran ventaja de la independencia de la intervención humana.

La investigación actual está focalizada (cf. Yarowsky, 2000b; Màrquez, 2002) en:

a) explotar otros recursos potenciales para la obtención automática de datos de entrenamiento etiquetados a nivel de sentidos, como corpus bilingües alineados;

b) diseñar métodos para la construcción de muestras de aprendizaje representativas (sampling); c) mejorar la velocidad y la eficiencia de la anotación humana mediante algoritmos de

aprendizaje que guíen de manera dinámica sesiones de etiquetado interactivo, en base a información necesaria y no provista por las fuentes léxicas actuales;

d) desarrollar algoritmos que puedan alimentarse mejor a partir del conocimiento léxico y ontológico presente en fuentes existentes, como diccionarios electrónicos en línea, WordNet, tesauros, u otros algoritmos mínimamente supervisados de conducción sobre corpus no anotados; el uso de técnicas semi-supervisadas permite reestimar iterativamente los parámetros estadísticos de un modelo sin necesidad de disponer de grandes cantidades de datos etiquetados (bootstrapping);

e) usar agrupaciones (clustering) y la inducción de sentidos para aplicaciones (p.ej., RI) que no requieran alineamiento de las particiones de sentidos obtenidas a un inventario de sentidos existente (métodos no supervisados).

Últimamente, la preocupación de construir un marco de referencia para la labor en el área hace que haya una intensa actividad de análisis, con el propósito de obtener generalizaciones, de los varios factores implicados en el proceso de DSA. Así, se han desarrollado diversos experimentos con carácter comparativo que han permitido contrastar técnicas de tipo distinto o de la misma clase, el potencial de las diferentes fuentes y de los diferentes atributos para la desambiguación, categorías de corpus, o han estudiado la colaboración de estos elementos en el desarrollo del proceso.

Respecto de la portabilidad y adaptación (tuning) de los métodos de DSA, dichos experimentos han comprobado que el género y el área temática de los corpus serían dos parámetros a tener en cuenta en los modelos de la DSA. La DSA es muy dependiente del dominio de aplicación, así para asegurar la transferencia de los sistemas es imprescindible la aplicación de algún procedimiento de adaptación a nuevos dominios.

El análisis de la contribución de los factores implicados en el proceso de DSA parece conceder un papel más importante a los atributos frente a los algoritmos, con lo cual los atributos deben ser lo más informativos posible. De hecho, es una opinión cada vez más aceptada en la comunidad de la LC la necesidad de integrar más conocimiento lingüístico en los sistemas de DSA (Manning y Schütze, 1999; Corazzari et al., 2000). La DSA podría beneficiarse de representaciones más ricas de atributos que representen dependencias léxicas, sintácticas, pragmáticas y discursivas más finas. Para ello se requiere mejorar los algoritmos para extraer dicha información de corpus y otras fuentes de conocimiento disponibles. En consecuencia, el progreso futuro en DSA depende ampliamente del progreso paralelo en las demás tareas de análisis textual (Yarowsky, 2000b). Destacamos, a la vez, la preocupación para mejorar y desarrollar metodologías para evaluar la calidad de las fuentes léxicas.

A modo de conclusión, consideramos que se puede hablar hoy de una nueva fase, de madurez, en el área de la DSA, con una natural búsqueda de sistematización. Vemos en esto la nota dominante de los esfuerzos de evaluación, comparación e intentos de llegar a respuestas que nos orienten en la labor futura de DSA. En el polo opuesto, Kilgarriff (1997) lanzaba una mirada indiscreta e irónica hacia el futuro: probablemente los futuros lexicones (application lexicons) estarán más bien orientados hacia una aplicación específica (application-driven) que guiados y condicionados por los recursos disponibles (resource-driven), y por lo tanto la dificultad de la DSA disminuirá.

In document Tmedia TM. System Architecture Description. For Developers of VoIP and TDM Solutions A, Issue 1W5. December 21, 2007 (Page 44-53)