3.3 Penalized Maximum Likelihood Estimation
3.3.1 Computing Penalized Log-Likelihood Density Estimates
La reedición del ejercicio, en Tolouse, 5-6 de julio de 2001, se realizó sobre bases algo diferentes. Esta vez el objetivo era evaluar los problemas de los sistemas de DSA respecto de diferentes tipos de palabras, diferentes variedades de lenguaje y diferentes lenguas. Preiss e Yarowsky (2002) ofrecen una presentación de la competición en su conjunto que seguimos en este apartado. Sintetizamos aquí algunos aspectos relevantes, focalizando las novedades con respecto a la primera edición.
Tareas. Para esta edición se definieron tres tareas: 1) léxico no restringido (en inglés, all-words): etiquetar la mayoría de las palabras de clase abierta de una muestra de texto; 2) inventario limitado de palabras (en inglés, lexical sample): para un pequeño conjunto de palabras seleccionadas, etiquetar varias instancias suyas en breves fragmentos de texto; 3) traducción (en inglés, translation): como en el caso precedente, con la diferencia de que las palabras se definen de acuerdo con su traducción. Lenguas. Uno de los propósitos de esta edición fue promover la participación de nuevas lenguas, con lo cual, los 93 sistemas participantes trataron 12 idiomas. De acuerdo con las tres tareas, la participación de las lenguas fue la siguiente: 1) all-words: checo, holandés, inglés, estoniano; 2) lexical sample: español, inglés, italiano, japonés, coreano, sueco, vasco; 3) traducción: japonés. Datos y fuentes léxicas. Los tipos de datos proporcionados variaron ligeramente frente a Senseval-1: a) un lexicón con correspondencias (en inglés, mappings) entre palabras y sentidos, con la posibilidad de información suplementaria para explicar, definir o distinguir los sentidos (p.ej. WordNet); b) un corpus de texto o muestras de texto etiquetadas a mano, como gold standard, que se podía dividir
180 La entropía es la medida de la incertidumbre sobre lo que un mensaje transmite. Para la interpretación
computacional y para la definición formal de la entropía, consúltese, por ejemplo, (Charniak, 1993: 27-31). La entropía semántica se define en (Melamed, 1997) como una medida de la ambigüedad y de la no informatividad de una palabra, o sea se le ve inversamente proporcional con el contenido de información, con el peso semántico y con la consistencia en la traducción. Melamed propone una medida para su medición basada en las distribuciones de las traducciones de una palabra en un corpus bilingüe paralelo. Sin embargo, según el autor, cuando sólo se dispone de datos monolingües, el logaritmo de la frecuencia en un corpus es un buen indicador para la entropía semántica.
opcionalmente en corpus de entrenamiento y corpus de prueba (en inglés, test); c) una jerarquía o agrupamiento de sentidos (opcionales), para permitir distinciones finas o bastas en el cálculo (en inglés, scoring) de las respuestas. Para la tarea all-words se proporcionó un texto de 5.000 de palabras, con las de clase abierta etiquetadas, y para la tarea lexical sample, un mínimo de 75 + 15n ocurrencias etiquetadas para cada palabra, donde n es el número de sentidos de la palabra. Para la versión inglesa, se eligió una combinación entre el British National Corpus (la edición nueva) con subcorpus limitados del Wall Street Journal para el inglés americano. Una novedad con respecto a la edición anterior, posiblemente la más importante, fue el uso del WordNet 1.7, y del EuroWordNet, en sus versiones castellana, italiana y estoniana, como lexicón de referencia para el inventario de sentidos.
Para cada tarea, los datos se proveyeron en tres etapas: ensayo (en inglés, trial), entrenamiento (en inglés, training) y prueba (en inglés, test). Los equipos tuvieron a disposición veintiún días para trabajar con los datos de entrenamiento y siete con los datos de prueba.
Evaluación. En Senseval-2 se usó la modalidad de evaluación establecida en la edición anterior, con ligeras modificaciones. Así, se aplicó la evaluación de granularidad fina para todos los sistemas. En este caso, los sistemas deben proponer al menos uno de los sentidos del corpus golden standard. Si hubo disponible una jerarquía o un agrupamiento de sentidos, se aplicó también la evaluación de granularidad basta. En esta evaluación, todos los sentidos devueltos como respuesta por el sistema se colapsan al más alto ancestro común o bien al identificador del grupo de sentidos181. Para las jerarquías de sentido, se aplicó además una evaluación de granularidad mixta: se asignan puntos a las respuestas que eligen un sentido relacionado con el sentido requerido182.
Resultados y análisis. El workshop que concluyó el ejercicio se estructuró alrededor de una serie de problemas de la DSA y su evaluación: desambiguación en dominios específicos; el diseño de la tarea para nuevas lenguas en SenseEval; distinciones de sentido; aplicaciones de la DSA; estandardización de los WordNets. Los resultados de Senseval-2, en su conjunto, representan un retroceso frente a Senseval-1, tanto para nombres y adjetivos, en media con un 14% (Kilgarriff, 2002), como para los verbos (Palmer et al., 2002). Los resultados han sido confirmados también para el italiano (Bertagna et al., 2002). Kilgarriff (2001) atribuye el descenso al uso del WordNet: en su elaboración, se ha dado prioridad a la construcción de los synsets frente al análisis coherente de los diferentes significados de una palabra, mientras que la DSA necesita unas distinciones de sentido claras y bien motivadas. Se acordó que esta cuestión debe constituir la base de investigaciones futuras en DSA. Palmer et al. (2002) añaden como causa la cantidad inferior de material de entrenamiento y la dificultad superior de las palabras de test. Sin embargo, a diferencia de lo ocurrido en Senseval-1, para los verbos hubo sistemas que superaron la heurística de referencia más alta, LESK-CORPUS, con un nivel del 70% para las distinciones finas y del 90% para las distinciones bastas. Desde la perspectiva de la variante castellana del ejercicio (Rigau et al., 2002), se señaló la diferenciación de los resultados en función de la clase de la palabra: algunos sistemas etiquetaron mejor para nombres y verbo, otros para adjetivos. A la vez, se propuso incluir un criterio de evaluación sensible al dominio en que se efectúa la desambiguación (en inglés, cross-domain) en las futuras ediciones de Senseval.
Senseval-2 abrió nuevas vías en la investigación, igualmente de la DSA y de la polisemia, en una relación dialéctica. Partiendo de la constatación de que los sistemas basados en aprendizaje supervisado obtienen los mejores resultados, dos focos de interés son el diseño de métodos para la obtención de corpus etiquetados a gran escala y la selección de los atributos en relación con el tipo de polisemia a tratar. Se espera que el análisis del impacto que un conjunto de atributos y algoritmos han tenido sobre la desambiguación de diferentes palabras permita identificar tipos de polisemia. La comparación entre los resultados de las dos ediciones ha puesto de manifiesto la necesidad de identificar unos criterios y una metodología rigurosamente para la elaboración de los inventarios de sentidos que se toman como punto de referencia en la DSA. La cuestión de la discriminación de los sentidos está íntimamente vinculada con el desarrollo de la tarea de la DSA fuera vs. dentro de una aplicación o de un dominio particular, debido a que en este último caso se cuestiona la necesidad de una distinción entre los sentidos y de un módulo separado de DSA.
181 Cf. ELRA Newsletter, 7 (3), 2002.