CHAPTER 6: APPLICATION OF DECADAL PROJECTIONS TO MANAGEMENT OF THE
6.5 Model Input Data
ma DENISE
Tras llevar a cabo las evaluaciones previas de los diferentes métodos, modelos de clasifi- cación de documentos y algoritmos de extracción de palabras claves, se seleccionaron los siguientes elementos para ser evaluados en profundidad:
• Detección de tema: – Regresión logística. – Perceptrón multicapa. – Clasificador SVM.
• Extracción de palabras claves: algoritmo TextRank con filtros gramaticales que pue- de implementarse en las tres lenguas de trabajo y las lenguas disponibles en las bibliotecas spaCy de Python.
• Representaciones vectoriales de palabras para la desambiguación de significado y tema:
– Modelo Word2Vec: representaciones de palabras basadas en la arquitectura Skip-Gram.
32http://universaldependencies.org/u/pos/
– Modelo FastText: representaciones de palabras basadas en la arquitectura CBOW. – Modelo Sense2Vec: representaciones de palabras con etiquetas gramaticales
basadas en la arquitectura Skip-Gram.
La intención de evaluar tres modelos de representaciones de palabras es comprobar la eficacia que tiene cada modelo. El modelo Word2Vec puede ser considerado un enfoque convencional, ya que en la actualidad se usa con frecuencia en diversas aplicaciones de procesamiento del lenguaje natural. El modelo FastText añade un nivel de procesamien- to adicional, genera vectores tomando en cuenta los componentes de cada elemento del vocabulario. Y, finalmente, el modelo Sense2Vec emplea etiquetas gramaticales para ge- nerar representaciones adicionales para aquellas palabras que son usadas con diferentes funciones gramaticales.
Capítulo 6
EVALUACIONES Y ANÁLISIS
El proceso de evaluación del sistema se divide en dos etapas, una etapa individual donde se evalúa la precisión y exhaustividad de cada modelo de clasificación; y una segunda etapa de evaluación del flujo de trabajo completo del sistema con datos nuevos. Para llevar a cabo la primera etapa de evaluación, emplearemos dos subconjuntos (uno por cada lengua de trabajo) de concordancias obtenidas del OBNEO con NS provenientes de la informática.
En total se obtuvieron 194 concordancias de un total de 5,562 en español y 120 con- cordancias de un total de 3,709 en catalán. En las figuras 6.1 y 6.2 se puede ver el formato de los datos de entrada, estos consisten en una tabla en formato CSV donde cada NS está separado por un tabulador y acompañado de su concordancia. Limitamos la evaluación de los métodos de clasificación y extracción de palabras a catalán y español puesto que no contamos un conjunto de datos paralelo o equivalente en francés. La traducción auto- mática de estas concordancias no resultó en un conjunto de datos viable, puesto que fue posible corroborar que las unidades que son neológicas en catalán y español, también lo sean en francés. Basándonos en este factor de incertidumbre, optamos por descartar el uso de un conjunto de datos en francés generado con traducción automática.
Figura 6.1 – Fragmento del conjunto de datos de prueba en catalán.
Empleando los NS que fueron detectados en cada concordancia, generamos un listado de NS que será usado durante las etapas de evaluación de los procesos de extracción de KW y desambiguación de significado. Estos NS fueron normalizados y lematizados, para comparar si existe una variación de resultados entre lemas y formas.
El presente capítulo se presenta de acuerdo al flujo de proceso del sistema. Comen- zamos analizando la detección automática de lengua empleado Langdetect, en catalán y en español. Posteriormente evaluamos los modelos de clasificación automática seleccio- nados en las tres lenguas de trabajo para justificar la selección de un modelo de regre-
sión logística. Después, procedemos a evaluar nuestra implementación de TextRank para obtener precandidatos a neologismo semántico empleando los conjuntos de datos antes mencionados.
Figura 6.2 – Fragmento del conjunto de datos de prueba en español.
En la siguiente sección comparamos tres modelos de representaciones vectoriales de palabras en catalán y español mediante un problema de clasificación. Utilizamos los lis- tados de neologismos semánticos previamente reconocidos para generar nuevos listados con las palabras más similares (campos semánticos) a cada neologismo. Tratamos cada listado como un documento al que se debe asignar una temática y, para este fin, revisamos manualmente las temáticas asignadas a cada documento, así como los campos semánticos de cada neologismo.
Finalmente, evaluamos la desambiguación de tema empleando nuestra metodología. Nuevamente empleamos el conjunto de datos candidato - concordancia generado a partir de la base de datos del OBNEO. Durante esta etapa mostramos un escenario experimental del funcionamiento de DENISE, para observar los posibles resultados de la implementa- ción de nuestro sistema dentro de un entorno de trabajo.
6.1
Detección automática de lengua
Para evaluar la implementación de Langdetect introdujimos las concordancias de ambas lenguas al módulo, esperando que, a la totalidad de los contextos, se asigne la etiqueta de lengua que le corresponde. Un resultado correcto asigna un valor Verdadero, mientras que un resultado incorrecto asigna un valor Falso, para evaluar este proceso empleamos las siguientes métricas: precisión, exhaustividad, f1-score y soporte.
Precisión Exhaustividad f1-Score Soporte
Catalán 1.0 0.98 0.99 120
Español 1.0 0.97 0.99 194
Tabla 6.1 – Precisión, exhaustividad, f1-score y soporte por lengua de trabajo detectada. El valor obtenido en precisión (ver tabla 6.1) nos indica que la totalidad de los ca- sos fueron evaluados. Por otra parte, la exhaustividad muestra que se obtuvo un total de 98 % de verdaderos positivos en catalán y 97 % de verdaderos positivos en español. En ambos casos los resultados de f1-score fueron iguales a un 99 %. Estas cifras confirman que el total de los casos analizados cuentan con un alto índice de verdaderos positivos evaluados correctamente. Así, estos valores indican que este módulo opcional aporta un
método adecuado para agilizar el trabajo con múltiples fuentes, sin necesidad de asignar una etiqueta de lengua a cada texto.