• No results found

5.3 Deep learning based classifier

5.3.5 Classification

Lexicator es una herramienta automática que hemos diseñado durante la elaboración de esta tesis para identicar los lemas y los niveles de los lemas que aparecen en los textos. Esta herramienta trabaja sobre textos procesados previamente por FreeLing. Por tan- to, funciona con lemas y categorías gramaticales etiquetadas. En un primer paso, Lexicator identica lemas y los compara con lemas que ya están listados en los diccionarios. ¾Qué interés tiene identicar lemas que estén en uno u otro diccionario? Saber que todos los lemas del texto existen. La identicación de un lema en un texto y su correspondencia con un lema en un diccionario es una garantía de la validez formal del vocablo.

En un segundo paso, Lexicator nivela los lemas que coinciden con los lemas nivelados del Índice del PCIC. Aquellos lemas que quedan sin nivelar por el PCIC (entre un 50 %- 60 %) se nivelan ahora, según la pertenencia a una combinación de diccionarios, mediante el módulo Analizator, con una función desarrollada para este proceso de nivelación. Mó-

4.3. HERRAMIENTA DE ANÁLISIS LÉXICO: LEXICATOR 123 dulo que, después de tener nivelado cierto porcentaje de lemas con el Índice del PCIC, vuelve a nivelar después de identicar de nuevo más lemas. Generalmente estos nuevos lemas son adverbios acabados en mente o, incluso, los participios que aparecen en los glosarios.

Detallamos el caso de los adverbios acabados en mente. Como la mayoría de diccio- narios, nuestros glosarios apenas registran adverbios de este tipo ya que regularmente no son entradas en los diccionarios. Por ese motivo, y para identicar el máximo de vocablos de un texto, se ha decidido procesar y evaluar los adverbios acabados en -mente. Efecti- vamente, estos vocablos no se han nivelado durante el segundo paso de Lexicator así que, en un tercer paso, Lexicator disocia el sujo mente y -amente del vocablo y busca un adjetivo o término del que derive dicho adverbio sujado con -mente o -amente. Una vez identicado con un lema, de nuevo, en un segundo paso, dará a dicho adverbio acaba- do en -mente el nivel que tenga el lema que le corresponde. Una vez más, para nivelar en función de la combinación de diccionarios, se busca un lema determinado primero en el Índice del PCIC y, si no está, entonces se recurre de nuevo a la combinación de glosarios del Dr. Kincaid, Wiktionary, FreeLing 1.5, FreeLing 2.1 y esWordnet, que servirán como referentes para dar un nivel de lengua a aquellos vocablos de los que derivan los adverbios acabados en -mente.

Para el caso de los participios, en un principio Lexicator no los reconocía como lemas propiamente sino que, al vincularlos el analizador de FreeLing a sus respectivos lemas verbales, estos participios, sí nivelados en el PCIC, quedaban sin computar, tanto el vocablo como el nivel. Sin embargo, después de los ajustes hechos en el módulo adicional, éste procesa de igual manera para que Lexicator les otorgue un nivel. De forma similar al proceso que se sigue para los adverbios acabados en -mente, en un primer paso, Lexicator identica estos participios en los textos como lemas y, en un segundo paso, les da el nivel del PCIC. Esto ha sido posible, al haber identicado previamente los participios a través de los vocablos o tokens del verbo en el diccionario de FreeLing 2.1.

Por otro lado, este proceso de re-nivelación nos ha permitido calcular los niveles de los multi-vocablos basándonos en los criterios de nivel que exponemos en el apartado 4.1.6. Lexicator otorga automáticamente un nivel de lengua a todos los multi-vocablos ya que éstos no se indexan en el Índice de nociones generales y nociones especícas del PCIC. Es más, este módulo mantiene el nivel otorgado por el Índice del PCIC para aquellos multi-vocablos existentes y nivelados previamente en los inventarios de distintos niveles del PCIC y que hemos registrado y nivelado manualmente en el archivo de locuciones.dat del programa FreeLing.

Una vez nivelados todos los multi-vocablos restantes con nuestros criterios de nivel, se observa que el nivel que se da a varios multi-vocablos en algunas ocasiones coincide con los criterios del PCIC, pero en otras no. Sin embargo, en este último caso, al comparar los resultados de nuestros multi-vocablos nivelados con respecto a la calicación de niveles del PCIC, nuestra herramienta evalúa generalmente un nivel más bajo que el PCIC.

Otros multi-vocablos que no se encuentran en el glosario de locuciones pero que nivela Lexicator son las lexías numéricas y cuanticadoras. Son lexías de interés en el estudio de una segunda lengua (L2) por ello se procesan y computan. Como el analizador de FreeLing, al procesar un texto, las identica y las etiqueta, consideramos que deben puntuar a la

124 CAPÍTULO 4. ANÁLISIS LÉXICO hora de evaluar un texto. Estas lexías, a las que aplicamos los mismos criterios de nivel que los multi-vocablos, quedarían sin calicar si no fuera porque se ha programado a Lexicator para que las nivele con los criterios de nivel en un módulo auxiliar.

Related documents