• No results found

The above result can be applied also to other approaches (e.g., based on raw TLA + or LTL), with

Por una parte, suponiendo que un diccionario tiene más nivel cuanto más entradas registra, hemos expuesto en el apartado 4.1.2 que el diccionario del Dr. Kincaid se corres- ponde con un nivel B1-B2 y el Wiktionary se corresponde mejor con el nivel B2; el de FreeLing 1.5 está entre un nivel B2-C1, y el de FreeLing 2.1 y esWordnet están entre un nivel C1-C2. Por otra parte, como el Índice del PCIC no nivela la totalidad del léxico de los textos, vamos a aplicar el criterio de que el hecho de que unos vocablos estén en un glosario pero no en otro, es un indicador de nivel del diccionario y este criterio nos va a servir para poder disponer de más lemas nivelados mediante el método de combinación de diccionarios.

Como manejamos dos conceptos, extensión del glosario y nivel de los vocablos, se ha hecho la comprobación de nivelación de los glosarios, en el primer caso, y la combinación de glosarios, en el segundo. En ambos procesos, se ha tenido como patrón referente de nivel al Índice del PCIC para comprobar las dos hipótesis con los resultados obtenidos. Antes de proceder a comprobar la primera hipótesis, para computar el mayor número de términos de todos los glosarios, tuvimos que procesar, por un lado, los dos diccionarios morfológicos de FreeLing y, por otro, ajustar de nuevo ciertos vocablos del glosario del PCIC que no se procesaban, como participios o adverbios acabados en -mente, y ajustar vocablos a sus lemas (ver apartado 3.1.6). Al hacer la comprobación con los diccionarios de FreeLing, se decidió procesar los vocablos en vez de los lemas. Esta decisión mejoró el procesamiento de los datos con el glosario del PCIC porque, si sólo contrastábamos los lemas de FreeLing y los lemas del PCIC, más de 1.200 términos del PCIC quedaban sin procesar. El nuevo reajuste en el procesamiento de los diccionarios de FreeLing y del glosario del PCIC ha permitido recuperar y autenticar el nivel de unos 1.140 términos, útiles por ser igualmente términos-patrón de nivel de referencia para la identicación de niveles de los lemas de los glosarios y de otros lemas en la combinación entre glosarios.

A continuación, procesamos automáticamente todos los glosarios tomando como re- ferente nivelador el Índice del PCIC. Por un lado, nivelamos los cinco glosarios con el Índice del PCIC como mostramos en el apartado 4.1.2 y en la gura 4.2. Por otro lado, vamos a combinar los cinco glosarios y nivelar los vocablos para utilizar, en subsiguientes nivelaciones, los resultados de las combinaciones de vocablos más productivas junto con los vocablos nivelados con el Índice del PCIC.

Respecto a la primera propuesta de dar un nivel a cada glosario, teniendo como re- ferencia el Índice del PCIC y el de la Dra. Fuensanta López, debemos señalar que, según los datos procesados, el glosario de la Dra. Fuensanta López no es muy signicativo

100 CAPÍTULO 4. ANÁLISIS LÉXICO con respecto a los otros glosarios de manera que lo descartamos en lo que respecta a la combinación para dar un nivel léxico a los lemas de un texto.

Después de procesar todos los glosarios, a excepción del de la Dra. Fuensanta López, los resultados numéricos obtenidos que se plasman en la gura 4.3 conrman nuestra primera hipótesis: el nivel de un glosario es mayor en función del número de términos. Esto se observa al identicar los niveles del PCIC y hallar en qué porcentaje se distribuyen los lemas en cada nivel. Por ejemplo, en el glosario del Dr. Kincaid, un 71,04 % de lemas de nivel A1 están en el PCIC ; contiene además un 44 % de nivel A2 y un 39,59 % de vocablos de nivel B1, mientras que un 28,38 % de vocablos son de nivel de B2, un 17,96 % de nivel C1 y un 5,57 % de nivel C2. En el listado de Wiktionary, respecto al PCIC , contiene un 95,32 % de vocablos de A1, un 83,42 % de nivel A2, un 71,87 % de vocablos de B1, un 56,77 % de vocablos de B2, un 31,48 % de nivel C1 y un 13,56 % de nivel C2.

Como se puede observar en esta misma gura 4.3, tanto el glosario del Dr. Kincaid, el Wiktionary y el FreeLing 1.5 tienen una distribución semejante. Aunque cada glosario es mayor que el anterior, la relación de pertenencia de vocablos a los niveles más altos es similar. Como es de esperar, al aumentar el número de vocablos en Wiktionary (5.208) y FreeLing 1.5 (7.156 lemas) respecto al Kincaid (2.022), también va aumentando el número de vocablos en los niveles más altos. Lógicamente, los glosarios más extensos, FreeLing 2.1 (76.214) y esWordnet (93.425), registran no sólo la mayoría de los vocablos del Dr. Kincaid y FreeLing 1.5 (ver tabla 4.1) sino que contienen la mayoría de los vocablos en todos los niveles identicados en el Índice del PCIC .

Concluimos que nuestro supuesto de que cada glosario tiene un nivel en función de su tamaño es acertado al haber sometido los glosarios a la distribución de los vocablos por niveles del PCIC y al comprobar que el porcentaje de distribución de vocablos por niveles va en aumento. Consecuentemente, su nivel es mayor a medida que el diccionario es más extenso.

También para la segunda hipótesis, proponemos seis combinaciones entre los cinco glosarios. A los glosarios los vamos a identicar con las iniciales Kc para el glosario del Dr. Kincaid, Wk para el listado de Wiktionay, F1 para el diccionario de FreeLing 1.5, F2 para el diccionario de FreeLing 2.1 y Wn para esWordnet.

En la combinación de glosarios el dígito 1 signica que en cierto glosario hay unos vocablos con un nivel determinado, mientras que el dígito 0 indica que en cierto glosario no hay vocablos de dicho glosario.

En una primera aproximación proponemos las siguientes combinaciones y sus niveles: Combinación 11111 = Kc, Wk, F1, F2, Wn; B1 Combinación 01111 = Wk, F1, F2, Wn; B2 Combinación 00111 = F1, F2, Wn; C1 Combinación 00011 = F2,Wn; C1 Combinación 00010 = F2; C2 Combinación 00001 = Wn; C2

Esta propuesta sobre las combinaciones y sus niveles se procesa con el Índice del PCIC como nivel patrón y se obtienen los resultados que se representan grácamente en

4.1. NIVELACIÓN DEL LÉXICO 101

Figura 4.3: Distribución de vocablos por niveles en cada glosario. Los números expresan el porcentaje de palabras del diccionario del PCIC con el nivel correspondiente que tienen los vocablos en cada uno de los diccionarios analizados.

la gura 4.4 y en la gura 4.5.

Al analizar la gura anterior 4.4, comprobamos que se valida la nivelación según el criterio de combinación de diccionarios. En esta gura se representa el número de palabras en función del nivel otorgado por ambos métodos (el criterio de combinación y el criterio del PCIC ). Si el criterio de nivelación por la combinación de diccionarios fuera perfecto, el nivel otorgado sería el mismo que el dado por el PCIC. En ese caso, cada palabra contribuiría a aumentar el valor de la diagonal de esta gráca ya que en esta diagonal se representan las palabras que tienen el mismo nivel por ambos métodos.

Sin embargo, al nivelar mediante nuestra combinación de diccionarios, no todas las palabras aparecen en la diagonal. En la gura 4.4 se observa que el máximo número de palabras sí se sitúa sobre la diagonal salvo un par de excepciones. Las palabras calicadas por el PCIC con un nivel C1 aparecen mayoritariamente en un nivel C2, según la combi- nación de diccionarios, es decir, nuestra combinación sobrevalora la nivelación del PCIC, mientras que las palabras calicadas con un B1, según nuestro criterio de combinación, son calicadas por el PCIC mayoritariamente como nivel B2. Por lo tanto, nuestra nive- lación léxica va a ser un poco inferior en los análisis y se observará en los resultados ya que nos centramos en los niveles B2 y C1 en este estudio. Como en nuestra nivelación no consideramos posibles combinaciones de A1-A2, puesto que no es el objetivo de esta tesis, las columnas de 0 marcan esa ausencia de combinación de diccionarios.

Posteriormente, después de procesar automáticamente los datos, se revelan dos com- binaciones más de interés que no habíamos considerado y que se observan en la gura 4.6. Estas combinaciones son:

102 CAPÍTULO 4. ANÁLISIS LÉXICO

Figura 4.4: Mapa de combinación de diccionarios.

Combinación 01011 = Wk, F2, Wn; C1

En resumen, de todas las posibles combinaciones, en relación al mayor número de vo- cablos calicados con un nivel, destacamos las siguientes por orden de relevancia:

1ª 11111 = Kc, Wk, F1, F2, Wn: B1-B2 2ª 01111 = Wk, F1, F2, Wn: B2 3ª 00111 = F1, F2, Wn: C1 4ª 00011 = F2, Wn: C1 5ª 00010 = F2: C2 6ª 00001 = Wn: C2 7ª 10111 = Kc, F1, F2, Wn: C1 8ª 01011 = Wk, F2, Wn: C1

En la gura 4.6 estas combinaciones de glosarios, limitadas entre líneas paralelas, muestran la distribución de sus vocablos y el nivel predominante en cada combinación. Además, la gura reeja el número de vocablos mediante una gama de colores del negro al blanco para indicar desde ausencia de vocablos sin nivelar, en color negro, hasta alta presencia de vocablos con el nivel más alto, en color blanco.

A continuación, en la tabla 4.2 observamos la similitud de niveles que se obtiene a partir de la combinación propuesta de los diccionarios.

4.1. NIVELACIÓN DEL LÉXICO 103

Figura 4.5: Gráca con varias combinaciones de diccionarios. Se han marcado con líneas horizontales las seis combinaciones elegidas de diccionarios y sus niveles.

- ¾Qué obtenemos de estas combinaciones de glosarios al tomar como referente el glosario del PCIC para darles un nivel?

- Obtenemos la distribución de los vocablos de los glosarios por niveles según los niveles marcados por el Instituto Cervantes.

- ¾Qué aplicación tiene el método de la combinación de diccionarios?

- Podemos nivelar entre un 30 %-40 % más de vocablos en un texto. Es decir, si, por ejemplo, con el glosario del PCIC nivelábamos un 40 %-45 % de lemas, ahora podemos nivelar un 70 %-80 % del léxico de un texto.

# Combinación propuesta Nivel Combinación automática Nivel 1ª- 11111 Kc, Wk, F1, F2, Wn B1-B2 Kc, Wk, F1, F2, Wn B1-B2 2ª- 01111 Wk, F1, F2, Wn B2 Wk, F1, F2, Wn B2 3ª- 00111 F1, F2, Wn C1 F1, F2, Wn C1 4ª- 00011 F2, Wn C1 F2, Wn C1 5ª- 00010 F2 C2 F2 C2 6ª- 00001 Wn C2 Wn C2 7ª- 10111 - - K, F1, F2, Wn C1 8ª- 01011 - - Wk, F2, Wn C1

104 CAPÍTULO 4. ANÁLISIS LÉXICO

Figura 4.6: Gráca con ocho combinaciones procesadas de diccionarios y sus niveles.

4.1.5. Identicación del tipo de vocablo por ubicación en un de-

Related documents