CHAPTER 5: MULTI-TASK CLASSIFICATION
5.3 Date classification revisited
A continuación describimos como índices medibles la longitud del multi-vocablo, la diferencia entre el multi-vocablo y el lema, la especicidad del PoS por algún rasgo gra- matical distintivo y, por último, la ubicación del vocablo contenido que forma lexía con un elemento función o preposición dentro de uno u otro tipo de diccionario.
Longitud del multi-vocablo
Siguiendo criterios utilizados por anteriores autores que han realizado trabajos sobre la evaluación de textos para identicar qué texto se adapta mejor a qué lector (Thomas et al., 1992; Graesser et al., 2004), consideramos, en nuestro caso, que la longitud de los multi-vocablos es un criterio importante y distintivo para nivelar los multi-vocablos en el glosario de locuciones. Por ello, diferenciamos fundamentalmente la longitud de aquellos multi-vocablos por el número de vocablos que conforman el multi-vocablo nominal (N), adjetival (A), determinante (D), pronominal (P), verbal (V), adverbial (R), preposicional (SPS00) y conjuntivo (C). Puesto que este criterio es muy productivo y concreto, se desarrolla detalladamente dentro del criterio general de los distintos tipos de categorías gramaticales en el apartado 4.1.6.3.
Diferencia entre el vocablo y el lema
Este criterio matiza más el criterio anterior. El multi-vocablo a veces se diferencia del lema bien porque dentro del multi-vocablo hay algún vocablo que se exiona y entonces su estructura se presenta de forma diferente al lema o bien el multi-vocablo no coincide exactamente con su lema porque se inserta algún signo diacrítico o de puntuación en el multi-vocablo. En los dos primeros casos se puntuará el multi-vocablo por encima de B2 porque la diferencia entre el vocablo y el lema muestra un conocimiento de ciertas estructuras, reglas gramaticales o de cómo se articula una lengua. Es decir, la utilización de tildes o signos de puntuación como la coma o los dos puntos dentro de los multi-vocablos son un indicador de conocimiento de una lengua. Por ejemplo, podemos distinguir el simple adverbio además del conector discursivo adverbial además, al considerar con la coma la posición inicial del marcador en la frase o inserto en ella.
108 CAPÍTULO 4. ANÁLISIS LÉXICO Un ejemplo claro de diferencia entre el multi-vocablo y el lema son las locuciones nu- merales. En los casos en que el multi-vocablo se reere a números cardinales (Z), ordinales (AO0*), fracciones y porcentajes (Zp), partitivos (Zd), distancias, pesos y medidas (Zu) o monedas (Zm), tal multi-vocablo no coincide con el lema. Por ello, otorgamos distintos niveles en función del criterio de diferencia entre el multi-vocablo y lema, y su longitud. Por ejemplo:
Un multi-vocablo distinto del lema cuyo PoS es Z es propio de un nivel A1: vein- titrés.
Un multi-vocablo con un _ guion bajo, distinto del lema, cuyo PoS es Z, es propio de un nivel A2 (Cervantes, 2006, A1-A2: 118): ciento_dos.
Un lema cuyo PoS es Zm es un A2: dos_euros. Un lema cuyo PoS es Zp es un B1: tercio.
Un lema con un _ guion bajo cuyo PoS es Zp es un B1: un_tercio.
Un lema con dos _ _ o más guiones bajos cuyo PoS es Zp_ Partitivo es propio de un nivel B2: un_quinto_de.
La mayoría de este tipo de multi-vocablos numéricos no se encuentra en el glosario de las locuciones que hemos nivelado sino en librerías aparte previamente indexadas por el equipo del Dr. Padró. Estas librerías, insertas dentro del programa FreeLing, se procesan automáticamente y de forma independiente del glosario de multi-vocablos. Este tipo de vocablos son susceptibles de aparecer en los textos que analizamos. No obstante, tanto estos multi-vocablos y sus lemas, que se reeren no sólo a números cardinales y ordinales (Z) sino a fraccionarios como un tercio (Zp), partitivos como un cuarto de (Zd), nomenclaturas monetarias (Zm), fechas (W) o incluso nombres propios, son todos ellos procesables por el módulo Analizator para que los nivele con los criterios establecidos por nosotros arriba.
Especicidad en el PoS
Este índice nos sirve para detallar cierta información y matizar mejor el nivel en lo- cuciones jas adverbiales y preposicionales, incluso algunas nominales, determinantes y adjetivas. Se procesan símbolos que añaden información a los PoS de cada multi-vocablo tales como el guion bajo ( _ ) que separa entre categoría y función, y la barra ( / ) que especica la función. El formato del glosario se congura con la siguiente disposición: el multi-vocablo, el lema, la categoría gramatical, el PoS y su especicidad, n del proceso de FreeLing (I), y, por último, el nivel de referencia, como queda ejemplicado en los siguientes multi-vocablos indexados:
a) en_la_medida_de_lo_posible en_la_medida_de_lo_posible RG_HP/CD/CL I
b) por_ciento_de por_ciento_de SPS_Partitivo I B1 c) lote_de lote_de NCMS000_Partitivo I C1
4.1. NIVELACIÓN DEL LÉXICO 109 d) una_barbaridad_de una_barbaridad_de DI0000_Partitivo I B2
e) sin_otro_particular sin_otro_particular RG_Registro-Epistolar I B2
Gracias a la posibilidad de añadir cierta información funcional, gramatical y nocional- especíca a los multi-vocablos del glosario de locuciones en su PoS, podemos computar información morfo-sintáctico-semántica válida para conocer la estructura sintáctica en un texto y también, en futuras investigaciones, por ejemplo, para identicar qué tipo de marcadores utiliza un determinado tipo de texto.
Aunque en los ejemplos anteriores, referidos a diferentes categorías gramaticales, la mayoría de multi-vocablos ya tiene un nivel prejado, el ejemplo a), por su especicidad en el PoS y por su longitud, tendría un nivel C2. Es decir, el criterio de especicidad fun- cionaría en casos de lemas cortos o largos sin nivelar previamente. Por ello, proponemos el siguiente criterio para evaluar la especicidad del PoS:
PoS con una / tendría como mínimo un nivel B2. PoS con dos / tendría un nivel C1.
PoS con dos / y lema con 3 _ _ _o más sería un C2. Ubicación del vocablo contenido
Los niveles del PCIC son los validados, pero para aquellos vocablos que están sin nivelar, recurrimos a un módulo desarrollado para esta tarea. En este caso dicho módulo va a identicar el nivel de los vocablos dentro de un diccionario determinado, discriminando diccionarios o, lo que es lo mismo, distinguiendo qué vocablo está dentro de un glosario y qué nivel le correspondería a cierto vocablo por estar en un glosario y no en otro dentro de la combinación. De esta forma vamos a identicar, mediante uno u otro diccionario, el nivel de aquellos vocablos que no están nivelados en el Índice de nociones generales y nociones especícas del PCIC .
Este método de nivelación también lo vamos a aplicar a aquella locución adverbial que no esté nivelada por el PCIC y que conste de dos vocablos solamente, y que de los vocablos uno sea, concretamente, una preposición. Por ejemplo, un multi-vocablo de dos términos sin nivel en nuestro glosario de locuciones es en peligro. Otorgaremos automáticamente qué nivel tiene peligro. En este caso no sirve el Índice de nociones generales y nociones especícas del PCIC ya que no está el vocablo peligro, aunque sí peligroso formando una colocación con curva y cruce (Cervantes, 2006, B1-B2: 491). Como en el glosario del Dr. Kincaid sí está este término, peligro tendría como mínimo un nivel B1 o, por su longitud, si lleva una preposición, un máximo de B2. Esto, según el criterio del PCIC de que las locuciones adverbiales son de uso incipientes en el nivel B1 y se sistematizan en el nivel B2 (Cervantes, 2006, B1-B2: 207), nivelaríamos este vocablo con nivel B1 como mínimo pero, al aparecer combinado como multi-vocablo, ascendería a un nivel B2.
Sirva para ilustrar nuestro argumento, el contra-ejemplo del multi-vocablo en auge. Éste se registra con un nivel C1 en el inventario de Nociones especícas (C1-C2) (Cer- vantes, 2006, C1-C2: 515). Por el contrario, el término auge no está listado en el Índice de nociones generales y nociones especícas del PCIC. Comprobamos en los otros glo- sarios que el término auge no está ni en el del Dr. Kincaid ni en FreeLing 1.5, pero sí
110 CAPÍTULO 4. ANÁLISIS LÉXICO en FreeLing 2.1 y en esWordnet, por tanto no puede ser menos de un nivel C1 que, al aparecer combinado, le otorgaríamos manual y automáticamente un nivel C2.
El hecho de que estos multi-vocablos tengan sólo un guion bajo y se nivelen con el criterio de longitud, el multi-vocablo no alcanza un nivel elevado pero sí, como mínimo, puede obtener el nivel que se le otorgue en la combinación de diccionarios. En el caso de las locuciones, este criterio de pertenencia a un glosario y, por tanto, de un nivel asociado a la combinación de glosarios lo vamos a utilizar sólo para aquel multi-vocablo adverbial que únicamente tenga un guion bajo. Principalmente este criterio de nivelación es aplicable para aquellos casos en los que una locución adverbial de dos elementos no tenga un nivel previo dado por el PCIC.
Aplicando este criterio de renamiento de calicación, la recalicación se ha hecho con 964 locuciones que tenían un nivel de A1, A2 y B2. Tras procesarlas, se han elevado de nivel 261 locuciones adverbiales. Sin embargo, este anamiento no ha sido muy productivo porque la segunda parte de la mayoría de locuciones adverbiales contienen vocablos en plural, compuestos, diminutivos o vocablos tan poco frecuentes o inexistentes en nues- tros glosarios como batiburrillo. Por lo tanto, todavía un cierto número de locuciones adverbiales queda infra-nivelada.
En otro tipo de locuciones, como las verbales, podríamos proceder de manera similar en futuros ajustes. Por ejemplo, consideremos una locución registrada y nivelada con el PCIC como poner(se) rojo. Tanto poner como rojo son dos vocablos básicos que juntos, si aplicásemos un futuro criterio de combinación de términos, alcanzarían un nivel máximo de B1 ya que ambos son vocablos de nivel A2 y A1 respectivamente. Sin embargo, el PCIC otorga a me pongo rojo un nivel B2 (Cervantes, 2006, B1-B: 233) y a ponerse rojo de ira/de rabia un nivel C2 (Cervantes, 2006, C1-C2: 468). La expresión me pongo rojo es equivalente a avergonzarse, vocablo/concepto que en el diccionario del PCIC tiene también un nivel B2 (Cervantes, 2006, B1-B2: 452). Con este ejemplo, comprobamos que tanto el multi-vocablo como la noción son ya propios del nivel B2, lo que conrma el criterio expresado más arriba de la sistematización de ciertas locuciones en el nivel B2 (Cervantes, 2006, B1-B2: 207) y de su longitud.
En conclusión, al comprobar en ambos casos que la combinación de dos vocablos básicos, uno contenido y otro funcional, se convierten en una lexía de nivel intermedio B2, observamos que la mayoría de locuciones verbales de este tipo se compone de un verbo comodín, pronominal o no, y que el criterio de ubicación de los vocablos en ciertos diccionarios junto con el criterio de combinación de vocablos para otorgar niveles a los vocablos coincide en muchos casos con el nivel que otorga el PCIC.
Aunque la combinación de vocablos es una aproximación de análisis léxico-sintáctico que no hemos puesto en practica, sí que proponemos computar multi-vocablos cuando éstos aparezcan en los textos con verbos comodín. Tradicionalmente, se ha llamado verbos comodín a ser, haber, hacer, estar, decir, poner, tener, ver (Paredes Chavarría, 2006, 161 y ss.) porque van acompañados de otra categoría gramatical modicando el signicado de ambos. Otros autores los denominan polisémicos e implementan la lista incluyendo dar (Sánchez Lobato, 2006, 204-206). Dentro de este criterio de combinación, no menos interesante es poder computar verbos que combinen sistemáticamente con determinadas preposiciones, es decir, los verbos preposicionales, apartado relevante en la enseñanza de
4.1. NIVELACIÓN DEL LÉXICO 111 E/LE.