• No results found

Repetition suppression in the different conditions

Se han hecho algunas adaptaciones al listado del Índice del PCIC desde el punto de vista del signicante, siguiendo los criterios del analizador de FreeLing para poder procesar el máximo de palabras. En primer lugar, se han cambiado algunos vocablos a su

3.1. GLOSARIOS 57 forma básica o lema. Esto es, se han lematizado aquellos sustantivos que aparecen en el glosario en plural. Es decir, sustantivos como ahorros, gambas o llaves se cambian a su forma básica ahorro, gamba o llave. También se ha eliminado el pronombre de aquellos verbos listados con la partícula pronominal se en verbos como cargar(se), divorciar(se), etc. Se procesarán como cargar o divorciar. Efectivamente, el hecho de que un verbo sea pronominal, reexivo o no, según su contexto o nivel, cambia el signicado de dicho verbo. Por ejemplo, cargar como noción general de un nivel B2 signica llevar peso y cargarse (algo) como noción general de un nivel C2 signica estropear. Esta distinción semántica, de momento, no podemos diferenciarla con las herramientas que contamos a nivel léxico, pero si se detectaría en el procesamiento de Análisis Semántico Latente.

Por otro lado, aquellos vocablos dobles indexados en el Índice del PCIC como toda- vía no o cubrir gastos los hemos convertido en multi-vocablos, procesando todavía_no como un adverbio y cubrir_gastos (515) como un multi-vocablo verbal procesable en el glosario de locuciones. Sin duda, el programa de FreeLing 2.1 podría procesar realizaciones distintas de locuciones verbales similares que pudieran darse como cubrir ningún gasto, cubrir los gastos o cubrir todos los gastos, pero siempre que se listases previamente.

A continuación, señalamos el número [entre corchetes] de vocablos y casos más sig- nicativos que tuvimos que reajustar o dejar como aparecen en el formato original, y exponemos las razones por las que los adaptamos o permanecen como los lista el Índice de nociones generales y nociones especícas del PCIC.

El Índice del PCIC registra muchos adverbios [127] acabados en mente. Este tipo de vocablo derivado no siempre se suele registrar en los diccionarios. Entre algunos de los adverbios listados, el Índice del PC IC indexa incluso (usual)mente o todavía (no). Estos son vocablos con una grafía imposible de procesar si no se eliminan los paréntesis. Concretamente, para los adverbios que se listan acabados en mente, se ha programado identicarlos, eliminar el sujo mente, procesarlos de nuevo y nivelarlos con su correspondiente adjetivo homónimo.

Adjetivos acabados en able o ible [2] como ensalzable (de ensalzar) e intraga- ble (de tragar), bien transformados en adverbios terminados en mente [2], como increíblemente (de creíble o creer) e incuestionablemente (de cuestionable o cuestionar), o bien derivados de verbos o adjetivos con prejos no se incluyen en la comparación ni nivelación automática. Es decir, no se ha programado que se procesen para relacionarlos con el vocablo raíz o con su adjetivo homónimo en los otros glosarios sino que, al ser un número muy reducido, se ha decidido listarlos manualmente en el glosario de multi-vocablos con el nivel correspondiente que se otorga en el Índice del PCIC.

Los nombres propios [13] como América, África, Asia, Europa, Historia [2], Internet [4], Oceanía, Sabbat y Satanás no los registran los diccionarios de FreeLing aunque sí Wiktionary y esWordnet.

Las siglas [4]: RENFE, IBERIA, DVD, UVI, unas se listan en el PCIC mientras que otras como ADN y TAC están en Wiktionary y esWordnet.

58 CAPÍTULO 3. HERRAMIENTAS Y MATERIALES PARA EL ANÁLISIS Los multi-vocablos [6] análisis_clínicos (nivel C1), anhídrido_carbónico (nivel C2), frenos_ABS (nivel C2), lenguaje_HTML (nivel C2), mueble_bar (nivel C2), franja_horaria (C2) no se procesan con ningún glosario, por ello los hemos incluido en el glosario de locuciones manualmente con su nivel correspondiente. En cuanto a los prejos pos- [2], post- [2], pre- y re-, los sujos -ote y ón, y los vocablos con ajos [15] como preadolescencia, abuelote, involucio- nar, peliculón, rellenito, repatear y rollazo, aunque se identique el lema, la categoría gramatical y su nivel, no se computan tal cual, con sus ajos, al com- pararlos con los demás diccionarios.

Cierto número de nombres y algún verbo [33] quedan también fuera en el proceso de comparación referencial para la identicación de nivel por ser:

- Vocablos cotidianos o familiares [4]: amuermar, curre, encrispado y tapear. - Extranjerismos adaptados [9]: apartotel, bungaló, campin (vs. camping en FreeLing 2.1), chat, chatear, chef, estresar, jacuzzi, márquetin (vs. marketing en FreeLing 2.1).

- Neologismos [3]: deshumidicar, emoticón y cibercafé, que todavía no están registrados en el diccionario de la RAE).

- Vocablos relacionados con el folklore español [3]: aurresku, bailaor y muiñeira (vs. muñeira en FreeLing 2.1).

- Especícos [4]: cognitivismo, entradilla, patronaje y succionar.

- Vocablos compuestos [8]: autolavado , arcoíris, hidromasaje, hipervínculo, pasicorto, teleadicto, telebasura y treintañero.

Comprobamos que ninguno de los otros diccionarios con los que trabajamos registra los vocablos de arriba por las características propias de cada palabra, bien por pertenecer a contextos muy concretos o no ser muy frecuentes. Es más, otra razón por la que se diferencian los vocablos es la grafía especíca adaptada a la lengua gallega como mui- ñeira (nivel C2) o a la castellana como campin (nivel A1) y márquetin (nivel B1). Aunque estos vocablos los registra FreeLing 2.1, aparecen con la grafía castellana, como muñeira, o inglesa, como camping y marketing. Sin embargo, el hecho de que al- gunos vocablos estén registrados por FreeLing 2.1 nos ha dado licencia para incluir en su lemario sólo aquellos vocablos que tenían grafías distintas por estar adaptadas a las normas del castellano.

También hemos adaptado aquellos vocablos que se indexan en el Índice del PCIC como singularia tantum y en los otros glosarios aparecen indexados en pluralia tantum [3] como vacación vs. vacaciones (registrada por FreeLing 2.1 en singular y plural, pero sólo en plural por FreeLing 1.5); pasapuré (registrada por el PCIC y por el Diccionario de la RAE en la 23ª edición junto con pasapurés) vs. pasapurés (registrada por FreeLing 2.1 en plural); nanza vs. nanzas que registra FreeLing 1.5 en singular y plural. Sin embargo, FreeLing 2.1 la registra en plural sólo. Plural que no existe como entrada en el diccionario de la RAE. Así que tanto los vocablos como los lemas se han adaptado y ampliado en los dos diccionarios de FreeLing en función de las entradas propuestas por el Índice del PCIC con el objetivo de nivelar el máximo número de vocablos.

3.1. GLOSARIOS 59 de diferente grafía [2]: postdata vs. posdata (registrada esta última por FreeLing 2.1 y esWordnet, aunque ambas entradas guran en el Diccionario electrónico de la RAE); sándwich (vs. sandwich, registrada por FreeLing 2.1 sin tilde y en el Diccionario elec- trónico de la RAE con tilde); y fríjol vs. frijol. Los tres se han modicado y ampliado en los dos diccionarios de FreeLing ya que FreeLing 1.5 y FreeLing 2.1 los registraban, pero con diferente grafía.

En los casos en que el Índice del PCIC lista la forma exionada de un vocablo [7] con un género o número diferente al que es propio de su lema, se ha modicado en el Índice electrónico implementándolo con un lemario paralelo al listado en el Índice del PCIC en formato papel y siguiendo los criterios de indexación de FreeLing. Por ejemplo, el lema de un adjetivo estará en masculino y singular; y el lema de un nombre, en singular. Se ignora el vocablo y se opta por el lema. Entre los vocablos lematizados destacamos carácter vs. caracteres, arrendador vs. arrendadora, esquí vs. esquíes, fauce vs. fauces, monje vs. monja, solariego vs. solariega, vetusto vs. vetusta.

Otro ajuste realizado con un módulo especíco ha permitido nivelar unos centenares de participios que se registran en el Índice del PCIC pero que no se procesaban. En un principio, estos participios quedaban sin identicar porque los comparábamos con los lemas verbales de los otros diccionarios. Ahora, estos participios han quedado identicados con el lema verbal por haberlos identicado a través de las formas exivas del verbo, como es el participio. Este ajuste ha permitido procesar más vocablos del Índice del PCIC y, en consecuencia, nivelar más lemas de los otros diccionarios.

Una vez realizados todos estos ajustes y creado un Índice del PCIC electrónico y procesable, aún quedan sin procesar 94 vocablos de los listados en el Índice de nociones generales y nociones especícas del PCIC, como describimos más arriba y se observa en la gura 4.4 del capítulo siguiente, por ser palabras especícas, llevar ajos o tener su propia idiosincrasia y no tener referente en otro glosario. Una vez más, el afán por adaptar el máximo número de vocablos tiene como objetivo computar y calicar el mayor número de vocablos de un texto.