Las principales limitaciones de los diccionarios convencionales que ya hemos comentado más arriba pueden ser subsanadas con un corpus, y en particular, con un corpus anotado con FFLL. Esta herramienta lexicográfica codifica toda la informa- ción sobre colocaciones que señalamos en la sección anterior.
En Lingüística computacional, los corpus anotados desempeñan un papel cada vez más importante. Permiten un estudio in vivo de los fenómenos lingüísticos y ade- más, sirven de fuente para el desarrollo de recursos de conocimiento léxico. Entre los diferentes tipos de anotaciones, las más extendidas son las etiquetas de clases de pala- bras y de árboles sintácticos, aunque cada vez se lleva más a cabo también la anota- ción del sentido de la palabra. En lo que concierne a la anotación de colocaciones, que
nosotros sepamos, el único corpus es un fragmento del corpus español CLEF 2002 (Peters 2002) que ha sido anotado con funciones léxicas por el equipo del DiCE en el marco de un proyecto de investigación vinculado a la recuperación de la información (Wanner y Alonso 2006).8
La sintaxis de la anotación de un corpus con FFLL es muy simple e intuitiva. Sigue las convenciones estándar XML. Los elementos de la colocación son encerra- dos entre corchetes angulados (< >) con un número; elementos de la misma FL llevan el mismo número. La base es etiquetada con una etiqueta que abre, y el colocativo con una que cierra (el número es precedido por una barra «\»). La etiqueta de colocativo contiene el nombre de la FL en cuestión.
Obsérvese que una unidad léxica puede servir como base de varios colocativos y, además, una unidad léxica puede funcionar simultáneamente en diferentes coloca- ciones como base y como colocativo. El siguiente ejemplo muestra un fragmento del corpus anotado, mencionado anteriormente:
Los casos de corrupción Roldán y Rubio <\1 CausFunc0 provocaron>, a primeros de mayo de 1994, una de las peores <1<2 crisis>> políticas que ha tenido que <\2 Real1 afrontar> el <\1 Cap jefe> del <1 Gobierno>, Felipe González, en sus doce años de gestión, y la poste- rior derrota del PSOE, el 12 de junio, en las elecciones europeas. En el <1 año> que ahora <\1 FinFunc0 concluye>, la estabilidad política y parlamentaria vino marcada por la colabo- ración entre Gobierno y PSOE con Convergencia i Unió y las reuniones de Felipe González y su aliado, el <1 Cap presidente> de la <1 Generalitat> catalana, Jordi Pujol, para asegu- rar la gobernabilidad. La relaciones de Felipe González con sus rivales políticos fueron distantes con José María Aznar e inexistentes con Julio Anguita. Con el <1 Cap presiden- te> del <1 PP>, José María Aznar, se reunió dos veces, una pública en julio, que no se caracterizó por sus <\1 Bon buenos> <1 resultados>, y otra privada, en diciembre, que, a juzgar por las declaraciones de ambos, fue más positiva. Para el Gobierno y su presidente, el año 1994 empezó con una <1 huelga> general, el 27 de enero, que fue <\2 Magn amplia- mente> <2<\1 Real1 seguida>>, aunque sin llegar al nivel histórico del 14 de diciembre de 1988. Tras superar en marzo el listón del Congreso del PSOE con un acuerdo entre reno- vadores y guerristas, Felipe González no pudo, en primavera, <1 Real2 sortear> las <2 Magn graves> <3<2<1 irregularidades>>> <\3 Oper1 cometidas> por el ex <1 Cap director general> de la <1 Guardia Civil> Luis Roldán, por un lado, y por el ex <1 Cap gobernador> del <1 Banco de España> Mariano Rubio, por otro.
8 El proyecto de investigación del que fui colaborador «Optimización de la indexación semántica
por medio de información colocacional» recibió la subvención de la Xunta de Galicia del 2002 al 2004 (PGIDIT02PXIB30501PR).
Es bastante común considerar que las etiquetas de las FFLL son opacas y no fáciles de comprender ni por el lexicógrafo ni por un aprendiz o un usuario ocasional del diccio- nario. Para hacer el significado de las FFLL individuales más explícito, Alonso Ra- mos (este volumen) y Polguère (2000) sugieren el uso de glosas semánticas. Dado que la relación de una FL con su glosa semántica es una relación biunívoca que puede ser tratada por una simple tabla, la sustitución de una etiqueta FL por su glosa en la interfaz del usuario puede ser directa9. De este modo, el usuario no necesita tener en
cuenta la codificación formal de las colocaciones en términos de FFLL. Obsérvese que las glosas codifican la información semántica sobre las colocaciones cuya inclu- sión en un recurso colocacional era reclamada en la sección 1.
Para facilitar el acceso directo de un usuario a la información colocacional en un corpus, hemos construido un índice. Este índice codifica la posición lineal de cada colocación en el corpus (en otras palabras, especifica el número ordinal de los ele- mentos de cada colocación en el corpus, junto con su etiqueta FL). Por medio de tal índice no sólo se puede acceder a los contextos de cada colocación en el corpus, sino también todas las ocurrencias de una FL específica, todos los colocativos de una base dada, todas las bases de un colocativo dado, etc.