General Information about the Group Life Insurance Program Plan Description

Cuando hablamos de corpus, no podemos dejar de hablar de su tamaño. Este término parece estar estrechamente relacionado con la idea de una cantidad de texto de un tamaño limitado, por ejemplo, 100 millones de palabras, que para Gries y Newman (2013: 264-265) es lo suficientemente grande. Sin embargo, estos autores afirman que los corpus de menor tamaño también son aceptables siempre que este se corresponda con el objetivo de la investigación. Los corpus de menor tamaño serían suficientes para analizar un fenómeno relativamente frecuente.

Los corpus a gran escala que persiguen objetivos generales suelen oscilar entre los 100 y los 500 millones de palabras. Actualmente encontramos corpus de varios millones de palabras como son el BNC [http://corpus.byu.edu/bnc/] o el COCA [http://corpus.byu.edu/coca/] del inglés, con 100 y 450 millones de palabras respectivamente, o el Corpus de Referencia del Español Actual elaborado por la Real Academia Española (RAE) [http://corpus.rae.es/], de más de 200 millones, o el Corpus Textual Informatitzat de la Llengua Catalana [http://ctilc.iec.cat/], de 52 millones de palabras. Por otro lado, tenemos los corpus específicos y representativos de un género, que pueden incluir entre 50.000 y 5.000.000 de palabras.

En general, los investigadores defienden el principio de cuanto más texto, mejor. Sampson (2001:6) opina que es necesario disponer de una muestra considerable del lenguaje de uso real para poder asegurar que existe una evidencia adecuada para generar o probar hipótesis sobre la lengua. Del mismo modo, Sinclair (1991, 2005) destaca que un corpus debe contener muchos millones de palabras de modo que pueda mostrar una adecuada

representatividad de la lengua y suficientes ocurrencias de los ítems investigados:

A corpus is a collection of naturally occurring language text, chosen to characterize a state or variety of a language. In modern computational linguistics, a corpus typically contains many millions of words: this is because it is recognized that the creativity of natural language leads to such immense variety of expression that it is difficult to isolate the recurrent patterns that are the clues to the lexical structure of the language. (Sinclair 1991: 171)

Para Sinclair, cuanto más grandes sean los corpus, más posibilidades ofrecen a la hora de elaborar una descripción completa del sistema. Esta consideración atiende al objetivo principal de su investigación, que consiste en publicar diccionarios y gramáticas de carácter genérico. Sin embargo, el tamaño apropiado de un corpus dependerá en gran medida del objeto y la finalidad de la investigación.

Respecto al análisis de ítems específicos, McEnery y Wilson (2001) destacan que cuanta menor sea la frecuencia de una característica, mayor debería ser el corpus. Esto sería aplicable a sustantivos, adjetivos o adverbios, conocidos como content words, que tienden a ser mucho menos frecuentes en cualquier corpus que las palabras gramaticales o function

words. Por el contrario, se pueden utilizar corpus de menor tamaño para investigar las

características más comunes de una lengua, como son los ítems gramaticales (Biber, 1988). Otro factor que influye en el tamaño del corpus está relacionado con el grado de variación interna de la lengua o género que se estudia. Cuanto mayor es la variación, más muestras se requieren para asegurar la representatividad y la validez de los datos (Meyer, 2002). Sin embargo, el tamaño tiene que considerarse en función de la investigación. Para Kennedy (1998), existe el peligro de que una gran cantidad de datos resulten inabarcables para poder trabajar.

Un primer ejemplo de investigación con análisis detallado es el que desarrollaron Carter y McCarthy (1997) y McCarthy (1998) con un corpus de 5 millones de palabras, Cambridge and Nottingham Corpus of Discourse in English (CANCODE), compuesto por registros informales en inglés. A diferencia de otros corpus con un registro más amplio de categorías, CANCODE es un corpus de inglés oral que presenta una variedad refinada de contextos, que son de tipo “transactional”, “professional”, “socializing” e “intimate” (Carter, 2004). A partir de pequeñas muestras de unas mil palabras se podía mostrar la realización lingüística de la competencia estratégica necesaria para mantener relaciones interpersonales. En este caso se basan en datos cualitativos y se persiguen objetivos específicos secundarios relacionados con el comportamiento socio-pragmático, aunque esta investigación se podría llevar a cabo realizando un análisis cuantitativo a gran escala.

En la Universidad de Birmingham, el proyecto que coordinaba John Sinclair, COBUILD, se comprometió a crear y el analizar un corpus de control (monitor corpus). En la actualidad este equipo de investigación se ha disuelto y el corpus pertenece a Collins, que continúa actualizándolo. Este conjunto de textos, o collection of texts según lo denominó el grupo de investigación de Sinclair, es una entidad de carácter abierto; se añaden textos continuamente a esta base de datos llamada Bank of English, que incluye más de 500 millones de palabras.

Los corpus de control resultan interesantes para los lexicógrafos ya que pueden rastrear el flujo de nuevos textos con la finalidad de encontrar neologismos o nuevos significados para palabras ya existentes. Algunas de sus ventajas son que no son estáticos, esto es, siempre se pueden añadir nuevos textos, a diferencia de la imagen sincrónica que proporcionan los corpus limitados y por otro lado, proporcionan una muestra extensa de la lengua. Por otro

lado, su principal desventaja es que no constituyen una fuente fiable de información cuantitativa (frente a la información cualitativa), porque continuamente están cambiando de tamaño y se recogen de forma menos rigurosa que los corpus limitados.

A excepción de los corpus de control, cabe destacar que es más frecuente encontrarnos con corpus con un número limitado de palabras. Normalmente esta cantidad se determina al inicio del proyecto de creación de un corpus. Por ejemplo, el Brown Corpus contiene 1.000.000 de palabras (de texto). A diferencia de un corpus de control, cuando un corpus alcanza su cantidad total de palabras, la recopilación de datos se paraliza y el corpus ya no aumenta de tamaño.

In document VIRGINIA LOTTERY ANNUAL FINANCIAL REPORT. for year ended June 30, 2020 (Page 49-53)