Si bien no pretendemos desarrollar de forma exhaustiva la evolución de toda la investigación anterior, consideramos necesario delimitar los conceptos actuales de léxico frecuente, léxico disponible, léxico básico y léxico fundamental. López Morales (1984), al explicar la aparición y desarrollo de este tipo de estudios, señala que contamos con cuatro procedimientos para la medición estadística del léxico existente en una comunidad lingüística (y de habla): diccionarios normativos, frecuencia léxica, léxico básico y disponibilidad léxica. Por nuestra parte, descartamos el diccionario normativo pues constituye un depósito de todo, o casi todo, el caudal léxico de una lengua, y añadimos el concepto reformulado de léxico fundamental.
Entendemos por léxico frecuente el número de casos que se repite un vocablo en una medición o cuantificación36. En el lenguaje corriente, vocablo y palabra suelen utilizarse como términos sinónimos. Para Galisson (1971), la noción de frecuencia está directamente unida a las nociones de utilidad, rentabilidad, e incluso a la de disponibilidad (una palabra es frecuente en cuanto que es rápidamente activada y espontáneamente movilizada); por ello, eran generalmente consideradas como fundamentales (o elementales) al elegir los elementos léxicos que había que enseñar. Este léxico es el más estable en la lengua y los vocablos ocupan los lugares más altos en los diccionarios de frecuencias puesto que aparecen en cualquier contexto comunicativo. En la estadística léxica (cfr. Justicia, 1995), el ‘vocablo’ (type, tipo) es cada una de las unidades que componen el vocabulario; es lo que los lingüistas llaman lexemas. Son las diferentes entradas léxicas que registra un diccionario de frecuencias. Su presencia proporciona información sobre la clase formal a la que pertenecen los lexemas y sobre las categorías gramaticales con que se revisten en el discurso. El término ‘palabra’ (token, figuración) se refiere a todas y cada una de las unidades elementales, perfectamente distinguidas por la tipografía, que integran un texto.
Se entiende por vocabulario disponible el que un hablante puede activar inmediatamente, según las necesidades derivadas de la producción lingüística. Para Pastora (1990: 63) comprende palabras frecuentes y palabras familiares, aunque más
36
Con respecto al español los primeros trabajos fueron los de Rodríguez Bou (1952) y García Hoz (1953). Se trata de trabajos muy valiosos para la época, pero no es fácil un estudio comparativo ya que siguen criterios diferentes. Los diccionarios de frecuencia del español, tradicionalmente, han manejado la frecuencia como medida de selección de palabras. El rango, o dispersión simple, (terminología de Juilland, pero ya utilizado por García Hoz, 1953) se incorpora con el objetivo de neutralizar los peligros de un cálculo en el que no se tenía en cuenta la distribución de las frecuencias en el texto. Mide, por tanto, la distribución de la frecuencia en el total de categorías o subconjuntos en que una palabra aparece.
acertada es la definición de Dubois et alii (1998: 203), para quienes “se denomina vocabulario disponible al conjunto de palabras con una frecuencia baja y poco estable, pero
usuales y útiles, que están a disposición del locutor”. Ya López Morales (1984:62) concluyó
que el vocabulario disponible es el caudal léxico utilizable en una situación comunicativa dada; es decir, el conjunto de unidades léxicas de contenido semántico concreto que sólo se actualiza si lo permite el tema del discurso. Las palabras disponibles son, pues, aquellas que acuden en primer lugar a la memoria, son las más frecuentes e inmediatas al hablar de un tema determinado y reflejan un vocabulario de carácter nocional. Solo las palabras altamente disponibles pertenecerán al vocabulario activo de la población española, mientras que las de escaso grado de disponibilidad pertenecerían la léxico activo de algunos hablantes y al léxico pasivo del resto. Esta variación –variabilidad- hace que el léxico disponible esté compuesto por palabras con distinto grado de estabilidad: las más estables son los verbos, luego los adjetivos y las menos estables son los nombres. Además, esta variación se manifiesta tanto en las producciones de un individuo a otro como en los repertorios de diferentes sintopías, tal como puede comprobarse en el proyecto de variación léxica del español (VARILEX)37 y en las distintas investigaciones realizadas.
Léxico básico o usual es el conjunto de vocablos habitualmente utilizados en las situaciones de comunicación de la vida cotidiana. Este léxico abarca los vocablos más usuales de una comunidad, los cuales se caracterizan por un alto grado de estabilidad - permanencia- que les permite aparecer con mucha frecuencia y en todo tipo de discursos, independientemente de la temática de que se trate. El uso ha sido tomado como criterio estadístico a la hora de selección léxica en muchas investigaciones. La selección definitiva de las palabras que aparecen en los listados de léxicos básicos se hace a través del índice de uso que pondera la dispersión de cada palabra por su frecuencia (U = F x D)38. El uso aumenta, lógicamente, cuando la frecuencia es alta pero también cuando lo es la dispersión. La dispersión o rango está referida a las diferentes áreas o temas en que aparece ese vocablo. La preparación de léxicos básicos ha recibido una atención creciente por parte de pedagogos y lingüistas. El criterio que primeramente se eligió para el establecimiento de estos léxicos fue también el de frecuencia. En este tipo de investigación la selección de una muestra adecuada y exhaustiva es un requisito imprescindible, así como el tamaño de la muestra, el cual está
37
VARILEX. Variación léxica del español en el mundo, proyecto coordinado por los investigadores Hiroto Ueda y Toshihiro Takagaki, de la Universidad de Tokyo. Perido de realización: 1995-2003. A lo largo de estos años se han investigado ya más de 750 conceptos en más de cincuenta ciudades hispanohablantes.
38
La medida de dispersión se calcula de las frecuencias reales de cada palabra ponderadas por la frecuencia relativa de cada mundo respecto al total de ocurrencias, metodología que permite poder discernir entre palabras de la misma frecuencia.
en función del total de palabras que vayan a constituir posteriormente el diccionario39. Los requisitos primordiales de la investigación son:
- sincronía, en el sentido de que sean textos que representan una etapa de la vida de una lengua y que el periodo recopilado sea lo más actual posible;
- exhaustividad, porque una vez seleccionada una fecha determinada, se incluya en ella todo lo publicado sin exclusión de obras que por criterios valorativos subjetivos pudieran parecer inadecuadas;
- homogeneidad del material. Se eliminan las obras que representan lengua estereotipada o artificial (poesía y literatura infantil, devocionarios y textos gramaticales, formularios, catálogos; también las que utilizan lengua dialectal)40. El conjunto léxico o muestra representativa queda constituido por el 15% de todas las obras que constituyan las referencias bibliográficas de la época;
- el cuarto requisito es el de la clasificación. Se subdivide el conjunto general de texto en cinco mundos correspondientes a los cinco géneros tradicionales: drama, narrativa, ensayo, literatura técnica y periodismo. Se considera que la variación en el interior de cada una de estas categorías nunca puede ser superior a la que existe entre ellas mismas41.
El Léxico básico del español de Puerto Rico (L.E.P.R.) es el léxico obtenido por medio de la aplicación de fórmulas de frecuencia, dispersión y uso a una muestra representativa de textos de prosa puertorriqueña. Contiene una selección de palabras que según los métodos estadísticos aplicados, han resultado ser las básicas del español de Puerto Rico. Morales (1986), autora de la obra42, utiliza un modelo teórico inspirado en la metodología ofrecida por Juilland en su colección de léxicos básicos de las lengua románicas, si bien ha implementado y retocado la fórmula empleada por aquél en sus léxicos básicos. Por su parte, Benítez, Hernández y Samper (1995) establecieron las pautas para un proyecto de investigación sobre los léxicos básicos de España (LEBAES) y de Canarias (LEBAICan).
Por último, es tradición en la lingüística actual considerar el léxico fundamental de una lengua como aquel que está formado por el léxico básico y el léxico disponible
39
Los matemáticos lingüistas se quejan de la pobreza numérica de las muestras y demuestran con cálculos estadísticos la falta de representatividad de las mismas.
40
García Hoz (1953) recogió, como una de sus categorías, los boletines oficiales del Gobierno y los eclesiásticos.
41
Los diccionarios que hasta la fecha han utilizado los índices de dispersión de Juilland se han mantenido con el mismo número de cinco mundos.
42
El L.E.P.R. ofrece un listado de 4456 palabras seleccionadas de acuerdo a su índice de uso. Todas ellas tienen un índice de uso igual o mayor de 3.55, una frecuencia igual o mayor de 4, y aparecen, por lo menos, en tres de las cinco categorías presentadas. Las 4456 palabras de este diccionario constituyen el 97.37% del texto analizado de 500.000 palabras.
(López Morales, 1999: 20), pues, mientras los léxicos básicos ofrecen una proporción real del uso de las diferentes clases de palabras, la disponibilidad léxica señala el vocabulario concreto que el hablante podría utilizar en un contexto comunicativo dado. Es decir, los léxicos básicos recogen las clases de palabras más estables en la lengua mientras que los disponibles muestran las palabras más inestables; son, por tanto, criterios complementarios. Por otra parte, si bien es cierto que la frecuencia de uso43 es uno de los parámetros que ha demostrado mayor peso en el procesamiento del lenguaje (cfr. Alameda y Cuetos, 1995), y que los léxicos básicos, como señala Haensch (1982: 159), recogen aproximadamente las cinco mil palabras más usadas en la comunidad estudiada y, además, presentan las palabras más estables y básicas, es obvio que no puede excluirse la aportación del léxico disponible para la determinación del léxico fundamental de cualquier lengua.