El programa Lexidisp posibilita el cálculo de las siguientes magnitudes:
a) Índice de disponibilidad, hallado a partir de la fórmula que combina la frecuencia, la dispersión y el lugar que ocupa en la lista cada vocablo (López Chávez y Strassburger, 1991).
b) Frecuencias de aparición de palabras (token). c) Frecuencias de aparición de vocablos (type).
d) Promedios de respuestas globales y estratificados en función de las subespecificaciones de cada una de las variables sociales.
e) Índice de cohesión. f) Densidad léxica.
g) Ordenación por rangos de los valores anteriores según los centros de interés en el conjunto de la muestra.
Consideramos oportuno hacer algunas observaciones. En primer lugar, el cómputo total de las palabras que componen un centro de interés es la extensión de ese texto (N) y la extensión del vocabulario es el número de vocablos que hay en el texto (V)98. Es obvio que el vocablo que presente mayor frecuencia de uso reflejará una frecuencia absoluta sensiblemente proporcional a la extensión del léxico disponible en cada una de las áreas temáticas. En segundo lugar, como apunta Muller (1973: 323), si el análisis léxico cuantitativo tiene por objeto conocer o apreciar a través de la estructura del vocabulario, la del léxico, no puede conceder demasiada importancia a los vocablos de frecuencia 1. Pero es evidente que una extensión amplia del corpus presentará una proporción elevada de vocablos de frecuencia 1, vocablos que pueden tratarse como un elemento estilístico dentro del inventario de cada estímulo. Por último, y siguiendo de nuevo a Muller (1973: 346), analizando la frecuencia de los vocablos, se obtiene el vocabulario característico positivo del área temática en cuestión y el vocabulario característico negativo (menos interesante, menos recurrente) del centro de interés. Para ello hay que fijar el umbral por encima del cual se considerará relevante para las comparaciones interdialectales, pero una investigación de esta índole se enfrenta a ciertos problemas, aún no resueltos (López Chávez, 1992; Samper Padilla, 1999; Bartol, 2000).
98
Evidentemente, V está en función de N. Con los datos del primer informante V = N, pero a medida que va creciendo N con más informantes, no crece en la misma medida V.
Por su parte, y dada la naturaleza de nuestra investigación, el programa SPSS ha hecho posible el cálculo de otros valores matemáticos y estadísticos que muestran el grado de significación de los resultados obtenidos, las correlaciones que pueden establecerse entre todas las variables interrelacionadas, dependientes e independientes, así como el peso específico que determinadas variables sociales tienen en el comportamiento léxico definitivo. Son:
a) Medidas de tendencia central y sus correspondientes desviaciones. El valor de las medidas de tendencia central es doble; de un lado, es un promedio o media aritmética que representa todas las puntuaciones obtenidas por el grupo y, por ello, muestra una descripción concisa del rendimiento del grupo en su totalidad; de otro, nos permite comparar dos o más grupos en términos de rendimiento típico. Por su parte, la desviación (estándar) o fluctuación es un parámetro de dispersión; se trata de un valor útil, puesto que es el índice de variabilidad más estable, y que debe acompañar siempre el establecimiento de las medias aritméticas.
b) Significación de la diferencia entre Medias. Es necesario plantearse la validez significativa que debe concederse a las diferencias entre Medias, puesto que debemos estimar, en virtud de las estadísticas de muestreo, la probabilidad de que exista una diferencia verdadera entre los parámetros. Como señala Muller (1973: 181), es evidente que la diferencia entre dos medias es tanto más significativa cuanto su valor absoluto es más grande, cuanto más débil es la varianza o desviación en cada muestra, y cuanto más grandes sean las muestras. En nuestra opinión, el objetivo de calcular esta significación (o inferencia estadística99) es poder generalizar los valores obtenidos en virtud de la muestra al conjunto de la población.
Las pruebas de comparación de Medias requieren dos condicionantes: la distribución en la curva de Gauss ha de ser normal y la dispersión entre las dos muestras no debe ser demasiado desigual. Existen dos técnicas: la prueba ‘t’ de Student-Fisher para muestras pequeñas100 y solo con dos subespecificaciones de la variable, y la prueba ANOVA (Análisis de varianza) para muestras grandes y con más de dos subespecificaciones (en nuestro caso, nivel sociocultural y lugar de residencia). En nuestro caso, se ha aplicado en todas las comparaciones la prueba ANOVA, método que permite establecer la significación de la diferencia entre Medias derivadas de puntajes independientes.
c) Análisis factorial simple. Se trata de identificar y poner a prueba de significación estadística las varianzas de cada centro de interés con todas las variables sociales.
99
Inferir estadísticamente es derivar conclusiones probabilísticas a partir de premisas probabilísticas (Kerlinger: 1979: 149).
100
d) Análisis de regresión lineal múltiple. Las líneas de regresión poseen propiedades importantes, entre ellas, ayudan a predecir el comportamiento de una variable en función de otra. Este método, muy útil y flexible, analiza las contribuciones de dos o más variables independientes a una variable dependiente.
e) Coeficientes de correlación múltiple101. La correlación muestra la dependencia funcional o estadística entre dos variables, es decir si existe una relación entre unos caracteres y la probabilidad del otro. Se ha calculado el índice de Spearman102, que varía de –1 a +1. Por otra parte, si el valor de ‘p’ es menor o igual de 0.05, los resultados no dejan lugar a dudas, la hipótesis nula debe ser rechazada y existe una correlación estadística fuerte entre ambas magnitudes. Los tests de correlación son tanto más probatorios cuanto más amplios son los conjuntos sobre los que operan. La diferencia con el modelo de regresión múltiple es que añade más de una variable dependiente.
f) Análisis factorial de componentes principales. Como señala Kerlinger (1973: 197), su finalidad básica es ayudar al investigador a descubrir e identificar las dimensiones llamadas factores en los que se fundan muchos valores; por ejemplo, en cuántas dimensiones o factores se basan los inventarios léxicos obtenidos. Puede realizarse el análisis factorial global o solo de aquellas variables que han manifestado diferencias significativas entre Medias.
101
El coeficiente de correlación puede concebirse, esencialmente, como aquella proporción que expresa el punto hasta el cual los cambios de una variable dependen de cambios en otra.
102
Cuando el índice es de +1, existe relación perfecta entre las dos puntuaciones; cuando es –1, las dos clasificaciones son exactamente inversas, y cuanto más próximo esté a 0, más débil será la dependencia.