Capítulo_8.2011.pdf

(1)

Cap. VIII Datos Categóricos 106

Capítulo

VIII

Análisis de datos categóricos

... ...

Objetivo del

Capítulo

(2)

8.1 Introducción

Consideramos a los métodos estadísticos no paramétricos como aquellos que no requieren conocimientos de ningún parámetro de la población.

Existen situaciones en algunos problemas cuando las variables que intervienen no necesariamente son variables intervalares; en algunos casos pueden ser variables nominales o variables ordinales. Y en el caso de que exista asociación lineal entre las variables dependientes e independientes, pero del tipo mencionado con anterioridad, no resulta conveniente aplicar el coeficiente de correlación de Pearson, si no cumplen las condiciones y requisitos de uso que requiere en este caso el citado coeficiente. Entonces se podrá usar el coeficiente de Spearman (rs), el cual es un caso particular del coeficiente de Pearson (rxy).

La expresión datos categóricos se refiere al tipo de datos obtenidos al medir variables utilizando una escala de medida nominal o de escala ordinal con pocos niveles, estos tipos de variables abundan en las investigaciones sociales y/o psicológicas. En una investigación clínica se pueden encontrar variables como el tipo de trastorno psicológico (neurosis, esquizofrenia, ansiedad, depresión, etc), o se puede clasificar a los pacientes como tratados y no tratados, recuperados y no recuperados. En una investigación social se puede clasificar a los sujetos de acuerdo con las actitudes u opiniones que manifiestan hacia un objeto en particular (desde muy de acuerdo, hasta muy en desacuerdo)

Estudiaremos el análisis para:

1. Dos variables que pueden ser intervalares pero que no cumplen los supuestos básicos de pruebas paramétricas vistas en el capítulo anterior, o también es el caso que las dos variables sean ordinales (r de Spearman)

2. Una variable: proporciones y bondad de ajuste (prueba Binomial y Chi cuadrado)

3. Dos variables: tablas de contingencia bidimensionales (Chi cuadrada de Pearson, medidas de asociación para datos ordinales y nominales).

4. Múltiples variables: MODELOS LOGLINEALES JERÁRQUICOS, Modelos LOGIT

En este capítulo estudiaremos el caso 1, 2 y 3, el nº 4 queda para estadística inferencial

8.2 Análisis de datos categóricos con dos variables relacionadas o también dos variables intervalares que no cumplen los requisitos que exigen las pruebas paramétricas

Coeficiente de correlación por rangos de Spearman

Este coeficiente de correlación se utiliza cuando una o ambas escalas de medidas son ordinales, ejemplo: una variable es el orden de llegada en una carrera y la otra la estatura de los corredores. Es especialmente útil en el caso de ser pequeño (menor de 30) el número de pares de puntajes “n” que se desea asociar. Cuando el número de dichos pares es muy grande, por el teorema del límite central, la condición de normalidad se minimiza, y el modelo que se emplea es uno paramétrico.

También, cuando los puntajes se jerarquizan (o se ponen en correspondencia biunívoca con el conjunto de números ordinales) se prevén muchos “empates”, esto es que en el ordenamiento varios puntajes tendrán el mismo número ordinal. Si estás dos situaciones ocurrieran, lo más conveniente es utilizar el coeficiente de correlación de Pearson.

Pero si el número de puntajes que se desean correlacionar fuera n < 30, y los empates son pocos entonces se puede trabajar con el coeficiente de Spearman.

El coeficiente de correlación por rangos (rs) se calcula aplicando la siguiente fórmula:

Para el cálculo de (rs) es necesario obtener la diferencia “d” entre los rangos, y si una de las escalas no es ordinal, entonces se asigna rango a las puntuaciones.

Además de obtener el grado de asociación entre dos variables con rs, se puede saber acerca de la dependencia o independencia de dos variables aleatorias, como sigue:

Prueba bilateral:

H0 : La variable x y la variable y son mutuamente independientes.

Ha : i) Cuándo existe la tendencia de que los valores altos de x sean pareados con los valores altos de y.

ii) Cuando existe la tendencia de que los valores bajos (o pequeños) de x sean pareados con los valores altos (o grandes) de y.

r

s =

)

1

(

6

1

₂

2

n

(3)

Ejemplode aplicación:

A un grupo de 10 estudiantes de la UPeU se les aplicó una prueba de matemáticas (x) y una prueba de lógica (y), se obtuvieron los siguientes puntajes:

Estudiante x y

A 84 52*

B 75 39

C 98* 48

D 70** 32**

E 75 40

F 80 36

G 83 38

H 75 37

I 84 50

J 90 46

Sumatoria

* Calificación más alta ** Calificación más baja

a) Se desea saber el grado de semejanza entre las calificaciones obtenidas por los estudiantes en las pruebas x e y

b) H0: Las calificaciones obtenidas en matemáticas son mutuamente independientes de las calificaciones obtenidas en lógica por los 10 estudiantes, contra la alternativa bilateral, al 0.05 de nivel de significancia.

Ha: Existe una correlación positiva o negativa entre las calificaciones obtenidas en ambas pruebas (dependencia).

Solución

Dar rango a los datos de las variables x e y de menor a mayor o viceversa, luego realizar las diferencias de estos rangos (x-y), finalmente sumar estas diferencias y usar este total en la formula.

Estudiante x y Rango de x Rango de y Rx-Ry=d d2

A 84 52* 3.5 ₁ _2.5 _6.25

B 75 39 8 6 ₂ ₄

C 98* 48 1 ₃ _-2 ₄

D 70** 32** 10 ₁₀ ₀ ₀

E 75 40 8 5 ₃ ₉

F 80 36 6 9 _-3 ₉

G 83 38 5 7 _-2 ₄

H 75 37 8 8 ₀ ₀

I 84 50 3.5 2 _1.5 _2.25

J 90 46 2 4 _-2 ₄

Sumatoria _42.5

* Calificación más alta

** Calificación más baja

a) Aplicando la formula de rs

b) A fin de comprobar la hipótesis propuesta anteriormente acerca de la dependencia o independencia entre las calificaciones obtenidas por los estudiantes, lo haremos al 5 % de nivel de significancia y una prueba de hipótesis de dos colas en el SPSS

Pasos a seguir en el SPSS (en el SPSS solamente introducir la data, tal cual es y el software se encarga de hacer los rangos y las respectivas diferencias)

Analizar<correlaciones bivariadas<pasar las dos variables<marcar la prueba de Spearman<aceptar 742 . 0 2576 . 0 1 ) 1 100 ( 10 ) 5 . 42 ( 6 1 ) 1 ( 6 1 = r ₂ 2

s rs

n n

(4)

Salida en el SPSS

Correlaciones

Matemáticas Lógica

Rho de Spearman Matemáticas Coeficiente de

correlación 1.000 .739(*) Sig. (bilateral) . .015

N 10 10

Lógica Coeficiente de

correlación .739(*) 1.000 Sig. (bilateral) .015 .

N 10 10

* La correlación es significativa al nivel 0,05 (bilateral).

b. Sig 0.015 < 0.05, por lo tanto concluimos que existe una correlación significativa entre los cursos

8.3 Análisis de datos categóricos con una variable

Se contrastan hipótesis para proporciones y sobre bondad de ajuste, si la variable es dicotómica o dicotomizada (es decir, si sólo tiene dos categorías), puede utilizarse la prueba Binomial (también llamada contraste para una proporción) Para contrastar la hipótesis nula de que la proporción de cualquiera de las dos categorías de la variable toma un determinado valor. Si la variable es politómica se utiliza la prueba de bondad de ajuste, es decir, si las proporciones observadas o empíricas se ajustan a una determinada distribución teórica (Chi cuadrado).

Prueba Binomial para una muestra

La prueba Binomial permite averiguar si una variable dicotómica sigue o no un determinado modelo de probabilidad, es decir permite contrastar la hipótesis de que la proporción observada de aciertos se ajusta a la proporción teórica de una distribución Binomial. En el SPSS si el tamaño de muestra es pequeño, es decir menor o igual a 25 datos usa la prueba Binomial, si por el contrario con grandes muestras, es decir mayor de 25 utiliza la distribución normal.

Ejemplo: Usando la data que ofrece el SPSS “Data empleados.sav”. Asumiendo que el 70% de los empleados de los EEUU es de raza blanca, se quiere saber si en la muestra de esta entidad bancaria de donde provienen los datos de este ejemplo; este % se mantiene (se utilizará la variable minoría (clasificación étnica))

Pasos: Analizar<pruebas no paramétricas<Binomial<pasar la variable a estudiar<en contratar variable introducir el porcentaje .70) <aceptar

(5)

Cap. VIII Datos Categóricos 110 El SPSS toma como categoría de referencia la correspondiente al primer caso del archivo de datos. En nuestro ejemplo el primer caso le corresponde el código 0, la categoría de referencia es la categoría minoría = “no” blancos. Las hipótesis a contrastar son:

Ho: _min_oria₀

0

.

7

Ha: _min_oria₀

0

.

7

Prueba binomial

Categoría N

Proporción observada

Prop. de prueba

Sig. asintót. (unilateral) Clasificación

de minorías

Grupo 1

No (raza blanca) 370 .8 (0.78) .7 .000(a)

Grupo 2 Sí (raza negra) 104 .2

Total ₄₇₄ _1.0

a Basado en la aproximación Z.

La proporción de casos en la categoría de referencia es 0.78 (370/474) y la proporción de prueba es 0.70

¿Más del 70% de los empleados en la entidad bancaria pertenece a la raza blanca?

Puesto que el nivel crítico (sig 0.000<0.05), rechazamos la Ho, por lo tanto concluimos que la verdadera proporción poblacional de sujetos blancos (minoría=no) es mayor del 70%.

Ejemplo: Con la data “empleados.sav” que lo tiene el SPSS

Se desea probar estadísticamente que la proporción de hombres son mayores al de mujeres de los empleados de un banco respecto a sus tres categorías laborales:

Primero “segmentamos archivo” en función de la categoría laboral: comparar grupos de casos

(6)

Binomial Test

Masculino 157 .43 .50 .012a Femenino 206 .57

363 1.00

Masculino 27 1.00 .50 .000a

27 1.00

Masculino 74 .88 .50 .000a

Femenino 10 .12 84 1.00 Group 1 Group 2 Total Group 1 Total Group 1 Group 2 Total Género Género Género Categoría laboral Administrativo Seguridad Directivo C a te g o ry N Ob s e rv e d P ro p . T e s t P ro p . A s y m p . S ig . (2 -t a il e d )

Based on Z Approximation. a.

Conclusión:

Dado que el Sig para todos las categorías es menor que 5%, entonces decimos al nivel de significancia del 5% concluimos que la categoría laboral si difiere en todos los casos con respecto al género, siendo al nivel administrativo la proporción de mujeres es más alta (57%) con respecto a los hombres, sin embargo sucede lo contrario a nivel directivo la proporción de hombres es más alta (88%) con respecto a las mujeres y es más notable en el personal de seguridad donde el 100% son hombres.

8.4 Prueba Chi cuadrada

La prueba Chi-Cuadrada es una de las pruebas más frecuentemente utilizadas para el contraste de variables cualitativas, aplicándose para comparar si dos características cualitativas están relacionadas entre sí, si varias muestras de carácter cualitativo proceden de igual población o si los datos observados siguen una determinada distribución teórica.

Para su cálculo se calculan las frecuencias esperadas para compararlas con las observadas en la realidad. Se calcula el

valor del estadístico 2, como:

e

o

2

(

)

; donde

O Valor observado

e

Valor esperado =

general total columna total x fila total

Supóngase que en una determinada muestra se observan una serie de posibles sucesos E1, E2, E3, . . . , EK, que ocurren con frecuencias O1, O2, O3, . . ., OK, llamadas frecuencias observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias

e

1,

e

2,

e

3, . . . ,

e

K llamadas frecuencias teóricas o esperadas. Se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas.

2_{mide el grado de acuerdo entre frecuencias observadas y esperadas, suponiendo que Ho es verdadera.}

Está conformada por una familia de curvas asimétricas donde una es diferente de otra en función de los grados de libertad. A medida que aumentan los grados de libertad las curvas son más extendidas a la derecha, así:

(7)

Las aplicaciones más importantes de la distribución Chi cuadrado, son:

Con una sola variable: Prueba de bondad de ajuste, ejemplo: prueba de normalidad

Con dos variables:

Prueba de independencia

Prueba de homogeneidad de poblaciones.

Cuando consideramos que los valores de una tabla han sido extraídos de una población, entonces nos interesaría probar las siguientes dos hipótesis:

La prueba de la Independencia, que se efectúa para probar si hay asociación entre las variables categóricas A y B

La prueba de Homogeneidad, que es una generalización de la prueba de igualdad de dos proporciones. En este caso se trata de probar si para cada nivel de la variable B, la proporción con respecto a cada nivel de la variable A es la misma.

8.4.1 La prueba de la independencia

 Permite determinar si dos variables categóricas son independientes (no están asociadas o no están relacionadas) cuando ambas se han medido en la misma unidad de análisis.

 Las n unidades de análisis se clasifican en categorías mutuamente excluyentes de modo que las frecuencias se presentan en una tabla de contingencia bivariada o de doble entrada o tabla de f filas x c columnas.

 Los totales marginales no están controlados por el investigador.

Si designamos las columnas por r y las filas o renglones por k, se tendrá una tabla de r x k.

Los grados de libertad serán iguales a n = (r-1)(k-1), así que en una tabla de "2 x 2", los grados de libertad son: (2-1)(2-1)= 1 G.L.; en la tabla "3 x 4" será (3-1)(4-1) = 6 G.L.

Si se tuviera los niveles de un solo criterio, también se utiliza la Chi- cuadrado, y los grados de libertad es igual al número de niveles menos uno (n-1); el valor esperado para cada frecuencia es el correspondiente al promedio.

Pasos para la prueba de hipótesis:

1. Hipótesis estadísticas:

Ho: Las dos variables categóricas son independientes (Es decir, no hay asociación entre ellas)

Ha: Las dos variables categóricas están relacionadas (Es decir, son dependientes)

2. Nivel de significancia: α = 0.5 ó 0.01 ó 0.10, etc.

3. Función Pivotal:

e

o

2

(

)

4. Regiones:

5. Valor experimental:

6. Decisión: La regla de decisión consiste en rechazar la hipótesis nula a un nivel α de significación si el valor calculado de la estadística de prueba es mayor que el valor crítico de extremo superior de una distribución Chi- Cuadrada.

(8)

Ejemplo 1

La tabla siguiente muestra los resultados de un estudio en el que se clasificaron en forma cruzada 100 jóvenes, en edad escolar, de acuerdo con el grado de delincuencia y el contacto con los padres durante los ratos libres. ¿Proporcionan estos datos evidencia suficiente como para indicar que las dos variables están relacionadas? sea α = 0.05

Tiempo libre compartido

con los padres Delincuente No delincuente Total

Alto 10 29 39

Bajo 41 20 61

Ho: El grado de delincuencia es independiente del tiempo libre que comparten los padres con sus hijos Ha: El grado de delincuencia depende del tiempo libre que comparten los padres con sus hijos

Nivel de significancia: α = 0.5

Función Pivotal:

e

o

2

(

)

O Valor observado

e Valor esperado =

total

columna

total

x

fila

total

Regiones:

Pasos para calcular el valor experimental 2 exp 9 . 19 100 51 * 39 11

e 19.1

100 49 * 39

12

e 31.1

100 51 * 61

21

e 29.9

100 49 * 61 22 e 452 . 16 9 . 29 ) 9 . 29 20 ( 1 . 31 ) 1 . 31 41 ( 1 . 19 ) 1 . 19 29 ( 9 . 19 ) 9 . 19 10

( 2 2 2 2

2

Valor experimental: 2 16.452

Decisión: El valor experimental es mayor (16.452 > 3.84) que el valor teórico, por lo tanto rechazamos la hipótesis nula.

Valor de p exacto da el SPSS (p=,000)

Conclusión: Al nivel de significancia del 1% podemos concluir que el grado de delincuencia depende del tiempo libre que comparten los padres con sus hijos (p=,000).

Reporte en SPSS

(9)

2° Ponderar casos: Datos< Ponderar casos <ponderar casos mediante<pasar la variable frecuencia< aceptar

(10)

4° Reporte

Tabla de contingencia Tiempo libre compartido * DELINCUENCIA

Recuento

DELINCUENCIA

Total DELINCUENTE

NO DELINCUENTE Tiempo libre

compartido

ALTO 10 29 39

BAJO 41 20 61

Total 51 49 100

5° Prueba de hipótesis

Decisión: Como el valor Sig = 0.000 < 0.05, la prueba es significativa; esto es el grado de delincuencia depende del tiempo invertido por los padres en sus hijos. Nota: no se puede hacer una inferencia pues los datos pertenecen a una muestra no probabilística.

Ejemplo 2.

Con la data que se encuentra en el SPSS “encuesta general USA 1991.sav” encontrar si existe alguna relación entre el “nivel de felicidad y la variable sexo”

Solución:

(11)

Reporte del SPSS:

Tabla de contingencia Sexo del encuestado * Nivel de felicidad

206 374 53 633 32.5% 59.1% 8.4% 100.0% 261 498 112 871 30.0% 57.2% 12.9% 100.0% 467 872 165 1504 31.1% 58.0% 11.0% 100.0% Recuento

% de Sexo del encuestado Recuento % de Sexo del encuestado Recuento % de Sexo del encuestado Hombre

Mujer Sexo del encuestado

Total

Muy feliz Bastante feliz

No demasiado

feliz Nivel de felicidad

Total

En el gráfico de barras agrupadas observamos que al comparar el nivel de felicidad de hombres frente a mujeres, se encuentra un mayor porcentaje a favor de los hombres, sin embargo la diferencia es poca, al realizar la prueba de hipótesis comprobaremos si esta pequeña diferencia es significativa o no

Sexo del encuestado

Mujer Hombre

R

ec

uen

to

100,0%

80,0%

60,0%

40,0%

20,0%

0,0%

0,13% 0,08%

0,57% 0,59%

0,30% 0,33%

No demasiado feliz Bastante feliz Muy feliz

(12)

Pruebas de chi-cuadrado

7.739a ₂ _.021

7.936 2 .019 4.812 1 .028

1504 Chi-cuadrado de Pearson

Razón de verosimilitudes Asociación lineal por lineal

N de casos válidos

Valor gl

Sig. asintótica (bilateral)

0 casillas (.0%) tienen una f recuencia esperada inferior a 5. La frecuencia mínima esperada es 69.44.

a.

Decisión: Al nivel de significancia del 5% concluimos que existe alguna relación significativa (sig=0.021) entre las variables, a favor de los varones, esto quiere decir que en mayor porcentaje los varones presentan más altos niveles de felicidad.

Nota: Existen tres factores que pueden alterar el resultado de las pruebas de asociación e independencia como lo son el tamaño de la muestra, la fidelidad de los datos y el sesgo muestral; antes de sacar alguna conclusión es necesario revisar estos factores ya que cualquiera de ellos puede distorsionar severamente el resultado.

8.4.2 Prueba de la Homogeneidad

Supóngase que en una determinada muestra se observan una serie de posibles sucesos E1, E2, E3, . . . , EK, que ocurren con frecuencias o1, o2, o3, . . ., oK, llamadas frecuencias observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3, . . . ,eK llamadas frecuencias teóricas o esperadas. Se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas.

Ejemplo: Se presupone que la prevalencia de cáncer se incrementa en el intervalo de edad 51 a 65 años, mientras que entre los intervalos de edad de 36 a 50 y de 20 a 35 la proporción no es tan alta; se obtuvo una muestra observacional sobre un registro de pacientes que arrojan la siguiente tabla:

EDAD

20 - 35 36 - 50 51 - 65

N° de casos 19 25 76

Deseamos contrastar si la prevalencia del n° de casos de cáncer es homogénea a los intervalos de edad o alternativamente que las proporciones de enfermos guardan una determinada relación a 1, 1, 4 respectivamente, es decir que la proporción de individuos en el último intervalo de edad es el doble que en el conjunto de los dos intervalos de edad.

Ho: las proporciones de individuos esperadas con cáncer se ajustan para cada intervalo de edad Ha: las proporciones de individuos esperadas con cáncer no se ajustan para cada intervalo de edad

Pasos en el SPSS:

(13)

Cap. VIII Datos Categóricos 118 2º. Analizar<pruebas no paramétricas<Chi cuadrado<seguir los pasos observando la siguiente figura.

Reporte:

(df = grados de libertad)

Se puede observar que la 2experimental

1

.

50

_tabular2

5

.

99

, por lo tanto estamos aceptando que las proporciones

de individuos con cáncer si se ajustan a la proporción de cada intervalo de edad.

Nota: se llega a la misma conclusión si observamos el Sig de la prueba: Sig =0.472 > 0.05 por lo tanto no podemos rechazar la Ho.

Nota: En el caso que se rechaza la hipótesis nula cuando se realiza la prueba Chi cuadrado

Ho: No hay relación entre las variables en estudio.

Entonces el próximo paso es determinar el grado de asociación de las dos variables categóricas, para ello se usan las llamadas medidas de asociación como:

Análisis para medir la asociación de variables nominal por nominal

Análisis para medir la asociación de variables ordinal por ordinal

Salida en el SPSS (para pedir la prueba, siga los siguientes pasos)

(14)

8.5 Análisis para variables de nivel nominal por nominal

Coeficiente de contingencia

C

Este es un coeficiente de correlación para datos nominales colocados en una tabla de contingencia (doble entrada) con un diseño mayor que 2x2. Con esté se trata de determinar el grado de asociación, comparando varios grupos o categorías, y puede calcularse utilizando la siguiente definición:

2 2

n

C

Donde:

C = Coeficiente de contingencia

2

= Valor calculado de Chi Cuadrada. n = número total de casos (tamaño muestral) El valor de C varía entre 0 y 1

C= 0, significa que no hay asociación entre las variables

C>30, indica una buena asociación entre las variables; sin embargo hay que tomar también en consideración el tamaño de la tabla

Ejemplo de aplicación (Pagano, 2009. Pág. 485)

Un investigador de la sexualidad humana quiere determinar si existe una relación entre el género y la hora del día preferida para tener relaciones sexuales. Se realiza una encuesta cuyos resultados aparecen en la siguiente tabla; los datos de las entradas son la cantidad de individuos que prefieren la mañana, la tarde o la noche:

Género

Mañana Tarde

Noche

Total

Masculino

46

24

20

90

Femenino

28

21

42

91

Total

74

45

62

181

Paso 1 Aplicando la definición de la distribución 2 vista anteriormente, se obtiene 2= 12.380

Paso 2 Se calcula el coeficiente de contingencia C utilizando la formula:

253

.

0

38

.

12

181

38

.

12

2

n

C

Salida en el SPSS (para pedir la prueba, siga los siguientes pasos)

Analizar>estadísticos descriptivos>tablas de contingencia>allí marque la prueba que corresponde a su problema)

Medidas simétricas

Valor Sig. aproximada

Nominal por nominal Coeficiente de contingencia ,253 ,002

N de casos válidos 181

Prueba de significancia

(15)

Requisitos para el uso del coeficiente de contingencia:

1. Datos nominales.

2. Muestreo aleatorio. Con la finalidad de comprobar la significancia estadística del coeficiente de contingencia, la muestra se debe obtener en forma aleatoria.

Ejemplo de aplicación

Se desea investigar la posible relación entre la categoría laboral que ocupa el trabajador y si considera su vida excitante o aburrida. Emplear la data del SPSS “encuesta general USA 1991.sav”

Paso 1 Los datos obtenidos al realizar este estudio se concentran en una tabla de contingencia, de la siguiente forma:

Tabla de contingencia Categoría ocupacional * ¿Su vida es excitante o aburrida?

¿Su vida es excitante o aburrida?

Total Excitante Rutinaria Aburrida

Categoría ocupacional

Directivo o profesional liberal

Recuento 129 78 3 210

% de Categoría

ocupacional 61.4% 37.1% 1.4% 100.0% Empleado técnico,

administrativo o comercial

Recuento 125 156 13 294

% de Categoría

ocupacional 42.5% 53.1% 4.4% 100.0%

Servicios Recuento 56 73 6 135

% de Categoría

ocupacional 41.5% 54.1% 4.4% 100.0% Agricultura, forestal y

pesca

Recuento 16 9 0 25

% de Categoría

ocupacional 64.0% 36.0% .0% 100.0% Producción de precisión,

manufactura o reparación

Recuento 38 65 6 109

% de Categoría

ocupacional 34.9% 59.6% 5.5% 100.0% Operario, fabricación y

mano de obra en general

Recuento 45 83 7 135

% de Categoría

ocupacional 33.3% 61.5% 5.2% 100.0%

Total Recuento 409 464 35 908

% de Categoría

ocupacional 45.0% 51.1% 3.9% 100.0%

Paso 2 Aplicando la definición de la distribución 2 vista anteriormente, se obtiene 2= 41.829

Paso 3 Se calcula el coeficiente de contingencia C utilizando la formula:

210

.

0

829

.

41

908

829

.

41

2 2

n

C

Salida en el SPSS

Medidas sim étricas

.210 .000

908 Coef iciente de

contingencia Nominal por

nominal

N de casos válidos

Valor

Sig. aproximada

Asumiendo la hipótesis alternativa. a.

Empleando el error típico asintótico basado en la hipótesis nula.

(16)

Prueba de significancia

La significancia estadística del coeficiente de contingencia se puede obtener a partir de la magnitud de la 2 obtenida con la siguiente regla de decisión:

Si 2 crit

,

entonces

2

C es significativo

Para nuestro ejemplo la 2tabular o crítica con 10 gl. y al nivel de significancia de 5% es 18.31, entonces dado que el valor calculado es de 41.829, esto es: 41.829 18.31, podemos concluir que el coeficiente de contingencia calculado es estadísticamente significativo, por lo que se rechaza la hipótesis nula; por lo que podemos concluir que se considera si la vida es excitante o aburrida esta relacionada a la categoría laboral que ocupa el trabajador, es decir se puede observar que la vida es más excitante para los profesionales que ocupan cargos directivos o profesionales liberales de igual manera para aquellos que trabajan en agricultura forestal y pesca.

Llegamos a la misma conclusión observando el Sig=,000<0.05 que se obtiene al pedir el análisis del coeficiente de contingencia

Coeficiente de correlacion (phi) para un diseño 2 x 2

Cuando ambas variables son nominales y dicotómicas, es posible determinar el grado de asociación entre las variables de interés. Este coeficiente ( ) también es un caso particular del coeficiente de correlación de Pearson, y se utiliza con cierta frecuencia, aunque no necesariamente en este aspecto, en la elaboración y análisis de pruebas. En capítulos posteriores se considera la independencia o dependencia de dos variables en una nuestra determinada; cuando se haga este análisis, a partir de las hipótesis establecidas, si la conclusión estadística a la que se llega es la existencia de una dependencia, el análisis estadístico más lógico a seguir es conocer el grado de asociación que implica la dependencia entre las variables o las muestras. Para conocer esto, necesitamos un número, y este número nos lo indicara el coeficiente de correlación ( ), pero recuérdese que está supeditado al diseño 2 x 2, al tamaño de muestra y a la proporción de las variables dicotomizadas. Cuando el número de casos en una variable es igual al de la otra variable, el coeficiente ( ) tendrá el máximo valor de 1; cuando los totales marginales son diferentes no se alcanzara el máximo valor de 1.

Coeficiente

)

)(

(

a

b

a

c

b

d

c

d

bc

ad

Ejemplo de aplicación

Se desea establecer una escala de medición de cierto rasgo de agresión en adultos. Pero existe una interrogante, que consiste en saber si hay relación entre el sexo de la persona y la respuesta (dicotómica) ante una situación que afecte su actitud hacia la agresión. Por lo que a 400 personas, 200 del sexo masculino y 200 del sexo femenino, se les emplea para establecer dicha escala y se analizan las respuestas, obteniéndose lo siguiente: de las personas del sexo masculino 160 están de acuerdo y 40 en desacuerdo; de las del sexo femenino 40 están de acuerdo y y 160 no lo están. Calcule el coeficiente ( ) de correlación y concluya, considerando los resultados obtenidos.

Solución:

Paso 1 Se acomodan los datos obtenidos en una tabla de doble entrada, de dos reglones y dos columnas (tabla de contingencia 2x2)

Acuerdo Desacuerdo Total Masculino 160 (a) 40 (b) 200 Femenino 40 (c) 160 (d) 200 Total 200 200 400

Paso 2 se aplica la definición de ( )

₀_.₆₀

) 200 )( 200 )( 200 )( 200 ( ) 40 )( 40 ( ) 160 )( 160 ( ) )( )( )(

(a b a c b d c d bc

ad

(17)

Salida en el SPSS

Medidas simétricas

Valor Sig. aproximada

Nominal por nominal Phi ,600 ,000

V de Cramer ,600 ,000

Prueba de significancia de

Para poder comprobar la significancia de dicho coeficiente se utilizará la siguiente definición:

2 2

n

Donde:

n = Número total de casos, n =400

= 0.60

2

= Valor Chi Cuadrado

Sustituyendo los valores anteriores se obtiene:

2 2

n

2

(

400

)(

0

.

60

)

2

144

2

144

Este resultado se contrasta al valor crítico de ji cuadrada, calculado mediante la siguiente regla de decisión R.D:

Si crit

,

entonces

2 2

significativa

El valor crítico de la 2está en función de los grados de libertad y el nivel de significancia establecido con anterioridad.

Para un diseño de 2x2, los grados de libertad será 1, entonces g.l. = 1

84

.

3

2

%) 5 ( 2

crit , por lo tanto exp

144

2

erimental , entonces podemos concluir que la prueba es

significativa, esto es =0.46 ¡es significativo!

Requisitos de uso de

A fin de utilizar adecuadamente el coeficiente como medida de asociación entre las variables x e y, dicotomizadas, se deben tomar en cuenta las siguientes condiciones:

1. Datos nominales. Las variables x e y, deben ser nominales y dicotomizables, ya que únicamente se requerirían las frecuencias observadas (el número de veces que ocurren en cierta nominación).

2. Tabla de contingencia 2x2. Los datos deben poder colocarse en un diseño 2x2 (dos renglones - dos columnas). Es inadecuado aplicar el coeficiente donde se comparan varias grupos o categorías.

3. Muestreo aleatorio. Para poder comprobar la significancia y validez de , la muestra en estudio debe haber sido extraída en forma aleatoria (todos los elementos de la población deben tener la misma posibilidad de ser escogidos)

4. Cuando la muestra en estudio es pequeña (un criterio es que la frecuencia observada, en dos o más casillas,

(18)

)

)(

(

5

.

0

2

b

c

d

b

c

a

b

a

bc

ad

n

Donde

ad

bc

= valor absoluto de la diferencia entre ad y bc.

Lambda. Medida de asociación que refleja la reducción proporcional en el error cuando se utilizan los valores de la variable independiente para pronosticar los valores de la variable dependiente. Un valor igual a 1 significa que la variable independiente pronostica perfectamente la variable dependiente. Un valor igual a 0 significa que la variable independiente no ayuda en absoluto a pronosticar la variable dependiente.

Coeficiente de incertidumbre. Medida de asociación que indica la reducción proporcional del error cuando los valores de una variable se emplean para pronosticar valores de la otra variable. Por ejemplo, un valor de 0.83 indica que el conocimiento de una variable reduce en un 83% el error al pronosticar los valores de la otra variable. SPSS calcula tanto la versión simétrica como la asimétrica del coeficiente de incertidumbre.

8.6 ANALISIS PARA VARIABLES ORDINAL POR ORDINAL

Coeficiente Gamma

Medida de asociación simétrica entre dos variables ordinales cuyo valor siempre está comprendido entre menos -1 y 1. Los valores próximos a 1, en valor absoluto, indican una fuerte relación entre las dos variables. Los valores próximos a cero indican que hay poca o ninguna relación entre las dos variables.

d de Somers

La “d de Somers” es importante pues se puede pronosticar las categorías de columna a partir de las categorías de fila; se usa para variables ordinales (filas y columnas). La d de Somers es una extensión asimétrica de gamma.

Ejemplo:

Se quiere establecer la relación entre las variables ingesta de agua según el número de vasos por día y si la persona tiene un horario establecido para beber este líquido tan importante para la salud. La data se recogió haciendo uso de la metodología de la encuesta y se muestra en la siguiente tabla.

Tabla de contingencia AGUA * HORARIO

HORARIO

Total Siempre Casi siempre A veces

AGUA Ninguno 0 1 2 3

1 - 2 vasos 3 6 2 11

3 - 5 vasos 2 16 5 23

6 a más

vasos 3 5 2 10

Total 8 28 11 47

(19)

Valor

Error típ. asint.(a)

T aproximada(b)

Sig. aproximada Ordinal

por ordinal

d de Somer Simétrica

-.100 .148 -.669 .503

AGUA dependiente -.108 .161 -.669 .503

HORARIO dependiente -.092 .137 -.669 .503

a Asumiendo la hipótesis alternativa.

b Empleando el error típico asintótico basado en la hipótesis nula.

Interpretación: Cuánto más cercano el valor se encuentre a +1 o -1 mejor correlación presentará y su prueba de hipótesis Sig < 0.05

Para nuestro ejemplo la d de Somers presenta un valor de (d = -0.100) con una significancia de Sig = 0.503. Por lo tanto podemos concluir que no existe ningún tipo de asociación entre las variables

Tau-b de Kendall

Medida no paramétrica de la correlación para variables ordinales o de rangos que tiene en consideración los empates. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones más fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 sólo se puede obtener a partir de tablas cuadradas.

Tau-c de Kendall

Medida no paramétrica de asociación para variables ordinales que ignora los empates. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones más fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 sólo se puede obtener a partir de tablas cuadradas.

8.7 Análisis para variables nominal por intervalo: Coeficiente Eta

Cuando una variable es categórica y la otra es cuantitativa, seleccione Eta. La variable categórica debe codificarse numéricamente. Es una medida de asociación cuyo valor siempre está comprendido entre 0 y 1. El valor 0 indica que no hay asociación entre las variables de fila y de columna. Los valores cercanos a 1 indican que hay gran relación entre las variables. Eta resulta apropiado para una variable dependiente medida en una escala de intervalo (por ejemplo, ingresos) y una variable independiente con un número limitado de categorías (por ejemplo, sexo). Valores de eta próximos a uno indicarán mucha dependencia. El cuadrado de este coeficiente (eta²) puede interpretarse como la proporción de variabilidad de la variable dependiente, Y, explicada por los valores de la independiente, X, por lo que puede utilizarse como medida del grado de asociación existente entre las variables en cuestión. (Ferran A. M, 1996).

Ejemplo:

(20)

Para realizar este análisis usamos el coeficiente Eta, pues se trata de relacionar una variable dependiente numérica asociada a una independiente categórica nominal.

Pasos en el SPSS: analizar<estadísticos descriptivos<tablas de contingencia<pasar las variables como se observa en la figura anterior<pedir el coeficiente Eta<continuar<aceptar

Salida del SPSS

Tabla de contingencia SALON * PROMEDIO

Recuento

PROMEDIO

Total 14,00 15,00 16,00 17,00 18,00 19,00

SALÓN A 5 3 1 1 1 0 11

SALÓN B 0 0 0 5 4 3 12

Total 5 3 1 6 5 3 23

Medidas direccionales

Valor

Nominal por intervalo Eta SALON dependiente ,846

PROMEDIO dependiente ,787

El coeficiente Eta, que se obtiene en el cuadro de salida es en dos sentidos: Un primer caso considerando al salón como variable dependiente, para este caso se obtiene un Eta igual a 0.846. Un segundo caso, considerando al promedio, como la variable dependiente, para lo cual se obtiene un Eta igual a 0.787. Para ambos casos se obtienen valores Eta próximos a uno, lo que indica que el promedio depende del salón donde provienen los alumnos, en otras palabras alguno de los profesores (A o B) utilizan una mejor didáctica lo cual hace obtener un mejor promedio en sus estudiantes.

(21)

Cap. VIII Datos Categóricos 126 El cuadrado de Eta, se interpreta como la proporción de la variabilidad de la variable dependiente Y, explicada por los valores de la independiente, X. En nuestro ejemplo el cuadrado del coeficiente explica

Eta2 = (,787)2 = 0.619 explica la variación del promedio de los estudiantes en función al salón al que pertenecen, la varianza de los datos que dependen del salón y que hacen predecir el promedio.

El gráfico bivariado que ofrece el SPSS es:

8.8 Otras pruebas Kappa.

La opción kappa de Cohen mide el acuerdo entre las evaluaciones de dos jueces cuando ambos están valorando el mismo objeto. Un valor igual a 1 indica un acuerdo perfecto. Un valor igual a 0 indica que el acuerdo no es mejor que el que se obtendría por azar. Kappa sólo está disponible para las tablas cuadradas (tablas en las que ambas variables tienen el mismo número de categorías).(Cohen, 1960).

Ejemplo:

La tabla siguiente ofrece una medida del grado de acuerdo existente entre dos observadores o jueces al evaluar a 200 pacientes neuróticos según el tipo de neurosis padecida.

Resultado obtenido por dos jueces al diagnosticar una muestra de 200 pacientes

Segundo diagnóstico

Primer

diagnóstico Fóbica Histérica Obsesiva Depresiva

Fóbica 20 8 6 1

Histérica 7 36 14 4

Obsesiva 1 8 43 7

Depresiva 2 6 4 33

Total 30 58 67 45

En el SPSS: Primero ponderar casos.

Datos<ponderar casos<ponderar casos mediante<pasar la variable”n_casos<aceptar

(22)

Pedir el coeficiente Kappa: analizar<estadísticos descriptivos<tablas de contingencia<pasar las variables <pedir el coeficiente Kappa<continuar<aceptar

Medidas simétricas

Valor Error típ. asint.a T aproximadab

Sig.

aproximada

Medida de acuerdo Kappa ,538 ,046 12,921 ,000

a. Asumiendo la hipótesis alternativa.

b. Empleando el error típico asintótico basado en la hipótesis nula.

El valor del estadístico Kappa (,538)y su nivel crítico (Sig aproximada 0.000) por lo tanto se rechaza la hipótesis nula y concluimos que existe un grado de acuerdo mayor que el esperado por el azar.

McNemar

Prueba no paramétrica para dos variables dicotómicas relacionadas. Contrasta los cambios en las respuestas utilizando la distribución de Chi-cuadrado. Es útil para detectar cambios en las respuestas debidas a la intervención experimental en los diseños del tipo "antes-después". Para las tablas cuadradas de mayor orden se informa de la prueba de simetría de McNemar-Bowker.

Ejemplo

Se quiere estudiar si la aplicación de un programa ha resultado efectivo en cuanto al mejoramiento del déficit asertivo, se tomo una muestra de agentes comunitarios (ACES) y se les capacitó durante 4 meses, se tomo un pretest y un postest después de concluida la capacitación, los resultados se muestran en la siguiente tabla:

Estilo genérico de interacción social que presentan los ACES del Asentamiento Humano Virgen del Carmen la Era, antes y después de

la aplicación del programa.

Pre test Pos test

N % n %

Déficit asertivo 8 30.77 3 11.54

Estilo pasivo dependiente 11 42.31 9 34.62

Estilo agresivo 2 7.69 2 7.69

(23)

Cap. VIII Datos Categóricos 128 Respecto al estilo genérico que tenían los agentes comunitarios antes de aplicar el programa de intervención el 30.77% presentaron un déficit asertivo, mientras que al finalizar el programa sólo un 11.54% presentó este déficit. Así también se observa que al inicio del programa el 42.31% presentaban un estilo pasivo dependiente y después de la aplicación del programa este porcentaje disminuyó a un 34.62%. Además el 19.23% de los ACES que alcanzaron un estilo asertivo inicial, después de la intervención este se incrementó al 46.15%, observando el estilo de interacción social agresivo antes y después de la intervención el 7.69% se mantuvo aparentemente sin variación, sin embargo las dos personas que corresponden a este porcentaje inicial no son las mismas, las dos personas que presentan esta conducta después de la intervención, inicialmente presentaron una conducta pasiva dependiente.

Comprobación de hipótesis

La tabla 11 muestra la prueba de McNemar-Bowker (Pardo 2002) prueba no paramétrica de orden mayor que dos, contrasta los cambios en las respuestas, utilizando la distribución de Chi cuadrado. Es útil para detectar cambios de respuesta debidas a la intervención experimental en los diseños del tipo antes – después), para la relación del estilo genérico de interacción social que presentaron los ACES antes y después de la aplicación del programa de intervención “Re hacer la vida”, lo que muestra que la potencia de la prueba (p_value, 014) es inferior al nivel de significación considerado (α = ,05), por lo tanto se rechaza la hipótesis nula de igualdad de proporciones y se concluye que las proporciones de sujetos que participaron en el programa mejoraron su estilo genérico de interacción social, demostrándose la efectividad del programa.

Prueba de McNemar-Bowker para el estilo genérico de interacción social que presentan los ACES del Asentamiento Humano Virgen del Carmen la Era, antes y después de la aplicación del programa.

Prueba de McNemar-Bowker

Valor gl p-value

Prueba de McNemar-Bowker

12.571 4 ,014

Nota: Esta data es extraída de la tesis del Mag. Carlos Campos

PROBLEMAS DE REPASO DEL CAPÍTULO

1. Señale V o F dentro de cada paréntesis según considere que el enunciado respectivo es verdadero o falso. Justificar la respuesta que considere falsa.

( ) La prueba Chi cuadrado será estadísticamente significativa cuando las frecuencias Oi y Ei son pequeñas ( ) La prueba Chi cuadrado cuando se desea probar independencia, esta debe ser planteada en Ha

2. En la base de datos del archivo “trabajo.sav” extraído del autor Bienvenido Visauta y colgado en el SITE de Rosa Padilla se tiene las siguientes variables: a1: aspectos que más le preocupan con 4 opciones de respuesta(Vida afectiva-Dinero-Armonía familiar y Salud); a3: aspecto con el que se siente más satisfecho (Tiempo libre- Vivienda-calidad del medio ambiente-comprar lo que desee); y una tercera, a5: estado de ánimo más frecuente (Contento-Solo-Aburrido-Cansado-Deprimido-Eufórico-Preocupado)

3. Se desea estudiar la relación que existe entre encontrar trabajo y el conocimiento de un determinado idioma. Con tal objeto se realizó una encuesta, la distribución de los resultados es como sigue:

Encontrar trabajo

Conocimiento de

algún Idioma Total

Si No

Si 11 7 18

No 4 10 14

Total 15 17 32

(24)

Cap. VIII Datos Categóricos 129 4. Los alumnos de primero y segundo semestre de la Facultad de Ciencias Humanas y Educación calificaron a 7

profesores, de acuerdo con la claridad de su exposición. Los resultados fueron tabulados de la siguiente manera:

Profesor Primer semestre

Segundo semestre 1

2 3 4 5 6 7

44 39 36 35 33 29 22

58 42 18 22 31 38 38

De acuerdo con la data del ejemplo 1, determine qué tipo de análisis se puede aplicar.

Respuesta: rs = 0.306

5. Se desea conocer el grado de correlación entre las puntuaciones de un grupo de alumnos de la Facultad de Ciencias Humanas y Educación de dos clases diferentes, Psicología y Comunicaciones.

Psicología Comunicación Rangos Diferencias

X Y Rx Ry D D2

67 67 1.5 2 0.5 0.25

67 68 1.5 2 -0.5 0.25

70 70 3.5 3 0.5 0.25

70 71 3.5 4 0 0.25

72 72 5 5 0 -

79 74 6 6 0 -

80 77 7 7 0 -

81 80 8 8 0 -

87 83 9 9 0 -

95 90 10 10 0 -

D

2

1

.

00

Respuesta: rs = 0.994

6. En un estudio realizado a 200 mujeres casadas, sobre relaciones humanas, había dos preguntas que consistían en lo siguiente:

a) ¿Considera exitoso su matrimonio? b) ¿Tuvo una niñez feliz?

Se obtuvieron las siguientes respuestas:

Niñez Matrimonio Total

No exitoso Exitoso

Feliz 40 70 110

No feliz 60 30 90

Total 100 100 200

Existe alguna relación entre a) y b). Respuesta: C = 0.29, (si)

7. Se quiere estudiar la relación entre el grado de participación en las asociaciones voluntarias y el número de amigos cercanos. Esta relación se indica en la siguiente muestra de 5 entrevistados:

Participación en asociaciones Número de Entrevistado voluntarias (x) Rango amigos (y)

A 1 mayor participación 6

B 2 4

C 3 6

D 4 2

E 5 menor participación 2

(25)

Cap. VIII Datos Categóricos 130 8. Para averiguar la validez de un determinado examen de lectura, los investigadores lo aplicaron a una muestra de 20 estudiantes cuya habilidad para leer había sido previamente colocada por rangos por su profesor. El puntaje del examen y el rango que el profesor dio para cada estudiante se enumera a continuación:

Estudiante

Puntaje de lectura (x)

Rango del profesor (y)

A 28 18

B 50 17

C 92 1

D 85 6

E 76 5

F 69 10

G 42 11

H 53 12

I 80 3

J 91 2

K 73 4

L 74 9

M 14 20

N 29 19

O 86 7

P 73 8

Q 39 16

R 80 13

S 91 15

T 72 14

¿Qué procedimiento estadístico se podría aplicar para determinar el grado de asociasión entre los puntajes de lectura y la categorización del profesor?

9. Se quiere ver la relación que existe entre el coeficiente de inteligencia y la aptitud de mando, los datos codificados se dan en la tabla siguiente:

Rango Rango de aptitud de CI de mando

1 4

2 2

3 9

4 1

5 7

6 10

7 8

8 13

9 5

10 3

11 11

12 6

13 12

14 15

15 14

(26)

Cap. VIII Datos Categóricos 131 10. Ante la sospecha de que el hábito de fumar de una embarazada puede influir en el peso de su hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasificó a sus hijos en tres categorías en función de su peso en relación con los percentiles P10 y P90 de la población. El resultado se expresa en la tabla siguiente:

¿Madre fumadora?

Peso del niño al nacer

Menor de P10 Entre P10 y P90 Mayor de P90

Si 117 529 19

No 124 1147 117

¿Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra?

11. La Comisión Europea está interesada en conocer el grado de apoyo de los ciudadanos a la Comisión Europea. Para ello, ha realizado encuestas en cada uno de los países miembros. En la siguiente tabla se muestran los resultados de España y de Reino Unido:

Constitución Europea

OPINIÓN

Total encuestados A favor En contra No contesta

España 70 10 20 100

Reino Unido 60 70 20 150