• No results found

Continuando con el ejemplo introducido en la p´agina 5, de los adolescentes y su nivel de glucemia, vamos a trabajar con una muestra de 20 adolescentes. Las muestras deben ser por lo general de mayor tama˜no, pero tomamos s´olo 20 para manejar con facilidad los datos.

Ejemplo 4

Tenemos entonces un conjunto de 20 datos de la variable X la cual definimos como

X =nivel de glucemia en ayunas

medido en miligramos de glucosa por decilitro de sangre (mg/dl). Estos datos son :

98, 150, 100, 70, 80, 110, 123, 85, 115, 120 130, 110, 105, 98, 140, 81, 125, 120, 130, 126

En primer lugar, organizamos estos datos muestrales en una tabla de distribuci´on de frecuencias. Lo primero que debemos hacer es determinar los intervalos, con el fin de que los podamos interpretar de alguna forma.

Existen ciertos valores l´ımite, para distintas condiciones relacionadas con la can- tidad de az´ucar en sangre en ayunas. Seg´un algunos especialistas se puede afirmar lo siguiente:

mg de glucosa por dl de sangre Condici´on 48 a 73 hipoglucemia 74 a 99 glucemia normal 100 a 125 pre-diabetes 126 a 152 diabetes

Adoptaremos la convenci´on de construir intervalos de la forma [ , ): implica que el valor de la izquierda est´a en el intervalo pero no el de la derecha. Y recordando que las categor´ıas deben ser exhaustivas, nuestros intervalos ser´an ligeramente diferentes a los planteados en la tabla anterior:

Categor´ıas: [xi−1, xi) ni total

[48,74) X 1

[74,100) XXXXX 5

[100,126) XXXXXXXXX 9 [126,152] XXXXX 5

2.7 Variablebles cuantitativas agrupadas en intervalos 41 A la columna ni se la llama columna de frecuencias absolutas, y en ella se

colocan cu´antos datos caen en cada intervalo. Una pr´actica com´un para comple- tarla, es leer uno a uno los datos y colocar una marca (X) al lado del intervalo donde cada dato se encuentra. Luego contamos la cantidad deXy obtenemos ni.

Al sumar esta columna debemos obtener n: el tama˜no de la muestra.

Es importante tener en cuenta que al organizar los datos en intervalos pierdo la informaci´on de los datos originales, pero gano en un mejor ordenamiento de los datos. Por ejemplo, en la tabla veo que tengo 5 adolescentes en el in- tervalo [ 74, 100 ) pero a partir de la tabla no sabemos si ellos tienen cerca de 74 mg de glucosa por dl de sangre o tienen un nivel cerca de 99 mg/dl, o est´an distribuidas de manera uniforme a lo largo de todo el intervalo. Nosotros vamos a adoptar esta ultima hip´otesis.

La tabla de frecuencias tambi´en incluye las siguientes columnas:

ci: marca de clase del intervalo: es el punto medio de dicho intervalo, que se

calcula como la semisuma de sus valores extremos.

Por ejemplo, el punto medio del primer intervalo es (48 + 74)/2 = 61. La marca de clase viene a ser el valor representativo del intervalo.

hi: frecuencia relativa del intervalo: es la proporci´on de datos que hay en ´el.

Se calcula comohi =ni/n. La suma de todos las hi es siempre 1.

Si multiplicamos hi ·100, obtenemos el porcentaje de datos en cada intervalo.

Por ejemplo, podemos ver en la tabla siguiente que el 45 % de los adolescentes poseen un nivel de glucemia tal (de entre 100 y hasta 126, no inclusive, mg de glucosa por dl de sangre) que los lleva a tener pre-diabetes.

Fi∗:Funci´on de distribuci´on acumulada emp´ırica: es la proporci´on (o por- centaje si se multiplica cada valor de Fi∗ por 100) de observaciones que existen

hastacada intervalo inclusive. Se calcula sumando, al valor hi de cada intervalo,

los valores de hi de todos los intervalos anteriores a ´el.

A partir deFi∗, podemos decir que el 30 % de los adolescentes tienen hipoglucemia o glucemia normal (100 mg/dl o menos), lo que implica que el 70 % tienen pre- diabetes o diabetes (pues F ·100 = 0,3).

fi∗: funci´on de densidad emp´ırica: es la frecuencia relativa por unidad de me- dida en cada intervalo. Me indica la concentraci´on o “densidad de datos” que hay en cada intervalo.

Se calcula as´ı: fi∗ =hi/amplitud de cada intervalo. La amplitud del intervalo es

la diferencia entre el extemo superior y el inferior. Por ejemplo el primer valor de fi∗ es 0,05/(74–48) = 0,0019 = 0,002 redondeando a tres decimales.

Categor´ıas: [xi−1, xi) ni hi Fi∗ =F∗(xi) ci f∗ [48,74) 1 0,05 0,05 61 0,002 [74,100) 5 0,25 0,3 87 0,01 [100,126) 9 0,45 0,75 113 0,017 [126,152] 5 0,25 1 139 0,01 n= 20 1

2.7.2.

Gr´aficos

Histograma

El Histograma es una forma gr´afica de presentar la informaci´on que nos propor- cionan los datos, acompa˜nando la tabla de frecuencias. Nos permite, a golpe de vista, sacar algunas conclusiones m´as r´apidamente que observando la tabla. Ese es su principal objetivo.

2.7 Variablebles cuantitativas agrupadas en intervalos 43 En el eje horizontal se indican los extremos de los intervalos. En el eje vertical van los valores defi∗. Y se levantan “barras” encima de cada intervalo, a la altura del correspondiente fi∗.

Observar que el ´area encima de cada intervalo (base por altura =amplitud del intervalo porfi∗ =hi ) es su correspondiente frecuencia relativa.

El ´area total del histograma es 1, por ser la suma de todas las barras, que son las frecuencias relativashi.

Ojiva o gr´afico de la funci´on de distribuci´on acumulada emp´ırica Fi

Para variables cuantitativas agrupadas en intervalos, la gr´afica de Fi∗ se repre- senta como una funci´on continua, pues trabajamos con la hip´otesis de que los valores que caen dentro de cada intervalo, se consideran distribuidos uniforme- mente dentro del mismo. Por lo tanto :

1. Primero, se marcan en el gr´afico las frecuencias acumuladas en los extremos superiores de los intervalos, que son los que aparecen en la tabla. Es decir:

F∗(74) = 0,05, F∗(100) = 0,3, F∗(126) = 0,75, F∗(152) = 1

2. Y posteriormente, se trazan los segmentos que determinan dos puntos con- secutivos. Esto implica un crecimiento uniforme dentro de cada intervalo, en forma coherente con el supuesto antedicho.

Distribuciones Emp´ıricas y Te´oricas

Las distribuciones estudiadas: fi∗ y F∗(xi) son emp´ıricas, pues son realizadas a

partir de la observaci´on de una muestra.

Existen otras distribuciones llamadas te´oricas(f(xi) yF(xi) ), que resultan de

estudios realizados con modelos probabil´ısticos e involucran los datos de toda la poblaci´on.

Se demuestra que, al aumentar el n´umero de observaciones en las muestras, las distribuciones emp´ıricas se aproximan cada vez m´as a las te´oricas.

Related documents