Scaling the proof of concept Expansion - HP Gen8 Client Virtualization Enterprise Reference Arc

Continuando con el ejemplo introducido en la página 5, de los adolescentes y su nivel de glucemia, vamos a trabajar con una muestra de 20 adolescentes. Las muestras deben ser por lo general de mayor tamaño, pero tomamos sólo 20 para manejar con facilidad los datos.

Ejemplo 4

Tenemos entonces un conjunto de 20 datos de la variable X la cual definimos como

X =nivel de glucemia en ayunas

medido en miligramos de glucosa por decilitro de sangre (mg/dl). Estos datos son :

98, 150, 100, 70, 80, 110, 123, 85, 115, 120 130, 110, 105, 98, 140, 81, 125, 120, 130, 126

En primer lugar, organizamos estos datos muestrales en una tabla de distribuci´on de frecuencias. Lo primero que debemos hacer es determinar los intervalos, con el fin de que los podamos interpretar de alguna forma.

Existen ciertos valores l´ımite, para distintas condiciones relacionadas con la cantidad de az´ucar en sangre en ayunas. Seg´un algunos especialistas se puede afirmar lo siguiente:

mg de glucosa por dl de sangre Condici´on 48 a 73 hipoglucemia 74 a 99 glucemia normal 100 a 125 pre-diabetes 126 a 152 diabetes

Adoptaremos la convención de construir intervalos de la forma [ , ): implica que el valor de la izquierda está en el intervalo pero no el de la derecha. Y recordando que las categor´ıas deben ser exhaustivas, nuestros intervalos serán ligeramente diferentes a los planteados en la tabla anterior:

Categor´ıas: [xi−1, xi) ni total

[48,74) _X 1

[74,100) _XXXXX 5

[100,126) _XXXXXXXXX 9 [126,152] _XXXXX 5

2.7 Variablebles cuantitativas agrupadas en intervalos 41 A la columna ni se la llama columna de frecuencias absolutas, y en ella se

colocan cuántos datos caen en cada intervalo. Una práctica común para comple- tarla, es leer uno a uno los datos y colocar una marca (_X) al lado del intervalo donde cada dato se encuentra. Luego contamos la cantidad de_Xy obtenemos ni.

Al sumar esta columna debemos obtener n: el tama˜no de la muestra.

Es importante tener en cuenta que al organizar los datos en intervalos pierdo la información de los datos originales, pero gano en un mejor ordenamiento de los datos. Por ejemplo, en la tabla veo que tengo 5 adolescentes en el intervalo [ 74, 100 ) pero a partir de la tabla no sabemos si ellos tienen cerca de 74 mg de glucosa por dl de sangre o tienen un nivel cerca de 99 mg/dl, o están distribuidas de manera uniforme a lo largo de todo el intervalo. Nosotros vamos a adoptar esta ultima hipótesis.

La tabla de frecuencias tambi´en incluye las siguientes columnas:

ci: marca de clase del intervalo: es el punto medio de dicho intervalo, que se

calcula como la semisuma de sus valores extremos.

Por ejemplo, el punto medio del primer intervalo es (48 + 74)/2 = 61. La marca de clase viene a ser el valor representativo del intervalo.

hi: frecuencia relativa del intervalo: es la proporci´on de datos que hay en ´el.

Se calcula comohi =ni/n. La suma de todos las hi es siempre 1.

Si multiplicamos hi ·100, obtenemos el porcentaje de datos en cada intervalo.

Por ejemplo, podemos ver en la tabla siguiente que el 45 % de los adolescentes poseen un nivel de glucemia tal (de entre 100 y hasta 126, no inclusive, mg de glucosa por dl de sangre) que los lleva a tener pre-diabetes.

F_i∗:Función de distribución acumulada emp´ırica: es la proporción (o porcentaje si se multiplica cada valor de F_i∗ por 100) de observaciones que existen

hastacada intervalo inclusive. Se calcula sumando, al valor hi de cada intervalo,

los valores de hi de todos los intervalos anteriores a ´el.

A partir deF_i∗, podemos decir que el 30 % de los adolescentes tienen hipoglucemia o glucemia normal (100 mg/dl o menos), lo que implica que el 70 % tienen pre- diabetes o diabetes (pues F ·100 = 0,3).

f_i∗: funci´on de densidad emp´ırica: es la frecuencia relativa por unidad de me- dida en cada intervalo. Me indica la concentraci´on o “densidad de datos” que hay en cada intervalo.

Se calcula as´ı: f_i∗ =hi/amplitud de cada intervalo. La amplitud del intervalo es

la diferencia entre el extemo superior y el inferior. Por ejemplo el primer valor de f_i∗ es 0,05/(74–48) = 0,0019 = 0,002 redondeando a tres decimales.

Categor´ıas: [xi−1, xi) ni hi Fi∗ =F∗(xi) ci f∗ [48,74) 1 0,05 0,05 61 0,002 [74,100) 5 0,25 0,3 87 0,01 [100,126) 9 0,45 0,75 113 0,017 [126,152] 5 0,25 1 139 0,01 n= 20 1

2.7.2. Gr´aficos

Histograma

El Histograma es una forma gráfica de presentar la información que nos propor- cionan los datos, acompañando la tabla de frecuencias. Nos permite, a golpe de vista, sacar algunas conclusiones más rápidamente que observando la tabla. Ese es su principal objetivo.

2.7 Variablebles cuantitativas agrupadas en intervalos 43 En el eje horizontal se indican los extremos de los intervalos. En el eje vertical van los valores def_i∗. Y se levantan “barras” encima de cada intervalo, a la altura del correspondiente f_i∗.

Observar que el ´area encima de cada intervalo (base por altura =amplitud del intervalo porf_i∗ =hi ) es su correspondiente frecuencia relativa.

El ´area total del histograma es 1, por ser la suma de todas las barras, que son las frecuencias relativashi.

Ojiva o gráfico de la función de distribución acumulada emp´ırica F_i∗

Para variables cuantitativas agrupadas en intervalos, la gráfica de F_i∗ se repre- senta como una función continua, pues trabajamos con la hipótesis de que los valores que caen dentro de cada intervalo, se consideran distribuidos uniforme- mente dentro del mismo. Por lo tanto :

1. Primero, se marcan en el gr´afico las frecuencias acumuladas en los extremos superiores de los intervalos, que son los que aparecen en la tabla. Es decir:

F∗(74) = 0,05, F∗(100) = 0,3, F∗(126) = 0,75, F∗(152) = 1

2. Y posteriormente, se trazan los segmentos que determinan dos puntos con- secutivos. Esto implica un crecimiento uniforme dentro de cada intervalo, en forma coherente con el supuesto antedicho.

Distribuciones Emp´ıricas y Te´oricas

Las distribuciones estudiadas: f_i∗ y F∗(xi) son emp´ıricas, pues son realizadas a

partir de la observaci´on de una muestra.

Existen otras distribuciones llamadas te´oricas(f(xi) yF(xi) ), que resultan de

estudios realizados con modelos probabil´ısticos e involucran los datos de toda la poblaci´on.

Se demuestra que, al aumentar el número de observaciones en las muestras, las distribuciones emp´ıricas se aproximan cada vez más a las teóricas.

In document HP Gen8 Client Virtualization Enterprise Reference Architecture for VMware View 5.1 (Page 30-34)