Capitulo_5.2011.pdf

(1)

Capítulo

V

DESCRIPCIÓN DE LOS DATOS

...

Objetivo del

Capítulo

(2)

5.1 Introducción

En cualquier análisis y/o interpretación puede usarse una variedad de mediciones descriptivas que representan las propiedades de tendencia central, variación y forma para extraer y resumir las principales características de la serie de datos. Si estas mediciones descriptivas de resumen se calculan a partir de una muestra de datos, se denominan estadísticas; si se calculan a partir de una población completa de denominan parámetros. Puesto que las investigaciones generalmente se hacen a partir de muestras, nuestro principal énfasis está puesto en las estadísticas más que en los parámetros.

Mediciones de tendencia central

La mayor parte de las series de datos muestran una clara tendencia a agruparse alrededor de un cierto punto central. cuatro medidas de tendencia central que, por lo común se emplean son: media aritmética, mediana, moda y media geométrica. La significación de estas medidas depende del tipo de escala que se utilizo para establecer los valores de la variable. Así por ejemplo, la media aritmética solo tiene sentido para variables cuantitativas.

5.2 Media aritmética (sólo se debe usar cuando la variable es de escala de intervalo o de razón)

Llamada también promedio, o medición de tendencia central más común, es la más importante de las medidas de tendencia central (MTC), representa muy bien a un grupo de datos si su distribución es simétrica y tiene poca variabilidad. Se obtiene mediante la siguiente fórmula:

Media muestral = Suma de todos los datos de la muestra Número total de datos en la muestra

n

x

X

n

i i

∑

=

1

para datos originales

n

f

y

Y

k

i i i

∑

=

1

para datos agrupados

Ejemplo 1: Sea la variable x (edad) que tiene por valores x: 10, 12, 14, 10, 11, 10, 9, 7, 9, 10. Calcular su promedio.

Sol:

10

.

2

10

102

10

...

14

12

10

+

=

∑

n

x

X

i

Interpretación: la edad promedio es de 10 años.

Nota: El promedio no es una buena medida cuando se tiene uno o más valores que se alejan demasiado de la mayoría de los datos, lo cual afecta al promedio. Para salvar esta limitación recurrimos a otra medida en la que los valores extremos no influyen “la mediana”.

5.3 Mediana "Me" (puede usarse para variables de escala o variables de escala ordinal)

Si una distribución de datos tiene un sesgo (con cola a la derecha o cola a la izquierda) es mejor utilizar una medida de tendencia central que no sea sensible a los valores extremos. Una de estas medidas es la mediana. Por lo tanto la mediana es el valor que se ubica en el centro de la distribución de los datos debidamente ordenados:

La mediana es un valor que divide a la distribución ordenada en forma ascendente o descendente en dos grupos iguales, es decir, a cada grupo le corresponde el 50% de los datos.

50% 50% Vmin ________Me_________Vmáx

Procedimiento para determinar la Mediana para datos originales 1. Se ordenan los datos en forma ascendente o descendente.

2. Si n es impar, el valor de la mediana es el valor del centro, es decir, Me=X(n+1)/2, donde (n+1)/2 es la posición de la Me.

Ejemplo:

Sea x: 12, 8, 9, 10, 8, 9, 11, 10, 13

Ordenando: 8, 8, 9, 9, 10, 10, 11, 12, 13; n = 9 es impar

5

2

10

2

1

=

+

n

;

(3)

3. Si n es par, el valor de la mediana queda como el promedio de los dos valores centrales.

Ejemplo:

X = 10, 12, 14, 10, 11, 10, 9, 7, 9, 10

Ordenando tenemos: 7, 9, 9, 10, 10, 11, 11, 11, 12, 14 n = 10; Par

5

.

10

2

11

10

=

+

=

Me

Aplicación:

A continuación se tiene el colesterol de 7 personas: 180, 260, 160, 210, 150, 190, 200. Para calcular la mediana ordenamos los datos:

150, 160, 180, 190, 200, 210, 260.

Posición de la mediana (n+1)/2= (7+1)/2 =4. Me = X4 =190.

Interpretación: 50% de las personas tienen colesterol por debajo de 190 y el 50% restante por encima de dicho valor

Mediana para datos agrupados:

Se utiliza las frecuencias absolutas acumuladas: (Fi), primero se determina:

i

F

n

F

₋

<

2

1 luego:

Donde:

LI Límite inferior de la clase mediana A Amplitud interválica de la clase mediana Fa Frecuencia acumulada anterior a la clase mediana fi Frecuencia simple de la clase mediana

n Tamaño de muestra

Ejemplo:

Calcular la mediana de la tabla IV.3 e interprétela

Sueldos mensuales (dólares) de profesionales en empresas mineras y petroleras. Perú 2005.

Sueldo($) yi Fi Fi hi Hi

320 - 370 345 4 4 6.67 6.67

370 - 420 395 8 12 13.33 20.00

420 - 470 445 12 24 * 20.00 40.00

470 - 520 495 11 35 * 18.33 58.33

520 - 570 545 10 45 16.67 75.00

570 - 620 595 9 54 15.00 90.00

620 - 670 645 6 60 10.00 100%

Total 60 100

n = 60

30

2

60

2

=

n

y 30 está entre 24 (*) y 35(*) por lo tanto cogemos el 4to intervalo=

[470 -520

〉

)

Luego LI (Límite inferior del intervalo) va a ser: 420 - 470

470 - 520 ₄₇₀

2 470 470

=

+ _{No siempre va a salir el mismo número.}

A = 50 amplitud de intervalo.

i

f

=

f

₄ = 11

Me = 10.5

(4)

27 . 497 $ 11 24 30 50

470 =      − + = Me Interpretación:

El 50% de los profesionales que laboran en el sector minero y/o petrolero ganan por debajo de $ 497.27 y el otro 50% restante por encima de dicho valor.

Nota: Cuando no se puede calcular la media aritmética por tener cuadros con intervalos indefinidos, entonces la mediana es la medida más indicada.

Ejm:

Tabla V.1. Tiempo empleado para el estudio de estadística por los alumnos del 2do año de ingeniería de Alimentos, 2006

Minutos diarios Yi Fi Fi

Menos de 5 ? 3 3

6 - 9 25 4 7

10 - 19 14.5 6 13

20 - 25 22.5 8 21

26 - 29 27.5 3 24

30 a más ? 1 25

Total 25

Media aritmética = No se puede calcular, por no contar con las marcas de clase Y1 y Y6 (sin embargo la mediana si la podemos calcular)             − + = i f Fa n A LI

Me 2 17.75

6 7 5 . 12 9 5 .

9 =      − +

n/2 = 25 / 2 = 12.5

⇒

7 < 12.5 < 13

⇒

La clase mediana corresponde al 3er intervalo.

Nota: Cuando se tienen datos cualitativos, susceptibles de ordenarse de acuerdo a rangos, calificaciones ó categorías, no se puede calcular la media aritmética, porque los datos cualitativos no presentan marcas de clase, entonces la mediana es el valor indicado.

Ejm:

Tabla V.2 Clasificaciones de los alumnos del 2do año de Ing. de Alimentos acuerdo a su rendimiento

Categorías Fi hi% Fi

Pésimo 4 10.0 4

Malo 7 17.5 11

Regular 12 30.0 23

Bueno 10 25.0 33

Excelente 7 17.5 40

totales 40 100.0

n/2 = 20 11 < 20 <23 La mediana: Me = Regular

Interpretación

El 50% de los alumnos de Ing. de Alimentos presentan un rendimiento de regular o menos y un 50% de ellos su rendimiento es mejor.

5.4 Moda:

Es el valor de la variable que se repite con mayor frecuencia, también se llama valor modal o promedio típico.

Se utiliza mayormente cuando la característica en estudio ha utilizado por lo menos escala nominal. La moda es la observación que le corresponde la mayor frecuencia.

Ejemplo: de los valores:

- 3, 5, 7, 4, 3, 5, 9, 3 M0 =3

- 1, 3, 7, 1, 4, 1, 5, 3, 7, 3 Mo1=1, Mo2=3

(5)

La mayoría de los encuestados presenta estado civil casado

Desventajas de la moda:

• Una distribución puede tener una sola moda: unimodal Dos modas: bimodal

Más de dos modas: multimodal Puede presentar ninguna moda: amodal

Distribución con una moda Distribución con dos modas

Relación entre media, mediana y moda

En la distribución de la tabla 4.2, se encontró:

y

= $500.00 Me = $497.27 Mo = 448.95 = $ 449

%

Cuando la distribución es casi simétrica, se puede utilizar la fórmula de la moda empírica dada por:

5.5 Media geométrica:

Se utiliza cuando los datos siguen una progresión geométrica. Ejemplo: crecimiento de bacterias; crecimiento de población a través del tiempo. Si se tiene un grupo de n valores, dados por: x1, x2, ..., xn , la media geométrica se define como:

_ n________ n ____ • Xg = √ x1.x2...xn = √Π xi

i=1

Ejemplo: Supongamos que un conteo bacterial se incrementa de la siguiente manera en 6 xi : 3, 9, 27, 81, 243 y 729

Calcular e interpretar la Mg:

El promedio de número de bacterias contado en 6 días es 47 Unimodal

Bimodal

449 497 500

Mo = 3Me - 2

Y

47

77

.

46

729

*

243

*

81

*

27

*

9

*

3

6

=

≅

=

(6)

Medidas de ubicación no central

Además de las mediciones de tendencia central, también existen algunas mediciones útiles de ubicación “no central” que se emplean particularmente al resumir o describir las propiedades de grandes series de datos numéricos: Las mediciones de este tipo más usadas son: los cuartiles, los deciles y los percentiles.

5.6 Cuartiles:

Los cuartiles son medidas estadísticas de posición que tienen la propiedad de dividir la serie estadística en cuatro grupos de números iguales de términos.

_75% _25%

25% 25% 25% 25%

Mínimo Cuartil 1 Mediana Cuartil 3 Máximo

Q1 Q2 Q3

Calculo para datos no agrupados:

Para el cálculo es necesario arreglar la data en orden creciente o decreciente,

Primer cuartil

Cuando n es par:

4

*

1

n

Q

=

Cuando n es impar:

4

)

1

(

1

=

n

+

Q

Tercer cuartil

Cuando n es par:

4

*

3

n

Q

=

Cuando n es impar:

4

)

1

(

3

=

n

+

Q

Aplicación:

Se emplean generalmente en la determinación de estratos o grupos correspondientes a fenómenos socio-económicos, monetarios o teóricos.

Los tres cuartiles suelen designarse con los símbolos: Q1 = primer cuartil

Q2 = segundo cuartil Q3 = tercer cuartil

5.7 Deciles

Son valores que dividen a la distribución de datos ordenados en 10 partes iguales.

5.8 Percentiles

Los percentiles son, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc. Los percentiles dividen a la distribución de datos ordenados en 100 partes iguales.

Aplicación

(7)

Autor: Instituto de investigación sobre crecimiento y desarrollo:

http://www.nutricion.org/publicaciones/pdf/antropometria/f_orbegoso_04.pdf

Calculo de los percentiles para datos agrupados:

Pk =

      

     ₋

+

i f

Fa n k A

LI 100

) (

Ejemplo: Calcular el percentil 85 de la tabla IV.3

Sueldo($) fi Fi

320 – 370 4 4

370 – 420 8 12

420 - 470 12 24

470 – 520 11 35

520 – 570 10 45

570 - 620 * 9 54

620 – 670 6 60

Total 60

P₈₅ =

      

   

 ₋

+

9 45 100

) 60 ( 85

50

(8)

Interpretación: El 85 % de los profesionales que laboran en el sector minero tienen un ingreso de $870 o menos, y un 15% de ellos gana más de esta cantidad.

Medidas de variabilidad

Una segunda propiedad importante que describe una serie de datos numéricos es la variación. La variación es la cantidad de dispersión o variabilidad de los datos con respecto a su promedio (Estas medidas permiten verificar si determinadas medidas de tendencia central son significativas o no; por ejemplo cuando la dispersión es muy grande la media aritmética no tiene mucho significado). Las medidas de dispersión se usan muchas veces como una medida de riesgo. Las ganancias de una empresa que son extremadamente grandes pero también extremadamente pequeñas (incluso negativas) indican un riesgo muy alto para los accionistas y acreedores de la empresa. Las medidas de dispersión constituyen el corazón de la información. Dos series de datos pueden diferir tanto en la tendencia central como en su variación; así también dos o más grupos pueden tener las mismas mediciones de tendencia central, pero diferir grandemente en términos de variación. Así por ejemplo:

Ejemplo:

Sean las variables: X1 = notas obtenidas por los alumnos del primer año de Psicología en el curso de estadística:

12, 15, 10, 13, 16, 14, 11, 10, 12, 14

⇒

X

₁

=

12

.

7

X2 = notas obtenidas por los alumnos del primer año de Nutrición en el curso de estadística:

18, 15, 20, 03, 06, 18, 11, 20, 02, 14

⇒

X

₂

=

12

.

7

Las dos distribuciones presentan los mismos promedios, sin embargo se puede observar que la distribución de la variable X1 es mucho menos variable que la variable X2, ¿cuánto más o menos variable?; lo responderemos con las mediciones de variación, entre las cuales estudiaremos al: rango, la desviación cuartil, la varianza, la desviación estándar y el coeficiente de variación.

Las medidas de dispersión se necesitan para dos propósitos básicos: a) Para verificar la confiabilidad de los datos.

b) Para que sirva como base para el control de la variación misma.

5.9 El rango: R

El rango es la diferencia entre la mayor y la menor observación en una serie de datos. Esto es,

R = Xmayor - Xmenor

Usando la distribución X1 del ejemplo anterior tenemos: R = 16 – 10 = 6

12, 15, 10, 13, 16, 14, 11, 10, 12, 14

Siendo que el rango sólo mide la propagación total de una serie de datos, su cálculo es muy simple y su utilidad tiene muy poco alcance, puesto que no nos dice mucho acerca de cómo se distribuyen realmente los datos.

5.10 Desviación cuartil: Q

La desviación cuartil o rango semiintercuatílico es la medida de dispersión respecto a la mediana o percentil 50 (P50). La distancia entre el tercer cuartil o percentil 75 (P75) y el primer cuartil o percentil 25 (P25) o sea (P75- P25) se llama rango intercuartílico, RIC (interquartile range), luego:

RIC = P75 – P25 = Q3 – Q1

A la mitad de esta distancia se denomina desviación cuartil. Luego:

=

−

=

2

1 3

Q

Q es una medida de variabilidad útil y su cálculo es simple. Para propósitos descriptivos es definitivamente superior a R, excepto en cuanto a la simplicidad de cálculos.

(9)

5.11 Varianza y desviación estándar

Estas mediciones evalúan la forma en que los valores fluctúan alrededor de la media. Una medida de dispersión cuantifica el grado de variabilidad o dispersión de los datos respecto a la medida de tendencia central correspondiente. Una medida de tendencia central siempre debe informarse con la medida de dispersión correspondiente

• Definición de la varianza muestral: Es el promedio de las diferencias cuadradas entre cada una de las observaciones en una serie de datos y la media

i) datos sin agrupar:

S2 =

1

)

(

1 2

−

∑

=

n

X

n i i

Formula práctica: S2 =

1

1 2 2

−

∑

=

n

X

n

X

n i i Donde:

X

= media aritmética de la muestra n = tamaño de muestra

Xi = iésimo valor de la variable aleatoria X

2 1

)

(

∑

=

−

n i i

X

= Sumatoria de todas las diferencias cuadradas entre Xi y

X

• Definición de la desviación estándar muestral: Es la raíz cuadrada de la varianza muestral. Mide la variabilidad de los datos con respecto a la media.

Ejemplo: Usando la distribución X1 del ejemplo anterior tenemos:

12, 15, 10, 13, 16, 14, 11, 10, 12, 14

⇒

∑

x

i

=

127;

1651

;

2

=

∑

x

X

= 12.7 reemplazando,

⇒

S2 =

4

.

23

4

.

23

2

.

057

9

)

7

.

12

(

10

1651

2

=

⇒

=

−

S

(desviación estándar)

Nota: Si el denominador hubiera sido n en lugar de n-1, se hubiera obtenido el promedio de las diferencias cuadradas alrededor de la media. Sin embargo, n – 1 se usa cuando se trabaja con muestras pequeñas (n < 30), si el tamaño de muestra es grande (n

≥

30) la división entre n o n – 1 realmente no hace mucha diferencia.

ii) datos agrupados:

S2 =

1

1 2 2

−

∑

=

n

Y

n

f

y

n i i i

Ejemplo (tabla IV.3): Sueldos mensuales (dólares) de profesionales en empresas mineras y petroleras. Perú 2005

Sueldo($) Yi fi Fi

320 – 370 345 4 4

370 – 420 395 8 12

420 – 470 445 12 24

470 – 520 495 11 35

520 – 570 545 10 45

570 – 620 595 9 54

620 – 670 645 6 60

Total 60

Fuente: Planilla de sueldos Desarrollo de la formula:

=

∑

y

f

i

2

15448500

=

(10)

n = 60

Reemplazando tenemos:

760169 $ 59

) 500 ( 60 15448500 2

2 = − =

S

⇒

S = 760169 =$ 87.19

$ 87.19 de variabilidad con respecto al promedio.

5.12 Coeficiente de variación

La desviación estándar y la variancia son medidas de variación absoluta, o sea, que miden la cantidad real de variación presente en un conjunto de datos dependiendo de la escala de medición.

Si se busca comparar la variación en varios conjuntos de datos es preferible valerse de una medida de variación relativa como el coeficiente de variabilidad o variación, la misma esta expresado en un porcentaje de la media de la desviación estándar. De dos grupos de datos, el más homogéneo es el que tiene menor coeficiente de variación.

CV =



100











x

S

%

Donde: S = desviación estándar

x

= media aritmética

El CV es útil para comparar la variabilidad relativa de datos de dos o más distribuciones de variables diferentes. Así, si se desea comparar la variabilidad de los pesos (kg), y talla (cm) de recién nacidos; habría que calcular, para cada variable, el CV y aquella que presente menor CV porcentual, es la más homogénea.

Regresando a los datos de las variables del ejemplo anterior tenemos:

X1: 12, 15, 10, 13, 16, 14, 11, 10, 12, 14

X

= 12.7,

S

=

2

.

057

reemplazando,

CV =

100

7

.

12

057

.

2













= 16.20%

X2: 18, 15, 20, 03, 06, 18, 11, 20, 02, 14

7

.

12

=

X

, S = 6.881, reemplazando,

CV = ₁₀₀

7 . 12

881 . 6

    

 _{= 54.18%}

Comparando las dos distribuciones se puede observar que la variable X2 presenta un CV de 54.18%, mientras que la variable X1 tiene un CV de 16.20% de variabilidad con respecto a sus promedios. Por lo tanto podemos inferir que el grupo presenta una distribución homogénea, mientras que el grupo dos presenta una variabilidad excesiva.

Como una medición relativa, el coeficiente de variación es particularmente útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas unidades de medición. Por ejemplo cuando se quiere comparar ingresos de los docentes universitarios de Perú comparándolo con los docentes universitarios de EEUU (diferente escala de medida, mientras el sueldo en Perú es en soles, en Norteamérica es en dólares).

Nota: Tome esta información sólo como referencia aproximada: Cuando CV ≤ 10%, poca variabilidad;

(11)

Medidas de forma

5.13 Coeficiente de asimetría: Sesgo de Pearson

Cuando los datos de una población se distribuyen con igual frecuencia y alejamiento por debajo y por encima de la media aritmética, se dice que la distribución es simétrica; pero, si los datos por debajo de la media son más frecuentes que aquellos por encima de la media, o viceversa, se dice que la distribución es asimétrica.

Cuando las tres medidas son iguales o casi iguales se trata de una distribución simétrica o aproximadamente simétrica; Existen medidas de asimetría de las distribuciones como el coeficiente de asimetría de Pearson (A)

s

Me

x

A

=

3

(

−

)

s = desviación estándar de la distribución.

Si A = 0, es decir, _

x

= Me, la distribución es simétrica Si A es positiva “la distribución está sesgada a la derecha” Si A es negativa “la distribución está sesgada a la izquierda”

En general, toda distribución que tiene aproximadamente Y = Me = Mo se dice que es SIMÉTRICA, en otro caso sería ASIMÉTRICA.

5.14 Medida de apuntamiento: Curtosis

Una característica importante de la variación de algunas distribuciones es su grado de agudeza en la cima de la curva que la representa. Esta agudeza que se observa en la región de la moda, comparada con las condiciones halladas para el mismo sitio en la curva normal, es lo que se llama kurtosis o curtosis.

Si la curva es más plana que la normal, la distribución se llama achatada o platicúrtica y si es más aguda lleva el nombre de apuntada o leptocúrtica. Si la curva es normal será mesocúrtica.

Se define como:

10 90

25

75

)

(

5

.

0

P

K

−

=

Si el coeficiente de curtosis tiende aproximadamente a 0.5; esto es, si las diferencias

P

₇₅

−

P

₂₅

y

P

₉₀

−

P

₁₀ son aproximadamente iguales, la curva se llama leptocúrtica.

De igual manera si K es aproximadamente igual a 0.263 diremos que la curva correspondiente a la distribución de frecuencias es mesocurtica, si es menor a k<0.263 la curva es platicurtica, si k>0.263 Leptocurtica

Otra medida de apuntamiento es el coeficiente de apuntamiento de Fisher. La mayoría de los softwares estadísticos presentan este coeficiente.

Sesgo negativo

Mo

Me

X

<

Sesgo positivo

(12)

Medidas de resumen para variables cualitativas

Las medidas de resumen empleadas para variables cualitativas son: • Proporción

• Razón • Tasa

5.15 Proporción: Es el cociente entre el número de elementos de un subconjunto y el número de elementos del conjunto al que pertenece dicho subconjunto. En este caso el numerador está incluido en el denominador, por este motivo los valores siempre van a ser menores que la unidad.

Por ejemplo,

• Si en la población hubo 175 casos de cáncer pulmonar de un total de 1925 casos de todos los tipos de cáncer, la proporción se calculará.

175 / 1925 = 0.09

• Proporción de muertes por triquinelosis (Letalidad): nº de fallecidos por triquinelosis

nº total de afectados por triquinelosis

5.16 Razón: Es el cociente entre dos cifras de diferentes o similar naturaleza en donde el numerador y el denominador son excluyentes.

Por ejemplo,

• Si tenemos 380 camas hospitalarias y 95 enfermeras y queremos encontrar la razón entre ellas, tenemos que dividir:

380 camas hospitalarias / 95 enfermeras = 4 camas/enfermera

Este número constituye un valor que refleja una relación. Indica que por cada enfermera hay cuatro camas hospitalarias.

• Coste por paciente del tratamiento de triquinelosis en un área sanitaria: R= coste total del tratamiento por triquinelosis en un área

nº de pacientes tratados por triquinelosis en esa área

5.17 Tasa: Es un tipo especial de proporción o de razón que incluye una medida de tiempo en el denominador. El concepto de tasa está asociado con la rapidez de cambio de un fenómeno por unidad de una variable (tiempo, temperatura, presión).

La utilización de tasas permite comparar experiencias entre poblaciones en diferentes tiempos, lugares o entre diferentes tipos de personas.

Normalmente se habla de tasas medias al ser difícil calcular la instantánea

Consta de numerador, denominador, un tiempo específico y normalmente un multiplicador (potencia de 10) que convierte la fracción en número entero. El rango: desde 0 a infinito.

• Morbilidad por triquinelosis en un área geográfica:

(13)

PROBLEMAS DE REPASO DEL CAPÍTULO

Marcar con una x la alternativa correcta en las preguntas de la n° 1- 8

1. La medida de tendencia central adecuada para resumir datos cuantitativos medidos en escala ordinal, es: ( ) Razón

( ) Media aritmética ( ) Percentil 50 ( ) Moda

2. La medida de resumen en la que numerador es parte del denominador, es: ( ) Proporción

( ) Media aritmética ( ) Percentil 50 ( ) Moda

3. En el aula se tiene un total de 23 estudiantes, tres son de sexo masculino, la razón de masculinidad en el aula, es: ( ) 6.67

( ) 0.15 ( ) 0.10 ( ) 1.15

4. Para una variable cuantitativa discreta, medida en escala de razón con tendencia a la simetría, la medida de tendencia central que debe usarse, es:

( ) Moda

( ) Media aritmética ( ) Mediana

( ) Cualquiera de las anteriores

5. Si el nivel de colesterol total de un paciente, en un consultorio médico, es de 298 y es igual al percentil 90, esto indica que:

( ) El 10% de los pacientes tienen menos de 298 de colesterol total ( ) El 90% de los pacientes tienen más de 298 de colesterol total ( ) El 10% de los pacientes tienen más de 298 de colesterol total ( ) El 10% de los pacientes tienen 298 de colesterol

6. En cierto país para cada 25200 recien nacidos hay un médico pediatra. Este indicador es, ( ) Proporción

( ) Una tasa ( ) Una razón

( ) Ninguna de las anteriores

7. Los siguientes datos son variaciones de frecuencias cardiacas de una muestra de 7 pacientes después de un tratamiento: 6, 0, -1, -2, 3, -1, 2. La media aritmética es:

( ) 0 ( ) -1 ( ) 1 ( ) 0.1

8. El rango total de la pregunta anterior, es: ( ) 6

( ) 8 ( ) 0 ( ) 4

En una encuesta aplicada a profesionales de salud sobre “Estilos de vida” se obtuvo: (contestar pregunta 9_11)

Profesión

Estilos de vida

Total Buenos Regulares Malos

Enfermería 80 100 90 270

Obstetricia 50 70 110 230

(14)

9. De los de Obstetricia, el porcentaje de los que tienen buenos estilos de vida, es: ( ) 47.8%

( ) 21.7% ( ) 16.0% ( ) 29.6%

10.La proporción de enfermeros, es: ( ) 0.54

( ) 54% ( ) 1.17 ( ) 0.50

11.La razón de enfermeros por obstetrices, es: ( ) 1.17

( ) 0.85 ( ) 0.54 ( ) 0.46

Usando la data “trabajo sav”

12.Llevar a cabo un análisis descriptivo de la variable b3 (horas de trabajo semanales), b4 (años de antigüedad en la

empresa) y c2 (edad).

a. Calcular e interpretar los siguientes estadísticos

Variables Media Mediana

percentil 75

Desviación típica

Coeficiente de variación

Míni

mo Máximo Simetría Curtosis

HORAS

ANTIGÜEDAD

EDAD

b. Si dividimos la muestra en 5 partes iguales, vemos que el 20 % de los empleados más antiguos llevan más de ___ años

en la empresa, mientras que el 20% de los empleados con menos antigüedad en la empresa llevan ____ años o menos

trabajando en la misma. Por otro lado, hay un 20% de individuos que declara trabajar más de ___horas semanales. El

20% central de la muestra trabaja entre ___ y ___ horas a la semana.

c. Ciñéndose a la variable b3 (horas de trabajo semanales), ¿Qué porcentaje de los casos válidos de la muestra trabaja

exactamente 40 horas semanales? _______%, ¿Qué porcentaje, también sobre las respuestas válidas, trabaja menos de

40 horas semanales? ____% y ¿41 o más horas semanales?________%

d. Sorprende que hay _____ personas (un _____% del total de casos válidos) que declaran trabajar 98 horas a la semana.

Otros coeficientes de interés de la variable horas de trabajo semanal son: una curtosis de ______ que indica un tipo de

curva __________ y esto significa __________________________________________

________________________________________, una media aritmética de ______ y una desviación típica de

_______, con un coeficiente de variación de_____% lo que indica ¿mucha o poca variabilidad?

_______________.desde el punto de vista de la simetría, un coeficiente de _puntos nos da idea de un ligero sesgo

positivo, pero dentro de los valores normales.

e. La variable b4 (años de antigüedad en la empresa). El ___% de los casos válidos de la muestra llevan 3 o menos años

en la empresa, en tanto que solamente un _______% llevan 40 o más años de antigüedad. ¡Sorprende! Una desviación

típica de ____puntos para una media de antigüedad de _____años (comparar con las horas o la edad). Hay un

encuestado que manifiesta llevar en la empresa 67 años. Por curiosidad, se trata de un individuo nacido en

_____________, que vive en_________________ y de _______años de edad (quiere decir que a los 12 ya estaba

(15)

f. La persona más adulta que ha contestado la encuesta tiene ______años pero hay en la muestra la nada despreciable

cifra de un ________% de personas que tienen 80 años o más.

13.Realizar los mismos análisis del ejercicio 3, pero seleccionando sólo de la muestra los trabajadores que trabajan en

plañilla (plantilla) de más de 500 trabajadores:

a. ¿Cuántos trabajadores de la muestra trabajan en empresas con más de 500 empleados? ________

b. Completar la siguiente tabla:

percentil 75

Desviación típica

Mínim

o Máximo Simetría Curtosis

HORAS

ANTIGÜEDAD

EDAD

c. Analizar los estadísticos para esta submuestra y compararlos con los mismos estadísticos obtenidos para el total de la

muestra. Sacar conclusiones con respecto a la distribución de esta submuestra de casos:

_______________________________________________________________________________________________

_____________________________________________________________________________

Nota: para realizar el ejercicio 4 aquí tiene el proceso: (Datos< seleccionar casos< Si satisface la condición> pasar la

variable que deseamos seleccionar y como los que trabajan en plantillas de más de 500 trabajadores tiene código 7

colocamos el signo mayor o igual para seleccionar sólo lo que deseamos:

14.Volver a incluir a todos los individuos de la muestra en el análisis. Realizar los mismos análisis del ejercicio 3, pero de

forma separada para el grupo de mujeres y para el grupo de hombres.

Completar la siguiente tabla referida a la submuestra de hombres:

percentil 75

Desviación típica

Míni

HORAS

ANTIGÜEDAD

(16)

Completar la siguiente tabla referida a la submuestra de mujeres:

percentil 75

Desviación típica

Míni

HORAS

ANTIGÜEDAD

EDAD

Comparar los diferentes estadísticos para ambos grupos y sacar conclusiones con respecto a las respectivas

distribuciones:

_______________________________________________________________________________________________

_____________________________________________________________________________

Nota. Proceso para trabajar la pregunta 5: Datos < segmentar archivo <comparar los grupos<pasar la variable

sexo<aceptar

15.Para la variable C17: Un total de _______ personas (un______% del total) no han contestado a la pregunta C17

Referida a los ingresos mensuales. Solamente hay ____ personas (un _____% del total de la muestra y un ______% de

los que responden) que manifiestan ingresar en su hogar más de 2 700 euros al mes.

16.Hay tres preguntas en el cuestionario (a13, a14, a15) que permiten evaluar cómo ve cada entrevistado como van las cosas

en España en el momento de la entrevista, en el pasado (hace un año) y en el futuro (dentro de un año). Calcular los

descriptivos para las tres variables y sacar conclusiones.

17.Las variables a10 hasta la a18, corresponden a la valoración que cada individuo hace (sobre una escala de Catril de 0 a 10)

del presente, pasado y futuro respecto a su propia vida (a10, a11, a12), respecto a España (a13, a14, a15) y respecto al mundo

(a16, a17, a18).

Para las variables en las que el individuo valora cómo cree que irán las cosas en el futuro (dentro de un año) en su propia vida (a12), en España (a15) y del mundo (a18), realizar los siguientes análisis exploratorios:

• Gráfico Stem-and-leaf (tallo y hojas)

• Gráfico Box-Plot (cajas y bigotes)

• Histograma

(17)

a12: _______________________________________________________________________________________

a15: ________________________________________________________________________________________

a18_________________________________________________________________________________________

b. ¿Cuántas unidades representa cada cifra en la parte Stem? ________¿Cuántos casos incluye cada símbolo que aparece

en la parte leaf? ______

c. Observando la distribución de las frecuencias (tabla, Stem-and-leaf o histograma) y los estadísticos de las tres

variables, en general ¿En cuál de los tres aspectos se muestran los encuestados más optimistas? ¿En cuál de los tres

aspectos se muestran más pesimistas? Razonar la respuesta

d. El 50% de los individuos de la muestra puntúa su propio futuro por encima de _____puntos

El 50% de los individuos de la muestra puntúa el futuro de España por encima de _____puntos

El 50% de los individuos de la muestra puntúa el futuro del mundo por encima de _____puntos

Sólo hay ______individuos que hayan puntuado con un 10 el futuro de España, al igual que ocurre con el futuro del

mundo, que sólo____ individuos han puntuado con 10, mientras que hay un total de _______ individuos que han dado

la puntuación máxima respecto de su propio futuro.

e. Visualizar los gráficos Box Plot de las tres variables, y comprobar que se confirman las tendencias que hemos

observado en los apartados anteriores. Observar cómo se representan los valores extremos y que otro análisis se puede

concluir a partir del grafico Box Plot

18.Para la variable edad (c2), realizar los siguientes análisis exploratorios:

• Gráfico Stem-and-leaf (tallo y hojas)

• Gráfico Box-Plot (cajas y bigotes)

• Histograma

• Percentiles

• Tabla de frecuencia agrupada por intervalos

a. ¿Cuántas unidades representa cada cifra en la parte Stem? _____¿Cuántos casos incluye cada símbolo que aparece en

la parte leaf? ______

b. El 5 por 100 de personas más jóvenes de la muestra no superan los ____años de edad, mientras que el 5 por 100 de

personas de más edad superan los ____ años. El 50 por 100 de los empleados de la muestra tienen _____años o

menos.

Recodificar la variable c2 (edad) en otra nueva variable, con 8 intervalos de clase de igual amplitud, y cuyos valores

sean: 18 – 27, 28 – 37, 38 – 47, …hasta el último 88 – 97. Responder a las siguientes preguntas en relación a la tabla

de frecuencias generada con esta nueva variable:

c. El intervalo con la frecuencia más alta es el intervalo _____ a _______ años, que contiene a ___________individuos

de la muestra (__________%). En total hay un _______% de individuos que no superan esa edad.

d. Observar el Histograma correspondiente a la variable edad. Comprobar que presenta una asimetría positiva, que

podemos confirmar con el valor del coeficiente de simetría ________.

e. Observar el gráfico Box Plot de la misma variable. Ver como aparece representada esta misma tendencia por la

posición de la caja central.

19. Realizar el gráfico Box Plot para la misma variable edad, pero representado simultáneamente en el gráfico dos grupos:

(18)

20.La tabla siguiente muestra los puntajes obtenidos por muestras aleatorias de fumadores y no fumadores en una prueba

diseñada para medir el nivel de neurosis

Fumadores: 21 33 15 31 22 15 29 33 18 21 22

No fumadores: 13 16 17 26 19 27 22 28 20 15 10

a. ¿Podríamos concluir en base a estos datos que los no fumadores tienden a tener puntajes más bajos de neurosis que los

fumadores?

b. A través del coeficiente de variación se podría determinar si los fumadores presentan mayor variabilidad con respecto

a los no fumadores

c. Encontrar, comparar e interpretar el coeficiente de asimetría y curtosis de las distribuciones

21.Los siguientes datos son los niveles de glucosa en la sangre extraída a un grupo de pacientes en ayunas, los datos fueron

tomados al azar de los archivos del departamento de estadística del hospital Hermilio Baldizan

60 65 56 62 58 63 56 66 69

76 73 61 57 72 65 68 61 65

61 63 72 76 60 69 62 67 68

74 75 65 80 59 60 64 73 66

80 61 65 73 68 55 62 75 71

56 60 65 56 62 58 63 56 66

a. Determinar e interpretar los percentiles 25, 80

b. Determinar el nivel promedio de glucosa en la sangre y su variabilidad.

c. Encontrar la mediana y la moda e interpretarlos.

d. Determinar e interpretar la curtosis y grado de asimetría de la distribución

e. Determinar las medidas de variabilidad e interpretar

22.Los precios de un mismo medicamento en 10 farmacias de un distrito fueron los siguientes: (en soles)

19, 20, 20, 23, 25, 21, 20, 22, 24

Hallar e interpretar:

a. El precio promedio del medicamento

b. Hallar las medidas de dispersión estudiadas en clase

c. Determinar las medidas de posición

d. Determinar las medidas de asimetría y curtosis