Managing Files and Sets
5.2.3 File Pre-Analysis
12.1. Ejercicio resuelto
1.1 Para realizar un determinado experimento se ha medido la anchura interorbital, en mm., de una muestra de 40 palomas, obteni´en- dose los siguientes datos:
12’2, 12’9, 11’8, 11’9, 11’6, 11’1, 12’3, 12’2, 11’8, 11’8 10’7, 11’5, 11’3, 11’2, 11’6, 11’9, 13’3, 11’2, 10’5, 11’1 12’1, 11’9, 10’4, 10’7, 10’8, 11’0, 11’9, 10’2, 10’9, 11’6 10’8, 11’6, 10’4, 10’7, 12’0, 12’4, 11’7, 11’8, 11’3, 11’1 Se pide:
a) Construya una distribuci´on de frecuencias y calcule la media, desviaci´on t´ıpica y coeficiente de variaci´on.
b) Agrupe los datos en intervalos con la amplitud m´as ade- cuada, calculando de nuevo los par´ametros anteriores y compar´andolos con los resultados obtenidos a partir de los datos no agrupados. Dibuje el histograma.
1.12 Ejercicios 41 c) ¿En qu´e intervalo de centro la media se encuentra, al menos, el 75 % de la distribuci´on?
d) Calcule la mediana y la moda.
e) Obtenga el intervalo donde se encuentra el 40 % central de la distribuci´on.
f) Estudie la simetr´ıa y el apuntamiento de la distribuci´on. Soluci´on:
a) La distribuci´on de frecuencias ser´ıa:
xi ni xi ni xi ni xi ni 10�2 1 11�0 1 11�7 1 12�2 2 10�4 2 11�1 3 11�8 4 12�3 1 10�5 1 11�2 2 11�9 4 12�4 1 10�7 3 11�3 2 12�0 1 12�9 1 10�8 2 11�5 1 12�1 1 13�3 1 10�9 1 11�6 4
Gr´aficamente dicha distribuci´on puede presentarse mediante el pol´ıgono de frecuencias de la figura 1.9.
Para calcular la media: ¯x = r � i=1 xini n = 459�2 40 = 11�48 mm
Es conveniente comprobar siempre que la media es un valor ra- zonable y, en particular, dentro del rango de valores de la variable. En nuestro caso 10�2 < 11�48 < 13�3.
La desviaci´on t´ıpica vendr´ıa dada por: S = � � � ��r i=1 x2ini n − ¯x 2 = � 5290�28 40 − (11�48)2 = √0�4666 = 0�6831 mm
Figura 1.9: Pol´ıgono de frecuencias Y el coeficiente de variaci´on: CV = S |¯x| = 0�6831 11�48 = 0�0595.
El bajo valor del coeficiente de variaci´on indica que los valores est´an muy concentrados y que la media representa aceptablemente al conjunto de la distribuci´on. En general, valores de CV menores a 0�1
indican una alta concentraci´on, entre 0�1 y 0�5 una concentraci´on media
y valores superiores a 0�5 una alta dispersi´on y una media poco o nada
representativa.
Observe que tanto la desviaci´on t´ıpica como el coeficiente de va- riaci´on son medidas positivas.
b) Para agrupar la distribuci´on en intervalos se elige un n´umero de ´estos alrededor de √n, en nuestro caso √40 = 6�32 � 7. Los
intervalos son de amplitud aproximada: Recorrido
No de intervalos =
13�3 − 10�2
1.12 Ejercicios 43 Buscando siempre que sea un valor f´acil de manejar, en este caso se opta por una amplitud de 0�5. La distribuci´on en intervalos quedar´ıa:
xi [Li−1, Li) ni 10�25 [10, 10�5) 3 10�75 [10�5, 11) 7 11�25 [11, 11�5) 8 11�75 [11�5, 12) 14 12�25 [12, 12�5) 6 12�75 [12�5, 13) 1 13�25 [13, 13�5) 1
donde ahora xi representa la marca de clase.
A partir de estos datos se tiene: ¯x = 11�5mm, S = 0�6708mm y
CV = 0�0583. Con peque˜nas variaciones respecto a los valores obtenidos para la distribuci´on original, en todo caso, perfectamente asimilables y habi´endose conseguido una mayor facilidad de c´alculo.
El histograma se representa en la figura 1.10. Como se puede apre- ciar la informaci´on visual que proporciona es mucho m´as clara que la que dar´ıa el pol´ıgono de frecuencias, a todas luces ininteligible. Se trata de una distribuci´on unimodal y un poco tendida hacia la derecha, aunque esto se cuantificar´a m´as adelante.
c) Para contestar a esta cuesti´on se utiliza la desigualdad de Tchebychev, que dice:
f (|xi− ¯x| ≤ kS) ≥ 1 −
1 k2.
Para k = 2, 1 − 1
k2 = 0�75, por lo que operando con el valor absoluto, el
intervalo ser´a:
Figura 1.10: Histograma
d) Para calcular la mediana se obtiene la columna de fre- cuencias acumuladas: xi (Li−1, Li] ni Ni 10�25 10 − 10�5 3 3 10�75 10�5 − 11 7 10 11�25 11 − 11�5 8 18 11�75 11�5 − 12 14 32 ← 12�25 12 − 12�5 6 38 12�75 12�5 − 13 1 39 13�25 13 − 13�5 1 40
La mediana se encuentra en aquel intervalo tal que Ni ≥ n2 = 20,
por tanto Me∈ (11�5, 12], por lo que utilizando la f´ormula apropiada, se
tiene: Me= Li−1+ n 2 − Ni−1 ni ai= 11�5 +20 − 1814 0�5 = 11�5714 mm
Por lo que 11�5714 deja el 50 % de la distribuci´on a la izquierda y el otro
1.12 Ejercicios 45 Para calcular la moda, puesto que los intervalos son de igual am- plitud, se selecciona aquel que tenga mayor frecuencia, en este caso el (11�5, 12] que tiene frecuencia 14, y se aplica la f´ormula correspondiente:
Mo= Li−1+n ni+1 i−1+ ni+1
ai= 11�5 +
6
6 + 80�5 = 11�7143 mm e) El 40 % central de la distribuci´on est´a contenido en el in- tervalo (P30, P70). El percentil P30se encuentra en el intervalo (Li−1, Li]
para el que se verifica que Ni ≥ 30100·40 = 12. Observando la columna
de frecuencias acumuladas se ve que dicho intervalo es el (11, 11�5]. Por
tanto:
P30= 11 + 12 − 108 0�5 = 11�125.
Operando de forma an´aloga:
P70= 11�5 +28 − 1214 0�5 = 11�8571.
Por lo que el intervalo pedido ser´a el (11�125, 11�8571).
f) Puesto que la distribuci´on tiene forma de campana el coeficiente de simetr´ıa viene dado por:
As= ¯x − Mo
S =
11�5 − 11�7143
0�6708 = −0�319.
Por lo que la distribuci´on est´a ligeramente inclinada hacia la derecha. El coeficiente de apuntamiento: g2 = m4 S4 = 1 40 7 � i=1 (xi− ¯x)4fi (0�6708)4 = 0�400488 0�202475 = 1�97796.
Al ser g2< 3 la distribuci´on es platic´urtica, es decir, m´as aplastada que
12.2. Ejercicios propuestos
1.1. Al comenzar el curso se pas´o una encuesta a los alumnos del primer curso de un colegio, pregunt´andoles, entre otras cuestiones, por el n´umero de hermanos que ten´ıan, obteni´endose los siguientes resultados:
3, 3, 2, 2, 8, 5, 2, 4, 3, 1, 4, 5, 3, 3, 3, 3, 3, 2, 5 1, 3, 3, 2, 2, 4, 3, 3, 2, 2, 4, 4, 3, 6, 3, 3, 2, 2, 4 3, 4, 3, 2, 2, 4, 4, 3, 3, 4, 2, 5, 4, 1, 2, 8, 2 ,3, 3, 4
a) Represente este conjunto de datos con un diagrama de barras.
b) Calcule media, moda y mediana. c) Estudie la dispersi´on de los datos. d) Analice la simetr´ıa de la distribuci´on. 1.2. Los pesos de un colectivo de ni˜nos son:
60, 56, 54, 48, 99, 65, 58, 55, 74, 52, 53, 58, 67, 62, 65 76, 85, 92, 66, 62, 73, 66, 59, 57, 54, 53, 58, 57, 55, 60 65, 65, 74, 55, 73, 97, 82, 80, 64, 70, 101, 72, 96, 73, 55
59, 67, 49, 90, 58, 63, 96, 100, 70, 53, 67, 60, 54 Obtenga:
a) La distribuci´on de frecuencias agrupando por intervalos. b) La mediana de la distribuci´on.
c) La media de la distribuci´on, indicando su nivel de repre- sentatividad.
d) Utilizando la agrupaci´on en intervalos, el porcentaje de alumnos que tienen un peso menor de 65 kg y el n´umero de alumnos con un peso mayor de 60 kg dentro del grupo de los que pesan menos de 80 kg.
1.3. En el Consejo de Apuestas del Estado se han ido anotando, durante una temporada, el n´umero de premiados de quinielas seg´un la cantidad de aciertos, obteni´endose la siguiente tabla:
No de aciertos 11 12 13 14 15
1.12 Ejercicios 47 Calcule:
a) La mediana, la moda y los cuartiles de la distribuci´on. b) La simetr´ıa de la distribuci´on.
1.4. En un puerto se controla diariamente la entrada de pes- queros seg´un su tonelaje, resultando para un cierto d´ıa los siguientes datos:
Peso(Tm.) 0-25 25-50 50-70 70-100 100-500
No de barcos 5 17 30 25 3
Se pide:
a) El peso medio de los barcos que entran en el puerto diariamente, indicando la representatividad de dicha medida.
b) El intervalo donde se encuentra el 60 % central de la distribuci´on.
c) El grado de apuntamiento.
d) El tonelaje m´as frecuente en este puerto.
1.5. El n´umero de d´ıas de hospitalizaci´on de los enfermos que llegan en un cierto d´ıa a un servicio de urgencias, viene dado por:
No de d´ıas 0-1 2-5 6-8 9-15
No de enfermos 53 24 16 7
Se pide:
a) Un coeficiente que represente la distribuci´on indicando dicho nivel de representatividad.
b) El porcentaje de enfermos que se quedan hospitalizados m´as de 5 d´ıas.
c) El valor que divide a la distribuci´on en dos partes iguales. 1.6. Seg´un un estudio se sabe que la planificaci´on ´optima de una determinada empresa exige que el 70 % sean administrativos, el 25 % je- fes de departamento y el 5 % inspectores. Para realizar esta planificaci´on se lleva a cabo un examen tipo test, obteni´endose las siguientes puntua-
ciones: Puntuaci´on Empleados [0,20) 70 [20,50) 115 [50,75) 95 [75,100) 5
a) ¿C´ual es la puntuaci´on m´ınima para ser jefe de departa- mento?
b) ¿Y para ser inspector?
1.7. Para la selecci´on de personal en dos empresas se realiza un test obteni´endose las siguientes puntuaciones porcentuales:
Factor´ıa I Factor´ıa II
Puntuaci´on Porcentaje Puntuaci´on Porcentaje
[0,10] 0’07 [10,20] 0’08 [11,19] 0’25 [21,25] 0’16 [20,28] 0’38 [26,30] 0’20 [29,41] 0’19 [31,39] 0’28 [42,50] 0’11 [40,44] 0’23 [45,50] 0’05
a) ¿Cu´al de las dos factor´ıas ha sido menos homog´enea en los resultados?
b) ¿Qu´e persona ha tenido una puntuaci´on mayor con res- pecto a su factor´ıa: el que ha obtenido 35 en la factor´ıa I o el que con- sigui´o 38 en la II?
1.8. La vida ´util de cierto tipo de bombonas de gas presenta la siguiente distribuci´on:
Horas Fracci´on de bombonas
[10,30) 0’04
[30,40) 0’27
[40,50) 0’34
[50,70) 0’26
1.12 Ejercicios 49 Calcule:
a) La vida media de las bombonas de gas. b) El tiempo de vida m´as frecuente.
c) El intervalo, con centro la media, donde se encuentre, al menos, el 85 % de la distribuci´on.
d) El apuntamiento de la distribuci´on.
1.9. El gasto de 100 experimentos, siendo la unidad 100e, viene dado por la siguiente tabla:
Gasto [10,20) [20,30) [30,40) [40,55]
No Experimentos 15 50 30 5
Calcule:
a) El gasto medio de los experimentos.
b) El porcentaje de experimentos que tienen un gasto entre 2300e y 3500e.
c) Los precios que dividen a la distribuci´on en cuatro partes iguales.
d) El gasto m´as frecuente.
1.10. En una entidad bancaria se sabe que, por t´ermino medio, el 15 % de los cheques son sin fondo. Las cantidades recogidas en dichos cheques, en euros, son las siguientes:
Importe de N´umero de
los cheques cheques
[0,200) 325
[200,600) 515
[600,1000) 420
[1000,3000] 270
Calcule:
a) El importe medio de los cheques sin fondo.
1.11. Para un determinado experimento se ven´ıa trabajando con unas temperaturas que variaban entre 100oC y 130oC. Estas tempera-
turas ten´ıan una media de 110oC y una desviaci´on t´ıpica de 16oC. Con
un nuevo sistema se ha conseguido aumentar esta temperatura en 12oC.
¿C´omo var´ıa la dispersi´on relativa de dicha temperatura?
1.12. La producci´on de una empresa est´a organizada en dos fac- tor´ıas. La distribuci´on de los salarios en cada una de ellas es la siguiente:
Salario Obreros Obreros
en euros Factor´ıa A Factor´ıa B
[180,360) 20 20 [360,480) 23 28 [480,600) 22 14 [600,900) 15 8 [900,1200] 3 2 Se pide:
a) El salario m´as frecuente de la factor´ıa A.
b) El salario que divide a la distribuci´on de la factor´ıa B en dos trozos iguales.
c) Los salarios medios de cada factor´ıa.
d) El salario medio total a partir de los salarios medios de cada factor´ıa.
1.13. El consumo de gasolina de dos coches de las marcas Citro¨en y Mercedes es, respectivamente, de 10 y 11 litros cada 100 km. Para el conjunto de los coches Citro¨en y Mercedes, se tienen, respectivamente, consumos medios de 7�4 y 10�5 litros y varianzas de 9 y 16 litros2. Indique
cu´al de los dos coches tiene mayor consumo relativo dentro de su grupo. 1.14. En los contratos de venta de un fabricante, existe una cl´au- sula por la que acepta la devoluci´on de piezas defectuosas. Se consideran defectuosas aquellas cuya longitud no est´e comprendida entre (¯x−l, ¯x+l). La longitud media de dichas piezas es de 22 mm. con desviaci´on t´ıpica 0�3. ¿Cu´anto debe valer l para que el porcentaje de piezas devueltas no
1.12 Ejercicios 51 1.15. Una empresa automovil´ıstica ha realizado un estudio sobre el grado de satisfacci´on de sus clientes (X) con la compra de veh´ıculos pertenecientes a los segmentos medio (M) y alto (A), obteniendo los siguientes resultados: X nM nA 0-6 4 4 7-13 6 7 14-20 9 9 21-27 12 8 28-34 9 2
a) Se considera que el grado de satisfacci´on es aceptable si la puntuaci´on obtenida es superior a 19. Calcule el porcentaje de personas en cada grupo con un grado de satisfacci´on aceptable.
b) ¿Cu´al de los dos grupos presenta mayor variabilidad? 1.16. Una poblaci´on est´a dividida en dos subpoblaciones A y B, de las cuales se conoce lo siguiente:
nA= 12, nB = 9, � A xi = 234, � B xi = 138, � A x2i = 5036, � B x2i = 2586, MOA = 20, MOB = 22, MeA = 19, MeB = 16.
a) ¿Se puede calcular la media global del conjunto? En caso afirmativo, calc´ulela.
b) ¿Se puede calcular la moda y la mediana global del con- junto? En caso afirmativo, calc´ulela.
c) ¿Cu´al de las medias de las dos subpoblaciones es m´as representativa?
1.17. De una distribuci´on se sabe que su media vale 5 y que el momento de orden dos con respecto al origen vale 29. Obtenga una cota inferior del porcentaje de dicha distribuci´on que se encuentra en el intervalo [2, 8].
1.18. Cuantificando a seis individuos en las variables X e Y , se dispone s´olo de algunos de estos valores, se muestra a continuaci´on la informaci´on disponible:
X 16 6 1 6 6
Y 24
Complete la tabla sabiendo que la media de Y vale 14, que
6
�
i=1
xi = 48,
y que al tipificar los valores de X se obtiene el mismo resultado que al tipificar los valores de Y .
Estad´ıstica
Descriptiva
y
Probabilidad
(Teor´ıa y problemas) 3a Edici´on Autores I. Espejo Miranda F. Fern´andez Palac´ın M. A. L´opez S´anchezM. Mu˜noz M´arquez A. M. Rodr´ıguez Ch´ıa
A. S´anchez Navas C. Valero Franco
Documentaci´on Libre de GNU”.
Copyright c�2006 Universidad de C´adiz. Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Ver- sion 1.2 or any later version published by the Free Software Foundation. A copy of the license is included in the section entitled “GNU Free Documentation License”.
Edita: Servicio de Publicaciones de la Universidad de C´adiz C/ Dr. Mara˜n´on, 3
11002 C´adiz
http://www.uca.es/publicaciones
ISBN: 978-84-9828-058-6 Dep´osito legal:
Cap´ıtulo 2
An´alisis conjunto de variables
Estad´ıstica Descriptiva y Probabilidad. Teor´ıa y Pro- blemas (Revisi´on: Febrero 2006)
I. Espejo Miranda, F. Fern´andez Palac´ın, M. A. L´opez S´anchez, M. Mu˜noz M´arquez, A. M. Rodr´ıguez Ch´ıa, A. S´anchez Navas, C Valero Franco
c
�2006 Servicio de Publicaciones de la Universidad de C´adiz. Documento bajo Licencia de Documentaci´on Libre de GNU (Versi´on 1.2 o posterior).
http://www.uca.es/teloydisren
En el cap´ıtulo anterior se ha considerado un ´unico car´acter, sin embargo, es frecuente estudiar conjuntamente varios caracteres y pre- guntarse si existe o no alg´un tipo de relaci´on entre ellos. Este cap´ıtulo se dedica al estudio de la relaci´on entre dos caracteres, comenzando con la organizaci´on y sintetizaci´on de la informaci´on, siguiendo un esquema an´alogo al establecido en el cap´ıtulo anterior, para concluir con el estu- dio de la relaci´on entre ambos. Cuando se analiza la relaci´on entre dos caracteres se pueden presentar dos casos extremos: el primero de ellos ser´a aquel en que conocido el valor de un car´acter se pueda obtener el valor del otro, el segundo se presenta cuando la informaci´on sobre un car´acter no arroja ninguna informaci´on sobre el otro. Entre estas situa- ciones extremas se dan una infinidad de casos intermedios, por ello, el objetivo del cap´ıtulo ser´a analizar el nivel de influencia existente en- tre los caracteres. Hay que indicar, no obstante, que dicho an´alisis no establecer´a cu´al es la causa y cu´al el efecto entre ambos, sino s´olo la intensidad de la relaci´on.