RECENT DEVELOPMENTS IN ENERGY DEMAND MODELLING
4. MAINSTREAM DYNAMIC ENERGY DEMAND MODELLING
2.4 Diagramas de caja
Uno de los gráficos más eficientes, tanto para examinar una única distribución como para hacer comparaciones entre distribuciones, se conoce como diagrama de caja, de lo que trata esta sección. Antes de presentar los diagramas de caja, sin embargo, necesitamos hablar de los cuartiles.
Cuartiles e intervalo intercuartílico
La mediana de la distribución divide dicha distribución en dos partes, una parte inferior de la parte superior. Los
cuartiles de una distribución dividen cada una de esas partes por la mitad, dividiendo por tanto la distribución en cuatro
cuartos. Elprimer cuartil, denominado Q1, es la mediana de los valores de los datos de la mitad inferior del conjunto de
2.3.14 Considere el histograma del Ejercicio 2.3.13. «Le- yendo» el histograma, estime el porcentaje de observaciones que son menores de 40. ¿Está este porcentaje cerca del 15 %, el 25 %, el 35 % o el 45 %? (Nota: no se da la escala de frecuencias en este histograma, porque no hay necesidad de calcular el número de observaciones de cada clase. El porcentaje de observaciones que son menores de 40 se pue- de estimar observando el área).
2.3.15 Se presenta a continuación un histograma.
0 10 20 30 40 50 60
(a) Estime la mediana de la distribución. (b) Estime la media de la distribución.
2.3.16 Considere el histograma del Ejercicio 2.3.15. «Le- yendo» el histograma, estime el porcentaje de observaciones que son mayores de 45. ¿Está este porcentaje cerca del 15 %, el 25 %, el 35 % o el 45 %? (Nota: no se da la escala de frecuencias en este histograma, porque no hay necesidad de calcular el número de observaciones de cada clase. El porcentaje de observaciones que son mayores de 45 se pue- de estimar observando el área).
datos. Eltercer cuartil, denominado Q3, es la mediana de los valores de los datos de la mitad superior del conjunto de datos*. El siguiente ejemplo ilustra estas definiciones.
Ejemplo 2.4.1 Presión sanguínea
Las presiones sistólicas de la sangre (mmHg) de siete hombres de mediana edad fueron las siguientes25:
151 124 132 170 146 124 113
Ordenando estos valores, la muestra es
113 124 124 132 146 151 170
La mediana es la cuarta observación más grande, que es 132. Hay tres puntos de datos en la parte inferior de la distribución: 113, 124 y 124. La mediana de esos tres valores es 124. Por tanto el primer cuartil, Q1, es 124.
Asimismo, hay tres puntos de datos en la parte superior de la distribución: 146, 151 y 170. La mediana de estos tres valores es 151. Por tanto, el tercer cuartil, Q3, es 151.
113 124 124 132 146 151 170
m ó m
primer cuartil mediana tercer cuartil
Q1 Q3 %
Nótese que la mediana no está incluida ni en la parte inferior ni en la parte superior de la distribución. Si el tamaño de la muestra, n, es par, entonces exactamente la mitad de las observaciones estarán en la parte inferior de la distribución y la otra mitad estarán en la parte superior.
El intervalo intercuartílico es la diferencia entre los cuartiles tercero y primero, y se abrevia como IQR: IQR % Q3.Q1. Para el caso de los datos de presión sanguínea del Ejemplo 2.4.1, el IQR es 151 . 124 % 27.
Ejemplo 2.4.2 Pulso
Se midió el pulso a 12 estudiantes universitarios26. Se presentan a continuación los datos, dispuestos en orden creciente, con la posición de la mediana indicada por la línea de puntos:
62 64 68 70 70 74 ó 74 76 76 78 78 80
La mediana es74 ! 74
2 %74. Hay seis observaciones en la parte inferior de la distribución: 62, 64, 68, 70, 70, 74. Por tanto, el primer cuartil es el promedio de los valores tercero y cuarto de los datos ordenados:
Q1%
68 ! 70
2 %69
Hay seis observaciones en la parte superior de la distribución: 74, 76, 76, 78, 78, 80. Por tanto, el tercer cuartil es el promedio de los valores ordenados noveno y décimo (los valores ordenados tercero y cuarto de la parte superior de la distribución):
Q3%
76 ! 78
2 %77
Por tanto, el intervalo intercuartílico es
IQR % 77 . 69 % 8
* Algunos autores y también algún software de computador utilizan otras definiciones de cuartiles. Una definición alternativa común es decir que el primer cuartil ocupa la posición (.25)(n ! 1). Por tanto, si n % 10, el primer cuartil estaría en la posición (.25)(11) % 2,75. Es decir, para obtener el primer cuartil tendríamos que interpolar entre las observaciones ordenadas segunda y tercera. Si n es grande, entonces existen pocas diferencias prácticas entre las definiciones que utilizan los diversos autores.
Tenemos entonces
62 64 68 70 70 74 ó 74 76 76 78 78 80
m mediana m
primer cuartil tercer cuartil
Q1 Q3
El mínimo valor del pulso es 62 y el máximo es 80. %
El mínimo, el máximo, la mediana y los cuartiles, considerados juntos, se denominanresumen de cinco números de los datos.
Diagramas de caja
Undiagrama de caja es una representación visual del resumen de cinco números. Para hacer un diagrama de caja se representa en primer lugar una recta numérica. Seguidamente se marcan sobre dicha recta las posiciones del mínimo, Q1, la mediana, Q3, y el máximo:
60 65 70 75 80 85
Mín Q1 Mediana Q3 Máx
Seguidamente, se construye una caja conectando los cuartiles:
60 65 70 75 80 85
Mín Q1 Mediana Q3 Máx
Nótese que el intervalo intercuartílico es igual a la longitud de la caja. Finalmente, extendemos unas «patillas» desde Q1 hacia abajo hasta el mínimo y desde Q3hacia arriba hasta el máximo:
60 65 70 75 80 85
Un diagrama de caja proporciona un resumen visual rápido de la distribución. Podemos ver inmediatamente dónde está el centro de los datos observando la línea dentro de la caja que localiza a la mediana. Podemos ver la extensión de la
distribución total, desde el mínimo hasta el máximo, así como la extensión de la mitad central de la distribución (el intervalo intercuartílico), observando la longitud de la caja. El diagrama de caja da también una indicación de la forma de la distribu- ción. El anterior diagrama de caja tiene una patilla inferior larga indicando que la distribución está sesgada hacia la izquier- da. El Ejemplo 2.4.3 muestra un diagrama de caja de los datos de un experimento de crecimiento de rábanos*.
Ejemplo 2.4.3 Crecimiento de rábanos
Un experimento común en biología versa sobre el crecimiento de semillas de rábanos bajo diversas condiciones. En una versión de este experimento, se pone una toalla húmeda de papel dentro de una bolsa de plástico. Se ponen grapas en la bolsa aproximadamente a un tercio de su altura desde el fondo y después se ponen semillas de rábano a lo largo de la línea de grapas. Un grupo de estudiantes conservó las bolsas con las semillas de rábanos en total oscuridad durante tres días y después midió la longitud, en mm, de cada brote de rábano transcurridos dichos tres días. Se obtuvieron 14 observaciones. Los datos se muestran en la Tabla 2.4.127.
Tabla 2.4.1 Crecimiento de rábanos, en mm,
después de tres días en total oscuridad
15 20 11 30 33
20 29 35 8 10
22 37 15 25
Se presentan a continuación los datos ordenados de menor a mayor:
8 10 11 15 15 20 20 ó 22 25 29 30 33 35 37
m mediana m
primer cuartil tercer cuartil
Q1 Q3
Los cuartiles son Q1%15 y Q3%30. La mediana, y˜ % 21, es el promedio de los dos valores intermedios de 20 y 22.
La Figura 2.4.1 muestra el diagrama de caja de los mismos datos. %
0 10 20
Crecimiento: oscuridad
30 40
Figura 2.4.1 Diagrama de caja de los datos sobre crecimiento de rábanos en la oscuridad
Outliers
Algunas veces un punto de datos difiere tanto del resto de los datos que no parece pertenecer a los mismos. Ese punto se denominaoutlier. Un outlier puede ocurrir debido a un error en la recogida de datos, a un error tipográfico durante la recogida de dichos datos, debido un fallo de equipamiento durante un experimento o por muchas otras razones. Los
outliers son puntos interesantes en un conjunto de datos. Algunas veces los outliers nos indican un problema con el
protocolo experimental (por ejemplo, un fallo de equipamiento un fallo en que un paciente tome su medicación de forma consistente durante un tratamiento). Otras veces un outlier podría alertarnos sobre el hecho de que ha ocurrido una cir- cunstancia especial (por ejemplo, un valor anormalmente alto o bajo en una prueba médica podría indicar la presencia de una enfermedad en un paciente).
* Diferentes softwares estadísticos presentan las gráficas de forma algo diferente, pero todos los diagramas de caja presentan el mis- mo resumen básico de cinco números.
La gente utiliza el término «outlier» informalmente. Hay, sin embargo, una definición común de «outlier» en la prác- tica estadística. Para dar una definición de outlier, presentaremos primero lo que se conoce como valla. Lavalla inferior de la distribución es
valla inferior % Q1.1,5 # IQR Lavalla superior de una distribución es
valla superior % Q3!1,5 # IQR
Esto significa que las vallas están situadas a 1,5 IQRs (es decir, 1,5 la longitud de la caja) más allá del límite de la caja en un diagrama de caja.
Nótese que las vallas no tienen por qué ser valores de datos. De hecho, podría no haber datos cerca de las vallas. Las vallas simplemente sitúan límites dentro de la distribución de las muestras. Estos límites nos proporcionan una manera de definir los outliers. Un outlier es un punto de datos que está fuera de las vallas. Es decir, si
punto de datos a Q1.1,5 # IQR o
punto de datos b Q3!1,5 ! IQR entonces diremos que el punto es un outlier.
Ejemplo 2.4.4 Pulso
En el Ejemplo 2.4.2 vimos que Q1%69, Q3%77 y IQR % 8. Por tanto, la valla inferior es 69 . 1,5 # 8 % %69 . 12 % 57. Todo punto menor que 57 sería un outlier. La valla superior es 77 ! 1,5 # 8 % 77 ! 12 % 89. Todo punto mayor que 89 sería un outlier. Como no hay puntos menores que 57 ni mayores que 89, en este conjunto
de datos no hay outliers. %
Ejemplo 2.4.5 Crecimiento de rábanos con luz
Los datos del Ejemplo 2.4.3 correspondían a semillas de rábanos que crecían en total oscuridad. En otra parte del experimento los estudiantes hicieron crecer 14 semillas de rábanos con luz constante. Las observaciones, ya ordena- das, son
3 5 5 7 7 8 9 ó 10 10 10 10 14 20 21
m mediana m
primer cuartil tercer cuartil
Q1 Q3
Por tanto, la mediana es9 ! 10
2 %9,5, Q1es 7, y Q3 es 10. El intervalo intercuartílico es IQR % 10 . 7 % 3. La valla inferior es 7 . 1,5 # 3 % 7 . 4,5 % 2,5, por lo que todo punto menor que 2,5 sería un outlier. La valla supe- rior es 10 ! 1,5 # 3 % 10 ! 4,5 % 14,5. Todo punto mayor que 14,5 es un outlier. Por tanto, las dos observaciones
mayores de este conjunto de datos son outliers: 20 y 21. %
El método que hemos definido para identificar outliers permite que sea la mayor parte de los datos la que determine cuán extrema debe ser una observación antes de considerarla un outlier, ya que los cuartiles y el IQR están determinados por los propios datos. Por tanto, un punto que sea un outlier en un conjunto de datos podría no serlo en otro conjunto de datos. Etiquetaremos un punto como outlier si tiene un valor inusual respecto a la variabilidad inherente de todo el con- junto de datos.
Después de que un outlier ha sido identificado, a menudo la gente está tentada de eliminarlo del conjunto de datos. En general, esto no es una buena idea. Si podemos identificar que un outlier se ha producido debido, por ejemplo, a un error de equipamiento, entonces tenemos una buena razón para eliminar el outlier antes de analizar el resto de los datos. Sin embargo, ocurre muy a menudo que los outliers aparecen en los conjuntos de datos sin ninguna razón externa identifica- ble para los mismos. En esos casos, simplemente procederemos con nuestro análisis, teniendo en cuenta que hay un
outlier presente. En algunos casos, podríamos desear calcular la media, por ejemplo, con y sin el outlier, y presentar
ambos resultados, para mostrar el efecto del outlier en el análisis global. Esto es preferible a eliminar el outlier, que oscurecería el hecho de que estaba presente un dato inusual. Al presentar los datos gráficamente, podemos llamar la atención sobre los outliers utilizando diagramas de caja modificados, que presentamos a continuación.
Diagramas de caja modificados
Una variación estándar de la idea de diagrama de caja es lo que se conoce como diagrama de caja modificado. Un
diagrama de caja modificado es un diagrama de caja en el que los outliers, si existen, se representan como puntos separa-
dos. La ventaja de un diagrama de caja modificado es que nos permite ver rápidamente donde están los outliers, si existen. Para hacer un diagrama de caja modificado, procederemos como hicimos para hacer un diagrama de caja, excepto en el último paso. Tras dibujar la caja del diagrama de caja, comprobaremos si existen outliers. Si no hay outliers, entonces llevaremos las patillas de la caja hasta los extremos (el mínimo y el máximo). Sin embargo, si hay outliers en la parte superior de la distribución, los identificaremos mediante un punto u otro símbolo. Después extenderemos la patilla desde Q3 hasta el punto de datos de mayor valor que no sea un outlier. Asimismo, si hay outliers en la parte inferior de la distribu- ción, los identificaremos con asteriscos y extenderemos una patilla desde Q1hasta la observación de menor valor que no sea un outlier. La Figura 2.4.2 muestra la distribución del crecimiento de semillas de rábanos bajo luz constante. El área entre las vallas superior e inferior es blanca mientras que la región de los outliers es sombreada.
1,5 × IQR 1,5 × IQR
0 5 10 15 20 25
Figura 2.4.2 Diagrama de puntos y diagrama de caja de los datos sobre crecimiento de rábanos
en luz constante. Los puntos en la región sombreada sonoutliers
La Figura 2.4.3 muestra un diagrama de caja y diagrama de caja modificado de los datos de crecimiento de semillas de rábanos en luz constante.
0 (b) (a)
5 10 15 20 25
Figura 2.4.3 (a) diagrama de caja de los datos sobre crecimiento de rábanos en luz constante;
(b) diagrama de caja modificado en los datos sobre crecimiento de rábanos
Muy frecuentemente, cuando la gente hace diagramas de caja, en realidad realiza diagramas de caja modificados. El
software estadístico está en general programado para producir un diagrama de caja modificado cuando el usuario pide un
diagrama de caja. Por tanto, cuando utilicemos el término «diagrama de caja» querremos decir «diagrama de caja modifi- cado».
Ejercicios 2.4.1-2.4.8
2.4.1 Se presentan a continuación los datos del Ejercicio 2.3.10 sobre el número de bacterias resistentes al virus en cada uno de los 10 conjuntos:
14 15 13 21 15
14 26 16 20 13
(a) Determine la mediana y los cuartiles. (b) Determine el intervalo intercuartílico.
(c) ¿Qué valor debería tener una observación de estos datos puestos en orden para ser un outlier?
2.4.2 Se presentan a continuación las 18 medidas de la ac- tividad MAO del Ejercicio 2.2.2:
6,8 8,4 8,7 11,9 14,2 18,8
9,9 4,1 9,7 12,7 5,2 7,8
7,8 7,4 7,3 10,6 14,5 10,7
(a) Determine la mediana y los cuartiles. (b) Determine el intervalo intercuartílico.
(c) ¿Qué valor debería tener una observación de estos datos puestos en orden para ser un outlier?
(d) Construya un diagrama de caja (modificado) de los datos.
2.4.3 En un estudio sobre producción de leche de ovejas (para su uso en la fabricación de quesos) un investigador mi- dió la leche producida durante tres meses de 11 ovejas. Las
producciones (en litros) fueron las siguientes28:
56,5 89,8 110,1 65,6 63,7 82,6
75,1 91,5 102,9 44,4 108,1
(a) Determine la mediana y los cuartiles. (b) Determine el intervalo intercuartílico.
(c) Construya un diagrama de caja (modificado) de los datos.
2.4.4 En cada uno de los siguientes histogramas utilice di- chos histogramas para estimar la media de los cuartiles. Construya después un diagrama de caja de la distribución. (a)
0 20 40 60 80 100
(b)
0 20 40 60 80 100
2.4.5 El presente histograma muestra los mismos datos co- rrespondientes a uno de los cuatro diagramas de caja. ¿Qué diagrama de caja corresponde al histograma? Explique su respuesta. 25 30 35 40 45 50 55 60 a b c d 60 40 20
2.4.6 El siguiente diagrama de caja muestra el resumen de cinco números de un conjunto de datos. El mínimo de di-
chos datos es 35, Q1es 42, la media es 49, Q3es 56 y el
máximo es 65. ¿Es posible que no haya ninguna observación del conjunto de datos que sea igual a a 42? Explique su res- puesta.
35 40 45 50 55 60 65
2.4.7 Se puede utilizar software estadístico para obtener el resumen de cinco números de un conjunto de datos. Se pre- senta a continuación un ejemplo del resumen de estadística
descriptiva de MINITAB de una variable almacenada en la columna 1 (C1) de la hoja de cálculo de MINITAB. Variable C1 N 75 Mean 119.94 Median 118.40 TrMean 119.98 StDev 9.98 SEMean 1.15 Variable C1 Min 95.16 Max 145.11 Q1 113.59 Q3 127.42