Evolution of Battalion Command – Organisational and Individual Aspects
3.2 Evolution – Individual Characteristics
11
poblaciones Normales e independientes con igual varianza, S1 2
/S2 2
sigue una distribu- ción F de Snedecor.
Si la variable es DISCRETA (solo pueden tomar valores a saltos, por ejemplo: 0, 1, 2, 3, ...) el caso más sencillo es cuando todos los valores tienen la misma probabilidad de aparecer (ejemplo resultado de tirar un dado). En este caso la distribución se llama uniforme discreta. Otro caso muy típico es el siguiente:
x Se realizan n pruebas independientes (el resultado de una no está afectado por el resultado de las anteriores).
x Cada prueba puede tener solo 2 resultados, que para entendernos designaremos como “éxito” y “fracaso”.
x La probabilidad de éxito es p y, por tanto, la de fracaso es 1-p. Ambas probabilidades se mantienen constantes a lo largo de todas las pruebas.
En este caso, el número de éxitos X al realizar n experimentos es una variable aleatoria que sigue una distribución binomial. Ejemplos de variables que se ajustan a este modelo son el número de caras que se obtienen al lanzar 10 veces una moneda al aire o el número de piezas defectuosas en una muestra aleatoria de 1.000, sabiendo que la probabilidad de que una sea defectuosa es del 1%.
En ciertas situaciones, como cuando se considera el número de averías anuales que tiene una máquina, se podría aplicar el modelo binomial entendiendo que un año tiene 365 días y considerando que la probabilidad de que un día se estropee es, por ejemplo, 0,01 (modelo binomial con n=365 y p=0,01). Pero también se podría considerar que el año tiene 365u24 horas y la probabilidad de que se estropee en una hora es 0,01/24. O también se podrían establecer periodos de segundos, o milisegundos,... En estas situaciones en las que n se puede hacer crecer tanto como se quiera, disminuyendo p de forma que el producto np se mantiene constante, se dice que la variable sigue un modelo de Poisson. Situaciones en que es aplicable este modelo, bajo ciertas suposiciones, pueden ser, además del número de averías mensuales de una máquina, el número de llamadas que se reciben en la centralita de una gran empresa cada 10 minutos.
El disponer de un “catálogo” de distribuciones permite que cuando nuestra variable encaja en uno de los modelos ya descritos, no hace falta que deduzcamos las fórmulas para calcular sus probabilidades, ni su esperanza matemática u otras características de interés. Si se tienen datos también se puede realizar una prueba de ajuste para contrastar la hipótesis nula de que la distribución que se supone es la adecuada, aunque hay que tener en cuenta que si los datos son pocos va a ser difícil rechazar la hipótesis nula, cualquiera que esta sea.
En los libros también existen distribuciones “para hacer ejercicios”, que solo son expresiones matemáticas en las que no se comenta cuál es el fenómeno a que se refieren ni cuál es el sentido físico de la variable en cuestión. Hay que entender estas distribuciones como instrumentos para practicar las propiedades de las distribuciones de probabilidad, aunque también es verdad que determinadas variables se pueden modelar con funciones específicas, “no catalogadas” como las que aparecen en ese tipo de ejercicios.
En cualquier caso, catalogado o no, no hay que confundir el modelo con la realidad. Uno de los ejemplos más socorridos es el de la altura de las personas para ilustrar la
Respuestas a dudas típicas de ESTADÍSTICA
55
36distribución Normal, pero si tuviéramos las alturas exactas de los millones de habitantes adultos del planeta, podríamos comprobar que no se ajustan ‘exactamente’ a la conocida campana de Gauss, y tampoco lo harían si estratificamos por sexo, raza, o lo que sea. Se trata, como en los otros casos, de un buen modelo de referencia que permite realizar, seguramente con toda la precisión necesaria, estimaciones sobre la distribución de las alturas, pero no deja de ser un modelo teórico que no coincide exactamente con la realidad. Lo mismo ocurre con las otras distribuciones en las que, seguramente porque en la práctica no se cumplen exactamente las hipótesis que se consideran, no dejan de ser modelos teóricos (lo de teórico para un modelo es un calificativo innecesario) pero, eso si, enormemente útiles.
195 190 185 180 175 170 165 160 155 150 145
Figura 12.1. Diagrama de puntos de las alturas de un grupo de 20 personas
Antes de hablar de medias hablaremos de observaciones individuales y utilizaremos el ejemplo de la distribución de las alturas. Empezaremos diciendo que la altura de una persona concreta es un número. Por ejemplo, Juan mide 1,73 metros, Antonio 1,82 y María 1,76. Estos valores son números fijos y concretos, puesto que Juan, al igual que Antonio y María, siempre miden lo mismo.
Otra cosa es si nos referimos a la altura de una persona genérica e indeterminada. La que en este momento puede estar pasando por delante de la puerta de su casa. ¿Qué altura tiene? No lo sabemos. La altura de una persona, así, a nivel general, es una variable aleatoria, que podemos modelar bastante bien a través de una distribución Normal.
Algo análogo ocurre con las medias de las muestras. La media de una muestra formada por unos individuos concretos es un número. Por ejemplo, si la variable que medimos son las alturas y la muestra está formada por Juan, Antonio y María, la media de esta muestra es 1,77. Pero si hablamos de la muestra de 3 individuos tomados al azar, la media de esa muestra es una variable aleatoria, ya que está formada por observaciones indivi- duales, que a su vez también son variables aleatorias.
Lo más interesante de este tema es que la media muestral se distribuye siempre con la misma media que las observaciones individuales, con una varianza que es la enésima parte (siendo n el tamaño de la muestra) de la que tiene esa distribución y además, muy frecuentemente, su distribución es muy próxima a la Normal1.
Pensemos, por ejemplo, en la altura de 20 personas, si representamos sus valores en un diagrama de puntos, podemos obtener un gráfico como el de la Figura 12.1.