La empresa ROTOPLAS (Fabricantes de tinas de baños) tiene asignado un camión
especial para el transporte de tinas terminadas. Dicho camión transporta diariamente 5 tinas.
El peso de las tinas sigue la siguiente distribución de probabilidad:
Si la capacidad del camión es de 1 tonelada, ¿Cuál es la probabilidad de que el peso de las tinas exceda la capacidad del camión?.
La pregunta anterior, puede ser contestada en forma analítica o a través de la
simulación. Sin embargo, se analiza primero la obtención de esta probabilidad a través de
un procedimiento analítico. El primer paso en la obtención de tal probabilidad, sería la
determinación de la distribución de probabilidad^)- Esta distribución de probabilidad está
definida por:
/ « = 1400 (x -190),
— —(x - 230),
l 400
si 190<x<210
si 210<x<230
Enseguida, es necesario determinar la media y la varianza, las cuales pueden ser
obtenidas de las siguientes expresiones:
E(x) = — C (x -
400 190)dx - — Q x -
400 hi0 230)dx =
210V ü r ( x )
= 4¿0 £'0°(* "
2 1 ° ) 2 ( X " ■l 9 0 ) d x ~ “ 2 1 0 ) 1 ( X ' 230 )dx = 6 6 6 7Ahora, para encontrar la probabilidad de que la suma de los pesos de 5 tinas exceda
la capacidad del camión, suponga que x¡ representa el peso de la tina i.
Por consiguiente, se
desea encontrar la siguiente probabilidad:
Prob.(x, + x2 + x3 + x4 + x5 > 1000)
Si ambos miembros de la desigualdad anterior se dividen por 5, se obtiene:
Prob. (x > 200)
y por el Teorema Central del Límite, se sabe que para distribuciones simétricas con
valores de n > 4, x sigue aproximadamente, una distribución normal con media p y
desviación estándar a/4n. Por consiguiente, los parámetros de la distribución de x para
este caso particular, serían:
E (x ) = 210
Var(3c)= 13.33
y la probabilidad buscada sería entonces:
Prob. (x > 200) = Prob (Z >
2 0 0-
2 1 0)
3.65
= Prob. ( Z > -2.74)
= 0.99693
La estimación de la probabilidad de que el peso de las tinas exceda la capacidad del
camión, también puede ser obtenida a través del uso de simulación. Para este propósito, es
necesario simular el peso de 5 tinas y compararlo con la capacidad del camión. El
procedimiento anterior es necesario repetirlo tantas veces como se requiera de
confiabilidad. Una vez que se hayan realizado n corrida», la estimación de esta probabilidad
sería m/n, donde m representa el número de veces que el peso de las 5 tinas excedió la
capacidad del camión.
Para simular el peso de una tina, es necesario utilizar algún de los procedimientos
antes ya mencionados. Supóngase, entonces, que para este caso se utiliza el método de la
transformación inversa. Por consiguiente, es necesario primero determinar la distribución
acumulada del peso de una tina. Tal distribución se muestra a continuación:
F(x) =
800(x-190)2,
l-~ — (x-230)2, 800
si 190 < x < 210
si 210 < x < 230
Con la distribución acumulada definida, el procedimiento para simular el peso de
una tina sería el siguiente:
1. Generar un número uniforme U dentro del intervalo (0, 1).
2. Si U es menor que 0.5, entonces:
190 + V800U
Por el contrario, si Uno es menor que 0.5,
x= 230 -^800(1 - U)
3. Repetir los pasos anteriores tantas veces como sean necesarias.
Aplicando el procedimiento anterior, la Tabla 8.1 muestra los resultados de una
simulación manual para este problema.
Tabla 8.1.
No. de tina Tina Número Peso simulado Peso simulado ¿Se excede la
aleatorio de la tina acumulado capacidad del
camión? 1 0.31 20 6 206 1 2 0 .88 22 0 4 26 3 0 .30 20 6 6 32 4 0.22 20 4 836 5 0.78 21 7 1,053 SI 1 0 .7 0 2 15 215 2 2 0 .37 207 422 3 0 .18 20 2 624 4 0 .0 5 197 821 5 0 .95 224 1,045 SI 1 0 .43 20 9 2 09 3 2 0 .80 218 42 7 3 0 80 21 7 6 44 4 0.8 0 218 862 5 0.9 3 223 1,085 SI 1 0.41 208 208 4 2 0.4 6 209 4 17 3 0.11 199 616 4 0 .52 211 827 5 0.57 212 1,039 SI 1 0.2 0 20 3 203 5 2 0 .1 5 201 40 4 3 0.92 222 626 4 0 .7 7 217 843 5 0 .38 208 . 1,051 SI
En este caso, el número de veces en que el peso de las tinas excedió la capacidad del
camión es de 5; es decir, todas las veces. Por lo que:
Prob. (El peso exceda la capacidad del camión) = m/n
= 5/5
= 1.0
Para obtener un grado mayor de confiabilidad en la solución de este problema, se
debería de realizar un gran número de corridas similares a las mostradas en la Tabla 8.1.
VII.2. EL TEOREMA CENTRAL DEL LIMITE TCL.
El Teorema Central del Límite establece que, bajo condiciones bastante generales,
las sumas y medias de muestras de observaciones aleatorias extraídas de una población
tienden a poseer, aproximadamente, una distribución acampanada cuando el tamaño de
muestra es grande.
El Teorema Central del Límite dice que la media y la desviación estándar de la
distribución de las medias muéstrales están ciertamente relacionadas con la media y la
desviación estándar de la población de donde se obtiene la muestra, tanto como con el
tamaño n de la muestra. Las dos distribuciones tienen la misma media p y la desviación
estándar de la distribución de la medias muéstrales es igual a la desviación estándar cr de la
población dividida entre 4ñ. Por consiguiente, la dispersión de la distribución de la medias
muéstrales es considerablemente menor que la dispersión de la distribución de la población.
Pero, aun más importante, es que el Teorema Central del Límite dice que la distribución de
probabilidad de la media muestral es aproximadamente Normal para muestras de tamaño
moderado o grande, y para el caso de que la distribución de los datos fuese Normal,
entonces, cualquiera que sea el tamaño de la muestra, la distribución de las medias será
Normal.
La importancia del Teorema Central del Límite es doble. Primero explica por qué
algunas mediciones tienden a poseer aproximadamente, una distribución Normal.
Supóngase que la altura de un ser humano está compuesto de un número de elementos,
todos aleatorios, asociados con cosas tales como la altura de la madre, la altura del padre, la
actividad de una glándula particular, el medio ambiente y las dietas. Si cada uno de estos
efectos tiende a sumarse a los otros para producir la medición de la altura, entonces la altura
es la suma de varias variables aleatorias y el TCL puede volverse efectivo y dar una
La segunda contribución del TCL, y las más importante, es en la inferencia
estadística. Muchos de los estimadores o estadísticos que se usan para hacer inferencia
acerca de los parámetros de una población, son sumas o promedios de las observaciones
muéstrales.
Se ha demostrado matemáticamente que si Y„ Y2, ..., Yn representan una muestra
aleatoria de tamaño n de cualquier distribución con media p y varianza a2, entonces
E(Y )=p y V(Y) = a2/«.
donde Y = '¿ Y ,/n
(=i
Si se obtiene una muestra aleatoria que proviene de una distribución Normal,
entonces Y tiene una distribución Normal con media p y varianza a2/n debido al siguiente
teorema:
Teorema: Sea Y„ Y2, ..., Yn una muestra aleatoria de tamaño n de una distribución Normal
_ n
con mediap y varianza a2. Entonces: Y = Y,Y¡ / n, tiene una distribución Normal con
;=!
media p y varianza <j2/n.
En otro caso, si Y„ Y2, ..., Yn es una muestra aleatoria que no tiene distribución
Normal, ¿Cuál es la distribución muestral de Y ?.
Para dar respuesta a esa pregunta tan importante, a continuación se hace mención
del Teorema Central del Límite.
Teorema: Sea Y,, Y2, ..., Yn variables aleatorias independientes y distribuidas
idénticamente con E(Y¡) = p y V(Y¡) = a2 < oo. Si se define a
n
y - MV a J
BIBLIOTECA
“LtC. J A V IE R J U A R E Z S A N C H E Z " UNIDAD ACADEMICA D£ ECONOMIA Y
ESTADISTICA
U N IV E R S ID A D V E R A C R U Z A N A
Entonces la función de distribución de V n converge a una distribución normal
estándar cuando n —> oo
El mismo Teorema expresado de otra manera dice que:
e
2 du
cuando n—> oo.
De una manera sencilla se dice que Y es asintoticamente Normal con media p y
varianza a2/«.
Es importante hacer notar que el Teorema Central del Límite se puede aplicar para
una muestra aleatoria T,, Y2, ..., Yn de cualquier distribución, en tanto que E(f) = p y V(T¡)
=
ct2 sean finitos y el tamaño de la muestra sea grande (para n > 30).
Ejemplo: Para evitar dificultades con las agencias de protección al consumidor, una
embotelladora de bebidas debe estar razonablemente segura de que las botellas de 12 onzas
realmente contengan lo especificado. Para inferir si una máquina embotelladora está
trabajando satisfactoriamente, se seleccionan 10 botellas al azar cada hora y se mide la
cantidad de bebida en cada una de las botellas. La media se usa para decidir si se debe o no
ajustar la cantidad de bebida por botella dispensada por la máquina. Si la experiencia
pasada demuestra que la cantidad de bebida por botella tiene una desviación estándar de .2
onzas y si la máquina está ajustada para producir una cantidad media de 12.1 onzas, ¿cuál
es la probabilidad de que la media muestral de las 10 botellas seleccionadas sea menor que
12
?.Como Y se distribuye N(p, a 2), la probabilidad de que la media muestral Y sea
menor que 12 onzas es aproximadamente igual al área sombreada debajo de la curva
Normal en la Figura 7.2. Esta área tiene su área equivalente en la Normal estándar, la cual
se puede encontrar en las Tablas de la Normal, por lo que:
P(Y < 12) = P(
a ! 4ñr - t * <12
-12,1
0.063
= P(Z< -1.59) = 0.0559
En otras palabras, si la máquina está ajustada para producir un contenido medio de
12.1 onzas, la media Y de la muestra de 10 botellas es menor que 12 onzas con
Figura 7.2. Distribución de los pesos de las botellas.
Aplicación de la Simulación: La simulación hace posible, en este caso, observar gráficamente lo que el TCL postula. Sin ésta valiosa herramienta fuese prácticamente imposible llevar a cabo lo que a continuación se presenta.
Se generaron 15 grupos de mil muestras provenientes de una distribución Exponencial simulada como se trató en la sección V, lo que se logró con el programa TCL.EXE. El valor del parámetro para la distribución, P, fue de 3 y el tamaño («) para cada uno de los grupos de mil muestras varió, tomando los siguientes valores con el objetivo de ilustrar el TCL, n = { 2, 4, 6, 8, 10, 14, 18, 22, 26, 30, 33, 36, 45, 60 y 100 }; es decir, cada
una de las primeras mil muestras de las 15, esta integrada por 2 datos de la distribución Exponencial con p igual a 3, las segundas mil por 4 datos, etc.
Con estas mil muestras se obtuvieron los cálculos siguientes:
Y = ty,m
i=I Exponencial p. = 1/p = 0.333 En una distribución y a = 1/p = 0.333Y para cada uno de los 15 grupos se obtuvieron sus respectivas mil medias y mil estadísticos Un, las cuales se presentan gráficamente de los histogramas 7.1 al 7.15 y del 7.16 al 7.30, respectivamente.
HISTOGRAMA DE LAS MEDIAS CON n = 2
Gráfica 7.1.
HISTOGRAMA DE LAS U„ CON n = 2
RANGOS OE VALORES
Gráfica 7.16.
HISTOGRAMA DE LAS MEDIAS CON n = 4
Gráfica 7.2.
HISTOGRAMA DE LAS Un CON n = 4
RANGOS OE VALORES
Gráfica 7.17.
HISTOGRAMA DE LAS MEDIAS CON n = 6
RANGOS OE VALORES
Gráfica 7.3.
HISTOGRAMA DE LAS U„ CON n = 6
H .S . -9 ) (-9...3J (-.3..4) (.4.1.1 M .1 6) (1.6,2 2) (2.2.2.91(2.9.3 5) > 3 .5 RANGOS DE VALORES
HISTOGRAMA DE LAS MEDIAS CON n = 8
RANGOS OE VALORES
Gráfica 7.4.
HISTOGRAMA DE LAS U„ CON n = 8
RAN003 OE VALORES
Gráfica 7.19.
HISTOGRAMA DE LAS MEDIAS CON n = 10
RANGOS OE VALORES
Gráfica 7.5.
HISTOGRAMA DE LAS U„ CON n = 10
RANGOS OE VALORES
HISTOGRAMA DE LAS MEDIAS CON n = 22
RANGOS OE VALORES
Gráfica 7.8.
HISTOGRAMA DE LAS U„ CON n = 22
(-1.9.-1 3) (..6.0| (.6.1.3} (1.9.2.6] > 3 .2 RAUCOS DE VALORES
Gráfica 7.23.
HISTOGRAMA DE LAS MEDIAS CON n = 26
Gráfica 7.9.
HISTOGRAMA DE LAS U„ CON n = 26
HISTOGRAMA DE LAS MEDIAS CON n = 30
Gráfica 7.10.
HISTOGRAMA DE LAS U„ CON n = 30
RAN0O3 OE VALORES
Gráfica 7.25.
HISTOGRAMA DE LAS MEDIAS CON n = 33
RANGOS 0 £ VALORES
Gráfica 7.11.
HISTOGRAMA DE LAS U„ CON n = 33
Gráfica 7.26.
HISTOGRAMA DE LAS MEDIAS CON n = 36
280 260 ... 260 240 220 222 .. . . . . . 200 ... 165 ieo 160 ... ■t *• 148 140 120 100 : : • • ‘ V V ' a ' '8 6 80 - 6 8 • J. 60 40 ..13 . ' 1 V* - i V T - i " v •'*' •••29 20 >• I 6- • ■■ • •l ’’ i - — . ’ 0 « * .2 (2 ..3 ) (.3 .3 ) í-3..3J (.3.-4) (-4.-4) (•4..4J (.4..S) (.5..5J > .S RANGOS OE VALORES Gráfica 7.12.
HISTOGRAMA DE LAS U„ CON n = 36
28 0 26 0 240 220 200 180 ? 160 ¡ 140 íá 120 £ ioo 80 60 40 20 0 Gráfica 7.27. {-2.-1.3H -1.3...7J (..7.-0] (-0..6) (.6.1.3) (1.3.1.9) < 1.9.2.6) (2.6.3 3) > 3 .3 RANGOS OE VALORES
HISTCGRAMA DE LAS MEDIAS CON n = 45
RANGOS DE VALORES
Gráfica 7.13.
HISTOGRAMA DE LAS Un CON n = 45
RANGOS OE VALORES
Gráfica 7.28.
HISTOGRAMA DE LAS MEDIAS CON n = 60
RANGOS DE VALORES
Gráfica 7.14.
HISTOGRAMA DE LAS Un CON n = 60
RANGOS OE VALORES
Gráfica 7.29.
HISTOGRAMA DE LAS MEDIAS CON n = 100
RANGOS OE VALORES
Gráfica 7.15.
HISTOGRAMA DE LAS Un CON n = 100
VII.3. SIMULACION DE ESTRUCTURAS DE REGRESION.
Como es sabido, los métodos de Regresión son una de las técnicas estadísticas más comunes usadas por los investigadores de diversas áreas de las ciencias, por el hecho de que en los estudios de interés muy frecuentemente se desean investigar posibles relaciones existentes entre variables medidas a una muestra de individuos, ya sean personas, animales o plantas, como por ejemplo, la relación que existe entre el número de horas que una persona dedica a estudiar y su evaluación, o entre la edad que tiene cierto animal con su peso.
Si se tuviese una muestra simple de estudiantes con una variable explicatoria X y una variable respuesta Y, el modelo de Regresión tradicional sería como sigue:
Y¡ - po + p,Xj + 6,, donde se supone que 6¡ ~N(0,ct2).
La necesidad del estudio de estos modelos para los estudiantes de estadística, investigadores e interesados, es mayor cuando se piensa que muchos de los datos de las ciencias presentan estas estructuras lineales. Por lo que surge la inquietud de desarrollar un modelo en la computadora que simule bases de datos con una estructura de regresión lineal simple.
Para construir un programa con las características mencionadas se debe, primeramente, tomar en cuenta la forma del modelo, el cual gráficamente se representa en la Figura 7.3.
Nótese que el valor observado Y¡ se puede expresar en función de dos parámetros más un error aleatorio.
Aquí po es el valor que toma Y cuando X es igual a cero, P, es el cambio promedio en Y cuando X aumenta o disminuye en solo una unidad de medida; en otras palabras, po es el intercepto de la recta con el eje Y y P, es la pendiente de la recta. Finalmente 6¡ es un error aleatorio que se supone cuenta con una distribución Normal con media igual a cero y varianza constante o2.
Recordando el objetivo, se tiene que se quiere simular datos con una estructura de regresión simple; es decir, se quiere generar números u observaciones Y¡ que estén en función lineal con X, sobre la base de ciertos parámetros del modelo.
Lo que a continuación debe de realizarse es la definición o búsqueda de los valores de esos parámetros betas y los de la distribución de los errores, ya que teniendo a éstos solo se deben de realizar las operaciones correspondientes para obtener valores para Y. Por ejemplo, si se sabe que P0 = 4 y p, = 1.5, además que 6¡ ~N(0, 2) y X e (0, 10), entonces se
simulan observaciones para Y como sigue:
Yi = p
0+ p,Xi + ei; i =
1,
2, 3, 4.
Yj = 4 + 1.5 Xj+ e¡
"y." ■4' 1.5 * X,V
y2
4 + 1.5 * x2 + e2y3
4 1.5 * x3 *3_y4_
4 1.5 * x4_ _e4_Como X e (0, 10) entonces esta se simula a partir de una distribución Uniforme (0, 10). Los valores que se obtubieron son los siguientes: x, = 8.2, x, = 0, x3 = 9 y x4 = 3, por lo
tanto solo restaría obtener a los errores Normales los cuales se obtienen al simular números a partir de la distribución Normal (0, 2). Los valores simulados son los siguientes: 6, =-1.5,
\
’y."
'4"1.5 *8.2'
'-15'y
2 4 +1.5*0
+ 0.4y
3 41.5*9
1.9
.>'4. 4_. L5*3 .
- a s '8.2' '14.8' 0 Y = 4.4 9 19.4 _ 3 _ 7.7 _ordenando los datos se tiene que: ' 0 ' 1
__
1---- 3 Y = 7.7 8.2 14.8 9 19.4BIBLIOTECA
•L IC . J A V IE R J U A R E Z S A N C H E Z "UNIDAD ACADEMICA DE ECONOMIA V ESTADISTICA
U N IV E R S ID A D V E R A C R U Z A N A
Obsérvese que a medida que X aumenta Y también aumenta. Muy seguramente si un análisis de regresión fuera hecho para X sobre Y, se tendría una relación positiva, debido a que el coeficiente relacionado a X fue dado como positivo con un valor de 1.5.
Definición de los valores de los parámetros del modelo de simulación.
La definición de los valores de los parámetros po, p, y a2 del modelo de simulación
se realiza mediante un ejemplo que lo ilustra.
Planteamiento del problema: Se tiene una aula de clases de primer año de secundaria que consta de 20 alumnos, a los cuales se les midió su rendimiento anterior en la primaria y se
La variable independiente X con la que se pretende explicar el rendimiento actual es el promedio que el alumno obtuvo en la escuela primaria. y la variable dependiente Y que se desea predecir es el rendimiento actual en la secundaria.
Antes de definir los valores para el modelo de simulación, se debe tener en cuenta el rango de variación de las variables X y Y, como lo muestra la Tabla 7.2.
Tabla 7.2. Tipo y rangos de variación de X y Y..
Variable Tipo Significado Rango de variación Tipo de relación
X Continua Rendimiento
promedio en la primaria
X:x e (6, 10) Puede pensarse que
estas dos variables mantienen
Y Continua Rendimiento actual
en la secundaria Y:y e (0, 10) una relación positiva El modelo de regresión con el cual se pretende simular observaciones para Y es el antes mencionado, en el cual los parámetros con los que la variable respuesta o dependiente Y está en función son el po, (3, y la a 2. Los pasos a seguir son los siguientes:
1. Se determina el valor de Y cuando X toma su menor valor, si X = 6, Y = 5, y otro valor
para Y cuando X toma su mayor valor, si X = 10, Y = 8. Es decir, cuánto se desea o se cree
que puede valer la evaluación del alumno en la secundaria si este tiene el promedio mínimo en la primaria, y cuánto si tiene el promedio máximo; sin ningún otro efecto.
2. Se traza una línea recta entre estos puntos y se calcula su pendiente m, donde:
m y 2 ~y\ X-, — x.
8 - 5
10-6
0.75Recordando que P, es la pendiente de la recta, entonces se puede tomar a m como el valor de p,; es decir, P, = 0.75.
Se calcula a un po preliminar como: Po =y- mx po = 5-0.75(6) = 0.5
8 --
7 - -
Y
5 - -
6 X 10
Obsérvese que en esta gráfica la variable X mantiene una relación lineal perfecta con Y, debido a que aún no se introduce el error aleatorio, 6/, en el modelo para generar a
Y.
3. Dado que se planteó que Y e (0, 10) y hasta el momento Y e (5, 8), se tiene un margen
por arriba de 8 de 2 unidades; es decir, se debe de dar la varianza del error a2 tal que al
generar a los errores de la distribución Normal no excedan del valor 2.
Al 2 se le puede tomar como el valor máximo para que puede tener un 6/ con
media cero, y como la distancia máxi:r¡a alcanzada por variables aleatorias Normales con media de cero es 3a, entonces al 6/ máximo se le toma como igual a 3a.
Enseguida una aproximación para su varianza a2 se da por:
Teniendo los valores de los parámetros, se procede a simular valores para X y para el error 6¡ como se trató anteriormente: X ~ U(6, 10) y 6/~ N (0, 0.44), con los cuales se
obtiene a la variable respuesta o dependiente Y como sigue:
Y fio fii X e '5
A* V
y 2 = .5 + (0.75) x2 + e 2 y„A
x „ _ _ e „ _ Y = / ? ( ) + / ? , X + eLa simulación de datos de regresión para 50 alumnos del problema planteado se llevó a cabo con el programa REGRESI.EXE. La relación que mantienen estos datos se muestra en la Gráfica 7.3 junto con sus parámetros estimados, los que fueron obtenidos por medio del paquete estadístico STATISTICA.