• No results found

Remote Trainer Corrections for Pack Behavior Problems

La empresa ROTOPLAS (Fabricantes de tinas de baños) tiene asignado un camión

especial para el transporte de tinas terminadas. Dicho camión transporta diariamente 5 tinas.

El peso de las tinas sigue la siguiente distribución de probabilidad:

Si la capacidad del camión es de 1 tonelada, ¿Cuál es la probabilidad de que el peso de las tinas exceda la capacidad del camión?.

La pregunta anterior, puede ser contestada en forma analítica o a través de la

simulación. Sin embargo, se analiza primero la obtención de esta probabilidad a través de

un procedimiento analítico. El primer paso en la obtención de tal probabilidad, sería la

determinación de la distribución de probabilidad^)- Esta distribución de probabilidad está

definida por:

/ « = 1

400 (x -190),

— —(x - 230),

l 400

si 190<x<210

si 210<x<230

Enseguida, es necesario determinar la media y la varianza, las cuales pueden ser

obtenidas de las siguientes expresiones:

E(x) = — C (x -

400 190

)dx - — Q x -

400 hi0 230

)dx =

210

V ü r ( x )

= 4¿0 £'0°(* "

2 1 ° ) 2 ( X " ■l 9 0 ) d x ~ 2 1 0 ) 1 ( X ' 230 )dx = 6 6 6 7

Ahora, para encontrar la probabilidad de que la suma de los pesos de 5 tinas exceda

la capacidad del camión, suponga que x¡ representa el peso de la tina i.

Por consiguiente, se

desea encontrar la siguiente probabilidad:

Prob.(x, + x2 + x3 + x4 + x5 > 1000)

Si ambos miembros de la desigualdad anterior se dividen por 5, se obtiene:

Prob. (x > 200)

y por el Teorema Central del Límite, se sabe que para distribuciones simétricas con

valores de n > 4, x sigue aproximadamente, una distribución normal con media p y

desviación estándar a/4n. Por consiguiente, los parámetros de la distribución de x para

este caso particular, serían:

E (x ) = 210

Var(3c)= 13.33

y la probabilidad buscada sería entonces:

Prob. (x > 200) = Prob (Z >

2 0 0

-

2 1 0

)

3.65

= Prob. ( Z > -2.74)

= 0.99693

La estimación de la probabilidad de que el peso de las tinas exceda la capacidad del

camión, también puede ser obtenida a través del uso de simulación. Para este propósito, es

necesario simular el peso de 5 tinas y compararlo con la capacidad del camión. El

procedimiento anterior es necesario repetirlo tantas veces como se requiera de

confiabilidad. Una vez que se hayan realizado n corrida», la estimación de esta probabilidad

sería m/n, donde m representa el número de veces que el peso de las 5 tinas excedió la

capacidad del camión.

Para simular el peso de una tina, es necesario utilizar algún de los procedimientos

antes ya mencionados. Supóngase, entonces, que para este caso se utiliza el método de la

transformación inversa. Por consiguiente, es necesario primero determinar la distribución

acumulada del peso de una tina. Tal distribución se muestra a continuación:

F(x) =

800(x-190)2,

l-~ — (x-230)2, 800

si 190 < x < 210

si 210 < x < 230

Con la distribución acumulada definida, el procedimiento para simular el peso de

una tina sería el siguiente:

1. Generar un número uniforme U dentro del intervalo (0, 1).

2. Si U es menor que 0.5, entonces:

190 + V800U

Por el contrario, si Uno es menor que 0.5,

x= 230 -^800(1 - U)

3. Repetir los pasos anteriores tantas veces como sean necesarias.

Aplicando el procedimiento anterior, la Tabla 8.1 muestra los resultados de una

simulación manual para este problema.

Tabla 8.1.

No. de tina Tina Número Peso simulado Peso simulado ¿Se excede la

aleatorio de la tina acumulado capacidad del

camión? 1 0.31 20 6 206 1 2 0 .88 22 0 4 26 3 0 .30 20 6 6 32 4 0.22 20 4 836 5 0.78 21 7 1,053 SI 1 0 .7 0 2 15 215 2 2 0 .37 207 422 3 0 .18 20 2 624 4 0 .0 5 197 821 5 0 .95 224 1,045 SI 1 0 .43 20 9 2 09 3 2 0 .80 218 42 7 3 0 80 21 7 6 44 4 0.8 0 218 862 5 0.9 3 223 1,085 SI 1 0.41 208 208 4 2 0.4 6 209 4 17 3 0.11 199 616 4 0 .52 211 827 5 0.57 212 1,039 SI 1 0.2 0 20 3 203 5 2 0 .1 5 201 40 4 3 0.92 222 626 4 0 .7 7 217 843 5 0 .38 208 . 1,051 SI

En este caso, el número de veces en que el peso de las tinas excedió la capacidad del

camión es de 5; es decir, todas las veces. Por lo que:

Prob. (El peso exceda la capacidad del camión) = m/n

= 5/5

= 1.0

Para obtener un grado mayor de confiabilidad en la solución de este problema, se

debería de realizar un gran número de corridas similares a las mostradas en la Tabla 8.1.

VII.2. EL TEOREMA CENTRAL DEL LIMITE TCL.

El Teorema Central del Límite establece que, bajo condiciones bastante generales,

las sumas y medias de muestras de observaciones aleatorias extraídas de una población

tienden a poseer, aproximadamente, una distribución acampanada cuando el tamaño de

muestra es grande.

El Teorema Central del Límite dice que la media y la desviación estándar de la

distribución de las medias muéstrales están ciertamente relacionadas con la media y la

desviación estándar de la población de donde se obtiene la muestra, tanto como con el

tamaño n de la muestra. Las dos distribuciones tienen la misma media p y la desviación

estándar de la distribución de la medias muéstrales es igual a la desviación estándar cr de la

población dividida entre 4ñ. Por consiguiente, la dispersión de la distribución de la medias

muéstrales es considerablemente menor que la dispersión de la distribución de la población.

Pero, aun más importante, es que el Teorema Central del Límite dice que la distribución de

probabilidad de la media muestral es aproximadamente Normal para muestras de tamaño

moderado o grande, y para el caso de que la distribución de los datos fuese Normal,

entonces, cualquiera que sea el tamaño de la muestra, la distribución de las medias será

Normal.

La importancia del Teorema Central del Límite es doble. Primero explica por qué

algunas mediciones tienden a poseer aproximadamente, una distribución Normal.

Supóngase que la altura de un ser humano está compuesto de un número de elementos,

todos aleatorios, asociados con cosas tales como la altura de la madre, la altura del padre, la

actividad de una glándula particular, el medio ambiente y las dietas. Si cada uno de estos

efectos tiende a sumarse a los otros para producir la medición de la altura, entonces la altura

es la suma de varias variables aleatorias y el TCL puede volverse efectivo y dar una

La segunda contribución del TCL, y las más importante, es en la inferencia

estadística. Muchos de los estimadores o estadísticos que se usan para hacer inferencia

acerca de los parámetros de una población, son sumas o promedios de las observaciones

muéstrales.

Se ha demostrado matemáticamente que si Y„ Y2, ..., Yn representan una muestra

aleatoria de tamaño n de cualquier distribución con media p y varianza a2, entonces

E(Y )=p y V(Y) = a2/«.

donde Y = '¿ Y ,/n

(=i

Si se obtiene una muestra aleatoria que proviene de una distribución Normal,

entonces Y tiene una distribución Normal con media p y varianza a2/n debido al siguiente

teorema:

Teorema: Sea Y„ Y2, ..., Yn una muestra aleatoria de tamaño n de una distribución Normal

_ n

con mediap y varianza a2. Entonces: Y = Y,Y¡ / n, tiene una distribución Normal con

;=!

media p y varianza <j2/n.

En otro caso, si Y„ Y2, ..., Yn es una muestra aleatoria que no tiene distribución

Normal, ¿Cuál es la distribución muestral de Y ?.

Para dar respuesta a esa pregunta tan importante, a continuación se hace mención

del Teorema Central del Límite.

Teorema: Sea Y,, Y2, ..., Yn variables aleatorias independientes y distribuidas

idénticamente con E(Y¡) = p y V(Y¡) = a2 < oo. Si se define a

n

y - M

V a J

BIBLIOTECA

“LtC. J A V IE R J U A R E Z S A N C H E Z " UNIDAD ACADEMICA D£ ECONOMIA Y

ESTADISTICA

U N IV E R S ID A D V E R A C R U Z A N A

Entonces la función de distribución de V n converge a una distribución normal

estándar cuando n —> oo

El mismo Teorema expresado de otra manera dice que:

e

2 du

cuando n—> oo.

De una manera sencilla se dice que Y es asintoticamente Normal con media p y

varianza a2/«.

Es importante hacer notar que el Teorema Central del Límite se puede aplicar para

una muestra aleatoria T,, Y2, ..., Yn de cualquier distribución, en tanto que E(f) = p y V(T¡)

=

ct

2 sean finitos y el tamaño de la muestra sea grande (para n > 30).

Ejemplo: Para evitar dificultades con las agencias de protección al consumidor, una

embotelladora de bebidas debe estar razonablemente segura de que las botellas de 12 onzas

realmente contengan lo especificado. Para inferir si una máquina embotelladora está

trabajando satisfactoriamente, se seleccionan 10 botellas al azar cada hora y se mide la

cantidad de bebida en cada una de las botellas. La media se usa para decidir si se debe o no

ajustar la cantidad de bebida por botella dispensada por la máquina. Si la experiencia

pasada demuestra que la cantidad de bebida por botella tiene una desviación estándar de .2

onzas y si la máquina está ajustada para producir una cantidad media de 12.1 onzas, ¿cuál

es la probabilidad de que la media muestral de las 10 botellas seleccionadas sea menor que

12

?.

Como Y se distribuye N(p, a 2), la probabilidad de que la media muestral Y sea

menor que 12 onzas es aproximadamente igual al área sombreada debajo de la curva

Normal en la Figura 7.2. Esta área tiene su área equivalente en la Normal estándar, la cual

se puede encontrar en las Tablas de la Normal, por lo que:

P(Y < 12) = P(

a ! 4ñr - t * <

12

-

12,1

0.063

= P(Z< -1.59) = 0.0559

En otras palabras, si la máquina está ajustada para producir un contenido medio de

12.1 onzas, la media Y de la muestra de 10 botellas es menor que 12 onzas con

Figura 7.2. Distribución de los pesos de las botellas.

Aplicación de la Simulación: La simulación hace posible, en este caso, observar gráficamente lo que el TCL postula. Sin ésta valiosa herramienta fuese prácticamente imposible llevar a cabo lo que a continuación se presenta.

Se generaron 15 grupos de mil muestras provenientes de una distribución Exponencial simulada como se trató en la sección V, lo que se logró con el programa TCL.EXE. El valor del parámetro para la distribución, P, fue de 3 y el tamaño («) para cada uno de los grupos de mil muestras varió, tomando los siguientes valores con el objetivo de ilustrar el TCL, n = { 2, 4, 6, 8, 10, 14, 18, 22, 26, 30, 33, 36, 45, 60 y 100 }; es decir, cada

una de las primeras mil muestras de las 15, esta integrada por 2 datos de la distribución Exponencial con p igual a 3, las segundas mil por 4 datos, etc.

Con estas mil muestras se obtuvieron los cálculos siguientes:

Y = ty,m

i=I Exponencial p. = 1/p = 0.333 En una distribución y a = 1/p = 0.333

Y para cada uno de los 15 grupos se obtuvieron sus respectivas mil medias y mil estadísticos Un, las cuales se presentan gráficamente de los histogramas 7.1 al 7.15 y del 7.16 al 7.30, respectivamente.

HISTOGRAMA DE LAS MEDIAS CON n = 2

Gráfica 7.1.

HISTOGRAMA DE LAS U„ CON n = 2

RANGOS OE VALORES

Gráfica 7.16.

HISTOGRAMA DE LAS MEDIAS CON n = 4

Gráfica 7.2.

HISTOGRAMA DE LAS Un CON n = 4

RANGOS OE VALORES

Gráfica 7.17.

HISTOGRAMA DE LAS MEDIAS CON n = 6

RANGOS OE VALORES

Gráfica 7.3.

HISTOGRAMA DE LAS U„ CON n = 6

H .S . -9 ) (-9...3J (-.3..4) (.4.1.1 M .1 6) (1.6,2 2) (2.2.2.91(2.9.3 5) > 3 .5 RANGOS DE VALORES

HISTOGRAMA DE LAS MEDIAS CON n = 8

RANGOS OE VALORES

Gráfica 7.4.

HISTOGRAMA DE LAS U„ CON n = 8

RAN003 OE VALORES

Gráfica 7.19.

HISTOGRAMA DE LAS MEDIAS CON n = 10

RANGOS OE VALORES

Gráfica 7.5.

HISTOGRAMA DE LAS U„ CON n = 10

RANGOS OE VALORES

HISTOGRAMA DE LAS MEDIAS CON n = 22

RANGOS OE VALORES

Gráfica 7.8.

HISTOGRAMA DE LAS U„ CON n = 22

(-1.9.-1 3) (..6.0| (.6.1.3} (1.9.2.6] > 3 .2 RAUCOS DE VALORES

Gráfica 7.23.

HISTOGRAMA DE LAS MEDIAS CON n = 26

Gráfica 7.9.

HISTOGRAMA DE LAS U„ CON n = 26

HISTOGRAMA DE LAS MEDIAS CON n = 30

Gráfica 7.10.

HISTOGRAMA DE LAS U„ CON n = 30

RAN0O3 OE VALORES

Gráfica 7.25.

HISTOGRAMA DE LAS MEDIAS CON n = 33

RANGOS 0 £ VALORES

Gráfica 7.11.

HISTOGRAMA DE LAS U„ CON n = 33

Gráfica 7.26.

HISTOGRAMA DE LAS MEDIAS CON n = 36

280 260 ... 260 240 220 222 .. . . . . . 200 ... 165 ieo 160 ... ■t *• 148 140 120 100 : : • • ‘ V V ' a ' '8 6 80 - 6 8 • J. 60 40 ..13 . ' 1 V* - i V T - i " v •'*' •••29 20 >• I 6- • ■■ • •l ’’ i - — . ’ 0 « * .2 (2 ..3 ) (.3 .3 ) í-3..3J (.3.-4) (-4.-4) (•4..4J (.4..S) (.5..5J > .S RANGOS OE VALORES Gráfica 7.12.

HISTOGRAMA DE LAS U„ CON n = 36

28 0 26 0 240 220 200 180 ? 160 ¡ 140 íá 120 £ ioo 80 60 40 20 0 Gráfica 7.27. {-2.-1.3H -1.3...7J (..7.-0] (-0..6) (.6.1.3) (1.3.1.9) < 1.9.2.6) (2.6.3 3) > 3 .3 RANGOS OE VALORES

HISTCGRAMA DE LAS MEDIAS CON n = 45

RANGOS DE VALORES

Gráfica 7.13.

HISTOGRAMA DE LAS Un CON n = 45

RANGOS OE VALORES

Gráfica 7.28.

HISTOGRAMA DE LAS MEDIAS CON n = 60

RANGOS DE VALORES

Gráfica 7.14.

HISTOGRAMA DE LAS Un CON n = 60

RANGOS OE VALORES

Gráfica 7.29.

HISTOGRAMA DE LAS MEDIAS CON n = 100

RANGOS OE VALORES

Gráfica 7.15.

HISTOGRAMA DE LAS Un CON n = 100

VII.3. SIMULACION DE ESTRUCTURAS DE REGRESION.

Como es sabido, los métodos de Regresión son una de las técnicas estadísticas más comunes usadas por los investigadores de diversas áreas de las ciencias, por el hecho de que en los estudios de interés muy frecuentemente se desean investigar posibles relaciones existentes entre variables medidas a una muestra de individuos, ya sean personas, animales o plantas, como por ejemplo, la relación que existe entre el número de horas que una persona dedica a estudiar y su evaluación, o entre la edad que tiene cierto animal con su peso.

Si se tuviese una muestra simple de estudiantes con una variable explicatoria X y una variable respuesta Y, el modelo de Regresión tradicional sería como sigue:

Y¡ - po + p,Xj + 6,, donde se supone que 6¡ ~N(0,ct2).

La necesidad del estudio de estos modelos para los estudiantes de estadística, investigadores e interesados, es mayor cuando se piensa que muchos de los datos de las ciencias presentan estas estructuras lineales. Por lo que surge la inquietud de desarrollar un modelo en la computadora que simule bases de datos con una estructura de regresión lineal simple.

Para construir un programa con las características mencionadas se debe, primeramente, tomar en cuenta la forma del modelo, el cual gráficamente se representa en la Figura 7.3.

Nótese que el valor observado Y¡ se puede expresar en función de dos parámetros más un error aleatorio.

Aquí po es el valor que toma Y cuando X es igual a cero, P, es el cambio promedio en Y cuando X aumenta o disminuye en solo una unidad de medida; en otras palabras, po es el intercepto de la recta con el eje Y y P, es la pendiente de la recta. Finalmente 6¡ es un error aleatorio que se supone cuenta con una distribución Normal con media igual a cero y varianza constante o2.

Recordando el objetivo, se tiene que se quiere simular datos con una estructura de regresión simple; es decir, se quiere generar números u observaciones Y¡ que estén en función lineal con X, sobre la base de ciertos parámetros del modelo.

Lo que a continuación debe de realizarse es la definición o búsqueda de los valores de esos parámetros betas y los de la distribución de los errores, ya que teniendo a éstos solo se deben de realizar las operaciones correspondientes para obtener valores para Y. Por ejemplo, si se sabe que P0 = 4 y p, = 1.5, además que 6¡ ~N(0, 2) y X e (0, 10), entonces se

simulan observaciones para Y como sigue:

Yi = p

0

+ p,Xi + ei; i =

1

,

2

, 3, 4.

Yj = 4 + 1.5 Xj+ e¡

"y." ■4' 1.5 * X,

V

y2

4 + 1.5 * x2 + e2

y3

4 1.5 * x3 *3

_y4_

4 1.5 * x4_ _e4_

Como X e (0, 10) entonces esta se simula a partir de una distribución Uniforme (0, 10). Los valores que se obtubieron son los siguientes: x, = 8.2, x, = 0, x3 = 9 y x4 = 3, por lo

tanto solo restaría obtener a los errores Normales los cuales se obtienen al simular números a partir de la distribución Normal (0, 2). Los valores simulados son los siguientes: 6, =-1.5,

\

’y."

'4

"1.5 *8.2'

'-15'

y

2 4 +

1.5*0

+ 0.4

y

3 4

1.5*9

1.9

.>'4. 4_

. L5*3 .

- a s '8.2' '14.8' 0 Y = 4.4 9 19.4 _ 3 _ 7.7 _

ordenando los datos se tiene que: ' 0 ' 1

__

1---- 3 Y = 7.7 8.2 14.8 9 19.4

BIBLIOTECA

•L IC . J A V IE R J U A R E Z S A N C H E Z "

UNIDAD ACADEMICA DE ECONOMIA V ESTADISTICA

U N IV E R S ID A D V E R A C R U Z A N A

Obsérvese que a medida que X aumenta Y también aumenta. Muy seguramente si un análisis de regresión fuera hecho para X sobre Y, se tendría una relación positiva, debido a que el coeficiente relacionado a X fue dado como positivo con un valor de 1.5.

Definición de los valores de los parámetros del modelo de simulación.

La definición de los valores de los parámetros po, p, y a2 del modelo de simulación

se realiza mediante un ejemplo que lo ilustra.

Planteamiento del problema: Se tiene una aula de clases de primer año de secundaria que consta de 20 alumnos, a los cuales se les midió su rendimiento anterior en la primaria y se

La variable independiente X con la que se pretende explicar el rendimiento actual es el promedio que el alumno obtuvo en la escuela primaria. y la variable dependiente Y que se desea predecir es el rendimiento actual en la secundaria.

Antes de definir los valores para el modelo de simulación, se debe tener en cuenta el rango de variación de las variables X y Y, como lo muestra la Tabla 7.2.

Tabla 7.2. Tipo y rangos de variación de X y Y..

Variable Tipo Significado Rango de variación Tipo de relación

X Continua Rendimiento

promedio en la primaria

X:x e (6, 10) Puede pensarse que

estas dos variables mantienen

Y Continua Rendimiento actual

en la secundaria Y:y e (0, 10) una relación positiva El modelo de regresión con el cual se pretende simular observaciones para Y es el antes mencionado, en el cual los parámetros con los que la variable respuesta o dependiente Y está en función son el po, (3, y la a 2. Los pasos a seguir son los siguientes:

1. Se determina el valor de Y cuando X toma su menor valor, si X = 6, Y = 5, y otro valor

para Y cuando X toma su mayor valor, si X = 10, Y = 8. Es decir, cuánto se desea o se cree

que puede valer la evaluación del alumno en la secundaria si este tiene el promedio mínimo en la primaria, y cuánto si tiene el promedio máximo; sin ningún otro efecto.

2. Se traza una línea recta entre estos puntos y se calcula su pendiente m, donde:

m y 2 ~y\ X-, — x.

8 - 5

10-6

0.75

Recordando que P, es la pendiente de la recta, entonces se puede tomar a m como el valor de p,; es decir, P, = 0.75.

Se calcula a un po preliminar como: Po =y- mx po = 5-0.75(6) = 0.5

8 --

7 - -

Y

5 - -

6 X 10

Obsérvese que en esta gráfica la variable X mantiene una relación lineal perfecta con Y, debido a que aún no se introduce el error aleatorio, 6/, en el modelo para generar a

Y.

3. Dado que se planteó que Y e (0, 10) y hasta el momento Y e (5, 8), se tiene un margen

por arriba de 8 de 2 unidades; es decir, se debe de dar la varianza del error a2 tal que al

generar a los errores de la distribución Normal no excedan del valor 2.

Al 2 se le puede tomar como el valor máximo para que puede tener un 6/ con

media cero, y como la distancia máxi:r¡a alcanzada por variables aleatorias Normales con media de cero es 3a, entonces al 6/ máximo se le toma como igual a 3a.

Enseguida una aproximación para su varianza a2 se da por:

Teniendo los valores de los parámetros, se procede a simular valores para X y para el error 6¡ como se trató anteriormente: X ~ U(6, 10) y 6/~ N (0, 0.44), con los cuales se

obtiene a la variable respuesta o dependiente Y como sigue:

Y fio fii X e '5

A* V

y 2 = .5 + (0.75) x2 + e 2 y„

A

x „ _ _ e „ _ Y = / ? ( ) + / ? , X + e

La simulación de datos de regresión para 50 alumnos del problema planteado se llevó a cabo con el programa REGRESI.EXE. La relación que mantienen estos datos se muestra en la Gráfica 7.3 junto con sus parámetros estimados, los que fueron obtenidos por medio del paquete estadístico STATISTICA.

Related documents