• No results found

SUMMARY OF STUDY INSIGHTS AND QUESTIONS FOR THE WORKSHOP

Como se mencionó anteriormente, las medidas de tendencia central tienen como objetivo sintetizar los datos en un valor representativo; como complemento, las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información; de esta manera, las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central como la media aritmética. Cuanto menor es la dispersión, tanto mayor será la precisión

Página 64 de 177

del sistema de medición. Si los estadígrafos de posición se relacionan con el concepto de exactitud, los de dispersión se relacionan con la precisión de las técnicas.

La dispersión es importante porque:

 Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos.

 Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de identificarlos antes de abordar esos problemas.

 Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes.

Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de una distribución empírica? Vamos a considerar sólo algunas medidas de dispersión: el rango, el rango inter-cuartílico, la varianza, la desviación estándar y el coeficiente de variación.

EL RANGO O RECORRIDO ( R ):

Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el máximo valor (Xn ó XMax) y el mínimo (X1 ó XMin) en un conjunto de datos, de manera más formal:

R = XMáx – XMín = Xn - X1 Ejemplo:

Se tienen las edades de cinco estudiantes universitarios de 1er año, a saber: 18,23, 27,34 y 25., para calcular el rango o recorrido de la variable, se tiene que:

R = Xn – X1 = 34 – 18 = 16 años Rango para datos agrupados

Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el rango tomando el límite superior de la última clase menos el límite inferior de la primera clase, de manera más formal:

Página 65 de 177

Ejemplo:

Dada la siguiente distribución de frecuencia determinar el rango o recorrido:

Clases P.M. mi ni fi Ni Fi 7,420 – 21,835 14,628 10 0,33 10 0,33 21,835 – 36,250 29,043 4 0,13 14 0,46 36,250 – 50,665 43,458 5 0,17 19 0,63 50,665 – 65,080 57,873 3 0,10 22 0,73 65,080 – 79,495 72,288 3 0,10 25 0,83 79,495 – 93,910 86,703 5 0,17 30 1,00 Total 30 1,00

El rango de la distribución de frecuencias se calcula así: R = (lim. Sup. de la clase n – lim. Inf. De la clase 1) = (93.910 – 7.420) = 86.49

Propiedades del Rango o Recorrido:

 El recorrido es la medida de dispersión más sencilla de calcular e interpretar puesto que simplemente es la distancia entre los valores extremos (máximo y mínimo) en una distribución.

 Puesto que el recorrido se basa en los valores extremos, éste tiende a ser errático. No es extraño que en una distribución de datos económicos o comerciales incluya a unos pocos valores en extremo pequeños o grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersión con respecto a esos valores anormales, ignorando a los demás valores de la variable.

 La principal desventaja del recorrido es que sólo esta influenciado por los valores extremos, puesto que no cuenta con los demás valores de la variable. Por tal razón, siempre existe el peligro de que el recorrido ofrezca una descripción distorsionada de la dispersión.

 En el control de la calidad se hace un uso extenso del recorrido cuando la distribución a utilizarse no la distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un factor de importancia.

RANGO INTERCUARTÍLICO:

Teniendo en cuenta la principal desventaja del rango (toma en cuenta solo los valores extremos), surge el rango intercuartílico, denotado por RI, su cálculo se limita a la diferencia entre el tercer y el primer cuartil, es decir

Página 66 de 177

Esto nos dice en cuántas unidades de los valores que toma la variable se concentra el cincuenta por ciento central de los casos.

VARIANZA

Se representa por S2. Se define como el promedio de las desviaciones de los datos entre si. La suma de los cuadrados de los desvíos de la totalidad de las observaciones, respecto de la media aritmética de la distribución, es menor que la suma de los cuadrados de los desvíos respecto de cualquier otro valor que no sea la media aritmética.

Si observamos, veremos que la varianza no es más que el desvío estándar al cuadrado. Precisamente la manera de simbolizarla es S2.

∑(

̅)

Propiedades de la varianza:

 Es siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente cuando Xi=X

 La varianza es la medida de dispersión cuadrática optima por ser la menor de todas.

 Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Veámoslo:

 Si a Xi le sumamos una constante Xi’ = Xi + K. tendremos (sabiendo que )

 Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por el cuadrado de dicha constante. Veámoslo:

Si a xi’ = xi · k tendremos (sabiendo que )

 Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la distribución inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la expresión

Siendo

Página 67 de 177

2 i

S la varianza del subconjunto (i)

LA DESVIACIÓN ESTÁNDAR

También recibe el nombre de desviación tipo o desvío típico. Es posible identificar conjuntos de datos que a pesar de ser muy distintos en términos de valores absolutos, poseen la misma media. Una medida diferencial para identificar esos conjuntos de datos es la concentración o dispersión alrededor de la media.

 Desviación estándar para datos sin agrupar

Una manera que aparece como muy natural para construir una medida de dispersión sería promediar las desviaciones de la media, pero como vimos

Una manera de evitar que los distintos signos se compensen es elevarlas al cuadrado, de manera que todas las desviaciones sean positivas. La raíz cuadrada del promedio de estas cantidades recibe el nombre de desviación estándar, o desviación típica y es representada por la siguiente fórmula:

(

̅)

La desviación estándar sólo puede utilizarse en el caso de que las observaciones se hayan medido con escalas de intervalos o razones.

A mayor valor de la desviación estándar, mayor dispersión de los datos con respecto a su media. Es un valor que representa los promedios de todas las diferencias individuales de las observaciones respecto a un punto de referencia común, que es la media aritmética. Se entiende entonces que cuando este valor es más pequeño, las diferencias de los valores respecto a la media, es decir, los desvíos, son menores y, por lo tanto, el grupo de observaciones es más ―homogéneo‖ que si el valor de la desviación estándar fuera más grande. O sea que a menor dispersión mayor homogeneidad y a mayor dispersión, menor homogeneidad.

 Desviación estándar para datos agrupados 1. Cálculo usando las frecuencias absolutas

Página 68 de 177

Propiedades de la Desviación Estándar

 La desviación estándar es siempre un valor no negativo.

 Es la medida de dispersión óptima por ser la más pequeña.

 La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable.

 Si a todos los valores de la variable se le suma una misma constante la desviación estándar no varía.

 Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar queda multiplicada por el valor absoluto de dicha constante.

EL COEFICIENTE DE VARIACIÓN:

Para comparar la dispersión de variables que aparecen en unidades diferentes (metros, kilos, etc.) o que corresponden a poblaciones extremadamente desiguales, es necesario disponer de una medida de variabilidad que no dependa de las unidades o del tamaño de los datos. Este coeficiente únicamente sirve para comparar las dispersiones de variables correspondientes a escalas de razón.

Una manera de construir una medida de variabilidad que cumpla los requisitos anteriores es el llamado coeficiente de variación:

(Las barras del denominador representan el valor absoluto, es decir, indican que debe prescindirse de la unidad de medida de la media). A menor coeficiente de variación consideraremos que la distribución de la variable medida es más homogénea.

PUNTAJE ESTANDARIZADO:

Cuando se tiene una distribución simétrica, su polígono de frecuencias revelará una forma de campana muy común en estadística. Esta curva es llamada curva normal, de error, de probabilidad o campana de Gauss. En ella la media aritmética se localiza en la mitad de la distribución. En el eje horizontal se ubican los valores que toma la variable y en el vertical la frecuencia absoluta o relativa. El área bajo la curva tendrá un valor del 100%

Página 69 de 177

El puntaje típico o estandarizado o variable normalizada, es una medida de dispersión muy utilizada como variable estadística en este tipo de distribución, denominada distribución normal. El puntaje estandarizado mide la desviación de una observación con respecto a la media aritmética, en unidades de desviación estándar, determinándose así la posición relativa de una observación dentro del conjunto de datos. Por lo general se simboliza por Z.

s

x

X

Z

Por ser adimensional, el puntaje Z es útil para comparar datos individuales de distribuciones que tienen distintas unidades de medida, así como diferentes medias y desviaciones estándar.

Propiedades: 1.

z

0

2.

2z

1

Al terminar el segundo semestre de laño 2010, un grupo de 150 estudiantes de primer semestre de Ingeniería de un CEAD, obtuvieron los siguientes resultados en el puntaje final de los cursos Lógica Matemática y Estadística Descriptiva:

 Lógica Matemática: puntuación media de 3.9 y varianza 3.2.

 Estadística Descriptiva: puntuación media de 3.7 y desviación estándar 1.7.

a. ¿En cuál curso hubo mayor dispersión absoluta? ¿En cuál hubo mayor dispersión relativa?

b. Si un estudiante obtuvo como nota final en Lógica Matemática 3.8 y en Estadística Descriptiva 3.5. ¿En cuál curso fue su puntuación relativa superior?

Solución:

a. Para determinar la dispersión absoluta:

Lógica Matemática:

s

2

3.2

s

3.2

1.79

Estadística Descriptiva:

s

1,7

Se tiene entonces que en Lógica Matemática hubo una mayor dispersión absoluta que en Estadística Descriptiva.

EJEMPLO

Página 70 de 177

Para la dispersión Relativa:

Lógica Matemática:

100

45.9%

9

.

3

79

.

1

CV

Estadística Descriptiva:

100

46%

7

.

3

7

.

1

CV

En Estadística Descriptiva hubo una mayor dispersión relativa 46% > 45.9%

b. Para el cálculo de la puntuación relativa, se hace uso del puntaje estandarizado. Es decir, se requiere estandarizar las calificaciones convirtiéndolas en puntuaciones Z.

Lógica Matemática:

0.06

79

.

1

9

.

3

8

.

3

s

x

x

Z

Estadística descriptiva:

0.12

7

.

1

7

.

3

5

.

3

s

x

x

Z

Estos valores de puntuación Z negativos indican que ambas calificaciones se encuentran por debajo de la media. Este es un principio del puntaje estandarizado: Siempre que un valor sea menor que la media, su puntuación Z correspondiente será negativa.

Estos resultados afirman entonces que el estudiante con calificaciones de 3.8 en Lógica Matemática y 3.5 en Estadística Descriptiva, está por debajo del promedio del grupo en ambos cursos.

Dado que -0.06 se encuentra más cera a 0 (la media de la variable estandarizada), se dice que la puntuación relativa del estudiante fue superior en Lógica Matemática.