CITY LEVEL 61 - EVALUATING THE USE OF CROWDSOURCING AS A DATA COLLECTION METHOD FOR BICYCLE PER

la única que se utiliza en desarrollos matemáticos y que en esa

valiosa propiedad radica su gran importancia y sus numero-

sas aplicaciones en el campo de la estadística. Entre las medi-

das de dispersión a estudiar en esta unidad están las que tienen

relación con la media aritmética y que, al igual que la media,

tienen propiedades algebraicas que les permiten intervenir en

relaciones matemáticas que son la base estructural de los aná-

lisis estadísticos. Por sus propiedades algebraicas estas medi-

das de dispersión son las mas importantes y de más frecuente

aplicación.

El estudio de la variabilidad de los datos, conocido en estadística como dispersión, tiene como objeto el describir y cuantificar por medio de medidas características (pará- metros) la uniformidad que presentan los datos en estudio.

Cuando los datos tratan de acumularse alrededor de un valor central característico se dice que hay poca dispersión. Cuando los valores individuales se alejan del valor central (media) se dice que existe mayor disper- sión. Se hace necesaria entonces una medida que indique cual es el grado de dispersión o variación que tienen los datos, para poder describirlos con mayor precisión, lo mismo que para hacer posible la comparación de varios conjuntos de datos correspondientes a situaciones o escenarios diferentes.

Partiendo de este concepto, la variación de los datos se da a lado y lado del punto correspondiente a la media y por tanto origina formas diferentes en la distribución de los elementos. Esta característica de las distribuciones que describe el grado de deformidad o sesgo hacia la derecha o izquierda de la media la conocemos como asimetría.

Una distribución de datos es simétrica, cuando existe equilibrio en el número de elementos y en la separación de estos, que se encuentran a uno y otro lado del valor promedio respecto del cual se comparan o contrastan dichos valores es decir de la media. En el caso contrario se habla de asime- tría, refiriéndonos a la deformidad o desequi- librio en la concentración de los datos alrededor de una medida de tendencia central que generalmente es la media.

La variabilidad es la característica fundamental de los elementos de una población, y la mayor parte del trabajo estadístico se dedica a su análisis. Los datos cuantitativos expresan la disparidad entre los valores individuales, y desde el punto de vista estadístico, la medida o descripción de esta disparidad es tan importante como la descripción de la tendencia que estos elementos pueden presentar alrededor de un valor característico.

Las medidas de tendencia central y las de dispersión son com- plementarias en la medición de la forma en que están distribui- dos los datos y por tanto resultan muy útiles al análisis estadís- tico. La media no sirve para expresar representatividad si no está acompañada por el valor de la dispersión o variabilidad que tienen los datos en torno a él, por que de lo contrario, la variación de los datos en la serie queda oculta. Si se encuentra que el valor de la dispersión es muy grande, debe concluirse que los datos de que se trata difieren entre sí en forma amplia y por consiguiente el promedio no los representa. Al contrario, si el valor de la dispersión es pequeño, significa que la diferencia entre el valor de la media y el de cada dato particular es pequeña y por tanto los datos son muy semejantes y la media los representa.

En síntesis, la dispersión o grado de significación sirve para conocer cuan representativo es el valor de la media en una población de datos. Las medidas utilizadas para cuantificar la dispersión pueden ser absolutas cuando están expresadas en las mismas unidades de los datos; o relativas las que se expresan en forma de razón o proporción.

5

Dispersión y Asimetría

MEDIDAS DE DISPERSIÓN ABSOLUTA

El Rango.

Consideremos la situación siguiente. En dos ciudades diferentes se recolectaron muestras para determinar el ingreso diario promedio de un vendedor ambulante, con el fin de idear y apli- car políticas referentes a su seguridad social y para establecer el volumen de impuesto con que se le podría gravar. Los resul- tados se agrupan en la siguiente tabla de distribución de fre- cuencias:

Niveles de ingreso de vendedores ambulantes en las ciudades A y B

Figura 5.1. Distribuciones con distinto rango

* Observe los diagramas correspondientes a las distribuciones de frecuencia de los niveles de ingreso en cada ciudad, de acuerdo con esa observación determine en que ciudad existe mayor equilibrio en cuanto al ingreso. Explique su respuesta.

* Calcule la media para las dos distribuciones.

* ¿Qué significa, en términos de nivel de ingreso, que la media de los dos conjuntos de datos sean iguales?

* ¿Por qué, a pesar de que la media de las dos distribuciones es aproximadamen- te la misma, ellas no reflejan que las dos ciu-

lumen de ingreso de los trabajadores informales, en este caso los vendedores ambulantes?

* ¿En cual de las dos ciudades se presenta un nivel de ingreso mas equilibrado y justo?

Si usted prefiera la distribución de ingreso de la ciudad B, muy seguramente habrá notado que la diferencia entre los dos diagramas es la dispersión. El diagrama para la ciudad A presenta mayor variabilidad que el de la ciudad B, ello nos indica que el ingreso es más homogéneo en la ciudad A que en la ciudad B.

Los datos para la ciudad A se encuentran más dispersos, pues- to que el ingreso mínimo es menor que el ingreso mínimo en la ciudad B, y además, la medida del ingreso máximo obtenido en la ciudad A es mayor que el máximo ingreso de la ciudad B. En otros términos, podemos decir que en la ciudad A los ingresos de los vendedores ambulantes varían en intervalo más grande de valores.

El rango es el tamaño del intervalo en el cual varían los elementos de un conjunto de datos numéricos y se calcula encon- trando la diferencia entre el mayor valor y el menor valor de dicho conjunto.

* El rango es una medida muy fácil de calcular. ¿Cree usted que el rango sirve para comparar eficientemente la dis- persión entre los elementos de cualquier par de conjuntos? ¿Es universal?, Es decir, ¿sirve para todos los casos?

Consideremos ahora la siguiente situación. En un concurso de méritos para la construcción de dos escuelas se presentaron diversas propuestas, las cuales obtuvieron las calificaciones que se representan en el siguiente diagrama:

5

Dispersión y Asimetría

* Observe cuidadosamente los dos diagramas y diga que información nos proveen.

* ¿Cuál gráfica, refleja mayor dispersión de los datos? ¿Para cuál escuela cree usted que se presentaron propuestas cuya calificación fue mas uniforme?

* ¿Cuál es el rango de cada conjunto de datos? ¿Sirve en este caso el rango como medida adecuada para comparar la dispersión de los dos conjuntos de datos? Justifique su respuesta.

* Determine cual es la causa por la cual el rango no es una buena medida de la dispersión que se aplique a todos los casos.

Se vio en el segundo ejemplo que aunque tenemos dos distribuciones con distintos grados de dispersión, el rango resulta ser el mismo. La dispersión en la calificación de las propuestas para la escuela Bellavista es mayor que para la otra escuela. Tenemos entonces que el rango no refleja lo que la observa- ción de la gráfica nos muestra como evidente.

Al encontrar el problema de que el rango depende exclusiva- mente de los valores extremos mientras que la dispersión tiene que ver con todos los datos de la distribución, nos vemos en la necesidad de buscar otra medida de dispersión que supere esta dificultad.

En conclusión, podemos decir que el rango es la medida más burda de dispersión, sin embargo tiene un gran valor dentro del diseño y análisis estadístico. Por basarse sólo en los extremos presenta algunos inconvenientes en su aplicación:

* Por ser una medida de posición, puede estar afectada por un valor no característico o inusual dentro del conjunto de valores.

* No es una medida de dispersión de todos los valores que intervienen en el análisis.

* Es altamente sensible al número de elementos en estudio. Cuando se incrementa el tamaño de la muestra puede ocurrir que dentro de los nuevos valores aparezcan datos con

* Es la medida de dispersión menos fiable en especial si se le compara con la desviación típica que estudiaremos luego. También tiene como desventaja el ser poco estable.

Sin embargo, el rango es una medida útil de la dispersión en especial cuando el tamaño de la muestra es pequeño. Una muestra es pequeña cuando el numero de datos es in- ferior a 30. Por ejemplo en muestras para el control de calidad donde usualmente el nú- mero de elementos no sobrepasa los 10. También es usual para expresar las variacio- nes en las temperaturas ambientales diarias, mensuales o anuales o para conocer la dis- persión extrema en el comportamiento bur- sátil (valores máximo y mínimo de la cotiza-

Rango Intercuartil.

Para eliminar la influencia de los valores extremos, en estadísti- ca se buscó una medida que analizara la situación del interme- dio de la distribución, tomando la diferencia entre el tercer cuartil Q₃y el primer cuartil Q₁ y que se llamó rango intercuartil.

Rango Intercuartil Q = Q₃ – Q₁

Rango Semi-intercuartílico o desviación cuartil. Es la mitad del rango intercuartil.

Ejemplo. Para la distribución de frecuencia de las edades de los deportistas, que se trabajaron en las dos unidades anteriores, hallar Q y Q_D.

Q = 151,7 – 141,2 = 10,5 centímetros. Q_D = 10,5/2 = 5,25 centímetros.

Lo que permite decir que la mitad de los deportistas tienen una estatura con desviación respecto a la mediana hasta de ±5,25 centímetros.

A pesar que el rango intercuartil y la desviación cuartil, como medidas de variabilidad de las observaciones son más adecua- das que el rango, presentan varios inconvenientes que demeri- tan su uso:

* _{No toman en consideración todos los valores de la}

distribución y puede ocurrir que los valores inferiores a Q₁o

s_{uperiores a Q} 3

e_{stén muy compactados o muy diversos, y los}

valores de Q y Q_Dno cambiarían por ello.

* _{No es posible, conociendo sólo Q o Q} D

, _{hacer la ubicación precisa de una observación dentro de la}

distribución.

* Al igual que la mediana, que es el segundo cuartil, no tienen propiedades que les permitan intervenir en las relaciones matemáticas que utiliza la estadística.

5

Dispersión y Asimetría

El ejemplo fue tomado del libro Matemá- ticas, azar y sociedad y que se cita en la bibliografía al final de esta unidad.

5 Desviación Típica o Estándar.

Para superar la dificultad de tropezar con las debilidades de las medidas anteriores de dispersión que no toman en cuenta todos los valores del conjunto y no solamente valores extremos o valores de cuartiles. ¿Cómo podemos medir la dispersión con una herramienta que verdaderamente represente la sensación de dispersión y que se aplique de manera universal a todos los casos?. La siguiente forma de llegar al concepto de desviación estándar fue propuesta por Perry y otros5_{nos permite una}

fácil comprensión, veamos:

Suponga que, para cada una de las situaciones representadas en las gráficas siguientes, se va a realizar este procedimiento,

Primero, calcular, para cada valor, la distancia que hay de él a un dato fijo; segundo, sumar esas distancias; y tercero, emplear dicho resultado como medida de dispersión de la correspondiente distribución.

* ¿Qué relación hay entre esas sumas de distancias? Es decir, ¿en que caso resultará mayor esa suma de distancias?

Figura 5.3. Distribuciones con diferente dispersión.

* Generalizando la respuesta a la pregunta anterior, ¿qué relación hay entre la suma de distancias a un dato fijo para una distribución muy dispersa y la correspondiente suma de distancias para una distribución menos dispersa?

dato, que se va a tener como referencia. El problema consiste en determinar cuál es la mejor referencia. Veamos si conviene que el mínimo sea tal referencia.

Considere cada una de las siguientes distribuciones: Distribución 1: 1, 2, 3, 4 Distribución 2: 5, 6, 7, 8

* ¿Alguna de las distribuciones es más dispersa que la otra? ¿Por qué?

* Halle el mínimo de cada una de las dos distribuciones y calcule la distancia que hay de cada uno de los datos de la primera distribución al mínimo de dicha distribución (diferencia entre un valor de la distribución y el mínimo de la misma) y haga la suma de esas distancias. También calcule la suma de las distancias que hay de cada uno de los datos de la segunda distribución al mínimo de la misma. (Dé su respuesta comple- tando la siguiente tabla.)

* ¿Corroboran los números que encontró en el ítem anterior su intuición con respecto a la dispersión de las dos distribuciones que estamos analizando? Es decir, ¿se puede pensar que la suma de distancias de cada uno de los valores de la distribución al mínimo de la distribución es una buena medida de la dispersión?

Ahora, considere las distribuciones siguientes:

Distribución 3: 1, 4, 6, 9 Distribución 4: 1, 1, 2, 3

5

Dispersión y Asimetría

* ¿Cuál de las dos distribuciones es más dispersa? ¿por qué?

* Emplee el mismo criterio que se utilizó en la tabla anterior, para hallar los números que permitan comparar la dis- persión de las dos distribuciones. (De su respuesta completan- do la siguiente tabla.)

* Al usar ese criterio, ¿se corrobora su intuición?

Considere la distribución:

Distribución 5: 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4

* Haga el diagrama de las distribuciones 1 y 5. ¿Intuiti- vamente, alguna de esas dos distribuciones es mas dispersa que la otra? ¿Cuál?

* Emplee el mismo criterio para comparar la dispersión de las dos distribuciones 1 y 5. ¿Se corrobora su intuición?

Observe que las distribuciones tienen la misma dispersión, el criterio que veníamos utilizando y que parecía ser un buen criterio para medir y comparar la dispersión de dos conjuntos, arroja una información que en este caso no sirve, pues es contrario a la evidencia. Por tanto, la suma de todas las distancias de los datos de un conjunto al mínimo no constituye una buena herramienta para medir la dispersión pues no es universal.

* Comente la validez de esta afirmación: “La medida de dispersión definida anteriormente no sirve por que no tiene en cuenta el número de datos”

Considere entonces otro criterio para medir la dispersión:

Se calcula la distancia de cada uno de los datos de la distribu- ción al mínimo de dicha distribución; segundo, se hace el promedio de dichas distancias; y tercero, se emplea el resultado como medida de dispersión de los datos de la correspondiente distribución.

* Utilice este nuevo criterio para medir la dispersión de las distribuciones 1 y 5. Y, comente la bondad de este criterio. (Dé su respuesta empleando una tabla como la siguiente.)

Considere las siguientes distribuciones:

Distribución 6: 1, 5, 6, 7, 8 Distribución 7: 1, 2, 3, 4, 8

* ¿Intuitivamente, alguna de las dos distribuciones es más dispersa que la otra? Utilice el último criterio definido, - el promedio de las distancias de cada uno de los datos de la dis- tribución al mínimo de la misma – para medir la dispersión de las distribuciones 6 y 7 y compararlas. ¿Se corrobora su intui- ción? ¿cuál es el problema?. Emplee una tabla como la siguiente:

5

Dispersión y Asimetría

Debe ser claro que la última “medida de dispersión” que hemos definido tampoco es una buena herramienta para comparar la dispersión de dos distribuciones pues depende de qué tan alejado esté el mínimo del resto de los datos de la distribu- ción. Por tanto, aún no hemos encontrado cuál es la mejor referencia con respecto a la cual debemos medir las distancias.

* Sugiera cuál es una buena referencia con respecto a la cual se deban medir las distancias, para obtener una medida de dispersión.

Puesto que la media de una distribución es, en términos gene- rales, un buen representante de la distribución, resulta natural pensar que la referencia que hemos estado buscando es esa medida.

Bien, entonces definamos ahora como medida de dispersión el promedio de las “distancias” (diferencias entre los valores de la distribución y la media de la misma) de cada uno de los datos de la distribución a la media de la distribución.

Para cada una de las distribuciones 1, 5 y 6 emplee la definición dada anteriormente para medir y comparar la dis- persión de los datos de cada una de las tres distribuciones.

* ¿Le sorprende el resultado? ¿En que consiste y cómo se puede resolver el problema que hemos encontrado al definir así la medida de la dispersión?

Usted debió encontrar que el problema reside en que los valores positivos (que corresponden a los datos por encima de la media) se anulan con los valores negativos (que corresponden a los datos por debajo de la media). En otras palabras, no se está haciendo el promedio de verdaderos valores de distancia.

* ¿Cómo lograr que todas las diferencias sean positi- vas?

Como lo que nos interesa es la distancia de cada valor a la media, debemos obtener valores positivos (recuerde que no existen distancias negativas). Una posible manera de obtener valores positivos es elevar al cuadrado cada una de las diferencias obtenidas. (la otra forma es trabajar con el valor absoluto de las diferencias; sin embargo, no tomaremos ese camino.) Y, entonces, se puede pensar en definir una herramienta que mida la dispersión de una distribución, como el promedio de los cua- drados de las diferencias de cada uno de los datos a la media de la distribución.

Verifique que al emplear esta última herramienta para medir y comparar la dispersión de cualquier par de distribuciones de las dadas anteriormente, el resultado que se obtiene corrobora la intuición correspondiente. Para ello compare las distribuciones 5 y 6.

5

Dispersión y Asimetría

Hemos encontrado, entonces, una herramienta que depende de todos los datos de la distribución y además tiene en cuenta el número de datos que hay en ella. Además, proporciona re- sultados que son coherentes con la observación y la intuición. Esta medida se conoce como varianza de la distribución.

La varianza de un conjunto de datos numéricos es una medida de su dispersión y se define como el promedio de los cuadra- dos de las diferencias de cada valor a la media aritmética.

En una cierta investigación se tomó una muestra de 10 niños y por cada uno de ellos se obtuvo una medida correspondiente a su estatura (en metros). A continuación se da la muestra de datos:

{1.25, 1.32, 1.38, 1.25, 1.32, 1.20, 1.32, 1.32, 1.25, 1.25}

* Determine la estatura promedio de ese conjunto de datos. – No olvide dar la respuesta en metros. – Además, utilice la varianza para calcular la dispersión de los datos. ¿En que unidades se expresa esta medida? Comente este hecho y sugiera alguna solución.

Por razones como las que usted descubrió en el caso de las estaturas, en ciertas ocasiones, el valor más comúnmente em- pleado para medir la dispersión es el llamado desviación están- dar que se define como la raíz cuadrada de la varianza.

La desviación estándar de un conjunto de datos numéricos es

In document EVALUATING THE USE OF CROWDSOURCING AS A DATA COLLECTION METHOD FOR BICYCLE PERFORMANCE MEASURES AND IDENTIFICATION OF FACILITY IMPROVEMENT NEEDS (Page 77-81)