Es difícil tener confianza en una sola lectura cuando no hay antecedentes que la avalen. Por otro lado es poco práctico y costoso tomar un número demasiado grande de lecturas por lo que se necesita de herramientas estadísticas.
Un conjunto de lecturas que se obtiene, durante mediciones repetidas de una variable en condiciones de operación fijas se conoce como Muestra o Mesurado. Las condiciones de operación fijas implican que las condiciones externas que controlan el proceso a partir del cual se obtiene el valor medido se mantienen en valores fijos mientras se realiza la muestra. En la práctica de la ingeniería real, la habilidad para controlar las condiciones de operación en condiciones verdaderamente fijas puede ser imposible, y el término condiciones de operación fijas debe considerarse en un sentido nominal. Es decir, las condiciones del proceso se mantienen tanto como sea posible.
Para iniciar se considera el problema de medición estimando el valor medio verdadero, x', con base en la información que se obtiene de repetidas mediciones de x. El valor verdadero es el valor que se desea estimar a partir de la medición. Una muestra de la variable x, en condiciones de operación fijas ó controladas, proporciona un número finito de puntos de datos. Estos datos se usan para inferir x'. Si el número de puntos de datos es muy pequeño, entonces la estimación de x' del conjunto de datos puede estar muy influida por el valor de otro dato. Si este dato mostró gran variación a partir de x' en relación con otros datos, entonces el estimado del valor verdadero puede mostrar un gran error. Si el conjunto de datos fuera más grande, la influencia de cualquier dato se compensaría por la influencia más grande de otro. Conforme N→∞, todas las posibles variaciones en x estarían incluidas en el conjunto de datos. Desde un punto de vista práctico, sólo son posibles los conjuntos de datos de tamaño finito, en cuyo caso los datos medidos sólo proporcionan una estimación del valor verdadero.
A partir de un análisis estadístico del conjunto de datos y de las fuentes de error que los influyen x' se estima como:
%) (P u
x
x′= ± x (A.1)
donde x representa el estimado más probable de x' con base en los datos disponibles y ux el
intervalo de confianza o incertidumbre en ese estimado con algún nivel de probabilidad,
P%. El intervalo de confianza (o incertidumbre) se basa en la estimación del error de precisión y en el error de sesgo en la medición de x.
A.1.1. Funciones de densidad de probabilidad
Sin considerar el cuidado al obtener un conjunto de datos a partir de mediciones independientes en condiciones idénticas, por lo general ocurrirá la dispersión aleatoria en los valores de datos. Por lo tanto, el mesurando también se conoce como variable aleatoria. Si la variable es continua en tiempo o espacio, se dice que es una variable aleatoria
continua. Una variable representada por valores discretos se llama variable aleatoria discreta. Cuando se comparan los datos de mediciones repetidas de una variable en condiciones de operación fijas, cada dato puede tender a asumir un valor particular o permanecer dentro de algún intervalo cerca del valor más frecuente. Esta tendencia hacia un valor central en torno al cual todos los otros valores están dispersos se conoce como
tendencia central de una variable aleatoria. La probabilidad se ocupa del concepto de que, para una variable, un intervalo particular de valores se medirá con alguna frecuencia en relación con cualquier otro intervalo.
El valor central y los valores dispersos alrededor de él pueden determinarse a partir de la densidad de probabilidad de la variable medida. La frecuencia con la que la variable medida asume un valor particular o intervalo de valores se describe por su densidad de probabilidad. Considere una muestra de x, que consta de N mediciones individuales, xi,
donde i = 1, 2, ..., N, cada medición se toma en forma aleatoria, pero en condiciones de operación de prueba idénticas. Los valores medidos de esta variable se muestran en un diagrama de puntos (figura A.1).
El diagrama de puntos es un instrumento muy valioso para representar la distribución de conjuntos de datos relativamente pequeños (digamos que hasta 20 observaciones). En particular nos muestra:
1. La situación general de las observaciones (en este ejemplo podemos ver que las producciones se agrupan cerca del valor 0,95 y 1,05 no alrededor del, pongamos, 1,25 o 0,75).
2. La dispersión de las observaciones (en el ejemplo se extienden en un intervalo de aproximadamente 5 unidades).
Figura A.1.diagrama de puntos, de una muestra de 20 observaciones.
Esta descripción para la variable x se puede ampliar. Suponga que se vuelven a graficar los valores medidos. La abscisa estará dividida en K pequeños intervalos entre el máximo y el mínimo de los valores medidos de x. Sea el número de veces, nj , que una medición asume
un valor dentro de un intervalo definido por x - δx≤x < x + δx y graficado en la ordenada. Para N pequeño, K se debe seleccionar en forma conveniente, pero de tal manera que nj≥ 5
en al menos un intervalo. Para N > 40, un estimado [7] del número de intervalos K requiere un análisis estadístico viable que se determina a partir de:
K = 1.87(N - 1)0.40+ 1 (A.2)
La gráfica resultante se llama histograma de la variable mostrado en la (figura A.2). El histograma es otra forma de ver la tendencia y la densidad de la variable. Si la ordenada fuera adimensional dividiendo nj entre el número total de mediciones de la variable, N,
resultaría una distribución de frecuencia de la variable. Para cualquier valor de la variable, la frecuencia, ƒj, a la cual ocurrió ese valor se determinará a partir de su distribución de
frecuencia.
Figura A.2. Histograma y distribución de un conjunto de datos. A.1.2. Valores centrales de las distribuciones
A menudo, sin embargo, queremos ir más lejos y, a guisa de sustituto del histograma completo, deseamos encontrar alguna forma abreviada de describir la distribución sin tener que mostrar efectivamente el diagrama completo. Podemos, por tanto, buscar respuestas a preguntas como: ¿Qué resultado particular caracteriza mejor al grupo de observaciones en su totalidad? Hay varios valores posibles para esta designación, y escogemos uno de ellos, con base en el uso futuro que daremos a la información. Las diferentes posibilidades son: a) La moda
La mayoría de las distribuciones tienen un punto máximo o pico cerca del centro. Si ese pico está bien definido, el valor sobre la escala horizontal en que ocurre se llama moda de la distribución. Siempre que queramos llamar la atención sobre esta concentración central de nuestros valores medidos, mencionamos el valor modal. A veces una distribución tendrá dos puntos máximos; en este caso la denominamos distribución bimodal y señalamos los dos valores modales.
b) La mediana
Si colocamos todos nuestros resultados en orden numérico y los dividimos a la mitad en dos partes iguales, el valor correspondiente a esta línea divisoria se llama mediana. Como es obvio que las áreas bajo las gráficas de distribución representan grupos de observaciones (la barra de la izquierda de la figura A.2 representa 5 observaciones; la segunda de la izquierda 9; por tanto las dos juntas representan 14, y así sucesivamente), la mediana es aquel valor en el cual una línea vertical divide a la distribución en dos partes de área equivalentes. La mediana suele citarse a menudo en la investigación sociológica; se habla, por ejemplo, de la mediana de los salarios de ciertos grupos de empleados, etc.
c) La media
El tercero de los valores comúnmente citados es el conocido promedio o media aritmética. Para un grupo de N observaciones, xi, la media x se define como
N x
x =
∑
i (A.3)Más adelante veremos que, para nuestros propósitos, la media es la más útil de las tres cantidades que hemos definido.
Nótese que, para una distribución simétrica, la media, la mediana y la moda coinciden todas en el centro de la distribución. Si, por otra parte, la distribución no es simétrica, cada una tendrá un valor diferente. Para el histograma que aparece en la (figura A.2), los valores de la media, la mediana y la moda se muestran en la (figura A.3), que ilustra su relación con la distribución. Si la distribución es marcadamente asimétrica, la diferencia entre la moda, la mediana y la media puede ser sustancial.
Figura A.3. Relación entre un histograma y su media, mediana y moda.
A.1.3. Amplitud de las distribuciones
Consideremos ahora otra cuestión: ¿En qué medida nuestro valor elegido representa a la distribución en su conjunto? Esto es, cuán seguro resulta usar un solo valor como sustituto de toda la distribución? Ahora no podemos justificar los procedimientos que a continuación
se describirán. En su lugar confiaremos en la intuición de que, cuanto más amplia sea la distribución, menor será la importancia que podamos asignar a cualquiera de los tres valores centrales. Por otra parte, cuanto más estrecha sea la distribución, tanto más nos sentiremos confiados en la media, la moda o la mediana como los valores representativos de la distribución.
Formulemos, pues, una cantidad que será una medida de la amplitud de la distribución. Podríamos inventar muchas de tales cantidades, pero, por razones de las que no es preciso ocupamos por ahora, determinaremos una cantidad de uso casi universal. Definimos la
desviación estándar de la distribución s, como:
(
)
n x xi ) x ( s =∑
− prom 2 (A.4)La definición es hasta cierto punto arbitraria porque, al definir una medida de la amplitud de la distribución, pudimos haber escogido otras potencias de la cantidad (xi – xprom), y
empleado otros denominadores.
Aquí se puede hacer una pausa para resumir el progreso alcanzado hasta ahora. Si se han hecho ya mediciones sucesivas de una cantidad dada y se quiere establecer el resultado en términos numéricos, se tienen varias opciones al respecto: a) desarrollar el histograma correspondiente; b) dar la moda, la mediana, o la media como parámetros de la localización de la distribución, y c) considerar la desviación estándar como medida de la confianza que se puede tener en los resultados. A veces se deja el resultado de un proceso de medición en esta forma; las cantidades involucradas se entienden universalmente, y el procedimiento es aceptable. Para el propósito actual, se debe buscar una interpretación cuantitativa más detallada de los valores citados.
A.1.4. La media y la desviación estándar
Ya que la presencia de fluctuaciones al azar ha privado de la oportunidad de identificar un intervalo realista dentro del cual se puede estar seguro de que se encuentra el valor buscado, se deben cambiar las expectativas del proceso de medición. Como se ha dicho antes, no es tanto cuestión de obtener respuestas razonables a las preguntas que se hacen, sino como el saber qué preguntas inteligentes cabe hacer. Específicamente, por supuesto que no tiene sentido preguntar: ¿Cuál es la respuesta correcta? Ni siquiera es razonable plantearse: Después de cien observaciones de este parámetro, ¿qué obtendré en la próxima medición? Las únicas preguntas sensatas tienen que ver no con la certeza, sino con la probabilidad, y son varias las interrogantes distintas que cabe hacer sobre probabilidades.
Si, por ejemplo, de las 100 mediciones originales, una cierta porción de los resultados queda incluida en ese intervalo particular, se podría, con todo- derecho, elegir esa fracción como el índice de probabilidad que se busca. Esa no sería una suposición aventurada, y bien se podría proponer una descripción normalizada de la distribución considerando la porción de la totalidad de mediciones efectuadas que corresponde a un intervalo especificado, como x ± S. Esto transmitiría satisfactoriamente información sobre el
conjunto de observaciones a otras personas, pero surge un problema mayor cuando se descubre que los resultados de probabilidades están específicamente relacionados con un histograma en particular.
Una solución consiste en desistir describir el histograma en particular y empezar a hablar sobre distribuciones teóricas definidas. Estas pueden no ser claramente significativas para un conjunto particular de observaciones, pero ofrecen la enorme ventaja de que, como son construcciones teóricas definidas, tienen propiedades que son definidas, constantes, y ampliamente comprendidas. Muchas de esas distribuciones teóricas se han desarrollado para propósitos especiales, pero aquí solo se presentará: la distribución Gaussiana o "normal".
La distribución de Gauss se utiliza para interpretar muchos tipos de mediciones físicas, en parte debido a que las circunstancias mecánicas de muchas mediciones físicas guardan estrecha correspondencia con los fundamentos teóricos de la distribución Gaussiana, y en parte porque la experiencia demuestra que la estadística Gaussiana sí proporciona una descripción razonablemente exacta de muchos sucesos reales. A excepción de algunos casos especiales, es razonablemente seguro de que la estadística Gaussiana puede aplicarse con provecho a la mayoría de las mediciones reales.
La curva que representa la distribución normal se muestra en la (figura A.4), y se puede escribir de la siguiente forma:
( ) 2 2 2 2 1 ) ( σ µ π σ − − = y e x p
Donde: µ y σ dependen del experimento. Para un experimento dado µ y σ son números fijos, pero sus valores no se saben generalmente. En realidad, el propósito principal de un experimento es a menudo descubrir cuáles son estos valores realmente. En ese caso los datos del experimento se utilizan para proporcionar estimaciones de su valor.
Figura A.4. Diagrama de la Distribución Normal.
Las estimaciones de estas dos cantidades se dan los símbolos m y s. Junto con las tablas matemáticas para los valores dey y p(y)basados en la ecuación arriba, estas estimaciones se utilizan ambas universalmente para las medidas rutinarias y la interpretación de los datos de la investigación . La estimación m, se realiza con la media aritmética de los datos. Esta
estimación está alrededor tan cerca como puede ser encontrado el valor verdadero de la constante µ en cuestión.
La segunda cantidad calculada de los datos es una estimación de σ, la desviaciónestándar.
Esta estimación de σse da el símbolo S; determina la anchura de la curva normal del error.