Para el estudio de la incertidumbre en cualquier modelo estudiado, se realiza una descomposición del error para poder localizar de forma más efectiva las fuentes de la incertidumbre. Para facilitar la comprensión de este apartado se va a desarrollar un ejemplo ilustrativo que será utilizado para explicar la división de la incertidumbre que se ha implementado en este proyecto.
En el ejemplo se pretende obtener un modelo que relacione el peso con la estatura en una muestra de la población de varones españoles. En primer lugar, se impone que el modelo que se va a utilizar en el estudio es lineal y sigue la siguiente expresión 𝑦 = 𝑏œ+ 𝑏,𝑥 + 𝑢, donde la variable 𝑦 se refiere al peso y la variable 𝑥 es referente a la estatura. Suponiendo que el promedio del peso dado la estatura fuese curvo, el modelo impuesto tendría un error al no poder estimar bien las no linealidades de la muestra, este primer tipo de incertidumbre se conoce como incertidumbre del modelo. Además, hay que estimar los parámetros del modelo
𝑏œ 𝑦 𝑏,, para que la estimación de estos fuese perfecta se necesitaría a toda la población, pero como se tiene una muestra finita, por lo tanto, existe también una incertidumbre asociada a la estimación de los parámetros del modelo. Por último, suponiendo que el modelo impuesto fuese el correcto y que la estimación de los parámetros de éste fuese perfecta, al predecir el peso dada la estatura existe un error. Esto se debe a que no solo con la variable de estudio de la estatura conoces el peso, ya que existen otras variables que se desconocen y que influyen en la estimación. Por lo tanto, existe un error debido a la aleatoriedad de los datos
𝜎_.
Existe en el ámbito de las redes neuronales un tipo de descomposición de la incertidumbre, esta descomposición es la utilizada por Yarin Gal en su tesis doctoral “Uncertainty in Deep Learning” [12]. Este autor diferencia entre dos tipos de incertidumbre en los modelos de redes neuronales, que son los siguientes.
• Epistemic Uncertainty: Falta de conocimiento respecto a la variable de estudio. • Aleatoric Uncertainty: Variabilidad intrínseca en la variable de estudio.
La incertidumbre del modelo que se ha definido en el ejemplo práctico se corresponde con la componente de la incertidumbre estructural dentro de la incertidumbre epistémica. Además, la incertidumbre de la estimación de los parámetros del modelo, corresponde a la incertidumbre denominada paramétrica dentro de la incertidumbre epistémica. Por último, el error del ejemplo debido a la aleatoriedad de los datos está ligada a la incertidumbre aleatoria definida en la descomposición de Yarin Gal.
Se puede ejemplificar con una pregunta lo que buscamos en cada tipo de incertidumbre. La incertidumbre epistémica responde a la cuestión de la calidad y eficacia del modelo a la hora de aprender todas las características posibles del conjunto de datos de entrenamiento. Mientras que la incertidumbre aleatoria responde a la pregunta de cuanto influye el conjunto de datos a la hora de impedir el correcto aprendizaje a la red neuronal. Por lo tanto, podemos decir que la incertidumbre epistémica se centra en la eficacia del modelo, la incertidumbre aleatoria en el conjunto de datos de entrenamiento y la suma de ambas nos proporciona la incertidumbre predictiva, o global, de nuestro modelo de la red neuronal.
Además, el cálculo de cada incertidumbre se realiza de forma diferente. La incertidumbre epistémica se realiza con la técnica del dropout o con la utilización de redes neuronales bayesianas. La incertidumbre aleatoria debe de obtenerse introduciendo un término adicional en la función objetivo del entrenamiento del modelo para obtener la incertidumbre en cada salida de la red neuronal [25]. A continuación, vamos a realizar un estudio más profundo de cada tipo de incertidumbre.
a) Incertidumbre epistémica:
Como se ha comentado anteriormente, con esta incertidumbre se mide las imperfecciones del modelo a la hora de generar las predicciones después del proceso de aprendizaje. Por lo tanto, cuanto mayor número de datos tengamos en el conjunto de entrenamiento y cuanto más se englobe todas las características que se quieren reproducir a través del modelo, menor será la incertidumbre epistémica. En conclusión, bajo el supuesto de que la arquitectura de nuestro modelo sea la precisa y por tanto su capacidad de aprendizaje fuese la ideal para su implementación en el sistema final, podríamos afirmar que si se tuviera un conjunto de datos ilimitado nuestra incertidumbre epistémica sería reducida a cero. La incertidumbre epistémica a su vez se puede dividir en otras dos incertidumbres.
La incertidumbre epistémica, a su vez puede ser dividida en otros dos tipos de incertidumbre. El primer tipo, sería la incertidumbre paramétrica ligada directamente a la estimación de los parámetros de modelo y el segundo tipo, sería la incertidumbre estructural que hace referencia a la bondad de ajuste del tipo de modelo implementado con la respuesta de los datos reales.
DROPOUT COMO CUANTIFICADOR DE INCERTIDUMBRE
b) Incertidumbre aleatoria:
En cuanto a este tipo de incertidumbre, tiene una relación muy estrecha con la recogida de los datos que se utilizan para el entrenamiento de dichos modelos. Por ejemplo, si se quiere diseñar una red neuronal para el control de la temperatura de un depósito, se tendrán que recoger los datos de las variables que influyen en ese proceso, tales como temperatura interior, caudal o volumen entre otras.
Esta recogida de datos se realiza con dispositivos que tienen una precisión en la recogida de datos que depende de la calidad de estos. Por lo que si la recogida de los datos no es precisa y se obtienen datos dispersos que no tienen que ver con la realidad o el dispositivo introduce por sí mismo un error gaussiano muy elevado, la incertidumbre del modelo de nuestra red neuronal será mayor debido a los datos con los que es entrenado. Además, es un fenómeno que no depende del tamaño del conjunto de datos recogidos ya que ese error va asociado a cada muestra tomada.
Imagen 5.1. Descomposición de la incertidumbre según Yarin Gal.
En este proyecto, se ha seguido la corriente de pensamiento de Yarin Gal donde hemos visto que descompone la incertidumbre en dos tipos, epistémica y aleatoria. La subdivisión de la incertidumbre epistémica no se ha tenido en cuenta para evitar complejidad en los cálculos y poder generalizar de forma eficiente el problema.