4.4 Simulation Case Study
4.4.3 Calibration Simulation
Como se ha comentado en el anterior punto, los hiperparámetros influyen en el modelo y por lo tanto en la técnica que utilizamos para medir la incertidumbre ya que dicha técnica se encuentra intrínseca en la propia red neuronal. Este punto intenta demostrar dos ideas, la primera es que la variación de los hiperparámetros no influye en la cuantificación de la incertidumbre de forma negativa, es decir, que los resultados son congruentes a los cambios realizados en los hiperparámetros. La segunda idea, guarda relación con el cambio anteriormente mencionado de los hiperparámetros en el modelo y por lo tanto en la incertidumbre calculada. Cada cambio producirá un aumento o disminución de la incertidumbre basándose en la teoría de las redes neuronales y por lo tanto el resultado tendrá que reflejar esta teoría.
El análisis de los hiperparámetros se realiza utilizando los datos reales con el modelo en el que la salida es función de todas las variables de entrada. Los experimentos se han realizado de forma individual en función del hiperparámetro que se debe de estudiar. En cada experimento se modifica únicamente el hiperparámetro de estudio dejando constante el resto de hiperparámetros. Para realizar la comparación entre resultados se debe introducir los valores del hiperparámetro que se quiere evaluar. Se introducen dos valores, uno con un valor superior y otro con un valor inferior. Después de introducirlos se generan los nuevos modelos y se obtienen sus resultados. Al final del estudio se comparan todos los resultados, tanto del modelo por defecto como los resultados de los modelos generados con el hiperparámetro modificado. Los hiperparámetros estudiados son el número de iteraciones de entrenamiento o epochs, el número de neuronas de las capas ocultas, el tamaño del lote de entrenamiento o batch, el parámetro learning rate y el prior length scale.
Existen dos experimentos que no siguen esta línea de trabajo a la hora de generar los nuevos modelos. Son el caso del estudio de la variación de más de un hiperparámetro y el estudio de un modelo parcial en el que la variable de salida solo es función de tres variables de entrada. Estas variables son la temperatura ambiente, la velocidad del motor y la corriente del motor.
En el experimento en el que se cambian tres hiperparámetros simultáneamente se introducen los valores de éstos que pueden empeorar o mejorar la incertidumbre del modelo, se genera el modelo y los resultados correspondientes. Se realiza de esta forma ya que todos los hiperparámetros influyen en la búsqueda de la mejor combinación de los pesos, el llamado mínimo global en la superficie del error. Por lo tanto, si se modifican estos parámetros simultáneamente el resultado será un mínimo local y la predicción no será la mejor. En cuanto al modelo parcial se genera dicho modelo con los hiperparámetros por defecto del modelo global pero solo teniendo en cuenta tres variables de entrada.
El análisis de los resultados tiene su base en el aumento o disminución del overfitting en función del aumento o disminución del valor de los hiperparámetros. Por ejemplo, si ante un aumento de un hiperparámetro la teoría de las redes neuronales [9] nos dice que el overfitting tiene que aumentar esto provocará que la incertidumbre del modelo tiene que aumentar de la misma forma. En nuestro análisis vamos a comprobar si estos aumentos o disminuciones de incertidumbre son congruentes y por lo tanto que nuestra técnica funciona correctamente.
Estudio Variable Overfitting Incertidumbre
Epoch Aumento Disminución Disminución
Disminución Aumento Aumento
Batch size Aumento Aumento Aumento
Disminución Disminución Disminución
Número neuronas Aumento Aumento Aumento
Disminución Aumento Aumento
Learning Rate Aumento Aumento Aumento
Disminución Aumento Aumento
Prior Length Scale Aumento Disminución Disminución
Disminución Aumento Aumento
Epoch, batch size, número
neuronas - Aumento Aumento
Modelo parcial - Aumento Aumento
Tabla 5.2. Relación que tiene cada hiperparámetro en el fenómeno del overfitting.
Los resultados que se van a comparar en cada uno de los análisis son las gráficas de las regiones de cada tipo de incertidumbre entre el modelo por defecto y los modelos con los nuevos valores de los hiperparámetros. Además, también se compararán las funciones de densidad de la incertidumbre global de los modelos con los nuevos valores de los hiperparámetros y el modelo por defecto. Las conclusiones que esperamos sacar con cada análisis son las siguientes:
1. Demostración empírica de que nuestro método de cálculo de la incertidumbre funciona correctamente basándonos en el aumento o disminución de esta por acción directa del overfitting.
DROPOUT COMO CUANTIFICADOR DE INCERTIDUMBRE
2. Demostración empírica de que un mínimo global en la superficie del error puede variar a la hora de cambiar más de un parámetro en el que uno de ellos produce una acción positiva a la hora de la mitigación del overfitting.
3. Demostración empírica de que la disminución en el número de entradas en el modelo provoca que dicho modelo predefinido no sea capaz de reproducir la realidad de forma exacta.