Evaluation Script - Applying deep learning extreme multi-label classification to the biomedical

Hemos estudiado la capacidad de distintas redes para predecir la radiación en un lapso de 1h. En este apartado analizaremos la precisión que muestran si triplicamos dicho lapso de tiempo. Empezaremos alimentando a las redes con timesteps de 15 mediciones consecutivas al igual que en el apartado anterior, de esta forma podremos comparar los resultados con las predicciones a 1 hora.

VENTANA DE PREDICCIÓN: 15 min Comenzamos estudiando el caso base:

Ilustración 72. Gráfica de predicción del baseline

En la gráfica comprobamos cómo en este caso la predicción basada en weighted average forecast es muy pobre ya que el desfase es 3 veces mayor al aumentar el horizonte de predicción. Así el valor de precisión de predicción es de 343.98 W/m2_.

Recordemos que calculamos la predicción en cada caso como la media de los valores de la ventana de datos. Aun así, nos sirve como cota mínima con la que comparar el rendimiento de nuestras redes.

RED 20 - RED 21

Comenzamos con la arquitectura de RED que mejores resultados nos ha dado en los casos anteriores. En este caso compararemos de nuevo las funciones de activación tanh y ReLU. Para aumentar la velocidad de entrenamiento aumentamos el tamaño de batch de 300 a 500. Esto tendrá una pequeña penalización en la precisión, pero no es apenas significativa. En cambio, reducirá el tiempo de entrenamiento permitiendo realizar más pruebas:

Arquitectura: 85 (D) Æ 17 (D) Æ 1 (D) Learning rate: 1.00E-3

Número de épocas: 200 Tamaño de batch: 500 Función de coste: MSE

CAPITULO 4: Desarrollo de las soluciones adoptadas.

60 Función de activación:

RED 20: tanh RED 21: ReLU

Algoritmo de optimización: Adam

Tratamiento de datos: Escalado entre 0 y 1

Ilustración 73. Comparación del coste por época entre la RED 20 y 21

En la mitad superior de la gráfica vemos que la evolución del coste durante el entrenamiento es muy similar en ambas redes. Sin embargo, si hacemos zoom sobre las ultimas 10 épocas, podemos comprobar que la RED 21 (ReLU) consigue reducir en mayor medida el coste. Este resultado coincide con los obtenidos en las pruebas con horizonte de predicción de 1 hora, donde en redes FC con función ReLU como activación se consigue una mayor precisión en la predicción.

Ilustración 74. Predicción de la RED 21

En la gráfica de predicción se ve a simple vista que la predicción de la RED 21 es significativamente menos acertada que en el caso de las predicciones a 1 hora. Vemos por un lado fuertes fluctuaciones en los primeros 100 minutos. Además, se acentúan

CAPITULO 4: Desarrollo de las soluciones adoptadas.

las dificultades para predecir los valores pertenecientes a las horas centrales del día, produciéndose desfases de hasta 300 W/m2_{. Este resultado tiene sentido teniendo}

en cuenta que cuanto más lejana en el tiempo sea la predicción, más difícil será predecir su valor.

RESULTADOS RED 20 _(tanh) RED 21 _(ReLU)

Precisión (MAE) 198.39 187.79

Sobreajuste (%) 11.48 11.56

Duración de

entrenamiento (s) 426 399

Tabla 19. Resultados comparados de la RED 20 y 21

En la tabla de resultados vemos cómo claramente la RED 21 supera a la RED 20. La diferencia en términos de precisión es de 11 puntos. Esta ventaja en la precisión no va acompañada de un mayor sobreajuste ni de un mayor tiempo de entrenamiento. Por otro lado, se hace evidente que la precisión de predicción en este caso es muy inferior a las predicciones de 1 hora. Donde el MAE de la mejor red FC es 40 puntos menor que la RED 21.

RED 22

Pasamos a experimentar con las RNN. Comenzamos con una red de dos capas y 100 unidades por capa. En las pruebas realizadas en los escenarios anteriores con RNN de dos capas vimos que tienden sufrir de sobreajuste, por lo que añadimos un 30% de dropout entre la última capa recurrente y la capa densa para intentar reducirlo.

Arquitectura: 100 (RNN) Æ 100 (RNN) Æ 1 (D) Learning rate: 5.00E-4

Número de épocas: 100 Tamaño de batch: 500 Función de coste: MSE Función de activación: tanh Algoritmo de optimización: Adam

Tratamiento de datos: Escalado entre 0 y 1 Regularización: Dropout

Ilustración 75. Evolución del coste por época de la RED 22

Podemos ver cómo gracias a la introducción del dropout el sobreajuste es muy pequeño. Esto se comprueba al ver cómo la línea que representa el coste en validación está muy próxima a la línea azul que representa el coste del conjunto de entrenamiento.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

Ilustración 76. Predicción de la RED 22

La predicción de esta red muestra algunos comportamientos extraños. Por un lado, están las fluctuaciones que se producen antes del minuto 200, que también se dan en las redes FC. Por otro lado, a partir del minuto 400, la predicción se mantiene plana a pesar de que el valor real va en aumento. Este fenómeno puede verse más en detalle en la siguiente gráfica:

Ilustración 77. Detalle de la predicción de la RED 22 RESULTADOS RED 22

Precisión (MAE) 206.77

Sobreajuste (%) 7.85

Duración de

entrenamiento (s) 3354

Tabla 20. Resultados de la RED 22

En la tabla de resultados se muestra que, a pesar de que hemos reducido el sobreajuste, la precisión es significativamente peor con respecto a la RED 21. La duración del entrenamiento, a su vez, es 10 veces mayor.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

RED 23

El uso de dropout en el caso anterior logró reducir el sobreajuste, pero a costa de reducir también la precisión de predicción. Para intentar redecir el sobreajuste sin penalizar la precisión probaremos con una red RNN de una sola capa y 100 unidades. Al reducir el tamaño de la red esperamos que la red no se especialice demasiado en los datos de entrenamiento. Las demás características e hiperparámetros de la red son los siguientes:

Arquitectura: 100 (RNN) Æ 1 (D) Learning rate: 5.00E-4

Número de épocas: 100 Tamaño de batch: 500 Función de coste: MSE Función de activación: tanh Algoritmo de optimización: Adam

Tratamiento de datos: Escalado entre 0 y 1

Ilustración 78. Evolución del coste por época de la RED 23

Podemos ver en la gráfica anterior que el nivel de sobreajuste de la red es moderado, aunque no tan bajo como en el caso anterior. También presenta fluctuaciones especialmente en las épocas finales. El coste del conjunto de datos de entrenamiento desciende de forma suave, lo que indica que la tasa de aprendizaje elegida para el algoritmo de optimización (Adam) es adecuado.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

La predicción muestra comportamientos similares a los de la RED 22. Siguen apareciendo las fuertes fluctuaciones en los primeros minutos. También el intervalo en el que la predicción se mantiene plana a partir del minuto 400 sigue presente. Las principales diferencias son la mejor predicción de los valores máximos y de los valores nulos nocturnos.

RESULTADOS RED 23

Precisión (MAE) 200.06

Sobreajuste (%) 10.05

Duración de

entrenamiento (s) 1348

Tabla 21. Resultados de la RED 23

En la tabla se observa que, en efecto, la precisión es sustancialmente mejor que en el caso anterior, con una mejora de 6 puntos en la precisión. El sobreajuste es algo mayor pero aun así está en un valor razonable. Además, el tiempo de entrenamiento es 3 veces menor. A pesar de esta mejoría, las RNN no han superado el valor de precisión obtenido por la mejor red FC, la RED 21.

RED 24

En este caso vamos a comprobar si las redes LSTM pueden superar la precisión obtenida por las RNN y en especial a las redes FC, al igual que ocurrió para el horizonte de predicción de 1 hora. Esta red se compone de dos capas LSTM de 20 nodos.

Las características e hiperparámetros completos de esta red son: Arquitectura: 20 (LSTM) Æ 20 (LSTM) Æ 1 (D)

Learning rate: 1.0 Número de épocas: 100 Tamaño de batch: 500 Función de coste: MSE Función de activación: tanh

Algoritmo de optimización: Adadelta

Tratamiento de datos: Escalado entre 0 y 1

Ilustración 80. Evolución del coste por época de la RED 24

La evolución del coste de entrenamiento indica que el nivel de sobreajuste es bajo, aunque de lugar a oscilaciones en el coste de validación. El coste sobre los datos de entrenamiento desciende de manera suave y progresiva, con dos descensos un poco más pronunciados al comienzo y alrededor de la época 20.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

Ilustración 81. Predicción de la RED 24

Para mostrar mejor los resultados de predicción mostraremos la predicción sobre dos días consecutivos. Vemos que la red predice relativamente bien ellos ciclos de día y noche. Sin embargo, se repiten los comportamientos extraños que vimos en las anteriores redes RNN, como por ejemplo los picos durante los valores nocturnos o los estancamientos en el valor de predicción durante el amanecer.

RESULTADOS RED 24

Precisión (MAE) 195.72

Sobreajuste (%) 9.51

Duración de

entrenamiento (s) 3445

Tabla 22. Resultados de la RED 24

Los resultados de la tabla muestran una mejora sustancial en la precisión con respecto a la RED 23, la mejor RNN. Así pasamos de un MAE de 200.06 a 195.72. El sobreajuste está dentro de los parámetros normales con un valor de 9.51. La duración, como ya comprobamos en casos anteriores es mucho mayor en las redes LSTM que en las RNN simples, siendo de media 3 veces mayor.

RED 25

Para esta prueba utilizaremos una única capa LSTM. En pruebas anteriores hemos visto que este tipo de arquitecturas en ocasiones ofrece mejores resultados que otras redes de mayor tamaño. Las características e hiperparámetros completos de esta red son:

Arquitectura: 60 (LSTM) Æ 1 (D) Learning rate: 1.0

Número de épocas: 100 Tamaño de batch: 500 Función de coste: MSE Función de activación: tanh

Algoritmo de optimización: Adadelta

CAPITULO 4: Desarrollo de las soluciones adoptadas.

Ilustración 82. Evolución del coste por época de la RED 25

En la gráfica de coste vemos un comportamiento muy similar con respecto al caso anterior. El tamaño de las oscilaciones es parecido y el nivel de sobreajuste es también moderado. La evolución del coste del conjunto de datos de entrenamiento (azul) sigue el mismo comportamiento, con dos descensos más pronunciados.

Ilustración 83. Predicción de la RED 25

En la gráfica de predicción podemos destacar el aumento de las oscilaciones que hemos ido viendo en los casos anteriores. Así comprobamos que el pico que se produce en la noche comprendida entre ambos días es aún más pronunciado. Además, persisten los estancamientos durante el amanecer que ya vimos en los casos anteriores.

Los resultados de la RED 25 muestran una menor precisión. Así el aumento del error MAE es de 5 puntos con respecto al caso anterior. El sobreajuste se mantiene prácticamente idéntico, al igual que la duración del entrenamiento con respecto al caso anterior.

CAPITULO 4: Desarrollo de las soluciones adoptadas. RESULTADOS RED 25 Precisión (MAE) 200.60 Sobreajuste (%) 9.86 Duración de entrenamiento (s) 3353

Tabla 23. Resultados de la RED 25

Una vez estudiados los Resultados de la ventana de datos de 15 minutos y horizonte de predicción de 3 horas, hemos comprobado que estas redes tienen una precisión significativamente menor con respecto al horizonte de predicción de 1 hora. A pesar de ello, la mejora con respecto al caso base es muy superior. Si comparamos las dos redes que mejor rendimiento han en cada caso, vemos que la RED 14 tiene un 25% menos de nivel de error en la predicción frente a la RED 21. Siendo el error de la RED 14 igual a 136.74 W/m2_{frente a los 187.79 W/m}2 _{de la RED 19.}

Estas dos redes son redes FC, con una topología [85 (D) Æ 17 (D) Æ 1 (D)], optimizador Adam y neuronas ReLU. Vemos que por el momento este tipo de red se impone a las redes RNN y LSTM. Sin embargo, aún es pronto para calificar a las redes FC como las más adecuadas para la predicción de valores de radiación solar. Sobre todo, teniendo en cuenta que los tamaños de ventanas de predicción son aún reducidos y es posible que no sea suficiente para que las redes recurrentes sean capaces de detectar los patrones temporales lejanos de existen en este tipo de datos. VENTANA DE PREDICCIÓN: 30 min

En las pruebas anteriores hemos comprobado cómo para una ventana de datos corta de 15 min, las redes LSTM no logran superar la capacidad de predicción de las redes FC. Parece una ventana de 15 min no es suficiente para que las redes recurrentes sean capaces de capturar patrones temporales que les permitan ajustar mejor su predicción. Para comprobar esta hipótesis vamos a aumentar el tamaño de la ventana a 30 mediciones, es decir un intervalo de 30 min. Comenzamos calculando la predicción base:

Ilustración 84. Comparativa entre predicción y los valores del caso base

Como podemos ver en la figura, esta predicción es muy similar al baseline del caso anterior. La única diferencia es que en este caso toma como precisión la media de 30 elementos en lugar de 15 por lo que las fluctuaciones son más suaves. El valor de precisión de esta predicción es 350.80 W/m2_.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

68 RED 26 - RED 27

Vamos a estudiar la tipología de red FC que mejores resultados ha dado en las pruebas iniciales. Al igual que en los casos anteriores emplearemos la función de activación ReLU y Adam como optimizador. Mantenemos el tamaño de batch en 300 y el número de épocas en 200 ya que permiten un tiempo de entrenamiento razonable para nuestras limitaciones de hardware y procesamiento. Vamos a comparar dos casos: una red usará dropout y otra no. Así veremos el impacto que tiene esta característica en la reducción del sobreajuste y en a precisión.

Las características e hiperparámetros completos de estas redes son: Arquitectura: 85 (D) Æ 17 (D) Æ 1 (D)

Learning rate: 1.00E-3 Número de épocas: 200 Tamaño de batch: 500 Función de coste: MSE

Función de activación: ReLU Algoritmo de optimización: Adam

Tratamiento de datos: Escalado entre 0 y 1 Regularización:

RED 26: No RED 27: Dropout

Ilustración 85. Comparativa del coste por época entre la RED 26 y 27

En la gráfica de evolución del coste vemos que la RED 27, que emplea dropout, reduce en menor medida el coste en comparación con la RED 26, que no utiliza dropout. Este resultado a priori puede hacer ver que el dropout da lugar a menor precisión, pero es necesario ver también el efecto que tiene en la reducción del sobreajuste. Esto pude verse en la siguiente gráfica comparativa.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

Ilustración 86. Evolución del coste por época de la RED 26 y 27

La parte izquierda de la gráfica muestra el coste en el conjunto de entrenamiento y validación de la RED 26 y a la derecha los de la RED 27. Se comprueba a simple vista que la red 26 presenta un nivel de sobreajuste mayor, especialmente en las últimas épocas de entrenamiento. Así vemos que el dropout ayuda en gran medida a reducir el sobreajuste. Sin embargo, también limita la reducción del coste, de forma que puede reducir la precisión de la predicción.

Ilustración 87. Predicción de la RED 26 y 27

En la gráfica comparativa de predicciones vemos muchas similitudes entre ambas predicciones. Por otro lado, la RED 26 parece tener más fluctuaciones, algunas fuertes como la brusca caída a 0 alrededor del minuto 650. Sin embargo, esta red predice con menor margen de error los valores altos de radiación del mediodía. La RED 27, con dropout, parece tener un comportamiento más estable, pero predice peor los valores altos antes mencionados.

RESULTADOS _{(No Dropout)}RED 26 _(Dropout)RED 27

Precisión (MAE) 189.40 199.54

Sobreajuste (%) 15.53 8.10

Duración de

entrenamiento (s) 536 601

Tabla 24. Resultados comparados de las redes 26 y 27

Analizando la tabla de resultados vemos cómo, en efecto, la red que emplea dropout, reduce significativamente el sobreajuste en la predicción hasta casi la mitad. Sin embargo, este hecho se ve eclipsado por la fuerte caída en la precisión con un aumento del error de predicción de 10 puntos. Concluimos así que para este caso de red FC la introducción de dropout no aporta una mejora en su capacidad de predicción.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

70 RED 28

En este caso analizaremos la red RNN que mejores resultados ha obtenido en las pruebas preliminares. Esta red se compone de dos capas RNN simples con 100 nodos cada una. Emplea Adadelta como optimizador. Adadelta parece funcionar mejor en redes recurrentes por encima de otros optimizadores como Adam. Continuamos con tanh como función de activación pues es la que mejores resultados ofrece en

Las características e hiperparámetros completos de esta red son: Arquitectura: 100 (RNN) Æ 100 (RNN) Æ 1 (D)

Learning rate: 1.0 Número de épocas: 100 Tamaño de batch: 500 Función de coste: MSE Función de activación: tanh

Algoritmo de optimización: Adadelta

Tratamiento de datos: Escalado entre 0 y 1

Ilustración 88. Evolución del coste por época de la RED 28

En la gráfica de evolución de coste durante el entrenamiento vemos un descenso muy pronunciado durante las primeras épocas que se va suavizando hasta el final del entrenamiento. El coste de validación se mantiene ligeramente por encima del coste de entrenamiento y presenta fluctuaciones, algunas de ellas fuertes como alrededor de la época 60. A pesar de ello muestra un sobreajuste bajo.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

Observando la gráfica de predicción comprobamos que persisten algunos de los comportamientos anómalos que vimos en anteriores redes recurrentes para las predicciones de 3 horas. Continúan las fuertes oscilaciones durante los periodos correspondientes al atardecer, así como el estancamiento de la predicción a partir de la época 400 que puede verse en más detalle en la gráfica siguiente. La predicción es muy similar a la de la RED 23, que fue la red recurrente simple que mejores resultados obtuvo con una ventana de datos de 15 minutos y horizonte de predicción de 3 horas.

Ilustración 90. Detalle de la predicción de la RED 28 RESULTADOS RED 28

Precisión (MAE) 199.51

Sobreajuste (%) 26.32

Duración de

entrenamiento (s) 5856

Tabla 25. Resultados de la RED 28

En la tabla de resultados vemos que, como intuimos antes, la precisión de predicción es casi la misma que la RED 23 (200.06 de MAE), con una pequeña mejoría de medio punto. El overfitting, por otro lado, es muy superior al caso anterior pasando de 10.05% a 26.32%. De esta forma hemos comprobado que el aumento del tamaño de la ventana de datos de 15 a 30 minutos tiene una influencia positiva en las redes RNN simples, pero no es demasiado significativa.

RED 29 - RED 30

Las características e hiperparámetros completos de esta red son: Arquitectura: 20 (LSTM) Æ 20 (LSTM) Æ 1 (D) Learning rate: RED 29: 1.0 RED 30: 5.00E-4 Número de épocas: 100 Tamaño de batch: 500

CAPITULO 4: Desarrollo de las soluciones adoptadas.

72 Función de coste: MSE

Función de activación: tanh Algoritmo de optimización:

RED 29: Adadelta RED 30: Adam

Tratamiento de datos: Escalado entre 0 y 1

Ilustración 91. Evolución del coste por época de la RED 29 y 30

En la gráfica de costes vemos que la tendencia de descenso del coste en ambas gráficas es muy similar. Ambas tienen un descenso brusco en las primeras épocas seguido de uno más progresivo y ambas tienen un nivel de sobreajuste bajo a su vez.

Ilustración 92. Comparativa de predicción de la RED 29 (izq.) y RED 30 (dcha.)

Analizando las gráficas de predicción vemos que ambas siguen un esquema similar. Podemos ver en ambas las mismas variaciones y estancamientos que hemos observado en las demás redes recurrentes y LSTM. En la gráfica de la RED 29, sin embargo, vemos que estas oscilaciones están más atenuadas, lo cual reduce el error en la precisión.

RESULTADOS RED 29 (Adadelta) RED 30 (Adam)

Precisión (MAE) 182.86 197.09

Sobreajuste (%) 10.61 7.80

Duración de

entrenamiento (s) 6068 6318

CAPITULO 4: Desarrollo de las soluciones adoptadas.

Finalmente, en la tabla de resultados vemos que la RED 29, que emplea Adadelta como optimizador, obtiene una precisión de predicción muy superior a la RED 30 que emplea Adam. Este resultado coincide con el que se obtuvo empleando 15 minutos como ventana de datos, donde las redes LSTM con Adadelta fueron más precisas.

La RED 29 es la que ha obtenido una mejor precisión de predicción en este escenario de predicción de 3 horas con una ventana de datos de 30 minutos. La precisión de

In document Applying deep learning extreme multi-label classification to the biomedical and multilingual panoramas (Page 44-47)