BioASQ Task 8a Results - Applying deep learning extreme multi-label classification to the biome

En los escenarios anteriores hemos realizado pruebas con diversos tipos de redes neuronales FC y recurrentes para horizontes de predicción cercanos de 1 y 3 horas. Para ello hemos entrenado estas redes con ventanas de datos de entre 5 y 30 minutos. Analizando los resultados de las predicciones hemos comprobado que cuanto mayor es el tamaño de dicha ventana mayor es en general la precisión, siendo las redes LSTM las que más se benefician de este hecho.

Para experimentar con predicciones más lejanas, es necesario utilizar ventanas de predicción más amplias que permitan a las redes detectar correlaciones temporales más alejadas en el tiempo. Es necesario utilizar intervalos de tiempo de varias horas e incluso días. Por desgracia, las limitaciones en la capacidad de cómputo y en el tiempo de trabajo hacen que no sea posible entrenar redes neuronales con ventanas tan amplias ya que cada entrenamiento podría llevar días en completarse.

El objetivo de este trabajo es experimentar con gran cantidad de combinaciones de características e hiperparámetros en las redes por lo que debemos buscar alternativas que nos permitan cumplir con el objetivo. Por ello para experimentar con predicciones más lejanas utilizaremos un conjunto de datos de medición con una granularidad de 15 minutos entre mediciones, como se explica en el apartado 4.1. Este aumento en la granularidad de los datos reduce significativamente el tamaño del conjunto por lo que será más rápido entrenar las redes. Sin embargo, también se pierde detalle en la serie temporal al hacer que los datos sean más homogéneos. Esto provoca que perdamos algo de información acerca de cambios bruscos en las mediciones de los sensores, como por ejemplo uno provocado por el paso de una nube. A pesar de ello nos aportará información sobre si las redes recurrentes verdaderamente con capaces de ver comportamientos en los datos que las redes FC no pueden.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

74 VENTANA DE PREDICCIÓN: 1 día

El primer caso que estudiaremos para este nuevo escenario es realizar predicciones para una ventana de datos de 1 día completo. Puesto que los sensores toman medidas durante 15 horas al día y la granularidad de los datos es de 15 min, necesitamos una ventana de datos de 60 mediciones para abarcar un día completo. Comenzamos estudiando el caso base:

Ilustración 93. Comparativa entre predicción y los valores reales del caso base

En la gráfica vemos que los datos reales tienen un perfil más suavizado y con menos ruido que en el conjunto de datos con granularidad de 1 minuto entre mediciones. Por otro lado, puesto que la predicción se basa en la media de las mediciones de la ventana y la ventana es de 1 día completo, la predicción es muy plana y poco precisa. A pesar de ello nos servirá como caso base. Si las redes obtienen predicciones menos precisas que ésta, sabremos que no vamos por buen camino. La precisión medida como el MAE de la predicción con respecto al valor real es de 274.48 W/m2_.

RED 31

Como primera red a estudiar hemos elegido esta red ya que ha obtenido unos buenos resultados dentro de las redes FC. Esta red es bastante llamativa puesto que da lugar a predicciones con una precisión significativa empleando elementos que no han funcionado bien en casos anteriores. Así tiene una topología de red muy simple sin capas ocultas y con solo 17 neuronas en su capa de entrada y emplea como función de activación la sigmoide:

Arquitectura: 17 (D) Æ 1 (D) Learning rate: 1.0

Número de épocas: 200 Tamaño de batch: 300 Función de coste: MSE

Función de activación: sigmoide Algoritmo de optimización: Adadelta Tratamiento de datos: Escalado entre 0 y 1

CAPITULO 4: Desarrollo de las soluciones adoptadas.

Ilustración 94. Evolución del coste por época de la RED 31

Analizando la evolución del coste durante el entrenamiento, vemos que a diferencia de los casos anteriores la curva desciende muy bruscamente durante las primeras 5 épocas. Posteriormente el coste se mantiene casi constante, decreciendo muy lentamente. Se observa un cierto sobreajuste especialmente en las épocas finales donde el coste en validación aumenta.

Ilustración 95. Predicción de la RED 31

En la gráfica de predicción, vemos algunas diferencias notables con respecto a los anteriores escenarios. En primer lugar, vemos que la red predice con gran precisión la tendencia general de la radiación en un día. Así, podemos comprobar cómo el ajuste de la predicción al valor real durante el anochecer, la noche y el amanecer es prácticamente exacto. Vemos también que las predicciones para distintos días tienen una forma similar pero la red consigue adaptar en cierta medida los picos de las curvas a los máximos de radiación de cada día. Sin embargo, tiene problemas para predecir los valores muy altos y los valles como puede verse en los dos primeros días y en los dos siguientes respectivamente.

CAPITULO 4: Desarrollo de las soluciones adoptadas. 76 RESULTADOS RED 31 Precisión (MAE) 112.67 Sobreajuste (%) 14.70 Duración de entrenamiento (s) 59

Tabla 27. Resultados de la RED 31

En la tabla de Resultados de la RED 30 destaca la enorme mejora en la precisión con respecto a todas las predicciones realizadas anteriormente. Conviene recordar que estos buenos resultados se deben en gran medida a la granularidad más gruesa de los datos, que hace más fácil su predicción. Por ello debemos comparar este resultado con las pruebas posteriores para un mejor análisis.

Vemos que debido a la reducción en el número de datos sobre los que entrenar, el tiempo de entrenamiento de ha reducido considerablemente por un factor de 10. Tiene sentido puesto que el número total de datos es 15 veces menor al estar empleando la media de los datos en intervalos de 15 minutos.

RED 32

A continuación, vamos a analizar la arquitectura de red FC que mejores resultados ha dado en los escenarios anteriores. Se trata de una arquitectura con una capa oculta de 17 nodos, una capa de entrada de 85 nodos y una de salida con 1 nodo. Las características e hiperparámetros completos de esta red son:

Arquitectura: 85 (D) Æ 17 (D) Æ 1 (D) Learning rate: 1.0

Número de épocas: 200 Tamaño de batch: 300 Función de coste: MSE Función de activación: tanh

Algoritmo de optimización: Adadelta Tratamiento de datos: Escalado entre 0 y 1

Ilustración 96. Evolución del coste por época de la RED 32

En la gráfica anterior se observa una evolución del coste de entrenamiento similar al de la RED 31. La principal diferencia es que el descenso durante las primeras 10 épocas es aún más brusco. Esto unido a que el coste se mantiene prácticamente

CAPITULO 4: Desarrollo de las soluciones adoptadas.

constante durante el resto de las épocas, hace que la gráfica tenga forma de ‘L’. Por otro lado, puede verse que las oscilaciones del coste de validación son algo mayores.

Ilustración 97. Predicción de la RED 32

La predicción de la RED 31 es prácticamente idéntica a la de la RED 30. Así vemos que su ajuste a los datos reales sigue siendo preciso, aunque con algunas perturbaciones en los intervalos de tiempo relativos a la noche. De nuevo tiene problemas para predecir los valores máximos. La diferencia más notable la vemos en el cuarto día, donde la predicción se adapta mejor al valle que se produce en las horas centrales de dicho día.

RESULTADOS RED 32

Precisión (MAE) 112.92

Sobreajuste (%) 24.58

Duración de

entrenamiento (s) 100

Tabla 28. Resultados de la RED 32

La tabla de resultados muestra que la precisión prácticamente idéntica a la RED 31, con una diferencia de apenas 0.25 W/m2_{entre ambos valores. Destaca el valor del}

sobreajuste, que en este caso duplica al valor calculado de la RED 30. El tiempo de entrenamiento es mayor, aunque sigue siendo muy bajo.

RED 33-34

Una vez analizadas las dos redes FC más relevantes en este escenario pasamos a las RNN. Vamos a comparar los resultados de la arquitectura que mejores resultados ha dado y compararemos su rendimiento con los optimizadores Adam y Adadelta. Puesto que en casos anteriores hemos comprobado que dos capas de neuronas recurrentes pueden causar sobreajuste, aplicamos dropout para contrarrestarlo.Las características e hiperparámetros completos de esta red son:

CAPITULO 4: Desarrollo de las soluciones adoptadas. 78 Arquitectura: 60 (RNN) Æ 60 (RNN) Æ 1 (D) Learning rate: RED 33: 5.00E-4 RED 34: 1.0 Número de épocas: 100 Tamaño de batch: 300 Función de coste: MSE Función de activación: tanh Algoritmo de optimización:

RED 33: Adam RED 34: Adadelta

Tratamiento de datos: Escalado entre 0 y 1 Regularización: Dropout

Ilustración 98. Evolución del coste por época entre la RED 33 y 34

En la gráfica superior de la imagen anterior vemos cómo el descenso del coste de entrenamiento es prácticamente idéntico en ambos casos, con un descenso fuerte al principio seguido de un estancamiento. Sin embargo, en la gráfica inferior vemos que la RED 33 tiene un resultado ligeramente mejor, logrando reducir en mayor medida el coste.

Ilustración 99. Predicción de la RED 33

En la gráfica de predicción de la RED 33 vemos que la predicción de cada uno de los días parece ser muy similar, a pesar de que los valores reales no sean iguales para

CAPITULO 4: Desarrollo de las soluciones adoptadas.

cada día. Así la red realiza una predicción que capta la tendencia diaria general pero no las oscilaciones concretas.

En la tabla de resultado que se muestra a continuación, se demuestra que la RED 33, que usa Adam como optimizador, ha obtenido un mejor resultado prediciendo los valores de radiación. La diferencia entre ambas es de 2 puntos de MAE. El sobreajuste es similar en ambas, siendo ligeramente superior en la RED 34.

RESULTADOS RED 33 (Adam) RED 34 (Adadelta)

Precisión (MAE) 109.03 111.13

Sobreajuste (%) 9.77 10.70

Duración de

entrenamiento (s) 881 854

Tabla 29. Resultados comparados de las redes 33 y 34

Estos resultados muestran que, en este escenario, las redes recurrentes simples mejoran a las redes FC en términos de precisión. Este es el primer caso en el que ocurre. En los anteriores escenarios de predicción vimos que las redes FC obtenían buenas predicciones y siempre por encima de las RNN, siendo las LSTM las únicas que en ocasiones han superado a las FC. Esto refuerza la idea de que cuanto mayor sea el número de timesteps con los que se alimenta a red, las redes recurrentes tendrán mejor resultado.

RED 35

En el caso anterior hemos visto que las redes recurrentes se ver reforzadas con la ventana de datos amplia que estamos empleando. Ahora vamos a comprobar si las redes LSTM logran mejorar los resultados de las RNN simples. Para ello comenzamos estudiando una red con la misma arquitectura e hiperparámetros que las RED 33 pero sustituyendo sus neuronas RNN simples por neuronas LSTM.

Las características e hiperparámetros completos de esta red son: Arquitectura: 60 (LSTM) Æ 60 (LSTM) Æ 1 (D)

Learning rate: 5.00E-4 Número de épocas: 200 Tamaño de batch: 300 Función de coste: MSE Función de activación: tanh Algoritmo de optimización: Adam

Tratamiento de datos: Escalado entre 0 y 1 Regularización: Dropout

CAPITULO 4: Desarrollo de las soluciones adoptadas.

Ilustración 100. Evolución del coste por época de la RED 35

Viendo la gráfica de evolución del coste durante el entrenamiento, sigue produciéndose un descenso brusco en las primeras épocas, seguido de un descenso suave que parece acelerar en las últimas épocas. Esto puede indicar que la red mejoraría si se aumentara el número de épocas. Vemos también que hay un sobreajuste bastante significativo que se mantiene constante a lo largo del entrenamiento.

Ilustración 101. Predicción de la RED 35

Analizando la predicción de la RED 35, vemos algunas diferencias con respecto a las redes recurrentes. Vemos que la red ajusta mejor su predicción y aprende de los valores del día anterior. Así la predicción del segundo día intenta adaptarse al valle y a los dos picos de radiación que lo delimitan. Por otro lado, continúa prediciendo

CAPITULO 4: Desarrollo de las soluciones adoptadas.

con bastante exactitud los valores los patrones diarios generales de la radiación, aunque sigue teniendo dificultades con los valores más altos.

RESULTADOS RED 35

Precisión (MAE) 108.93

Sobreajuste (%) 19.49

Duración de

entrenamiento (s) 3745

Tabla 30. Resultados de la RED 35

La tabla de resultados muestra una ligera mejoría en la precisión de la predicción con respecto a la RED 34, aunque la mejora es de solo una décima. A pesar de haber utilizado dropout el sobreajuste es bastante alto. Como ya hemos comprobado anteriormente las redes LSTM tienen una duración de entrenamiento mucho mayor. En este caso casi quintuplica el tiempo que necesitó la RED 34, que es recurrente simple.

RED 36

Finalmente vamos a estudiar el comportamiento de una red con una sola capa LTM de 60 nodos. Veremos si así podemos reducir el sobreajuste mientras conseguimos un resultado óptimo. También cambiaremos el optimizador Adam por Adadelta. Hay que recordar que la tasa de aprendizaje inicial es irrelevante en Adadelta puesto que este optimizador estima su propia tasa de aprendizaje. La tasa de aprendizaje que se indica aquí es la que emplea Keras por defecto. Para este caso no utilizaremos

dropout.

Las características e hiperparámetros completos de esta red son: Arquitectura: 60 (LSTM) Æ 1 (D)

Learning rate: 1.0 Número de épocas: 200 Tamaño de batch: 300 Función de coste: MSE Función de activación: tanh

Algoritmo de optimización: Adadelta Tratamiento de datos: Escalado entre 0 y 1

CAPITULO 4: Desarrollo de las soluciones adoptadas.

La gráfica de coste tiene una forma similar a la RED 35. Ambas tienen un descenso casi vertical en las primeras 5 épocas seguido de un descenso casi plano. En este casi el sobrecoste sigue estando presente en un grado parecido. La principal diferencia es que en esta red no se percibe la aceleración del descenso del coste que se observaba en la gráfica de coste de la red anterior.

Ilustración 103. Predicción de la RED 36

La gráfica de predicción nos muestra una importante mejoría en la capacidad de la red para predecir fluctuaciones en la radiación dentro de un mismo día. Vemos que la red a aprendido de los datos del día anterior ya ha predicho con una precisión razonable la tendencia general de los valores de radiación en el segundo día. Todavía existe un cierto margen de mejora, pero los resultados son prometedores.

En la tabla de resultados de la RED 35 comprobamos que se ha conseguido mejorar aún más la precisión de predicción reduciendo en 1 punto el MAE calculado en la RED 34. El sobreajuste sigue siendo algo alto, pero teniendo en cuenta quo no hemos utilizado dropout y aun así el sobreajuste es similar al caso anterior podemos concluir que esta arquitectura genera menos sobreajuste que la anterior. Además, la duración del entrenamiento se reduce considerablemente, siendo apenas la mitad comparado con el caso anterior.

RESULTADOS RED 36

Precisión (MAE) 108.17

Sobreajuste (%) 21.83

Duración de

entrenamiento (s) 1489

Tabla 31. Resultados de la RED 36

Con estos resultados concluimos que la RED 35 es la que mejor precisión ha logrado en el escenario de predicción de 6 horas con 60 timesteps de 15 min, es decir una ventana de datos de un día completo. Hemos comprobado que para una ventana de datos amplia las redes recurrentes y en concreto las redes LSTM alcanzan niveles de precisión mayores que las redes FC.

CAPITULO 4: Desarrollo de las soluciones adoptadas.

In document Applying deep learning extreme multi-label classification to the biomedical and multilingual panoramas (Page 47-50)