Materials and Methods Study Design - Advanced MR Imaging Techniques in Localizing and Local Sta

Esta arquitectura surge con el objetivo de solucionar el problema que tiene la estimación de profundidad ya que usualmente se producen imágenes borrosas o de baja calidad. En esta arquitectura de red se utiliza una estructura de autoenconder compuesta por dos ramas prin- cipales un encoder y un decoder. El encoder es una primera rama que se encarga de realizar una compresión de la información mientras que el decoder, basándose en la información com- primida intenta recuperar una información general para reconstruir una nueva imagen. Este autoencoder se puede encuadrar en el tipo de autoencoders de cambio de modalidad donde la entrada es un tipo de imagen (en este caso una imagen RGB real) y la salida es una modalidad diferente como es en este caso una imagen de profundidad de un solo canal de color. Estos métodos no realizan un submuestreo tan agresivo en cuanto a la resolución espacial de la imagen de entrada, lo que ayuda a producir estimaciones de profundidad mucho más acertadas.

La idea de esta arquitectura es utilizar un autoencoder con “skip connections” para cumplir los objetivos de precisión compartiendo información de las capas iniciales con las capas más profundas de la red. Esto hace a la arquitectura muy similar a la presentada anteriormente (UNet). La diferencia principal en esta implementación radica en la red de base utilizada como “Encoder” y el tipo de funciones de “ Up-sampling ” empleadas, as´ı como en que la arquitectura previa utiliza el mismo número de bloques de “ Upsampling” que la arquitectura original respetando su diseño. El “Decoder ” de la nueva arquitectura cumple la función de ser profundo (”Deep”) presentando varias capas intermedias entre cada bloque Up-Sampling y proporcionando mediante la nueva arquitectura imágenes de resolución mayor a la salida que con la arquitectura UNet.

Figura 22: Arquitectura de la red Deep Autoencoder.[21]

Se comenzará describiendo la arquitectura utilizada para el “ Encoder ”. La imagen de entrada es convertida a un vector de caracter´ısticas mediante la utilización de la red “ DenseNet-169 ” [74]. Las redes DenseNet toman los conceptos de las redes Resnet, que tal como se explicó en la arquitectura “ ResNet-Unet ”, se diferencia de las redes tradicionales que conectaban cada capa de neuronas con la siguiente, pudiendo ahora conectar una capa con cualquiera que venga después de ella sin necesidad de que sea la inmediata. La ventaja de la utilización de las ResNets es que el gradiente puede fluir directamente por la función identidad desde las capas del final hasta las del comienzo. Un inconveniente es que, aunque al final de cada bloque de la red es necesario sumar la función identidad con la salida de las capas, esto puede impedir el flujo de la información en la red de manera adecuada.

Figura 23: DenseNet de 5 capas.[22]

Para mejorar este flujo de informaci´on, en las redes DenseNet se agrega una caracter´ıstica denominada “Dense connectivity” donde se diferencian del concepto de conexi´on entre capas que se utilizaba en las ResNets. Como se observa en la Figura 23, se propone la conectividad de cualquier capa de neuronas con todas las capas subsecuentes. Por lo tanto, la capa N

recibir´a los mapas de caracter´ısticas de todas las capas anteriores como entrada:

xl=Hl([x0, x1, ..., xl−1]) (2)

Figura 24: Deep DenseNet con 3 DenseBlocks.

La diferencia entre las distintas redes DenseNet se basa en el número de funciones compuestas que utilizan en cada capa del proceso. La Figura 24 muestra que existen unos DenseBlocks que están formados por las funciones compuestas y que están descritos en la Ecuación 2 como H. Estas funciones están compuestas de una normalización (“Batch Normalization”) seguidas de una activación (“ReLU”) y de una Convolución con Kernel 3x3. Entre estos bloques mencionados, se encuentran unas de las partes más esenciales de toda CNN, como lo son las “Pooling Layers”, que se utilizan para disminuir el tamaño del mapa de caracter´ısticas a uno más pequeño. Las capas de transición entre los DenseBlocks están compuestas por una capa Pooling 2x2 y una capa convolucional 1x1.Estas capas convolucionales son utilizadas como cuellos de botella para reducir el número de parámetros de entrada y as´ı aumentar la eficiencia de la red.

El vector resultante de pasar la imagen de entrada a través del encoder es alimentado luego a una serie de capas de “Up-sampling” sucesivas para lograr construir un mapa de profundidad final con la mitad de la resolución que la imagen de entrada. Estas capas “Up-sampling” y sus asociadas conexiones (“Skip-Connections”), forman el decoder de esta arquitectura. El decoder comienza con una capa convolucional 1x1 con el mismo número de canales de salida que los del encoder. Luego de esto, se añaden bloques de “Up-sampling” seguidos de capas convolucionales con kernels 3x3 con la mitad de filtros a la salida de los que hay a la entrada. La primera de las capas de convolución es aplicada a la salida de la capa anterior y a la capa de Pooling del encoder, logrando obtener las mismas dimensiones espaciales. Cada bloque de “upsampling” viene seguido por una función de activación Leaky ReLU.

Las capas que se observan en la Figura 25 hasta CON V2 son las correspondientes a la red DenseNet-169. Luego se describen todas las capas del decoder (dónde cada convolución es seguida de normalización y activación) teniendo finalmente a la salida una dimensión de 240x320x1 para imágenes de entrada de tamaño 480x640x3. La dimensión final de la salida consigue una resolución mayor que con la red anterior (diseño original de la UNet) as´ı como de nuevo proporcional un único canal de color de salida que representará la profundidad de cada p´ıxel.

Figura 25: Arquitecturas Deep Autoencoder.

La función de pérdidas utilizada en esta arquitectura busca un balance entre la reconstrucción de los mapas de profundidad a través de la m´ınima diferencia de los valores de profundidad, pero también penalizando las distorsiones que ocurren en la estimación de la imagen de profundidad. Básicamente estos detalles se encuentran en los bordes de los objetos de la imagen. Por lo tanto, para el entrenamiento de esta red se define una función de pérdidas L

como la suma de tres funciones de p´erdidas:

L(y,yˆ) =αLdepth(y,yˆ) +Lgrad(y,yˆ) +LSSIM(y,yˆ). (3)

Los valores y y ˆy representan la imagen original de profundidad y la predicha por la red respectivamente. El primer valor con sub´ındice “depth” corresponde a la comparaci´on respecto a cada punto definido en los valores de profundidad como representa la Ecuaci´on 4, definiendo as´ı la normaL1: Ldepth(y,yˆ) = 1 n n X p |y−yˆ|. (4)

El segundo término es la función/normaL1definida sobre el gradientegde la imagen estimada que se puede representar mediante la Ecuación 5:

Lgrad(y,yˆ) = 1 n n X p |gx(y,yˆ)|+|gy(y,yˆ)|. (5)

Donde los valores de g corresponden a las diferencias entre las componentes x e y de los gradientes de las imágenes real y estimada. Esto permite tener en cuenta los problemas de border tratando con esta función de aprenderlos de una manera más precisa.

Por último, el término correspondiente a ”Structural Similarity (SSIM)”se presenta en la Ecuación 6:

LSSIM(y,yˆ) =

1−SSIM(y,yˆ)

2 (6)

La función SSIM es una métrica muy utilizada en el campo del “Computer Vision”para la comparación de imágenes y esta será detallada posteriormente en apartados siguientes. El parámetro α que se define en la ecuación 3 se fija a un valor de 0,1 tras pruebas emp´ıricas buscando el equilibrio entre los tres términos de la función.

In document Advanced MR Imaging Techniques in Localizing and Local Staging of Prostate Carcinoma. (Page 77-80)