• No results found

En esta secci´on se explicar´an en detalle cada una de las m´etricas utilizadas en este trabajo para la comparaci´on de las im´agenes predichas por cada una de las redes y las correspondientes originales. Se han propuesto varias m´etricas para la comparaci´on las cuales son las conocidas como NRMSE, Informaci´on mutua, PSNR, SSIM y por ´ultimo Perceptual Similarity. Se explicar´an los procesos de c´alculo de cada una de estas m´etricas, el objetivo de cada una y una representaci´on de sus posibles resultados. Este an´alisis se encuadra en el campo del IQA (image quality assesment) d´onde se proponen gran cantidad de m´etodos para la evaluaci´on y comparaci´on de im´agenes.

3.4.1 Normalized Root Mean-Square Error

La primera m´etrica propuesta se conoce como Mean Square Error (MSE) [73], que simboliza la media de la diferencia entre los p´ıxeles de las im´agenes. Un MSE alto simboliza una mayor diferencia entre la imagen original y la imagen estimada. Sin embargo, es muy importante tener cuidado con los bordes. La f´ormula para el c´alculo del MSE es:

M SE= 1

N

X

iXj(Eij −Oij)2 (10)

Donde N significa el tama˜no de la imagen (ancho x alto x canales), E es la imagen predicha y O la imagen original. El RMSE es una medida frecuentemente utilizada de las diferencias entre los valores predichos por un modelo o un estimador y los valores realmente observados. La RMSE sirve para agregar las magnitudes de los errores en las predicciones de varios en una ´unica medida de poder de predicci´on. Su f´ormula es:

RM SE= r 1 N X iXj(Eij−Oij)2 (11)

La normalizaci´on del RMSE facilita la comparaci´on entre datasets de distintas escalas. Se considera en este caso que se normaliza respecto a un valor, que corresponde al valor m´aximo menos el valor m´ınimo de los datos medidos.

N RM SE= RM SE

ymax−ymin

(12)

La ecuaci´on 12 corresponde a la m´etrica “Normalized Root-Mean-Square Error” (NRMSE), donde los valores m´as bajos indican menor variaci´on residual entre los p´ıxeles de las im´agenes. Es posible que los resultados de la comparaci´on se vean alterados por el tama˜no de las im´agenes

de entrada, por lo que se suelen considerar varios tama˜nos al aplicar la m´etrica. Cuando se utiliza para encontrar la similitud, se pueden tener problemas. El principal es que las grandes distancias entre las intensidades de los p´ıxeles no significan necesariamente que el contenido de las im´agenes sea dram´aticamente diferente.

3.4.2 Normalized Mutual Information

Se puede entender f´acilmente la informaci´on mutua como la cantidad de informaci´on que posee una variable (imagen de salida) acerca de otra variable (imagen de entrada). Cuando se eval´ua la informaci´on mutua, se considera la similitud existente entre 1 zona de cada una de las 2 im´agenes. La influencia de estas zonas a evaluar puede verse en 2 aspectos fundamentales: Primero, al reducir el tama˜no de esta zona, se reduce el n´umero de muestras, lo cual reduce la precisi´on de la estimaci´on de la distribuci´on de probabilidad. Segundo, puede darse el caso de que al reducir estas zonas, aumente la informaci´on mutua cuando las entrop´ıas marginales aumentan m´as r´apido que la entrop´ıa conjunta. La normalizaci´on de la informaci´on mutua (NMI)[80] presenta una independencia de estas zonas de estudio, por lo tanto se considera una medida m´as robusta. Sus resultados var´ıan entre cero (no existe informaci´on mutua) y 1 (correlaci´on perfecta).

N M I(U, V) = M I(U, V)

media(H(U), H(V)) (13)

Donde la informaci´on mutua es calculada como:

M I(U, V) = |U| X i=1 |V| X j=1 |Ui∩Vj| N log( N|Ui∩Vj| |Ui||Vj| ) (14)

Donde U y V hacen referencia a las 2 im´agenes que se est´an comparando, H(u) y H(V) simbolizan la entrop´ıa de cada una de las variables.

3.4.3 Peak Signal-to-Noise Ratio

M´etrica usualmente utilizada para medir la calidad de im´agenes que luego de ser comprimidas han sido reconstruidas. El PSNR computa la mayor relaci´on se˜nal ruido entre dos im´agenes, en decibelios. Mayor PSNR simboliza una mejor calidad de la imagen generada por el modelo.

Para el c´alculo del PSNR se utiliza el MSE (Ecuaci´on 15): P SN R= 10log10 2552 1 N P iP j(Eij −Oij)2 ! (15)

Donde N (ancho x alto x canales) simboliza el tama˜no de la imagen, E la imagen predicha y O la imagen original. El numerador representa el valor m´aximo de un p´ıxel, en este caso 255 puesto que son im´agenes d´onde cada valor se codifica a 8 bits.

3.4.4 SSIM

La m´etrica SSIM [81] es un modelo basado en la percepci´on que considera que la degradaci´on de las im´agenes se percibe como un cambio en su informaci´on estructural, a la vez que incluye las m´ascaras de luminancia y de contraste. La informaci´on estructural es la idea de que los p´ıxeles tienen una fuerte dependencia entre ellos cuando se encuentran cerca en el espacio. Estas dependencias contienen informaci´on importante acerca de la estructura de los objetos. La m´ascara de luminancia es un fen´omeno donde las distorsiones de la im´agen tienden a ser menos visibles en las regiones iluminadas, mientras que el fen´omeno del contraste es aquel donde las distorsiones son menos visibles cuando en la imagen existe alguna actividad significativa o textura. El ´ındice de SSIM es calculado en varias ventanas de una imagen. La medida entre dos ventanas x e y del mismo tama˜no NxN es :

SSIM(x, y) = (2µxµy +c1)(2σxy +c2) (µ2

x+µ2y+c1)(σx2+σy2+c2)

(16)

En la ecuaci´on previa µ hace referencia a la media de la ventana x o y mientras que σ hace alusi´on a la varianzas o covarianza entre ventanas. Lo valores c son simples regularizadores para cuando los valores del numerador o denominador son demasiado peque˜nos. El resultado es un valor decimal ente -1 y 1, d´onde 1 representa im´agenes id´enticamente iguales y un valor de 0 indica que no existe ninguna similitud.

3.4.5 Perceptual Similarity

Debido al aumento de las aplicaciones que usan algoritmos de Deep Learning, se hace necesario en gran medida el uso de m´etricas de similitud de im´agenes cuando se usan redes generativas. Siguiendo esta idea, varios trabajos encuadrados en el campo del IQA han comenzado a proponer m´etricas que se basan en redes neuronales entrenadas para proporcionar este tipo de comparativas. En este trabajo con el fin de utilizar alguna de las m´etricas m´as novedosas propuestas recientemente se va a hacer uso de la conocida como ”Perceptual Similarity”[82].

Esta m´etrica consiste en la utilizaci´on de redes neuronales entrenadas para la clasificaci´on de im´agenes a alto nivel, incluso a trav´es de las redes, sin necesidad de ninguna calibraci´on extra. Esta red puede ser utilizada para medir la similitud entre 2 im´agenes. En efecto ha sido demostrado que se obtienen mejores resultados que con las m´etricas utilizadas normalmente como la MSE o SSIM, las cuales no fueron dise˜nadas para situaciones donde la ambig¨uedad espacial es un factor a considerar. Se ha demostrado tambi´en que redes entrenadas para otras funciones como resoluci´on de rompecabezas tambi´en cumplen esta funci´on y lo siguen haciendo mejor que las m´etricas comunes. En este caso, se utilizar´a la red neuronal AlexNet para calcular la similitud entre la imagen original y la predicha. Las redes se entrenan con pares de im´agenes buscando aprender cual es la similitud entre ambas. Un valor m´as alto final de la media de salida, corresponde a im´agenes m´as diferentes. Mientras un valor bajo representa que las im´agenes son m´as similares.