Image Postprocessing and Analysis - Advanced MR Imaging Techniques in Localizing and Local Stag

La segunda aplicación se centra en la reconstrucción 3D. A partir de las imágenes de profundidad y conociendo adecuadamente los parámetros de la cámara se pueden proyectar todos los puntos en el espacio 3D creando as´ı una representación tridimensional de la información. Combinando finalmente la información RGB con la situación espacial de cada p´ıxel en el espacio 3D se pueden representar las conocidas nubes de puntos.

Para ello se va a proceder de la misma manera que en el caso anterior obteniendo los mapas de profundidad predichos por cada red para una imagen de entrada del dataset propuesto en este trabajo. Un ejemplo de estas im´agenes puede observarse en la Figura 41:

Figura 41: Imagen RGB y su mapa de profundidad real

Las estimaciones de la red para esta imagen RGB de entrada se presentan a continuaci´on en la Figura 42:

Figura 42: Izquierda: Estimación UNet. Centro: Estimación Deep Autoencoder. Derecha: Estimación Pix2pix.

A partir de estas im´agenes es posible reconstruir los objetos tal como se observa en la figura 43:

Figura 43: Reconstrucciones 3D generadas a partir de las estimaciones de cada red. Se comprueba que es posible reconstruir las escenas teniendo ciertos errores por malas estimaciones de algunas de las zonas en la imagen en los mapas de profundidad. Esto produce que objetos que están lejanos aparezcan más cerca de lo normal. Los errores más graves se con- centran en los bordes de las imágenes puesto que a las redes les cuesta más poder predecirlos con precisión.

5. CONCLUSIONES Y L´INEAS FUTURAS

Tras el análisis de los datos obtenidos a lo largo del trabajo se puede concluir que existen ciertos factores que influyen en los procesos de estimación de imágenes de profundidad. La utilización de arquitecturas más profundas ha sido un aspecto clave en la mejora de los resultados de la métricas. Los valores para la red Deep Autoencoder resultaron mejores que los obtenidas por la arquitectura ResNet-UNet, a pesar de que ambas redes tienen estructuras de la forma encoder-decoder. La red Deep Autoencoder está compuesta por un número de capas superior al de la ResNet-Unet y consigue aprender cosas más complejas as´ı como conseguir generar imágenes de mayor tamaño.

As´ı mismo, la utilización de las redes de tipo GAN ha generado los resultados esperados para esta tarea. La utilización de un discriminador mejora considerablemente los resultados de las estimaciones ya que va optimizando en cada paso a la parte generadora de la red. Además, estas redes aprenden mucho más rápido que las otras dos arquitecturas y permiten que el entrenamiento pueda realizarse en un número considerablemente menor de epochs.

El dataset propuesto ha sido adecuado para el aprendizaje tanto en representatividad como en cantidad. pero deber´ıa combinarse con otro tipo de datasets que contengan imágenes de exteriores dado que el usado sólo se compone de imágenes interiores. Mediante la utilización de las imágenes generadas en aplicaciones reales se ha comprobado que es posible el uso de estas estimaciones cuando las tareas no requieran precisiones muy elevadas ni tiempos de procesado reducidos.

Se puede finalizar con que el ´ındice de error en las métricas ha servido para parametrizar la similitud de imágenes cumpliendo el objetivo inicial de conseguir generar imágenes de una calidad aceptable. El porcentaje de mejora entre el Deep Autoencoder en comparación con la red ResNet-Unet es de hasta un 10 % en algunos casos mientras que la mejora proporcionada por la arquitectura Pix2Pix llega a ser de hasta un 40 % en algunas métricas.

Los siguientes pasos a tener en cuenta para este proyecto podr´ıan encuadrarse en la com- paración de las diferentes redes para la parte Encoder de las arquitecturas o el uso capas más complejas o eficientes buscando optimizar tanto el entrenamiento como el resultado final. Además, se podr´ıa probar el funcionamiento de estas redes en otras aplicaciones reales que quizás requieran unos mapas de profundidad de mayor calidad. Por último, se podr´ıa realizar un ajuste de los hyper-parámetros para ver si es posible disminuir aún más la función de loss de las redes utilizadas.

Otras aplicaciones actuales se centran en la estimación de mapas de profundidad en imágenes de 360º dónde ser´ıa posible usar estas redes. Finalmente todas las arquitecturas propuestas podr´ıan usarse en otros campos como, detección de saliencia, generación de objetos, generación 3D, con pequeñas modificaciones de las redes propuestas.

Referencias

[1] semanticscholar, “C´amara rgb-d.”

[Online]Available:https://www.semanticscholar.org/paper/ Measuring-depth-accuracy-in-RGBD-cameras-Haggag-Hossny/

9eeb764b211efdfad6656327ea55f8a990814c5f/figure/0. Accessed: 10 de Marzo

2020].

[2] Github, “Aplicaciones mapa profundidad. imagen brazo.”

[Online]Available:https://www.youtube.com/watch?v=6PORE6gJNDw. Accessed: 10

de Marzo 2020].

[3] Github, “Lidar para el estudio del terreno.”[Online]Available:http:

//guidoborghi.altervista.org/Documents/guido_borghi_depth_vision.pdf.

Accessed: 10 de Marzo 2020].

[4] dailyHunt, “Ai.”[Online]Available:https://m.dailyhunt.in/news/india/ english/observe+now+english-epaper-obsrnwe/what+came+first+artificial+

intelligence+or+machine+learning-newsid-144631942. Accessed: 10 de Marzo

2020].

[5] Digitalvidya, “Crecimiento dl.”[Online]Available:https:

//www.digitalvidya.com/blog/deep-learning-tutorial/. Accessed: 10 de Marzo

2020].

[6] IEEE, “Muestra de imagen rgb y su respectiva imagen de profundidad.”

[Online]Available:https:

//ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7929240. Accessed: 10 de

Mayo 2020].

[7] IEEE, “Modelo de tecnolog´ıa de c´amara dual.”[Online]Available:https:

//www.androidpit.es/camaras-duales-zoom-efecto-bokeh-ar. Accessed: 10 de

Marzo 2020].

[8] IEEE, “Funcionamiento de p´ıxel dual.”[Online]Available:https:

//ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7929240. Accessed: 10 de

Marzo 2020].

[9] B. Minds, “Funcionamiento sensores ir.”[Online]Available:https:

//medium.com/beyondminds/depth-estimation-cad24b0099f. Accessed: 10 de Marzo

2020].

[10] IEEE, “Funcionamiento lidar.” [Online]Available:https:

//newatlas.com/velodyne-lidar-vls-128-sensor/52453/. Accessed: 10 de Marzo

[11] tuoptometrista, “Ester´opsis visual.”[Online]Available:https: //www.tuoptometrista.com/deteccion/alteraciones-del-campo-visual/. Accessed: 10 de Marzo 2020]. [12] inteliment, “Ml y dl.” [Online]Available:https://www.inteliment.com/blog/our-thinking/ lets-understand-the-difference-between-machine-learning-vs-deep-learning/. Accessed: 10 de Marzo 2020]. [13] compthree, “Autoencoder.” [Online]Available:https://www.compthree.com/blog/autoencoder/. Accessed: 10 de Marzo 2020].

[14] tuoptometrista, “Ilustraci´on de la red propuesta para la estimaci´on de la profundidad monocular.”[Online]Available:https://www.semanticscholar.org/paper/ Structured-Attention-Guided-Convolutional-Neural-Xu-Wang/

1231e9ea7fe18e8d6cc7fd0b0285c3644b5e9bed. Accessed: 10 de Marzo 2020].

[15] phillipi, “Ejemplo de funcionalidades del pixtopix.”

[Online]Available:https://phillipi.github.io/pix2pix/. Accessed: 10 de Marzo

2020].

[16] T. Zhou, M. Brown, N. Snavely, and D. G. Lowe, “Unsupervised learning of depth and ego-motion from video,”2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6612–6619, 2017.

[17] cornell University, “Unsupervised monocular depth estimation with left-right

consistency.” [Online]Available:https://arxiv.org/abs/1609.03677. Accessed: 10 de Marzo 2020].

[18] Medium, “Arquitectura gan..”[Online]Available:https:

//medium.com/@m50816m50816/paper-note-eeg-gan-generative-adversarial\ -networks-for-electroencephalograhic-eeg-brain-d32934032c8f. Accessed: 10 de Marzo 2020]. [19] Medium, “Cnn architecture.” [Online]Available:https://medium.com/voice-tech-podcast/ how-to-use-convnets-in-different-ways-a-brief-analogy-1b69c3e88f3b. Accessed: 10 de Marzo 2020]. [20] Arxiv, “Unet architecture.”

[Online]Available:https://arxiv.org/abs/1505.04597. Accessed: 10 de Marzo

2020].

[21] Catalyzex, “Deep autoencoder.”

[Online]Available:https://www.catalyzex.com/s/Peter%20Wonka. Accessed: 10 de

[22] Github, “Dense net.”[Online]Available:https:

//github.com/HarisIqbal88/PlotNeuralNet/issues/50. Accessed: 10 de Marzo

2020].

[23] N. Silberman, “Nyu depth v2 dataset..”[Online]Available:https:

//cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html. Accessed: 18 de Abril

2020].

[24] O. e. a. Tadic, Vladimir, “Application of intel realsense cameras for depth image generation in robotics,”WSEAS Transactions on Computers, vol. 18, pp. 107–112, 09 2019.

[25] S. M. SlashGear, “Asus gets xtionpro live ready for launch.”

[Online]Available:https:

//www.slashgear.com/asus-gets-xtion-pro-live-ready-for-launch-19165977/,

2011. Accessed: 3 de Marzo 2020].

[26] Mouser, “Coste intel realsense d435.”[Online]Available:https:

//www.mouser.es/ProductDetail/Intel/82635AWGDVKPRQ. Accessed: 6 de Marzo

2020].

[27] R. Components, “Coste orbbec astra.”[Online]Available:https:

//www.roscomponents.com/es/camaras/76-orbbec.html. Accessed: 6 de Marzo

2020].

[28] Amazon, “Coste microsoft - sensor kinect (xbox one).”[Online]Available:https: //www.amazon.es/Microsoft-Sensor-Kinect-Xbox-One/dp/B00NABN4VS/ref=sr_1_ 1?__mk_es_ES%C3%85M%C3%85%C5%BD%C3%95%C3%91&keywords=kinect&qid=

1584397022&s=videogames&sr=1-1&swrs=420DBA3498711D7BD355668A83784CB7.

Accessed: 6 de Marzo 2020].

[29] R. Components, “Coste lidar.”[Online]Available:https:

//www.roscomponents.com/es/20-lidar-escaner-laser. Accessed: 6 de Marzo

2020].

[30] Youtube, “Robots aut´onomos.” [Online]Available:https://youtu.be/MOEjL8JDvd0. Accessed: 5 de Marzo 2020].

[31] A. A. M. Alzahrani, “Detection of mine roof failure using inexpensive lidar technology,” 2017.

[32] ESA, “Lidar in space.”[Online]Available:https://www.esa.int/Enabling_

Support/Space_Engineering_Technology/Space_Optoelectronics/LIDAR_Systems.

Accessed: 9 de Mayo 2020].

[33] G. H. Lee, K. H. Kwon, and M. Y. Kim, “Ambient environment recognition algorithm fusing vision and lidar sensors for robust multi-channel v2x system,” in 2019 Eleventh

International Conference on Ubiquitous and Future Networks (ICUFN), pp. 98–101, 2019.

[34] Wikipedia, “Lidar.”[Online]Available:https://es.wikipedia.org/wiki/LIDAR. Accessed: 4 de Marzo 2020].

[35] M. Q. G. Hernández-PeñAloza, A. Belmonte-Hernández and F. Álvarez, “A

multi-sensor fusion scheme to increase life autonomy of elderly people with cognitive problems,” IEEE Access, vol. 6, pp. 12775–12789, 2018.

[36] A. Express, “Coste c´amaras rgb.”[Online]Available:https:

//es.aliexpress.com/wholesale?trafficChannel=main&d=y&CatId=0&SearchText=

camara&ltype=wholesale&isFavorite=y&SortType=default&page=1. Accessed: 6 de

Marzo 2020].

[37] Wikipedia, “Inteligencia artificial.”

[Online]Available:https://www.ittrends.es/inteligencia-artificial/2019/ 02/machine-learning-es-la-tecnologia-dominante-dentro-de-la-\

inteligencia-artificial. Accessed: 27 de febrero 2020].

[38] R. A. Xataca, “Deep learning: Presente y futuro..”

[Online]Available:https://www.xataka.com/robotica-e-ia/

deep-learning-que-es-y-por-que-va-a-ser-una-tecnologia-clave-en\

-el-futuro-de-la-inteligencia-artificial. Accessed: 8 de Marzo 2020].

[39] Wikipedia, “Profundidad.”

[Online]Available:https://es.wikipedia.org/wiki/Profundidad. Accessed: 28 de

Marzo 2020].

[40] V. K. Quora, “How does dual cameras work in android phones?.”[Online]Available:

https://www.quora.com/How-does-dual-cameras-work-in-Android-phones.

Accessed: 7 de Marzo 2020].

[41] D. G. Euronics, “Qué es la tecnolog´ıa dual pixel, cómo funciona y dónde se encuentra..”

[Online]Available:https://www.euronics.es/blog/

que-es-la-tecnologia-dual-pixel-como-funciona-y-donde-se-encuentra/.

Accessed: 7 de Marzo 2020]. [42] Wikipedia, “Sensor cmos.”

[Online]Available:https://es.wikipedia.org/wiki/Sensor_CMOSs. Accessed: 10

de Marzo 2020].

[43] F. Lecumberry, “Cálculo de disparidad en imágenes estéreo, una comparación,” 2005. [44] Wikipedia, “Esterópsis visual.”

[Online]Available:https://es.wikipedia.org/wiki/Estereopsis. Accessed: 27 de

[45] Wikipedia, “Slam.”[Online]Available:https:

//es.wikipedia.org/wiki/Localizaci%C3%B3n_y_modelado_simult%C3%A1neos.

Accessed: 9 de Mayo 2020].

[46] Wikipedia, “Inteligencia artificial.”

[Online]Available:https://es.wikipedia.org/wiki/Inteligencia_artificial.

Accessed: 27 de Marzo 2020].

[47] Tecnolog´ıa, “Scale-invariant feature transform,” 2010. [48] B. Minds, “Depth estimation.”[Online]Available:https:

//medium.com/beyondminds/depth-estimation-cad24b0099f. Accessed: 21 de Marzo

2020].

[49] I. Alhashim and P. Wonka, “High quality monocular depth estimation via transfer learning,” CoRR, vol. abs/1812.11941, 2018.

[50] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” CoRR, vol. abs/1505.04597, 2015.

[51] D. Eigen and R. Fergus, “Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture,” 2015 IEEE International Conference on Computer Vision (ICCV), pp. 2650–2658, 2014.

[52] D. Xu, W. Wang, H. Tang, H. Liu, N. Sebe, and E. Ricci, “Structured attention guided convolutional neural fields for monocular depth estimation,”2018 IEEE/CVF

Conference on Computer Vision and Pattern Recognition, pp. 3917–3925, 2018. [53] Wikipedia, “Conditional random field.”

[Online]Available:https://en.wikipedia.org/wiki/Conditional_random_field.

Accessed: 26 de Marzo 2020].

[54] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-to-image translation with conditional adversarial networks,” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5967–5976, 2016.

[55] R. Garg, B. G. V. Kumar, G. Carneiro, and I. D. Reid, “Unsupervised cnn for single view depth estimation: Geometry to the rescue,” ArXiv, vol. abs/1603.04992, 2016. [56] C. Godard, O. M. Aodha, and G. J. Brostow, “Unsupervised monocular depth

estimation with left-right consistency,” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6602–6611, 2016.

[57] A. J. Amiri, S. Y. Loo, and H. Zhang, “Semi-supervised monocular depth estimation with left-right consistency using deep neural network,” 2019 IEEE International Conference on Robotics and Biomimetics (ROBIO), pp. 602–607, 2019.

[59] K. G. Lore, K. Reddy, M. Giering, and E. A. Bernal, “Generative adversarial networks for depth map estimation from rgb video,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 1258–12588, 2018.

[60] A. C. S. Kumar, S. M. Bhandarkar, and M. Prasad, “Monocular depth prediction using generative adversarial networks,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 413–4138, 2018.

[61] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, “Spatial transformer networks,” ArXiv, vol. abs/1506.02025, 2015.

[62] VELOGIC, “Pasos deep learning.”[Online]Available:https:

//velogig.com/que-es-el-machine-learning-y-como-es-su-proceso/. Accessed:

26 de Abril 2020].

[63] Oreilly, “Cnn architecture overview.”[Online]Available:https:

//www.oreilly.com/library/view/deep-learning/9781491924570/ch04.html.

Accessed: 26 de Abril 2020].

[64] M. learning mastery, “Convolutional layers.”

[Online]Available:https://machinelearningmastery.com/

convolutional-layers-for-deep-learning-neural-networks/l. Accessed: 26 de

Abril 2020].

[65] M. learning mastery, “Pooling layers.”

[Online]Available:https://machinelearningmastery.com/

pooling-layers-for-convolutional-neural-networks/. Accessed: 26 de Abril

2020].

[66] Quora, “Back-propagation and forward-propagation.”

[Online]Available:https://www.quora.com/

What-is-the-difference-between-back-propagation-and-forward-propagation/.

Accessed: 26 de Abril 2020]. [67] Wikipedia, “Gradient descent.”

[Online]Available:https://en.wikipedia.org/wiki/Gradient_descent. Accessed:

26 de Abril 2020].

[68] Wikipedia, “Validation set.”[Online]Available:https://en.wikipedia.org/wiki/

Training,_validation,_and_test_sets#Training_dataset. Accessed: 27 de Abril

2020].

[69] Intel, “Intel depth camera d435.”

[Online]Available:https://www.intelrealsense.com/depth-camera-d435/.

[70] XATAKA, “Deep learning..”[Online]Available:https://www.xataka.com/

robotica-e-ia/las-redes-neuronales-que-son-y-por-que-estan-volviendol.

Accessed: 18 de Abril 2020].

[71] Quora, “Receptive field in cnn.”[Online]Available:https://www.quora.com/

What-is-a-receptive-field-in-a-convolutional-neural-network. Accessed: 5 de

Mayo 2020].

[72] I. Laina, C. Rupprecht, V. Belagiannis, F. Tombari, and N. Navab, “Deeper depth prediction with fully convolutional residual networks,” CoRR, vol. abs/1606.00373, 2016.

[73] Wikipedia, “Mse.”[Online]Available:https:

//es.wikipedia.org/wiki/Ra%C3%ADz_del_error_cuadr%C3%A1tico_medio.

Accessed: 6 de Mayo 2020].

[74] G. Huang, Z. Liu, and K. Q. Weinberger, “Densely connected convolutional networks,”

2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2261–2269, 2017.

[75] machinelearningmastery, “U-net utilizado en la red pix2pix..”

[Online]Available:https://machinelearningmastery.com/

how-to-implement-pix2pix-gan-models-from-scratch-with-keras/. Accessed: 7

de Mayo 2020].

[76] machinelearningmastery, “Regularizaci´on por dropout..”

[Online]Available:https://machinelearningmastery.com/

how-to-reduce-overfitting-with-dropout-regularization-in-keras/. Accessed:

7 de Mayo 2020].

[77] machinelearningmastery, “Explicaci´on de stride.”

[Online]Available:https://machinelearningmastery.com/

padding-and-stride-for-convolutional-neural-networks/. Accessed: 7 de Mayo

2020].

[78] machinelearningmastery, “Pix2pix loss.”

[Online]Available:https://machinelearningmastery.com/

a-gentle-introduction-to-pix2pix-generative-adversarial-network/.

Accessed: 6 de Mayo 2020].

[79] D. Google, “Gan loss function.”[Online]Available:https:

//developers.google.com/machine-learning/gan/loss. Accessed: 7 de Mayo 2020].

[80] F. Escolano, P. Suau, and B. Bonev,Information Theory in Computer Vision and Pattern Recognition. Springer Publishing Company, Incorporated, 1st ed., 2009.

[81] imatest, “Ssim.”[Online]Available:https://www.imatest.com/docs/ssim/. Accessed: 7 de Mayo 2020].

[82] R. Zhang, P. Isola, A. A. Efros, E. Shechtman, and O. Wang, “The unreasonable effectiveness of deep features as a perceptual metric,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 586–595, 2018.

[83] Intel, “Get real distance intel realsense.”[Online]Available:https:

//lightbuzz.com/intel-realsense-coordinate-mapping/. Accessed: 10 de Mayo

2020].

[84] K. Hars´anyi, A. Kiss, A. Majdik, and T. Szir´anyi,A Hybrid CNN Approach for Single Image Depth Estimation: A Case Study: Proceedings of the 11th International

Anexos

A. ASPECTOS ´ETICOS, ECON ´OMICOS,

SOCIALES Y AMBIENTALES

A.1 Introducci´on

En la actualidad, donde existe una guerra d´ıa a d´ıa con los competidores de un mismo produc- to, es esencial mantenerse innovando para no quedarse atrás en el mercado. Un producto que sale al mercado hoy, en 6 meses podr´ıa verse completamente superado por un competidor que ofrezca la misma calidad a un menor precio o una mejor calidad en general. Espec´ıficamente en el ámbito de la tecnolog´ıa y la innovación, que es un entorno accesible a todas las personas, la relación calidad precio se ha convertido en un factor de gran importancia. Con este punto no solo se hace referencia a las grandes empresas de tecnolog´ıa que constantemente se encuentran innovando, sino en aquel grupo de pequeños empresarios o simplemente personas curiosas que desean adentrarse en el mundo de la tecnolog´ıa. El campo de la robótica es un ejemplo claro de los puntos mencionados. Es un campo tan amplio, que se utiliza tanto para aplicaciones complejas ( militares, espaciales, etc), como en simples salones de clase donde se inspira a un niño a abrir su mente.

Los mapas de profundidad son representaciones que cada vez adquieren más importancia en el mundo. Pueden ser utilizados casi en todos los ámbitos profesionales y por ende es inevitable que se convierta en algo accesible para todos con el tiempo. Una aplicación de estos mapas es la monitorización de ancianos, donde se utiliza esta tecnolog´ıa para evitar mantener un control, evitar accidentes y además optimizar las terapias. Por lo que es una aplicación que no solo ayuda a los ancianos a llevar mejor su enfermedad, sino que también a la persona encargada de su cuidado.

Otra aplicación importante es el reconocimiento de objetos en la industria automotriz. Se utiliza para evitar colisiones entre dos objetos móviles tras calcular la distancia a cada uno de ellos con el mapa de profundidad. Esta tecnolog´ıa, combinada con otras, permite que los coches sean capaces de conducirse sin la necesidad de un humano. Esta independencia puede ayudar en un futuro a reducir significativamente el número de accidentes de tráfico.

Estas aplicaciones y muchas otras, inspiraron este trabajo a buscar una alternativa fiable y accesible con la cual poder generar dichos mapas de profundidad. Por ende, hay que considerar los impactos sociales, econ´omicos , ´eticos y medioambiental que podr´ıa generar en el mundo.

In document Advanced MR Imaging Techniques in Localizing and Local Staging of Prostate Carcinoma. (Page 99-112)