• No results found

La segunda aplicaci´on se centra en la reconstrucci´on 3D. A partir de las im´agenes de profun- didad y conociendo adecuadamente los par´ametros de la c´amara se pueden proyectar todos los puntos en el espacio 3D creando as´ı una representaci´on tridimensional de la informaci´on. Combinando finalmente la informaci´on RGB con la situaci´on espacial de cada p´ıxel en el espacio 3D se pueden representar las conocidas nubes de puntos.

Para ello se va a proceder de la misma manera que en el caso anterior obteniendo los mapas de profundidad predichos por cada red para una imagen de entrada del dataset propuesto en este trabajo. Un ejemplo de estas im´agenes puede observarse en la Figura 41:

Figura 41: Imagen RGB y su mapa de profundidad real

Las estimaciones de la red para esta imagen RGB de entrada se presentan a continuaci´on en la Figura 42:

Figura 42: Izquierda: Estimaci´on UNet. Centro: Estimaci´on Deep Autoencoder. Derecha: Estimaci´on Pix2pix.

A partir de estas im´agenes es posible reconstruir los objetos tal como se observa en la figura 43:

Figura 43: Reconstrucciones 3D generadas a partir de las estimaciones de cada red. Se comprueba que es posible reconstruir las escenas teniendo ciertos errores por malas estima- ciones de algunas de las zonas en la imagen en los mapas de profundidad. Esto produce que objetos que est´an lejanos aparezcan m´as cerca de lo normal. Los errores m´as graves se con- centran en los bordes de las im´agenes puesto que a las redes les cuesta m´as poder predecirlos con precisi´on.

5.

CONCLUSIONES Y L´INEAS FUTURAS

Tras el an´alisis de los datos obtenidos a lo largo del trabajo se puede concluir que existen ciertos factores que influyen en los procesos de estimaci´on de im´agenes de profundidad. La utilizaci´on de arquitecturas m´as profundas ha sido un aspecto clave en la mejora de los resultados de la m´etricas. Los valores para la red Deep Autoencoder resultaron mejores que los obtenidas por la arquitectura ResNet-UNet, a pesar de que ambas redes tienen estructuras de la forma encoder-decoder. La red Deep Autoencoder est´a compuesta por un n´umero de capas superior al de la ResNet-Unet y consigue aprender cosas m´as complejas as´ı como conseguir generar im´agenes de mayor tama˜no.

As´ı mismo, la utilizaci´on de las redes de tipo GAN ha generado los resultados esperados para esta tarea. La utilizaci´on de un discriminador mejora considerablemente los resultados de las estimaciones ya que va optimizando en cada paso a la parte generadora de la red. Adem´as, estas redes aprenden mucho m´as r´apido que las otras dos arquitecturas y permiten que el entrenamiento pueda realizarse en un n´umero considerablemente menor de epochs.

El dataset propuesto ha sido adecuado para el aprendizaje tanto en representatividad como en cantidad. pero deber´ıa combinarse con otro tipo de datasets que contengan im´agenes de exteriores dado que el usado s´olo se compone de im´agenes interiores. Mediante la utilizaci´on de las im´agenes generadas en aplicaciones reales se ha comprobado que es posible el uso de estas estimaciones cuando las tareas no requieran precisiones muy elevadas ni tiempos de procesado reducidos.

Se puede finalizar con que el ´ındice de error en las m´etricas ha servido para parametrizar la similitud de im´agenes cumpliendo el objetivo inicial de conseguir generar im´agenes de una calidad aceptable. El porcentaje de mejora entre el Deep Autoencoder en comparaci´on con la red ResNet-Unet es de hasta un 10 % en algunos casos mientras que la mejora proporcionada por la arquitectura Pix2Pix llega a ser de hasta un 40 % en algunas m´etricas.

Los siguientes pasos a tener en cuenta para este proyecto podr´ıan encuadrarse en la com- paraci´on de las diferentes redes para la parte Encoder de las arquitecturas o el uso capas m´as complejas o eficientes buscando optimizar tanto el entrenamiento como el resultado final. Adem´as, se podr´ıa probar el funcionamiento de estas redes en otras aplicaciones reales que quiz´as requieran unos mapas de profundidad de mayor calidad. Por ´ultimo, se podr´ıa realizar un ajuste de los hyper-par´ametros para ver si es posible disminuir a´un m´as la funci´on de loss de las redes utilizadas.

Otras aplicaciones actuales se centran en la estimaci´on de mapas de profundidad en im´agenes de 360º d´onde ser´ıa posible usar estas redes. Finalmente todas las arquitecturas propuestas podr´ıan usarse en otros campos como, detecci´on de saliencia, generaci´on de objetos, generaci´on 3D, con peque˜nas modificaciones de las redes propuestas.

Referencias

[1] semanticscholar, “C´amara rgb-d.”

[Online]Available:https://www.semanticscholar.org/paper/ Measuring-depth-accuracy-in-RGBD-cameras-Haggag-Hossny/

9eeb764b211efdfad6656327ea55f8a990814c5f/figure/0. Accessed: 10 de Marzo

2020].

[2] Github, “Aplicaciones mapa profundidad. imagen brazo.”

[Online]Available:https://www.youtube.com/watch?v=6PORE6gJNDw. Accessed: 10

de Marzo 2020].

[3] Github, “Lidar para el estudio del terreno.”[Online]Available:http:

//guidoborghi.altervista.org/Documents/guido_borghi_depth_vision.pdf.

Accessed: 10 de Marzo 2020].

[4] dailyHunt, “Ai.”[Online]Available:https://m.dailyhunt.in/news/india/ english/observe+now+english-epaper-obsrnwe/what+came+first+artificial+

intelligence+or+machine+learning-newsid-144631942. Accessed: 10 de Marzo

2020].

[5] Digitalvidya, “Crecimiento dl.”[Online]Available:https:

//www.digitalvidya.com/blog/deep-learning-tutorial/. Accessed: 10 de Marzo

2020].

[6] IEEE, “Muestra de imagen rgb y su respectiva imagen de profundidad.”

[Online]Available:https:

//ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7929240. Accessed: 10 de

Mayo 2020].

[7] IEEE, “Modelo de tecnolog´ıa de c´amara dual.”[Online]Available:https:

//www.androidpit.es/camaras-duales-zoom-efecto-bokeh-ar. Accessed: 10 de

Marzo 2020].

[8] IEEE, “Funcionamiento de p´ıxel dual.”[Online]Available:https:

//ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7929240. Accessed: 10 de

Marzo 2020].

[9] B. Minds, “Funcionamiento sensores ir.”[Online]Available:https:

//medium.com/beyondminds/depth-estimation-cad24b0099f. Accessed: 10 de Marzo

2020].

[10] IEEE, “Funcionamiento lidar.” [Online]Available:https:

//newatlas.com/velodyne-lidar-vls-128-sensor/52453/. Accessed: 10 de Marzo

[11] tuoptometrista, “Ester´opsis visual.”[Online]Available:https: //www.tuoptometrista.com/deteccion/alteraciones-del-campo-visual/. Accessed: 10 de Marzo 2020]. [12] inteliment, “Ml y dl.” [Online]Available:https://www.inteliment.com/blog/our-thinking/ lets-understand-the-difference-between-machine-learning-vs-deep-learning/. Accessed: 10 de Marzo 2020]. [13] compthree, “Autoencoder.” [Online]Available:https://www.compthree.com/blog/autoencoder/. Accessed: 10 de Marzo 2020].

[14] tuoptometrista, “Ilustraci´on de la red propuesta para la estimaci´on de la profundidad monocular.”[Online]Available:https://www.semanticscholar.org/paper/ Structured-Attention-Guided-Convolutional-Neural-Xu-Wang/

1231e9ea7fe18e8d6cc7fd0b0285c3644b5e9bed. Accessed: 10 de Marzo 2020].

[15] phillipi, “Ejemplo de funcionalidades del pixtopix.”

[Online]Available:https://phillipi.github.io/pix2pix/. Accessed: 10 de Marzo

2020].

[16] T. Zhou, M. Brown, N. Snavely, and D. G. Lowe, “Unsupervised learning of depth and ego-motion from video,”2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6612–6619, 2017.

[17] cornell University, “Unsupervised monocular depth estimation with left-right

consistency.” [Online]Available:https://arxiv.org/abs/1609.03677. Accessed: 10 de Marzo 2020].

[18] Medium, “Arquitectura gan..”[Online]Available:https:

//medium.com/@m50816m50816/paper-note-eeg-gan-generative-adversarial\ -networks-for-electroencephalograhic-eeg-brain-d32934032c8f. Accessed: 10 de Marzo 2020]. [19] Medium, “Cnn architecture.” [Online]Available:https://medium.com/voice-tech-podcast/ how-to-use-convnets-in-different-ways-a-brief-analogy-1b69c3e88f3b. Accessed: 10 de Marzo 2020]. [20] Arxiv, “Unet architecture.”

[Online]Available:https://arxiv.org/abs/1505.04597. Accessed: 10 de Marzo

2020].

[21] Catalyzex, “Deep autoencoder.”

[Online]Available:https://www.catalyzex.com/s/Peter%20Wonka. Accessed: 10 de

[22] Github, “Dense net.”[Online]Available:https:

//github.com/HarisIqbal88/PlotNeuralNet/issues/50. Accessed: 10 de Marzo

2020].

[23] N. Silberman, “Nyu depth v2 dataset..”[Online]Available:https:

//cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html. Accessed: 18 de Abril

2020].

[24] O. e. a. Tadic, Vladimir, “Application of intel realsense cameras for depth image generation in robotics,”WSEAS Transactions on Computers, vol. 18, pp. 107–112, 09 2019.

[25] S. M. SlashGear, “Asus gets xtionpro live ready for launch.”

[Online]Available:https:

//www.slashgear.com/asus-gets-xtion-pro-live-ready-for-launch-19165977/,

2011. Accessed: 3 de Marzo 2020].

[26] Mouser, “Coste intel realsense d435.”[Online]Available:https:

//www.mouser.es/ProductDetail/Intel/82635AWGDVKPRQ. Accessed: 6 de Marzo

2020].

[27] R. Components, “Coste orbbec astra.”[Online]Available:https:

//www.roscomponents.com/es/camaras/76-orbbec.html. Accessed: 6 de Marzo

2020].

[28] Amazon, “Coste microsoft - sensor kinect (xbox one).”[Online]Available:https: //www.amazon.es/Microsoft-Sensor-Kinect-Xbox-One/dp/B00NABN4VS/ref=sr_1_ 1?__mk_es_ES%C3%85M%C3%85%C5%BD%C3%95%C3%91&keywords=kinect&qid=

1584397022&s=videogames&sr=1-1&swrs=420DBA3498711D7BD355668A83784CB7.

Accessed: 6 de Marzo 2020].

[29] R. Components, “Coste lidar.”[Online]Available:https:

//www.roscomponents.com/es/20-lidar-escaner-laser. Accessed: 6 de Marzo

2020].

[30] Youtube, “Robots aut´onomos.” [Online]Available:https://youtu.be/MOEjL8JDvd0. Accessed: 5 de Marzo 2020].

[31] A. A. M. Alzahrani, “Detection of mine roof failure using inexpensive lidar technology,” 2017.

[32] ESA, “Lidar in space.”[Online]Available:https://www.esa.int/Enabling_

Support/Space_Engineering_Technology/Space_Optoelectronics/LIDAR_Systems.

Accessed: 9 de Mayo 2020].

[33] G. H. Lee, K. H. Kwon, and M. Y. Kim, “Ambient environment recognition algorithm fusing vision and lidar sensors for robust multi-channel v2x system,” in 2019 Eleventh

International Conference on Ubiquitous and Future Networks (ICUFN), pp. 98–101, 2019.

[34] Wikipedia, “Lidar.”[Online]Available:https://es.wikipedia.org/wiki/LIDAR. Accessed: 4 de Marzo 2020].

[35] M. Q. G. Hern´andez-Pe˜nAloza, A. Belmonte-Hern´andez and F. ´Alvarez, “A

multi-sensor fusion scheme to increase life autonomy of elderly people with cognitive problems,” IEEE Access, vol. 6, pp. 12775–12789, 2018.

[36] A. Express, “Coste c´amaras rgb.”[Online]Available:https:

//es.aliexpress.com/wholesale?trafficChannel=main&d=y&CatId=0&SearchText=

camara&ltype=wholesale&isFavorite=y&SortType=default&page=1. Accessed: 6 de

Marzo 2020].

[37] Wikipedia, “Inteligencia artificial.”

[Online]Available:https://www.ittrends.es/inteligencia-artificial/2019/ 02/machine-learning-es-la-tecnologia-dominante-dentro-de-la-\

inteligencia-artificial. Accessed: 27 de febrero 2020].

[38] R. A. Xataca, “Deep learning: Presente y futuro..”

[Online]Available:https://www.xataka.com/robotica-e-ia/

deep-learning-que-es-y-por-que-va-a-ser-una-tecnologia-clave-en\

-el-futuro-de-la-inteligencia-artificial. Accessed: 8 de Marzo 2020].

[39] Wikipedia, “Profundidad.”

[Online]Available:https://es.wikipedia.org/wiki/Profundidad. Accessed: 28 de

Marzo 2020].

[40] V. K. Quora, “How does dual cameras work in android phones?.”[Online]Available:

https://www.quora.com/How-does-dual-cameras-work-in-Android-phones.

Accessed: 7 de Marzo 2020].

[41] D. G. Euronics, “Qu´e es la tecnolog´ıa dual pixel, c´omo funciona y d´onde se encuentra..”

[Online]Available:https://www.euronics.es/blog/

que-es-la-tecnologia-dual-pixel-como-funciona-y-donde-se-encuentra/.

Accessed: 7 de Marzo 2020]. [42] Wikipedia, “Sensor cmos.”

[Online]Available:https://es.wikipedia.org/wiki/Sensor_CMOSs. Accessed: 10

de Marzo 2020].

[43] F. Lecumberry, “C´alculo de disparidad en im´agenes est´ereo, una comparaci´on,” 2005. [44] Wikipedia, “Ester´opsis visual.”

[Online]Available:https://es.wikipedia.org/wiki/Estereopsis. Accessed: 27 de

[45] Wikipedia, “Slam.”[Online]Available:https:

//es.wikipedia.org/wiki/Localizaci%C3%B3n_y_modelado_simult%C3%A1neos.

Accessed: 9 de Mayo 2020].

[46] Wikipedia, “Inteligencia artificial.”

[Online]Available:https://es.wikipedia.org/wiki/Inteligencia_artificial.

Accessed: 27 de Marzo 2020].

[47] Tecnolog´ıa, “Scale-invariant feature transform,” 2010. [48] B. Minds, “Depth estimation.”[Online]Available:https:

//medium.com/beyondminds/depth-estimation-cad24b0099f. Accessed: 21 de Marzo

2020].

[49] I. Alhashim and P. Wonka, “High quality monocular depth estimation via transfer learning,” CoRR, vol. abs/1812.11941, 2018.

[50] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” CoRR, vol. abs/1505.04597, 2015.

[51] D. Eigen and R. Fergus, “Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture,” 2015 IEEE International Conference on Computer Vision (ICCV), pp. 2650–2658, 2014.

[52] D. Xu, W. Wang, H. Tang, H. Liu, N. Sebe, and E. Ricci, “Structured attention guided convolutional neural fields for monocular depth estimation,”2018 IEEE/CVF

Conference on Computer Vision and Pattern Recognition, pp. 3917–3925, 2018. [53] Wikipedia, “Conditional random field.”

[Online]Available:https://en.wikipedia.org/wiki/Conditional_random_field.

Accessed: 26 de Marzo 2020].

[54] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-to-image translation with conditional adversarial networks,” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5967–5976, 2016.

[55] R. Garg, B. G. V. Kumar, G. Carneiro, and I. D. Reid, “Unsupervised cnn for single view depth estimation: Geometry to the rescue,” ArXiv, vol. abs/1603.04992, 2016. [56] C. Godard, O. M. Aodha, and G. J. Brostow, “Unsupervised monocular depth

estimation with left-right consistency,” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6602–6611, 2016.

[57] A. J. Amiri, S. Y. Loo, and H. Zhang, “Semi-supervised monocular depth estimation with left-right consistency using deep neural network,” 2019 IEEE International Conference on Robotics and Biomimetics (ROBIO), pp. 602–607, 2019.

[59] K. G. Lore, K. Reddy, M. Giering, and E. A. Bernal, “Generative adversarial networks for depth map estimation from rgb video,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 1258–12588, 2018.

[60] A. C. S. Kumar, S. M. Bhandarkar, and M. Prasad, “Monocular depth prediction using generative adversarial networks,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 413–4138, 2018.

[61] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, “Spatial transformer networks,” ArXiv, vol. abs/1506.02025, 2015.

[62] VELOGIC, “Pasos deep learning.”[Online]Available:https:

//velogig.com/que-es-el-machine-learning-y-como-es-su-proceso/. Accessed:

26 de Abril 2020].

[63] Oreilly, “Cnn architecture overview.”[Online]Available:https:

//www.oreilly.com/library/view/deep-learning/9781491924570/ch04.html.

Accessed: 26 de Abril 2020].

[64] M. learning mastery, “Convolutional layers.”

[Online]Available:https://machinelearningmastery.com/

convolutional-layers-for-deep-learning-neural-networks/l. Accessed: 26 de

Abril 2020].

[65] M. learning mastery, “Pooling layers.”

[Online]Available:https://machinelearningmastery.com/

pooling-layers-for-convolutional-neural-networks/. Accessed: 26 de Abril

2020].

[66] Quora, “Back-propagation and forward-propagation.”

[Online]Available:https://www.quora.com/

What-is-the-difference-between-back-propagation-and-forward-propagation/.

Accessed: 26 de Abril 2020]. [67] Wikipedia, “Gradient descent.”

[Online]Available:https://en.wikipedia.org/wiki/Gradient_descent. Accessed:

26 de Abril 2020].

[68] Wikipedia, “Validation set.”[Online]Available:https://en.wikipedia.org/wiki/

Training,_validation,_and_test_sets#Training_dataset. Accessed: 27 de Abril

2020].

[69] Intel, “Intel depth camera d435.”

[Online]Available:https://www.intelrealsense.com/depth-camera-d435/.

[70] XATAKA, “Deep learning..”[Online]Available:https://www.xataka.com/

robotica-e-ia/las-redes-neuronales-que-son-y-por-que-estan-volviendol.

Accessed: 18 de Abril 2020].

[71] Quora, “Receptive field in cnn.”[Online]Available:https://www.quora.com/

What-is-a-receptive-field-in-a-convolutional-neural-network. Accessed: 5 de

Mayo 2020].

[72] I. Laina, C. Rupprecht, V. Belagiannis, F. Tombari, and N. Navab, “Deeper depth prediction with fully convolutional residual networks,” CoRR, vol. abs/1606.00373, 2016.

[73] Wikipedia, “Mse.”[Online]Available:https:

//es.wikipedia.org/wiki/Ra%C3%ADz_del_error_cuadr%C3%A1tico_medio.

Accessed: 6 de Mayo 2020].

[74] G. Huang, Z. Liu, and K. Q. Weinberger, “Densely connected convolutional networks,”

2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2261–2269, 2017.

[75] machinelearningmastery, “U-net utilizado en la red pix2pix..”

[Online]Available:https://machinelearningmastery.com/

how-to-implement-pix2pix-gan-models-from-scratch-with-keras/. Accessed: 7

de Mayo 2020].

[76] machinelearningmastery, “Regularizaci´on por dropout..”

[Online]Available:https://machinelearningmastery.com/

how-to-reduce-overfitting-with-dropout-regularization-in-keras/. Accessed:

7 de Mayo 2020].

[77] machinelearningmastery, “Explicaci´on de stride.”

[Online]Available:https://machinelearningmastery.com/

padding-and-stride-for-convolutional-neural-networks/. Accessed: 7 de Mayo

2020].

[78] machinelearningmastery, “Pix2pix loss.”

[Online]Available:https://machinelearningmastery.com/

a-gentle-introduction-to-pix2pix-generative-adversarial-network/.

Accessed: 6 de Mayo 2020].

[79] D. Google, “Gan loss function.”[Online]Available:https:

//developers.google.com/machine-learning/gan/loss. Accessed: 7 de Mayo 2020].

[80] F. Escolano, P. Suau, and B. Bonev,Information Theory in Computer Vision and Pattern Recognition. Springer Publishing Company, Incorporated, 1st ed., 2009.

[81] imatest, “Ssim.”[Online]Available:https://www.imatest.com/docs/ssim/. Accessed: 7 de Mayo 2020].

[82] R. Zhang, P. Isola, A. A. Efros, E. Shechtman, and O. Wang, “The unreasonable effectiveness of deep features as a perceptual metric,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 586–595, 2018.

[83] Intel, “Get real distance intel realsense.”[Online]Available:https:

//lightbuzz.com/intel-realsense-coordinate-mapping/. Accessed: 10 de Mayo

2020].

[84] K. Hars´anyi, A. Kiss, A. Majdik, and T. Szir´anyi,A Hybrid CNN Approach for Single Image Depth Estimation: A Case Study: Proceedings of the 11th International

Anexos

A. ASPECTOS ´ETICOS, ECON ´OMICOS,

SOCIALES Y AMBIENTALES

A.1 Introducci´on

En la actualidad, donde existe una guerra d´ıa a d´ıa con los competidores de un mismo produc- to, es esencial mantenerse innovando para no quedarse atr´as en el mercado. Un producto que sale al mercado hoy, en 6 meses podr´ıa verse completamente superado por un competidor que ofrezca la misma calidad a un menor precio o una mejor calidad en general. Espec´ıficamente en el ´ambito de la tecnolog´ıa y la innovaci´on, que es un entorno accesible a todas las perso- nas, la relaci´on calidad precio se ha convertido en un factor de gran importancia. Con este punto no solo se hace referencia a las grandes empresas de tecnolog´ıa que constantemente se encuentran innovando, sino en aquel grupo de peque˜nos empresarios o simplemente personas curiosas que desean adentrarse en el mundo de la tecnolog´ıa. El campo de la rob´otica es un ejemplo claro de los puntos mencionados. Es un campo tan amplio, que se utiliza tanto para aplicaciones complejas ( militares, espaciales, etc), como en simples salones de clase donde se inspira a un ni˜no a abrir su mente.

Los mapas de profundidad son representaciones que cada vez adquieren m´as importancia en el mundo. Pueden ser utilizados casi en todos los ´ambitos profesionales y por ende es inevitable que se convierta en algo accesible para todos con el tiempo. Una aplicaci´on de estos mapas es la monitorizaci´on de ancianos, donde se utiliza esta tecnolog´ıa para evitar mantener un control, evitar accidentes y adem´as optimizar las terapias. Por lo que es una aplicaci´on que no solo ayuda a los ancianos a llevar mejor su enfermedad, sino que tambi´en a la persona encargada de su cuidado.

Otra aplicaci´on importante es el reconocimiento de objetos en la industria automotriz. Se utiliza para evitar colisiones entre dos objetos m´oviles tras calcular la distancia a cada uno de ellos con el mapa de profundidad. Esta tecnolog´ıa, combinada con otras, permite que los coches sean capaces de conducirse sin la necesidad de un humano. Esta independencia puede ayudar en un futuro a reducir significativamente el n´umero de accidentes de tr´afico.

Estas aplicaciones y muchas otras, inspiraron este trabajo a buscar una alternativa fiable y accesible con la cual poder generar dichos mapas de profundidad. Por ende, hay que considerar los impactos sociales, econ´omicos , ´eticos y medioambiental que podr´ıa generar en el mundo.