3. ANALYSIS
3.2 THEME ONE: Challenges of the service context
3.2.1 Sub-themes
imagen original secciones de la imagen nueva que no existen (en el ejemplo 4.1, la sección nueva a la izquierda del primer cartel azul hay poca pared, mientras que en la imagen original hay bastante a la izquierda, por tanto aparece una franja negra). Este hecho se comprobará perfectamente en el capítulo 6 Alineamiento de vistas sintéticas mediante corrección de offset y transformación homogénea donde se trate el alineamiento entre dos secciones y las franjas negras resultantes de dicho alineamiento.
Solucionando el problema del punto de vista se tendría una implicación práctica muy significativa y es
que los cambios más importantes en la apariencia de la escena son más fáciles de localizar desde
puntos de vista similares.
Si se sintetiza (y posteriormente se refuerza con un alineamiento conveniente) una misma geolocalización en varias pasadas temporales, la base de datos creada podría usarse para analizar
cambios en el tiempo en aplicaciones de arquitectura, arqueología y planos urbanos, históricas, ingenieriles, etc o incluso de forma altruista para visualizar el mismo lugar con diferentes iluminaciones,
estaciones o el simple hecho de ver la zona atrás en el tiempo. Ese análisis de cambios se realiza mediante la comparación con estos extractores de características, que funcionarán mejor cuanto más idénticos sean los puntos de vista de la imagen del panorama 1 y del panorama 2.
Existen dos cuestiones principales acerca de la sintetización de imágenes:
1. ¿Cómo se puede eficientemente sintetizar puntos de vista virtuales para una base de datos tan grande?
2. ¿Cómo se deben representar las imágenes sintéticas de un modo que sea robusto a los cambios grandes en la apariencia de la escena?
Para abordar estas cuestiones, el trabajo [8] en primer lugar desarrolla un método de síntesis de vistas que pueda renderizar vistas virtuales a partir de la información recogida en las imágenes panorámicas
de GSV y sus mapas de profundidad asociados, no requiriendo de un modelo 3D preciso de la escena.
Es importante tener en cuenta una cosa: Por definición la renderización de imágenes es el proceso de obtención de imágenes mediante el cálculo de iluminación partiendo de un modelo 3D. Sin embargo, con este código no es necesario la nube de puntos del panorama (aunque en el capítulo anterior se elaboró un código que modelaba de una forma aproximada el mapa de profundidad en tres dimensiones), sino que basta con la información del panorama y la distancia de cada pixel a la cámara, que no es más que la información contenida en el mapa de profundidad.
Aunque a menudo las imágenes resultantes están ligeramente distorsionadas (por ejemplo esas franjas
negras, que una farola esté cortada,…) la imagen sintética resultante es suficiente para la tarea de
reconocimiento de cambios a gran escala. Además, la ventaja clave de este TFG es que la herramienta
Google Street View, al estar disponible para todo el mundo, abre la posibilidad de un verdadero
reconocimiento visual a escala planetario.
En segundo lugar, para representar las imágenes el código usa descriptores basados en gradientes
locales (SIFT en este caso) a través de múltiples escalas. Estos descriptores son los más robustos frente
a grandes cambios en la apariencia debido a la iluminación, envejecimiento, modificaciones estructurales, etc… ya que no se basan en la detección repetible de características invariantes locales como es el Laplaciano de Gauss. En el capítulo 6 Alineamiento de vistas sintéticas mediante corrección de offset y transformación homogénea donde se trata el alineamiento se puede comprobar también que los mejores resultados de extracción de características son obtenidos con las técncias SURF y SIFT, descriptores basados en gradientes locales.
78
4.3. Método para la síntesis de imágenes y representación:
El reconocimiento de lugares a gran escala es a menudo formulado como un problema derivado de la recuperación de imágenes a partir de una imagen de consulta (imagen del primer panorama en este caso) que sirve de referencia y una imagen del segundo panorama que se tiende a alinear con esta primera. Ambos panoramas provienen de la base de datos de GSV.
La estructura 3D del entorno (para un determinado punto temporal) podría ser también reconstruida de antemano y comparar entonces las imágenes de otro punto temporal para esa comparación de cambios. Por tanto, el etiquetado que se hará al final del TFG (generando el groundtruth que contiene la información de los cambios) se puede hacer de dos formas:
1. Sintetizando ambos panoramas y comparándolos.
2. Sintetizando un único panorama y elaborando una nube de puntos tridimensional.
Ambas opciones han demostrado un excelente rendimiento en el alineamiento entre dos imágenes cuando hay cambios moderados en la escala y punto de vistas, cambios modelados por los detectores de características invariantes locales. Sin embargo, la coincidencia entre las variaciones de apariencia tales como cambios en la iluminación, estaciones o incluso el envejecimiento de las estructuras es aún un desafío. Para este TFG se ha elegido la primera opción por ser la menos compleja de ambas.
Para sintetizar estas vistas adicionales se usarán principalmente dos tipos de datos:
1. Imagen panorámica obtenida previamente. Cada panorama captura 360 º x 178 º horizontal y vertical
ángulo de visión respectivamente (básicamente una semiesfera), y tiene el tamaño de 3.584 x 1.536 píxeles (en baja resolución).
2. Mapa de profundidad asociado a dicha imagen panorámica. El mapa de profundidad está codificado
como un conjunto de parámetros del plano 3D (vector normal y distancia para cada plano) con una resolución de 512 x 256 píxeles.
Todas las vistas de una posición particular de la nueva posición de la cámara (dicho de otra forma, la cámara virtual), están sintetizadas a partir del panorama y del mapa de profundidad más próximo de la imagen de GSV más cercana.
Figura 4.2: Datos de entrada para la síntesis
Como se puede observar, el mapa de profundidad debe ser mejorado puesto que aún tiene margen de mejora para asimilar la complejidad existente en la imagen panorámica, repercutiendo directamente en la síntesis. Por tanto, esta será una de las futuras mejoras, basándose en el desplazamiento de un mismo panorama, es decir, misma geolocalización y momento temporal, determinando la profundidad a partir de este desplazamiento.