Para finalizar este capítulo, se ilustra un último ejemplo en el cual se busca eliminar las oclusiones en el punto de vista a partir del estudio de una trayectoria horizontal. Al igual que en casos anteriores se parte de imágenes color RGB capturadas con una cámara CCD de 640x480 píxeles. Los objetos de la escena han sido suspendidos en el aire, y están situados en diferentes planos, para ilustrar mejor el problema de las oclusiones por solapamiento de punto de vista.
Inicialmente, se va a partir de una la imagen mostrada en la figura 5-28.a, dando por supuesto que se ha capturado desde la posición inicial de la cámara. Como se puede observar existe oclusión por solapamiento entre los tres objetos situados en la imagen.
En este experimento, se procederá de modo similar siguiendo los mismos pasos que se han llevado a cabo en el Apartado 5.6.1, con la salvedad que para evaluar las distancias entre objetos se emplea como características los centros de masas.
Primero, se extraen las características de la imagen inicial como se muestra en la Figura 5-28. Es decir, tras una segmentación color se extraen los centroides de los objetos representados y los puntos 2D de contorno. En total se han detectado 3 objetos significativos. Se consideran objetos significativos aquellos cuya área supera un 10% del área de todos los píxeles que forman la escena, sin considerar el objeto de mayor número de píxeles que será considerado fondo. Se procederá de esta manera siempre que los objetos se localicen sobre un fondo uniforme y con cierta homogeneidad.
Capítulo 5. Estimación de movimiento para evitar oclusiones
- 161 -
Figura 5-28: a) Imagen original. b) Segmentación y extracción de centros de gravedad. c) Extracción y filtrado de contornos a partir de la segmentación.
Ahora, las imágenes virtuales se calculan a partir de los puntos 2D que se habían obtenido a partir de las características extraídas de los objetos segmentados en la imagen (Figura 5-28). Al igual que en casos anteriores, se calculan las Homografías correspondientes para cada posición del movimiento planificado y se evalúan las distancias entre los centros de masas en cada una de las imágenes virtuales obtenidas. Así, si se compara la evolución de la distancia entre objetos para las imágenes virtuales (Figura 5-29), y para las imágenes reales que se obtendrían del análisis del mismo movimiento (Figura 5-32), se observa que la proyección puede ser una interesante metodología para analizar el movimiento de una cámara evitando la captura de imágenes en posiciones cuyo punto de vista puede provocar oclusiones no deseadas.
Para este ejemplo, se ha analizado un movimiento horizontal, en el que la cámara se desplaza paralela al suelo siguiendo una trayectoria circular entorno a la escena que se quiere capturar. El movimiento analizado es el indicado en la tabla 5-6.
Movimiento φ θ Paso Δφ Paso Δθ
Horizontal puro
90º [-45,45º] - 5º
Tabla 5-6: Parámetros del movimiento planificado para el cálculo de imágenes virtuales.
Si se calculan las distancias entre características en cada una de las imágenes virtuales, se obtiene la gráfica de la figura 5-29. En ella se observa como el valor de la distancia aumenta conforme empieza a desaparecer la oclusión. Es decir, cuando la cámara se mueve en un movimiento horizontal hacia la izquierda [0,-45º] o hacia la derecha de [0,45º].
2 3
1
Figura 5-29: Cálculo de distancias para secuencia de imágenes virtuales.
En la figura 5-30 se pueden observar las imágenes virtuales obtenidas a partir de la simulación del movimiento de la tabla 5-6, cuyos valores de distancia se analizan en la figura 5-29.
Figura 5-30: Proceso de mapeado en imágenes virtuales del movimiento horizontal indicado en la tabla 5-6. Para certificar realmente, que la evaluación de distancias en imágenes virtuales permite determinar las posiciones de la cámara que no son adecuadas para la captura de imágenes, y permite al mismo tiempo determinar un posible movimiento de la cámara que mejore el punto de vista, se ha realizado el movimiento de la cámara montándola en el extremo de un robot manipulador Mitsubishi PA-10. Las imágenes reales capturadas en las posiciones inicial y final de la cámara, si se lleva a cabo un movimiento entre [0,90º] se muestran en la figura 5-31.
d(1,3) d(2,3) d(1,2) Etiqueta de imagen Distancia punt os de borde [pí xeles]
Capítulo 5. Estimación de movimiento para evitar oclusiones
- 163 -
a)
Figura 5-31: a) Imágenes capturadas desde las posiciones inicial y final de la trayectoria evaluada para comprobar la validez del método. b) Sistemas de referencia empleados.
Figura 5-32: Evolución de distancias para secuencia de imágenes reales (Figura 5-31). d(1,3) d(2,3) d(1,2) Etiqueta de imagen Distancia ce ntroides [píxeles] XM YM b) C M T ZM M C O T YC ZC XC C O YO ZO
Si ahora, se observa la gráfica (Figura 5-32) calculada a partir de las distancias entre los objetos en el movimiento real de la cámara, montada sobre el robot PA-10, cuyas imágenes inicial y final se muestran en la figura 5-31, se puede comprobar la evolución del parámetro distancia y cómo éste aumenta conforme la oclusión comienza a desaparecer. Además se puede observar cómo con el movimiento mejora la visibilidad entre los objetos etiquetados como 1 y 3, ya que aumenta considerablemente la distancia entre ellos. La distancia entre los objetos etiquetados como 2 y 3 permanece prácticamente constante. Se puede afirmar, por lo tanto, que no se produce una mejora ni empeoramiento en el punto de vista.
Finalmente, observando la evolución de las distancias de los objetos etiquetados como 1,2, también se produce poca variación en la distancia. El problema radica, en que al verse ocluido el objeto varía el centro de masas dando una falsa impresión. En tal caso, para comprobar que se ha producido una oclusión, se habrá de estudiar, la evolución de las áreas de los objetos detectados (Figura 5-33).
Figura 5-33: Evolución de áreas para secuencia de imágenes reales.
De modo que cuando la distancia entre objetos aumenta, es que mejora el punto de vista, cuando la distancia entre objetos disminuye empeora el punto de vista, y cuando la distancia entre objetos se mantiene constante es necesario observar la evolución de las áreas de las regiones de dichos objetos. Así para el caso, de los objetos etiquetados como 1 y 2, se puede observar como el área del objeto 1, varía poco en relación a su valor, sin embargo la del objeto 2 varía en área en casi el 50% de su valor. Indicando que en este caso, a pesar de que las distancias entre centroides permanecen constantes, el objeto 1 solapa el punto de vista del objeto 2 en un parte del movimiento. Por el mismo
a(3) a(1) a(2) Etiqueta de imagen Distancia punt os de borde [pí xeles]
Capítulo 5. Estimación de movimiento para evitar oclusiones
- 165 -
motivo, se estudia la distancia entre los objetos 2 y 3 (Figura 5-33) y se observa que también es constante. Sin embargo, la evaluación de las áreas en este caso indica que mientras el área del objeto 2 decrece, la del objeto 3 aumenta, lo que no puede indicar que el objeto 3 ocluya parte del objeto 2, porque de ser así el área de 3 permanecería constante. De ahí se deduce que es el objeto 1 quien ocluye al objeto 2, y que el aumento del área en el objeto 3 simplemente se debe a una mejora en el punto de vista permitiendo ver porciones que ocultaba el propio objeto por su geometría. Sin embargo, en las imágenes virtuales esta situación en la que aparece información (características, áreas, etc.) nueva que antes no era visible nunca se podrá dar, ya que todo el proceso se lleva a cabo a partir de una única vista inicial, es decir a partir de una única imagen capturada. Sería necesario incorporar un modelo o información de los objetos, a los que se está aplicando el proceso de estimación de movimiento, para poder considerar la posibilidad de introducir características que desde el punto de vista inicial de la cámara no eran visibles.
En este capítulo se presenta una forma de mejorar el punto de vista de una cámara
que observa un objeto, cuando la presencia de oclusiones no es debida a un
solapamiento entre objetos, sino únicamente a una perspectiva inadecuada que
reduce el área visible del objeto debido a su propia geometría. El método expuesto
para solucionar el problema se basa en la búsqueda de la posición de
ortogonalidad de la cámara.
6.1. Planteamiento inicial
En los apartados anteriores del Capítulo 5, se ha presentado una metodología eficaz para determinar la posición óptima de la cámara a partir de un espacio de prebúsqueda de posibles posiciones formado por una semiesfera. Ahora se quiere modificar el planteamiento inicial, presentando una segunda metodología con una base matemática similar pero con un enfoque distinto basada en la corrección del movimiento.
La finalidad de esta segunda metodología es doble:
• Por un lado, evitar los procesos de segmentación y de extracción de características de borde que suponen tiempo computacional, y que obligan a trabajar en el caso anterior con imágenes color, y en algunos casos pueden verse sometidas a procesos de ruido por iluminación, falta de precisión en la detección, etc.
• Por otro lado, aumentar la velocidad de cómputo evitando chequear todo el espacio de prebúsqueda, formando todas las posibles imágenes virtuales y la evaluación de éstas. Por contrapartida, las desventajas con las que esta técnica se enfrenta son:
• Se necesitan al menos partir de dos imágenes captadas por la cámara, frente a una única imagen en la metodología anteriormente comentada. Una de ellas será la imagen capturada desde la posición inicial de la cámara, y otra imagen será la imagen que sería capturada en la posición deseada de la cámara. Esto obliga a tener conocimiento a priori del objetivo buscado, en términos de imagen objetivo.
• Igualmente necesita de la extracción de características, pero en este caso en dos o más imágenes. Y adicionalmente en esta metodología es necesario aplicar un proceso de correspondencia por correlación entre características extraídas a partir de las imágenes. Esto significa, que aunque el tiempo de extracción de características es más rápido, porque se emplean mecanismos de procesamiento en imágenes en escala de grises, es necesario hacerlos en varias imágenes. Además, la necesidad de comparar imágenes fija limitaciones, ya que existe cierta dependencia en que ambas imágenes tienen que tener vistas similares, para que el proceso de correspondencia entre las características extraídas en ambas sea robusto.
En el caso anterior, se ha empleado un enfoque que buscaba evitar las oclusiones para no producir puntos de vista de la cámara no deseados. La principal ventaja era que partía de un desconocimiento del objeto u objetos mostrados en la escena. Ahora, el enfoque es distinto y la metodología también, aunque la base matemática que representa el movimiento de la cámara, la proyección en la imagen es la misma. Si antes, se construían imágenes virtuales a partir de una imagen real inicial y un conjunto de posibles movimientos de la cámara, para posteriormente hacer un estudio de estas imágenes virtuales, ahora lo que se quiere es reconstruir un movimiento de cámara entre imágenes reales.
En este caso, por lo tanto se busca eliminar oclusiones, pero se parte de información a priori de cómo evitar esa posible oclusión. Esa información no es más que la imagen ideal o imagen objetivo que se capturaría desde una posición de cámara que proporcione un punto de vista subóptimo. Si se consideran varios posibles puntos de vista como subóptimos, bastaría almacenar la imagen capturada para cada uno de ellos. Además, el tipo de oclusiones que se buscan eliminar están más relacionas con las oclusiones provocadas por la misma naturaleza del objeto. Esto subyace en el hecho de que una porción de un objeto ocluye parte de otra del mismo objeto, o el hecho de que el punto de vista de la cámara limita la visibilidad de otras regiones de un mismo objeto. El enfoque y la finalidad son distintos a los mostrados en el capítulo 5.
Así, en este capítulo se presenta un enfoque para conseguir el mejor punto de vista para que una cámara montada en el extremo de un robot pueda adquirir una mejor imagen mejorando el proceso de reconocimiento del objeto u objetos visibles. En este caso, se ha partido de la premisa inicial de que el mejor punto de vista para una cámara es aquel que proporciona la mayor área visible de la superficie del objeto que se quiere emplear en el proceso de reconocimiento. Además, generalmente, la mayor superficie visible siempre se suele conseguir situando la cámara ortogonalmente al plano en el que se sitúa el objeto. Es decir, se busca conseguir que el eje óptico de la cámara sea lo más perpendicular a la superficie del objeto que se quiere capturar.
6.2. Detección de características
Algunos de los métodos de reconocimiento de objetos existentes en la literatura, y principalmente todos aquellos que se basan en la geometría y en la apariencia del objeto, no funcionan bien por la falta de generalidad y la dificultad de aprendizaje. Cuando se pretende detectar objetos a partir de su geometría se necesita de modelos previamente almacenados en una base de datos. Estos modelos además requieren de primitivas geométricas sencillas si se quiere conseguir un nivel de aprendizaje eficaz. Y por consiguiente, requieren de diferentes descriptores, grafos, secuencia de