• No results found

THEME FOUR: The ideas that are drawn upon to formulate

3. ANALYSIS

3.5 THEME FOUR: The ideas that are drawn upon to formulate

La detección de esquinas es una aproximación usado en los sistemas de visión artificial para extraer la intersección de bordes o esquinas. La detección de esquinas frecuentemente se usa en la detección del movimiento, rastreo en vídeo, modelado 3D o como para este TFG, procesamiento de la imagen y reconocimiento de objetos.

Un detector de esquinas presenta la ventaja de usar las esquinas en vez de bordes como principal

meta de detección ya que las esquinas son poco sensibles a cambios en su rotación y escala. El

principio de búsqueda de un detector de esquinas es el análisis de una región a partir de una posición

inicial para poder determinar en qué tipo de región se encuentra este mismo. Las tres regiones

principales que se pueden encontrar en una imagen son:

Borde: También denominado contorno. No hay cambio en la dirección del borde.

Región plana: No hay contorno y por tanto no se detecta ningún cambio de dirección.

Esquina: Intersección de dos o más bordes. Por tanto existe un cambio de intensidad notable en

una o más direcciones.

Precisamente este último es el principio de búsqueda de estos detectores: Encontrar puntos caracterizados por ser regiones con cambios de intensidad notables en varias direcciones, es decir, encontrar esquinas.

101

Los detectores de esquinas normalmente no son robustos y requieren de una supervisión especializada para impedir el efecto de errores individuales en la tarea de reconocimiento. Una forma

de determinar la calidad de un detector de esquinas es su destreza para obtener la misma esquina en

imágenes similares pero que cuenten con diferentes poses (es decir, distinta rotación y/o traslación),

diferentes condiciones de iluminación,….

Una forma simple de detección de esquinas podría ser usando la correlación. La correlación indica la relación lineal y proporcionalidad entre dos variables estadísticas (en este caso entre los puntos de interés a comparar de imágenes distintas). Se considera que dos variables cuantativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra variable: En este caso, dos puntos de interés (dos esquinas) estarían

correlacionados si al disminuir ciertos valores/característicos de uno de ellos también lo hace el otro y viceversa. Sin embargo, el uso de la correlación es un proceso costoso computacionalmente. Por ello, un

acercamiento alternativo es el modelo propuesto por Moravec.

5.2.3.1. Algoritmo de Moravec [11]:

Es uno de los primeros detectores de esquinas propuesto. El principio de funcionamiento es el siguiente:

Análisis de cada pixel en la imagen para detectar si hay una esquina, considerando la similitud con

un parche (o ventana como se citó anteriormente) centrado en el píxel cercano, solapando ambos.

Se toma la suma de diferencias cuadradas (SDC) que se definirá a continuación en Harris entre ambos parches. Un bajo número indica que la intensidad es muy parecida y por tanto hay similitud.

o Si el pixel está en una región de intensidad uniforme, los parches cercanos parecerán similares.

o Si el píxel está en un borde, los parches cercanos en una dirección perpendicular al borde serán muy diferentes, pero los cercanos en dirección paralela (es decir, en el propio borde), sólo producirán un pequeño cambio.

o Si el píxel está en una región con variación en todas las direcciones (esquina), ningún parche cercano parecerá similar.

Finalmente, la fuerza de la esquina se define como la suma de cuadrados SDC más pequeña entre un parche y sus vecinos en la horizontal, vertical y ambas diagonales. Cuanto más pequeño sea, más característico será este punto de interés en forma de esquina.

Sin embargo, este método basado únicamente en la SDC entre parches cercanos era insuficiente para imágenes complejas con un gran número de contornos, por lo que se decidió crear el detector de Harris.

5.2.3.2. Algoritmo de Harris-Stephens:

En general denominado simplemente detector de Harris, este detector presenta una mejora respecto a Moravec puesto que el tratamiento es diferencial, es decir, se considera el diferencial del valor de la esquina con respecto a esa dirección, en lugar de usar estas ventanas o parches para el análisis. Dicho de otra forma, este algoritmo mejora mucho la precisión del algoritmo anterior. Cronológicamente en este TFG fue el segundo extractor (y el primero basado en puntos característicos en vez de bordes como era el algoritmo de Canny) en ser usado.

Para el uso del detector de Harris (y también de la técnica SURF) en MatLab, la imagen debe ser

traducida del modelo RGB a la escala de grises.

Al igual que antes, para determinar matemáticamente si se ha detectado una esquina, el parche

102

del desplazamiento, considerando el sumatorio de todas las SDC (en inglés SSD, Sum of Squared

Differences), denotada por 𝑆𝑆(𝑛, 𝑚):

𝑆𝑆(𝑛, 𝑚) = ∑ ∑ 𝑤(𝑥, 𝑦) · (𝐼(

𝑥 𝑦

𝑥 + 𝑛, 𝑦 + 𝑚) − 𝐼(𝑥, 𝑦))

2

(5.5) Siendo 𝐼(𝑥, 𝑦) la intensidad de la escala de grises de la imagen original, 𝐼(𝑥 + 𝑛, 𝑦 + 𝑚) la intensidad de la imagen original desplazada por el vector (𝑛, 𝑚) y finalmente 𝑤(𝑥, 𝑦) la ventana sobre la que se realiza el análisis.

Una esquina está caracterizada precisamente por lo contrario a una región plana: Variación grande del

sumatorio de SDC en todas las direcciones (x,y). Es decir, cuanto más grande sea SS(n, m), mayor será la

posibilidad de que ese punto de interés sea una esquina.

Para vectores de desplazamiento (𝑛, 𝑚) pequeños, se puede aproximar la intensidad en el punto siguiente (añadido el desplazamiento), mediante una serie de Taylor (objeto matemático cuyo objetivo es la aproximación de una función en otra más simple).

𝐼(𝑥 + 𝑛, 𝑦 + 𝑚) ≈ 𝐼(𝑥, 𝑦) + 𝐼

𝑛

(𝑥, 𝑦) · 𝑛 + 𝐼

𝑚

· (𝑥, 𝑦) · 𝑚 (5.6)

Siendo respectivamente 𝐼𝑛 e 𝐼𝑚 las derivadas parciales de I:

Esto conduce a la siguiente aproximación:

𝑆𝑆(𝑛, 𝑚) ≈ ∑ ∑ 𝑤(𝑥, 𝑦) · (𝐼

𝑥 𝑦 𝑛

(𝑥, 𝑦) · 𝑛 + 𝐼

𝑚

· (𝑥, 𝑦) · 𝑚)

2

(5.7) O de forma equivalente:

𝑆𝑆(𝑛, 𝑚) ≈ ∑ ∑ 𝑤(𝑥, 𝑦) · (𝑛

2 𝜕2𝐼 𝜕𝑛2

+ 𝑣

2 𝜕2𝐼 𝜕𝑚2

+ 2𝑛𝑚

𝑦 𝑥 𝜕2𝐼 𝜕𝑛·𝜕𝑚

)

(5.8) Y en forma de matriz:

𝑆𝑆(𝑛, 𝑚) ≈ (𝑛 𝑚) · 𝐾 · (𝑚𝑛)

(5.9) Siendo K el siguiente sumatorio:

𝐾 = ∑ ∑ 𝑤(𝑥, 𝑦) · (

𝐼

𝑛 2

𝐼

𝑛

· 𝐼

𝑚

𝐼

𝑛

· 𝐼

𝑚

𝐼

𝑚2

)

𝑦 𝑥

(5.10)

K es la matriz característica de Harris (también denominada de autocorrelación), pudiéndose ver el

promedio de la variación en todas las direcciones (x,y). Evidentemente, si una ventana es redonda, la respuesta es isotrópica, es decir, igual en todas las direcciones.

A contiuación se definen los autovalores (escalares que acompañan a los autovectores capaces de cambiar la dirección en conjunto de una imagen) 𝜆1 y 𝜆2, obteniéndose en función de ellos, tres tipos de regiones posibles: