3.a What are rituals and why do they exist?
6 Ibid 350 “Theological commitments are embodied in ritual acts.”
La idea inicial fue construir un reconocedor que no dependiese del mapa to- pol´ogico. Con el ´animo de encontrar un umbral de confianza para cada landmark, se realizaron los procedimientos explicados a continuaci´on.
Para cada v´ıdeo, se apuntaron de forma manual los frames en los que aparec´ıa un landmark para, posteriormente, compararlos con la salida del clasificador.
Gracias a esto, se pudo definir la medida de rendimiento en din´amico, η, para calcular la efectividad de las t´ecnicas en cada v´ıdeo:
η= n
ode frames clasif icados correctamente
node f rames en los que sale un landmark (21)
Para interpretar correctamente las gr´aficas incluidas en las siguientes p´aginas, es necesario aclarar algunos conceptos.
Se realizar´a el an´alisis en din´amico con cuatro v´ıdeos; por lo tanto, las figuras que est´en descritas a pie de imagen como “an´alisis en din´amico”estar´an com- puestas de cuatro sub-ejes de coordenadas, cada uno representando el resultado del clasificador sobre un v´ıdeo distinto.
En estos an´alisis se grafican los labels reales sobre el eje horizontal, que repre- senta los frames del v´ıdeo. El eje vertical, por su parte, representa las distancias al vecino m´as cercano, ya sea Eucl´ıdea o Mahalanobis.
Cada punto de la gr´afica tiene el color de la clase predicha por el clasificador K-NN para un frame concreto.
En las figuras que muestran rendimientos para distintos valores del n´umero de componentes principales tambi´en aparecen los resultados para los cuatro v´ıdeos.
El rendimiento oaccuracy mostrado en estas gr´aficas se calcula seg´un la Ecua- ci´on 21, y aparece en porcentaje.
Se referir´a a los v´ıdeos enumer´andolos del 1 al 4 empezando por el que est´a en el sub-eje de cada figura de arriba a la izquierda (V´ıdeo 1), siguiendo por el de arriba a la derecha (V´ıdeo 2), abajo a la izquierda (V´ıdeo 3) y terminando por el de abajo a la derecha (V´ıdeo 4).
Es importante tener en cuenta tanto el an´alisis en din´amico como la b´usqueda del n´umero de componentes principales m´as efectivo (que mejor rendimiento medio tenga entre los cuatro v´ıdeos) para el caso de Eigenlandmarks, ya que el primero puede ser clave para determinar la distancia umbral de confianza, mientras que el segundo dicta con qu´e frecuencia se detecta correctamente un landmark cuando se
est´a delante de ´el.
La Figura 16 muestra los rendimientos en din´amico para distintos valores del n´umero de componentes principales usando el m´etodo Eigenlandmarks. El rendi- miento empeora considerablemente con la m´etrica Mahalanobis a medida que au- menta el n´umero de componentes, lo que podr´ıa ser un indicio de que el K-NN Mahalanobis funcione mal cuando los individuos tienen muchas dimensiones.
Fig. 16: Rendimientos η para distintos n´umeros de componentes principales en la t´ecnica Eigenlandmarks
El mejor rendimiento medio entre los cuatro v´ıdeos con la t´ecnica Eigenland- marks se obtiene con 110 componentes principales y m´etrica Eucl´ıdea: 81.07 %. El rendimiento m´aximo obtenido se da en el V´ıdeo 3 con 50 componentes principales y m´etrica Mahalanobis: 89.55 %. Sin embargo, estos mismos par´ametros dan malos resultados en el segundo v´ıdeo. Se decidi´o por tanto analizar estas dos combinacio- nes de par´ametros: Figuras 17a y 17b respectivamente.
Como se puede observar, la detecci´on de landmarks no es muy precisa. Es cierto que algunos landmarks son identificados correctamente en todos los v´ıdeos como el Corridor (en morado) o el HallFront (en verde). Pese a esto, ninguno de los clasifi- cadores es fiable para el resto de landmarks.
31
(a)110 componentes principales y m´etrica Eucl´ıdea
(b) 50 componentes principales y m´etrica Mahalanobis
Fig. 17: An´alisis en din´amico de Eigenlandmarks
Con la t´ecnica Fisherlandmarks no hace falta realizar una b´usqueda del n´ume- ro m´as efectivo de componentes principales ya que este valor se queda fijado en 6 (node clases − 1). Para esta t´ecnica, tanto el mejor rendimiento medio entre los cuatro v´ıdeos como el rendimiento m´as alto se obtuvo con m´etrica Mahalanobis: 72.99 % y 82.60 % respectivamente. Este ´ultimo se alcanz´o en el an´alisis del V´ıdeo 2.
La Figura 18 muestra el reconocimiento en din´amico de los cuatro v´ıdeos usando la t´ecnica Fisherlandmarks, que ofrece unos resultados m´as inestables.
Fig. 18: An´alisis en din´amico de Fisherlandmarks con m´etrica Mahalanobis Aunque los resultados nos son malos, ninguna de las dos t´ecnicas (Eigenland- marks y Fisherlandmarks) parecen ser suficientemente buenas como para implemen- tar un reconocedor de landmarks fiable. Es por ello que se decidi´o probar una serie de t´ecnicas de preprocesado de imagen cuyos procedimientos y resultados se deta- llar´an y analizar´an a continuaci´on.
La primera alternativa que se prob´o fue convertir las im´agenes del dataset a iso- lum´ınicas [14], [15]. Esto consiste b´asicamente en pasar de un color con tres grados de libertad a uno con dos grados de libertad, asignando una intensidad fija e id´entica para todos los p´ıxeles de la imagen. En la Figura 19 se muestran un par de ejemplos de esta conversi´on.
Fig. 19: Transformaci´on de un par de im´agenes en isolum´ınicas
La mayor ventaja de esta t´ecnica consiste en que se reducen las variaciones origi- nadas por la iluminaci´on. Adem´as, ´unicamente se necesitan dos capas de colores de luz primarios de la imagen RGB para extraer toda la informaci´on de la imagen. Es decir, que si se conocen las capas R (red) y G (green) de la imagen, se puede deducir
33
la capa B (blue) ya que la suma de los tres valores RGB es id´entica para cada p´ıxel de la imagen. Por lo tanto, el vector rasterizado de una imagen isolum´ınica tendr´a el doble de longitud que el de una en escala de grises. El m´etodo de transforma- ci´on de imagen isolum´ınica en vector rasterizado utilizado en este proyecto viene representado visualmente en la Figura 20.
Fig. 20: Conversi´on de imagen isolum´ınica en vector rasterizado
En la Figura 21 se muestra el rendimiento de la t´ecnica Eigenlandmarks con el preprocesado isolum´ınico. En general, se observa un deterioro en los resultados con respecto a la t´ecnica Eigenlandmarks sin preprocesado. El rendimiento m´aximo me- dio entre los cuatro v´ıdeos fue de 72.88 %, con 90 componentes principales y m´etrica Eucl´ıdea. La m´etrica Mahalanobis ofrece resultados bastante peores en general, salvo en el V´ıdeo 4, donde mejora ligeramente los rendimientos de la Eucl´ıdea.
Fig. 21: Rendimientos η para distintos n´umeros de componentes principales en la t´ecnica Eigenlandmarks con im´agenes isolum´ınicas
El an´alisis en din´amico del clasificador con los par´ametros m´as eficaces (90 com- ponentes principales y m´etrica Eucl´ıdea) viene representado en la Figura 22. En comparaci´on con la t´ecnica Eigenlandmarks sin preprocesado (Figura 17), la preci- si´on del clasificador baja. Sin embargo, con esta t´ecnica las distancias al vecino m´as cercano tienen mayor desviaci´on t´ıpica, como se puede apreciar visualmente compa- rando los resultados de las dos t´ecnicas. Esto es un punto a favor del preprocesado isolum´ınico, ya que facilitar´ıa la obtenci´on de un umbral de confianza.
Fig. 22: An´alisis en din´amico de Eigenlandmarks con im´agenes isolum´ınicas, 90 com- ponentes principales y m´etrica Eucl´ıdea
Respecto a la t´ecnica Fisherlandmarks con preprocesado isolum´ınico, el mejor rendimiento medio se obtuvo con m´etrica Mahalanobis: 65.54 %. El rendimiento m´aximo, sin embargo, se dio con m´etrica Eucl´ıdea en el V´ıdeo 1: 73.91 %. Ambos rendimientos dejan mucho que desear. El an´alisis en din´amico de esta t´ecnica se incluye en la Figura 23.
35
(a)M´etrica Eucl´ıdea
(b) M´etrica Mahalanobis
Fig. 23: An´alisis en din´amico de Fisherlandmarks con preprocesado isolum´ınico Dado que algunos landmarks todav´ıa no se detectan correctamente, se decidi´o experimentar con otro preprocesado de imagen: Spatial Kernel Filtering, SKF (Al- goritmo 4).
Se ha incluido la Figura 24 como muestra ejemplar de lo que ser´ıa un preproce- sado SKF de dos im´agenes en blanco y negro.
Puesto que el preprocesado SKF tiene un par de par´ametros cuyo valor ´optimo es desconocido (el lado del kernelny el umbral predefinidoλ), se analizaron los resulta- dos combinando valores den en el rango [5,17] con valores deλ en el rango [10,100]. La Figura 25 recoge algunos de los mejores resultados obtenidos para cada caso. Se muestran ´unicamente las gr´aficas de los clasificadores K-NN con m´etrica Eucl´ıdea,
Algoritmo 4 Spatial Kernel Filtering
Dada una imagen, una vecindad espacialN(x, y) (e.g. un kernel de n×n) y umbral predefinido λ:
for cada p´ıxel I(i, j) de la imagen:
Calcular la mediaIm y el rango de intensidades (Imax−Imin) de los p´ıxeles per- tenecientes a la vecindad N.
if (Imax−Imin < λ) then
I(i, j) = Im
else then
I(i, j) = Imax−Imin
end if end for
Devolver la imagen con los p´ıxeles actualizados, la cual ser´a proyectada a un subespacio.
NOTA 1: El primer caso es una transformaci´on de filtro paso bajo y el segundo una transformaci´on de filtro paso alto.
NOTA 2: El tama˜no del kernel espacial N(x, y) y el umbral predefinido λ son par´ametros arbitrarios con los que hay que experimentar.
Fig. 24: Filtrado SKF de un par de im´agenes en escala de grises
ya que con m´etrica Mahalanobis los resultados fueron muy imprecisos. Adem´as, se muestran ´unicamente los resultados de un v´ıdeo (el V´ıdeo 3) como ejemplo, ya que los resultados en general fueron bastante malos.
Se puede apreciar en las Figuras 25b y 25c que loslandmarks Elevator (amarillo), HallBack (cian), HallFront (verde) y DoorClose (rojo) se detectan correctamente con la t´ecnica Eigenlandmarks. Sin embargo, fallan en la detecci´on deCorridor (vio- leta). Adem´as, las distancias al vecino m´as cercano son bastante grandes, por lo que ser´ıa muy dif´ıcil establecer un umbral de confianza en el que se pudiera afirmar que hay un landmark en el frame actual del v´ıdeo.
37
(a)n= 5,λ= 50
(b)n= 11,λ= 40
(c) n= 17, λ= 35
Fig. 25: An´alisis en din´amico de Eigenlandmarks y Fisherlandmarks con m´etrica Eucl´ıdea y preprocesado SKF
Si se observa la Figura 24, se puede ver c´omo se amplifica el efecto causado por la iluminaci´on. En el par de im´agenes de la derecha, por ejemplo, se puede apreciar c´omo el reflejo de una bombilla en el suelo aumenta el ´area tras la conversi´on SKF. Este efecto es claramente desfavorable para el reconocimiento de landmarks por lo que puede ser uno de los motivos por los que ofrece tan malos resultados.
Por lo tanto, al ser evidente que el preprocesado SKF no es un buen m´etodo para el prop´osito del proyecto, se descart´o incluirlo en el reconocedor din´amico y se procedi´o a experimentar con otra t´ecnica.
El siguiente m´etodo que se prob´o fue utilizar como vector a proyectar en un subespacio la concatenaci´on de los histogramas de cada canal de la imagen (rojo, verde y azul). Es decir, el vector que representa a cada imagen tiene una longitud de 768 (256×3).
La Figura 26 muestra la b´usqueda para Eigenlandmarks de un n´umero de compo- nentes ´optimo en funci´on del rendimiento (en porcentaje) y con m´etricas Eucl´ıdea y Mahalanobis. . Lo mismo se aplica a la Figura 27, que muestra el an´alisis en din´ami- co de los cuatro v´ıdeos con m´etrica Eucl´ıdea (ya que los resultados con distancia Mahalanobis son bastante peores y se decidi´o omitirlos).
Fig. 26: B´usqueda del n´umero ´optimo de componentes con el m´etodo de concatena- ci´on de los 3 histogramas
Si uno se fija detenidamente, la ´unica diferencia entre las Figuras 27a y 27b es que la distancia al vecino m´as cercano aumenta ligeramente como t´onica general cuando el n´umero de componentes asciende de 10 a 150. Exceptuando este cambio, la forma de la gr´afica para cada v´ıdeo apenas cambia, dato que cuadra con lo ob- servado en la Figura 26, donde se aprecia que el rendimiento con m´etrica Eucl´ıdea no var´ıa independientemente del n´umero de componentes principales.
39
(a)10 componentes principales
(b)150 componentes principales
Fig. 27: An´alisis en din´amico de Eigenlandmarks con el m´etodo de concatenaci´on de los 3 histogramas y m´etrica Eucl´ıdea
En el caso de Fisherlandmarks (Figura 28), los resultados son muy parecidos al Eigenlandmarks. Los rendimientos obtenidos para cada uno de los cuatro v´ıdeos con m´etrica Eucl´ıdea han sido: 87.68 %, 68.55 %, 62.44 % y 70.29 %. Aunque puedan parecer resultados aceptables, se puede observar que el clasificador falla sistem´atica- mente en la detecci´on de ciertoslandmarks, comoDoorClose (en rojo), por ejemplo. Sabiendo esto, no se puede considerar como admisible la efectividad del clasificador.
Fig. 28: An´alisis en din´amico de Fisherlandmarks con el m´etodo de concatenaci´on de los 3 histogramas y m´etrica Eucl´ıdea
41