1.5 Aims and objectives
1.5.3 Methods
Como se puede observar en el procedimiento, la automatizaci ´on no es completa. A ´un existen fases en las que el humano debe realizar acciones. Sin embargo, se propone la automatizaci ´on de actividades que suelen consumir una gran cantidad de tiempo, estas son: hacer una imagen de entrenamiento, construir una base de im ´agenes, y utilizar s ´olo una imagen por ciclo de entrenamiento.
necesario utilizar alg ´un programa de edici ´on de im ´agenes para crear una figura de color blanco sobre un fondo negro, y que esta figura cubra todos los pixeles que pertenecen al objeto de inter ´es. El procedimiento presentado en este trabajo permite automatizar este proceso; sin embargo, tambi ´en tiene su limitante: la calidad de la figura. La figura que cubre al objeto, de hecho, es suficientemente exacta. El problema radica en otros dos puntos: el ruido en la imagen, y las sombras.
El ruido en una imagen se representa como peque ˜nos cambios aleatorios en las inten- sidades de color en cada uno de los componentes del RGB. Dependiendo de la calidad de la c ´amara, la intensidad y el tipo de iluminaci ´on, este ruido puede tener la fuerza sufi- ciente como para que un programa de sustracci ´on de fondo llegue a clasificarlo como un objeto nuevo en la escena. Por supuesto, con el debido cuidado en la iluminaci ´on de la escena y una serie de filtros, el ruido puede ser minimizado lo suficiente como para que no genere pixeles blancos sobre otra cosa que no sea el objeto.
El otro problema son las sombras generadas por el nuevo objeto. Una sombra repre- senta un cambio de intensidad mucho m ´as fuerte que el ruido ambiental. Sortear este problema ya no es tan evidente. Sin embargo, ya existen varios algoritmos dise ˜nados para detectar sombras. Para este trabajo de investigaci ´on, el algoritmo de sustracci ´on de fondo implementado es muy sencillo, y por tanto, las sombras s´ı representan un problema, pues son detectadas como objetos nuevos. Sin embargo, es s ´olo un problema temporal, pues no hay mas que implementar alguno de los algoritmos que ya resuelven este tipo de situaciones. A ´un en el estado actual del programa, con la debida iluminaci ´on, una sombra representa una parte muy peque ˜na de la figura, y dada la naturaleza de la GP, las solu- ciones generadas buscar ´an cubrir el objeto como prioridad, ya que su aptitud depende de ello.
La automatizaci ´on de la construcci ´on de una base de im ´agenes es una mejora directa de automatizar la creaci ´on de una imagen de entrenamiento. Este tipo de bases no son mas que un grupo organizado de im ´agenes con su respectiva imagen de entrenamiento. Editar cientos o miles de im ´agenes para crear estas bases es una actividad que requiere de mucho tiempo y esfuerzo, y puede resultar una tarea abrumadora para aquellos que no tienen experiencia en la edici ´on de im ´agenes. Entonces, un algoritmo que ayude a
editar y organizar de forma autom ´atica estos archivos resulta de gran ayuda, y agiliza el proceso para implementar nuevas bases de im ´agenes.
Por supuesto, el m ´etodo tambi ´en tiene sus limitantes. Todas las bases de im ´agenes creadas as´ı necesitan una imagen de fondo. Esto implica que si se requiere hacer un cambio de ´angulo, de acercamiento, de iluminaci ´on, etc., es necesario tomar una nueva imagen de fondo. A pesar de ello, la velocidad con la que se pueden crear nuevas bases de im ´agenes permite incluir todos estos cambios de manera r ´apida y sencilla. Tambi ´en, probar nuevas ideas que necesiten objetos locales, o que no se encuentren en las bases de im ´agenes p ´ublicas, es mucho m ´as r ´apido. Esto es una ventaja considerable, a ´un si las im ´agenes autom ´aticas tienen algunos defectos.
Finalmente, con el aprendizaje en vivo se explora la capacidad y el comportamiento de algoritmos que simulan una parte del funcionamiento de la corteza visual. Sus ventajas y limitaciones son exploradas en los cap´ıtulos restantes.
En el presente cap´ıtulo se detallan los algoritmos que se siguieron para automatizar casi por completo el proceso de aprendizaje. A ´un existen muchas otras formas e ideas para lograr la automatizaci ´on completa de esta etapa, lo cual es un objetivo importante a seguir, debido a la inclusi ´on de los sistemas inteligentes y de rob ´otica en la vida diaria del ser humano. Se expone como mayor ventaja, la velocidad de implementaci ´on de nue- vas bases de im ´agenes para entrenamiento, mientras que sus limitaciones pueden ser sorteadas con la implementaci ´on de algoritmos m ´as robustos de sustracci ´on de fondo.
En el Cap´ıtulo 8 se presentan los resultados obtenidos para las propuestas de este tra- bajo de tesis, compar ´andose con los resultados del sistema predecesor bajo las mismas condiciones de uso.
Cap´ıtulo 8.
Experimentos y resultados
8.1. Experimentos realizados
En el trabajo de tesis se produjeron dos algoritmos: FOA-LDA y FOA-HDA. Para poder tener un punto de comparaci ´on y observar los cambios en los resultados de los nuevos sistemas, tambi ´en se realizaron ejecuciones con la versi ´on original: ADS/FOA. Los tres algoritmos se corrieron en dos formas de entrenamiento: con bases de im ´agenes, y en vivo. As´ı pues, se realizaron las siguientes ejecuciones:
Tabla 1: Lista de Experimentos.
Experimento Aprendizaje Ejecuciones RGB D KFold
En vivo 5 30 0 No FOA Base de Im ´agenes 30 84 0 70/14 En vivo 5 30 30 No FOA-LDA Base de Im ´agenes 30 84 84 70/14 En vivo 5 30 30 No FOA-HDA Base de Im ´agenes 30 84 84 70/14
Para los experimentos en vivo, se decidi ´o realizar 5 ejecuciones para cada algoritmo. Esto se debe a que, a diferencia de un experimento con bases de im ´agenes, el aprendiza- je en vivo necesita una c ´amara en el momento de ejecuci ´on. Por ello, no es posible correr m ´as de una ejecuci ´on a la vez. Si se quisieran correr m ´as ejecuciones, se necesitar´ıa m ´as c ´amaras, y otras computadores en donde correr estas ejecuciones.
Para los experimentos con bases de im ´agenes, se decidi ´o correr una validaci ´on cruza- da, o K-Fold (Ver Ap ´endice C). Para esto se usaron 84 pares de im ´agenes (Color/Profundidad), repartidas en seis grupos, construyendo finalmente seis combinaciones distintas de 70 pares de im ´agenes de entrenamiento y 14 pares de im ´agenes de prueba. Se realizaron cinco ejecuciones por combinaci ´on. Se debe notar que para los experimentos de FOA, no se usaron las im ´agenes de profundidad.
Los experimentos fueron realizados en dos modelos de computadoras:
Una laptop LenovoR G40-70 de arquitectura x86-64, procesador Intel R CoreTM i3-
4005U 1.70 GHz, 4 GB de RAM, tarjeta gr ´afica IntelR HD Graphics 4400. Sistema
Cuatro estaciones de trabajo de modelo Dell Precision T7600 de arquitectura x86- 64, procesador IntelR Xeon R E5-2609 2.40 GHz de 8 n ´ucleos, 8 GB de memoria
RAM, tarjeta gr ´afica NVIDIAR GF100GL QuadroR 4000. Sistema operativo Linux
openSUSE 13.1
Todas las computadoras trabajaron con MATLABR R2011b.