3.4 Experiments for Face Images Using MLC
3.4.1 Facial Feature Extraction
Como es habitual cuando hacemos una evaluación con un caso particular, podemos pensar que como el algoritmo tiene un componente de azar, por eso nos dio bastante bien, para esa ejecución particular. Por eso aquí se muestra la misma comparación realizada en la sección anterior pero con todas las imágenes verde-azules del corpus GRE3D7. Para enriquecer esta parte mostraremos otros baselines, los cuales nos darán pistas de que las probabilidades de uso aprendidas con el método que presentamos en esta tesis son útiles para aproximar al ranking de ERs que aparece en corpora. Un baseline que se presenta ejecuta el algoritmo con una distribución aleatoria de probabilidades de uso. Llamamos uniforme a otro baseline, en el cual
Expresiones Referenciales Corpus Algoritmo Exactitud
#Cor %Cor #Alg %Alg %Acc
ball, green 91 65.00 6376 63.76 63.76
ball, green, small 23 16.43 3440 34.40 16.43
ball, green, small, ontop(blue, cube, large) 8 5.71 0 0.00 0.00
ball, green, ontop(blue, cube) 5 3.57 0 0.00 0.00
ball, green, ontop(blue, cube, large) 5 3.57 0 0.00 0.00
ball, green, small, ontop(blue, cube) 2 1.43 0 0.00 0.00
ball, ontop(cube) 1 0.71 27 0.27 0.27
ball, green, small, ontop(blue, cube, large, left) 1 0.71 0 0.00 0.00
ball, small, ontop(cube,large) 1 0.71 2 0.02 0.02
ball, green, top 1 0.71 0 0.00 0.00
ball, small, ontop(cube) 1 0.71 3 0.03 0.03
ball, green, ontop(cube) 1 0.71 0 0.00 0.00
ball, front, green 0 0.00 97 0.97 0.00
ball, front, green, small 0 0.00 13 0.13 0.00
ball, front, top 0 0.00 12 0.12 0.00
ball, green, left 0 0.00 11 0.11 0.00
ball, top 0 0.00 10 0.10 0.00
ball, green, left, small 0 0.00 5 0.05 0.00
ball, left, top 0 0.00 2 0.02 0.00
ball, small, top 0 0.00 1 0.01 0.00
ball, front, ontop(cube, left) 0 0.00 1 0.01 0.00
Total 140 100 10000 100 80.51
Tabla 5.2: ERs del corpus, y las producidas por nuestro algoritmo para la Figura 5.1. tomamos las ERs generadas por el sistema, las del corpus y las generadas con el modelo aleatorio les dimos la misma probabilidad de ocurrencia. Por ejemplo si eran 10 en total, y ejecutamos el algoritmo 100 veces, cada ER iba a aparecer 10 veces. En este baseline no ejecutamos el algoritmo. El Top baseline, es en el que el algoritmo usó las probabilidades de uso sacadas del corpus mismo.
puse de escena puse aprendidas puse random uniforme
Escena 1 85.75% 84.49% 17.95% 5.37% Escena 3 82.81% 80.51% 9.89% 4.40% Escena 6 90.11% 83.30% 4.13% 4.16% Escena 8 86.52% 64.06% 16.32% 9.75% Escena 10 89.49% 75.80% 7.56% 3.70% Escena 12 80.21% 81.29% 57.09% 6.68% Escena 13 89.98% 50.79% 9.30% 3.59% Escena 21 92.13% 80.01% 8.45% 6.77% Promedio 87.13% 75.03% 16.34% 5.55%
Tabla 5.3: exactitud entre las ERs del corpus y las generadas usando valores de puse calcu- lados desde la escena, aprendidos automáticamente, provenientes de distribuciones random y uniforme.
La primera columna muestra los valores obtenidos cuando corremos el algoritmo sobre la escena con los valores de puse obtenidos de la propia escena. Como se puede esperar, esta columna tiene el mayor promedio de exactitud.
La segunda columna muestra los resultados del algoritmo cuando se ejecuta con puse apren- dido de corpora como se explica en la Sección 4.2 del capítulo anterior. Este es el caso más
interesante porque muestra la capacidad de nuestra propuesta de generalizar a escenas no vistas con anterioridad y para las que no hay corpus. Para la mayoría de las escenas la exactitud es mayor al 80% y la exactitud promedio es 75%. La relativamente baja exactitud obtenida en la escena 13 se explica principalmente por las pobres estimaciones del valor de puse para las palabras large y small que son propiedades vagas y no absolutas ya que dependen de cuán grandes son los objetos en relación con los otros elementos del contexto.
En el corpus, las relaciones large y small se utilizan mucho más cuando el target no puede ser identificado usando sólo propiedades taxonómicas (ball y cube) y propiedades absolutas (green y blue), pero las características que hemos utilizado para el aprendizaje automático no capturan dichas dependencias como se discute en la Sección 4.2.1 del Capítulo 4. A pesar de esta limitación, el promedio de la segunda columna es 75%. Para una métrica como la de exactitud que es considerada demasiado estricta, estos resultados son buenos. Además, el 25% no cubierto por el algoritmo puede contener ERs igualmente buenas como vamos a mostrar en la Sección 5.3. Uno podría argumentar entonces que los valores de puse aprendidos a partir del corpus son lo suficientemente buenos para ser utilizados para generar ERs para nuevas escenas del dominio. Las dos últimas columnas pueden ser consideradas como baselines. En la primera generamos valores aleatorios parapuse y luego ejecutamos el algoritmo con esos valores de puse. La exactitud obtenida es en la mayoría de los casos pobre, pero con una variación notable debido al azar. Además estas ejecuciones toman mucho más tiempo en finalizar, lo que indica que se están realizando demasiadas particiones sin conseguir llegar a la meta. Esta observación de performance es consistente con los resultados de los experimentos de generación humana realizados por [Keysar et al., 1998] y discutidos en la Sección 2.1.2 del Capítulo 2. Keysar argumenta que, las personas usan la prominencia de las propiedades en el dominio como heurística para guiar la generación de ERs de forma de disminuir la carga cognitiva de tener que probar con todas las propiedades del dominio. Si la heurística es buena, en muchos casos no es necesario “revisar” la ER para que identifique unívocamente al target. Como efecto colateral de este proceso heurístico la ER resultante puede estar sobreespecificada, pero se genera rápidamente. Además de poca exactitud, cuando se utilizaron probabilidades random, muchas de las ERs generadas suenan poco naturales y son difíciles de realizar sin introducir ambigüedades como, por ejemplo, (pequeña cosa sobre el cubo azul que está abajo de algo que es pequeño). En la última columna se presenta la exactitud de una corrida artificial, le llamamos uniforme, uniforme tomando todas las ERs de las demás columnas y asignándoles la misma probabilidad. La uniforme consigue los peores resultados, ya que acumula ERs que no son del corpus, y las del corpus las tienen baja probabilidad. Para comparar nuestros resultados con los 3 baselines usamos también la entropía cruzada.
En teoría de la información, la entropía cruzadaentre dos distribuciones de probabilidad mide la media de bits necesarios para identificar un evento de un conjunto de posibilidades, si un esquema de codificación está basado en una distribución de probabilidad dada q, más que en la verdadera distribución p. Vamos a comparar la entropía cruzada entre la distribución de probabilidad que se encuentra en el corpus, y la distribución de ERs del corpus y las de ejecuciones del algoritmo con las probabilidades que acabamos de describir (ver [Jurafsky and Martin, 2008] para obtener detalles sobre evaluación de entropía cruzada). En la Figura ?? se muestran los resultados para las ocho escenas que hemos considerado.
Las entropías cruzadas de las dos primeras ejecuciones (escena y aprendizaje automático) son, en general, mucho más cercanas de la entropía del corpus, que las entropías cruzadas de random y uniforme. Sólo en la escena 12 random, por azar se acerca un poco más.
Figura 5.2: Entropía cruzada entre la distribución del corpus y diferentes baselines.