Chapter 5 Multi Relational Data Analysis for Drug Repositioning
5.5 Results & Evaluation
5.5.5 Error Analysis with FP and FN Predictions on repoDB
El sistema de di´alogo en su primera versi´on (i.e. sistema Hifi-Av1) ha sido evaluado por un total de 15 locutores, todos ellos estudiantes de la E.T.S.I. de Telecomunicaci´on de la UPM [Fern´andez et al., 2008]. De los 15 locutores, 3 correspondieron a mujeres y 12 a hombres, todos ellos con edades comprendidas entre los 23 y los 28 a˜nos.
Estos participantes fueron oportunamente clasificados como “novatos” (7 locutores) o “expertos” (8 locutores) en el uso de sistemas basados en tecnolog´ıa del habla atendiendo a la respuesta obtenida para cada uno de ellos a la pregunta 1 del formulario (ver Tabla
7.7, i.e. “Valore su experiencia previa en el uso de sistemas de reconocimiento de habla.”). Cada locutor tuvo que superar un total de 10 escenarios recogi´endose de este modo un total de 150 escenarios de evaluaci´on.
La interacci´on usuario-sistema tuvo lugar en una sala de demostraciones perteneciente al Grupo de Tecnolog´ıa del Habla de la Universidad Polit´ecnica de Madrid. Dicha sala mide unos 3,9x4,4x3 metros, y presenta fuerte reverberaci´on (debido a paneles de cristal formando una de las paredes de la misma).
En ella, los usuarios fueron recibiendo sucesivamente la informaci´on correspondiente a los objetivos contemplados para cada escenario (i.e. cometido del escenario a modo de un conjunto de tareas requeridas).
Figura 7.13: Sala empleada durante la evaluaci´on del sistema.
Dicha sala (ver Figura7.13) fue especialmente preparada para la evaluaci´on y equipada con los siguientes elementos:
• El equipo HiFi que el locutor debe manejar interactuando con el sistema de di´alogo (ver Figura 6.1).
• 21 micr´ofonos para recolectar, durante la evaluaci´on de cada escenario, todo el audio que se haya producido en la sala desde diferentes lugares.
• 3 c´amaras de video para captar, durante la evaluaci´on de cada escenario, la imagen del locutor en la sala desde tres ´angulos diferentes.
• Una pantalla de televisi´on (ver Figura 7.14) en la que el usuario recibir´a la infor- maci´on relevante para ensayar cada escenario y cuyos altavoces permitir´an que el usuario pueda escuchar al operador (la persona que, desde fuera de la sala lleva a cabo la gesti´on del proceso de evaluaci´on, e.g. la carga de los escenarios a ensayar o
162 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo
el inicio de la ejecuci´on del sistema de di´alogo) y los diferentes mensajes que pueda sintetizar el sistema.
Adem´as el locutor estaba provisto de los siguientes elementos:
1. 2 micr´ofonos, uno de solapa y un “close-talk”. El audio recogido por el micr´ofono “close-talk” es el que el sistema de di´alogo emplear´a para llevar a cabo el proceso de reconocimiento. Sumados a los micr´ofonos de la sala, y al audio del equipo HiFi, hacen un total de 24 fuentes de audio.
2. Una pelota roja en la cabeza (situada con la mayor estabilidad y comodidad para el locutor que fue posible), cuya posici´on en los v´ıdeos grabados por las tres c´amaras utilizar´a el GTH en un futuro para labores de localizaci´on del hablante.
3. Una claqueta, cuyo oportuno accionamiento por parte del usuario justo antes de dar comienzo a un determinado escenario de evaluaci´on, permita sincronizar con mayor facilidad v´ıdeo y audio.
Figura 7.14: Pantalla con informaci´on para el locutor.
A continuaci´on describiremos con m´as detalle en qu´e consiste la evaluaci´on de un escenario:
1. El operador debe:
• Asegurarse de que los niveles de audio recogidos por los diferentes micr´ofonos son aceptables, en especial el del micr´ofono “close-talk”.
7.3 Primera evaluaci´on on-line: sistema Hifi-AV1 163
• Preparar los servidores de audio y v´ıdeo que controlan la grabaci´on desde las c´amaras y los micr´ofonos.
2. El proceso comienza con la preparaci´on a cargo del operador del sistema de di´alogo para el escenario en concreto cuya evaluaci´on se desea abordar. Una vez preparado el escenario, el usuario recibir´a informaci´on acerca del estado del que parte el equipo a trav´es de los altavoces, en forma de habla sintetizada.
3. Desde el momento en que culmina la preparaci´on del escenario y hasta la finalizaci´on de la evaluaci´on del mismo, el usuario podr´a observar en la pantalla de televisi´on una descripci´on acerca del escenario que ´este debe ensayar (ver Figura7.14). Un posible ejemplo de la informaci´on facilitada podr´ıa ser el siguiente:“Escenario veintiocho listo. El usuario debe seleccionar la radio como fuente del equipo, ponerla en modo est´ereo y seleccionar una determinada presinton´ıa. Primero espere luz roja para accionar la claqueta. Luego espere luz verde para comenzar a hablar.”
4. Previamente a la ejecuci´on del escenario, el locutor podr´a consultar al operador cuantas dudas le hayan surgido en cuanto al cometido del mismo. Una vez aclarada cualquier posible duda, el operador pasar´a a cerrar su micr´ofono para que no se pueda escuchar en la sala ning´un sonido del exterior.
5. El operador dar´a comienzo a los procesos de grabaci´on de v´ıdeo y audio, a la vez que provocar´a la aparici´on en pantalla de la se˜nal que advierte al usuario del necesario accionamiento de la claqueta (i.e. se˜nal en forma de c´ırculo en la Figura 7.14 se colorea en rojo).
6. Una vez que el operador se ha asegurado de que el sonido de la claqueta no interferir´a en el proceso de reconocimiento, provocar´a la aparici´on en pantalla de la se˜nal que advierte al locutor de que el proceso de evaluaci´on del escenario ha dado comienzo y que, por tanto, puede comenzar a interaccionar con el equipo con objeto de alcanzar el prop´osito contemplado para el mismo (i.e. se˜nal en forma de c´ırculo en la Figura
7.14 se colorea en verde).
7. Durante la interacci´on usuario-sistema, cuando el locutor quiera que el sistema le preste atenci´on deber´a pronunciar la frase“Atiende ahora.”. Por el contrario, para que el sistema deje de atenderle deber´a pronunciar la frase“descansa”. Este meca- nismo de activaci´on permitir´a al sistema distinguir los momentos en que el usuario se est´a dirigiendo al sistema de aquellos en los que no lo est´a haciendo. Durante un mismo escenario se pueden emplear tantas veces como el usuario considere oportu- nas, por ejemplo, si el locutor pretende decir algo al operador que no quiere que sea considerado por parte del sistema. Sin embargo, habitualmente se utilizar´an como comienzo y final de la interacci´on usuario-sistema.
8. El operador dar´a por finalizada la evaluaci´on del escenario cuando el locutor haya pronunciado “Descansa” y permanezca en silencio. Esa misma acci´on se utilizar´a para dar por finalizados los procesos de grabaci´on de audio y v´ıdeo.
9. Finalmente, el operador abrir´a de nuevo el micr´ofono para preguntar al usuario su valoraci´on acerca del grado de consecuci´on del escenario que acaba de ser ensayado.
164 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo