• No results found

Chapter 5 Multi Relational Data Analysis for Drug Repositioning

5.3 Methodologies

Para completar el subsistema de respuesta vocal, adem´as del generador de habla nece- sitamos hacer uso de un sintetizador de voz que realice la conversi´on texto a voz de los mensajes entregados por dicho generador. De esta forma es posible confirmar al usuario en todo momento las interpretaciones y acciones que realiza el sistema as´ı como tambi´en, en los casos que corresponda, solicitar al usuario una determinada informaci´on requeri- da por el m´odulo de gesti´on de di´alogo. En este caso decidimos la integraci´on y utili- zaci´on de una versi´on de evaluaci´on, ´util durante un tiempo limitado, del sintetizador de “Loquendo” empleando para ´este la voz disponible en castellano con nombre “Jorge” (www.loquendo.com).

Cap´ıtulo 7

Evaluaci´on del Sistema de Di´alogo

La evaluaci´on de sistemas de di´alogo es una tarea francamente complicada. A la ya cono- cida ausencia de est´andares en dicha materia dentro de la comunidad cient´ıfica, debemos a˜nadir la gran dificultad que supone encontrar figuras de m´erito o m´etricas de rendimien- to para las que exista un consenso m´as o menos generalizado en cuanto a su oportuna consideraci´on de cara a la evaluaci´on de cualquier sistema. Por otra parte, con demasiada frecuencia nos encontramos con m´etricas procedentes de sistemas de di´alogo empleados en aplicaciones y servicios del mundo real, cuya extrapolaci´on a otros sistemas resulta harto compleja por tratarse de m´etricas en extremo espec´ıficas y dependientes de dichos sistemas.

No obstante, y afortunadamente, la pr´actica mayor´ıa de la comunidad cient´ıfica apunta a la “usabilidad” [Turunen et al., 2006] [Schulz and Donker, 2006] [Walker et al., 2000] como la caracter´ıstica m´as importante de la que debe hacer gala un sistema de di´alogo, incluso por delante de otros aspectos ampliamente referenciados como la “naturalidad” o la “flexibilidad”. En ese sentido, tan importante resulta la evaluaci´on del rendimiento real del sistema como el modo en que dicho rendimiento te´orico es realmente percibido por los usuarios a los que va dirigido.

Durante el dise˜no de un sistema de di´alogo es preciso tener en cuenta que una peque˜na variaci´on en la especificaci´on del mismo puede afectar considerablemente a la percepci´on por parte del usuario acerca del comportamiento y la capacidad del sistema, provocando en ´ultima instancia una disminuci´on significativa del grado de satisfacci´on del usuario.

En no pocas ocasiones, los intentos por conseguir di´alogos mucho m´as naturales en los que la iniciativa de los mismos corresponde fundamentalmente a los usuarios devienen en desconcierto y descontento. Esta decepci´on por parte de los usuarios resulta razonable toda vez que ´estos no son capaces de completar las tareas requeridas. Por lo tanto, como a˜nadido a las m´etricas relacionadas con la calidad y eficiencia del di´alogo, resulta indispensable llevar a cabo tests de evaluaci´on subjetivos que permitan medir la capacidad del sistema en t´erminos de satisfacci´on de los usuarios. Como valor a˜nadido, dichos tests permiten a su vez obtener una valiosa realimentaci´on en relaci´on a las principales ventajas e inconvenientes del sistema evaluado.

La definici´on de las m´etricas relacionadas con la calidad y eficiencia del di´alogo debe incluir par´ametros tanto de todos los componentes o m´odulos que forman parte del sistema de di´alogo, como del funcionamiento global del sistema. Este punto es imprescindible para abordar la evaluaci´on de cada uno de los m´odulos por separado (evaluaci´on por

130 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo

componentes) y su repercusi´on sobre el funcionamiento global del sistema (evaluaci´on global como caja negra).

A menudo estas m´etricas tienen m´as sentido como comparaci´on entre estrategias al- ternativas (lo cual l´ogicamente ayuda mucho a tomar decisiones de dise˜no) que como evaluaci´on puntual y aislada de un sistema de di´alogo, para la que siempre es dif´ıcil determinar umbrales a partir de los cuales pudi´eramos definir que el sistema es aceptable. Muchas veces una buena estrategia de gesti´on de di´alogo es capaz de ocultar tasas relativamente pobres de los sistemas de reconocimiento o de comprensi´on del habla, as- pecto que no siempre es f´acil de mejorar y que a menudo resulta excesivamente costoso. Por este motivo, y m´as all´a de las evaluaciones independientes e individuales de cada uno de los m´odulos de la arquitectura, el mayor peso lo debemos derivar al comportamiento conjunto de los m´odulos que constituyen el sistema de di´alogo, es decir, a la estrategia global de gesti´on del di´alogo.

En definitiva, para el conjunto de soluciones de di´alogo propuestas con motivo de la presente Tesis doctoral se han contemplado dos procesos de evaluaci´on diferentes. La primera evaluaci´on propuesta responde al tipo de evaluaci´on por componentes mencionado anteriormente. En particular, esta evaluaci´on se dedicar´a en exclusiva al m´odulo de gesti´on de di´alogo basado en BNs y se llevar´a a cabo de un modo “off-line”, es decir, sin que tenga lugar una interacci´on real entre posibles usuarios y el sistema. En su lugar emplearemos una base de datos compuesta por un conjunto representativo de ejemplos de posibles frases (i.e. s´olo texto) formuladas por potenciales usuarios de dicho sistema.

Las BNs constituyen una soluci´on adecuada para la gesti´on de di´alogo basada en ini- ciativa mixta permitiendo una interacci´on m´as natural y flexible. En ese sentido, un buen rendimiento por parte del motor de inferencia en que est´a basado el gestor de di´alogo es de vital importancia para asegurar un buen comportamiento por parte del sistema. Por con- siguiente, trataremos de comprobar la eficacia de nuestro motor de inferencia en relaci´on a las dos tareas fundamentales de di´alogo: la identificaci´on de los diferentes objetivos de di´alogo a modo de interpretaci´on de la intenci´on del usuario dada una determinada inter- venci´on (i.e. Inferencia directa), y la clasificaci´on de los diferentes conceptos conforme a dicha interpretaci´on con objeto de definir el modo en que continuar el di´alogo (i.e. an´alisis de conceptos basado en la Inferencia inversa). Aprovecharemos adem´as esta evaluaci´on para comparar la soluci´on basada en m´ultiples BNs con la alternativa propuesta a partir de un ´unico modelo de BN global obtenido mediante un procedimiento de fusi´on.

En segundo lugar se contempla la evaluaci´on del sistema de di´alogo desarrollado al completo. En ese sentido evaluaremos el sistema completo como si de una caja negra se tratase, es decir, todo el sistema en su conjunto, poniendo de manifiesto las debilidades del mismo al interaccionar con los usuarios pero sin prestar demasiada atenci´on a c´omo est´a constituido internamente. Dichas debilidades podr´an resolverse a posteriori en los m´odulos m´as relacionados con ese comportamiento.

Esta evaluaci´on debe realizarse “on-line”, es decir, a partir de la interacci´on de usuarios reales con el prototipo seg´un un conjunto de escenarios predefinidos. En relaci´on a los factores que ser´an objeto de estudio por nuestra parte, se medir´an factores tanto objetivos como subjetivos. Como evaluaci´on objetiva prestaremos especial atenci´on al n´umero medio de turnos de di´alogo y su duraci´on para conseguir un objetivo. Igualmente, analizaremos el n´umero de consultas realizadas al usuario, o lo que es lo mismo, el n´umero de peticiones (o confirmaciones) de elementos de informaci´on (conceptos) necesarios para la inferencia

Related documents