Methodologies - Multi Relational Data Analysis for Drug Repositioning

Chapter 5 Multi Relational Data Analysis for Drug Repositioning

5.3 Methodologies

Para completar el subsistema de respuesta vocal, además del generador de habla nece- sitamos hacer uso de un sintetizador de voz que realice la conversión texto a voz de los mensajes entregados por dicho generador. De esta forma es posible confirmar al usuario en todo momento las interpretaciones y acciones que realiza el sistema as´ı como también, en los casos que corresponda, solicitar al usuario una determinada información requeri- da por el módulo de gestión de diálogo. En este caso decidimos la integración y utili- zación de una versión de evaluación, útil durante un tiempo limitado, del sintetizador de “Loquendo” empleando para éste la voz disponible en castellano con nombre “Jorge” (www.loquendo.com).

Cap´ıtulo 7

Evaluaci´on del Sistema de Di´alogo

La evaluación de sistemas de diálogo es una tarea francamente complicada. A la ya cono- cida ausencia de estándares en dicha materia dentro de la comunidad cient´ıfica, debemos añadir la gran dificultad que supone encontrar figuras de mérito o métricas de rendimien- to para las que exista un consenso más o menos generalizado en cuanto a su oportuna consideración de cara a la evaluación de cualquier sistema. Por otra parte, con demasiada frecuencia nos encontramos con métricas procedentes de sistemas de diálogo empleados en aplicaciones y servicios del mundo real, cuya extrapolación a otros sistemas resulta harto compleja por tratarse de métricas en extremo espec´ıficas y dependientes de dichos sistemas.

No obstante, y afortunadamente, la práctica mayor´ıa de la comunidad cient´ıfica apunta a la “usabilidad” [Turunen et al., 2006] [Schulz and Donker, 2006] [Walker et al., 2000] como la caracter´ıstica más importante de la que debe hacer gala un sistema de diálogo, incluso por delante de otros aspectos ampliamente referenciados como la “naturalidad” o la “flexibilidad”. En ese sentido, tan importante resulta la evaluación del rendimiento real del sistema como el modo en que dicho rendimiento teórico es realmente percibido por los usuarios a los que va dirigido.

Durante el diseño de un sistema de diálogo es preciso tener en cuenta que una pequeña variación en la especificación del mismo puede afectar considerablemente a la percepción por parte del usuario acerca del comportamiento y la capacidad del sistema, provocando en última instancia una disminución significativa del grado de satisfacción del usuario.

En no pocas ocasiones, los intentos por conseguir diálogos mucho más naturales en los que la iniciativa de los mismos corresponde fundamentalmente a los usuarios devienen en desconcierto y descontento. Esta decepción por parte de los usuarios resulta razonable toda vez que éstos no son capaces de completar las tareas requeridas. Por lo tanto, como añadido a las métricas relacionadas con la calidad y eficiencia del diálogo, resulta indispensable llevar a cabo tests de evaluación subjetivos que permitan medir la capacidad del sistema en términos de satisfacción de los usuarios. Como valor añadido, dichos tests permiten a su vez obtener una valiosa realimentación en relación a las principales ventajas e inconvenientes del sistema evaluado.

La definición de las métricas relacionadas con la calidad y eficiencia del diálogo debe incluir parámetros tanto de todos los componentes o módulos que forman parte del sistema de diálogo, como del funcionamiento global del sistema. Este punto es imprescindible para abordar la evaluación de cada uno de los módulos por separado (evaluación por

130 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo

componentes) y su repercusi´on sobre el funcionamiento global del sistema (evaluaci´on global como caja negra).

A menudo estas métricas tienen más sentido como comparación entre estrategias al- ternativas (lo cual lógicamente ayuda mucho a tomar decisiones de diseño) que como evaluación puntual y aislada de un sistema de diálogo, para la que siempre es dif´ıcil determinar umbrales a partir de los cuales pudiéramos definir que el sistema es aceptable. Muchas veces una buena estrategia de gestión de diálogo es capaz de ocultar tasas relativamente pobres de los sistemas de reconocimiento o de comprensión del habla, as- pecto que no siempre es fácil de mejorar y que a menudo resulta excesivamente costoso. Por este motivo, y más allá de las evaluaciones independientes e individuales de cada uno de los módulos de la arquitectura, el mayor peso lo debemos derivar al comportamiento conjunto de los módulos que constituyen el sistema de diálogo, es decir, a la estrategia global de gestión del diálogo.

En definitiva, para el conjunto de soluciones de diálogo propuestas con motivo de la presente Tesis doctoral se han contemplado dos procesos de evaluación diferentes. La primera evaluación propuesta responde al tipo de evaluación por componentes mencionado anteriormente. En particular, esta evaluación se dedicará en exclusiva al módulo de gestión de diálogo basado en BNs y se llevará a cabo de un modo “off-line”, es decir, sin que tenga lugar una interacción real entre posibles usuarios y el sistema. En su lugar emplearemos una base de datos compuesta por un conjunto representativo de ejemplos de posibles frases (i.e. sólo texto) formuladas por potenciales usuarios de dicho sistema.

Las BNs constituyen una solución adecuada para la gestión de diálogo basada en iniciativa mixta permitiendo una interacción más natural y flexible. En ese sentido, un buen rendimiento por parte del motor de inferencia en que está basado el gestor de diálogo es de vital importancia para asegurar un buen comportamiento por parte del sistema. Por con- siguiente, trataremos de comprobar la eficacia de nuestro motor de inferencia en relación a las dos tareas fundamentales de diálogo: la identificación de los diferentes objetivos de diálogo a modo de interpretación de la intención del usuario dada una determinada inter- vención (i.e. Inferencia directa), y la clasificación de los diferentes conceptos conforme a dicha interpretación con objeto de definir el modo en que continuar el diálogo (i.e. análisis de conceptos basado en la Inferencia inversa). Aprovecharemos además esta evaluación para comparar la solución basada en múltiples BNs con la alternativa propuesta a partir de un único modelo de BN global obtenido mediante un procedimiento de fusión.

En segundo lugar se contempla la evaluación del sistema de diálogo desarrollado al completo. En ese sentido evaluaremos el sistema completo como si de una caja negra se tratase, es decir, todo el sistema en su conjunto, poniendo de manifiesto las debilidades del mismo al interaccionar con los usuarios pero sin prestar demasiada atención a cómo está constituido internamente. Dichas debilidades podrán resolverse a posteriori en los módulos más relacionados con ese comportamiento.

Esta evaluación debe realizarse “on-line”, es decir, a partir de la interacción de usuarios reales con el prototipo según un conjunto de escenarios predefinidos. En relación a los factores que serán objeto de estudio por nuestra parte, se medirán factores tanto objetivos como subjetivos. Como evaluación objetiva prestaremos especial atención al número medio de turnos de diálogo y su duración para conseguir un objetivo. Igualmente, analizaremos el número de consultas realizadas al usuario, o lo que es lo mismo, el número de peticiones (o confirmaciones) de elementos de información (conceptos) necesarios para la inferencia

In document Relation Prediction over Biomedical Knowledge Bases for Drug Repositioning (Page 68-73)