• No results found

5.2 Augmented training for pixel level segmentation

5.2.4 Implement details and results

Los sistemas de gesti´on de di´alogo se construyen siguiendo diversas filosof´ıas [Griol et al., 2005]. En relaci´on a la organizaci´on o clasificaci´on de dichas filosof´ıas podemos encon- trar varias alternativas. As´ı, por ejemplo en [McTear, 2002] se definen tres estrategias o soluciones para la gesti´on del di´alogo distintas: sistemas de estados finitos, sistemas ba- sados en marcos, y sistemas basados en agentes. [Xu et al., 2002] en su lugar lleva a cabo una clasificaci´on basada en cuatro categor´ıas: DITI (modelo del di´alogo impl´ıcito, modelo de la tarea impl´ıcito) que corresponder´ıa por ejemplo a los modelos de estados finitos; DITE (modelo del di´alogo impl´ıcito, modelo de la tarea expl´ıcito) que corresponder´ıa a los modelos basados en marcos; DETI (modelo del di´alogo expl´ıcito, modelo de la tarea impl´ıcito), y DETE (modelo del di´alogo expl´ıcito, modelo de la tarea expl´ıcito). De cual- quier modo resulta dif´ıcil establecer una clasificaci´on universal ya que, normalmente, los distintos enfoques no son excluyentes y a menudo se utilizan de forma conjunta.

Recientemente, una de las taxonom´ıas m´as empleadas [Bui, 2006] permite clasificar los diferentes enfoques en las cuatro categor´ıas siguientes en un orden de menor a mayor complejidad:

• Sistemas de estados finitos y sistemas basados en marcos: los primeros

constituyen posiblemente la soluci´on de gesti´on de di´alogo m´as simple. B´asicamente consiste en modelar el di´alogo mediante un aut´omata de estados finitos. De este modo, la estructura del di´alogo se representa en forma de red de transiciones entre estados en la que los nodos representan las expresiones o preguntas del sistema (i.e. prompts) y las transiciones entre los nodos determinan todos los posibles caminos a trav´es de la red. Por lo tanto, el di´alogo se sigue como transiciones entre los distintos estados que lo describen.

En este enfoque, tanto el modelo de tarea como el de di´alogo est´an impl´ıcitos. El control del di´alogo corresponde en todo momento al sistema (i.e. iniciativa del siste- ma) y todos los mensajes del sistema est´an predeterminados. Esto exige una fuerte inversi´on temporal y econ´omica por parte de expertos que dise˜nan los contenidos y las transiciones entre los estados de di´alogo.

M´as detalles acerca de este enfoque pueden consultarse en [Cohen, 1997]. El sistema autom´atico de banca telef´onica de Nuance [McTear, 2002] constituye un buen ejem- plo de sistema que emplea este enfoque. La principal desventaja de esta soluci´on es que se trata de un enfoque carente de flexibilidad (e.g. los usuarios no pueden des- viarse de los caminos establecidos para cada estado), naturalidad, y aplicabilidad a otros dominios. Con objeto de superar esta falta de flexibilidad aparecen como extensi´on de los modelos basados en estados finitos los modelos basados en marcos. En este caso, en lugar de construir un di´alogo con arreglo a una secuencia predeter- minada de mensajes del sistema, se define el di´alogo como una tarea an´aloga a la de completar o rellenar un formulario, por medio de la cual un determinado conjun- to de informaci´on debe ser recuperado. El enfoque ofrece alg´un grado de iniciativa

2.3 Tipos de sistemas de gesti´on de di´alogo 21

mixta al permitir el relleno de m´ultiples slots requeridos (o campos del formulario seg´un la analog´ıa mencionada) sin necesidad de seguir un orden fijo o preestableci- do. El modelo de tarea est´a representado expl´ıcitamente y el modelo de di´alogo est´a (impl´ıcitamente) codificado a mano por un dise˜nador. Este modelo debe proporcio- nar el control del di´alogo necesario para, a partir de los contenidos de los marcos, determinar la pr´oxima acci´on a realizar por parte del sistema.

El sistema Communicator de la universidad Carnegie Mellon es un buen ejemplo de este enfoque [Constantinideset al., 1998], [Rudnickyet al., 1999], [Xu and Rudnicky, 2000], [Bohus and Rudnicky, 2003]. En [Bui and Rajman, 2004], los autores han desarrollado una metodolog´ıa de prototipado r´apido de di´alogo (RDPM) para este tipo de sistemas. La metodolog´ıa se puede descomponer en cinco etapas consecutivas:

1. producci´on del modelo de la tarea,

2. se deriva un primer modelo de interacci´on,

3. mediante la t´ecnica de Mago de Oz se recogen ejemplos de di´alogo que permitan posteriormente refinar el modelo de interacci´on inicial,

4. refinamiento del modelo de interacci´on, 5. y evaluaci´on del modelo final de interacci´on.

Varias extensiones de este enfoque son objeto de investigaci´on en [Bui et al., 2005] y [Cenek et al., 2005].

Adem´as de una mayor flexibilidad, los enfoques basados en marcos permiten au- mentar la eficacia y la naturalidad de los di´alogos en comparaci´on con los sistemas basados en estados finitos. Sin embargo, estos enfoques no resultan los m´as ade- cuados para modelar di´alogos de cierta complejidad, por ejemplo, en la mayor´ıa de los casos el aprovechamiento que se hace de la informaci´on contextual con el fin de determinar la siguiente acci´on a realizar por parte del sistema, resulta bastante limitado.

• Enfoques basados en la teor´ıa de los estados de la informaci´on (Informa-

tion state-based) y enfoques probabil´ısticos: suponen un nuevo esfuerzo en el

intento de superar las limitaciones existentes para los enfoques basados en marcos y aut´omatas de estados finitos. Seg´un la teor´ıa de los estados de la informaci´on el di´alogo consta de cinco componentes principales [Traum and Larsson, 2003]:

– Una descripci´on de los componentes de informaci´on (por ejemplo, los partici- pantes, un ´ambito en com´un, la estructura ling¨u´ıstica e intencional, obligaciones y compromisos, creencias, intenciones, modelos de usuario, etc.).

– Representaciones formales de los componentes mencionados (e.g. listas, conjun- tos, caracter´ısticas, registros, estructuras de representaci´on del discurso, pro- posiciones u operadores modales dentro de una l´ogica, etc).

– Un conjunto de movimientos de di´alogo que provocan la actualizaci´on de la informaci´on de estado.

– Un conjunto de reglas que gobiernan la actualizaci´on de la informaci´on de estado.

22 Cap´ıtulo 2. Encuadre cient´ıfico-tecnol´ogico

– Una estrategia que conforme a dicha informaci´on actualizada permite deci- dir qu´e regla(s) aplicar en un momento dado de entre un conjunto de reglas aplicables.

Las implementaciones m´as populares est´an basadas en Prolog, un lenguaje de pro- gramaci´on l´ogica [Larsson and Traum, 2000], [Larsson et al., 2000], [Hofs et al., 2003], [Johnston et al., 2002], [Traum and Rickel, 2002]. Sin embargo, una nueva ampliaci´on de este enfoque basado en la teor´ıa de los estados de la informaci´on est´a ganando fuerza ´ultimamente [Manch´onet al., 2007]. En particular, los nuevos enfo- ques se centran en un modelado probabil´ıstico de los di´alogos con el fin de permitir que el sistema aprenda autom´aticamente una estrategia de di´alogo ´optima. Gracias a este enfoque, es posible adaptar de forma din´amica la estrategia de di´alogo y las correspondientes acciones por parte del sistema mediante la optimizaci´on de un mo- delo de castigos y premios o coste-recompensa seg´un el estado actual [Scheffler and Young, 2002]. Este tipo de modelo ha sido implementado como un Proceso de Deci- si´on de Markov (PDM o MDP en ingl´es) [Levin and Pieraccini, 1997], [Levinet al., 2000], [Singhet al., 2002]), o como un Proceso de Decisi´on de Markov Parcialmente Observable (PDMPO o POMDP en ingl´es) [Roy et al., 2000], [Zhang et al., 2001], [Williams and Young, 2007].

Con el fin de obtener una estrategia de di´alogo ´optima es posible utilizar la t´ecnica de aprendizaje reforzado (o “reinforcement learning technique” en ingl´es). Las accio- nes del sistema se traducen en las preguntas y respuestas formuladas por ´este, y las recompensas son definidas por el dise˜nador (e.g. alta recompensa por la realizaci´on de tareas, bajo castigo por la petici´on de confirmaci´on y preguntas, y as´ı sucesiva- mente) [Royet al., 2000] [Zhanget al., 2001], o proporcionadas por el usuario al que se le puede pedir que eval´ue el sistema al final de cada di´alogo [Singh et al., 2002].

• Sistemas basados en planes: estos sistemas se basan en la teor´ıa de la acci´on co-

municativa y los planes de acci´on [Allen and Perrault, 1980], [Appelt, 1985], [Cohen and Levesque, 1990]. Esta teor´ıa afirma que los actos de di´alogo del hablante (i.e. el usuario) forman parte de un plan u objetivo global (i.e. nuestro principal motivo para la comunicaci´on es el logro o la consecuci´on de ciertos objetivos), y que es tarea del oyente (i.e. el sistema) identificar ese plan subyacente y ofrecer una respuesta adecuada (i.e. satisfaciendo dichos objetivos).

Estos enfoques basados en planes permiten modelar di´alogos de mayor compleji- dad que los enfoques presentados anteriormente. Las intervenciones del usuario que sirven de entrada al di´alogo son consideradas no s´olo como meras secuencias de palabras, sino tambi´en como un conjunto de actos de di´alogo [Searle, 1969] que es utilizado para lograr estos objetivos. Como ejemplo de sistemas basados en planes podemos destacar los desarrollados para: el proyecto Verbmobil [Churcher, 1997], y el proyecto SUNDIAL (Speech UNderstanding and DIALogue) [McGlashan et al., 1992] [Eckert and McGlashan, 1993], [Mcglashan, 1996].

Los enfoques basados en planes han sido objeto de cr´ıtica por razones tanto de ´ındole pr´actica como te´orica. Por ejemplo, los procesos de reconocimiento de planes resultan a menudo intratables desde el punto de vista matem´atico o estad´ıstico, llegando a comprometer seriamente la posible implementaci´on de los mismos. Estos enfoques adolecen tambi´en de la falta de una base te´orica s´olida. A menudo no existe una especificaci´on certera acerca de los planes, objetivos, etc., acerca de qu´e es lo

2.3 Tipos de sistemas de gesti´on de di´alogo 23

que debe hacer el sistema, por ejemplo, en t´erminos de los diferentes fen´omenos de di´alogo y las propiedades que este tipo de soluciones puede manejar.

Como una extensi´on de los enfoques basados en planes, aparecen los modelos de di´alogo orientados a tareas [Williams, 1996]. Este enfoque, basado en la teor´ıa de los juegos conversacionales [Kowtko et al., 1993], permite un modelado de di´alogo basado en iniciativa mixta mediante la combinaci´on de sistemas basados en planes y el empleo de gram´aticas de discurso. Un di´alogo orientado a la tarea consiste en una o m´as transacciones, cada una de las cuales representa una subtarea. Una transacci´on se compone de una serie de juegos conversacionales (e.g. aclaraci´on) que pueden a su vez insertarse dentro de otros juegos.

• Enfoques colaborativos basados en agentes: los enfoques de colaboraci´on o

colaborativos se basan en la asunci´on del di´alogo como un proceso de colaboraci´on entre agentes inteligentes. Ambos agentes est´an involucrados en un proceso de nego- ciaci´on encaminado a la consecuci´on de un entendimiento mutuo del di´alogo. Para la consecuci´on de dicho objetivo, ambos agentes (i.e. usuario y la m´aquina) deben trabajar conjuntamente. Como resultado de ese proceso de negociaci´on y de manera similar a como sucede en las conversaciones entre humanos, aparecen fen´omenos t´ıpicos del di´alogo como la confirmaci´on y la aclaraci´on.

A diferencia de las gram´aticas de discurso y los enfoques basados en planes, los cuales se concentran fundamentalmente en la estructura de la tarea, los enfoques colaborativos tratan de captar las motivaciones que subyacen en el di´alogo y los propios mecanismos de di´alogo. La principal ventaja de los enfoques colaborativos es que nos permiten hacer frente a di´alogos m´as complejos que planteen problemas de colaboraci´on o negociaci´on. Sin embargo, estos enfoques necesitan de un proce- samiento y unos recursos mucho m´as complejos que los basados en gram´aticas de discurso y/o planes.

T´ıpicamente, los sistemas basados en este enfoque hacen uso de un modelo de cola- boraci´on para establecer la informaci´on mutua (es decir, conocimiento compartido). As´ı, los agentes colaboran para construir un modelo de la conversaci´on y la in- formaci´on compartida a trav´es de un conjunto de actos de di´alogo dependientes e independientes de dominio [Novick and Ward, 1993] [Novick and Hansen, 1995]. El enfoque colaborativo es probablemente la soluci´on m´as adecuada para aplicaciones que impliquen problemas cuya soluci´on dependa de la cooperaci´on entre agentes. Ejemplos m´as recientes son [Marsic et al., 2000], [Rothkrantzet al., 2004], [Nguyen and Wobcke, 2005], [Guoray et al., 2005], [Blaylock and Allen, 2005].

Queda claro que hay una gran variedad de soluciones para la gesti´on de di´alogo, algu- nas de ellas incluso dif´ıcilmente clasificables en una ´unica categor´ıa de las anteriormente presentadas. Tal y como hemos destacado, cada una de ellas tiene sus propias ventajas e inconvenientes. Sin embargo, probablemente no exista una soluci´on universal, sobre todo teniendo en cuenta que es posible apuntar diferentes enfoques como los m´as adecuados dependiendo de la complejidad de la aplicaci´on espec´ıfica o el dominio en cuesti´on.

Algunas aplicaciones de inter´es pueden ser muy complejas y requieren de ciertas acti- vidades de colaboraci´on entre el humano y la m´aquina. La complejidad puede ser incluso mucho mayor en la medida en que el sistema sea multimodal o en que m´ultiples agentes tomen parte en la interacci´on.

24 Cap´ıtulo 2. Encuadre cient´ıfico-tecnol´ogico

En el contexto de la interacci´on hombre-m´aquina, el principal objetivo de la gesti´on del di´alogo es lograr el mayor grado de naturalidad posible a trav´es de la creaci´on de sistemas de di´alogo pr´acticos, ´utiles [Allen et al., 2001].

Con objeto de hacer realidad este objetivo, est´a apareciendo una nueva tendencia que, haciendo acopio de las principales ventajas de los enfoques probabil´ısticos y los enfoques basados en agentes, lleva a una m´as conveniente definici´on del di´alogo como la interacci´on con un sistema de inferencia. Dichos sistemas de inferencia pueden estar basados en Redes Bayesianas (Bayesian belief Networks, BNs) [Murphy, 2005], las cuales pueden utilizarse para identificar el acto de di´alogo y / o definir la estrategia de di´alogo [Waiet al., 2001], [Keizer, 2003]. Estos modelos permiten incorporar los principios de racionalidad y de cooperaci´on al di´alogo lo que permite que ´este sea muy pr´oximo al que puede tener lugar en las conversaciones entre humanos.

Las BNs son una elecci´on adecuada para un di´alogo de iniciativa mixta, que permita una mayor flexibilidad y naturalidad de la interacci´on. Esta soluci´on puede aplicarse en cualquier momento para determinar en primera instancia el (los) objetivo(s) de di´alogo m´as probable(s) conforme a la intenci´on del usuario. Esta interpretaci´on se realiza a partir de la informaci´on recogida por el sistema para la ´ultima intervenci´on del usuario y de forma congruente con el contexto del di´alogo. Posteriormente, con el fin de tomar una decisi´on correcta con respecto a c´omo debe continuar el di´alogo, es posible llevar a cabo un an´alisis de congruencia entre los objetivos identificados y la informaci´on disponible que permita decidir la mejor acci´on a realizar a continuaci´on [Menget al., 2003].

La investigaci´on sobre gesti´on de di´alogo independiente de dominio acaba de comenzar. Quedan pendientes m´ultiples cuestiones que a´un no se han estudiado cuidadosamente dentro del ´ambito de los sistemas multimodales (por ejemplo, lograr interpretar la entrada multimodal del usuario de forma coherente con el contexto de di´alogo, la medici´on del impacto de las diferentes modalidades o la satisfacci´on de los usuarios de esos sistemas).

Obviamente, hay bastante margen para mejorar la flexibilidad y la inteligencia de los sistemas comerciales disponibles en la actualidad. Adem´as, se necesita un mayor esfuerzo en materia de prototipado r´apido de sistemas de di´alogo. Otro reto importante para el futuro pr´oximo ser´a seguramente el de definir qu´e entendemos por una interacci´on robusta y eficiente en los sistemas de di´alogo, e identificar y enumerar criterios adecuados para su oportuna evaluaci´on.

Sin embargo, antes de que pueda ocurrir eso, m´as investigaci´on, debate y di´alogo sobre di´alogo [Jokinen et al., 2007] son necesarios.