Implement details and results - Augmented training for pixel level segmentation

5.2 Augmented training for pixel level segmentation

5.2.4 Implement details and results

Los sistemas de gestión de diálogo se construyen siguiendo diversas filosof´ıas [Griol et al., 2005]. En relación a la organización o clasificación de dichas filosof´ıas podemos encon- trar varias alternativas. As´ı, por ejemplo en [McTear, 2002] se definen tres estrategias o soluciones para la gestión del diálogo distintas: sistemas de estados finitos, sistemas basados en marcos, y sistemas basados en agentes. [Xu et al., 2002] en su lugar lleva a cabo una clasificación basada en cuatro categor´ıas: DITI (modelo del diálogo impl´ıcito, modelo de la tarea impl´ıcito) que corresponder´ıa por ejemplo a los modelos de estados finitos; DITE (modelo del diálogo impl´ıcito, modelo de la tarea expl´ıcito) que corresponder´ıa a los modelos basados en marcos; DETI (modelo del diálogo expl´ıcito, modelo de la tarea impl´ıcito), y DETE (modelo del diálogo expl´ıcito, modelo de la tarea expl´ıcito). De cualquier modo resulta dif´ıcil establecer una clasificación universal ya que, normalmente, los distintos enfoques no son excluyentes y a menudo se utilizan de forma conjunta.

Recientemente, una de las taxonom´ıas m´as empleadas [Bui, 2006] permite clasificar los diferentes enfoques en las cuatro categor´ıas siguientes en un orden de menor a mayor complejidad:

• Sistemas de estados finitos y sistemas basados en marcos: los primeros

constituyen posiblemente la solución de gestión de diálogo más simple. Básicamente consiste en modelar el diálogo mediante un autómata de estados finitos. De este modo, la estructura del diálogo se representa en forma de red de transiciones entre estados en la que los nodos representan las expresiones o preguntas del sistema (i.e. prompts) y las transiciones entre los nodos determinan todos los posibles caminos a través de la red. Por lo tanto, el diálogo se sigue como transiciones entre los distintos estados que lo describen.

En este enfoque, tanto el modelo de tarea como el de diálogo están impl´ıcitos. El control del diálogo corresponde en todo momento al sistema (i.e. iniciativa del sistema) y todos los mensajes del sistema están predeterminados. Esto exige una fuerte inversión temporal y económica por parte de expertos que diseñan los contenidos y las transiciones entre los estados de diálogo.

Más detalles acerca de este enfoque pueden consultarse en [Cohen, 1997]. El sistema automático de banca telefónica de Nuance [McTear, 2002] constituye un buen ejemplo de sistema que emplea este enfoque. La principal desventaja de esta solución es que se trata de un enfoque carente de flexibilidad (e.g. los usuarios no pueden des- viarse de los caminos establecidos para cada estado), naturalidad, y aplicabilidad a otros dominios. Con objeto de superar esta falta de flexibilidad aparecen como extensión de los modelos basados en estados finitos los modelos basados en marcos. En este caso, en lugar de construir un diálogo con arreglo a una secuencia predeter- minada de mensajes del sistema, se define el diálogo como una tarea análoga a la de completar o rellenar un formulario, por medio de la cual un determinado conjun- to de información debe ser recuperado. El enfoque ofrece algún grado de iniciativa

2.3 Tipos de sistemas de gesti´on de di´alogo 21

mixta al permitir el relleno de múltiples slots requeridos (o campos del formulario según la analog´ıa mencionada) sin necesidad de seguir un orden fijo o preestableci- do. El modelo de tarea está representado expl´ıcitamente y el modelo de diálogo está (impl´ıcitamente) codificado a mano por un diseñador. Este modelo debe proporcio- nar el control del diálogo necesario para, a partir de los contenidos de los marcos, determinar la próxima acción a realizar por parte del sistema.

El sistema Communicator de la universidad Carnegie Mellon es un buen ejemplo de este enfoque [Constantinideset al., 1998], [Rudnickyet al., 1999], [Xu and Rudnicky, 2000], [Bohus and Rudnicky, 2003]. En [Bui and Rajman, 2004], los autores han desarrollado una metodolog´ıa de prototipado r´apido de di´alogo (RDPM) para este tipo de sistemas. La metodolog´ıa se puede descomponer en cinco etapas consecutivas:

1. producci´on del modelo de la tarea,

2. se deriva un primer modelo de interacci´on,

3. mediante la técnica de Mago de Oz se recogen ejemplos de diálogo que permitan posteriormente refinar el modelo de interacción inicial,

4. refinamiento del modelo de interacción, 5. y evaluación del modelo final de interacción.

Varias extensiones de este enfoque son objeto de investigaci´on en [Bui et al., 2005] y [Cenek et al., 2005].

Además de una mayor flexibilidad, los enfoques basados en marcos permiten au- mentar la eficacia y la naturalidad de los diálogos en comparación con los sistemas basados en estados finitos. Sin embargo, estos enfoques no resultan los más adecuados para modelar diálogos de cierta complejidad, por ejemplo, en la mayor´ıa de los casos el aprovechamiento que se hace de la información contextual con el fin de determinar la siguiente acción a realizar por parte del sistema, resulta bastante limitado.

• Enfoques basados en la teor´ıa de los estados de la informaci´on (Informa-

tion state-based) y enfoques probabil´ısticos: suponen un nuevo esfuerzo en el

intento de superar las limitaciones existentes para los enfoques basados en marcos y autómatas de estados finitos. Según la teor´ıa de los estados de la información el diálogo consta de cinco componentes principales [Traum and Larsson, 2003]:

– Una descripción de los componentes de información (por ejemplo, los partici- pantes, un ámbito en común, la estructura lingü´ıstica e intencional, obligaciones y compromisos, creencias, intenciones, modelos de usuario, etc.).

– Representaciones formales de los componentes mencionados (e.g. listas, conjun- tos, caracter´ısticas, registros, estructuras de representaci´on del discurso, pro- posiciones u operadores modales dentro de una l´ogica, etc).

– Un conjunto de movimientos de diálogo que provocan la actualización de la información de estado.

– Un conjunto de reglas que gobiernan la actualizaci´on de la informaci´on de estado.

22 Cap´ıtulo 2. Encuadre cient´ıfico-tecnol´ogico

– Una estrategia que conforme a dicha informaci´on actualizada permite decidir qu´e regla(s) aplicar en un momento dado de entre un conjunto de reglas aplicables.

Las implementaciones más populares están basadas en Prolog, un lenguaje de pro- gramación lógica [Larsson and Traum, 2000], [Larsson et al., 2000], [Hofs et al., 2003], [Johnston et al., 2002], [Traum and Rickel, 2002]. Sin embargo, una nueva ampliación de este enfoque basado en la teor´ıa de los estados de la información está ganando fuerza últimamente [Manchónet al., 2007]. En particular, los nuevos enfoques se centran en un modelado probabil´ıstico de los diálogos con el fin de permitir que el sistema aprenda automáticamente una estrategia de diálogo óptima. Gracias a este enfoque, es posible adaptar de forma dinámica la estrategia de diálogo y las correspondientes acciones por parte del sistema mediante la optimización de un modelo de castigos y premios o coste-recompensa según el estado actual [Scheffler and Young, 2002]. Este tipo de modelo ha sido implementado como un Proceso de Deci- sión de Markov (PDM o MDP en inglés) [Levin and Pieraccini, 1997], [Levinet al., 2000], [Singhet al., 2002]), o como un Proceso de Decisión de Markov Parcialmente Observable (PDMPO o POMDP en inglés) [Roy et al., 2000], [Zhang et al., 2001], [Williams and Young, 2007].

Con el fin de obtener una estrategia de diálogo óptima es posible utilizar la técnica de aprendizaje reforzado (o “reinforcement learning technique” en inglés). Las acciones del sistema se traducen en las preguntas y respuestas formuladas por éste, y las recompensas son definidas por el diseñador (e.g. alta recompensa por la realización de tareas, bajo castigo por la petición de confirmación y preguntas, y as´ı sucesiva- mente) [Royet al., 2000] [Zhanget al., 2001], o proporcionadas por el usuario al que se le puede pedir que evalúe el sistema al final de cada diálogo [Singh et al., 2002].

• Sistemas basados en planes: estos sistemas se basan en la teor´ıa de la acci´on co-

municativa y los planes de acción [Allen and Perrault, 1980], [Appelt, 1985], [Cohen and Levesque, 1990]. Esta teor´ıa afirma que los actos de diálogo del hablante (i.e. el usuario) forman parte de un plan u objetivo global (i.e. nuestro principal motivo para la comunicación es el logro o la consecución de ciertos objetivos), y que es tarea del oyente (i.e. el sistema) identificar ese plan subyacente y ofrecer una respuesta adecuada (i.e. satisfaciendo dichos objetivos).

Estos enfoques basados en planes permiten modelar diálogos de mayor complejidad que los enfoques presentados anteriormente. Las intervenciones del usuario que sirven de entrada al diálogo son consideradas no sólo como meras secuencias de palabras, sino también como un conjunto de actos de diálogo [Searle, 1969] que es utilizado para lograr estos objetivos. Como ejemplo de sistemas basados en planes podemos destacar los desarrollados para: el proyecto Verbmobil [Churcher, 1997], y el proyecto SUNDIAL (Speech UNderstanding and DIALogue) [McGlashan et al., 1992] [Eckert and McGlashan, 1993], [Mcglashan, 1996].

Los enfoques basados en planes han sido objeto de cr´ıtica por razones tanto de ´ındole práctica como teórica. Por ejemplo, los procesos de reconocimiento de planes resultan a menudo intratables desde el punto de vista matemático o estad´ıstico, llegando a comprometer seriamente la posible implementación de los mismos. Estos enfoques adolecen también de la falta de una base teórica sólida. A menudo no existe una especificación certera acerca de los planes, objetivos, etc., acerca de qué es lo

2.3 Tipos de sistemas de gesti´on de di´alogo 23

que debe hacer el sistema, por ejemplo, en términos de los diferentes fenómenos de diálogo y las propiedades que este tipo de soluciones puede manejar.

Como una extensión de los enfoques basados en planes, aparecen los modelos de diálogo orientados a tareas [Williams, 1996]. Este enfoque, basado en la teor´ıa de los juegos conversacionales [Kowtko et al., 1993], permite un modelado de diálogo basado en iniciativa mixta mediante la combinación de sistemas basados en planes y el empleo de gramáticas de discurso. Un diálogo orientado a la tarea consiste en una o más transacciones, cada una de las cuales representa una subtarea. Una transacción se compone de una serie de juegos conversacionales (e.g. aclaración) que pueden a su vez insertarse dentro de otros juegos.

• Enfoques colaborativos basados en agentes: los enfoques de colaboraci´on o

colaborativos se basan en la asunción del diálogo como un proceso de colaboración entre agentes inteligentes. Ambos agentes están involucrados en un proceso de nego- ciación encaminado a la consecución de un entendimiento mutuo del diálogo. Para la consecución de dicho objetivo, ambos agentes (i.e. usuario y la máquina) deben trabajar conjuntamente. Como resultado de ese proceso de negociación y de manera similar a como sucede en las conversaciones entre humanos, aparecen fenómenos t´ıpicos del diálogo como la confirmación y la aclaración.

A diferencia de las gramáticas de discurso y los enfoques basados en planes, los cuales se concentran fundamentalmente en la estructura de la tarea, los enfoques colaborativos tratan de captar las motivaciones que subyacen en el diálogo y los propios mecanismos de diálogo. La principal ventaja de los enfoques colaborativos es que nos permiten hacer frente a diálogos más complejos que planteen problemas de colaboración o negociación. Sin embargo, estos enfoques necesitan de un proce- samiento y unos recursos mucho más complejos que los basados en gramáticas de discurso y/o planes.

T´ıpicamente, los sistemas basados en este enfoque hacen uso de un modelo de cola- boración para establecer la información mutua (es decir, conocimiento compartido). As´ı, los agentes colaboran para construir un modelo de la conversación y la in- formación compartida a través de un conjunto de actos de diálogo dependientes e independientes de dominio [Novick and Ward, 1993] [Novick and Hansen, 1995]. El enfoque colaborativo es probablemente la solución más adecuada para aplicaciones que impliquen problemas cuya solución dependa de la cooperación entre agentes. Ejemplos más recientes son [Marsic et al., 2000], [Rothkrantzet al., 2004], [Nguyen and Wobcke, 2005], [Guoray et al., 2005], [Blaylock and Allen, 2005].

Queda claro que hay una gran variedad de soluciones para la gestión de diálogo, algunas de ellas incluso dif´ıcilmente clasificables en una única categor´ıa de las anteriormente presentadas. Tal y como hemos destacado, cada una de ellas tiene sus propias ventajas e inconvenientes. Sin embargo, probablemente no exista una solución universal, sobre todo teniendo en cuenta que es posible apuntar diferentes enfoques como los más adecuados dependiendo de la complejidad de la aplicación espec´ıfica o el dominio en cuestión.

Algunas aplicaciones de interés pueden ser muy complejas y requieren de ciertas acti- vidades de colaboración entre el humano y la máquina. La complejidad puede ser incluso mucho mayor en la medida en que el sistema sea multimodal o en que múltiples agentes tomen parte en la interacción.

24 Cap´ıtulo 2. Encuadre cient´ıfico-tecnol´ogico

En el contexto de la interacción hombre-máquina, el principal objetivo de la gestión del diálogo es lograr el mayor grado de naturalidad posible a través de la creación de sistemas de diálogo prácticos, útiles [Allen et al., 2001].

Con objeto de hacer realidad este objetivo, está apareciendo una nueva tendencia que, haciendo acopio de las principales ventajas de los enfoques probabil´ısticos y los enfoques basados en agentes, lleva a una más conveniente definición del diálogo como la interacción con un sistema de inferencia. Dichos sistemas de inferencia pueden estar basados en Redes Bayesianas (Bayesian belief Networks, BNs) [Murphy, 2005], las cuales pueden utilizarse para identificar el acto de diálogo y / o definir la estrategia de diálogo [Waiet al., 2001], [Keizer, 2003]. Estos modelos permiten incorporar los principios de racionalidad y de cooperación al diálogo lo que permite que éste sea muy próximo al que puede tener lugar en las conversaciones entre humanos.

Las BNs son una elección adecuada para un diálogo de iniciativa mixta, que permita una mayor flexibilidad y naturalidad de la interacción. Esta solución puede aplicarse en cualquier momento para determinar en primera instancia el (los) objetivo(s) de diálogo más probable(s) conforme a la intención del usuario. Esta interpretación se realiza a partir de la información recogida por el sistema para la última intervención del usuario y de forma congruente con el contexto del diálogo. Posteriormente, con el fin de tomar una decisión correcta con respecto a cómo debe continuar el diálogo, es posible llevar a cabo un análisis de congruencia entre los objetivos identificados y la información disponible que permita decidir la mejor acción a realizar a continuación [Menget al., 2003].

La investigación sobre gestión de diálogo independiente de dominio acaba de comenzar. Quedan pendientes múltiples cuestiones que aún no se han estudiado cuidadosamente dentro del ámbito de los sistemas multimodales (por ejemplo, lograr interpretar la entrada multimodal del usuario de forma coherente con el contexto de diálogo, la medición del impacto de las diferentes modalidades o la satisfacción de los usuarios de esos sistemas).

Obviamente, hay bastante margen para mejorar la flexibilidad y la inteligencia de los sistemas comerciales disponibles en la actualidad. Además, se necesita un mayor esfuerzo en materia de prototipado rápido de sistemas de diálogo. Otro reto importante para el futuro próximo será seguramente el de definir qué entendemos por una interacción robusta y eficiente en los sistemas de diálogo, e identificar y enumerar criterios adecuados para su oportuna evaluación.

Sin embargo, antes de que pueda ocurrir eso, más investigación, debate y diálogo sobre diálogo [Jokinen et al., 2007] son necesarios.

In document Computational Models for Automated Histopathological Assessment of Colorectal Liver Metastasis Progression (Page 142-147)