5.3 Conditional CycleGAN for virtual restaining
5.3.2 Dataset and implementation
Las BNs han sido utilizadas con anterioridad en comprensi´on de lenguaje natural [Meng
et al., 1999b]. La comprensi´on del lenguaje natural para un dominio de aplicaci´on deter- minado consiste en la extracci´on de un conjunto de conceptos espec´ıficos del dominio a partir de la frase pronunciada por el usuario. Es a partir de estos conceptos extra´ıdos por el parser como se infiere el objetivo de la intervenci´on realizada por el usuario.
2.6 Modelado y gesti´on de di´alogo a partir de las BNs 31
Los conceptos son aquellos elementos de informaci´on que tienen alguna relevancia para la aplicaci´on. Un objetivo de informaci´on o “goal” es el servicio o la informaci´on requerida por el usuario. Consideraremos que un determinado dominio de aplicaci´on restringido est´a comprendido por un conjunto finito de M conceptos y un conjunto finito de N objetivos de informaci´on.
En la Figura 2.2 puede apreciarse el detalle de la topolog´ıa propuesta para cada una de las BNs a partir de las cuales se puede llevar a cabo la inferencia de los objetivos de di´alogo. Esta topolog´ıa b´asica o estructura predefinida para cada BN asume ciertas limitaciones:
• modela ´unica y exclusivamente las relaciones de dependencia causales existentes entre el objetivo y los conceptos.
• no contempla relaciones de dependencia directa o expl´ıcita entre diferentes conceptos (i.e. arco en la topolog´ıa que une directamente dos nodos correspondientes a sendos conceptos).
El resultado de cada clasificaci´on define la correspondencia o no del objetivo en cuesti´on conforme a la intenci´on del usuario.
Figura 2.2:Topolog´ıa b´asica de una BN.
Como evoluci´on de la topolog´ıa b´asica y con objeto de rebajar el coste computacional del proceso de inferencia asociado a dicha topolog´ıa, normalmente se simplifica el modelo de BN inicial [Meng et al., 1999a] incluyendo s´olo aquellos conceptos que resultan m´as relevantes para la identificaci´on de los diferentes objetivos. Los conceptos contenidos en esa selecci´on son los que conforman las entradas a nuestra BN. Para llevar a cabo dicha selecci´on es posible realizar un estudio de ganancia de informaci´on para cada uno de los objetivos y conceptos definidos en nuestro dominio de aplicaci´on. Concretamente, para cada objetivo, se calcula la ganancia de informaci´on que aporta cada uno de los distintos conceptos a efectos de identificaci´on de dicho objetivo qued´andonos con un subconjunto de los mismos compuesto s´olo por aquellos de mayor ganancia. Esos conceptos se consideran los m´as representativos del objetivo en cuesti´on y son los que constituyen las entradas de su BN correspondiente. Tal y como tendremos oportunidad de analizar en detalle m´as adelante, la mayor o menor ganancia de informaci´on calculada para cada posible par compuesto por un determinado objetivo de di´alogo y un cierto concepto constituir´ıa una alternativa ´util como criterio de decisi´on en relaci´on a la mejor pregunta a realizar al
32 Cap´ıtulo 2. Encuadre cient´ıfico-tecnol´ogico
usuario en cada momento del di´alogo (i.e. qu´e concepto es el que m´as interesa preguntar teniendo en cuenta el(los) objetivo(s) identificado(s) por la(s) BN(s)).
En lo que a modelado de di´alogo respecta, podemos asumir que tanto los objetivos como los conceptos son todos de tipo binario. De esta forma, teniendo en cuenta su car´acter binario, un concepto Cj es verdadero, es observado con valor 1 (y por tanto
supone una evidenciaCj = 1), si ´este est´a contenido en la intervenci´on (frase) del usuario
(o como veremos, si est´a almacenada en la historia de di´alogo). Una posible soluci´on al problema NLU (Natural Language Understanding) anterior consiste en formularlo como la toma de N decisiones binarias con N BNs [Meng et al., 2003], una por cada objetivo de informaci´on.
La BN para el objetivo Gi tomar´a como entrada un conjunto de conceptos E (e.g.
E ={C1 = 0, C2 = 1, . . . , CM = 1}para un total de M conceptos definidos como entrada
a la BN) extra´ıdos de la intervenci´on del usuario y que componen el marco de eviden- cias. La BN, mediante el procedimiento “Forward Inference” o de“Inferencia directa”
(en adelante ID), facilitar´a la probabilidad a posteriori P(Gi = 1|E) a partir de la que,
mediante la comparaci´on con un cierto umbral, se tomar´a la decisi´on binaria. Considera- remos que el objetivo Gi est´a“presente”(o simplemente “activo”) cuando P(Gi = 1|E)
sea mayor que el umbral θ (t´ıpicamente 0,5), de lo contrario el objetivo estar´a“ausen- te” (i.e. “inactivo”). Este procedimiento nos permitir´a identificar los distintos tipos de intervenciones:
• Denominaremos“intervenciones fuera de dominio”(OOD, Out Of Domain) a aquellas para las que todas las BNs ofrezcan un resultado negativo respecto a la existencia de sus respectivos objetivos, es decir, aquellas para las que el objetivo de informaci´on requerido no se encuentra entre los contemplados dentro de nuestro dominio de aplicaci´on.
• Por otra parte, llamaremos intervenciones“multi-objetivo”o simplemente frases con m´ultiples objetivos a aquellas en las que varias BNs ofrezcan un resultado posi- tivo respecto a la existencia de sus objetivos correspondientes. No obstante, siempre podemos forzar la selecci´on de un ´unico objetivo (una ´unica BN) aplicando una regla maximum a posteriori.
Para poder realizar un modelado de di´alogo basado en iniciativa mixta es preciso in- troducir el procedimiento “Backward Inference” o de“Inferencia inversa”(en adelante II). La idea principal es permitir detectar de forma autom´atica qu´e conceptos son nece- sarios, err´oneos o espurios (opcionales) en relaci´on al objetivo inferido. La utilidad de la misma permitir´ıa, por ejemplo, dirigir el modelo de di´alogo de iniciativa mixta mediante la ejecuci´on de prompts solicitando los ´ıtems que sean precisos, aclarando los err´oneos y obviando los espurios.
Para ello una posible soluci´on consistir´ıa en, una vez que hemos inferido el objetivoGi
para una determinada frase, asignar al nodo objetivoGi el valor 1 con objeto de estimar
la fiabilidad de cada uno de los conceptos de entrada. De este modo, el resultado de la Inferencia Directa pasar´ıa a formar parte de un nuevo marco de evidencias a partir del cual realizar el nuevo proceso de inferencia en sentido inverso con objeto de estimar las probabilidades a posteriori P(Cj = 1|E∗) para cada uno de los conceptos de entrada Cj
2.6 Modelado y gesti´on de di´alogo a partir de las BNs 33
En este caso, para el tipo de dependencias consignadas en el ejemplo presentado en la Figura2.2de la p´agina31(i.e. “concepto→objetivo”),E∗ es el resultado de a˜nadir aE la evidencia correspondiente al objetivo inferido (e.g.Gi = 1) y de restar la evidencia corres- pondiente al concepto que sea objeto del c´alculo (e.g.E∗ ={Gi = 1, C2 = 1, . . . , CM = 1}
para el c´alculo de P(C1 = 1|E∗)). En caso de haber contemplado dependencias de tipo “objetivo → concepto”, E∗ se ver´ıa reducido a la evidencia correspondiente al objetivo inferido (e.g. E∗ = {Gi = 1}) toda vez que condicionar a una causa com´un (i.e. la ob-
servaci´on del objetivo), hace que los correspondientes efectos sean independientes (i.e. la observaci´on de los diferentes conceptos) [Pearl, 1988].
Este ejemplo pone de manifiesto importantes diferencias entre ambos tipos de modelo de BN en relaci´on al c´alculo de la inferencia probabil´ıstica (i.e. el c´alculo deP(Cj = 1|E∗) para un determinado concepto Cj, s´olo se ver´a afectado por las evidencias correspondien-
tes al resto de conceptos incluidos en la BN en caso de considerar dependencias de tipo “concepto→ objetivo”). No obstante, es preciso destacar que las relaciones de dependen- cia entre objetivos y conceptos podr´an ser consignadas en uno u otro sentido, es decir, contemplaremos dependencias bien de tipo “objetivo→concepto” o bien de tipo “concep- to → objetivo” (ejemplo presentado en la Figura 2.2 de la p´agina 31) dependiendo de la entrenabilidad y el coste computacional de los modelos resultantes. Los detalles corres- pondientes a la estimaci´on del coste que nos permitir´a decidir entre ambos modelos ser´an debidamente presentados en el Cap´ıtulo 7.
A partir del valor calculado para esas probabilidades (i.e. P(Cj = 1|E∗)) y el estado
actual u observaci´on de los diferentes conceptos de entrada en la frase podr´ıamos llevar a cabo el an´alisis que nos permitiese determinar la condici´on correspondiente a cada uno de dichos conceptos. Una forma sencilla de llevar a cabo el an´alisis consistir´ıa en la toma de una decisi´on binaria mediante la comparaci´on de la probabilidad estimada con un determinado umbral, de forma an´aloga a como hacemos en el caso de la Inferencia Directa en relaci´on a la condici´on del objetivo de di´alogo. El resultado de la decisi´on, en este caso si el concepto Cj debe estar presente (en el caso que P(Cj = 1|E∗) > θ) considerando
por simplicidad el mismo umbral empleado durante la ID) o no (en caso contrario), puede compararse con el estado actual de Cj en la frase. Gracias a esta comparaci´on, y como
podemos comprobar en la Tabla2.2(p´agina34), podr´ıamos determinar el tipo de concepto de que se trata y en consecuencia la acci´on a llevar a cabo si procede acci´on alguna.
Si por ejemplo la comparaci´on indica queCj debe estar presente pero no se encuentra
en la frase, consideraremos que se trata de un concepto “perdido” y el modelo de di´alogo invocar´a un acto solicitando Cj. Si por el contrario la comparaci´on indica que Cj debe
estar ausente pero realmente est´a presente en la intervenci´on procesada podr´ıamos elegir entre dos posibles alternativas, bien se considera el concepto como “err´oneo” y entonces el modelo de di´alogo debe comenzar un acto de aclaraci´on, o bien se considera el concepto como espurio y entonces el modelo de di´alogo lo obvia.
34 Cap´ıtulo 2. Encuadre cient´ıfico-tecnol´ogico
Tabla 2.2: An´alisis de congruencia basado en comparaci´on con un umbral.
Resultado de la decisi´on Cj innecesario (P(Cj = 1|E∗)< θ) Cj necesario (P(Cj = 1|E∗)≥θ) Evidencias Cj ausente (Cj = 0) Cj innecesario y ausente, ¡OK!
(Sin acci´on)
Cj necesario pero ausente, ¡perdido! (Solicitar Cj) Cj presente (Cj = 1) Cj innecesario aunque presente, ¡err´oneo! (Aclarar o ignorarCj) Cj necesario y presente, ¡OK! (Validar Cj)
Cap´ıtulo 3
Objetivos
Como ya se coment´o en apartados anteriores, el objetivo global de la tesis es la aplicaci´on de las Redes Bayesianas al modelado y gesti´on de di´alogo. En ese sentido es preciso desta- car que el dise˜no de un sistema de di´alogo debe prestar especial atenci´on a los siguientes aspectos: naturalidad, flexibilidad y robustez. Todos ellos condicionan la percepci´on del sistema por parte de los usuarios as´ı como el grado de satisfacci´on o de aceptaci´on alcan- zado por ´estos en relaci´on a su potencial uso. Por consiguiente, debemos hacer de dichos aspectos nuestros propios objetivos e incoporarlos al dise˜no de las diferentes soluciones de di´alogo que han sido objeto de estudio en la presente Tesis.
3.1
Naturalidad
Las personas est´an acostumbradas a hablar entre ellas. En ese sentido, el habla es el me- dio de comunicaci´on m´as natural de que disponen. Indirectamente, esto provoca que los umbrales de aceptaci´on por parte de los usuarios para con los interfaces vocales sean sensi- blemente altos. Desgraciadamente, hablar con una m´aquina sigue siendo, por el momento, un proceso que adolece de la suficiente naturalidad.
Hoy en d´ıa resulta f´acil encontrar ejemplos de aplicaciones basadas en interfaces vocales bastante simples en los que la interacci´on con los mismos est´a limitada a un vocabulario o conjunto de comandos espec´ıfico. Con este tipo de interfaces resulta imposible establecer cualquier tipo de di´alogo o negociaci´on en relaci´on a un determinado objetivo. A pesar de no contar con la capacidad necesaria para procesar frases m´ınimamente complejas, estos interfaces pueden llegar a ser ´utiles, e incluso a gozar de cierta aceptaci´on para ciertos dominios, pero bajo ning´un concepto pueden llegar a considerarse “naturales”.
Para que la interacci´on entre el usuario y el sistema de di´alogo est´e ciertamente pr´oxima a la naturalidad, este ´ultimo debe realmente tratar de ayudar al usuario a conseguir aquellos objetivos de di´alogo en los que est´a interesado. Dicha ayuda se torna imposible si prescindimos de la necesaria negociaci´on con el usuario en relaci´on a las acciones que llevar a cabo y al modo en que al usuario le gustar´ıa que ´estas se realizasen.
Por otra parte, un sistema de di´alogo debe ser f´acil de usar, de tal modo que cualquier persona deber´ıa ser capaz de conseguir que el sistema llevase a cabo una cierta acci´on empleando para ello lenguaje natural y sin ning´un tipo de conocimiento previo acerca de
36 Cap´ıtulo 3. Objetivos
las caracter´ısticas o peculiaridades del sistema. El hecho de que la interacci´on usuario- sistema est´e basada en el empleo de lenguaje natural, redundar´a en un mayor grado de satisfacci´on por parte de los usuarios
Un sistema de di´alogo tampoco deber´ıa ser el t´ıpico sistema basado en tediosos y largos men´us del estilo de:“Por favor, diga su nombre”,“Por favor, diga su c´odigo postal”,“Por favor, ahora diga su cuenta”,“Por favor, diga el tipo de servicio en que est´a interesado: transferencias, ingresos, consulta de saldo, tipos de cambio”,. . . etc.
Un sistema de di´alogo debe permitir un di´alogo lo m´as rico y abierto posible. El sistema debe ser capaz de responder a cuestiones complejas (e.g. el usuario puede facilitar m´as informaci´on de la estrictamente necesaria para poder satisfacer los objetivos de di´alogo requeridos, o peor a´un, podr´ıa facilitar menos) y adem´as, ayudar o guiar al usuario hacia la consecuci´on de los objetivos de di´alogo en los que est´e interesado eliminando, en la medida de lo posible, la necesidad de que el usuario tenga que conocer al detalle la forma en la que debe formular su deseo u orden. El gestor de di´alogo debe conducir el di´alogo de forma eficiente, minimizando el n´umero de preguntas o consultas que hacer al usuario, a la hora de asistirle en la consecuci´on de sus objetivos.