• No results found

Chapter 6 Conclusion and Future Work

6.2 Limitations and Future Work

Cada uno de los tres tipos de escenario definidos correla especialmente con un determinado tipo de iniciativa de di´alogo. En la medida en que el tipo de escenario permite una mayor libertad al usuario, no s´olo en cuanto al orden en que acometer los objetivos planteados por el escenario sino tambi´en en relaci´on al propio prop´osito o cometido del mismo, se favorece una mayor iniciativa por parte del usuario en defecto del sistema.

Experiencias como la presentada en [Raux et al., 2006] demuestran claramente que tanto el comportamiento del usuario como el rendimiento del sistema de di´alogo est´an fuertemente condicionados por el tipo de iniciativa de di´alogo.

166 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo

Los escenarios de tipo “b´asico” se ajustan en gran medida a un modelo de iniciativa del sistema mientras que los “avanzados” y “libres” encajan mejor con un esquema con una mayor iniciativa por parte del usuario (i.e. iniciativa mixta e iniciativa del usuario respectivamente). Una mayor iniciativa por parte del usuario puede suponer intervenciones mucho m´as abiertas que resulten m´as complicadas a efectos de su oportuno reconocimiento y de su consiguiente comprensi´on. Por lo tanto, presumiblemente, el funcionamiento del sistema podr´ıa resentirse ante un peor comportamiento de ambos m´odulos.

Histograma duración diálogos

0 10 20 30 40 50 60 70 80 00 - 04 05 - 09 10 - 14 15 - 19 20 - 24 >= 25 Nº Turnos N º E s c e n a ri o s

Figura 7.15: Evaluaci´on objetiva para el sistema Hifi-AV1: detalle de la longitud de los di´alogos resultante medida en n´umero de turnos.

Por el contrario, en lugar de empeorar, la mayor´ıa de las m´etricas apuntaron una notable mejor´ıa para los escenarios de tipo “libre” en relaci´on al resto. En ese sentido, conviene analizar en detalle los resultados obtenidos en cuanto a la longitud del di´alogo (la Figura 7.15 muestra un histograma de la duraci´on de los di´alogos medida en n´umero de turnos). Tal y como era de esperar, la duraci´on de los di´alogos aument´o en la medida en que se permiti´o una mayor iniciativa por parte del usuario (e.g. a partir de la Tabla7.8 en la p´agina164 puede comprobarse como la duraci´on media obtenida para los escenarios de tipo “libre” supera con creces a las obtenidas para los otros dos tipos y dobla a la global). Sin embargo, es importante aclarar que una mayor duraci´on no significa necesariamente un peor rendimiento o comportamiento por parte del sistema. De hecho, esa mayor duraci´on puede justificarse en gran medida por la manifiesta intenci´on por parte de los usuarios de, aprovechando la ausencia de prescripciones o restricciones propia de los escenarios “libres”, “explorar” la funcionalidad disponible en el sistema.

Para sostener la tesis acerca de que, al menos objetivamente, el rendimiento del sistema no s´olo no empeor´o, sino que adem´as mejor´o notablemente centraremos nuestra atenci´on en las m´etricas de “Coste por objetivo (turnos)” y “Peticiones del sistema ( %)”. En relaci´on a la m´etrica “coste por objetivo” es preciso destacar el hecho de haber

7.3 Primera evaluaci´on on-line: sistema Hifi-AV1 167

Rendimiento turno según tipo de usuario y de escenario

1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70

BASICOS AVANZADOS LIBRES TODOS

Tipo escenario N º a c c io n e s e je c u ta d a s / t u rn o

NOVATOS EXPERTOS TODOS

Figura 7.16:Evaluaci´on objetiva para el sistema Hifi-AV1: detalle del rendimiento de turno resultante para cada tipo de escenario.

obtenido en todos los casos valores por debajo de un turno (e.g. 0,66 turnos de media para el caso general). Estos resultados ponen de relieve el elevado rendimiento del di´alogo toda vez que, a partir de un ´unico turno, los usuarios son capaces de satisfacer casi dos objetivos de di´alogo o, desde otro punto de vista, que los usuarios pueden completar casi dos acciones o tareas determinadas a partir de un ´unico turno.

El mejor comportamiento para los escenarios “libres” se hace a´un m´as patente a trav´es de las “peticiones del sistema” las cuales se reducen a la mitad (i.e. 15,9 % frente a 30,7 % y 30,3 % respectivamente para “b´asicos” y “avanzados”) para un porcentaje de turnos contextuales similar (i.e. del orden del 50 %).

Para ambos resultados hay una doble explicaci´on. En primer lugar y a diferencia de los “b´asicos” y “avanzados”, los escenarios “libres” carecen de un prop´osito u objetivo concreto. La existencia de una misi´on concreta para los escenarios de tipo “b´asico” y “avanzado”, en cierto modo, obliga al usuario a tratar de superar o cumplir por todos los medios dicha misi´on. La vehemencia demostrada por los usuarios en ese sentido puede derivar en di´alo- gos m´as pobres, menos eficaces y fluidos, toda vez que alguno de los objetivos de di´alogo para los que el sistema est´e peor preparado sea objeto de negociaci´on. Naturalmente, la ausencia de un prop´osito o misi´on espec´ıficos permite al usuario evitar r´apidamente aque- llas situaciones en las que el sistema no se comporta todo lo bien que cabr´ıa esperar (e.g. cuando se intenta hacer uso de una funcionalidad que no est´a disponible).

En segundo lugar, pero no por ello menos importante, debemos hacer referencia al factor“experiencia”. La mayor o menor experiencia acumulada provoca que el usuario afronte los diferentes tipos de escenarios de dos formas bien distintas. En particular, durante los escenarios “b´asicos” y “avanzados” (i.e. fase inicial e intermedia del proceso de evaluaci´on) puede suceder que el usuario no tenga claro del todo c´omo conseguir los

168 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo

objetivos requeridos. Naturalmente, para encontrar soluci´on a dichos problemas, el usuario necesita de un proceso de continuo descubrimiento a trav´es de la propia interacci´on con el sistema. Dicho proceso requiere tiempo y en sus inicios da lugar a di´alogos menos fluidos y eficientes, tal y como puede deducirse de los resultados ligeramente peores obtenidos para estos tipos de escenario (ver Tabla7.8en p´agina164). Por el contrario, una vez superada la etapa de aprendizaje, y coincidiendo con la evaluaci´on de los escenarios “libres” (i.e. grado de experiencia alcanza el ´optimo), el usuario se encuentra en disposici´on de explotar la experiencia adquirida, por ejemplo reutilizando aquellas expresiones o formas de dirigirse al sistema que, en su momento, demostraran ser de utilidad. En el siguiente apartado profundizaremos en la importancia de la experiencia.

Tabla 7.9: Nivel de destreza o experiencia acumulada por los usuarios para cada uno de los tipos de escenarios evaluados.

Tipo de escenario

TODOS

B´asicos Avanzados Libres

N´umero escenarios por usuario 3 6 1 10

N´umero turnos por usuario 15,0 44,4 16,3 75,7

Experiencia acumulada al comienzo 0,0 % 19,8 % 78,4 % 100 %

Related documents