3. Distant Supervision
3.2. Survey of Noise Reduction Approaches
3.2.2. Connection to Predictive Redundancy Models
El primer resultado que debemos destacar es que casi todas las cuestiones incluidas en la encuesta han sido mejor valoradas por los usuarios “expertos” que por los “novatos” (ver Tabla7.10en p´agina172). En la misma l´ınea, el grado de satisfacci´on medio por escenario tambi´en ha resultado mayor para los primeros (ver Figura 7.17 en p´agina 171).
Cuestiones 2 y 3: Las puntuaciones obtenidas para las cuestiones 2 y 3 (3,73 y 3,67
sobre 5 respectivamente) pueden ser interpretadas como un signo del buen comporta- miento de los m´odulos de reconocimiento y comprensi´on respectivamente. La cobertura resultante, en general, puede ser considerada como “aceptable” aunque es evidente que cabe cierto margen de mejora en ese sentido.
Cuestiones 4, 5 y 6: La pregunta 6 est´a relacionada con la valoraci´on de los usuarios
de la respuesta facilitada por el sistema (i.e. realimentaci´on facilitada por el sistema acerca de lo que ´este ha hecho o est´a tratando de hacer en todo momento). En relaci´on a dicha respuesta es preciso destacar la importancia de generar unos mensajes lo suficientemente concisos y eficaces que aseguren su correcta asimilaci´on por parte de los usuarios. En ese sentido resulta imprescindible eliminar de los mismos toda informaci´on accesoria o poco relevante. La puntuaci´on obtenida para esta cuesti´on (3,73 sobre 5) refleja que, a pesar del esfuerzo de dise˜no invertido, los usuarios (especialmente los “novatos” con 3,57 sobre 5) encontraron los mensajes generados, sobre todo al comienzo de la evaluaci´on, un tanto largos y complejos teniendo dificultades para entender correctamente su contenido.
Esta percepci´on por parte de los usuarios se ve´ıa alterada ligeramente en la medida en que la evaluaci´on iba avanzando. Efectivamente, la realimentaci´on que necesitan los usuarios por parte del sistema es significativamente menor una vez ´estos se han familiari- zado con el sistema. De ese modo, la respuesta del sistema, fundamental en las primeras fases de la evaluaci´on, acababa resultando en su mayor parte innecesaria e inoportuna. Este resultado apunta claramente a la necesidad de incorporar al sistema la gesti´on de perfiles de usuario que permitan ajustar el comportamiento y la respuesta del sistema a los distintos niveles de destreza o experiencia de los mismos.
Por otra parte, esta puntuaci´on es bastante consistente con la obtenida para las cues- tiones 4 y 5. Efectivamente, una pobre asimilaci´on o entendimiento por parte de los usuarios de los prompts o mensajes facilitados por el sistema puede ser causante de una peor valoraci´on de la capacidad de comprensi´on y del comportamiento del sistema.
174 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo
Cuesti´on 7: En este caso, y a pesar de no penalizar significativamente la puntuaci´on
obtenida para esta cuesti´on, la mayor´ıa de los usuarios apunt´o como principal problema la no disponibilidad de “barge-in” (aspecto anteriormente presentado en el apartado 7.3.2.1) o la imposibilidad de interrumpir un turno de sistema para dar comienzo a uno nuevo de usuario.
Cuesti´on 8: En l´ıneas generales, podemos considerar que el grado de“satisfacci´on”
alcanzado por los usuarios en relaci´on al uso de un determinado sistema depende fun- damentalmente de las siguientes propiedades o caracter´ısticas:“usabilidad”y“funcio-
nalidad”, en la misma medida. En otras palabras, podr´ıamos concluir que la utilidad
percibida por los usuarios de dicho sistema depende de la capacidad del mismo para prestareficazmente servicios que resulten de inter´es a los usuarios.
La usabilidad de un sistema, y por extensi´on su utilidad, est´an estrechamente relacio- nadas con su sencillez de uso. Indudablemente, la mayor o menor facilidad de uso de un sistema condicionar´a su aceptaci´on por parte de los usuarios independientemente de la funcionalidad que ´este sea capaz de ofrecer.
Entre los diferentes factores que permiten facilitar la interacci´on con el sistema dando lugar a un di´alogo ´agil y eficaz podemos enumerar los siguientes:naturalidad, flexibili-
dad y robustez (ver Cap´ıtulo 3). Si el sistema no alcanza unos niveles razonables para
todos y cada uno de ellos, dif´ıcilmente gozar´a del benepl´acito de sus usuarios por muy potente que ´este sea.
Evaluar individualmente cada una de esas caracter´ısticas puede resultar una tarea complicada. La posibilidad de preguntar a los usuarios expl´ıcitamente acerca de tales cuestiones no parece del todo recomendable. En ese sentido los conceptos objeto de con- sulta resultar´ıan ciertamente complejos o de alto nivel por lo que debemos tener en cuenta la posibilidad de que no forme parte del com´un conocimiento de los encuestados. En su lugar, parece m´as adecuado preguntar a los mismos acerca de cuestiones m´as espec´ıficas o concretas que puedan resultarles m´as familiares o pr´oximas a su condici´on de usuarios. Como alternativa, podr´ıamos tratar de extrapolar a cada caracter´ıstica las puntua- ciones de aquellas cuestiones que fuesen oportunas. Sin embargo, esta otra posibilidad tampoco resultar´ıa sencilla. Por ejemplo, ser´ıa ciertamente discutible concluir que la na- turalidad del sistema sea directamente atribuible a un ´unico m´odulo en concreto. Del mismo modo, ´esta tampoco podr´ıa justificarse a partir de la calificaci´on obtenida para una ´unica cuesti´on de las incluidas en el cuestionario. Por el contrario, dicha caracter´ıstica de “alto nivel”, al igual que las otras dos, con seguridad descansa sobre el funcionamiento
conjunto de todos los m´odulos que componen el sistema. Es a partir de dicha sinergia
como el sistema consigue hacer realidad esas caracter´ısticas. Afortunadamente, y a di- ferencia de los pilares que la sustentan, esta sinergia s´ı que tiene una correspondencia inmediata con una de las cuestiones realizadas:“Valore la sencillez de uso del sistema”.
Tal y como hemos comentado anteriormente, uno de los requisitos imprescindibles para garantizar facilidad de uso para cualquier sistema es conseguir que la interacci´on con el mismo resulte lo m´as “natural” posible. En nuestro caso, el excelente grado de “naturalidad” alcanzado obedece principalmente a las siguientes razones:
• en primer lugar se trata de una “interfaz vocal”, es decir, el sistema que ha sido objeto de la evaluaci´on est´a basado en una interacci´on hablada, y en ese sentido
7.3 Primera evaluaci´on on-line: sistema Hifi-AV1 175
debemos recordar que elhablaes el medio comunicaci´on m´as natural para los seres humanos.
• en segundo lugar, al estar basada en lenguaje natural, los usuarios no necesitan memorizar ning´un vocabulario especial o listado de comandos espec´ıfico para poder interaccionar con el sistema. Por el contrario, los usuarios pueden sentirse con total libertad para usar cualquier expresi´on que consideren oportuna con el fin de realizar las acciones requeridas sobre el sistema bajo control.
El siguiente requisito en pos de la deseada sencillez pasa por construir el di´alogo con la mayor “flexibilidad” posible. La ausencia de reglas o restricciones que en modo alguno puedan limitar el di´alogo redunda en una mayor sencillez de uso, am´en de una mayor naturalidad. Gracias al tipo de gestor de di´alogo empleado por nuestro sistema, la libertad conferida al usuario en ese sentido es m´axima, tanto en la especificaci´on de los objetivos de di´alogo que reflejen su intenci´on en cada momento, como en la de la informaci´on facilitada para la consecuci´on de los mismos. La flexibilidad es tal que el usuario ni siquiera est´a obligado a consignar dicha informaci´on al completo pudiendo omitir, si as´ı lo desea, parte de la misma sin mayor problema.
Naturalmente, esto ´ultimo no ser´ıa posible sin la adecuada capacidad por parte del sistema para recuperar esa informaci´on omitida. En particular, el sistema consigue esa “robustez” gracias al aprovechamiento de la informaci´on contextual disponible. Esta “ro- bustez” es doble ya que, a la desambiguaci´on de informaci´on deliberadamente omitida por el usuario, debemos a˜nadir la recuperaci´on de informaci´on perdida o que se haya visto afectada por errores de cualquier ´ındole durante el di´alogo.
En resumen, la cuesti´on 8, en contra de lo que pueda parecer y a pesar de su f´acil y r´apida evaluaci´on a cargo de cualquier usuario, responde perfectamente a varios de los aspectos m´as relevantes de la respuesta del sistema, motivo por el cual adquiere una especial importancia obtener una valoraci´on positiva en esta categor´ıa. Es por ello que los resultados correspondientes a la misma, 4,40 sobre 5 siendo la mejor valorada por parte de los usuarios, pueden ser considerados como especialmente satisfactorios.
Por otra parte, tal y como mencionamos en el apartado correspondiente a la evaluaci´on objetiva, los usuarios no s´olo son capaces de establecer di´alogos productivos desde el principio de la interacci´on con el sistema sino que adem´as, como demuestra la evoluci´on de las m´etricas obtenidas autom´aticamente durante la evaluaci´on, son capaces de mejorar su calidad y eficacia r´apidamente. Este resultado viene a refrendar el ahora aqu´ı presentado.
Cuesti´on 9: Es en este punto, cuesti´on 9“Valore la funcionalidad disponible en el sis-
tema”, donde parece haber un mayor consenso entre tipos de usuarios. Ambos grupos, novatos y expertos, coinciden en otorgar una puntuaci´on de 3,81 puntos sobre 5. Como conclusi´on inmediata a la vista de dicho resultado podr´ıamos considerar que la funcionali- dad disponible, a´un siendo razonable, no satisface al completo las expectativas de control de los usuarios sobre un sistema Hifi. De dicha insatisfacci´on se hacen eco los comentarios y sugerencias recogidos con motivo de la presente encuesta.
No obstante, y hasta cierto punto, este resultado no ha sido motivo de sorpresa. Evi- dentemente, no podemos olvidar el tipo de equipo con el que estamos trabajando (ver descripci´on detallada en Cap´ıtulo6), el cual no s´olo cuenta ya con no pocos a˜nos de exis- tencia, sino que adem´as est´a siendo paulatina y progresivamente sustituido en los hogares
176 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo
por otros dispositivos m´as modernos. Indudablemente, hoy en d´ıa hay disponibles en el mercado equipos con caracter´ısticas y prestaciones que superan con creces a las del aqu´ı empleado (e.g. cargadores de CDs de mayor capacidad o soporte para pistas en formato MP3). De cualquier modo, a´un trat´andose de limitaciones importantes que afectan a la experiencia del usuario, es importante destacar que este tipo de limitaciones resultan in- herentes al propio equipo bajo control y que en ning´un caso pueden achacarse a la interfaz vocal que ha sido objeto de estudio y evaluaci´on en la presente Tesis doctoral.
Cuestiones 10, 11 y 12: Finalmente, la valoraci´on global del sistema (cuesti´on 10) es
de 4,0 puntos sobre 5. Al margen de resultar una evaluaci´on muy positiva, esta puntuaci´on correla bastante bien con el grado de satisfacci´on medio por escenario, 4,1 puntos sobre 5, tal y como puede comprobarse en la Figura7.17 (p´agina 171).
Si prestamos atenci´on a los resultados obtenidos para cada grupo de usuarios es pre- ciso destacar que la valoraci´on general realizada por los usuarios novatos, 3,86, es menor que la de los expertos, 4,13. Tal y como mencionamos anteriormente (apartado corres- pondiente a la cuesti´on 8), dicha valoraci´on responde al grado de satisfacci´on alcanzado por los usuarios, satisfacci´on que depende a su vez de la combinaci´on de la usabilidad y la funcionalidad proporcionadas por el sistema. Si nos ce˜nimos a dicho reparto, es posible concluir que la valoraci´on general realizada por los novatos refleja respectivamente:
• en primer lugar la peor valoraci´on que ´estos han realizado del sistema en t´erminos de usabilidad. Sirvan de ejemplo las peores puntuaciones resultantes bien en cuanto a sencillez de uso o bien en cualquiera de las cuestiones relacionadas con el rendimiento de alguno de los m´odulos en concreto del sistema (i.e. cuestiones de la 2 a la 7).
• y en segundo lugar el mayor peso que los novatos han otorgado a las carencias de funcionalidad detectadas.
A su vez, las respuestas a la pregunta 11,“¿Usar´ıa un sistema de este tipo en lugar del convencional?”, reflejan que ambos tipos de usuario muestran bastante predisposici´on en cuanto a usar el sistema evaluado en lugar del convencional, 3,93 puntos sobre 5. No obstante, los usuarios “novatos” mostraron una determinaci´on o inter´es ligeramente superior al de los “expertos”. Este resultado no deja de ser especialmente curioso ya que el grupo de usuarios que peor ha valorado el sistema en general es precisamente el que est´a m´as dispuesto a hacer uso del mismo. Esto es debido muy probablemente a un mejor conocimiento por parte de los usuarios “expertos” de las limitaciones reales del sistema. Por otra parte, ese mejor conocimiento tambi´en ata˜ne a la verdadera complejidad y calidad del sistema por lo que tampoco sorprende el hecho de que dichos usuarios realicen una valoraci´on m´as positiva del mismo.
La misma justificaci´on podr´ıa aplicarse al resultado obtenido para la cuesti´on 12,
“¿Ha respondido el prototipo a sus expectativas previas?”. As´ı, una menor experiencia en el uso de sistemas basados en tecnolog´ıa del habla puede llevar a los usuarios novatos a sobredimensionar sus expectativas previas al proceso de evaluaci´on acerca de lo que el sistema es capaz de hacer. Es de esperar, por tanto, que la visi´on inicial m´as consciente de los expertos se ajuste mejor a la realidad del sistema que la de los novatos. En definitiva, son posibles dos lecturas distintas en relaci´on al comportamiento del sistema esperado por ambos tipos de usuario. La valoraci´on correspondiente a los novatos (i.e. 4,00), a´un