Connection to Predictive Redundancy Models

3. Distant Supervision

3.2. Survey of Noise Reduction Approaches

3.2.2. Connection to Predictive Redundancy Models

El primer resultado que debemos destacar es que casi todas las cuestiones incluidas en la encuesta han sido mejor valoradas por los usuarios “expertos” que por los “novatos” (ver Tabla7.10en página172). En la misma l´ınea, el grado de satisfacción medio por escenario también ha resultado mayor para los primeros (ver Figura 7.17 en página 171).

Cuestiones 2 y 3: Las puntuaciones obtenidas para las cuestiones 2 y 3 (3,73 y 3,67

sobre 5 respectivamente) pueden ser interpretadas como un signo del buen comportamiento de los m´odulos de reconocimiento y comprensi´on respectivamente. La cobertura resultante, en general, puede ser considerada como “aceptable” aunque es evidente que cabe cierto margen de mejora en ese sentido.

Cuestiones 4, 5 y 6: La pregunta 6 est´a relacionada con la valoraci´on de los usuarios

de la respuesta facilitada por el sistema (i.e. realimentación facilitada por el sistema acerca de lo que éste ha hecho o está tratando de hacer en todo momento). En relación a dicha respuesta es preciso destacar la importancia de generar unos mensajes lo suficientemente concisos y eficaces que aseguren su correcta asimilación por parte de los usuarios. En ese sentido resulta imprescindible eliminar de los mismos toda información accesoria o poco relevante. La puntuación obtenida para esta cuestión (3,73 sobre 5) refleja que, a pesar del esfuerzo de diseño invertido, los usuarios (especialmente los “novatos” con 3,57 sobre 5) encontraron los mensajes generados, sobre todo al comienzo de la evaluación, un tanto largos y complejos teniendo dificultades para entender correctamente su contenido.

Esta percepción por parte de los usuarios se ve´ıa alterada ligeramente en la medida en que la evaluación iba avanzando. Efectivamente, la realimentación que necesitan los usuarios por parte del sistema es significativamente menor una vez éstos se han familiari- zado con el sistema. De ese modo, la respuesta del sistema, fundamental en las primeras fases de la evaluación, acababa resultando en su mayor parte innecesaria e inoportuna. Este resultado apunta claramente a la necesidad de incorporar al sistema la gestión de perfiles de usuario que permitan ajustar el comportamiento y la respuesta del sistema a los distintos niveles de destreza o experiencia de los mismos.

Por otra parte, esta puntuación es bastante consistente con la obtenida para las cuestiones 4 y 5. Efectivamente, una pobre asimilación o entendimiento por parte de los usuarios de los prompts o mensajes facilitados por el sistema puede ser causante de una peor valoración de la capacidad de comprensión y del comportamiento del sistema.

174 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo

Cuesti´on 7: En este caso, y a pesar de no penalizar significativamente la puntuaci´on

obtenida para esta cuesti´on, la mayor´ıa de los usuarios apunt´o como principal problema la no disponibilidad de “barge-in” (aspecto anteriormente presentado en el apartado 7.3.2.1) o la imposibilidad de interrumpir un turno de sistema para dar comienzo a uno nuevo de usuario.

Cuesti´on 8: En l´ıneas generales, podemos considerar que el grado de“satisfacci´on”

alcanzado por los usuarios en relaci´on al uso de un determinado sistema depende fun- damentalmente de las siguientes propiedades o caracter´ısticas:“usabilidad”y“funcio-

nalidad”, en la misma medida. En otras palabras, podr´ıamos concluir que la utilidad

percibida por los usuarios de dicho sistema depende de la capacidad del mismo para prestareficazmente servicios que resulten de inter´es a los usuarios.

La usabilidad de un sistema, y por extensión su utilidad, están estrechamente relacionadas con su sencillez de uso. Indudablemente, la mayor o menor facilidad de uso de un sistema condicionará su aceptación por parte de los usuarios independientemente de la funcionalidad que éste sea capaz de ofrecer.

Entre los diferentes factores que permiten facilitar la interacción con el sistema dando lugar a un diálogo ágil y eficaz podemos enumerar los siguientes:naturalidad, flexibili-

dad y robustez (ver Cap´ıtulo 3). Si el sistema no alcanza unos niveles razonables para

todos y cada uno de ellos, dif´ıcilmente gozará del beneplácito de sus usuarios por muy potente que éste sea.

Evaluar individualmente cada una de esas caracter´ısticas puede resultar una tarea complicada. La posibilidad de preguntar a los usuarios expl´ıcitamente acerca de tales cuestiones no parece del todo recomendable. En ese sentido los conceptos objeto de con- sulta resultar´ıan ciertamente complejos o de alto nivel por lo que debemos tener en cuenta la posibilidad de que no forme parte del común conocimiento de los encuestados. En su lugar, parece más adecuado preguntar a los mismos acerca de cuestiones más espec´ıficas o concretas que puedan resultarles más familiares o próximas a su condición de usuarios. Como alternativa, podr´ıamos tratar de extrapolar a cada caracter´ıstica las puntuaciones de aquellas cuestiones que fuesen oportunas. Sin embargo, esta otra posibilidad tampoco resultar´ıa sencilla. Por ejemplo, ser´ıa ciertamente discutible concluir que la naturalidad del sistema sea directamente atribuible a un único módulo en concreto. Del mismo modo, ésta tampoco podr´ıa justificarse a partir de la calificación obtenida para una única cuestión de las incluidas en el cuestionario. Por el contrario, dicha caracter´ıstica de “alto nivel”, al igual que las otras dos, con seguridad descansa sobre el funcionamiento

conjunto de todos los m´odulos que componen el sistema. Es a partir de dicha sinergia

como el sistema consigue hacer realidad esas caracter´ısticas. Afortunadamente, y a di- ferencia de los pilares que la sustentan, esta sinergia s´ı que tiene una correspondencia inmediata con una de las cuestiones realizadas:“Valore la sencillez de uso del sistema”.

Tal y como hemos comentado anteriormente, uno de los requisitos imprescindibles para garantizar facilidad de uso para cualquier sistema es conseguir que la interacci´on con el mismo resulte lo m´as “natural” posible. En nuestro caso, el excelente grado de “naturalidad” alcanzado obedece principalmente a las siguientes razones:

• en primer lugar se trata de una “interfaz vocal”, es decir, el sistema que ha sido objeto de la evaluación está basado en una interacción hablada, y en ese sentido

7.3 Primera evaluaci´on on-line: sistema Hifi-AV1 175

debemos recordar que elhablaes el medio comunicaci´on m´as natural para los seres humanos.

• en segundo lugar, al estar basada en lenguaje natural, los usuarios no necesitan memorizar ning´un vocabulario especial o listado de comandos espec´ıfico para poder interaccionar con el sistema. Por el contrario, los usuarios pueden sentirse con total libertad para usar cualquier expresi´on que consideren oportuna con el fin de realizar las acciones requeridas sobre el sistema bajo control.

El siguiente requisito en pos de la deseada sencillez pasa por construir el diálogo con la mayor “flexibilidad” posible. La ausencia de reglas o restricciones que en modo alguno puedan limitar el diálogo redunda en una mayor sencillez de uso, amén de una mayor naturalidad. Gracias al tipo de gestor de diálogo empleado por nuestro sistema, la libertad conferida al usuario en ese sentido es máxima, tanto en la especificación de los objetivos de diálogo que reflejen su intención en cada momento, como en la de la información facilitada para la consecución de los mismos. La flexibilidad es tal que el usuario ni siquiera está obligado a consignar dicha información al completo pudiendo omitir, si as´ı lo desea, parte de la misma sin mayor problema.

Naturalmente, esto último no ser´ıa posible sin la adecuada capacidad por parte del sistema para recuperar esa información omitida. En particular, el sistema consigue esa “robustez” gracias al aprovechamiento de la información contextual disponible. Esta “robustez” es doble ya que, a la desambiguación de información deliberadamente omitida por el usuario, debemos añadir la recuperación de información perdida o que se haya visto afectada por errores de cualquier ´ındole durante el diálogo.

En resumen, la cuestión 8, en contra de lo que pueda parecer y a pesar de su fácil y rápida evaluación a cargo de cualquier usuario, responde perfectamente a varios de los aspectos más relevantes de la respuesta del sistema, motivo por el cual adquiere una especial importancia obtener una valoración positiva en esta categor´ıa. Es por ello que los resultados correspondientes a la misma, 4,40 sobre 5 siendo la mejor valorada por parte de los usuarios, pueden ser considerados como especialmente satisfactorios.

Por otra parte, tal y como mencionamos en el apartado correspondiente a la evaluación objetiva, los usuarios no sólo son capaces de establecer diálogos productivos desde el principio de la interacción con el sistema sino que además, como demuestra la evolución de las métricas obtenidas automáticamente durante la evaluación, son capaces de mejorar su calidad y eficacia rápidamente. Este resultado viene a refrendar el ahora aqu´ı presentado.

Cuesti´on 9: Es en este punto, cuesti´on 9“Valore la funcionalidad disponible en el sis-

tema”, donde parece haber un mayor consenso entre tipos de usuarios. Ambos grupos, novatos y expertos, coinciden en otorgar una puntuación de 3,81 puntos sobre 5. Como conclusión inmediata a la vista de dicho resultado podr´ıamos considerar que la funcionalidad disponible, aún siendo razonable, no satisface al completo las expectativas de control de los usuarios sobre un sistema Hifi. De dicha insatisfacción se hacen eco los comentarios y sugerencias recogidos con motivo de la presente encuesta.

No obstante, y hasta cierto punto, este resultado no ha sido motivo de sorpresa. Evi- dentemente, no podemos olvidar el tipo de equipo con el que estamos trabajando (ver descripción detallada en Cap´ıtulo6), el cual no sólo cuenta ya con no pocos años de exis- tencia, sino que además está siendo paulatina y progresivamente sustituido en los hogares

176 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo

por otros dispositivos más modernos. Indudablemente, hoy en d´ıa hay disponibles en el mercado equipos con caracter´ısticas y prestaciones que superan con creces a las del aqu´ı empleado (e.g. cargadores de CDs de mayor capacidad o soporte para pistas en formato MP3). De cualquier modo, aún tratándose de limitaciones importantes que afectan a la experiencia del usuario, es importante destacar que este tipo de limitaciones resultan in- herentes al propio equipo bajo control y que en ningún caso pueden achacarse a la interfaz vocal que ha sido objeto de estudio y evaluación en la presente Tesis doctoral.

Cuestiones 10, 11 y 12: Finalmente, la valoraci´on global del sistema (cuesti´on 10) es

de 4,0 puntos sobre 5. Al margen de resultar una evaluación muy positiva, esta puntuación correla bastante bien con el grado de satisfacción medio por escenario, 4,1 puntos sobre 5, tal y como puede comprobarse en la Figura7.17 (página 171).

Si prestamos atención a los resultados obtenidos para cada grupo de usuarios es preciso destacar que la valoración general realizada por los usuarios novatos, 3,86, es menor que la de los expertos, 4,13. Tal y como mencionamos anteriormente (apartado correspondiente a la cuestión 8), dicha valoración responde al grado de satisfacción alcanzado por los usuarios, satisfacción que depende a su vez de la combinación de la usabilidad y la funcionalidad proporcionadas por el sistema. Si nos ceñimos a dicho reparto, es posible concluir que la valoración general realizada por los novatos refleja respectivamente:

• en primer lugar la peor valoración que éstos han realizado del sistema en términos de usabilidad. Sirvan de ejemplo las peores puntuaciones resultantes bien en cuanto a sencillez de uso o bien en cualquiera de las cuestiones relacionadas con el rendimiento de alguno de los módulos en concreto del sistema (i.e. cuestiones de la 2 a la 7).

• y en segundo lugar el mayor peso que los novatos han otorgado a las carencias de funcionalidad detectadas.

A su vez, las respuestas a la pregunta 11,“¿Usar´ıa un sistema de este tipo en lugar del convencional?”, reflejan que ambos tipos de usuario muestran bastante predisposición en cuanto a usar el sistema evaluado en lugar del convencional, 3,93 puntos sobre 5. No obstante, los usuarios “novatos” mostraron una determinación o interés ligeramente superior al de los “expertos”. Este resultado no deja de ser especialmente curioso ya que el grupo de usuarios que peor ha valorado el sistema en general es precisamente el que está más dispuesto a hacer uso del mismo. Esto es debido muy probablemente a un mejor conocimiento por parte de los usuarios “expertos” de las limitaciones reales del sistema. Por otra parte, ese mejor conocimiento también atañe a la verdadera complejidad y calidad del sistema por lo que tampoco sorprende el hecho de que dichos usuarios realicen una valoración más positiva del mismo.

La misma justificaci´on podr´ıa aplicarse al resultado obtenido para la cuesti´on 12,

“¿Ha respondido el prototipo a sus expectativas previas?”. As´ı, una menor experiencia en el uso de sistemas basados en tecnolog´ıa del habla puede llevar a los usuarios novatos a sobredimensionar sus expectativas previas al proceso de evaluación acerca de lo que el sistema es capaz de hacer. Es de esperar, por tanto, que la visión inicial más consciente de los expertos se ajuste mejor a la realidad del sistema que la de los novatos. En definitiva, son posibles dos lecturas distintas en relación al comportamiento del sistema esperado por ambos tipos de usuario. La valoración correspondiente a los novatos (i.e. 4,00), aún

In document Effective distant supervision for end-to-end knowledge base population systems (Page 41-45)