• No results found

A Critical Reflection

Experiment 4: Pen, speech or both?

It was mentioned before that unimodal interaction with mobile devices, such as speech- only interaction or pen interaction on a small display, brings along serious usability prob- lems. Multimodal interfaces in which pen and speech interaction are combined hold the promise to overcome these usability problems. This experiment investigates whether pro- viding multiple modalities indeed enhances the usability of a form-filling application, com- pared to unimodal GUI or speech interaction on small mobile devices. By analyzing the relation between the objective and subjective usability measures, we also investigated what aspects of the behavior of the systems may explain differences in user satisfaction.

The three systems did not differ in terms of effectiveness. Although pen interaction is often considered to be unbeatable in terms of effectiveness, our results showed that a num- ber of GUI dialogues failed; several subjects proved to be inattentive to their own mistakes. The number of actions necessary to get the required information was lowest for the speech- driven interface, which offers the possibility to fill in multiple fields with only one action (for example by saying “tomorrow at 8 pm”). Nevertheless, the interactions with the speech-driven interface were longest. Interestingly, the multimodal dialogues were most efficient, but they were not perceived as such; the pen interactions were considered to be shortest, although objectively they were not. User satisfaction was lowest for the speech- driven interface, whereas the pen-driven interface and the multimodal interface were judged similar in terms of user satisfaction. Control of the interaction, possibilities to cor- rect errors and efficiency turned out to be the most important factors. It must be noted that the pen-based interface was already very well designed, whereas the multimodal system still offers room for improvement, for example concerning the speed of the system and the possibilities to correct errors. Moreover, many people by now are familiar with interaction with a graphical user interface, whereas multimodal interaction is still relatively unknown. We therefore conclude that multimodal interaction is a promising avenue for this type of services.

Conclusion

The four experiments that were presented in this thesis showed that multimodal interaction is a feasible solution to some of the problems associated with speech-only interaction and with pen interaction on devices with a small display. The investigations illuminate how level of experience, the interaction metaphor that is applied and the error correction facili- ties that are offered may influence the perceived usability of an interface. The observations yielded several suggestions for improving the multimodal interface that was developed, such as the speed of the system, the performance of the speech recognizer and the possibil- ity to correct recognition errors in a reliable way. For the usability of multimodal interfaces in general it is important that people be familiarized with this type of interaction. An im- portant step in that direction would be the development of standards to which multimodal interfaces should adhere. In this respect, it is also important that in addition to the growing body of empirical data about the use of multimodal systems, theories are developed that can shed light on how and when people tend to use different modalities. Standards are also indispensable for evaluation of this type of interfaces: evaluation instruments should be developed and validated for measuring many aspects of user satisfaction with multimodal interfaces.

Samenvatting (summary in Dutch)

Bruikbaarheid van multimodale interactie voor mobiele toegang tot in- formatiediensten

Het wordt in ons dagelijks leven steeds belangrijker om toegang te hebben tot allerlei bron- nen van informatie. We gebruiken de computer om telefoonnummers op te zoeken, de tele- foon voor het opvragen van de laatste informatie over onze aandelenkoers en de televisie voor het checken van de aankomsttijden van vliegtuigen. Niets voor niets wordt de huidige samenleving ook wel de informatiemaatschappij genoemd. Omdat we steeds mobieler wor- den en niet altijd meer achter ons bureau zitten, is het steeds belangrijker dat we overal en altijd toegang hebben tot deze informatie, ook wanneer we onderweg zijn.

Een telefoontje plegen is een van de mogelijke manieren om informatie te verkrijgen wanneer je onderweg bent. Niet alle informatie is echter even geschikt om in gesproken vorm over te brengen. Bovendien worden steeds meer telefonische informatiediensten ge- automatiseerd (denk bijvoorbeeld aan de ‘sprekende computer’ van de NS) en in deze ge- automatiseerde spraakgestuurde diensten blijken spraakherkenfouten een bron van frustra- tie te zijn. Een andere manier om onderweg gebruik te maken van een informatiedienst is door middel van een pen en een virtueel formulier (een grafische interface) dat weergege- ven wordt op het scherm van een klein mobiel apparaat (bijvoorbeeld een PDA). Helaas blijkt het invoeren en lezen van gegevens niet altijd even gemakkelijk op apparaten die slechts een klein scherm hebben. Er is dus duidelijk behoefte aan nieuwe manieren om mo- biel toegang te krijgen tot informatiediensten.

Multimodale interactie biedt hier mogelijk een oplossing. In multimodale interfaces worden beide vormen van interactie met elkaar gecombineerd in een interface dat je kunt bedienen met zowel spraak als met een pen op een formulier. Multimodale interactie heeft de potentie om de bruikbaarheid, de flexibiliteit en de efficiëntie van toegang tot informa- tiediensten te verbeteren. Echter dit soort interfaces is relatief nieuw en er is nog maar wei- nig bekend over, bijvoorbeeld, hoe geschikt pen en spraak zijn voor bepaalde taken, over hoe pen en spraak het beste gecombineerd kunnen worden en over welke andere factoren een rol spelen bij de bruikbaarheid van een multimodale interface. De bruikbaarheid van multimodale toegang tot informatiediensten is om die reden het centrale thema van dit on- derzoek. De vraag die in de eerste drie experimenten van dit proefschrift centraal staat, is wat het effect is van verschillende fundamentele ontwerpkeuzes op de bruikbaarheid van een multimodale interface. In het vierde experiment wordt antwoord gegeven op de vraag of een multimodale interface waarin spraak en pen-interactie worden gecombineerd inder-

daad beter bruikbaar is dan een interface die volledig door middel van spraak dan wel vol- ledig door middel van pen wordt bediend.

In deze studie wordt gebruik gemaakt van een informatiedienst waarmee reisadviezen voor treinreizen in Nederland opgevraagd kunnen worden. Om een reisadvies te verkrijgen, moeten de volgende gegevens worden verstrekt: vertrek- en aankomststation, datum, tijd en een variabele die aangeeft of de tijd de vertrek- of aankomsttijd is. Het ‘formulier’ kan worden ingevuld door middel van menu’s, keuzeknoppen en opdrachtknoppen; getypte invoer is echter niet mogelijk. De invulvelden kunnen tevens worden ingevuld met spraak. In de verschillende experimenten worden verschillende instantiaties van de multimodale interface gebruikt.

Het grafische invulformulier

In alle experimenten die onderdeel uitmaken van dit onderzoek is de bruikbaarheid van een systeem gedefinieerd als een combinatie van effectiviteit, efficiëntie en gebruiker- stevredenheid. Om deze drie aspecten te meten, heeft steeds een aantal proefpersonen het systeem getest in verschillende condities. Op basis van deze gegevens werd efficiëntie ge- meten als de gemiddelde duur van een opdracht. Effectiviteit werd gemeten als het aantal keer dat de proefpersoon erin slaagde om de opdracht succesvol af te ronden. Ten slotte werd de tevredenheid van de proefpersonen gemeten aan de hand van een vragenlijst. Van ieder experiment zullen nu de aanleiding en doelstellingen en de belangrijkste resultaten en conclusies worden besproken.

Samenvatting (Summary in Dutch)