Extension of ARGuide – A Multimodal User

Transcription

Extension of ARGuide – A Multimodal User
Extension of ARGuide – A Multimodal User Interface
Component for an Augmented Reality Mobile User
Guidance System
Diplomarbeit im Fach Informatik
Vorgelegt von
Marco Thum
Geboren am 28.12.1976 in Koblenz
Institut für Computervisualistik
Arbeitsgruppe Computergraphik
Betreuer:
Prüfer:
Intracom S.A.
Content Delivery Systems
Peania, Athen, Griechenland
Dr. Thanos Demiris
Prof. Dr.-Ing. Stefan Müller
Juli 2005
2
Ich versichere, dass ich die Arbeit ohne fremde Hilfe und ohne Benutzung anderer als
der angegebenen Quellen angefertigt habe und dass die Arbeit in gleicher oder ähnlicher
Form noch keiner anderen Prüfungsbehörde vorgelegen hat und von dieser als Teil einer
Prüfungsleistung angenommen wurde. Alle Ausführungen, die wörtlich oder sinngemäß
übernommen wurden, sind als solche gekennzeichnet.
Die Richtlinien des Instituts für Studien- und Diplomarbeiten habe ich gelesen und anerkannt, insbesondere die Regelung des Nutzungsrechts.
Koblenz, den 15. Juli 2005
Unterschrift
3
Danksagung
Ich möchte mich bedanken
bei Dr. Thanos Demiris für die Ermöglichung und die Betreuung meiner Diplomarbeit.
Ohne sein Engagement wäre diese Arbeit nie zu Stande gekommen. Er hat mich stets mit
konstruktiver Kritik unterstützt und mir die richtigen Impulse gegeben.
Ich möchte mich bedanken bei Nikos Ioannidis und Nikos Pronios als Stellvertreter von
Intracom S.A. für das Vertrauen in das Gelingen des Projekts und den finanziellen Rückhalt während meines Aufenthalts in Athen,
bei Prof. Dr. Stefan Müller für die Herstellung des Kontakts zu Thanos, die Begutachtung meiner Arbeit und die Unterstützung seitens der Universität Koblenz-Landau,
bei Jens Weidenhausen vom Fraunhofer IGD für die stetige und geduldige Beantwortung
all meiner Fragen rund um den ARBrowser,
bei dem gesamten Team der Abteilung Content Delivery Systems in Intracom S.A. für
seine großartige Hilfsbereitschaft in allen Aspekten des Lebens in Griechenland, die innerhalb von 9 Monaten auftauchen können,
bei meiner Familie für die finanzielle Unterstützung und ihrem konsequenten Rückhalt
während meines gesamten Studiums und insbesondere während meines Auslandsaufenthalts. Ihr gilt mein ganz besonderer Dank.
Und schließlich möchte ich allen anderen Menschen in Deutschland und Griechenland
danken, die mich in der Zeit begleitet und mit ihren Ideen bereichert haben.
4
Inhaltsverzeichnis
1
Einleitung
11
2
Grundlagen
15
2.1
Plattformen und Lösungen . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1.1
intGuide
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1.2
intCulture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.1.3
ARGuide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.1.4
ARBrowser . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.1.5
Microsoft® Speech API . . . . . . . . . . . . . . . . . . . . . .
19
Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.2.1
Multimodale Schnittstellen (MUI) (nach Oviatt) . . . . . . . . .
21
2.2.2
Graphische Schnittstellen (GUI) . . . . . . . . . . . . . . . . . .
23
2.2
3
State-Of-The-Art
25
3.1
Augmented Reality User Interfaces . . . . . . . . . . . . . . . . . . . . .
26
3.1.1
Generelles Design von Benutzerschnittstellen für tragbare Geräte
26
3.1.2
Haptische Benutzerschnittstellen („Tangible UI“) . . . . . . . . .
30
3.1.3
Freihandbenutzerschnittstellen („Hands-free“ UI) . . . . . . . . .
34
5
6
INHALTSVERZEICHNIS
3.2
4
3.1.4
Hybride Benutzerschnittstellen („Hybrid UI“) . . . . . . . . . . .
36
3.1.5
Multimodale Schnittstellen (MUI) . . . . . . . . . . . . . . . . .
37
3.1.6
Avatargesteuerte Schnittstellen . . . . . . . . . . . . . . . . . . .
39
3.1.7
Spielbasierte Schnittstellen („Game-Based Interfaces“) . . . . . .
42
Eingabegeräte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.2.1
Gloves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.2.2
Touchpads . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
3.2.3
Gamepads . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.2.4
Remote Controls (RC) . . . . . . . . . . . . . . . . . . . . . . .
46
3.2.5
Mäuse und verwandte Geräte . . . . . . . . . . . . . . . . . . . .
47
3.2.6
Kombinationen von Ein- und Ausgabegeräten . . . . . . . . . . .
48
Design der Benutzerschnittstelle
51
4.1
Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.1.1
Aufgabenangemessenheit . . . . . . . . . . . . . . . . . . . . .
52
4.1.2
Selbstbeschreibungsfähigkeit . . . . . . . . . . . . . . . . . . . .
55
4.1.3
Steuerbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.1.4
Erwartungskonformität . . . . . . . . . . . . . . . . . . . . . . .
58
4.1.5
Fehlertoleranz . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
4.1.6
Individualisierbarkeit . . . . . . . . . . . . . . . . . . . . . . . .
59
4.1.7
Lernförderlichkeit . . . . . . . . . . . . . . . . . . . . . . . . .
61
4.1.8
Benutzerführung . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.1.9
Multimodale Interaktion . . . . . . . . . . . . . . . . . . . . . .
63
4.1.10 Graphical User Interface (GUI) vs Multimodal User Interface (MUI) 69
4.2
Ziel des initialen Prototypen . . . . . . . . . . . . . . . . . . . . . . . .
70
INHALTSVERZEICHNIS
4.3
Anwendungsfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
4.4
Anwenderszenarien . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.5
Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
4.5.1
Multimodale Ereignisverarbeitung . . . . . . . . . . . . . . . . .
77
4.5.2
Aktive und passive Interaktionskonzepte . . . . . . . . . . . . . .
78
4.5.3
Präsentationskonzepte . . . . . . . . . . . . . . . . . . . . . . .
86
Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
4.6.1
Multimodale Systemarchitektur . . . . . . . . . . . . . . . . . .
91
4.6.2
Komponentenkommunikation . . . . . . . . . . . . . . . . . . .
92
4.6.3
Patterns und Komponenten . . . . . . . . . . . . . . . . . . . . .
94
4.6
5
7
Realisierung
97
5.1
Interaktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
5.1.1
Ereignisse der Eingabegeräte . . . . . . . . . . . . . . . . . . . .
97
5.1.2
Ereignisse der Lokalisierungsgeräte und Kontrolle der Ausgabegeräte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
5.1.3
Ereignismanagement . . . . . . . . . . . . . . . . . . . . . . . .
99
5.1.4
Ereignisse mit Zusatzinformationen . . . . . . . . . . . . . . . . 102
5.1.5
Verarbeitung multimodaler Ereignisse . . . . . . . . . . . . . . . 103
5.1.6
Zustandsautomaten . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.2
Präsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.2.1
Präsentationsmanagement . . . . . . . . . . . . . . . . . . . . . 107
5.2.2
Widgets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.2.3
Feedback Logging . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.2.4
Sitenavigation . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8
6
INHALTSVERZEICHNIS
Evaluation
6.1
6.2
121
Konzeptanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.1.1
Exponatmenü . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.1.2
Sitenavigation . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.1.3
„Schwebende“ Menüs . . . . . . . . . . . . . . . . . . . . . . . 123
6.1.4
Signalisierung der Stimmlautstärke . . . . . . . . . . . . . . . . 124
6.1.5
Transparenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.1.6
3D-Rendering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.1.7
VRML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.1.8
Nicht realisierte Konzepte . . . . . . . . . . . . . . . . . . . . . 127
Benutzertests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.2.1
Testparcours . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.2.2
Konzept des Fragebogens . . . . . . . . . . . . . . . . . . . . . 131
6.2.3
Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7
Fazit
151
8
Ausblick
155
8.1
Interaktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.2
Präsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.3
Applikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8.4
Allgemein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
A Zum Inhalt des Anhangs
161
B Eingabegeräte
163
INHALTSVERZEICHNIS
C Anwendungsdiagramme
9
169
C.1 Generelle Benutzerinteraktionen . . . . . . . . . . . . . . . . . . . . . . 170
C.2 Unterteilung der Museumssite . . . . . . . . . . . . . . . . . . . . . . . 172
C.3 Benutzerbedürfnisse im Detail . . . . . . . . . . . . . . . . . . . . . . . 174
D Anwendungsszenarios
181
D.1 Kind . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
D.2 Hörgeschädigter Erwachsener . . . . . . . . . . . . . . . . . . . . . . . 182
D.3 Unterschiede von AOI und POI am Beispiel eines Erwachsenen . . . . . 183
E Mockups
185
F Sequenzdiagramme
187
G Fragebogen
191
G.1 Aufgabenangemessenheit . . . . . . . . . . . . . . . . . . . . . . . . . . 191
G.2 Selbstbeschreibungsfähigkeit . . . . . . . . . . . . . . . . . . . . . . . . 192
G.3 Steuerbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
G.4 Erwartungskonformität . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
G.5 Fehlertoleranz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
G.6 Individualisierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
G.7 Lernförderlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
G.8 Benutzerführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
G.9 Multimodale Interaktion . . . . . . . . . . . . . . . . . . . . . . . . . . 197
10
INHALTSVERZEICHNIS
Kapitel 1
Einleitung
Jeder, der schon einmal eine Museumsausstellung oder antike Stätte besucht hat, kennt
das Gefühl, dass man mehr über dieses oder jenes Gemälde oder über diesen oder jenen
Tempel erfahren möchte als der lokale Museumsführer, Karten oder Informationstafeln
erklären können. Manchmal möchte man sehen und verstehen können, mit welcher Technik ein Gemälde gemalt oder wie eine Steinskulptur gemeißelt wurde. Die Ruinen eines
Tempels lassen oftmals nicht erkennen, wie groß und mächtig dieser einstmals auf dem
Kaphügel erschien geschweige denn, wie imposant die Messen der Ortsgemeinde im Altarraum gewesen sind. Statische Bildrekonstruktionen mögen einen ersten Eindruck hinterlassen, aber das Bedürfnis, die Geschichte selbst noch einmal erleben zu können, bleibt.
Man fragt sich nun, auf welche Art und Weise sich einem Besucher solch ein Erlebnis
vermitteln lässt. Viele Forschungen auf dem Feld der (virtuellen) Kulturgutrekonstruktion
(Cultural Heritage / Virtual Heritage) haben sich schon mit der Problematik auseinandergesetzt. Es muss beachtet werden, wo und wann welche Medien dargestellt werden sollen,
wo sich der Besucher aufhält, in welche Richtungen er schaut und vor allem, welcher Informationsträger für die gewünschte Zusatzinformation verwendet wird. Hatte man anfangs
nur einen tragbaren Audiotouristenführer, der einem von Exponat zu Exponat dessen Historie und Bedeutung erklärt, so bietet sich mit mobilen Augmented-Reality-Plattformen
die Möglichkeit, dem Besucher komplette virtuelle Szenarien in der Ausstellungsumge-
11
12
KAPITEL 1. EINLEITUNG
bung zu präsentieren. Die Mobilgeräte reichen von in Rucksäcken oder an Gürteln untergebrachten Kleinrechnern in Verbindung mit HMD über Tablets bis hin zu Handhelds
(PDA) und Mobiltelefonen.
Die Verwendung mobiler AR-Systeme ist mit passiven Informationspräsentationen aber
noch nicht ausgereizt. Der Besucher soll aktiv bestimmen können, welche Medien zu
welchen Exponaten er ansehen möchte. Vielmehr soll er in das interaktive, virtuelle Szenario eingreifen können. Es besteht also ein besonderes Interesse darin, eine benutzerfreundliche, der Vielfalt an möglichen Interaktionen angepasste Benutzeroberfläche („user
interface“ (UI)) zu gestalten. Der Besucher soll in der Lage sein, sich mit Hilfe der UI zu
orientieren, zu navigieren und Objekte des Szenarios zu manipulieren. Nun kennt man
schon zahlreiche Interaktionsmetaphern für den dreidimensionalen Raum, wie sie etwa
in [BKLP04] ausführlich vorgestellt werden. Fraglich wird aber die Akzeptanz für die
Schnittstelle sein, wenn die Metaphern und Eingabemodalitäten erst einmal fremd sind.
Viele Besucher mögen bereits das WIMP-Konzept (Windows, Icons, Menus, Pointer)
kennen. Gedacht für zweidimensionale Interaktionen in graphischen Benutzerschnittstellen („graphical user interface“ (GUI)) ist es für den mobilen Einsatz aber zu statisch. Um
den Besucher an solch ein System zu gewöhnen, muss es erweitert werden.
Multimodale Schnittstellen („multimodal user interfaces“ (MUI)) können GUI durch die
Anbindung natürlicher, erkennungsbasierter Eingabemodi wie Sprache, Gestik, Mimik
oder Körperbewegungen ergänzen oder auch ersetzen. Statt dem WIMP-Konzept entsprechende Interaktionselemente („Handler“) reagieren dann Multimedia-Präsentationen direkt auf die Benutzereingaben, wie Abbildung 1.1 erklärt.
Dennoch soll dem Besucher weiterhin sichtbar bleiben, wie er welche Interaktion zu welchem Zweck durchführen kann und dies mit GUI-Elementen repräsentiert werden. Natürliche Modi sind Besucher aus ihrem Alltag gewohnt und es liegt an dem Konzept der
MUI, die Eingaben effektiv zu verwerten. Multimodalität bedeutet nämlich, dass die Daten
mehrerer Eingabedatenströme miteinander kombiniert und interpretiert werden können.
So lassen sich mehrere Metaphern wie etwa die Deutung auf ein Objekt, der Sprachbefehl
13
Abbildung 1.1: Interaktion in GUI und MUI
zur Auswahl des Objekts, die Bewegungsdeutung zum Verschieben des Objekts an einen
anderen Punkt und ein letzter Sprachbefehl zur Ablage des Objekts in einer zusammenhängenden Aktion ausführen (vgl. „Put-That-There“-Metapher [Bol80]).
Sprache und andere Modi müssen als Kommunikationsmittel nicht mehr erlernt werden,
lediglich ihre Anwendung. Da davon ausgegangen wird, dass Sprachbefehle einfacher zu
erlernen, zu erweitern und in der GUI zu symbolisieren sein werden als etwa Gesten, wird
Sprache als Eingabemodus verwendet werden. Ein weiteres Eingabegerät wird erst in Kapitel 3.2 ausgewählt. Um dem Benutzer möglichst viele Freiheiten zu gewähren, muss
darauf geachtet werden, dass die Modi sich nicht nur multimodal ergänzen, sondern auch
weiterhin unimodal verwendet werden können.
In der Abteilung Content Delivery Systems der Firma Intracom S.A., Peania, Athen, Griechenland, in welcher diese Diplomarbeit durchgeführt wurde, werden nun Konzepte und
Lösungen im Allgemeinen und Speziellen zur plattform(un)abhängigen, kontext- und positionsbasierten Präsentation von dynamischen Inhalten entwickelt. Angefangen bei der
globalen Konzeptplattform intGuide reicht die Produktpalette über die Lösung intCulture
für das Anwendungsgebiet Cultural Heritage bis hin zu ARGuide, einer Teillösung von
intCulture zur Augmentierung von Inhalten in Head-Mounted-Displays, auf Tablets und
PDA (u.a. in Kombination mit Monoculars).
Die multimodale Schnittstelle soll schließlich ARGuide mit dem Ziel erweitern, dem Be-
14
KAPITEL 1. EINLEITUNG
sucher bedacht ausgewählte Interaktionen möglichst benutzerfreundlich an einem Exponat
zu bieten und ihn ohne Ablenkung durch die Interaktionen mit der Schnittstelle anzuleiten. Die Interaktionen sollen die wichtigsten Informationsbedürfnisse von Besuchern abdecken, nämlich die Beantwortung der Fragen „Wo bin ich?“ (primär), „Was kann ich hier
sehen?“ (sekundär) und „Was ist in der Nähe?“ (tertiär). Die Bedürfnisse haben sich empirisch in der Arbeit von Intracom mit Projekten aus der Cultural Heritage und Virtual
Heritage herausgestellt. Durch Benutzertests ausgewertete softwareergonomische Richtlinien werden dann entscheiden, ob und inwieweit multimodale Interaktion einen Gewinn
für die Navigation in der AR bringt.
Kapitel 2
Grundlagen
Im Folgenden wird eine Übersicht zu der Plattform intGuide, zu dessen Anwendung intCulture und der Client-Applikation ARGuide sowie zu der Trackingkomponente ARBrowser gegeben. Die Funktionsweise der verwendeten Microsoft® Speech API zur Spracherkennung ergänzt den Überblick. Es schließt sich eine Einführung in die wesentlichen Charakteristika multimodaler und graphischer Schnittstellen an.
2.1
2.1.1
Plattformen und Lösungen
intGuide
IntGuide [DVM+ 05] ist eine Plattform zur Realisierung generalisierter, skalierbarer Systeme zur Verwaltung und Präsentation kontextsensitiver Inhalte. Sie sieht unter anderem
Profilmanagement, Personalisierung von Inhalten und Interaktion, Authoring von Inhalten
und Abläufen, Datenbankspeicherung, Anwenderlokalisierung, Ablaufkontrollen und die
Portierung auf ein breites Spektrum an Plattformen vor. Zu den potenziellen Geschäftsfeldern zählen etwa Provider von Netzwerkinfrastrukturen, Organisationen auf dem Gebiet
Cultural Heritage, Rundfunksender, Dienstleister, Hersteller von Touristenführern, Ausstellungshallen oder Themenparks.
15
16
2.1.2
KAPITEL 2. GRUNDLAGEN
intCulture
IntCulture [DVI04] ist eine Anwendung von intGuide im Gebiet Cultural Heritage. Die
Lösung bettet Techniken zu Authoring von Inhalten, XML-basiertem, plattformübergreifendem Publishing, standortbasierter Präsentation von Inhalten, Unterstützung mobiler
Empfänger in öffentlichen und lokalen kabellosen Netzwerken, Monitoring der Verteilung von Inhalten, statischer Auswertung der Nachfrage an Inhalten und Management von
Benutzerprofilen ein.
Der Besucher eines Ausstellungsgeländes erfährt anhand von zuvor erstellten Touren Details zu Exponaten und anderen markanten Punkten. Abhängig von Position, Orientierung
und Profil werden ihm Informationen in diversen Medienformaten präsentiert („contextawareness“). Er kann Annotationen aufnehmen, mit anderen Besuchern kommunizieren
und dynamische Hilfen abrufen.
2.1.3
ARGuide
ARGuide ist eine Teillösung von intGuide in intCulture mit Unterstützung durch ARTracking-Komponenten zur Ausgabe auf Geräten wie HMD oder Tablet. Zum Zeitpunkt
des Starttermins dieser Arbeit befand sich der ARGuide im Zustand eines fortgeschrittenen
Prototypen. Interaktions- und Darstellungskonzepte wurden aber überarbeitet. Es bleibt allerdings die grundsätzliche Komponentenstruktur von intCulture erhalten. Die multimodale Schnittstelle mit Präsentationseinheit wird an die vorgesehenen Komponenten für Sitemanagement, Medienmanagement und Tracking angebunden. Da sich die Arbeit auf die
Ausgabegeräte HMD (Abb. 2.1) und Binoculars (Abb. 2.2), die mit einem Sub-Notebook
(Abb. 2.4) verbunden sind, konzentriert und die Entwicklung von intCulture sich momentan stärker an mobilen Assistenten (PDA, Abb. 2.3) orientiert, sind jene Komponenten
allerdings noch nicht angepasst.
17
2.1. PLATTFORMEN UND LÖSUNGEN
Abbildung 2.1: i-Glasses mit
SVGA-Display (mit 800 x 600
betrieben).
2.1.4
Abbildung 2.2: n-Vision Binoculars
mit Firewire-Kamera und Kompass
(mit 800 x 600 betrieben).
ARBrowser
Zum Feintracking und zur Augmentierung wird der vom Fraunhofer IGD in Darmstadt,
Deutschland, entwickelte ARBrowser [SW03] eingesetzt. Er verwendet den in Zusammenarbeit von IGD und ZGDV entwickelten AVALON-Renderer1 , der unter anderem in
der Lage ist, in VRML definierte Szenen und Objekte darzustellen. Desweiteren integriert
die Komponente markerlose und -basierte Trackingverfahren.
Markerloses Tracking basiert auf dem Vergleich von Referenzbildern mit aktuellen Aufnahmen zu verfolgender Objekte [Str01]. Wird ein Referenzbild erkannt, so wird das zugehörige Überlagerungsobjekt (Overlay) anhand einer Transformationsmatrix, die die Position des Overlay relativ zum Referenzbild repräsentiert, gerendert. Als Overlays können derzeit gängige Graphikdateiformate wie (animierte) GIF, JPEG, TIF und PNG sowie
in XML spezifizierte Primitive wie Pfeile und Kreise eingesetzt werden. Tracking und
Augmentierung geschehen folglich zweidimensional. Imitiertes 3D-Tracking ist mit Hilfe
einer 3D-Rotationsmatrix möglich, wird aber im Rahmen dieser Arbeit nicht eingesetzt.
2,5D-Rendering kann durch vorgerenderte statische Szenarien, die dynamisch an die berechnete Position angepasst werden, hergestellt werden. Da ohnehin keine „Rundumper1
http://www.zgdv.de/avalon/
18
Abbildung 2.3: PDA im „ragged case“.
KAPITEL 2. GRUNDLAGEN
Abbildung 2.4: Dell Sub-Notebook.
spektiven“ möglich sind und somit die Kamera weitestgehend fixiert ist, entstehen dabei
nur minimale Verzerrungen. Aufgrund fehlender Interaktionsmöglichkeiten und des zusätzlichen Arbeitsaufwandes wird auf diese Möglichkeit aber verzichtet. Stattdessen werden Konzepte zur Interaktion mit statischen Overlays entwickelt.
Markerbasiertes Tracking kommt für den Einsatz in Museen nicht in Frage. In Innenräumen stören Marker den Blick auf die Exponate. In Außenbereichen sind die Entfernungen
des Betrachters zu Monumenten meist zu groß, um Marker erkennen zu können [Str01].
Außerdem würden sie in archäologischen Stätten nicht akzeptiert werden.
Der ARBrowser wird als ActiveX-Control in Webapplikationen und in herkömmlichen
Windowsapplikationen integriert. Er wird mit Hilfe von Konfigurationsdateien, die Referenzbild, Overlay, Trackingverfahren, Positionsmatrix des Overlays und diverse Trackingparameter enthalten, für jede Position neu initialisiert. Es können aber beliebig viele Referenzbilder der gleichen Position dynamisch zur Laufzeit hinzugefügt werden. Ebenso
lassen sich Overlays austauschen. Die vorhin genannten Primitiven, die sich gut zur Deutung und Markierung von Objekt- bzw. Overlaymerkmalen eignen würden, werden indes
nicht eingesetzt und durch andere Konzepte ersetzt.
2.1. PLATTFORMEN UND LÖSUNGEN
2.1.5
19
Microsoft® Speech API
Zur Anbindung von Spracherkennung (und später -synthese) wird das Microsoft Speech
Application Programming Interface (SAPI) in der Version 5 verwendet [Mic02]. Das zugehörige Software Development Kit (SDK) ist in der Version 5.1 frei verfügbar2 .
Andere gängige Spracherkennungssysteme wie Dragon NaturallySpeaking3 oder IBM ViaVoice4 werden strikt getrennt in SDK und eigenständige Erkennungsapplikationen, die
Sprachereignisse erkennen und sich an laufende Applikationen andocken, um die Ereignisse weiterzuleiten. Die Systeme müssen extern trainiert werden (Kommandos und ihre
Bedeutungen) und können nicht von der kommandoempfangenden Applikation gesteuert
werden. Die SDK sind sehr kostspielig und kommen für den Prototypen erst einmal nicht
in Frage. Eine dokumentierte API ist für Audient von Neuvoice5 verfügbar. Das Modul
scheint nach Berichten nicht weit verbreitet und erprobt, wurde aber als zu evaluierende
Alternative für den nächsten Prototypen ausgewählt. Das SAPI ist schon länger verfügbar
und liefert eine umfangreiche Dokumentation mit. Es bietet als Basis ein Erkennungsmodul für englisch gesprochene Eingaben.
Die Funktionsweise des SAPI ist schematisch in Abb. 2.5 erklärt. Eine Applikation erhält
erkannte Spracheingaben als Strings oder Textdateien. Zuvor muss das Erkennungsmodul
(Recognizer) initialisiert werden, welches sich wiederum an den eingehenden Audiodatenstrom des Systems ankoppelt (Audio Stream). Audio kann vom Mikrophon des Anwenders oder von einer Datei stammen. Schließlich sind über ein von Applikation und
Erkennungsmodul gemeinsam genutztes Interface (Recognition Context) die Grammatiken für relevante Sprachelemente aufzustellen. Diese können zur Laufzeit neu generiert
und gewechselt werden. Über das Interface erhält die Applikation erkannte und nach Ereignistypen (erkanntes Datum, Grammatiktyp, Lautstärke, Hypothese (s. Kap. 4.5.2), etc.)
kategorisierte Daten des Erkennungsmoduls.
2
SDK abrufbar unter http://www.microsoft.com/speech/download/sdk51/
http://www.dragonsystems.com/naturallyspeaking/
4
http://www-306.ibm.com/software/voice/viavoice/
5
http://www.neuvoice.com/products/audient.php
3
20
KAPITEL 2. GRUNDLAGEN
Sprachsynthese („Text-To-Speech“ (TTS)) wird im Rahmen dieser Arbeit hingegen nicht
Abbildung 2.5: Funktionsweise der Spracherkennung in SAPI
eingesetzt, obwohl es ein bevorzugtes Ausgabeformat für multimodale Schnittstellen ist.
Nach ersten Tests besteht die Vermutung, dass die mitgelieferte, sehr unnatürlich klingende Computerstimme zu künstlich und eher störend auf den Besucher wirken könnte.
Alternative Stimmen sind entweder sehr aufwendig selbst zu generieren oder teuer käuflich zu erwerben. Stattdessen sollten aufgezeichnete Audiokommentare mit menschlichen
Stimmen in Betracht gezogen werden.
Darüber hinaus handelt es sich um ein sprecherabhängiges Erkennungssystem, das vor
der Verwendung mit einem auf Systemebene (Windows®XP) integrierten Sprachtrainer
trainiert werden muss, um Betonungen und andere Charakteristika der Sprecherstimme in
einem Profil abzulegen. Es lautet die Regel: je größer die Trainingsmenge, desto effizienter die Erkennung. Es wird allerdings in Zukunft davon ausgegangen, dass Besucher die
Spracherkennung nicht trainieren müssen und ein sprecherunabhängiges System stattdessen verwendet wird. Jene sind derzeit aber noch sehr kostspielig.
2.2. DEFINITIONEN
2.2
2.2.1
21
Definitionen
Multimodale Schnittstellen (MUI) (nach Oviatt)
Nach der in [Ovi02] aufgestellten Terminologie zu multimodalen Schnittstellen sind diese
durch die koordinierte Verarbeitung der Anwenderdaten zweier oder mehrerer kombinierter Eingabemodi bestimmt. Es zählen hierzu etwa Sprache, Pen, berührungsempfindliche
Geräte, Handgesten, Mimik sowie Kopf- und Körperbewegungen. Das System antwortet mit Ausgabe multimedialer Präsentationen. Ein wesentliches Ziel ist die Einbindung
natürlicher menschlicher Kommunikationsformen und -verhaltensweisen. Erkennungsbasierte Verfahren sind ein notwendiges Mittel zur Detektion relevanter Merkmale in diesen
kontinuierlichen Eingabedatenströmen.
Aktive Eingabemodi
Vom Anwender absichtlich und gezielt eingesetzte Aktionen werden als aktive Eingabemodi bezeichnet.
Passive Eingabemodi
Vom Anwender unabsichtlich und unauffällig erbrachte Aktionen werden als passive Eingabemodi bezeichnet.
Gemischte multimodale Schnittstellen
Als gemischte multimodale Schnittstellen oder auch „blended multimodal interfaces“ bezeichnet man Systeme, die mindestens einen passiven und einen aktiven Eingabemodus
erkennen und gemeinsam verarbeiten. Oviatt teilt einen Modus stets entweder nur der Kategorie der aktiven oder der passiven Modi zu (z.B. Sprache ist aktiv, Gesichtsausdrücke
sind passiv). Die Vermutung liegt aber nahe, dass einige beide Kriterien erfüllen (z.B.
Sprachkommandos sind aktiv, Stimmvolumen ist passiv).
22
KAPITEL 2. GRUNDLAGEN
Zeitlich versetzte multimodale Schnittstellen
Dieser Typ einer multimodalen Schnittstelle verarbeitet zwei oder mehrere Eingabemodi, deren Daten die Schnittstelle zeitlich versetzt („temporally cascaded“) erreichen. Der
später eintreffende Modus kann die Interpretation des früheren beeinflussen. Die Eingabemodi sind entweder nur aktiv, nur passiv oder gemischt.
Wechselseitige Begriffsklärung
Wenn mehrere eventuell fehleranfällige, erkennungsbasierte Ereignismodi verarbeitet werden müssen, können sie ihre Missdeutungen gegebenenfalls gegenseitig aufheben („mutual disambiguation“). Unimodale Fehleranhäufungen, die für den Anwender besonders
auffällig sind, werden in einem multimodalen System kaschiert und sind nicht mehr so
offensichtlich.
Merkmalsbasierte Verkettung
Werden parallele Eingabeströme gleich auf ihrer Merkmalsebene miteinander verknüpft
(z.B. Phoneme bei Sprache, Viseme bei Lippenbewegungen), spricht man von merkmalsbasierter Verkettung („feature-level fusion“ oder „early fusion“).
Bedeutungsbasierte Verkettung
Wurden parallele Eingabedatenströme bereits interpretiert, können ihre Bedeutungen miteinander verknüpft werden, so dass eine neue multimodale Interpretation entsteht. Man
spricht dann von einer „semantic-level fusion“ oder „late fusion“.
Rahmenbasierte Integration
Wird ein Mustervergleich vorgenommen, um die von zwei Eingabedatenströmen kommenden Attributwerte in eine semantisch relevante Information zu übersetzen, spricht man von
rahmenbasierter Integration („frame-based integration“).
2.2. DEFINITIONEN
23
Vereinigungsbasierte Integration
Werden interpretierte Fragmente zweier Eingabedatenströme mit Teilbedeutungen durch
logikbasierte Methoden miteinander zu einer gemeinsamen Bedeutung verknüpft, spricht
man von einer vereinigungsbasierten Integration („unification-based integration“).
2.2.2
Graphische Schnittstellen (GUI)
Graphische Schnittstellen basieren oftmals auf dem Konzept von WIMP. Zumindest gilt
dies für die meisten Desktop-Applikationen. Menüs, Panels, Labels, Knöpfe, Listen, Leisten und andere Bestandteile einer GUI werden im Folgenden zur Verallgemeinerung Steuerelemente oder „Controls“ genannt. Einige Controls können andere Steuerelemente beinhalten oder gruppieren („Container“). Der Rootcontainer einer Applikation ist die „Form“.
Die zitierten Begriffe entstammen der Dokumentation6 der Klassenbibliothek des Microsoft .NET Framework SDK7 . Alle übrigen haben begrifflich einen sehr engen Bezug zu
allgemeiner definierten Bezeichnungen (vgl. [MS95]).
Rahmenbedingungen
Entscheidungskriterien für das Framework bzw. C# als objektorientierte Programmiersprache, in welchen alle Komponenten dieser Arbeit implementiert sind, waren integrierte ActiveX-Hosts für den ARBrowser und Nachteile anderer Sprachen wie etwa in C++
fehlende, spracheigene UI-Widgets. Ebenso musste eine Lösung gefunden werden, Steuerelemente über dem Fenster des ARBrowser, der das eigensinnige Double-Buffering von
OpenGL einsetzt, ohne Flimmern und Leistungseinbußen konstant zu rendern. Java etwa
unterscheidet in JFC / Swing bzw. AWT zwischen „Lightweight“- bzw. „Heavyweight“Komponenten, die beim Rendering unterschiedliche Prioritäten zugewiesen bekommen.
Alle Steuerelemente sind „lightweight“, der ARBrowser wäre „heavyweight“. „Lightweight“ über „heavyweight“ ist aber nicht ohne weiteres möglich, wie Erfahrungen im
6
7
http://msdn.microsoft.com/library/default.asp?url=/library/en-us/cpref/html/cpref_start.asp
http://msdn.microsoft.com/netframework/
24
KAPITEL 2. GRUNDLAGEN
Projekt MELISA8 gezeigt haben.
Fokussierung und Selektion
Für die Interaktion mit den Steuerelementen sind die Begriffe Fokussierung und Selektion
entscheidend. Fokussierung bedeutet, dass der Anwender zu der Control navigiert und
sie dadurch hervorhebt. Eine Selektion wählt die Control aus und führt die zugehörige
Funktion aus.
8
http://melisa.intranet.gr/
Kapitel 3
State-Of-The-Art
In der noch jungen Geschichte der Augmented Reality steht die Forschung auf dem Gebiet
von adaptiven, personalisierbaren Benutzerschnittstellen noch am Anfang. Bedingt durch
verschiedene Anwendungsgebiete und stetig wechselnde Anwendungszwecke verfolgen
die meisten Anwendungen verschiedene Ansätze hinsichtlich Interaktionsmethoden und
der Darstellung von Systemfeedback. Sicherlich sollte aber das Ziel darin bestehen, durch
die Festlegung von Richtlinien optimale Schnittstellen zu entwerfen, die auf die individuellen Bedürfnisse des Anwenders angepasst sind. Daher werden im folgenden Kapitel
die Konzepte ausgewählter Schnittstellen aus verschiedensten Anwendungsgebieten untersucht.
Im Vordergrund der Analyse steht die Herausarbeitung von Vor- und Nachteilen der Schnittstellen für den Anwender hinsichtlich Benutzerfreundlichkeit und Anwendbarkeit. Vereinzelt wird gesondert auf die Verwendbarkeit für den Anwendungsbereich Cultural Heritage
eingegangen. Ein übergeordnetes Ziel ist die Aufstellung von Richtlinien aus den Projekterkenntnissen für die Gestaltung der multimodalen Schnittstelle. Sie ergeben sich teils aus
Evaluationsergebnissen und Feststellungen des Projekts, teils aus eigenen Ableitungen. In
einigen Projektvorstellungen sind desweiteren schon vom Projekt erarbeitete Richtlinien
enthalten.
25
26
KAPITEL 3. STATE-OF-THE-ART
Das multimodale Design der Schnittstelle steht im Vordergrund. Die Gestaltung anderer
Typen von Interfaces lässt aber ebenso Rückschlüsse auf gute Designkonzepte zu. Schließlich sollte die Problematik effektiver Mensch-Maschine-Kommunikation generell erfasst
werden, um Benutzerfreundlichkeit herzustellen.
Im Anschluss folgt ein kurzer Überblick über gängige Eingabegeräte und -modi, die als
Ergänzung zu Sprache in Frage kommen. An dieser Stelle werden die alternativen Eingabegeräte ausgewählt, die den Anwendern während der Evaluation zur Verfügung stehen
werden. Eine ausführlichere Auflistung aller recherchierten Eingabegeräte findet sich in
Anhang B.
Die folgenden Kategorien sind durch den Typus einer Schnittstelle bestimmt. Jeder Kategorie folgt eine Auflistung von Richtlinien und Bedeutungen für die multimodale Komponente.
3.1
3.1.1
Augmented Reality User Interfaces
Generelles Design von Benutzerschnittstellen für tragbare Geräte
Das Design einer UI für tragbare Geräte ist normalerweise streng an die verwendeten Einund Ausgabemodi gebunden. Mit der Absicht eine möglichst erlebnisreiche Immersion zu
erzielen, haben beide Modi den gleichen Stellenwert für das Design der Schnittstelle. Auf
PDA’s etwa ist der sichtbare Bereich eingeschränkt. Desweiteren muss der Benutzer den
PDA korrekt positionieren, um ein augmentiertes Bild zu erhalten. Gibt das System keine
Hinweise, welche relevanten Objekte sich in der Umgebung befinden, müsste der Benutzer
sogar wissen, zu welchen Objekten Informationen in der Datenbank gespeichert sind. Als
Einschränkung mag auch gelten, dass die Systemressourcen im Vergleich zu Tablets oder
Notebooks knapper und weniger erweiterbar sind. Für Mobiltelefone fallen diese Bedingungen umso drastischer aus. Jedoch wurde von [MLB04] bereits ein Toolkit für diesen
Gerätetypus entwickelt. Voraussetzung ist natürlich eine eingebaute oder angeschlossene
3.1. AUGMENTED REALITY USER INTERFACES
27
Kamera. Es wird davon ausgegangen, dass es eher im Interesse eines Touristen ist, wenn
das System ihn zu möglichst viel Information leitet, ohne dass er interagieren muss oder
durch beschränkte Displaygrößen in seiner Informationsaufnahme eingeschränkt wird.
Das im letzten Kapitel erwähnte System intCulture verfolgt in diesem Sinne diverse Konzepte zur Einbettung von positions- und kontextabhängiger Information.
Beim Tragen eines Head-Mounted-Display könnten sichtbare Elemente der UI, die nicht
unmittelbar am Objekt selbst untergebracht sind, den Benutzer ablenken und seine klare Sicht auf die Umgebung behindern. Denn einerseits ist der Blickwinkel eingeschränkt
und andererseits ist es umständlich, das am Kopf fixierte Gerät während der Benutzung
an- und abzulegen, um die natürliche Sicht wiederherzustellen. Daher sollten entweder so
wenig wie möglich graphische Steuerungselemente verwendet werden oder diese so untergebracht sein, dass sie den Benutzer weder in seiner Sicht noch in seiner Interaktion einschränken. [SBG98] verwenden eine limitierte Anzahl aufgabenrelevanter Steuerelemente unter Berücksichtigung der Verhaltensweisen eines Benutzers während des „Laufens,
Gehens und Stillstands“. Schließlich sollte jene Schnittstelle in der Lage sein, folgende
Restriktionen zu umgehen:
• Graphische Elemente können die Sicht des Benutzers einschränken,
• Pointing-Metapher sind nicht einsetzbar,
• die Interaktionsmöglichkeiten sollten nicht zu komplex ausfallen,
• der Benutzer nimmt visuelle Aktivität nur in einem kleinen Bereich rund um den
aktuellen fokussierten Punkt wahr.
Die resultierende UI verwendet einen reduzierten Satz an ansteuerbaren Elementen, angeordnet in einer elliptischen Form an den Grenzen des Sichtfeldes („Bulleye“). Mittels
simpler Interaktion durch Maustasten kann der Benutzer durch die einzelnen Elemente
blättern und die jeweils hervorgehobenen selektieren. Zusätzlich betonen Audiosignale
oder -kommentare die Auswahlprozedur.
28
KAPITEL 3. STATE-OF-THE-ART
Richtlinien und Bedeutungen
Vermeide jede Ablenkung der Sicht des Benutzers auf die reale Umgebung. Jedes
zusätzliche graphische Element kann die Sicht des Benutzers einschränken. Sogar, wenn
diese sich unmittelbar auf das augmentierte Objekt beziehen, könnten sie als „weltfremde“
Elemente erfasst werden und somit irritieren. Daher sollte entweder der verbrauchte Platz
oder die Anzahl der Steuerelemente begrenzt werden.
Die Unterbringung von so wenig wie möglich Steuerelementen am Rande des Bildschirms
hat sich an der „7±2“-Regel [Mil56] orientiert. Sie ist zur Reduzierung der Komplexität
der Interaktion gedacht, dient in diesem Zusammenhang aber auch zur Reduzierung des
zur Interaktion verwendeten Bildschirmbereichs. Jedoch bleiben die Steuerlemente stets
sichtbar. Der Anwender wird also in jedem Fall in seiner Sicht beeinträchtigt.
Ein Ansatz zur Lösung dieser Einschränkung wäre die Anbringung eines Steuerelements
zum Verstecken der Schnittstelle. Während des Versteckmodus sollte zumindest ein visuelles Steuerelement vorhanden sein, um die sonst sichtbaren Elemente wieder hervorzubringen. Infolgedessen könnte der Anwender aber die Kontrolle über die Interaktion verlieren,
wenn er sich nicht an Kommandos erinnern kann. Werden Interaktionsmöglichkeiten aber
in den augmentierten Bereich verlagert, so dass sie mit dem betrachteten Objekt getrackt
werden, so bleibt die Sicht auf das Objekt selbst frei. Alternativ könnte Transparenz helfen, Teile der Steuerelementhintergründe zu entfernen. Ein klarer Kontrast zum Videobild
muss dabei erhalten bleiben. Dennoch ist die Sicht auch hier nicht komplett frei.
Mit einem alltäglich verwendeten System wäre ein Benutzer in der Lage, jene Kommandos dauerhaft zu erlernen und sie ohne sichtbare Repräsentation zu verwenden. Ein Tourist
wird den ARGuide aber nur für wenige Stunden oder Ausstellungstouren nutzen. Die Interaktionsmodi müssen also unmittelbar verstanden werden können. Daher sollen die Steuerelemente anhand ihrer Beziehung zur Schnittstelle unterschieden werden (vgl. „screen-“
und „world-stabilized“[HFT+ 99]):
• Primäre, dynamische Steuerelemente, die sich auf die Interaktion mit und Manipulation von augmentierten Objekten beziehen,
3.1. AUGMENTED REALITY USER INTERFACES
29
• sekundäre, statische Steuerelemente, die sich auf das Abrufen nicht-objektrelevanter
Information und die Interaktion mit dem System selbst beziehen.
Während der Überlagerung eines Objekts können diejenigen Steuerelemente, die es manipulieren oder nach Kategorien sortierte Informationen liefern können, zusätzlich am
Overlay ausgerichtet werden, um ihren Bezug zum Objekt zu betonen. Zur physikalischen
Repräsentation des Interaktionsmodus können die Steuerelemente ein Teil des Overlays
selbst sein. Beispielsweise könnte der Eingang eines Tempeloverlays hervorgehoben und
mit einer Textrepräsentation versehen werden. Die Metapher würde als Kommando zum
Erhalt einer Einführung in die Geschichte des Tempels dienen. Der Ansatz kann als Ableitung von Interaktionen mit realen Umgebungen verstanden werden, in welcher Steuerelemente stets am Objekt selbst angebracht sind (z.B. Türklinke, Schalter am Fernseher etc.).
Andererseits können sekundäre Informationen wie etwa Benutzerstatus oder allgemeine
Ausstellungsinformationen, die sich außerhalb der Benutzerreichweite befinden und in einem Repository abgespeichert sind, als statische, im Bildbereich fixierte Steuerelemente
präsentiert werden. Durch diesen Ansatz wird verhindert, dass die Steuerelemente permanent getrackt werden müssen.
Vermeide WIMP. In einer Augmented-Reality-Umgebung müssen andere Interaktionsmetaphern als in WIMP verwendet werden, weil der Anwender nicht mehr in einer simplen
zweidimensionalen Welt agiert. Vor allem die in WIMP verwendete Pointing-Metapher ist
in solch einer Umgebung nicht genau genug. Ein Benutzer wird ein flaches Steuerelement
nicht ohne weiteres deuten können, während er sich und ein Eingabegerät frei im dreidimensionalen Raum bewegt. Jedoch sind verschiedene fortschrittlichere Geräte als Maus
und Tastatur auf dem Markt erhältlich, die bei der Navigation, Interaktion und Manipulation in der interaktiven Welt behilflich sind. Zwar konnten vor der Realisierung der Schnittstelle keines der gefundenen Geräte (siehe Anhang B) getestet werden, allerdings wird
prinzipiell davon ausgegangen, dass die meisten eine gewisse (längere) Gewöhnungszeit
benötigen. Daher soll das Design der Schnittstelle die Herausforderung akkurater Interaktion lösen und die Eingabegeräte einfach gehalten werden.
Die Ideen des Desktop-Konzepts bleiben aber immer noch nützlich. Die meisten poten-
30
KAPITEL 3. STATE-OF-THE-ART
ziellen Anwender des ARGuide dürften mit dieser Art Interaktion vertraut sein. Daher
könnten sie das System intuitiver bedienen, wenn einige dieser Ideen integriert sind. Besonders für die statischen Steuerelemente sollte das Konzept in Betracht gezogen werden.
Dennoch scheint dies nur eine Übergangslösung zu sein, da das Ziel sein soll, alle Elemente der Schnittstelle in den augmentierten Bereich zu verlagern. Dies entspricht eher
den alltäglichen Interaktionsszenarios in der realen Welt.
Reduziere aufgabenlösende Schritte. Wie vorhin bemerkt, wurde eine Regel angewandt, um die Komplexität der Interaktion zu minimieren. Um eine gestellte Aufgabe
zu lösen, sollte ein Anwender so wenig wie mögliche Interaktionsschritte ausführen müssen. Zu viele Ausführungsschritte könnten einen kognitiven Ballast erzeugen. Zum einen
müsste ein Tourist aus einem Überfluss an Möglichkeiten auswählen und dabei nicht die
Hauptfunktionalität herausfinden, zum anderen würde er wahrscheinlich nicht in der Lage
sein, die Schritte in Erinnerung zu behalten. Nichtsdestotrotz soll die Anforderung gelöst
werden, für ein Exponat so viele Informationen wie möglich zu präsentieren. Ein Ansatz
könnte sein, das Layout der sichtbaren Schnittstelle dynamisch anzupassen, anstatt alle
Interaktionsmöglichkeiten auf einmal darzustellen.
Verwende Audio als Feedbackmodus. Die meisten Benutzerschnittstellen verwenden
Audio sekundär als Warnungs- oder Bestätigungssignal. Wenn aber visuelle, sichtverdeckende Elemente möglichst vermieden werden sollen, kann Audio jede Benutzeraktion
kommentieren. Neben simplen Tönen können Audiokurzkommentare („Audio Cues“) als
Feedback verwendet werden. Dennoch sollte auf die Gestaltung der Audiodateien großen
Wert gelegt werden, damit sie den Anwender nicht belästigen (z.B. das Rotieren eines
Overlays und gleichzeitige Bestätigung jeder einzelnen Gradänderung).
3.1.2
Haptische Benutzerschnittstellen („Tangible UI“)
GUI verwenden teilweise sehr abstrakte Repräsentationen der Interaktionsoptionen, z.B.
Ikonen. Es kann dann vorkommen, dass ein Anwender ihre Bedeutung interpretieren muss,
besonders dann, wenn keine Textrepräsentation vorhanden ist.
3.1. AUGMENTED REALITY USER INTERFACES
31
Tastbare Benutzerschnittstellen verwenden dagegen die physikalischen Objekte der realen Welt, um den Status des Systems zu ändern. In [PTB+ 02] wurde eine „tangible UI“
zur Evaluation von Cockpitkonsolen in Flugzeugen entwickelt. Marker werden zur Augmentierung von Interaktionsobjekten und -modi als physikalische Schalter („Handler“)
oder Datencontainer verwendet. Das Muster auf dem Marker ist eine Abstraktion des augmentierten Symbols. Die Marker werden hier „Tiles“ genannt.
Alle gleichzeitigen Anwender des Systems haben einen gemeinsamen Arbeitsbereich, in
welchem sie sowohl mit physikalischen als auch digitalen Handlern interagieren („Phicons“), auch wenn sie keine See-Through-Displays tragen. Die „Tiles“ werden in „Data“,
„Operation“ und „Help Tiles“ unterschieden. Alle Operationen werden durch Kombination dieser Marker durchgeführt, und zwar genau dann, wenn diese sich annähern oder
nebeneinander gehalten werden.
Richtlinien und Bedeutungen
Vermeide es, den Benutzer von seiner Aufgabenlösung abzulenken. Neben der Richtlinie die Sicht eines Anwenders nicht unnötig zu blockieren, sollten Anordnung und semantische Abstimmung der Steuerelemente gut überlegt sein. Wenn ein Anwender nicht
weiß, woher er kommt oder wohin er mit den nächsten Schritten gehen kann, könnte dies
zu Verwirrungen führen. Wenn zu viele Interaktionen nötig sind, um eine bestimmte Aufgabe zu lösen und diese nicht direkt mit dem eigentlichen Ziel in Verbindung gebracht
werden können, könnte der Benutzer die Schritte vergessen und müsste sie vorher trainieren oder sich jedesmal an sie erinnern. Ziel sollte es aber sein, mit der Schnittstelle intuitiv
zu interagieren, ohne den Weg zum Ziel, sondern nur das Ziel selbst zu kennen.
„Tiles“ benötigt nur eine geringfügige Anzahl von Steuerelementen für die Interaktion.
Platz wird durch die Selbstmanipulation eines Steuerelements eingespart. Es wechselt seine Bedeutung, nicht aber Position und physikalische Präsenz. Durch das Erlernen weniger
operationaler Aufgaben kann ein Anwender das gesamte System manipulieren.
32
KAPITEL 3. STATE-OF-THE-ART
Verwende die physikalische Umgebung zur Anpassung der Schnittstelle. Erfahrungen zufolge, ist es aus didaktischer Sicht essenziell für den Lernprozess, fühlbaren Kontakt mit den Objekten zu haben, von denen oder über die gelernt werden soll, insbesondere, wenn Abläufe geschildert werden (vgl. Gebrauchsanleitung). Unterbewusst könnten
das Erkennen von und Erinnern an Formen und Strukturen einem Anwender helfen, das
Verhalten von Steuerelementen zu erfassen. Demnach werden die „Tiles“ in Händen gehalten („Operation“) oder können auf dem Whiteboard bewegt werden („Data“). Unnötige
Elemente sind infolgedessen niemals vorhanden und müssen nicht versteckt werden. Stattdessen werden ihre Inhalte manipuliert, um ihnen ein anderes Verhalten zu geben.
Jedoch sind die meisten Ausstellungen unglücklicherweise nur zur Anschauung gedacht.
Ihre Exponate verbergen sich hinter Vitrinen, dürfen nicht angefasst werden oder können
nur aus der Distanz betrachtet werden. Direkte Manipulationen sind also nicht möglich. Erschwerend kommt hinzu, dass dynamische Eingriffe in die von der Kamera aufgenommenen Umgebung keinen Einfluss auf das Tracking haben. Markerloses Tracking nutzt Referenzbilder quasi als natürliche Marker. Im aktuellen Entwicklungsstadium des ARBrowser
sind mehrere Referenzbilder für eine Konfiguration möglich, allerdings kann nicht jedem
Bild ein eigenes Overlay zugewiesen werden. Und das Laden einer neuen Konfiguration
kann nur durch ein Anwender- (z.B. Tastendruck) oder Systemereignis (z.B. Positionswechsel) ausgelöst werden, nicht aber durch Veränderungen im Videobild. Später wird es
dann eventuell möglich sein, Interaktionen durchzuführen, wie sie in den Nachstellungen
3.1 und 3.2 als Sequenz dem „Tiles“-Modell nachempfunden sind.
Binde Personen in die Interaktion ein, die kein AR-Equipment tragen. Untersuchungen und persönliche Erfahrungen haben gezeigt, dass nach der Diskussion und Verifizierung gelernter Inhalte mit anderen Personen Informationen dauerhafter und lückenloser
gespeichert werden können. In einer Ausstellung nehmen viele Menschen Informationen
auf, was aber nicht notwendigerweise bedeutet, dass sie auch ihre Bedeutung verstehen.
Die Beteiligung anderer Personen könnte helfen, komplexe Prozeduren zu verstehen. Zum
Beispiel könnte ein Rollenspiel eine Situation nachempfinden, die sich im Leben der antiken griechischen Bürger abgespielt hat. Jede Person muss das Verhalten und den Lebenslauf seines Charakters erlernen und verbreitet das neue Wissen durch das Spielen der
3.1. AUGMENTED REALITY USER INTERFACES
Abbildung 3.1: Geste „Daumen
rechts“ führt zum Wechsel des
Overlay.
33
Abbildung 3.2: Geste „Daumen
rechts“ zeigt nächstes Overlay.
Rolle. Technisch gesehen, würde dies zu Tracking, Klassifikation und Augmentierung von
Personen anstatt von Objekten führen.
Nach dem Ansatz von „Tiles“ ist jeder in der Lage, mit der Umgebung zu interagieren,
selbst wenn er keine sachgerechten Geräte trägt. Durch das Diskutieren verschiedener
Konstellationen von Steuerelementen auf der Cockpitkonsole mit vielen Expertenmeinungen könnte ein besseres Design erzielt werden.
Verwende ein aktives dynamisches Hilfesystem. Anstatt Hilfen erst nach direktem
Aufruf entsprechender Funktion zu erhalten, könnte das System das Benutzerverhalten
aufzeichnen, auswerten und entsprechend adaptiertes dynamisches Feedback zurückliefern. Ein Anwender soll sich nicht nach wertvollen Tips erkundigen müssen. Stattdessen
könnte die Schnittstelle Erscheinung und Verhalten den Benutzeraktionen entsprechend
anpassen. „Tiles“ verwendet einen speziellen Marker, der an andere angelegt werden kann,
um zusätzliche Informationen zu erhalten. Nichtsdestotrotz muss der Anwender immer
noch aktiv eingreifen, aber die Hilfsinformation wechselt dynamisch.
34
3.1.3
KAPITEL 3. STATE-OF-THE-ART
Freihandbenutzerschnittstellen („Hands-free“ UI)
Bisherige Konzepte benötigen stets ein physikalisches Instrument, um mit der Schnittstelle zu interagieren. Eine komfortablere, weil natürlichere Idee, dürfte die Verwendung
freihändiger Interaktionstechniken sein, bei welchen Teile des Körpers zum Eingabegerät
werden (Kopf-, Lippen-, Augenlid- oder Armbewegungen, Gesten, Sprache, etc.). Andere,
körperfremde Geräte sind eher eine weitere Abstraktionsschicht zwischen Anwender und
Schnittstelle.
Das Projekt „Tinmeth“ [PT03] befasst sich mit freihändiger Navigation und Manipulation in Außenbereichumgebungen. Anwender sollen in der Lage sein, dreidimensionale
Objekte in der Außenwelt zu erstellen und sie in der Umgebung zu überlagern. Als Eingabegerät werden simple Pinch Gloves verwendet, deren Daumen mit herkömmlichen Markern in-side-out getrackt werden. Das (visuelle) Interface wird nun anhand von Position
und Orientierung der Daumen in das Sichtfeld eingeblendet. Es wird also dynamisch in das
wahrgenommene Videobild gerendert, auch wenn die Steuerelemente selbst statisch sind
und sich nicht direkt auf Objekte in der Umgebung beziehen. Die Menüs können durch das
Drücken eines Daumens und eines Fingers, der auf einen Eintrag zeigt, angewählt werden.
Richtlinien und Bedeutungen
Achte auf konsistente Darstellung augmentierter Elemente. Die Augmentierung einer Schnittstelle anhand von Trackingkoordinaten, die der Anwender selbst aktiv definiert, hat gegenüber statischen Versionen einige Vorteile. Sie wird dort dargestellt, wo
der Benutzer es positioniert haben will, und kann auf einfache Weise durch Weghalten
der Handschuhe aus dem Kamerawinkel versteckt werden. Die Hände müssen wohl aber
ruhig gehalten werden, wenn der Anwender alle Elemente ohne Verwacklungen und Flimmern wahrnehmen möchte. Auch könnte ständiges Ausstrecken der Arme den Benutzer
ermüden lassen, da sie sich im Blickfeld der Kamera befinden müssen.
Ermögliche schnellen und freien Zugriff zu Menüelementen. Softwareergonomischen Richtlinien für den Desktop zufolge [fN95] [fN98a] ist es sehr wichtig, einen kom-
3.1. AUGMENTED REALITY USER INTERFACES
35
pletten Überblick über die Systemfunktionen zu haben, auch wenn die Anzahl der Interaktionsmöglichkeiten hoch und komplex ist. Daher sollten Menüs oder - als eine von
WIMP unabhängigere Definition - „Interaktionsschalter“ („Handler“) schnell und frei erreichbar sein. Infolgedessen sollte ein Benutzer Einträge ohne langes Suchen finden und
sie unmittelbar selektieren können. In der Umgebung von „Tinmeth“ kann ein Anwender alle Einträge durch das Zusammendrücken von Daumen und Zeigefinger auswählen.
Er muss kein (körperfremdes) Interaktionsgerät bewegen oder komplexe Schritte ausführen. Alle benötigten Elemente sind auf dem Bildschirm sichtbar. Darüber hinaus wurden
viele weitere konkrete Interaktionsmetaphern entwickelt. Da sie aber eng an die Aufgabe
der Außenweltmodellierung gebunden sind, werden sie an dieser Stelle nicht im Detail
beschrieben.
Halte die Hände des Benutzers frei. Eine Intention von „Tinmeth“ ist es, die Hände
des Benutzers möglichst frei zu halten. Er verwendet stattdessen seine Hände selbst als
natürliches Interaktionsgerät. Aus diesem Grund kann er stets nicht-AR-relevante Aufgaben (z.B. das Öffnen einer Tür) lösen, ohne das System zu verlassen. Zudem benötigt er
keine Trainingsphase zum Erlernen der Funktionalität eines Eingabegerätes. Ein erwartetes, aber missverstandenes Verhalten des Gerätes wird ebenso vermieden.
Stelle verschiedene Interaktionsmodi zur Verfügung. Zwar wurden die fortgeschrittenen Interaktionsmetaphern zur Erstellung der Außenwelt nicht vorgestellt, dennoch sind
sie überaus wichtig, um die Aufgaben schnell und erfolgreich abzuwickeln. Es wurden
verschiedene Techniken entwickelt, um dreidimensionale Primitive und komplexe Objekte augmentiert in der Umgebung darzustellen. Für einen Anwender kann es also hilfreich
sein, eine Aufgabe auf mehrere Weisen zu lösen. Manche sind weniger komplex, manche
schneller und andere wiederum komfortabler. Die Vorzüge des Anwenders würden über
die Auswahl entscheiden.
Die Idee des Projekts betont das Ziel, dem Anwender eine simple, aber funktionsreiche
Schnittstelle für jeden Benutzertypus zu geben. Ein elektronischer Touristenführer muss
ebenso ein breites Feld an Benutzerfähigkeiten abdecken können. Jedoch wird das Ziel der
36
KAPITEL 3. STATE-OF-THE-ART
multimodalen Komponente nicht sein, eine Vielzahl an Interaktionsmetaphern zu bieten,
sondern wenige für die Bedienung des gesamten Systems (z.B. „Show < media > of <
item >“ mit < media > als Medientyp Video, Text, Audio, etc. und < item > als Exponatbezeichner). Ein Benutzer wird nicht zwischen verschiedenen Modi wechseln müssen,
vielmehr kann er sich jederzeit frei für eine Methode entscheiden.
3.1.4
Hybride Benutzerschnittstellen („Hybrid UI“)
Im Projekt „MARS“ wurde eine sogenannte „Hybrid UI“ [HFT+ 99] zur Kollaboration von
Outdoor- und Indoor-AR-Systemen entwickelt. Hauptanliegen ist es, die Modifikation des
mobilen Outdoorinterface durch die Manipulation des Indoorinterface zu ermöglichen. Im
Außenbereich wird eine Kombination von HMD, GPS-Sensor, Trägheitssensor und/oder
einem PDA zur Navigation verwendet, wogegen im Innenbereich mittels eines Desktopsystems oder eines (immersiven) Projektionsbildschirms das Weltmodell verändert und
mit Informationen belegt werden kann. Das System unterstützt verschiedene Arten von
Medien wie etwa Text, Audio, statische Bilder, Videos, 3D-Graphiken und Panoramabilder.
Die Outdoor-Schnittstelle ist in zwei Typen von Steuerelementen unterteilt. „World-stabilized“ Objekte sind an realen Weltmodellobjekten orientiert und ausgerichtet und bewegen sich mit Benutzerposition und -orientierung. „Screen-stabilized“ Objekte überlagern
ortsfest das ebene Videobild der Sicht des Benutzers auf dem Ausgabegerät. Dagegen ist
die mobile PDA-Schnittstelle nicht immersiv und präsentiert das Weltmodell als zweidimensionale Karte. Ein Anwender kann die Repräsentation modifizieren und damit einen
unmittelbaren Informationsaustausch im dreidimensionalen Modell auslösen. Im Innenbereich kann das Modell auf einem nicht-immersiven Desktop angezeigt werden. Fenster
(„Windows“) dienen der Auf- und Verteilung der Information der 3D-Umgebungskarte.
Dagegen kann er in die immersive Projektion per Handinteraktion eingreifen.
Unter Beachtung der Erkenntnisse von „MARS“ muss eine Benutzerschnittstelle für eine
Augmented-Reality-Plattform nicht notwendigerweise uniform sein und auf einem spezifischen Gerät bedient werden. Vielmehr können mehrere unterschiedliche Einzelgeräte
3.1. AUGMENTED REALITY USER INTERFACES
37
ein Gesamtsystem bilden. Es ist wichtig, den Zweck der Benutzerschnittstelle zu definieren, um die Systemkomplexität zu reduzieren. So ist es dem Anschein nach einfacher,
Objekten Informationen über einen nicht-immersiven Display zuzuordnen als über einen
immersiven HMD.
Richtlinien und Bedeutungen
Ordne die Elemente der Schnittstelle nach Relevanz. Üblicherweise werden die untergeordneten Steuerelemente zu einem Thema ihrer Bedeutung nach durch graphische
Features und räumlich zusammengehörige Anordnung gruppiert [MS95]. In einer ARUmgebung muss dieser für Desktop-Oberflächen gedachte Ansatz in die dritte Dimension
verlegt werden (z.B. in „MARS“ farblich hervorgehobene Gebäudeoverlays zur Gruppierung von Gebäuden derselben Fakultäten auf einem Campus). In „MARS“ werden Elemente primär nach ihrer Zugehörigkeit unterschieden. Entweder sie beschreiben Informations- und Interaktionspunkte in der getrackten 3D-Landschaft, oder sie steuern Systemzustände, die das augmentierte Modell indirekt beeinflussen. Interaktionen mit der Welt
sind also strikt getrennt von denen mit dem System. Wichtig ist hier, dass die Steuerelemente nicht nur räumlich und graphisch getrennt sind, sondern wahrscheinlich auch durch
verschiedene Interaktionsmetaphern. Wie aber einige Abschnitte zuvor festgestellt wurde,
soll deren Anzahl möglichst gering sein.
3.1.5
Multimodale Schnittstellen (MUI)
Nach der Definition einer klassischen multimodalen Schnittstelle [Ovi02] werden typische
Steuerelemente wie in graphischen Benutzerschnittstellen (GUI) durch direkte kombinierte Verarbeitung mehrerer Eingabedatenströme abgelöst. In GUI müssen Steuerelemente
mit dem Eingabegerät betätigt werden, und in MUI fängt ein unsichtbarer Interpreter die
Datenströme von Interaktionsgeräten ab und integriert sie in ein einzelnes Datum, welches
ein multimediales Feedback des Systems auslöst. Als Medientypen kommen u.a. Text-ToSpeech (TTS), Non-Speech Audio, Graphiken und Animationen in Frage. In MUI fällt also
theoretisch die abstrakte graphische Ebene zwischen Benutzer und Applikation, repräsen-
38
KAPITEL 3. STATE-OF-THE-ART
tiert durch Ikonen, Menüs, Tabulatoren, Fenster etc., weg und wird durch unmittelbare, im
Hintergrund ablaufende Interpretation ersetzt.
Für eine AR-Anwendung bedeutet das Fehlen herkömmlicher GUI-Steuerelemente auch
der Wegfall bzw. die Reduzierung zweidimensionaler Interaktion mit einer dreidimensionalen Umgebung. Der Anwender muss also nicht von 2D nach 3D abstrahieren. Durch
die Addition natürlicher, erkennungsbasierter Eingabemodi könnte zudem die Abstraktion
von Eingabegerät zu Interaktion entfallen (z.B. Flystick und Piemenü (GUI) vs. Sprache
und Pen (MUI)).
Natürlich kommt es immer auf den Anwendungszweck an, um die Frage zu beantworten,
wann welche Arten von Schnittstellen eingesetzt werden sollten. Im Projekt „Smart Sight“
[YYDW99] wurde eine multimodale Schnittstelle für einen elektronischen Touristenführer eingesetzt. Zwei vernetzte Rechner teilen sich die Prozesse um Aufnahme, Verarbeitung und Feedback. Das Teilsystem auf dem in einem Rucksack verstauten, leichtgewichtigen Sub-Notebook übernimmt die Aufgaben des GPS-Positionstracking, der Spracherkennung, -analyse und -synthese, der Audioeingabe und -ausgabe sowie der Verwaltung
von Informationsdatenbank, Positionskarten und Dialogsystem. Das zu einem am Gürtel befestigten Kleinrechner übertragenen, multimodal interpretierten Feedback wird über
einen HMD ausgegeben. Jenes Teilsystem sendet zuvor wiederum die Daten von Gestenund Zeichenerkennung, die über eine Miniaturkamera aufgenommen wurden, an den Interpreter auf dem vernetzten Gerät. Zeichenerkennung bedeutet in diesem Zusammenhang
die Untersuchung des Kamerabildes auf klassifizierte Muster und Textphrasen wie etwa
Warnschilder oder Wegweiser.
Anhand einer Beispielapplikation wurde gezeigt, dass Touristen mit dieser Systemarchitektur in der Lage sind, Schnappschüsse und Kurzvideos aufzunehmen, sie zu organisieren
und zu kommentieren („Tourist Diary“). Ein weiteres Beispiel zeigt, wie die Umgebung
bilderkannt und semantisch interpretiert werden kann. So können etwa Bezeichnungen auf
Schildern erkannt und in die Sprache des Anwenders übersetzt werden.
3.1. AUGMENTED REALITY USER INTERFACES
39
Richtlinien und Bedeutungen
Das System kennt die Umgebung besser als der Anwender. Datenbanken mit detaillierten Standortinformationen in Kombination mit Positions- und Orientierungsdaten des
Anwenders erlauben eine kontextsensitive Präsentation von Informationen für die Exponate einer Ausstellung. Ohne dass ein Anwender eingreift, kann das System anhand der Daten, die das Tracking liefert, automatisiert Inhalte anzeigen („context-awareness“). Wann
immer möglich soll die Schnittstelle den Anwender ohne dessen Aufforderung bei seinen
Interaktionen unterstützen.
Nutze möglichst viele, einfach und schnell auswertbare Informationsquellen aus. In
einer multimodalen Umgebung lassen sich zusätzlich die Daten passiver Eingabeströme
analysieren, wie etwa die Frequenz von Tastendrücken, das Stimmvolumen oder aufgeregte Handbewegungen. Zeichnet man auch die aktiven Benutzeraktionen auf, könnte die
Analyse beider Datenströme im Vergleich zu Systemnachrichten Rückschlüsse auf korrektes oder fehlerhaftes Systemverhalten geben. Das Ergebnis der Analyse ließe sich dann
dazu verwenden, die Schnittstelle dem Benutzerverhalten anzupassen oder zumindest Hilfestellung zu schwierig erscheinenden Interaktionen zu geben.
Lass den Anwender die Kontrolle der UI stets bewahren. Damit der Anwender den
Dialog verstehen kann, muss das System ihn durch Feedback anleiten können. Reaktives
Feedback erfolgt schon dann, wenn das System korrekt auf die Anfragen des Anwenders
reagiert und ihn dadurch in seiner Interaktion bestätigt. Besser scheint es aber, wenn das
System durch vergangene Aktionen auf mögliche zukünftige vorausschaut und den Anwender anleitet. Feedback kann in Form der schon erwähnten Multimediatypen, Text oder
Farb- und Helligkeitsunterschiede erfolgen.
3.1.6
Avatargesteuerte Schnittstellen
Einem herkömmlichen realen Szenario nachempfunden, kann ein elektronischer Touristenführer durch einen Avatar repräsentiert werden. Die Notwendigkeit, zu einem unper-
40
KAPITEL 3. STATE-OF-THE-ART
sönlichen System zu abstrahieren, entfällt, denn alle Interaktionen erfolgen über den Avatar.
Im Projekt „GEIST“ [AGS04] etwa wurde ein derartiger Touristenführer als Lernplattform für Besucher der Stadt Heidelberg in Deutschland entwickelt. In einem erzählenden
Dialog informiert er den Besucher über die Geschichte zur Zeit des Dreißigjährigen Krieges („Digital Storytelling“), abhängig von seiner Position und Orientierung, die von GPS,
Trägheitssensoren und Videotracking über Binoculars an einem besuchten Ausstellungsort
erfasst werden. Der Anwender interagiert mit sogenanntem „Magic Equipment“ wie etwa
einem „Magic Book“, das seine Erfahrungen über bereits besuchte Orte aufführt.
Der Besucher erlebt die Geschichte als nicht-lineare Erzählung. Er kann sich frei bewegen
und informieren. Der Avatar passt sein Verhalten den Benutzerpräferenzen und -aktionen
kontinuierlich an. Durch das Lösen von Quests soll der Lernprozess gezielt gefördert werden. Die Gestaltung von Geschichte, Inhalten und Quests wird von Experten aus Pädagogik, Stadtplanung und Historik sowie Touristenführern mit Hilfe eines Autorensystems
übernommen.
Richtlinien und Bedeutungen
Lass den Anwender den Kontext spielerisch lernen. Ein Hauptziel von „GEIST“ besteht darin, dem Besucher Geschichte spielerisch zu erklären. Er soll die Informationen
durch gezieltes Lösen von Aufgaben in einer Quest erhalten. Erfahrungen zufolge ist Eigeninitiative ein wichtiges didaktisches Konzept zur dauerhaften Speicherung gelernter
Inhalte.
Dagegen sprechen Erfahrungen im Rahmen von Archeoguide [VIK+ 02] und intCulture
dafür, dass Touristen Inhalte gerne ohne eigene Interaktion präsentiert bekommen möchten. Die Systeme liefern die Informationen dementsprechend „context-“ und „locationaware“, also abhängig von Eingaben, die nicht aktiv durch den Anwender erfolgen. „GEIST“
berücksichtigt diesen Wunsch. Der Avatar kennt die Umgebung und liefert auch automa-
3.1. AUGMENTED REALITY USER INTERFACES
41
tisiert Informationen. Lediglich soll der Anwender das nächste zu besuchende Exponat
selbst bestimmen, und zwar unter Berücksichtigung von Lösungsmöglichkeiten gestellter
Aufgaben. IntCulture sieht hier vorkonfigurierte Touren vor, die der Besucher abgehen
kann. Zusätzlich hilft er dem Anwender bei der Wegfindung.
Die multimodale Schnittstelle soll aufgrund der unterschiedlichen, aber begründeten Ansätze beide Konzepte integrieren. Der Anwender wird selbst auswählen können, wie er die
Ausstellung kennenlernen möchte. Das Lernkonzept von „GEIST“ könnte vor allem für
Kinder und Jugendliche interessant sein.
Immersion erhöht den Komfort. Es wird angenommen, dass der Besucher sich umso
immersiver in der Geschichte fühlt, desto weniger er zwischen Interaktionsgeräten bzw.
Schnittstelle und System abstrahieren muss. Aus Erfahrungen aus der Didaktik ergeht zudem, dass möglichst viele Sinne angesprochen werden sollen, damit sich der Lerninhalt
vom Lernenden entfremdet (visuell, auditiv, taktil, olfaktorisch, gustatorisch).
„GEIST“ bestätigt dies durch die Verwendung des „Magic Equipment“, welches eher als
Bestandteil der virtuellen Welt als der realen angesehen werden kann. Durch die Binoculars, die jederzeit abgesetzt werden können, wird der visuelle Sinn angesprochen. Das
zur Audiowiedergabe eingesetzte Headset bedient den auditiven Wahrnehmungssinn. Die
Schnittstelle von „GEIST“ baut durch Digital Storytelling eine virtuelle Welt in der realen
auf, ohne dabei eine der beiden zu verlassen. Der Avatar in der Rolle des „menschlichen“
Touristenführers übernimmt durch seine Kenntnisse und seinen Charakter ebenso die Rolle des Lehrenden. Überdies merkt der Anwender nicht, dass er eigentlich eine Datenbank
anspricht, wenn er Informationen im „Magic Book“ abruft.
Interaktion ist notwendig zum Verstehen von Beziehungen und Sachverhalten. Aus
der Kombination von aktiver, investigativer Interaktion und der strukturierten, in eine
Handlung eingebetteten Präsentation von Informationen lässt sich folgern, dass dies nach
den Expertenmeinungen eine wichtige Voraussetzung für das Verstehen der Beziehungen
und Sachverhalte der Geschichte war. Da die Evaluation von „GEIST“ nicht vorliegt, kann
42
KAPITEL 3. STATE-OF-THE-ART
dieser Rückschluss allerdings nicht überprüft werden. Die multimodale Schnittstelle soll
dem Anwender aber denselben Freiraum bei seinen Interaktionen überlassen.
3.1.7
Spielbasierte Schnittstellen („Game-Based Interfaces“)
Wie in [Die04] festgestellt, sind die Schnittstellen von Computerspielen immer speziell
auf die Anforderungen ausgerichtet. Vergleicht man sie mit herkömmlichen DesktopApplikationen, die sich in den meisten Fällen nur durch die Anordnung der Steuerelemente, nicht aber durch Interaktionskonzepte unterscheiden, so fallen sie vor allem durch
einfache Funktionalität, angepasste Schwierigkeitsgrade und Hilfestellung leistende Tutorials auf. Als Fazit dessen seien die Spieler durchweg motiviert. Die Idee war nun, die
Vorteile dieser Schnittstellen auf arbeitsaufgabenrelevante Applikationen anzuwenden.
Anzumerken ist, dass es sich bei den nun vorgestellten Beispielapplikationen nicht um
AR-Anwendungen handelt. Die Konzepte geben aber dennoch Ideen für das Design der
multimodalen Schnittstelle.
In der Applikation „ContextControl“ passt sich die Schnittstelle kontinuierlich an den
Erfahrungsgrad des Anwenders an. Um ihn nicht zu irritieren, werden ungenutzte oder
momentan nicht benötigte Inhalte und Funktionen ausgeblendet. Außerdem erlernt der
Anwender die Applikation Stück für Stück, indem ihm notwendige Interaktionen schrittweise erklärt werden.
Bei der Beispielanwendung „Net-Fly“ handelt es sich um ein graphisches Visualisierungssystem zur Anfrage von Suchmaschinen. Jedem Suchresultat wird eine Metapher zugeordnet, um dessen Relevanz und Bedeutung klarzustellen. Außerdem schlägt das System
zusätzliche Stichworte vor, mit denen sich die Suche verfeinern lässt.
Richtlinien und Bedeutungen
Motivation ist einer der Schlüssel zur Benutzerfreundlichkeit. Benutzerfreundlichkeit bedeutet in diesem Zusammenhang, dass der Anwender motiviert wird, das System
3.2. EINGABEGERÄTE
43
und dessen Fähigkeiten kennenzulernen. Allerdings sollen sich schon zu Beginn Lernerfolge einstellen, die nicht nur die Handhabung des Systems betreffen, sondern auch den
eigentlichen Anwendungszweck der Applikation erfüllen. Zur Erfüllung der in [Die04]
genannten Kriterien von Spieleschnittstellen soll die multimodale Schnittstelle neben den
in den Beispielapplikationen erwähnten Techniken vor allem Feedback verwenden. Statt
aber die Benutzeraktionen nur mit Verifizierung oder Falsifizierung zu kommentieren, sollen Alternativen zur Lösung einer Arbeitsaufgabe vorgeschlagen werden. Das bedeutet,
dass Inhalte auf unterschiedliche Art und Weise abgerufen werden können. Beispielsweise
soll der Anwender wählen können, mit welchem Eingabegerät er die Schnittstelle bedienen möchte.
Die Interaktion mit der Schnittstelle soll generell immer simpel sein. Der Anwender soll
nicht darüber nachdenken müssen, wie er eine Aufgabe zu lösen hat. Unter Zuhilfenahme
der Tutorialtechnik soll dem Anwender jede Funktion erklärt werden, die er zum ersten
Mal ansteuert. Die Hilfe soll natürlich auch danach stets zur Verfügung stehen. Darüber
hinaus soll der Modus der Interaktion der Funktion angepasst sein. Einfache Selektionsund Navigationsaufgaben können unimodal bearbeitet werden, komplexere Manipulationsaufgaben könnten durch multimodale Eingabe vereinfacht werden.
3.2
Eingabegeräte
Prinzipiell kann sich eine multimodale Schnittstelle aus vielen Arten von Eingabegeräten
zusammensetzen. Den Vorzug erhalten allerdings natürliche, erkennungsbasierte Modi. So
steht Sprache als erstes Werkzeug bereits fest. Eigentlich sollte die Wahl des alternativen
bzw. ergänzenden Eingabegerätes nach dem Design der Schnittstelle erfolgen, wenn genau
feststeht, welche Ansprüche an die Interaktion die Funktionen stellen. Eine grundsätzliche
Anforderung soll aber sein, dass jedes beliebige Gerät verwendet werden kann, um das
System zu steuern. Ergo wird die Auswahl von der Bedienbarkeit und dem Komfort für
den Anwender anhängig sein.
Im Detail sollen folgende Anforderungen erfüllt werden:
44
KAPITEL 3. STATE-OF-THE-ART
• freihändige Bedienung,
• natürliche Handhabung,
• beschränkte Anzahl an Knöpfen und anderen Interaktionsmodalitäten,
• leichtes Gewicht,
• bei mobiler Anwendung Anbringung am Ausgabegerät oder Körper möglich,
• kurze Eingewöhnungszeit.
3.2.1
Gloves
Das Angebot an Handschuheingabegeräten reicht von Pinch Gloves (elektrischer Kontakt
zwischen zwei Fingern) über Data Gloves (Drahtverbindung für jedes positionsgemessene
Gelenk) bis hin zu Cyber Gloves (dünne elektrische Drucksensoren, deren Verformung
Auskunft über die Stellung der Finger geben). Die Hände sind (fast) frei, da die Sensorik in den Handschuh eingebunden ist. Je nach Ausstattung sind die Handschuhe verkabelt
oder kabellos, mit unterschiedlicher Anzahl an Sensoren. Allerdings müsste ein Anwender
sich an das ständige Tragen gewöhnen, was beispielsweise bei warmen Außentemperaturen auf Dauer unangenehm werden könnte. Im Alltag werden Hände zur Gestikulierung
und zu jeder Art taktiler Handlung verwendet. Ein Anwender muss also nicht abstrahieren. Dennoch sind spezifische Gesten zu erlernen, um etwa Objekte zu selektieren und zu
bewegen, die real eigentlich nicht greifbar sind. Eine gewisse Trainingsphase würde also
notwendig sein. Gleichwohl ändert sich an der Art der Eingabe aber wenig nach der Eingewöhnungszeit. Es könnten also stetig neue Gesten erlernt werden, ohne dass die Geräte
viele Interaktionsmodalitäten bereitstellen müssten. Die Schnittstelle selbst, die die Gesten erkennt, definiert die Erweiterbarkeit der Eingaben.
Trotz der Erfüllung nahezu aller Anforderungen kommen Handschuhgeräte derzeit für den
Einsatz nicht in Frage. Zum einen gibt es Zweifel am Komfort, zum anderen müsste der
Anwender Gesten trainieren und dauerhaft erlernen. Es besteht die Frage, ob die Schnittstelle derart viele Funktionen bereitstellen wird. Desweiteren muss die Schnittstelle die
3.2. EINGABEGERÄTE
45
Gesten- bzw. Fingerdruckerkennung selbst implementieren, was im Rahmen dieser Arbeit
zu umfangreich werden könnte.
3.2.2
Touchpads
Touchpads eignen sich gut zur zweidimensionalen Gestenerkennung. Dem Beispiel der
Mausgesten folgend (z.B. integriert in die Webbrowser Opera1 und Firefox2 ) können durch
Fingerkuppenbewegungen auf den Oberflächen der Pads Linienzüge verfolgt werden. Im
Angebot finden sich sogar Pads, die eine Erkennungssoftware mitliefern und einfach angebunden werden können. Außerdem gibt es unabhängige Softwarekits (z.B. StrokeIt3 ),
die im Hintergrund arbeiten und sich als Listener an spezifizierte Deviceports einhaken
(Hook). Die Eingabe erfolgt relativ natürlich und der Eingabewortschatz ist ebenso erweiterbar wie der der Handschuhgesten. Problematisch ist allerdings die freihändige Bedienung. Das kleinste gefundene Pad hat immerhin noch Ausmaße von etwa 12cm in der
Breite. Entweder es muss in der Hand gehalten, oder an einem erreichbaren Teil des Körpers angebracht werden. Es wurde auch an selbstgebaute Pads gedacht, wie etwa ein an
das Handgelenk gebundenes, flexibles Touchpad (z.B. von Synaptics4 ). Dies ist aber zu
aufwendig, da zusätzlich noch Lösungen für Datenübertragungswege, Halterungen etc.
gefunden werden müssten.
Touchpads werden vor allem wegen ihrer Unhandlichkeit momentan nicht an die Schnittstelle gebunden. Sie eignen sich noch nicht für die mobile Verwendung. In puncto Erweiterbarkeit haben sie zwar denselben Vorteil wie die Handschuhgeräte, allerdings lassen
sich keine dreidimensionalen Metaphern ausführen. Ebenso erfordern Gesten eine gewisse, möglicherweise längere Eingewöhnungszeit, die einem Touristen bei seinem Ausstellungsbesuch meist nicht zur Verfügung steht.
1
http://www.opera.com/features/mouse/
http://optimoz.mozdev.org/gestures/
3
http://www.tcbmi.com/strokeit/
4
http://www.synaptics.com/
2
46
3.2.3
KAPITEL 3. STATE-OF-THE-ART
Gamepads
Gamepads entsprechen eigentlich nicht den gewünschten Anforderungen. Um sie adäquat
zu bedienen, müssen sie in beiden Händen gehalten werden. Sie liegen zwar ergonomisch
in der Hand, aber der Benutzer muss zwischen Knöpfen und Bedeutung der Interaktion
abstrahieren, ergo handelt es sich nicht um ein natürliches Eingabegerät. Die Vielfalt an
Knöpfen, die wahrscheinlich nicht alle verwendet werden müssen, können den Benutzer
irritieren. Außerdem können Gamepads nur schwierig verstaut werden. Die Eingewöhnungszeit dürfte von der Anzahl verwendeter Knöpfe und deren Kombination abhängig
sein. Jene Kombinationen könnten praktisch auch multimodal, und das an nur einem Gerät, interpretiert werden, wie dies schon in zahlreichen Computerspielen der Fall ist (z.B.
Trigger 1 gedrückt plus Steuerkreuz links vgl. Trigger 2 gedrückt plus Steuerkreuz links
oder Knopf A vor Knopf B vor Knopf C). Dies ist gleichzeitig der größte Vorteil von Gamepads.
Derzeit sind zahlreiche Varianten erhältlich. Sie sind ausgestattet mit kabelloser Verbindung, Force Feedback oder Trägheitssensoren. Jene speziellen Eigenschaften findet man
selten (vor allem kombiniert) an anderen Geräten. Zu Testzwecken wurde deshalb ein
Gamepad mit Trägheitssensoren ausgewählt (siehe Abb. 3.3). Die Sensoren erfassen allerdings nur die Handorientierung. Es kommt wegen seiner Nachteile aber nicht für die
Benutzerevaluation in Frage.
3.2.4
Remote Controls (RC)
Fernbedienungen sind Mausgeräten eigentlich sehr ähnlich. Viele Modelle können Mausaktionen imitieren, mit dem Vorteil und gleichzeitigen Nachteil, dass sie in der Hand gehalten werden können bzw. müssen. Durch eine Art Halfter könnte das Gerät aber am Körper untergebracht werden, während es nicht benutzt wird. Wie Gamepads warten Fernbedienungen mit vielen Interaktionsmodalitäten auf. Natürliche Eingabegeräte sind sie daher
zwar nicht, dennoch kommen sie im Alltag ständig zum Einsatz. Anwender könnten mit
dem Umgang also prinzipiell vertraut sein.
3.2. EINGABEGERÄTE
47
Abbildung 3.3: Microsoft™Sidewinder Freestyle Pro Gamepad.
Es sind einige unterschiedliche Modelle erhältlich. Einige davon sind nicht kabellos und
speziell für die Navigation im Dreidimensionalen ausgerichtet. Sie müssen dafür aber mit
einer eigenen Trackingeinheit ausgestattet werden. Die Wahl fiel daher auf eine mit abschaltbaren Trägheitssensoren ausgestattete, kabellose Fernbedienung, die außerdem über
mausähnliche Tasten verfügt (GyroRemote™, siehe Anhang B). Wie die des Gamepads simulieren die Sensoren lediglich ein (zweidimensionales) Pointing (Simulation des Mauszeigers).
3.2.5
Mäuse und verwandte Geräte
Desktopmäuse sind eigentlich nicht für den mobilen Einsatz gedacht. Sie sind unhandlich
und senden nur bei Bewegungen auf flachem Untergrund zweidimensionale Positionsdaten. Die Interaktion ist stark abstrahiert und auf das WIMP-Konzept abgestimmt. Jedoch
gibt es ein Angebot an weiterentwickelten Geräten, die entweder in Form einer hardwareergonomischen RC mausgleiche Funktionen bieten oder handfreundlicher und mit Trägheitssensoren ausgestattet sind. Die Sensoren erfassen nur zweidimensionale Koordinaten
zum Pointing auf der Bildschirmoberfläche. Darüber hinaus gibt es minimal kleine Laptopmäuse, die ohne dritte Maustaste und Scrollrad auskommen. Sie sind komplett greifbar
und lassen sich notfalls in der Hosentasche verstauen. Sie könnten sich etwa gut für Kin-
48
KAPITEL 3. STATE-OF-THE-ART
derhände eignen. Ein in Anhang B aufgeführtes Modell wurde für diese Benutzergruppe
ausgewählt, in der Evaluation aber nicht eingesetzt.
Aufgrund beschränkter Interaktionsmodalitäten, 2D-Tracking, seiner Handlichkeit und eventueller gewohnter Akzeptanz unter den Benutzern kommt die kabellose Gyration UltraGT
Maus als alternatives Eingabegerät in Betracht. Desweiteren wird eine herkömmliche Desktop-Maus zu Testzwecken dienen.
3.2.6
Kombinationen von Ein- und Ausgabegeräten
Das als Ausgabegerät verwendete video-see-through Binocular besitzt zwei Tasten zur Interaktion auf der Oberseite. Sie können aber aufgrund fehlender Treiber nicht als Eingabe
verwendet werden. Eine Programmierung des seriellen Ports, zu dem die Tasten ihre Signale senden, erscheint im Rahmen dieser Arbeit zu aufwendig. Kommende Prototypen
sollten sich verstärkt auf die Kombination von Ein- und Ausgabegerät konzentrieren.
3.2. EINGABEGERÄTE
49
Alle evaluierten Eingabegeräte sind in Anhang B mit Beschreibung, Vor- und Nachteilen
aufgeführt.
50
KAPITEL 3. STATE-OF-THE-ART
Kapitel 4
Design der Benutzerschnittstelle
In den folgenden Abschnitten wird anhand der Erkenntnisse des State-of-the-Art-Kapitels
(s. Kap. 3) ein Konzept für die multimodale Benutzerschnittstelle erstellt. Ein Katalog von
Anforderungen und zu beweisenden Hypothesen führt zu gezielten Anwendungsfällen in
der Kommunikation mit dem Touristenführer. Anhand eines hieraus erstellten Anwendungsszenarios werden verschiedenste Konzepte zur Umsetzung der Richtlinien erstellt.
Schließlich wird eine komplexe Systemarchitektur gebildet, die sich in der Implementation
eines initialen Prototypen widerspiegelt.
4.1
Hypothesen
Fehlende Richtlinien, Normen und anerkannte Styleguides erfordern die Erstellung eines
eigenen Maßnahmenkatalogs unter Berücksichtigung von Evaluationen und Erfahrungen
von und mit aktuellen Benutzerschnittstellen im Bereich Augmented Reality. Zusätzlich
können allgemeine Erfahrungen aus der Mensch-Maschine-Kommunikation miteinbezogen werden. Allerdings würde ein eigens erstellter Styleguide weitreichendere Bedeutung für zukünftige Entwicklungen haben, der die Meinung anderer Kompetenzgebiete
berücksichtigen sollte. Aus diesem Grunde wurde anhand der vorherigen Untersuchungen ein Katalog von Hypothesen aufgestellt, die es mit der Konzeption und Realisierung
der Benutzerschnittstelle zu bestätigen gilt. Die Evaluation anhand von Benutzertests wird
51
52
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
schließlich zeigen, inwiefern die Vermutungen korrekt waren.
Als allgemeine Richtlinie werden die „Grundsätze der Dialoggestaltung“ [fN95] des Europäischen Komitees für Normung verwendet, die zum Ziel haben, den generellen Anspruch
an die Mensch-Maschine-Interaktion zu definieren. Die Hypothesen sind durch die Einsortierung in die Grundsätze gegliedert. Darüber hinaus hat das Komitee noch weitere Normen verabschiedet, auf die im Rahmen dieser Arbeit allerdings nicht näher eingegangen
werden kann. Hervorzuheben ist allerdings die Richtlinie zur „Benutzerführung“ [fN98b],
unter welche nicht unter [fN95] kategorisierbare Hypothesen generell gelistet sind. Im
Speziellen dienen Oviatt’s „Mythen multimodaler Interaktion“ und andere Feststellungen
[Ovi02] als Orientierung für die Vermutungen zu multimodaler Interaktion. Schließlich
werden die wichtigsten Unterschiede von GUI und MUI (nach [Ovi02]) vorgestellt. Allgemeines Grundwissen zur Softwareergonomie vermittelt [EOea94]. In [MS95] finden
sich empirisch evaluierte Gestaltungsgrundsätze für zweidimensionale graphische Benutzerschnittstellen. Hilfestellung zu der Gestaltung von dreidimensionalen Benutzerschnittstellen gibt [BKLP04]. Wie später gesehen werden kann, kommt jedoch nur ein Bruchteil
der aufgeführten Empfehlungen für die Schnittstelle in Frage.
4.1.1
Aufgabenangemessenheit
„Ein Dialog ist aufgabenangemessen, wenn er den Benutzer unterstützt, seine
Arbeitsaufgabe effektiv und effizient zu erledigen.“
Transparenz oder Unsichtbarkeit von Steuerelementen erleichtern die Sicht, wenn
jene nicht in Gebrauch sind.
Angesichts des eingeschränkten Sichtfelds und aktueller Auflösungen von HMD und Binoculars steht nur wenig Platz zur Anzeige von Steuerelementen zur Verfügung. Um den
Blick auf die reale Welt und somit auch auf das augmentierte Objekt nicht zu blockieren,
sollten die Interaktionselemente versteckt werden oder zumindest transparent sein können.
[SGBT00] schlugen bereits Alternativen vor, um das Blickfeld zu vergrößern.
4.1. HYPOTHESEN
53
Nur für die aktuelle Benutzeraufgabe bestimmte Steuerelemente sind sichtbar.
Diese Hypothese leitet sich aus der Evaluation in [Kaa03] ab. Passen allgemein verfügbare Sprachkommandos, Steuerelemente und andere visuelle Objekte nicht in den momentanen Kontext, können sie auch nicht verwendet werden und nehmen notwendigen Platz
ein. Vielmehr muss der Benutzer aus einer Mehrzahl die relevanten Kontrollen erkennen.
Im Gegenzug vermeidet eine Einschränkung der sichtbaren Elemente auch, dass sich der
Benutzer an deren Funktionalität gleichzeitig erinnern muss. Jede Aktion zeigt dann eine
auf den Kontext passende Wirkung. Für die Sprachsteuerung bedeutet es zudem eine Einschränkung des zu erkennenden Vokabulars, wenn nur die kontextabhängigen Kommandos
verfügbar sind.
Multimodale Interaktion, insbesondere mit „natürlichen“ Eingabemethoden, benötigt wenig Gewöhnung an die Eingabegeräte und der Benutzer kann sich auf seine
Aufgabe konzentrieren.
Sprache ist eine „natürliche“ Eingabemethode und muss nicht mehr erlernt werden. Lediglich das Vokabular muss man sich einprägen. Diese Prozedur fällt allerdings weg, wenn
Kommandos auch sichtbar sind. Die Ansteuerung erfolgt also unmittelbar. Darüber hinaus
sollen die Ansteuerungskommandos mit nicht-natürlichen Modi beschränkt bleiben.
Keine Eingabemethode wird verwendet, um eine andere zu aktivieren.
Wenn man sagt, dass der Benutzer sich auf seine Aufgabe konzentrieren soll, kann man
daraus schließen, dass seine Interaktionen sich unmittelbar auf den Abruf gewünschter
Informationen beschränken. Daraus ergibt sich, dass man ein Eingabegerät nicht zur Modifikation der Interaktion selbst verwendet, auch deshalb, um die Anzahl der Schritte von
Aufgabenstellung bis zur Lösung zu reduzieren.
54
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Durch eingesetzte Kombination von Ein- und Ausgabegeräten konzentriert sich der
Fokus des Benutzers auf die Information anstatt auf deren Handhabung.
Ständiges Wechseln des Fokus zwischen Ein- und Ausgabegeräten und Ausstellungsstück
führt zu einem „Gefühl der Isolation“ („sense of isolation“[Hsi02]).
Weder wird der Zugang zu Informationen unnötig blockiert, noch wird zuviel an
Information präsentiert.
Einerseits sollte ein Benutzer stets über zugängliche Information und Interaktionsmöglichkeiten informiert sein, andererseits sollte nicht zuviel an Information angezeigt werden,
um nicht die Übersicht zu verlieren. Diese Erkenntnis ergibt sich aus den Untersuchungen
in [CDMF00].
Der Freiheitsgrad der Interaktionen ist zur Handhabung der Schnittstelle ausreichend.
Ein mobiler, elektronischer Touristenführer hat den Anspruch, dass der Tourist im dreidimensionalen Raum navigieren und agieren kann. Die Interaktion mit dreidimensionalen
augmentierten Objekten kann eine Erhöhung des Freiheitsgrades und somit komplexere
Metaphern bedeuten. Das Ziel soll allerdings sein, die Komplexität der Metaphern mit natürlicher multimodaler Eingabe bei gleichzeitig hohem Freiheitsgrad gering zu halten. Die
Funktionalität soll dadurch nicht beeinträchtigt werden.
So ist etwa die aus WIMP bekannte Pointing-Metapher ungeeignet für den dreidimensionalen Raum [SGBT00], wenn deren Eingabegeräte nicht getrackt werden. Sprache ist
allerdings omnidirektional und könnte deswegen diesen Gegensatz aufheben.
4.1. HYPOTHESEN
55
Das visuelle Design und die Anordnung der Elemente des graphischen Teils der
Schnittstelle behindern nicht die Sicht auf die Ausstellungsstücke.
Graphische Steuer- und Informationselemente dienen lediglich der Interaktion mit der
Augmented Reality und sollen daher nicht im dauerhaften Fokus des Benutzers stehen.
Der begrenzte Blickwinkel eines HMD schränkt die Sicht weiter ein. Die Anzahl der graphischen, nicht objektbezogenen Elemente sollte daher minimal sein [SGBT00].
4.1.2
Selbstbeschreibungsfähigkeit
„Ein Dialog ist selbstbeschreibungsfähig, wenn jeder einzelne Dialogschritt
durch Rückmeldung des Dialogsystems unmittelbar verständlich ist oder dem
Benutzer auf Anfrage erklärt wird.“
Kurze Kommandos und Kommandophrasen sind einprägsam.
Der Dialog zwischen Mensch und Computer basiert im Wesentlichen auf einer Reaktion
des Systems nach einer Aktion des Benutzers. Diese Interaktion kann von einem kurzen
Mausklick bis zu einer im Dialog vorgetragenen vollständigen Satzstruktur reichen. Die
Vermutung ist allerdings, dass komplexere Eingabestrukturen, beispielsweise die Filterung
von Stichwörtern aus einem Satz, auch höheren Lernaufwand und Überlegung während
der Benutzung zur Folge haben. Die Sprachsteuerung soll daher über kurze Kommandos
oder Kommandophrasen erfolgen.
4.1.3
Steuerbarkeit
„Ein Dialog ist steuerbar, wenn der Benutzer in der Lage ist, den Dialogablauf
zu starten sowie seine Richtung und Geschwindigkeit zu beeinflussen, bis das
Ziel erreicht ist.“
56
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Durch konsistente Navigation in der Benutzerschnittstelle gelangt der Benutzer zu
jeder vorhandenen Information.
[Kaa03] schlägt zur idealen Navigation die Unterbringung von Elementen und Diensten
vor, mit der die Benutzergruppe „vertraut“ ist, da ansonsten die Erwartungshaltung an die
Aufgabe des Elements von der gedachten variieren kann.
Durch Positionierung aller „notwendigen Informationen für eine gegebene Aufgabe in einer einzigen Ansicht“ [Kaa03] kann der Benutzer die Schnittstelle in einem
einzigen Arbeitsschritt manipulieren.
Kann ein Benutzer alle Informationen durch „direkte Manipulation“ [fN99] abrufen, so ist
eine Navigation durch verzweigte, nicht offensichtliche Menüstrukturen nicht erforderlich.
Ebenso bleibt der Fokus auf einer Ansicht und wechselt nicht, wenn sich die Information
verändert. Eine evaluierte Regel lautet, dass „soviel Funktionalität wie möglich in sowenig
wie möglichen Menüstrukturen“ („interaction range“) [Kaa03] untergebracht sein soll.
Die Verwendung von Sprache als Eingabemodalität schadet nicht der Kommunikation mit Unbeteiligten in der Umgebung.
In einem Museum ist ein Besucher selten allein. Vielmehr ist er umgeben von anderen Besuchern, die wiederum untereinander oder mit einem Museumsführer einen Dialog führen.
An dieser Stelle muss man Mensch-Mensch- und Mensch-Maschine-Interaktion voneinander trennen [BKLP04], um die Kommunikation beider Dialogpartner nicht zu stören.
Die Benutzerschnittstelle muss folglich erkennen können, wann Informationen für sie bestimmt sind und wann nicht.
Ein eingeschränktes Vokabular hilft, sich an notwendige Kommandos gut zu erinnern und sie schnell auszuführen.
Wenn Shneiderman sagt, dass „der Teil des menschlichen Gehirns, der für Sprechen und
Zuhören verwendet wird, derselbe ist, der für das Lösen von Problemen zuständig ist“ [Shn00],
4.1. HYPOTHESEN
57
dann bedeutet dies für die Spracheingabe, dass sie nur dort verwendet werden soll, wo sie
die Interaktion wirklich erleichtert, und nicht innerhalb des gesamten Aktionsradius. Lässt
man die Aufgabe von Sprache zur Problemlösung außen vor, bleibt ein eingeschränktes
Vokabular, das eher der Navigation dient als der Manipulation von Objekten.
Kombiniert man Sprache allerdings mit einem weiteren Eingabegerät führt dies zu folgender These.
Durch die Kombination von Sprache und alternativem Eingabegerät lassen sich komplexe Interaktionsaufgaben durchführen.
Erst die Kombination zweier paralleler Eingabedatenströme hilft, ein Eingabekommando
eindeutig von anderen zu unterscheiden [BKLP04]. Die von [Bol80] eingeführte „PutThat-There“-Technik ermöglichte erstmals multimodale Eingabe zur Ausführung eines
einzelnen Kommandos. Einerseits muss sich der Benutzer an die Kombination zweier
Kommandos zu einer Aktion erinnern, andererseits erhöht dies aber die Vielfalt an Interaktionen, ohne sie misszuverstehen.
In den folgenden Designschritten wird allerdings festgestellt werden müssen, ob diese
erweiterte Interaktionsvielfalt überhaupt notwendig ist.
Nicht nur die Eingabegeräte, sondern auch die Interaktionsmetaphern der Benutzerschnittstelle bestimmen die Qualität ihrer Funktionalität. Die Eingabegeräte entsprechen den Anforderungen der Schnittstelle.
Die Auswahl der Eingabegeräte und -modalitäten wurde nach der Analyse gängiger ARSchnittstellen und aktueller Eingabegeräte anhand des Anwendungsgebiets und der Benutzergruppe getroffen. Der Vorteil der Multimodalität ist die Flexibilität in der Handhabung
verschiedenster Geräte. Demnach handelt es sich bei der Erstkonfiguration um einen ersten Gehversuch, dem sich weitere Geräte anschließen können. Ausgeschlossen werden
soll der umgekehrte Fall, dass die Funktionalität eines Eingabegerätes die Gestaltung der
Oberfläche bestimmt. Wie sich nach Intracom’s Erfahrungen herausstellte, überfordern
58
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Ausstellungsbesucher zu viele Optionen am Gerät.
Die Schnittstelle ist zu jeder Zeit verfügbar.
Dem Besucher sollte es jederzeit möglich sein, den Touristenführer zu deaktivieren, beispielsweise um die Ausstellung aus vollkommen realer Perspektive zu erkunden. Das System sollte aber in der Lage sein, dessen Status immer zu kennen, um bei Reaktivierung
relevante Informationen anzeigen zu können. Untersuchungen haben gezeigt, dass Touristen „spontanen und gelegentlichen“ Bedarf an der Benutzung haben [Kaa03].
4.1.4
Erwartungskonformität
„Ein Dialog ist erwartungskonform, wenn er konsistent ist und den Merkmalen des Benutzers entspricht, z.B. den Kenntnissen aus dem Arbeitsgebiet, der
Ausbildung und der Erfahrung des Benutzers sowie den allgemein anerkannten Konventionen.“
Der Dialog ist konsistent und der Erwartungshaltung eines Besuchers einer bestimmten Stätte oder eines Museums entsprechend gestaltet.
Wenn die Akzeptanz des Systems in der relevanten Benutzergruppe erreicht werden soll,
muss die Applikation in der Lage sein, die Ansprüche von Touristen an einen Museumsbesuch zu erfüllen. Zumindest muss sie dieselben Informationen liefern können wie ein
menschlicher Touristenführer. Diskussionen und Analysen in Zusammenarbeit mit Museologen und Pädagogen scheinen notwendig. Im Rahmen dieser Arbeit bleibt dieses
Wissen aber auf Intracom’s Erfahrungen mit den Projekten Archeoguide und intCulture
beschränkt.
4.1. HYPOTHESEN
4.1.5
59
Fehlertoleranz
„Ein Dialog ist fehlertolerant, wenn das beabsichtigte Arbeitsergebnis trotz
erkennbar fehlerhafter Eingaben entweder mit keinem oder mit minimalem
Korrekturaufwand durch den Benutzer erreicht werden kann.“
Vorschläge zur Lösung einer Aufgabe sind hilfreicher als die Korrektur von Eingaben.
Der Anwender soll durch den Vorschlag von Interaktionsschritten und anleitendem Feedback die Handhabung des Systems erlernen, ohne dass er aufgefordert wird, seine bisherigen Aktionen zu korrigieren. „Fehler“ sollen hierdurch präventiv vermieden werden. Jede
Korrektur einer Eingabe kostet zusätzliche Schritte bis zur Aufgabenlösung.
4.1.6
Individualisierbarkeit
„Ein Dialog ist individualisierbar, wenn das Dialogsystem Anpassungen an
die Erfordernisse der Arbeitsaufgabe, individuelle Vorlieben des Benutzers
und Benutzerfähigkeiten zulässt.“
Eine multimodale Schnittstelle fördert die Verwendung von alternativen Ansteuerungen für ein und dieselbe Aktion.
Ist nur eine einzige Eingabemodalität vorhanden, ist der Benutzer gezwungen, sich deren Handhabung anzueignen. Zwar könnte man auch argumentieren, dass es eigentlich die
Aufgabe der Schnittstelle ist, eine intuitive und einfache Eingabemöglichkeit zu finden
und die Interaktionsmetapher so zu gestalten, dass sie selbst komplexe Aufgaben simpel
lösen kann, allerdings mag dies den Anspruch an die Gestaltung immens erhöhen. Infolgedessen orientiert sich das Design an [Die04] und fordert einen stufenweisen Ausbau der
Flexibilität der Schnittstelle, basierend auf dem Erfahrungswert des Benutzers.
60
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Darüber hinaus steht neben der Kombination der Eingabedatenströme ihre separate Verwendung zur Verfügung. Dem Benutzer wird es frei überlassen, welches Eingabegerät er
als das komfortableste und geeignetste empfindet. Erfahrungen haben allerdings gezeigt,
dass Besucher nur begrenzt bereit sind, einen Touristenführer zu individualisieren. Insbesondere sollte es nicht ihre Aufgabe sein, ein einziges Eingabegerät wählen zu müssen.
Die Wahl sollte also nicht statisch zu Beginn, sondern dynamisch während der Benutzung
geschehen, ohne dass dazu die Änderung eines Profils notwendig wäre.
Freie Individualisierbarkeit ist für den Benutzer eines Touristenführers nicht relevant.
Die Zeit eines Besuchers für die Besichtigung einer Ausstellung ist begrenzt. Der Anspruch lautet also bekanntlich maximale Information in minimaler Zeit zu liefern. Individualisierung und Profilierung benötigt den Fokus des Benutzers außerhalb der eigentlichen Verwendung der Benutzerschnittstelle. Außerdem wird davon ausgegangen, dass
eine gewisse Gewöhnungszeit notwendig ist, bis der Benutzer die Oberfläche eigenständig anpassen kann, wozu die Kenntnis der Elemente notwendig wäre. Diese Vermutung
steht ganz im Gegensatz zu den Personalisierungseigenschaften des intCulture-Konzepts,
welches vorkonfigurierte Gestaltungsprofile für gewisse Benutzergruppen bereithält und
dem Benutzer die individuelle Konfiguration abnimmt. Diese Form der Adaption an Benutzerpräferenzen ist eher geeignet.
[KSH02], [CDMF00] und [ZSB02] zeigen detaillierte Erfahrungen im Bereich der Individualisierung von Schnittstellen.
Die Positionierung der visuellen Elemente in einer einzigen Perspektive ist geeignet
zur Ansteuerung der Schnittstelle. Frei positionierbare Elemente sind nicht notwendig.
[MS95] schlägt zwei Konzepte zur Gestaltung einer visuellen Oberfläche vor. „Modulbasiertes Design“ ermöglicht die flexible Kombination und Anordnung von Komponenten.
Sie können separat und unabhängig voneinander aktiviert und positioniert werden. „Alles-
4.1. HYPOTHESEN
61
in-einem“ basiertes Design stellt dagegen nur eine einzige Perspektive mit fester Anordnung bereit. Letztere Methode ist in diesem Kontext die geeignetste, da, wie vorher schon
festgestellt wurde, der Benutzer nicht darüber nachdenken sollte, welche Komponente er
als nächstes benötigt. Eine Mischung beider Vorschläge ließe eine automatische Auswahl
notwendiger Komponenten durch das System zu. Hinsichtlich der Erwartungskonformität
müssen Position, Erscheinung und Verhalten dann allerdings konsistent bleiben.
4.1.7
Lernförderlichkeit
„Ein Dialog ist lernförderlich, wenn er den Benutzer beim Erlernen des Dialogsystems unterstützt und anleitet.“
Die Verknüpfung von sichtbarem Steuerelement und Sprachkommando ist sinnvoll,
um den Dialog zu erlernen.
Wenn der Benutzer nur die Elemente aktivieren kann, die er unmittelbar vor sich sieht,
ohne sich an ein Kommando erinnern zu müssen, so ist die Annahme, dass er den Dialog
mit dem Touristenführer leicht erlernen kann und sie schließlich intuitiv verwendet. Im
Gegenzug bedeutet dies, dass Aktionen, die nicht durch Sprache ausgelöst werden sollen,
von dem anderen Eingabegerät übernommen werden müssten. Dies setzt dann wiederum
eine zusätzliche Interaktionsmetapher voraus.
Nicht nur das Dialogsystem, sondern auch die bereitgestellten Informationen lassen
sich leicht erlernen.
Neben der intuitiven Handhabung der Schnittstelle soll der Tourist auch die Informationen zu den Ausstellungsstücken des Museums lernen können. Ein Benutzer lernt am effizientesten durch Erkundung, Beobachtung, Untersuchung und Kritik [Hsi02] [Aeb85].
Demgegenüber stehen die Erkenntnisse früherer Beobachtungen im Rahmen von intCulture und ARGuide, dass ein Besucher nur begrenzt aktiv in die Präsentation von Inhalten
eingreifen möchte und sich stattdessen das System um relevante Informationen kümmern
sollte. Ein Benutzer sollte nicht zu sehr mit Eigeninitiative konfrontiert werden [Kaa03].
62
4.1.8
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Benutzerführung
Die Signalisierung von Interaktionen durch „Audio Cues“ [SGBT00], Text und farblich hervorgehobene Steuerelemente unterstützt die Erwartungshaltung an die Schnittstelle und die erfolgreiche Navigation zur gesuchten Information.
Jede Aktion sollte mit Feedback des Systems beantwortet werden, um Erwartungskonformität und Steuerbarkeit zu gewährleisten. [BKLP04] bezeichnet dieses Verhalten als
„Frage-und-Antwort Mechanismus“.
Kontinuierliches, unmittelbares und auf den Kontext zugeschnittenes Feedback ist
nicht störend, sondern unterstützt die Handhabung der Benutzerschnittstelle auf
dem Weg zur gesuchten Information.
Das Prinzip besteht darin, den Benutzer schon während der Eingabe von Daten über eventuelle Folgen seiner Eingabe zu informieren und nicht die Daten erst nach Abschluss der
Aktion zu validieren. Sowohl Mensch als auch Maschine können so vorzeitig in die Interaktion eingreifen, um „korrekte“ Resultate zu erhalten.
Das Verhältnis von „Fokus“ und „Kontext“ [BM02] ist ausgeglichen. Die Aufnahme momentan fokussierter Information wird nicht durch die umgebene kontextuelle
Information beeinträchtigt.
Laut Definition ist der „Fokus“ derjenige „Teil der Information, welcher für den Benutzer
im Moment am wichtigsten ist. Er sollte in der höchsten Detailstufe angezeigt werden.“
Die für den Touristen wichtigsten Informationen erscheinen die Inhalte, die sich unmittelbar mit dem betrachteten Objekt befassen. Dagegen ist der „Kontext“ „der Rest der
Information, welcher präsentiert werden könnte, sich aber momentan nicht im Fokus des
Benutzers befindet. Alle Inhalte sollten in geringster Detailstufe angezeigt werden.“ Alle
Navigationssteuerelemente und Statusinformationen sind essenziell für den Weg zur Information, aber die Informationsaufnahme selbst konzentriert sich am Objekt.
4.1. HYPOTHESEN
63
Durch die Aufteilung der sichtbaren Elemente der Schnittstelle in „world-stabilized
and screen-stabilized items“ [HFT+ 99] lassen sich objektbezogene und kontextbezogene Informationen eindeutig unterscheiden.
Die Informationen, die der Touristenführer bereitstellt, lassen sich in kontextbezogene
Status- und Navigationsdaten sowie in objektbezogene Fakten aufteilen. Erstere sind hinsichtlich ihrer Position und Größe fest im sichtbaren Bereich integriert und lassen sich nur
begrenzt manipulieren, letztere werden zusammen mit dem Objekt, auf welches sie sich
beziehen, getrackt und augmentiert.
4.1.9
Multimodale Interaktion
Die folgenden Hypothesen entstanden teils aus eigenen, aus Erfahrungen abgeleiteten Ansprüchen an das System und teils aus den umfangreichen Recherchen und Feststellungen
in [Ovi02].
Die Kombination von natürlichen, erkennungsbasierten Eingabemodi und nicht auf
Mixed Reality spezialisierten Modi verringert die Komplexität der Interaktion bei
gleichzeitiger Erhöhung der Freiheitsgrade.
Es wird erwünscht, dass sich ein Anwender nicht zeitaufwendig an ein Eingabegerät gewöhnen muss, um die Schnittstelle zu bedienen. Ebenso wird davon ausgegangen, dass
das Angebot an manipulativen Interaktionen in einem elektronischen Touristenführer derart beschränkt ist, dass avanciertere Geräte wie etwa Spacemäuse, Flying Joysticks oder
Datenhandschuhe nicht notwendig sind. Das Ziel soll vielmehr darin bestehen, die Eingabe
mit „einfachen“ Geräten, also ohne große Anzahl von Knöpfen o.ä., so effektiv zu gestalten, dass sie die gleichen Resultate hervorbringen wie Geräte mit automatisch erhöhtem
Freiheitsgrad.
64
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Mittels kurzen Kommandos und Phrasen anstatt eines Dialogs kann Sprache für
mehrere Zwecke als für temporale oder nicht-räumliche Informationsangaben angewandt werden.
Wie [Ovi02] festgestellt hat, eignet sich Sprache außerordentlich für die Eingabe temporaler und nicht-räumlicher Informationen, und zwar besonders dann, wenn die Angaben im
gesprochenen Dialog gemacht werden. Ein Anwender sollte dagegen aber nicht die Syntax
lernen, in welcher der Dialog gesprochen werden müsste, um das gewünschte Resultat zu
erhalten. Da komplexe Informationsangaben nicht notwendig, sondern automatisch abhängig vom Kontext des Anwenders bestimmt werden sollen, sollen sich die Spracheingaben
auf kurze Kommandos und Phrasen beschränken und trotzdem gleiche Ergebnisse erzielen.
Die Multimodalität verstärkt das Immersionsgefühl.
Es wird behauptet, dass ein Anwender sich umso fremder in der Umgebung fühlt, desto mehr Konditionen ihn dazu zwingen, von der Schnittstelle und der sichtbaren Umgebung zu abstrahieren. Ungewohnte Geräte und komplexe Eingaben können dazu beitragen.
Sprache ist hingegen ein alltäglicher, gewohnter Modus und soll dank seiner Natürlichkeit diese Barriere aufheben. Die ausgesuchten ergänzenden Eingabegeräte sind allerdings
nicht natürlich und nicht erkennungsbasiert. Eine gewisse Abstraktion wird wohl notwendig werden. Nichtsdestotrotz soll deren multimodale Kombination das Immersionsgefühl
verstärken.
„Blended multimodal interfaces“ [Ovi02] unterstützen permanentes Feedback durch
den Guide.
Mindestens der passive Datenstrom wird analysiert, wenn ein Benutzer keine aktive Dateneingabe leistet. Ein Feedback kann folglich immer gewährleistet werden.
4.1. HYPOTHESEN
65
Multimodale Interaktion bedeutet nicht notwendigerweise, dass der Benutzer zwei
oder mehrere Eingabemodi gleichzeitig zur Ausführung einer Interaktion benutzen
wird, obwohl die Möglichkeit stets zur Verfügung steht. Vielmehr mag sich ein Besucher nach einer Weile für einen Modus entscheiden, oder zumindest neigt er zur
Verwendung eines bestimmten Eingabegerätes. Dennoch tendieren Benutzer eher zu
multimodaler als unimodaler Interaktion (nach [Ovi02]).
Diese Behauptung wurde evaluiert und soll in den Benutzertests bestätigt werden. In einem Museum ist es normalerweise sehr ruhig, wenn sich Besucher dessen Ausstellungsstücke anschauen. Sprache könnte befremdend wirken, wenn der Dialog mit einem nichtmenschlichen Kommunikationspartner stattfindet. Maus und Remote Control könnten zu
abstrakt für den Anwender sein. Wenn die Schnittstelle auch unimodal angesteuert werden
kann, könnte also die Tendenz zu einem bestimmten Gerät gehen. Wenn aber multimodale
Eingaben möglich sind, so ist die Vermutung, dass deren Komfort das Benutzerverhalten
wieder umkehrt.
Nicht unbedingt jedes Kommando wird weiterverarbeitet (nach [Ovi02]).
In parallelen Eingabeströmen findet sich eine Fülle an Informationen, die analysiert und
interpretiert werden müssen. Gelegentlich passt die Information aber nicht in den aktuellen
Kontext und wird verworfen oder es ist inhaltlich zuviel und wird eigentlich nicht für eine
korrekte Antwort des Systems benötigt.
Multimodale Steuerbefehle werden häufig während der Modifikation und Manipulation von Information verwendet sowie bei der Auswahl aus einer großen Datenmenge
(nach [Ovi02]).
Wenn die gesuchte Information schwierig zu umschreiben ist, z.B. räumliche Angaben im
Sprachmodus, erleichtern multimodale Befehle die Beschreibung dieser Aktion.
66
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Aufgrund des „blended multimodal interface“ werden Benutzer nicht äußern, dass
sie multimodal interagieren, auch wenn passive Eingabedaten nicht unmittelbar mit
aktiven verarbeitet werden (nach [Ovi02]).
Bisher steht es noch offen, ob multimodale Befehlskombinationen überhaupt zum Einsatz
kommen werden. Dies wird von der Komplexität der Interaktion abhängig sein. Die Anwender würden dann also eher unimodal interagieren. Dennoch wird mit dem passiven
Datenstrom eine zweite parallele Eingabeform zur Verfügung gestellt, die mit Sprache
multimodal kombiniert werden kann, aber nicht muss. Der Anwender soll dessen Verarbeitung aber nicht bemerken.
Die bereitgestellten aktiven Eingabemodi werden nicht simultan verwendet. Darüber
hinaus müssen sie nicht simultan betätigt werden, um korrekt verarbeitet werden zu
können (nach [Ovi02]).
Simultanität bedeutet parallele Verwendung der aktiven Eingabemodi während der unmittelbaren Befehlseingabe, nicht zu verwechseln mit deren gleichzeitiger Verwendung
innerhalb der Benutzungszeit. Vermutet wird, dass simultane Anwendung kognitiv zu belastend ist. Stattdessen werden die Eingaben in sequentieller Reihenfolge im Sinne der
„Put-That-There“-Metapher erfolgen.
Alle Eingabekommandos sind nicht zweideutig (nach [Ovi02]).
Zweideutig werden Befehle dann, wenn ihre Interpretation vom Anwender in einen anderen Kontext als den passenden eingeordnet wird.
Bei korrekter multimodaler Verarbeitung werden Benutzer weniger Sprachkommandos verwenden, dafür aber zusammen mit dem zweiten aktiven Eingabemodus (nach
[Ovi02]).
Das Prinzip ist, dass die Kombination aus mehreren Modi die Verwendung eines einzelnen
reduziert, weil sich die Befehle gegenseitig ergänzen.
4.1. HYPOTHESEN
67
In einem multimodalen System interagieren die Benutzer nicht immer multimodal,
sondern auch unimodal mit gelegentlichem und spontanen Wechsel des Eingabemodus (nach [Ovi02]).
Wenn es die Interaktion nicht erfordert, müssen multimodale Befehle nicht unbedingt zum
Einsatz kommen. Wenn auch unimodale Befehle eingegeben werden können, so ist die
Vermutung, dass Anwender diese auch, abwechselnd mit unterschiedlichen Geräten, verwenden.
Sprache ist nicht die primäre Eingabemethode (nach [Ovi02]).
Es existieren Behauptungen, dass Sprache aufgrund ihrer Natürlichkeit und Einfachheit die
bevorzugte Eingabemethode in multimodalen Systemen ist. Dies gelte sowohl für die Designentscheidung als auch für die Präferenzen eines Anwenders. Der Anwendungszweck
entscheidet aber schließlich, ob Sprache die qualifizierteste Methode ist.
Die multimodale Verflechtung von Eingabedatenströmen ersetzt keineswegs deren
unimodale Verwendung. Die Inhalte sind nicht redundant (nach [Ovi02]).
Effektiv wird gleichzeitige multimodale und unimodale Ansteuerung erst dann, wenn deren Befehle sich nicht gegenseitig aufheben und das Befehlsvokabular damit erweitert
wird.
Die multimodalen Befehle sind einheitlich und verständlich (nach [Ovi02]).
Eigentlich wird behauptet, dass multimodale Befehle nicht immer einheitlich und verständlich sein können. Das Design der Schnittstelle soll diesen Anspruch aber einhalten
können, um dem Benutzer ein klareres Bild der Interaktionsmöglichkeiten zu liefern.
68
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Die verschiedenen Eingabemodi senden unterschiedlichen, nicht unmittelbar vergleichbaren Content (nach [Ovi02]).
Aufgrund ihrer Beschaffenheit können erkennungsbasierte Eingaben wie Sprache, Gesten
oder Mimik nicht immer eindeutig sein. Ebenso sind sie nicht direkt vergleichbar, sondern
benötigen zuerst eine Interpretation und ein Mapping auf eine gemeinsame Semantikebene. Die Aufgabe der Schnittstelle ist es demnach, die Gemeinsamkeiten herauszufinden.
Der Vorteil einer multimodalen Schnittstelle besteht nicht in der Performanz der
Verarbeitung, sondern in der intuitiveren Handhabung und Benutzerfreundlichkeit
(nach [Ovi02]).
Mehrere Datenströme erfordern zwangsweise aufwendigere Verarbeitung als Einzelereignisse. Jedoch kann das Ergebnis der Verarbeitung diesen Nachteil wieder aufheben, wenn
sich dadurch komplexere Aktionen einfacher umschreiben lassen.
Multimodale Befehle dienen am meisten der Manipulation, insbesondere der von
augmentierten Objekten (analog zu [Ovi02]).
Einfache Aktionen wie etwa das Verstecken visueller Elemente können durch simple Befehle ausgedrückt werden. Komplexere wie etwa die Rotation eines Objektes um eine
bestimmte Gradzahl oder das Messen der Entfernung zwischen zwei Ausstellungsstücken
benötigen umfangreichere Beschreibungen.
Die Maussteuerung kann die Sprachsteuerung ersetzen.
Nach [Ovi02] sollen sich die Eingabemodi in einem multimodalen System ergänzen. Redundante Befehle sollen möglichst nicht existieren. Um aber dem Anwender zu überlassen,
wie er mit der Schnittstelle interagieren möchte, sollen sowohl unimodale als auch multimodale Eingaben unabhängig voneinander die gleiche Ansteuerung ermöglichen. Demnach müssen Maus und RC dieselbe Funktionalität wie Sprache bieten können. Folglich
4.1. HYPOTHESEN
69
sollen sich die Eingaben bei unimodaler Ansteuerung ersetzen und bei multimodaler komplettieren.
Kurze Eingabekommandos erhöhen die Performanz linguistischer Verarbeitung und
verringern die kognitive Belastung des Benutzers (nach [Ovi02]).
Kurze Sprachkommandos und Dialoge können das gleiche Vokabular besitzen. Die Spracherkennung muss aber unterschiedlichen Aufwand leisten, um korrekte Eingaben zu finden. Ebenso muss der Anwender den Dialog konstruieren und dort Wörter des Vokabulars
unterbringen, was seine kognitive Belastung erhöhen könnte.
Die Schnittstelle ist „generell, robust und skalierbar.“ (nach [Ovi02])
Die meist gewünschten Eigenschaften einer multimodalen Schnittstelle sind Generalisierbarkeit, Robustheit und Skalierbarkeit. Dynamischer Kontext und die zahlreichen Informationen in erkennungsbasierten Eingabedatenströmen erfordern ein komplexes Interpretationssystem im Hintergrund, das die Daten syntaktisch zerstückelt und semantisch wieder
zusammensetzt. Ziel dieser Arbeit ist es, diese drei Ansprüche einhalten zu können. Dies
ist außerdem wünschenswert für das Konzept von intCulture bzw. intGuide.
4.1.10
Graphical User Interface (GUI) vs Multimodal User Interface
(MUI)
[Ovi02] unterscheidet eindeutig zwischen einer graphischen und einer multimodalen Benutzerschnittstelle. Wie aber in der Aufgabenstellung zu dieser Arbeit festgehalten wurde,
soll der multimodale Ansatz den graphischen nicht vollständig ersetzen. Vielmehr sollen
sie sich ergänzen und beider Vorteile ausnutzen. Im Folgenden sind die bedeutendsten Unterschiede (nach [Ovi02]) aufgelistet und werden später anhand des Prototypen untersucht:
• Einzelner Ereignisdatenstrom (GUI) vs. kontinuierlicher, simultaner Eingabe von
parallel ankommenden Strömen (MUI)
70
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
• Atomare, eindeutige Ereignisse (GUI) vs. erkennungsbasierte Ereignisse mit wahrscheinlichkeitstheoretischen Methoden der Verarbeitung und wechselseitiger Begriffsklärung (MUI)
• Statische singuläre Implementierung (GUI) vs. vernetzte Erkennung und Interpretation des Kontext (MUI)
• Farb- und Helligkeitsfeedback (GUI) vs. Text-To-Speech, Non-Speech Audio, Graphik und Animation (Multimedia) (MUI)
4.2
Ziel des initialen Prototypen
Der Prototyp soll den Anspruch erfüllen, möglichst viel an Information über ein einzelnes
Ausstellungsstück präsentieren zu können. Erfahrungen zufolge bestehen die Hauptinteressen eine Besuchers darin, zu erfahren, wo er sich befindet, was er an seiner aktuellen
Position sehen kann und was er dort unternehmen kann.
Das Konzept wird sowohl Ideen zur Interaktion als auch zur Präsentation der Schnittstelle enthalten. Vorrangig ist die Interaktionskomponente. Wenn das System aber am Benutzer getestet werden soll, ist die Darstellung von Resultaten der Interaktion zwingend
erforderlich. Die Implementation wird sich dennoch zuerst mehr auf Funktionalität und
Umsetzung der Konzepte als auf visuelle Korrektheit konzentrieren.
4.3
Anwendungsfälle
Unter Beachtung der in Kapitel 3 vorgestellten Richtlinien und der daraus hervorgehenden Hypothesen wurden verschiedene Anwendungsfälle skizziert, die auf mögliche Benutzeraktionen und Ansprüche eines Besuchers - beobachtet von [Hsi02] - passen. Jene
Interaktionsbedürfnisse bestehen aus Erkunden, Nachfragen nach Informationen, Dokumentieren und Erinnern, Empfehlen und Führen lassen, Erklären lassen, Nachforschen
sowie Kontrollieren. In adäquate Aktionen umgewandelt entstehen Anwendungsfälle für
4.3. ANWENDUNGSFÄLLE
71
Einführung vorspielen lassen, Frage an den Guide stellen, Objekt auswählen, Navigationsinformation erhalten, Erklärungen erhalten, Unterbrechen und Wiederaufnehmen, sowie Information überspringen. Vereinzelt wurden aus dem Projekt Archeoguide [VIK+ 02]
bekannte Anwendungsfälle eingebaut, die in den Diagrammen in Anhang C blau gekennzeichnet sind.
Dem erwünschten Ziel des Prototypen folgend wird nicht die gesamte Museumssite betrachtet, sondern ein einzelnes Ausstellungsstück. Dies wird definiert als „Area of Interest“
(AOI). Jedes AOI kann mehrere „Points of Interest“ (POI) besitzen, welche markante Bestandteile dessen, wie etwa die Metope eines Tempels oder das Gesicht einer Statue, sein
können. Im weiteren Sinne kann ein AOI auch ein größeres Areal innerhalb der Site sein,
das mehrere andere Standorte mit POI beinhaltet. Relevante Aktionen an diesen Punkten
zeigen die Diagramme in Abb. C.3 und C.4.
Um ein weitsichtigeres Gesamtkonzept zu schaffen, behandeln die Anwendungsfälle ein
AOI als größeres Areal mit mehreren AOI und POI als untergeordneten Objekten. Wenn
ein Anwender nun das Areal erkunden möchte, so soll er Fragen an den Guide stellen und
Navigationsinformationen erhalten können (siehe Abb. C.5). Nahezu alle Aktionen haben
gemeinsam, dass der Guide ein Repository nach gewünschter Information abfragt.
Gezieltes Nachfragen nach Informationen kann vielfältige Arten von Daten liefern (siehe
Abb. C.6). Der Anwender soll nach vorgegebenen Themen wie etwa Architektur, Athletik, Zeitgeschichte oder Kulturelles relevante Medien präsentiert bekommen. Er soll spezifische Informationen rund um seinen Standort, Wegweisungen zu anderen AOI, lokale
Informationen zu einem POI des AOI und detailliertere Medien über das aktuelle AOI
abrufen können. Festgelegte, AOI und POI identifizierende Navigationspunkte in den UIMenüs, die mittels 2D-Interaktion per Maus/RC und/oder per Sprachkommando angesteuert werden, dienen der Dialogsteuerung zu den gewünschten Daten. Um dem Benutzer die
Kontrolle über den Präsentationsablauf zu überlassen, kann er den Vorgang jederzeit unterbrechen, wiederaufnehmen oder komplett überspringen.
Um einem Besucher eine nachhaltige Erinnerung an den Museumsbesuch zu verschaf-
72
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
fen, kann er für jedes beliebige AOI oder POI ein Bookmark setzen sowie es selbst kommentieren oder kommentieren lassen. Es sollen Möglichkeiten zur Aufnahme von Sprachkommentaren und Schnappschüssen zur Verfügung stehen. Darüber hinaus werden seine
Aktionen im Groben festgehalten, so dass er etwa verfolgen kann, welchen Weg er innerhalb des Areals gegangen ist. Das Diagramm in Abb. C.7 zeigt den Vorgang im Detail.
Einige der wichtigsten Ansprüche an einen Touristenführer sind selbstverständlich das
Empfehlen von Höhepunkten des Museums und Wegbeschreibungen zu deren Standorten
sowie Vorschläge zu den interessantesten Informationen hierzu (siehe Abb. C.8). Ein Besucher soll dem demnach sowohl Einführungen als auch detaillierte Daten präsentiert bekommen. Konkrete Interaktionsmöglichkeiten und navigative Hilfen unterstützen ihn bei
diesem Vorgang, der eng mit denen des Erkundens und Untersuchens verbunden ist.
Manche Lösungsansätze zu den Benutzerbedürfnissen sind sich sehr ähnlich. Ausstellungsstücke zu erklären bedeutet demnach auch, dem Anwender passende Informationen
in Form von themenbezogenen, einführenden und detaillierteren Medien sowie standortsensitiven Daten zu präsentieren (siehe Abb. C.9). Letztere können entweder Textstücke,
Sprachkommentare, Videos oder Bilder (statisch oder Overlays) sein. Jedes Medium soll
hervorgehobene Schlüsselwörter enthalten, die bei Aussprache zu neuer Information weiterführen (für Sprache etwa gesondert betonte Wörter, in Videos und Bildern speziell markierte Bereiche). Wenn ein Anwender nachforscht, so beinhaltet dies auch Erklärungen.
Ein interessanter didaktischer Aspekt ist das selbstständige Erkunden des Museumsgebiets. Der Besucher forscht eigenständig nach für ihn relevanten Informationen ohne Vorschläge des Guides zu beachten. Er wechselt von der passiven, informationskonsumierenden zur aktiven, informationsrecherchierenden Rolle. Dies bedeutet umgekehrt aber
nicht, dass Passivität keine didaktische Bedeutung hat [Aeb85]. Der Guide übernimmt
dann lediglich die Aufgabe, automatisch relevante Information zu präsentieren. Schließlich scheint wohl der Inhalt der Medien selbst verantwortlich für den Lerneffekt. Der Besucher begibt sich also selbstständig zu AOI und POI (evtl. ohne Navigationsinformation
und nach Auflistung vorhandener Standorte), wählt aus einer Ausstellungsstückliste des
Areals enthaltene Objekte aus und erhält wiederum passende Medien. Diese können ent-
4.4. ANWENDERSZENARIEN
73
weder in einem eigenen Showcase oder in Form von Overlays gezeigt werden.
Kinder sollen die Ausstellung spielerisch durch die Lösung von Quests (vgl. [AGS04])
erforschen können. Den Ablauf der Interaktion zeigt das Diagramm in Abb. C.10.
Eigentlich sollte der Guide selbst alle notwendigen Einstellungen vornehmen, damit sich
der Anwender in der Umgebung und mit dem System wohlfühlt. Dennoch können eventuell nicht alle Vorlieben im Voraus bestimmt werden. Beispielsweise wünscht der Benutzer,
Kontrast und Helligkeit zu ändern oder die Lautstärke des Headsets zu regeln. Zur Kontrolle des Systems gehört darüber hinaus die schon angesprochene Möglichkeit, Präsentationen jederzeit zu unterbrechen, wiederaufzunehmen und zu überspringen. Diagramm
C.11 zeigt entsprechende Anwendungsfälle.
4.4
Anwenderszenarien
Anhand der Anwendungsfälle wurden Anwenderszenarien für drei potenzielle Besuchertypen beschrieben: Erwachsene, Kinder und hörgeschädigte Erwachsene. Im Betrieb wird
jeder Benutzertyp natürlich wieder unterschieden werden müssen. Die Vielfalt an Benutzervorlieben und -kenntnissen ist schlichtweg zu groß. Das Konzept von intGuide sieht
aber Personalisierungsmethoden vor, um den Anwender einordnen und ihm ein möglichst
passendes System anbieten zu können.
Die Benutzertypen wurden bewusst zur Beschreibung der Szenarien ausgewählt. Kinder
sollen das System auf spielerische Art und Weise kennenlernen und handhaben können.
Der Guide soll sie Schritt für Schritt einweisen. Quests sollen (vgl. [AGS04]) eingebaut
werden, die die Informationen nach Lösung von Rätseln und durch das Finden von AOI
oder POI präsentiert. Zusammen mit anderen Kindern sollen kombinatorische Aufgaben
zu lösen sein. In Form von „visuellen Belohnungen“, die die Motivation aufrecht erhalten sollen, können die Kinder Punkte sammeln und sich somit untereinander vergleichen.
Inwieweit dies ein Indiz für den Lernerfolg der Informationen ist, müsste anderweitig analysiert werden.
74
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Körperlich beeinträchtigte Besucher sollen die gleichen Informationen und den gleichen
Bedienkomfort haben können wie unbeeinträchtigte. Der Hauptunterschied ist der Medientyp, der zur Erklärung verwendet wird. Aber auch die Ansteuerung muss adaptierbar
sein. Sprachgeschädigte Besucher könnten Spracheingabe nicht verwenden, Sehgeschädigte könnten die visuellen Informationen nicht sehen und körperlich beeinträchtigte Besucher könnten Handgeräte wie Maus / RC / Gamepad nicht bedienen.
Das Szenario des Erwachsenen bildet die Grundlage für ein detaillierteres Systemdesign.
Es ist im folgenden ausführlich wiedergegeben, die übrigen Szenariobeschreibungen finden sich in Anhang D:
Ein englischsprachiger Tourist besucht das antike Olympia in Griechenland. Er betritt
die Eingangshalle und fragt nach verfügbaren Museumsführungen. Ein Museumsassistent stattet ihn mit einem elektronischen Führungssystem aus, welches aus einem HeadMounted-Display mit einem angebrachten einseitig funktionalen Headset, einem Rucksack mit einem leichtgewichtigen Laptop mit integriertem GPS-Sensor und elektronischem Kompass, und einer kabellosen Computermaus mit Trägheitssensoren besteht. Während das System auf dem Laptop nach Sprache und Alter des Besuchers konfiguriert wird,
wird der HMD auf seinem Kopf justiert.
Der Besucher betritt das Museumsareal und beginnt herumzuwandern, um mehr über die
Ausstellung und ihre Exponate herauszufinden. Im Display des HMD erscheint eine kleine, zweidimensionale Karte, welche eine Teilansicht der gesamten Ausstellung darstellt.
Er sieht seine eigene Position auf dieser Karte als einen deutlich hervorgehobenen Punkt.
Andere Punkte auf der Karte zeigen ihm die Lage interessanter, in der Nähe befindlicher
Exponate. Er wählt den nächstliegenden Punkt aus und erhält die zugehörige Kurzbeschreibungsliste aller Exponate, die sich thematisch auf jenes beziehen. Danach markiert
er einen schematisch angezeigten Tempel durch Aussprache des Wortes „Temple“ in das
Mikrophon. Dessen exakter Standort wird auf der Karte hervorgehoben und ein Pfeil im
Display zeigt die Richtung an, in welche der Besucher gehen muss.
Als er den Ruinen näher kommt, weist ihn eine Audioerzählung in die Charakteristika
des Gebietes ein. Er unterbricht den Audiokommentar, weil er das Gebiet selbst erkun-
4.4. ANWENDERSZENARIEN
75
den möchte. Als er unmittelbar vor dem Tempel steht und das gesamte Gebäude in seinem Display sehen kann, werden die Ruinen mit einem virtuellen Bild überlagert, das
die Grundstruktur des Gebäudes einschließt. Da er keine Kamera mit sich hat, aber gerne eine digitale Erinnerung behalten möchte, selektiert er die Ikone „Bookmark“, welche
permanent im Seitenbalkenmenü zu finden ist. Die Aktion löst einen Schnappschuss aus,
der im Repository gespeichert wird und nach dem Besuch abholt werden kann, z.B. durch
Zugriff auf die Museumswebseite mit einem Codewort, das nach dem Besuch ausgehändigt wird. Zeitstempel, Datum und Standort werden festgehalten. Zusätzlich spricht er
einen Audiokommentar in das Mikrophon. In der Zwischenzeit erscheint ein Menü, dass
ihm verschiedene Medien vorschlägt, durch welche er zusätzliche Informationen über den
Tempel erhalten kann. Dem Menüeintrag „Animation“, den er durch Drücken und Halten
eines Mausknopfes ausgewählt hat, folgt eine Animation, die die Erscheinung des Tempels in Anlehnung an die Zeitgeschichte des Tempels im Laufe der Jahrhunderte zeigt.
Die Beschreibung der angezeigten Epoche wird in der Statusbar im unteren Bereich des
Displays angezeigt. Um mehr Informationen über die markantesten Teile des Tempels zu
erhalten, wählt er eine Beschriftung auf dem überlagerten Bild aus, das sich nahe bei dem
bezeichnenden Detail im Bild befindet. Wieder erscheint eine zusätzliche Liste mit verfügbaren Medien, die sich auf die Schlüsselwörter in der Erzählung beziehen. Durch Scrollen
des Mausrades und Klicken eines Knopfes navigiert er zu einem „Showcase“, in welchem
ein kurzer Videoclip abläuft, der den Hintergrund des Interessenspunktes beschreibt.
Als ein Freund von ihm ein Gespräch beginnt, schaltet er das Mikrophon stumm und versteckt die sichtbare Schnittstelle. Später holt er sie wieder hervor und fährt mit seiner
Erkundung fort.
Es besteht nun die Frage, inwieweit eine multimodale Schnittstelle die im Szenario aufgeführten Aktionen und mit ihnen einhergehende Schwierigkeiten lösen kann. Zuallererst
erkennt man, dass der Besucher in den meisten Fällen eindeutig unimodal interagiert, also
nur mit einem Eingabegerät. Prinzipiell soll es möglich sein, dass jede Aktion alternativ
mit einem der verfügbaren Modi ausgeführt werden kann, wenn ihre Komplexität keinen
multimodalen Datenstrom erfordert. Solche Daten erscheinen dann besonders notwendig,
wenn zur exakten Spezifikation der gesuchten Information verschiedene Datentypen benötigt werden. [Ovi02] zufolge ist jeder Eingabemodus nur für die Eingabe bestimmter Da-
76
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
tentypen geeignet. Sprache etwa sei geeignet für zeitliche und nicht-räumliche Angaben,
während ein Wand oder einfacher digitaler Stift Ortsangaben gut deuten kann. Der Typus
der Aktion ist genauso entscheidend. So erscheint es einfacher, durch Scrollen des Mausrades zu einem UI-Tool zu gelangen als mit einem Sprachbefehl im Sinne von „Nächstes
Tool“. Die Vorlieben des Anwenders werden dies schließlich entscheiden.
Wenn der Besucher nun etwa einen Punkt auf der Navigationskarte selektieren will und
dieser der nächstgelegene sein soll, oder er alle Exponate in einem bestimmten Umkreis
auswählen möchte, oder er gar eine Tour selbst planen möchte und dazu interessante Punkte miteinander verbindet, um die Route festzulegen, so sind möglicherweise mehrere unterschiedliche, hintereinander abfolgende Aktionen notwendig. Multimodale Befehle erfordern zwar auch diesen Ablauf, sind sich syntaktisch aber näher. Im Sinne von Bolt’s
„Put-That-There“-Metapher [Bol80] erfolgen die Aktionen „in einem Fluss“, also unmittelbar hintereinander folgend, ohne das Ergebnis einer Aktion abzuwarten. Durch die engere Kombination soll die Formulierung des Befehls natürlicher und intuitiver wirken. Die
Verwendung erkennungsbasierter Eingabemodi wie Sprache, Gestik, Mimik, Körperbewegungen etc. unterstützt den kontinuierlichen Datenfluss, einhergehende kontinuierliche
Verarbeitung und die Natürlichkeit der Interaktion.
Die Multimodalität kann auch in dem Sinne verstanden werden, dass ein Anwender jederzeit ein Eingabegerät wechseln kann, ohne dass das System beeinflusst wird. Es wurde
nach anderen möglichen alternativen Eingabemethoden als Sprache und Maus / RC / Gamepad recherchiert, doch kann in Richtung Hardwareergonomie im Rahmen dieser Arbeit
leider nicht evaluiert werden. Die Auswahl an Geräten bleibt beschränkt und der Benutzer
muss das Gerät mit dem für ihn besten Komfort wählen. Jede Funktion der Schnittstelle
soll dann auch mit jedem Gerät ansteuerbar sein.
Das Szenario kann natürlich noch weiter verfeinert werden. Etwa könnte das Showcase
dreidimensionale Objekte anzeigen, die sich rotieren, skalieren und animieren lassen. Die
gleichen Manipulationen könnten auch mit dem Overlay geschehen. Je nach Aufwand
können multimodale Befehlskombinationen die Interaktionsschritte verkürzen und vereinfachen.
4.5. KONZEPTE
77
In den nächsten Designphasen wird klar werden, inwieweit multimodale Interaktion einsetzbar sein wird und muss. Primär wird das System auf unimodale Befehlseingaben ausgelegt sein und sekundär auf multimodale. Dennoch soll das Design so generalisiert sein,
dass die Sekundärziele jederzeit umsetzbar sind, wenn das Szenario es erfordert.
4.5
Konzepte
Die im Szenario beschriebenen Anforderungen werden im Folgenden in generelle Konzepte umgesetzt. Sie werden strikt in Interaktions-, Präsentations- und - gesondert - multimodale Interaktionskonzepte unterschieden.
4.5.1
Multimodale Ereignisverarbeitung
Die Bedeutung eines „blended multimodal user interface“ ist im Szenario nicht genau wiedergegeben, da der passive Eingabedatenstrom keine bewusste Handlung des Benutzers
darstellt, sondern vom System registriert und verarbeitet wird. Nach Definition [Ovi02]
sollen aktive und passive Datenströme zusammen die Eingabe für den multimodalen Interpreter bilden, ganz so wie beliebig viele aktive. Da nach Szenario primär unimodale
Eingaben erfolgen, kann der passive Datenstrom auch getrennt behandelt werden. Wie die
Daten verwendet werden können, wird sich später zeigen.
Nun stehen dem System drei Arten von Eingabedaten zur Verfügung: der konstante Textfluss von Sprache, statische Einzelereignisse von Maus, RC und Gamepad und die zweidimensionalen Positionsinformationen derer Trägheitssensoren. Die Spracherkennung liefert zusätzlich den Lautstärkelevel der Sprecherstimme. In einem korrekt arbeitenden multimodalen System müssen alle Ereignisdaten, die parallel oder sequentiell innerhalb eines
vordefinierten Zeitrahmens eingehen, mittels einer Grammatik interpretiert werden. Da
in den Hypothesen behauptet wird, dass simultane Eingaben nicht erforderlich sind, wird
78
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
eine Lösung zur sequentiellen Verarbeitung vorgestellt. Der Ansatz ist nach [Ovi02] als
„frame-based integration“ definiert. Eine skizzenhafte Umsetzung findet sich in [PBT02],
wonach die Daten nach syntaktischem Parsing in einem Puffer zwischengespeichert und
nach Ablauf eines Zeitfensters zusammen semantisch interpretiert werden. Ein ähnliches
Prinzip soll für den Prototyp angewandt werden (siehe Abb. 4.1). Die Ereignisse werden
auf Relevanz gefiltert, zwischengespeichert und nach vorgegebenem Timeout als gesamtes
Ereignistupel mit der Syntax der dem Ereignismanagement bekannten Tupel verglichen.
Nach Verifizierung wird das Tupel semantisch in eine Systemnachricht zur Auslösung einer Reaktion übersetzt.
Vorausgesehen, dass parallele Eingabedatenströme einen hohen Erkennungs- und Verar-
Abbildung 4.1: Multimodale Ereignisverarbeitung
beitungsaufwand benötigen und das System für verteilte Berechnungen nur bedingt netzwerkfähig ist (z.B. ist das Informationsrepository ausgelagert), wird an dieser Stelle keine
Lösung hierfür vorgestellt (siehe [YYDW99] für ein derartiges Konzept).
4.5.2
Aktive und passive Interaktionskonzepte
Entgegen multimodalen Konzepten, nach welchen der gesamte Datenstrom als Eingabe
gesehen und nach einer gegebenen Grammatik analysiert wird, reagiert das System auf
schon durch das Gerät selbst gefilterte und somit statische Einzelereignisse, wie sie in
gängigen GUI-Toolkits implementiert sind. Jene gehen aber davon aus, dass der Benutzer
4.5. KONZEPTE
79
mit visuellen Steuerelementen interagiert. Die Benutzeraktion resultiert in einer Reaktion
des Systems nach aktiver Interaktion mit der Control. In multimodalen Systemen wird das
Ereignis aber schon am Eingabegerät abgefangen.
Interaktionsmanagement
Wenn der Interaktionsablauf grob in Eingabe, Verarbeitung und Ausgabe (EVA) unterteilt
wird, so setzen sich diese zusammen aus Anbindung, Handhabung und Ereignisüberwachung der Eingabegeräte zur Eingabe (E), Verarbeitung der Ereignisse (V) und Ausgabe
als systemrelevante Information (A). Alle Komponentengruppen (wie etwa Geräte, Ereignisse etc.) werden von eigenständigen Managern initialisiert und beobachtet. Daten einer
Gruppe laufen immer über den zugehörigen Manager, der sie entsprechend weiterleitet.
Neben einem Gerätemanager, der im übrigen auch Ausgabe- und Lokalisierungsgeräte
verwaltet, übernimmt der Ereignismanager die für die Interaktion bedeutendste Rolle. Er
empfängt die Rohereignisdaten eines Gerätes, vergleicht das Ereignis mit vordefinierten,
akzeptierbaren Einträgen und sendet eine für die übrigen Systemkomponenten verständliche Antwort an alle interessierten Empfänger.
Biometrisches Feedback
Feedback als Antwort des Systems auf die Ereignisinterpretation wird dem Benutzer auf
verschiedenen Wahrnehmungskanälen, wie etwa Audiokommentare für das Hören sowie
Farb- und Helligkeitsfeedback und Textfeedback für das Sehen, geliefert. Unter Verwendung des passiven Datenstroms der Trägheitssensoren und des Mikrophons kann dem Benutzer sogar konstant Hilfestellung gegeben werden. Der Typ dieses Feedbacks wird als
„Biofeedback“ definiert. Mit Hilfe der Trägheitssensoren können die Handbewegungen
des Anwenders verfolgt und analysiert werden. Die Bewegungen werden in horizontaler
(X-Koordinate) und vertikaler Richtung (Y-Koordinate) über einen vorgegebenen Zeitraum gemessen. Die Differenzen zwischen den Messwerten gleicher Richtung werden
aufsummiert. Nach Ablauf des Zeitfensters wird das Ergebnis mit einem Schwellwert verglichen. Wenn der Wert überschritten wird, wird dies als Nervosität oder Ungeduldigkeit
des Anwenders gewertet. Man stelle sich etwa die Situation vor, dass das System nicht
80
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
nach seinen Erwartungen funktioniert und er das Eingabegerät aus Frust schüttelt. Eine
passende Reaktion wird für horizontale Bewegungen wie folgt ermittelt (vertikale analog):
xAxisDistance = currentXP
osition − lastXP osition




currentXP osition ,wenn xAxisDistance >
lastXP osition =
minDistT reshold



lastXP osition
sonst
sumOf AllXAxisDistances = sumOf AllXAxisDistances + lastXP osition
reaction ⇔ sumOf AllAxisDistances < minM oveT reshold
∨
sumOf AllAxisDistances > maxM oveT reshold
Das gleiche Messprinzip wird für die Knöpfe eines Gerätes angewandt. Die Anzahl der
gedrückten Knöpfe wird über einen Zeitraum aufgezeichnet und schließlich mit einem
Schwellwert abgeglichen („nervous buttons“). Eine vorzustellende Situation ist hier, dass
der Anwender wahllos und schnell die Knöpfe bedient, weil er nicht zufrieden mit den
Reaktionen des Systems ist. Als passiver Datenstrom wird auch der stetig wechselnde
Lautstärkelevel der Anwenderstimme registriert. Vorausgesetzt, die Umgebungslautstärke
beeinflusst die Sensitivität des Mikrophons nicht, gibt der über einen Zeitraum gemessene,
durchschnittliche Pegel Auskunft über das Stimmvolumen („shout level“). Wiederum ein
Schwellwert wird über die Verwertung für entsprechendes Feedback entscheiden, sei es eine zu leise oder gar stumme Stimme, die auf Passivität oder Fraglosigkeit des Anwenders
hinweist, oder eine zu laute Stimme, deren Ursache eventuell eine nicht reagierende Spracherkennung ist und die andere Museumsbesucher stören könnte. Das durchschnittliche
Stimmvolumen wird wie folgt ermittelt:
shoutV alue = shoutV alue + currentShoutLevel
shoutRatio = shoutV alue/shoutCount
reaction ⇔ shoutRatio > shoutLevelT reshold
81
4.5. KONZEPTE
Natürlich sind diese Ideen nur Vermutungen, die psychologisch ausgewertet werden müssten.
Räumliches Audiofeedback
Laufbewegungen des Besuchers werden mittels GPS-Sensor, Kopfbewegungen mittels
elektronischem Kompass aufgezeichnet. Die Daten lassen sich neben Navigationsaufgaben für räumlich sensitives Feedback in Form von raumwirkenden Tönen verwenden. Das
Repository verfügt über eine skizzenhafte Navigationskarte N mit der Ausdehnung (x, y)
des Ausstellungsgeländes, auf der alle AOI und POI mit ihren Koordinaten verzeichnet
sind. Seien nun zwei verschiedene Areale AOI1 mit Mittelpunkt M1 (x1 , y1 ) und Radius
r1 sowie AOI2 mit Mittelpunkt M2 (x2 , y2 ) und Radius r2 gegeben. Ein Besucher V (x, y),
der sich außerhalb dieser Bezirke aufhält, hat eine Distanz d1 zu AOI1 und eine Distanz
d2 zu AOI2 , die sich ergeben aus:
d1 = ||M1 − V ||
d2 = ||M2 − V ||
Nimmt man das Maximum max einer Richtungsausdehnung von N , dann ergeben sich
die Lautstärken l1 für den Raumton von AOI1 und l2 für den Raumton von AOI2 aus den
normalisierten Distanzen d1 und d2 :
d1
max
d2
=
max
l1 =
l2
Sind der Norden des Museumsplans und der 0te bzw. 360te Grad des Kompass aufeinander ausgerichtet, so liefert der Kompass zusätzlich den Winkel zwischen dem vom Benutzer ausgehenden Vektor Richtung Norden und dem Distanzvektor zum AOI. Anhand der
Gradzahl g lässt sich feststellen, ob sich das Gebiet vor oder hinter und links oder rechts
von der Besucherposition befindet. Die Abschnitte A mit l für links von V , r für rechts
82
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
von V , f für vor V und b für im Rücken von V sind definiert als:
Arf ⇔ 0 ≤ g ≤ 90
Arb ⇔ 90 ≤ g ≤ 180
Alb ⇔ 180 ≤ g ≤ 270
Alf ⇔ 270 ≤ g ≤ 360
Die Identifizierung des Gebietes im Winkelbereich ist aber nur dann unbedingt notwendig, wenn ein zweiseitiges Headset verwendet wird, damit entschieden werden kann, auf
welcher Seite der Ton abgespielt wird. Andernfalls sollte für die Gebiete, die sich auf der
jeweils gegenüberliegenden Seite des angesprochenen Ohrs befinden, eine Dämpfungskonstante dampconst ∈ ]0, 1[ die Lautstärke des Tons verringern, so dass sich ergibt:
volume = l1∨2 ∗ dampconst
Abbildung 4.2: Räumliches Feedback außerhalb der AOI.
Abbildung 4.3: Räumliches Feedback innerhalb eines AOI.
Das Rendern von dreidimensionalen Klängen ist eigentlich weitaus komplexer. Weiterführende Konzepte sind etwa in [BM02] zu finden.
Sprache als Eingabegerät
Ein Ziel dieser Arbeit ist es, die Arten der Eingabegeräte auf das Konzept der Schnittstelle
abzustimmen anstatt zu evaluieren, wie mit vorgegebenen Geräten ein flexibles System
4.5. KONZEPTE
83
erstellt werden kann. Die Vorgabe lag dennoch auf der Verwendung von einer erkennungsbasierten, natürlichen Eingabemethode und eines ergänzenden, abstrakteren Gerätes. Sprache erschien die am einfachsten zu „erlernende“ (nur die Verwendung, nicht die
Anwendung) und am wenigsten „fremde“ Variante, da für Gesten oder Mimik neue Metaphern erlernt werden müssen. Außerdem können sie nicht freihändig eingesetzt werden,
sondern benötigen avanciertere Erkennungsmethoden, wie Pinch Gloves, Touchpad oder
eine Kamera, die das Gesicht des Anwenders fokussiert. Überdies scheint Mimik nicht
trivial erkenn- und interpretierbar. Sprache wird darüber hinaus im Alltag oft zur Dialogsteuerung zwischen Gesprächspartnern eingesetzt. Sprachliche Dialoginhalte sind sowohl
für den Anwender als auch für das System „leicht“ zu erlernen. Der Anwender wird das
verfügbare Vokabular im visuellen Teil der Schnittstelle zu sehen bekommen und kann es
somit direkt aussprechen. Das System wiederum nimmt die sichtbare Repräsentation in
sein eigenes Vokabular auf.
Maus und Remote Control als Eingabegeräte
In der Annahme, dass ein Besucher mit minimalen Interaktionsmöglichkeiten am Gerät
maximale Aktionen mit der Schnittstelle durchführen kann und ihm der Modus in gewisser Art und Weise bekannt ist, wurden Maus und Remote Control (RC) als potenzielle,
Sprache ergänzende Geräte ausgewählt. Aufgrund ihrer Ähnlichkeit kann man auch ähnliche Interaktionskonzepte aufstellen und diese später evaluieren, so dass die Tester im
Praxiseinsatz herausfinden können, welches das am ehesten geeignete ist. Allen ist die
Verwendung von Knöpfen bzw. Tasten als „Handler“ und ein integrierter Trägheitssensor
gemeinsam. Sie unterscheiden sich in Form, Handgefühl und Anzahl der Knöpfe. Andere
Vor- und Nachteile finden sich in Kapitel 3.2 und Anhang B.
Grammatikbildung für die Spracherkennung
Wie schon angesprochen basiert die Sprachverständigung auf einem festgelegten Vokabular. Ein Dialogsystem mit vollständigen Sätzen, die natürlicher Sprachkommunikation
wohl am nächsten kommen, wird für den Prototypen erst einmal nicht zum Einsatz kommen. Stattdessen verhalten sich kurze Kommandos und Phrasen wie Ereignisse, die von
84
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
RC und Maus gesendet werden. Die Spracherkennung und das Eventmanagement sind
aber so dynamisch, dass sie beliebig viele, unterschiedliche Vokabeln - auch während des
Gebrauchs - aufnehmen und verarbeiten können. Das Vokabular oder auch die Grammatik
wird anhand vorgegebener Regeln kontinuierlich neu generiert, wenn neue Wörter hinzugefügt werden.
Nach dem Konzept der Microsoft® SAPI (s. Kap. 2.1.5) bilden die Regeln zusammen
ein Zustandsübergangsdiagramm mit den Wörtern als bedingende Ereignisse, versehen
mit Übergangswahrscheinlichkeiten. Die Wahrscheinlichkeiten entscheiden, welche Wortzusammensetzungen eher als erkannte Phrase geliefert werden sollen. Dem Sprachmodul können nun einleitende Kommandowörter („Show“, „Hide“, etc.), Kommandophrasen
(„Show guide“), Einzelwortkommandos („Play“) und Schlüsselwörter („Temple of Zeus“)
für die Grammatik übergeben werden. Schlüsselwörter können sich auch aus mehreren
Einzelwörtern zusammensetzen, sie sind aber als Ganzes die Bedingung für einen Zustandsübergang, während Kommandophrasen sich aus einleitendem Kommandowort und
Schlüsselwort oder schließendem Kommandowort zusammensetzen. Die Grammatik bildet so auch Wortkombinationen, die eigentlich nicht direkt übergeben wurden („Show
Temple of Zeus“). Unerwünscht generierte Kombinationen werden dann spätestens durch
das Eventmanagement abgefangen. Die Regeln sind im Folgenden in EBNF skizziert:
Rule ::= CommandP hrase | SingleCommand | Keyword
CommandP hrase ::= P reCommand W ord
P reCommand ::= W ord
SingleCommand ::= W ord
Keyword ::= W ord [„ „] {W ord}
W ord ::= Char {Char}
Char ::= „a„| . . . |„z„
4.5. KONZEPTE
85
Dynamisches Vokabular
Das Management allerdings kann ein Schlüsselwort nicht eigenständig interpretieren, denn
dessen Bedeutung ist abhängig vom Kontext. Daher muss es kategorisiert werden (z.B.
„Independent Keyword“) und die Kategorie wird stattdessen als Filter eingesetzt. Bei Bekanntmachung eines Wortes als potenzielles Ereignis wird es vom Management mit der
Kategorie assoziiert. Die Idee zum dynamischen Vokabular ist in Anlehnung an [Die04]
entstanden, wonach der Besucher das System Schritt für Schritt erlernen soll, während er
die Ausstellung erkundet. Je mehr er an Exponaten und Arealen gesehen hat, desto größer wird das Vokabular. Der Besucher soll Informationen zu bereits besuchten Exponaten
jederzeit wieder durch Aussprache des entsprechenden Schlüsselwortes, also der Bezeichnung des Ausstellungsstücks, abrufen können. Wenn die Lokalisierungskomponente einen
neuen Standort meldet, werden relevante Schlüsselwörter, die Aktionen auslösen können,
aufgenommen. Ebenso sind nur solche graphischen Menüelemente per Sprache ansteuerbar, die auch gleichzeitig sichtbar sind. Das vermeidet zum einen, dass der Besucher sich
an Kommandos erinnern muss, zum anderen, dass die Schnittstelle auf nicht verwertbare
Ereignisse reagiert, die momentan nicht in den Kontext passen. Schlüsselwörter, die gerade nicht verwendbar sind, aber schon zuvor angezeigt und erlernt wurden, werden bei
Bedarf in einer Informationstafel thematisch sortiert angezeigt.
Benutzerführung
Ein sprecherabhängiges Spracherkennungssystem ist für die korrekte Entdeckung grammatikalisch korrekter Ausdrücke verantwortlich. Es liest den vom Mikrophon kommenden
Datenstrom und schlägt ein oder mehrere „Hypothesen“ vor. „Hypothesen“ sind mögliche
Bedeutungen eines erkannten Wortes, gewichtet mit einer Wahrscheinlichkeit. Die „Hypothese“ mit der höchsten Wahrscheinlichkeit wird als final erkanntes Wort genommen, wenn
die Wahrscheinlichkeit einen gewissen Schwellwert überschreitet, also eindeutig ist. Nun
muss einer Hypothese aber nicht notwendigerweise eine verifizierte Erkennung folgen.
Dann greift das Konzept der Schnittstelle, nämlich die höchstwahrscheinlichste Hypothese in den aktuellen Kontext einzuordnen. Wenn das Schlüsselwort passt, wird versucht,
die entsprechende Aktion auszulösen, allerdings erst nach Bestätigung des vermeintlichen
86
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Kommandos durch den Benutzer. Am effizientesten arbeitet ein sprecherabhängiges System natürlich, wenn jeder Anwender sein eigenes Sprachprofil abgelegt hat.
Wie man sieht, sind die Konzepte von sehr unterschiedlicher Natur. Ebenso lässt sich daraus noch kein Prototyp mit zusammenhängenden Komponenten stricken, der alle Bedürfnisse des Szenarios abdeckt. In Kapitel 5 wird man sehen, dass die Arbeit ihren Schwerpunkt auf Realisierungskonzepte legt, die umgekehrt aber wieder aufgrund ihrer Generalisierbarkeit und Skalierbarkeit einen positiven Effekt auf kommende, erst einmal theoretische Konzepte haben.
4.5.3
Präsentationskonzepte
Zwar wurde gesagt, dass sich die Konzepte der Arbeit hauptsächlich mit der Interaktion
als mit der Präsentation beschäftigen, allerdings schließt die Definition einer multimodalen Schnittstelle die Reaktion in Form von Multimedia auf die Aktionen des Anwenders
unbedingt mit ein. Außerdem ist die Effizienz des Touristenführers nicht wirklich messbar, wenn der Besucher keine Medien geliefert bekommt. Die Absicht, GUI-Prinzipien
nicht vollständig abzulösen, birgt zudem automatisch die Idee der Einbettung von sichtbaren Steuerelementen in die Schnittstelle. Erfahrungen mit graphischen Schnittstellen in
der AR im Bereich Cultural Heritage und Tourismus wurden von Intracom in den Projekten Archeoguide und intCulture gesammelt. An die Entwicklung von ARGuide wurde in
dieser Arbeit angeknüpft und die Schnittstelle, die bis dato nur Demonstrationszwecken
diente, umstrukturiert. Erhalten bleiben Kontext-, Content- und Lokalisierungskomponenten sowie Konzepte zur Führung des Besuchers durch die Ausstellung.
Unterscheidung von Steuerelementen
Nach den Ideen von [HFT+ 99] sind die graphischen Steuerelemente grundsätzlich in
„screen-stabilized“ und „world-stabilized“ Objekte aufgeteilt. Erstere dienen der Darstellung von Statusinformationen, globale Instruktionen zur Führung des Besuchers sowie
Hilfestellungen. Sie können auf dem Bildschirm dynamisch durch Autor oder Benutzer
positioniert werden. Alle unmittelbar auf die getrackten Objekte ausgerichteten Elemente
4.5. KONZEPTE
87
beschreiben direkte Interaktionen in der AR, etwa die Animation von Overlays, Medienpräsentationen über das augmentierte Objekt, dreidimensionale Ansichten oder Kommentierung der Situation.
Abbildung 4.4: Relation der Steuerelemente (Mockup)
Sitenavigation
Eine Ausstellung hat, wie in Abschnitt 4.3 beschrieben, eine hierarchische Architektur.
Anfangs war die Idee, die Bezeichnungen für Areale und Exponate in einer baumartigen
Menüstruktur mit dem Ausstellungsnamen als Wurzel und Gebiete sowie Teilgebiete als
Zweige und Äste unterzubringen. Es hat sich aber herausgestellt, dass akkurate Navigation
durch die Struktur zu verstrickter, tiefer Erweiterung des Baumes und damit zu Sichtverdeckung führt. Außerdem wird der Benutzer vermutlich irritiert, wenn er nicht weiß, wie
er zu einem bestimmten Punkt zurückgelangen soll. Stattdessen wird dem Anwender die
Navigation durch ein umfangreiches Menü abgenommen. Der Guide zeigt ihm immer nur
die Bezeichnung des gerade besuchten oder navigierten Objekts (∼
= innerer Knoten des
∼
Baums) und dessen direkte Unterobjekte (= Kinder des innereren Knotens) in Form von
Schlüsselwort und Miniaturbild (Thumbnails) an (⇒ Beantwortung der Fragen „Wo bin
ich?“ und „Was kann ich hier sehen?“). Die Informationen werden bei Positionswechsel
sowie Selektion eines sichtbaren oder eines erinnerten Objekts aktualisiert. Durch ent-
88
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
sprechende Kommandos gelangt der Besucher immer wieder zur Ausgangsansicht zurück
(Informationen zur aktuellen Position). Die Fragen „Was ist in der Nähe?“ (umgebene
Areale und Exponate) und „Was ist mit dem Objekt verwandt?“ (themenverwandte Areale
und Exponate) werden durch diese Art der Sitenavigation auch beantwortet, wenn passende Befehle ausgesprochen werden und der Guide vom Sitemanagement (Verwaltung der
Struktur des Ausstellungsgeländes) relevante Informationen einholt.
Abbildung 4.5: Hierarchiemenü mit
horizontaler Baumstruktur (Konzept).
Abbildung 4.6: Alternatives Hierarchiemenü mit Baumstruktur (Konzept).
Abbildung 4.7: Menü mit Miniaturbildern und Bezeichnern (Konzept).
Feedback
Damit der Besucher auch weiß, welche Informationen er gerade erhalten und welche Aktionen er gerade durchgeführt hat, präsentiert der Guide kontinuierliches Text-, Audio-,
Farb- und Helligkeitsfeedback. Text wird nach Aktionen in einer horizontal aufblendenden Leiste angezeigt. Um dem Anwender nicht unnötig lange ein Teil seiner Sicht zu
nehmen, wird der Balken nach einer Weile wieder ausgeblendet. Es muss beachtet werden, dass nicht jede einzelne Aktion Textfeedback auslösen sollte, da die Einblendungen
4.5. KONZEPTE
89
dann zu oft wechseln und der Benutzer nicht folgen kann. Stattdessen sorgen Audiosignale
bei Hervorhebung und Auswahl von Steuerelementen für die notwendige Bestätigung der
Aktion. Dieselbe Funktion erfüllen unterschiedliche Farben und Helligkeiten. Grundsätzlich werden aktive und passive Steuerelemente unterschieden, allerdings ist dies nur für
die Verwendung von Maus und Remote Control notwendig, da mit Sprache alle Elemente
unmittelbar angesprochen werden können. Da in der Schnittstelle keine Pointing-Option
zur Verfügung steht, können Tools und Controls mit den ursprünglichen Zeigegeräten nur
sequentiell angesteuert werden. Wurde ein Tool navigiert, ist es in einem aktiven Zustand.
Dessen Controls werden nun ebenfalls sequentiell durchlaufen und selektiert. Wird eine
Control gerade durchlaufen, ist sie aktiv, alle übrigen sind passiv. Passiv sind auch alle verbliebenen, sichtbaren Tools und Controls. Aktive und passive Elemente unterscheiden sich
eindeutig im Kontrast. Um nun Sprachkommandos von normalen Textfragmenten trennen
zu können, werden auch hier kontrastreiche Farbhervorhebungen angewandt. Es ist darauf
zu achten, dass sich die vier Farbtöne nicht gegenseitig stören. Die Identifikation muss insbesondere beim Wechsel der Aktiv-Passiv-Rolle - immer eindeutig bleiben.
Statusmanipulation und Hilfsfunktionen
Neben der Navigation der Informationen kann der Anwender das System ständig mit Hilfe
einer Statusleiste kontrollieren. Es kann eine Kommandoleiste aufgerufen werden, die unter verschiedenen Themen an bereits erlernte Schlüsselwörter und Kommandos erinnert.
Die Themen können in Anlehnung an die in [Hsi02] geschilderten Benutzerbedürfnisse, an
die Bezeichnung der Tools oder an die dem Kommando folgenden Informationen („Architecture“, „Athletics“, „Political“, „Cultural“, etc.) spezifiziert sein. Nach Selektion eines
Themas wird eine Box mit entsprechend sortierten Einträgen temporär eingeblendet.
Wenn der Besucher wünscht, sich mit anderen Personen bei gleichzeitiger Benutzung des
Systems zu unterhalten, kann er das Mikrophon jederzeit stumm schalten. Die Spracherkennung reagiert folglich nur noch auf ein Reaktivierungskommando. Per Maus und RC
bleibt weiterhin alles ansteuerbar.
Nach den Hypothesen ist es gewünscht, dass der Anwender das Interface jederzeit ver-
90
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Abbildung 4.8: Hotspots eines Exponats (Konzept)
stecken kann, wenn die graphischen Interaktionstools seine Sicht verdecken. Diese Option
ist ebenfalls in die Statusleiste integriert. Ein Hinweis erscheint, der den Anwender anleitet, wie er die Aktion umkehren kann.
Für Hilfefunktionen ist eine Option in die Statusleiste integriert, wird derzeit aber noch
kein Konzept vorgeschlagen, da intCulture entsprechende Lösungen vorsieht.
Augmentierung des Exponatmenüs
Reale Objekte werden im Videobild nicht nur von Bildern mit alternativen Ansichten des
Objektes überlagert, sondern es kann mit ihnen auch selbst wieder interagiert werden. Das
Exponatmenü hat dieselbe Funktionsweise wie alle übrigen Tools. Durch dieses lassen sich
Animationen steuern, ein dreidimensionaler Einblick in das Objekt geben, Informationen
zum Objekt abrufen und Erinnerungen an das Exponat aufzeichnen. Alternativ werden
bestimmte Bereiche eines Overlays - in Anlehnung an die aktuelle Exponatbezeichnung
im Sitenavigations-Tool - farblich mit transparenten Markern hervorgehoben (siehe Abb.
4.8), um den semantischen Bezug zwischen Thumbnail, Exponattitel und Position in der
Ausstellung herzustellen.
4.6. SYSTEMARCHITEKTUR
4.6
91
Systemarchitektur
Das Kapitel zur Systemarchitektur gilt der Realisierung der Konzepte unter Beachtung der
Hypothesen. Im Sinne von intGuide wird darüber hinaus an softwaretechnische Konzepte
zur Generalisierung und Skalierbarkeit der Plattform gedacht. Aber auch wenn man an die
Vielzahl der möglichen Wünsche und Bedürfnisse von Ausstellungsbesuchern denkt, ist
Erweiterbarkeit der Schnittstelle in jeder Hinsicht ein Muss.
4.6.1
Multimodale Systemarchitektur
Anhand von Konzepten und Anwenderszenarien lässt sich erkennen, dass die Schnittstelle
weder einseitig multimodal noch unimodal, sondern hybrid die Eingabedaten des Anwenders verarbeitet. Welcher Modus wann verwendet wird, um die Daten zu interpretieren, ist
abhängig von ihrer Komplexität. Das Ziel ist dennoch allen Modi gleich, nämlich Interaktion und Interpretation so einfach und effektiv wie möglich zu gestalten.
Streng nach Terminologie [Ovi02] betrachtet handelt es sich um ein sogenanntes „blended multimodal interface“, welches mindestens einen passiven und mindestens einen aktiven Eingabemodus erkennt und analysiert. Aktive Eingabedatenströme, die explizit vom
Anwender durch Kommandos ausgelöst werden, kommen von Sprach-, Maus- und Fernbedienungseingaben. Direkte passive Eingabedatenströme erreichen die Schnittstelle von
den Trägheitssensoren von Maus, Remote Control und (versuchsweise) Gamepad. Indirekte Interpretationen erfolgen durch Tastendruckfrequenz und Stimmlautstärke. Indirekt
bedeutet, dass sie nicht zum Zeitpunkt der Interaktion in Kombination mit anderen Daten,
sondern später analysiert werden. Für die Integration der Konzepte sind Kombinationen
aus aktiven und passiven Daten allerdings nicht notwendig. Stattdessen werden nur aktive Daten gemeinsam interpretiert. Da der Puffer eine sequentielle Dateneingabe erlaubt
und die Interpretation eines zeitlich versetzten, zweiten Eingabedatums damit von dem
zuerst erfolgten Kommando abhängig sein kann, handelt es sich zudem um ein sogenanntes „temporally cascaded multimodal interface“. Erst wenn der Puffer entleert wird, also
nach Erkennung jedes einzelnen Datums, wird ein Einzelereignis (unimodal) oder ein Tupel (multimodal) in eine systemverständliche Nachricht übersetzt. Dies bezeichnet man
92
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
als „late semantic-level fusion“, denn die Bedeutung eines Ereignisses ist schon auf Erkennungsebene bekannt. Bedeutung heißt in diesem Zusammenhang, dass eine komplette Dateneinheit erkannt wurde (z.B. „Play media“ oder „LeftMouseButtonPressed“. Das
Übersetzungsschema nutzt schließlich eine Methode, die als „frame-based integration“
bezeichnet werden kann. Ein Ereignistupel ((Device1 , Event1 ), . . . , (Devicen , Eventn ))
wird mit maximal k Schlüsseln der Form ((Device1 , Event1 ), . . . , (Devicem , Eventm ))
verglichen, bis eine Übereinstimmung gefunden wurde („Pattern-Matching“).
4.6.2
Komponentenkommunikation
Die Komponenten „Interaktion“ und „Präsentation“ bilden den Kern der multimodalen
Schnittstelle. Damit die vom Anwender ausgehenden Interaktionsdaten aber korrekt verarbeitet werden können, bis schließlich ein Ergebnis präsentiert wird, werden noch weitere
Komponenten benötigt. Der Aufbau orientiert sich teilweise an Vorschlägen aus [MRKB04].
Der Besucher interagiert folglich mit den Eingabegeräten der Interaktionskomponente,
die die Ereignisse abfängt, sie in für das System verständliche Informationen umwandelt (ergo interpretiert) und diese an die Applikationsverwaltung sendet. Diese hat zu
Anfang alle Manager initialisiert, welche wiederum für Subkomponenten verantwortlich
sind. Außerdem hostet sie den ARBrowser. Wenn die Benutzeranfrage Informationen aus
dem Repository benötigt, stellt die Applikation eine Anfrage an die Kontextkomponente, die den Zugriff ermöglicht. Sind alle Anfragen beantwortet, aktualisiert die Applikation den Zustand der Präsentation. Dem Anwender zeigt sich nun ein anderer Status
der Schnittstelle, mit welchem er abermals interagieren kann. Das Diagramm in Abb. 4.9
zeigt den (theoretischen) Kreislauf der Informationsverteilung. In der Praxis müssen die
Komponenten etwas verschoben werden. Das Tracking beinhaltet sowohl Positions- und
Orientierungsbestimmung als auch das Verfolgen und Rendern von Objekten und Overlays. GPS-Sensor und Kompass sind aber Bestandteile der Gruppe der Ortungsgeräte und
liefern der Applikation die Daten über die Interaktionskomponente. Der ARBrowser hin-
4.6. SYSTEMARCHITEKTUR
93
Abbildung 4.9: Komponentenkommunikation
gegen musste aus Designgründen, die in Kapitel 5.2.1 näher erläutert werden, in die Präsentation verschoben werden. Für Repository und Context werden im Prototyp nur Stubs
zur Verfügung stehen, da die Komponenten von intCulture bereits vorhanden sind, aber
noch nicht angebunden werden konnten.
94
4.6.3
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Patterns und Komponenten
Nachdem nun festgelegt wurde, wie das System Daten austauscht, müssen die einzelnen
Komponenten weiter spezifiziert werden. Den Anforderungen der Anwendungsfälle und
des Anwenderszenarien folgend werden den Komponenten in Anlehnung an [MRKB04]
Patterns (grobe Funktionsspezifikation) zugeteilt. Die Vorschläge aus [MRKB04] sind für
die Erstellung von Klassendiagrammen aber noch zu ungenau definiert und werden daher
noch detaillierter beschrieben.
Die Interaktionskomponente wird in zwei Subsysteme aufgeteilt: ein Teilsystem verwaltet
alle Eingabe-, Ausgabe- und Lokalisierungsgeräte, ein anderes übernimmt die Verarbeitung der ankommenden Ereignisse der Geräte. Eingaben werden mittels „Keymapping“
(siehe Abschnitt 5.1.3) bei der Verarbeitung auf eine systemverständliche Ebene übersetzt.
Daten der Lokalisierungsgeräte werden durchgeschleust. Alle Einheiten der beiden Systeme sind konfigurierbar. Nach dem MVC-Modell (Model-View-Controller, [GHJV95])
ist die Interaktionskomponente der Controller zwischen Besucher und Applikation. Sie ist
aber nicht auf eine bestimmte View bezogen, sondern im Gegenteil vollständig unabhängig.
Die „gemappten“ Ereignisse werden an die Applikationskomponente weitergeleitet. Sie
werden auf Relevanz im aktuellen Kontext (Status der Interaktion und Schnittstelle) überprüft und an entsprechende Präsentationseinheiten, die initialisiert sein müssen, versendet.
An die Komponente werden ebenso alle Logging-Einträge gesendet, die feedbackrelevante Informationen beinhalten. Sie repräsentiert das Model des MVC-Konzepts, mit dem
Unterschied, dass keine Methoden für Zugriffe auf und Manipulationen von Daten bereitgestellt werden.
Jene Funktionalität wird von sogenannten „UIWidgets“ übernommen, die sowohl funktionale als auch darstellende Aufgaben (∼
= Tools und Controls) haben können und in die Präsentationskomponente integriert sind. Alle Widgets werden von einem Manager verwaltet.
Im Besonderen können Widgets (in späteren Prototypen) in VRML definierte Szenen und
4.6. SYSTEMARCHITEKTUR
95
Einzelobjekte in den ARBrowser importieren und rendern lassen. Ein Medienbetrachter ist
in der Lage, alle Arten von im Repository vorhandenen Medien abzuspielen. Zur Navigation innerhalb des Ausstellungsgeländes ist eine komplexere Subkomponente notwendig.
Alle von der Applikation gesammelten Feedbacknachrichten kommen dem Besucher an
dieser Stelle zu. Die Präsentationskomponente implementiert die View des MVC-Modells.
Context- und Content Management werden weitestgehend von intCulture übernommen
und verwalten die Site und ihre Ausstellungsstücke einschließlich ihrer zugehörigen Medien. Alle Informationen werden im Repository abgelegt. Profiling-Konzepte zur Feststellung von Benutzerpräferenzen sind ebenfalls eingeschlossen. Annotations-Funktionen
von intCulture werden mit Möglichkeiten erweitert, die sich aus Spracherkennung und
den Komponenten des ARBrowser ergeben. Neu konzipiert sind dagegen die Pattern zur
Konfiguration verschiedenster Module mittels in XML definierten Dateien, obwohl einige
Module schon im ARGuide mit XML konfigurierbar sind (Details zur Neugestaltung finden sich in Kapitel 5).
Weltmodell („World model“) und Trackingmodul sind nach Diagramm 4.10 unabhängige
Komponenten. Das Weltmodell gehört eigentlich zur Präsentation und ist nicht in einem
dreidimensionalen Koordinatensystem definiert. Objekte werden anhand von zweidimensionalen Positionsdaten und nach Abgleich mit Referenzbildern augmentiert. Daher kann
das Trackingmodul auch keiner einzigen Komponente zugeordnet werden. Daten kommen
von GPS und Kompass als Positionsgeräten und dem in die Präsentation eingebetteten ARBrowser durch die Kamera- bzw. Anwenderorientierung.
96
KAPITEL 4. DESIGN DER BENUTZERSCHNITTSTELLE
Abbildung 4.10: Patterns
Kapitel 5
Realisierung
In den folgenden Abschnitten wird die Umsetzung der in Kapitel 4.5 vorgestellten Konzepte anhand der in Kapitel 4.6 skizzierten Systemarchitektur nachvollzogen. Es ist darauf
zu achten, dass die Konzepte nicht alle Hypothesen einbezogen haben und auch Teile der
Ideen des Anwenderszenarios erst in der Implementation wirklich zur Geltung kommen.
5.1
5.1.1
Interaktion
Ereignisse der Eingabegeräte
Wenn ein Anwender mit dem System interagiert, so bedient er in erster Linie einmal die
Interaktionsgeräte Sprache und Maus oder Remote Control. Maus und Sprache sind als
gekapselte, selbstständige Objekte integriert. Es existiert eine abstrakte Definition von
Sprachklassen, so dass später alternative Spracherkennungssysteme angebunden werden
können. Ebenso gibt es ein Objekt zum Filtern von Keyboardereignissen, das jedoch nur
als Workaround verwendet wird und nicht als Interaktionsgerät. Die mitgelieferte Softwa97
98
KAPITEL 5. REALISIERUNG
re der Remote Control1 erlaubt eine beliebige Belegung der Knöpfe mit Aktionen, die das
Betriebssystem zur Verfügung stellt (Aufrufen von Applikation, Mausereignisse, Keyboardereignisse, Befehlskombinationen) und läuft als separate Anwendung im Hintergrund.
Sie wurde mit Maus- und Keyboardaktionen belegt, die von den Wrappern der anderen
Geräte entsprechend interpretiert werden. Die ankommenden Ereignisse werden abgefangen, eventuell gefiltert und schließlich in den Formaten <Device, Event> oder <Device,
Event, Info> an den Gerätemanager als einzigem Nachrichtenempfänger weitergeleitet.
Das spezielle Tupel ist notwendig, falls die Interaktion zusätzliche Information liefert, die
direkt am Gerät erkannt wird (z.B. der Lautstärkepegel des Mikrophons oder die Position des Mauszeigers bzw. die Daten der Trägheitssensoren in Maus und RC). Spracheingaben werden durch das dynamisch konstruierte Schlüsselwort- und Phrasenverzeichnis
und Maus-Eingaben durch die Angaben in einer Konfigurationsdatei gefiltert (siehe Listing 5.1). Die RC hat allerdings keine eigene Konfiguration, sondern imitiert Maus- und
Keyboard-Eingaben.
<?xml version= " 1 . 0 " ?>
<MouseSettings xmlns:xsd = " h t t p : / / www. w3 . org / 2 0 0 1 /XMLSchema" x m l n s : x s i = " h t t p : / / www. w3 . org
/ 2 0 0 1 / XMLSchema−instance " C o n f i g F i l e P a t h = " H: \ P r o j e c t s \ Sources \ MuMoUI \ b i n \ Release \
MouseSettings . xml " >
<Filters>
<event x s i : t y p e = " x s d : s t r i n g " >RightButtonRelease< / event >
<event x s i : t y p e = " x s d : s t r i n g " >RightButtonDouble< / event >
<event x s i : t y p e = " x s d : s t r i n g " >RightButtonPressed< / event >
<event x s i : t y p e = " x s d : s t r i n g " >LeftButtonPressed< / event >
<event x s i : t y p e = " x s d : s t r i n g " >LeftButtonRelease< / event >
<event x s i : t y p e = " x s d : s t r i n g " >LeftButtonDouble< / event >
<event x s i : t y p e = " x s d : s t r i n g " >MiddleButtonDouble< / event >
<event x s i : t y p e = " x s d : s t r i n g " >MiddleButtonRelease< / event >
<event x s i : t y p e = " x s d : s t r i n g " >MiddleButtonPressed< / event >
<event x s i : t y p e = " x s d : s t r i n g " >MouseMove< / event >
</ Filters>
< / MouseSettings>
Listing 5.1: Konfiguration der Mausereignisfilter
1
GyroTools, http://www.gyration.com/gyrotools.htm
5.1. INTERAKTION
5.1.2
99
Ereignisse der Lokalisierungsgeräte und Kontrolle der Ausgabegeräte
In den Anwendungsfällen ist zwar vorgesehen, dass der Anwender Kontrast und Helligkeit von Displays sowie Lautstärke des Headsets regeln kann, dennoch gehört die Anbindung von Ausgabegeräten über Softwaremodule nicht zum Bestandteil dieser Arbeit. Die
Profiling-Module von intCulture übernehmen diese Aufgaben. Werden diese später integriert, ist darüber nachzudenken, entsprechende Funktionen auszugliedern. Gleiches trifft
auf die Lokalisierungsgeräte GPS und elektronischer Kompass zu, die im weiteren nicht
verwendet werden können. Allerdings wurde ein Workaround geschrieben, um per Keyboardeingabe vorgegebene Positions-Tupel mit Arealbezeichner (SiteItemID), Längenund Breitengrad und Orientierung an der aktuellen Position aufrufen zu können und Reaktionen des Systems auszulösen.
5.1.3
Ereignismanagement
Der Ereignismanager empfängt nun ein Ereignistupel und sucht nach einem passenden
Schlüssel in seiner Keymap (Speicher mit Schlüssel-Wert-Paaren), die per XML konfiguriert wurde (siehe Listing 5.2). Ein Eintrag (MapEntry) besteht aus einem oder mehreren KeyPair(s) <Device, Event> und einem oder mehreren ValuePair(s) im Format <Widget,Common Layer Value*> (zur Idee von Widgets siehe 4.6.3). Wenn ein Eintrag gefunden wurde, werden die Common Layer Value(s) (CLV) über den Systemmanager an ihre
entsprechenden Widgets versendet. Ein CLV ist eine systemverständliche Nachricht, die
von einem Widget gelesen werden kann. Der Mappingprozess ist in den Abbildungen 5.1
und 5.2 dargestellt.
Man sieht, dass die Ereignisse sich in keinster Weise ähneln, die abgebildeten Paare aus
Zielwidget und CLV aber allen gemeinsam sind. Durch die Variable „Global“ lässt sich
zusätzlich festlegen, ob das Ereignis bei Initialisierung des Managers als globaler Befehl
mit in das Sprachvokabular aufgenommen wird.
100
KAPITEL 5. REALISIERUNG
Abbildung 5.1: Keymapping (algorithmisch)
Mediator
Da der Manager sowie andere Entitäten des Systems sich nicht kennen, unterstützt ein
global bekannter „Mediator“ (vgl. [GHJV95]) bei der Verbreitung der Sprachbefehle. Interessierte Nachrichtenempfänger registrieren sich über ein eigenes Interface und vorgegebene „Subjects“. Mögliche Subjects sind „SiteElementKeywords“ (Exponatbezeichner
wie „Temple“), „EventKeywordsSingle“ (Kurzkommandos wie „Play“), „EventKeywordsPhrase“ (Kommandos wie „Next tool“), „EventKeywordsPreCommands“ (Einleitende
Kommandowörter wie „Next“), „CommandBroadcast“ (Nachrichtenverteiler zur Auslösung eines Kommandos, ohne dass ein Gerät bedient wurde) und „EventFilters“ (Ereignisse und Nachrichten, die von einem Empfänger geblockt werden). Der Nachrichtenverteiler
hat besondere Bedeutung, weil hierdurch das System selbst Ereignisse auslösen kann, die
das Eventmanagement zu analysieren hat. Wie später ersichtlich wird, ist dies beispielsweise für die Kommunikation zwischen Widgets notwendig. Die Ereignisfilter sind für
multimodale Befehlsverarbeitung gedacht und werden einige Abschnitte später erklärt.
Das Interface kombiniert nun Empfängermethoden und Subjects. Wenn ein Sender Nachrichten global verbreiten will, übergibt er dem Mediator diese über relevante Aufrufe, je
101
5.1. INTERAKTION
Abbildung 5.2: Keymapping (schematisch)
nachdem welches Interesse der Sender hat, wie die Nachricht interpretiert werden soll.
Der Mediator verteilt die Nachricht an seine Beobachter. Das Sprachmodul nimmt dann
etwa als Schlüsselwörter oder Befehlsketten interpretierte Nachrichten in sein Vokabular
auf und bildet eine neue Grammatik.
Der Parameter „Verbose“ gibt an, ob das Ereignis einerseits geloggt wird und andererseits direkt als Feedback für den Anwender verwendet wird. In Beispiellisting 5.2 wird
die Aktion erst durch das BioFeedbackWidget verarbeitet und es entscheidet selbst, ob es
Feedback wiedergibt oder nicht.
102
KAPITEL 5. REALISIERUNG
...
<MapEntry>
<Keys>
<KeyPair Device= " MSSpeech " EventID= " Next t o o l " G l o b a l = " t r u e " / >
<KeyPair Device= " I ne r t i a l G a m e p a d " EventID= " 07 " G l o b a l = " f a l s e " / >
<KeyPair Device= " Mouse " EventID= " MiddleButtonPressed " G l o b a l = " f a l s e " / >
< / Keys>
<Values>
< V a l u e P a i r TargetWidget = "MuMoUI . P r e s e n t a t i o n . Widgets . W i d g e t C o n t r o l l e r " >
<CommonLayerValues>
<CLV>NextWidget< / CLV>
< / CommonLayerValues>
< / ValuePair>
< V a l u e P a i r TargetWidget = "MuMoUI . P r e s e n t a t i o n . Widgets . BioFeedbackWidget " Verbose
=" false ">
<CommonLayerValues>
<CLV>ObserveButtons< / CLV>
< / CommonLayerValues>
< / ValuePair>
< / Values>
< / MapEntry>
...
Listing 5.2: Beispieleintrag der Keymap
5.1.4
Ereignisse mit Zusatzinformationen
Ein Eintrag zur Verarbeitung eines Ereignisses mit Zusatzinfo unterscheidet sich nur in
dem Bezeichner des Events von dem herkömmlichen Format. Das Gerät signalisiert mit
dem besonderen Schlüsselwort „IndependentKeyword“, das es als Event in das Tupel
<Device, Event, Info> packt, dass als Information ein unabhängiges Schlüsselwort folgt.
Dieses Schlüsselwort ist demnach keine Befehlskette im Sinne von „Next tool“, sondern etwa der Bezeichner eines Ausstellungsstücks und gehört zu einer gesonderten Kategorie des Sprachvokabulars. Die auf Ereignisse wartenden Widgets interpretieren die
Schlüsselwörter dementsprechend für ihre Aufgaben. In Beispiel 5.3 nutzt die Sitenavigation (ThumbnailMenuWidget) das Schlüsselwort als Navigationspunkt, die Kommandohilfe (CommandBarWidget) sucht nach einer passenden Kategorie und das Exponatmenü
(AROverlayWidget) nach einem passenden Menüeintrag. Die Semantik ist also in jedem
5.1. INTERAKTION
103
Fall deutlich unterschiedlich.
...
<MapEntry>
<Keys>
<KeyPair Device= " MSSpeech " EventID= " IndependentKeyword " G l o b a l = " f a l s e " / >
< / Keys>
<Values>
< V a l u e P a i r TargetWidget = "MuMoUI . P r e s e n t a t i o n . Widgets . ThumbnailMenuWidget "
Verbose= " t r u e " >
<CommonLayerValues>
<CLV>Keyword< / CLV>
< / CommonLayerValues>
< / ValuePair>
< V a l u e P a i r TargetWidget = "MuMoUI . P r e s e n t a t i o n . Widgets . CommandBarWidget "
Verbose= " t r u e " >
<CommonLayerValues>
<CLV>Topic< / CLV>
< / CommonLayerValues>
< / ValuePair>
< V a l u e P a i r TargetWidget = "MuMoUI . P r e s e n t a t i o n . Widgets . AROverlayWidget " Verbose= "
true ">
<CommonLayerValues>
<CLV>MenuEntry< / CLV>
< / CommonLayerValues>
< / ValuePair>
< / Values>
< / MapEntry>
...
Listing 5.3: Beispieleintrag der Keymap für Events mit Zusatzinfo
5.1.5
Verarbeitung multimodaler Ereignisse
Die in den letzten beiden Listings abgebildeten Ausschnitte sind nun nur zu unimodaler
Verarbeitung gedacht. Multimodale Befehle erfordern eine komplexere Spezifikation und
Verarbeitung (vgl. Listing 5.4). Durch das Flag „Multimodal“ erkennt der Ereignismanager, dass die in dem Eintrag definierten KeyPairs zusammen erkannt werden müssen. Zusammen bedeutet nicht parallel, sondern innerhalb eines vorgegebenen Zeitfensters. Intern
werden die Paare in einem separaten Speicher abgelegt. Das erste vorkommende KeyPair
104
KAPITEL 5. REALISIERUNG
< M SSpeech, P lay > dient gleichzeitig als Schlüssel zum Starten des Timers bis zum
Ablauf des Zeitrahmens. Es wird zuerst in einem Puffer abgelegt und der Manager wartet
auf weitere Ereignisse. Werden die übrigen Ereignisse < M ouse, Lef tButtonP ressed >
vor Ablauf empfangen, löst der Manager die zu den Tupeln gehörigen Aktionen in den
Widgets aus, entleert den Puffer und setzt den Timer zurück. Andernfalls werden die im
Puffer gespeicherten Ereignisse sequentiell unimodal verarbeitet. Das Keymapping wird
mit der herkömmlichen Keymap ausgeführt. Ereignisse, die nicht in den Puffer abgelegt
werden sollen (etwa nach einem multimodalen Primärschlüssel), werden über eine durch
das Subject „EventFilters“ des Mediators aufgebaute Liste geblockt und direkt unimodal
verarbeitet (z.B. das kontinuierliche Senden des Lautstärkepegels). Das entsprechend zu
definierende Flag für ein KeyPair lautet „BlockBuffer“.
Die Erkennung eines multimodalen Befehls passiert nicht in Echtzeit. Der Manager wartet
immer das Zeitfenster ab und vergleicht dann die Objekte im Puffer. Die einzige zeitsparende Maßnahme ist der Vergleich mit den Primärschlüsseln der multimodalen Befehle,
bevor ein Ereignis im Puffer abgelegt wird. Stimmen Ereignis und Schlüssel nicht überein, wird unmittelbar unimodal verarbeitet. Daraus folgt, dass die Schlüssel sorgfältig ausgewählt sein müssen und keine Zweideutigkeiten zu unimodalen Befehlen zulassen (vgl.
„Put-That-There“ [Bol80] mit „Put“ als Schlüssel). Nichtsdestotrotz dient Beispieleintrag
5.4 nur zu Demonstrationszwecken und wird für die Bedienung der Schnittstelle momentan nicht benötigt.
5.1. INTERAKTION
105
...
<MapEntry M o d a l i t y = " M u l t i m o d a l " >
<Keys>
<KeyPair Device= " MSSpeech " EventID= " Play " G l o b a l = " t r u e " / >
<KeyPair Device= " Mouse " EventID= " L e f t B u t t o n P r e s s e d " G l o b a l = " f a l s e " / >
< / Keys>
<Values>
< V a l u e P a i r TargetWidget = "MuMoUI . P r e s e n t a t i o n . Widgets . MediaViewerWidget " Verbose
=" true ">
<CommonLayerValues>
<CLV>Play< / CLV>
< / CommonLayerValues>
< / ValuePair>
...
< / Values>
< / MapEntry>
...
Listing 5.4: Beispieleintrag der Keymap für multimodale Befehle
5.1.6
Zustandsautomaten
Ein interpretiertes Wertepaar <Widget, CLV*> wird schließlich an den Anwendungsmanager gesendet. Dieser entscheidet anhand der Widgetliste des (G)UIManagers und derer
Zustandsautomaten, ob das Ereignis in den aktuellen Kontext passt. Die Liste beinhaltet
alle in der Konfiguration des (G)UIManagers definierten und initialisierten Widgets. Jedem Widget liegt ein Zustandsautomat (Statemachine) (Finite Statemachine, FSM) mit
einer ereignisgesteuerten2 Zustandsübergangstabelle3 zugrunde. Die Struktur der FSMs
ist in Anlehnung an [YA] und [GHJV95] entstanden. Da die Patterns aus Paper und Buch
aber zu unflexibel und im Programmcode unterzubringen sind, wurde eine generalisierte Klasse geschaffen, deren Objekte, also Entitäten einer FSM, über eine externe XMLKonfiguration spezifiziert werden können. Eine FSM ist demnach wie folgt aufgebaut (in
EBNF):
2
3
Definition in Wikipedia unter http://en.wikipedia.org/wiki/Event_driven_finite_state_machine
Definition in Wikipedia unter http://en.wikipedia.org/wiki/State_transition_table
106
KAPITEL 5. REALISIERUNG
F SM ::= F SM ObjectT ype {F SM State}
F SM ObjectT ype ::= N amespace
N amespace ::= {N ame „ . „} N ame
N ame ::= Char {Char}
Char ::= „a„| . . . |„z„
F SM State ::= N ame StateBehaviour {OccuringEvent}
StateBehaviour ::= Enter|Exit|N one|Special
OccuringEvent ::= N ame N extState Action
N extState ::= N ame
Action ::= N ame
Der Anwendungsmanager vergleicht einen CLV mit den Namen der möglichen Ereignisse
in dem aktuellen Zustand des zum Tupel gehörenden Zielwidgets. Findet er eine Übereinstimmung, löst er die zum Ereignis zugehörige Aktion durch einen namensgleichen
Methodenaufruf im Widget aus. Der Datenfluss von Interaktion über Applikation zu Präsentation bleibt erhalten, da der Manager auf die initialisierten Widgets im Speicher des
(G)UIManagers zugreift. Nach dem Aufruf wechselt das angesprochene Widget in den für
das Ereignis definierten nächsten Zustand und die Ereigniskette wird abgeschlossen. Zustände können verschiedene Verhaltensweisen zeigen. Es existieren Eintritts-, Austrittsund Spezialzustände neben Zuständen ohne spezifisches Verhalten. Diese Option ist für
ein späteres Entwicklungsstadium vorgesehen, in welchem die FSM mehrerer Widgets
miteinander verknüpft werden könnten, um ein gemeinsames, voneinander abhängiges
Verhalten zu herzustellen (z.B. im Augenblick der Medienwiedergabe wäre die Interaktion mit Menüs nicht möglich).
Listing 5.5 zeigt eine FSM am Beispiel des Exponatmenüs. In einem Fall muss das Widget
in den nächsten Zustand seiner FSM ohne die Hilfe der Konfiguration wechseln, nämlich,
nachdem eine Animation präsentiert worden ist. Der Anwender kann diese jederzeit selbst
5.2. PRÄSENTATION
107
abbrechen. Das Widget aber kennt den Folgezustand nicht, wenn kein neues Ereignis im
aktuellen Zustand auftritt. Alternativ könnte das Widget auch ein dem möglichen auftretenden Ereignis „StopAnimation“ äquivalenten Command Broadcast auslösen. Dazu sind
aber Kenntnisse der Keymap des Ereignismanagers notwendig.
<?xml version= " 1 . 0 " encoding= "UTF−8" ?>
<StateMachine
FSMObjectType= "MuMoUI . P r e s e n t a t i o n . Widgets . AROverlayWidget " xmlns:x0 = " h t t p : / / www. w3 .
org / 2 0 0 1 /XMLSchema" >
<FSMState Name= " RenderOverlay " S t a t e B e h a v i o u r = " None " >
<OccuringEvent Name= " Next " N e x t S t a t e = " RenderOverlay " >
< A c t i o n Name= " NextOverlay " / >
< / OccuringEvent>
<OccuringEvent Name= " ShowAnimation " N e x t S t a t e = " Animating " >
< A c t i o n Name= " ShowAnimation " / >
< / OccuringEvent>
<OccuringEvent Name= "Go i n t o " N e x t S t a t e = " RenderOverlay " >
< A c t i o n Name= " GoInto " / >
< / OccuringEvent>
<OccuringEvent Name= " MenuEntry " N e x t S t a t e = " RenderOverlay " >
< A c t i o n Name= " S e l e c t O v e r l a y " / >
< / OccuringEvent>
< / FSMState>
<FSMState Name= " Animating " S t a t e B e h a v i o u r = " None " >
<OccuringEvent Name= " StopAnimation " N e x t S t a t e = " RenderOverlay " >
< A c t i o n Name= " StopAnimation " / >
< / OccuringEvent>
< / FSMState>
< / StateMachine>
Listing 5.5: FSM-Konfiguration am Beispiel des Exponatmenüs
5.2
5.2.1
Präsentation
Präsentationsmanagement
Bevor aber ein Aktionsname zu einem Widget gesendet wird, teilt - wie schon erwähnt der (G)UIManager dem Anwendungsmanager mit, ob dieses überhaupt initialisiert wurde.
108
KAPITEL 5. REALISIERUNG
Im Dialekt des .NET-Framework ist der Manager eine „Form“, die die Widgets als „Controls“ rendert. Er bettet zudem den ARBrowser als ActiveX-Control in die Umgebung ein,
startet das Tracking und aktualisiert die Overlays. Ursprünglich sollte der Anwendungsmanager die Komponente integrieren. Die ActiveX-Control muss aber zwingend eine Form
oder andere Control als Container besitzen. Dies erscheint auch logischer, da das Tracking
immer noch zum Anwendungsmanager gehört (GPS, Kompass, ARBrowser-Events) und
nur das Rendering des Videobilds in die Präsentation verlegt wird, das schließlich von
Controls überlagert wird. Der (G)UIManager wird durch eine externe XML-Datei konfiguriert. Die Konfiguration enthält neben einer Liste der zu importierenden Widgets Farbund Helligkeitswerte für aktive (focused) und passive (basic) Tools und derer Steuerelemente sowie für aktive (active) und passive (passive) Textelemente. Aktive Textelemente
sind alle Kommandos und Schlüsselwörter. Ebenfalls sind zwei Schriftarten zu Zwecken
der Textgliederung definiert, die sich hauptsächlich in ihrer Größe unterscheiden. Ein Auszug der Konfiguration findet sich in Listing 5.6.
5.2. PRÄSENTATION
109
...
<UIWidgets>
<Widget P r i m a r y C e l l = " B o t t o m L e f t " SecondaryCell = " B o t t o m L e f t " F i r s t D o c k S t y l e = "
Bottom " >
<Name>MuMoUI . Presentation . Widgets . StatusBarFeedbackWidget< / Name>
< / Widget>
...
<Widget>
<Name>MuMoUI . Presentation . Widgets . AROverlayWidget< / Name>
< / Widget>
...
<Widget>
<Name>MuMoUI . Presentation . Widgets . WidgetController< / Name>
< / Widget>
<Widget>
<Name>MuMoUI . Presentation . Widgets . BioFeedbackWidget< / Name>
< / Widget>
...
< / UIWidgets>
<focusedWidgetColor alpha = " 255 " red= " 204 " green= " 163 " b l u e = " 74 " / >
< b a s i c W i d g e t C o l o r alpha = " 255 " red= " 255 " green= " 244 " b l u e = " 216 " / >
< a c t i v e T e x t C o l o r alpha = " 255 " red= " 58 " green= " 99 " b l u e = " 128 " / >
< p a s s i v e T e x t C o l o r alpha = " 255 " red= " 0 " green= " 0 " b l u e = " 0 " / >
<mainLevelFont f o n t F a m i l y = " Tahoma " f o n t S i z e = " 14.25 " f o n t S t y l e = " Bold " g r a p h i c s U n i t = " P o i n t "
gdiChar= " 0 " / >
<subLevelFont f o n t F a m i l y = " Tahoma " f o n t S i z e = " 12.25 " f o n t S t y l e = " Bold " g r a p h i c s U n i t = " P o i n t "
gdiChar= " 0 " / >
...
Listing 5.6: Auszug aus der Konfiguration des UIManagers
Layout
Neben den Farbinformationen benötigt der Manager die bevorzugten Positionsangaben
der Widgets, da das entsprechende Attribut der .NET-Control den Wert relativ zu ihrem
Container (∼
= Managerform) in absoluten Koordinaten definiert, aber je nach Auflösung
des Bildschirms von Resizing- und Positionierungs-Funktionen abhängig ist. Während
der Entwicklung ist aber aufgefallen, dass diese Funktionalität nicht gewährleistet werden
kann. Da außerdem eine Pointing-Metapher fehlt, die die notwendige Interaktion bewerkstelligt, definiert der Manager stattdessen das Layout der Form durch ein eigens definiertes
Grid (Gitter). Das Grid besitzt eine Auflösung von (3 × 3)n mit 1 ≤ n ≤ 3 Zellen. Fei-
110
KAPITEL 5. REALISIERUNG
Abbildung 5.3: Positionierung im Grid
nere Auflösungen werden - wenn auch nicht benötigt - momentan noch nicht unterstützt.
Prinzipiell sind sie von der Vorgabe einer minimalen Zellengröße abhängig, bis zu welcher
maximal unterteilt wird. Die Idee zu gerade dieser Unterteilung in minimal 9 Zellen entstammt dem Gedanken, dass das Zentrum des Bildschirms für die Sicht auf die Umgebung
freigehalten werden sollte und alle Elemente um das Zentrum herum arrangiert sind.
Das Grid ist nun als Hierarchie von (3 × 3) Zellen aufgebaut, die jeweils wiederum ein
Grid gleicher Größe bis zur Tiefe n besitzen. Wie in Listing 5.6 zu sehen, kann jedes
Widget seine bevorzugte Position in diesem Grid durch die Angabe von maximal n Zellen festlegen. Jedes n steht für eine Hierarchiestufe. Zusätzlich kann es an verschiedenen
Kanten der Hierarchiezelle angedockt werden (Top, Bottom, Left, Right). Die Definition
von „DockStyles“ entstammt dem .NET-Framework. Rein funktionale Widgets benötigen keine Angaben. Ein Beispiel für die Positionierung eines Widgets in einem (3 × 3)2
großen Grid ist in Abb. 5.3 zu sehen. Die hellfarben markierte Zelle liegt in der ersten
(„PrimaryCell“) Hierarchieebene („BottomLeft“) und die dunkelfarben markierte Zelle in
der zweiten („SecondaryCell“) Hierarchieebene („BottomLeft“).
Eine Lösung für sich gegenseitig verdeckende Widgets, z.B. wenn sie dieselben Zellen
definiert haben, ist bisher nur auf Anwenderebene vorgesehen. Jedes Widget lässt sich per
Kommando auf eine der (3 × 3) Zellen der ersten Hierarchiestufe verschieben. Da Besuchern diese Aufgabe aber eigentlich abgenommen werden soll, sollten nur Autoren die
5.2. PRÄSENTATION
111
Funktion nutzen. In zukünftigen Versionen könnte man auch ein Layout per Kommando
definieren und als Konfiguration abspeichern.
5.2.2
Widgets
Im Detail sind Widgets in die Kategorien UIWidget, NCWidget und MDIWidget unterteilt.
Die Klasse der UIWidgets sind Erweiterungen benutzergenerierter Steuerelemente (UserControl), die mehrere andere Steuerelemente (Control) des .NET-Framework einbetten
und von einer Form als eine vollständige Control importiert werden können. Der Manager
kommuniziert dann nur noch mit dieser Control und nicht mit den einzelnen Elementen.
UIWidgets
Bevor ein UIWidget initialisiert und angesteuert werden kann, muss es eine Position vorschlagen (immer notwendig, auch wenn in Konfigurationsdatei spezifiziert), sein Zustandsautomat generieren und einen Startzustand in der FSM festlegen. Nach seiner Initialisierung durch den Manager ist es bereit, Nachrichten zu empfangen. Die Nachrichten sind aus
CLV des Event Management abgeleitete Aktionen im aktuellen Zustand der FSM (Auflösung der CLV nach Schema der FSM) und lösen damit den Aufruf von Routinen aus, die
den Zustand des Widgets und seiner FSM ändern. Trug das Ereignis eine Zusatzinformation mit sich, wird sie hier schließlich ausgewertet. Ist die Nachricht der Name einer Control und wurde über eine gesonderte Routine übergeben, hebt das Widget entsprechende
mittels einer der vorgegebenen Farbtöne hervor. Eine folgende Selektion geschieht durch
die Benachrichtigung des Ereignismanagers über ein Command Broadcast des Controlnamens, wenn unidirektionale Eingabegeräte bedient werden. Die abstrahierten Ereignisse
dieser Geräte (z.B. Tasten der Maus) werden zwar vom Ereignismanager verstanden, stehen aber so häufig in einem anderen Kontext, dass sich eine Integration im Programmcode
flexibler auswirkt als eine Festlegung des Ereignisses und vieler beobachtender Widgets
in der Konfigurationsdatei. Gleiches gilt für die Aktivierungs- und Deaktivierungsroutinen
der UIWidgets, die dem Anwender zunächst einmal helfen, aktive und passive Tools voneinander zu unterscheiden. In späteren Entwicklungsstadien ist etwa daran zu beachten,
dass sich Widgets je nach Status ihrer FSM gegenseitig stören können. Ein reales Ein- und
112
KAPITEL 5. REALISIERUNG
Ausschalten anstatt simpler Farbunterscheidung wäre also auch denkbar. Der Aufwand ist
höher, die Nachrichtenkette länger und es erfordert die Integration eines WidgetControllers (siehe kommende Abschnitte).
Aktualisierung des Kontext
Der Zustand eines Widgets kann sich auch durch ein Update des Kontext durch den Anwendungsmanager ändern. Zur Bekanntmachung dieser Information wird ein Objekt (Exponat) mit folgenden Attributen ausgetauscht (im Kontextmodul des ARGuide schon definiert und hier ergänzt):
• Position des Benutzers mit GPS- und Kompassdaten,
• Namenskennung des Ausstellungsstücks (∼
= SiteElementID),
• Schlüsselworte (∼
= Keywords),
• Dateipfade zu den Overlays des Ausstellungsstücks, zu den Referenzbildern des
Ausstellungsstücks, zu den Medienkonfigurationen des Ausstellungsstücks (∼
= SMIL)
und zu den Trackerkonfigurationen des Ausstellungsstücks,
• Speicherort für Schnappschüsse mit Präfix,
• Listen mit Schlüsselworten aller POI des Ausstellungsstücks, aller umgebenen AOI
und POI des Ausstellungsstücks und aller verwandten AOI und POI des Ausstellungsstücks.
Die Bezeichnung Ausstellungsstück bezieht sich dabei sowohl auf die gesamte Ausstellung selbst, als auch auf enthaltende AOI und POI. Das Objekt wird vom Anwendungsmanager unter Abfrage des Kontextbackends mit Inhalten gefüllt und an alle Beobachter
bei Positionswechsel oder spezifischer Abfrage des Content eines Elements gesendet. Die
Schnittstelle wird somit konstant auf aktuellem Stand gehalten und der Anwender hat immer einen Überblick über seinen derzeitigen Kontext.
5.2. PRÄSENTATION
113
NCWidgets
Ursprünglich zur Lösung von Transparenzproblemen entworfen (Diskussion in Kapitel
6.1), eignen sich NCWidgets (No-Control-Widgets) auch gut zur Einbettung von im Hintergrund arbeitenden Routinen, die keine visuelle Repräsentation benötigen. Im Gegensatz
zu den UserControls stellt der (G)UIManager die Steuerelemente des Widgets einzeln dar
und nicht zusammenhängend. Aufgrund von Resizing- und Positionierungsschwierigkeiten, insbesondere, wenn sich die Positionen einzelner Steuerelemente dynamisch ändern,
eignen sie sich aber nicht für eine große Zahl zu rendernder graphischer Steuerelemente.
Nichtsdestotrotz sind nur wenige Widgets mit dieser Technik realisiert. Auch UIWidgets
können nämlich bei erhöhter Flexibilität nur im Hintergrund laufen, wenn entsprechende
Attribute gesetzt werden.
UIMDIWidgets
Die Idee zu UIMDIWidgets entstand aufgrund der gleichen Probleme wie die der NCWidgets und versuchte, das Konzept der Multi-Document-Interfaces (MDI) des .NETFramework zu nutzen. Hintergrund war, dass eine Form Transparenzen zum Hintergrund
automatisch unterstützt. Da jedes Dokument der Applikation selbst wieder eine Form ist,
hätte man hier minimale Steuerelemente ohne gruppierende Elemente, die die Sicht eigentlich am meisten verdecken, unterbringen können. Bei der Umsetzung wurde aber bemerkt,
dass Transparenz nur von der Top-Level-Form zugelassen wird. Außerdem hätte dies eine
Umstellung der Kommunikation zwischen Manager und Widgets bedeutet.
Zum Abschluss der Realisierungsphase standen eine Reihe von Widgets zur Verfügung
(siehe Tabelle 5.1). Teilweise sind sie noch im Experimentierstadium. Voll funktionale
Widgets wurden schließlich mit in die Evaluation aufgenommen. Kurze Beschreibungen,
wie versucht wurde, die Konzepte umzusetzen, und welche spezifischen Eigenschaften die
Implementationen haben, folgen in der Tabelle.
114
KAPITEL 5. REALISIERUNG
Widget
Funktion
Typ
Stadium
sichtbar
AROverlayWidget
Navigation
und
Rendering
des
Exponatmenüs; Wechselndes Rendering von
Overlays; Animationen
UIWidget
Evaluierbar
Als Overlay, nicht als
.NET-Steuerelement
BioFeedbackWidget
Analyse passiver Eingabedatenströme; Analyse des Benutzerverhaltens anhand seiner
Interaktionen; Feedback
bei auffälligem Verhalten
UIWidget
Evaluierbar
Nein; Weiterleitung von
Feedback an FeedbackLogger
CommandBarWidget
Darstellung der Topics
der Kommandohilfe in
Form einer Statusleiste
NCWidget
Evaluierbar
Ja
CommandLabelWidget
Darstellung
der
Schlüsselwörter
und
Kommandophrasen für
die Kommandohilfe in
Form von aufblendenden „Notizzetteln“
UIWidget
Evaluierbar
Innerhalb
Zeitfensters
GuideStatusWidget
Anzeige
notwendiger
Ikonen und Hilfen bei
verstecktem Interface
NCWidget
Evaluierbar
Ja
HelpWidget
Anzeige von Hilfeseiten
UIWidget
Hilfeseiten sind simple
Erklärungen, aber evaluierbar
Ja
MediaViewerWidget
Präsentation verschiedender Medien mittels
SMIL-Format; verwendet den RealPlayer als
ActiveX-Control
UIWidget
Präsentationsfenster
kann
nicht
positioniert
werden,
aber
evaluierbar
Keine
Steuerelemente;
On-DemandPräsentationen
in
Aufblendfenster
SimpleTestWidget
Ausgabe des Sprachvokabulars
auf
der
Konsole;
Auslösen
von
Schnappschüssen und künstlichen
Positionswechseln
UIWidget
Nicht wirklich eigenständig; kombiniert Funktionen, die nicht in anderen Widgets untergebracht werden konnten;
evaluierbar
Nein
eines
115
5.2. PRÄSENTATION
Widget
Funktion
Typ
Stadium
sichtbar
StatusBarFeedbackWidget
Darstellung
der
Kommandos
für
Hilfefunktion,
Versteckfunktion
und
Kommandoleiste;
Ein- und Ausschalten
des
Mikrophons;
Darstellung
des
Lautstärkepegels des
Mikrophons
UIWidget
Evaluierbar
Ja
TextFeedbackWidget
Präsentation von Feedbacknachrichten in Textform
UIWidget
Evaluierbar
Innerhalb
Zeitfensters
ThumbnailMenuWidget
Sitenavigation mit Hilfe
von
Miniaturbildern
und Exponatschlüsselwörten;
seitenweises
Blättern durch Exponate
eines AOI oder POI
UIWidget
Evaluierbar
Ja
WidgetController
Schnittstelle zwischen
(G)UIManager
und
Widgets zur Ausführung
von navigativen Befehlen mit unidirektionalen
Eingabegeräten (Navigation durch Tools und
Controls; Selektionen;
Positionierung
von
Tools;
Verstecken
und Hervorholen der
visuellen Elemente)
UIWidget
Evaluierbar
Nein
eines
Tabelle 5.1: Realisierte Widgets und ihre Funktionen
WidgetController
Elementar für die Verkettung von (G)UIManager und Widgets ist der WidgetController. Normalerweise verwaltet der Manager alle Widgets und weiß, welches gerade aktiv und welche passiv sind, welche Steuerelemente hervorgehoben und selektiert worden sind. Über ihn können Tools und Controls gesteuert werden. Weil Interaktion und
116
KAPITEL 5. REALISIERUNG
Präsentation aber von Ereignismanager über Anwendungsmanager nur indirekt über den
(G)UIManager zu den Widgets kommunizieren, stopft der Controller das Kommunikationsloch. Denn Ereignisse sollen nach Design des Eventmanagement den Status eines
Widgets unmittelbar manipulieren und nicht den Manager. Der Controller fängt alle Ereignisse, die eigentlich für den Manager gedacht sind, ab und ruft dessen entsprechenden
Routinen auf. Die Informationskette bleibt wie vorgesehen bestehen.
Ansteuerung des ARBrowser
Die Technik des ARBrowser verlangt momentan die Einbettung von Augmentierungen als
statische Dateien in proprietären Formaten. Zwar lassen sich graphische Primitive wie in
XML definierte Pfeile und Kreise laden, aber zum einen müssen die Positionen der Objekte für jedes Referenzbild neu evaluiert werden und zum anderen entstanden Probleme
bei Löschung oder Überschreibung der Overlays. Die notwendige Verwendung statischer
Bilder erlaubt demnach keine direkte Interaktion mit Steuerelementen, sondern nur den
Austausch von Overlays mit unterschiedlichen semantischen Bedeutungen. Die semantische Relation muss also schon durch den Autor oder Graphiker hergestellt werden. Der
Algorithmus selbst muss Schlüsselwort und Name des Overlays im Dateisystem aufeinander abstimmen. Die Menüoverlays müssen als .NET-Controls definiert sein, damit der
Manager (bzw. der Anwender) mit ihnen interagieren kann. Z.B. sucht das Widget bei
Auswahl des Menüeintrags „Introduction“ nach dem Overlay mit gleichnamigem Wortbestandteil, während beim Durchlaufen des Menüs von der unsichtbaren Control auf ein
Overlay gleichen Namens bezogen wird. Die Wortbestandteile müssen also schon zur Designzeit bekannt sein. Sichtbar wird das Widget aber selbst nicht, da seine Größe auf (0,0)
gesetzt wurde.
Adaption an das Benutzerverhalten
Informationsinhalte sind abhängig vom Kontext, genauer gesagt von Position, Orientierung und Interesse des Besuchers an einem Standort auf der Ausstellung. Diese Schlüssel sind ohne Aufwand herauszufinden. Aufwendiger ist die automatische Adaption der
Schnittstelle an das Benutzerverhalten. So soll dem Anwender jederzeit bekannt sein, wel-
5.2. PRÄSENTATION
117
che Aktionen er im Augenblick mit welchen Geräten durchführen kann. Die Kommandohilfe müsste demnach ständig den Zustand der übrigen Widgets kennen. Zum Zeitpunkt
der Evaluation sind die Kommandos aber nur statisch in einer Konfigurationsdatei festgehalten, wie in Listing 5.7 zu sehen.
...
<Topics >
<Topic Name= " I n v e s t i g a t e " >
<Commands>
<Name> I n t r o d u c t i o n < / Name>
<Name>Annotation< / Name>
<Name>Go i n t o < / Name>
<Name>Timetravel < / Name>
< / Commands>
< / Topic >
...
<Topic Name= " Navigate menus " >
<Commands>
<Name>Previous< / Name>
<Name>Next< / Name>
<Name>Return< / Name>
<Name>Previous t o o l < / Name>
<Name>Next t o o l < / Name>
< / Commands>
< / Topic >
< / Topics >
...
Listing 5.7: Auszug aus der Konfiguration der Kommandoleiste
Signalisierung der Stimmlautstärke
Im Hinblick auf erkennungsbasierte, möglicherweise fehleranfällige Eingabedatenströme
sollte dem Anwender immer gezeigt werden, wenn das System ein Datum richtig erkannt
und es Probleme hat, den Datenstrom zu analysieren. Die Anzeige des Lautstärkepegels in
der Statusleiste reagiert auf die Lautstärke der Anwenderstimme und signalisiert (indirekt)
in einer Balkenanzeige die Qualität der Erkennung. Die Annahme ist, dass je stärker der
Pegel ausschlägt, desto besser kann die Stimme analysiert werden, unter der Voraussetzung, dass der Anwender artikuliert spricht und keine Nebengeräusche vorhanden sind.
118
KAPITEL 5. REALISIERUNG
Zur besseren Unterscheidung der „Qualitätsstufen“ symbolisieren rote Balken eine leise,
gelbe eine moderate und grüne eine gehobene Stimme. Dennoch wird durch das BioFeedbackWidget eine konstant laute oder leise Stimme als passive Benutzeraktion gewertet, die
es kommentieren wird.
5.2.3
Feedback Logging
Feedbacknachrichten werden an ein zentrales Logging-Modul (FeedbackLogger) der Applikationskomponente gesendet und an alle interessierten Beobachter verteilt, die sie darstellen können. Sender kann prinzipiell jede Systemkomponente sein, die dem Anwender das Feedback aber verständlich machen muss. In später Versionen könnte etwa das
Content-Modul von intCulture für jede Aktion nach einem Dialogprinzip (Frage-Antwort
/ Aktion-Reaktion) passendes Feedback liefern. Derzeit stehen Text und Audio als mögliche Wiedergabeformate zur Verfügung. Obwohl zu Beginn des Kapitels gesagt wurde,
dass Ausgabegeräte nicht angebunden werden, wurde zuletzt eine Klasse zur Ausgabe von
Audiodateien generiert, die diesen zugeordnet wurde. Die Regulierung der Lautstärke ist
aber weiterhin nicht möglich. Allerdings wird Audio nicht über den Gerätemanager angesteuert, sondern wird systemweit als bekannt vorausgesetzt. Es können nun eigene Audiodateien, die etwa die Kontextkomponente liefert, übergeben werden oder vordefinierte
Klänge (∼
= „Audio Cues“) abgespielt werden. Als Typen sind jeweils ein Warn-, Fehler-,
Selektions- oder Auswahlton möglich. Zur Wiedergabe wird DirectSound® der Microsoft
DirectX®-Komponente4 verwendet.
5.2.4
Sitenavigation
Die Sitenavigation in Form des ThumbnailMenuWidget ist die wichtigste Komponente,
um nach Informationen zu suchen. Es verhält sich wie ein „Bilderbuch“, durch welches
sich blättern lässt. Die Ausgabe von Kombinationen aus Miniaturbildern und Schlüsselwörtern beschränkt sich pro Seite auf drei bis vier, je nach Größe der Texteinheiten. Die
Miniaturbilder entsprechen den zu den Schlüsselwörtern zugehörigen Referenzbildern.
4
Informationen unter ( http://www.microsoft.com/windows/directx/default.aspx)
5.2. PRÄSENTATION
119
Wie im Konzept gewünscht, listet es alle enthaltenen POI eines AOI. Nachteilig zeigt
sich bisher, dass das Tool einen großen Teil des Bildschirms abdeckt. Es ist vertikal ausgerichtet, da Erfahrungen gezeigt haben, dass Anwender Informationen besser spaltenweise
als zeilenweise erfassen können (vgl. Zeitungslayout).
Wie man leicht feststellen kann, arbeiten die Widgets mit vielen anderen Komponenten zusammen. Teilweise reagieren sie nur und präsentieren dem Anwender eine andere „View“
(vgl. MVC-Pattern), teilweise manipulieren sie den Systemzustand. Widgets, deren Inhalte sich von Kontext zu Kontext ändern, müssen oft mit dem Content-Modul kommunizieren. Nach Design hat eigentlich nur die Applikationskomponente darauf Zugriff und alle
notwendigen Informationen sind in dem Exponatobjekt mit Bezeichner und Dateipfaden
enthalten. Bisher verfügt der Anwendungsmanager allerdings noch über kein Interface,
das die Widgets abfragen könnten. Stattdessen greifen sie direkt auf Media Management
und Site Management zu. Auch auf die meisten übrigen Komponenten wird ihnen derzeit
voller Zugriff gewährt, da die Routinen in einer korrekten Abfragesequenz schlichtweg zu
aufwendig wären.
120
KAPITEL 5. REALISIERUNG
Kapitel 6
Evaluation
Die Überprüfung der Bedeutung der Konzepte der Designphase erfolgt zum einen durch
die Implementation selbst, zum anderen durch die Bewertung durch potenzielle Benutzer.
Beide Varianten nehmen die vor dem Design aufgestellten Hypothesen (s. Kap. 4.1) als
Grundlage zur Verifizierung oder Falsifizierung.
Zuerst wird der Status des initialen Prototypen mit den Ideen aus der Designphase verglichen, insbesondere mit den Präsentationskonzepten aus Kapitel 5.2, und Stärken und
Schwächen der Umsetzung sowie etwaige verbesserte Konzepte und Ideen für kommende
Prototypen gezeigt. Zusätzlich bewerten zwei Testgruppen in Einzeltests die Funktionalität des Prototypen nach einem Testparcours anhand eines Fragebogens, der im Anschluss
ausgewertet wird.
6.1
Konzeptanalyse
Zur Konzeptanalyse werden ausgewählte Präsentationskonzepte mit ihren tatsächlichen
Umsetzungen im initialen Prototypen verglichen und Verbesserungen für zukünftige Entwicklungen vorgeschlagen.
121
122
6.1.1
KAPITEL 6. EVALUATION
Exponatmenü
Nach dem Konzept der „world-stabilized“ Elemente einer Benutzerschnittstelle wurden
Referenzbilder und Overlays eines Ausstellungsstückes mit transparenten, überlagerten
Menüs und Handlern versehen (siehe Abb. 6.3). Wie herkömmliche Overlays werden sie
getrackt. Sie sind in derselben Art und Weise ansprechbar wie alle übrigen Tools. Die
Handler erscheinen über dem getrackten Referenzbild, wenn ein Benutzer zum Exhibitmenü navigiert. Wird bereits ein anderes Overlay gerendert, lagern sie über diesem. Zwar
sind die Menüeinträge der Handler objektbezogen, verweisen aber noch nicht immer auf
spezifische Merkmale des Exhibit. Zum aktuellen Zeitpunkt ist lediglich ein Bezug vom
aktuellen Menüeintrag in der Sitenavigation und einem hervorgehobenen Hot Spot ohne
Beschriftung hergestellt, wie in Abb. 6.1 zu sehen (Hot Spots sind informationsrelevante Teile einer gegebenen Überlagerung, wie etwa die Metope eines Tempels, das Gesicht
einer Statue etc.). Signifikanterer semantischer Bezug wird erst durch den Zusatz von hervorgehobenen Hot Spots mit Beschriftung und direktionaler Information hergestellt. Die
Handler werden exakt dort positioniert, worauf die korrespondierende Aktion verweist.
Ein Mockup zu dieser Idee zeigt Abb. 6.2.
Abbildung 6.1: Hervorgehobene
Hotspots.
Abbildung 6.2: Hervorgehobene
Hotspots mit markanterem semantischem Bezug (Mockup).
6.1. KONZEPTANALYSE
123
Abbildung 6.3: Exhibitmenü in versteckter Ansicht.
6.1.2
Sitenavigation
Das Tool zur Sitenavigation erlaubt es einem Benutzer, die Hot Spots eines Areals oder eines spezifischen Exhibit aufzulisten und zu durchstöbern. Es wird automatisch aktualisiert,
abhängig von der aktuellen Position. Außerdem kann ein Benutzer jederzeit den Kontext
eines bereits besuchten Gebietes nochmals auflisten lassen. Zwar kann man die Position
des Tools jederzeit dynamisch ändern, durch seine vertikale Position kann es aber andere
Teile des Bildschirms verdecken. Ein Vorschlag wäre eine horizontale Positionierung im
oberen Bereich des Bildschirms (siehe Abb. 6.4). Dies könnte außerdem den Lesefluss in
Richtung unterem Bereich fördern.
6.1.3
„Schwebende“ Menüs
In Abb. 6.3 sieht man die Verknüpfung von Menühandlern und Overlay, die jedoch noch
keinen direkten semantischen Bezug zum Objekt haben. Als Alternative zeigt Abb. 6.5 die
Augmentierung sogenannter „schwebender“ Menüs („Flying menus“) in Form von „Notizzetteln“, die auf das korrespondierende Objekt deuten. Der Notizkopf bezeichnet das
relevante Objekt oder einen Hot Spot des Objektes. Darunter werden passende Sprachkommandos aufgelistet, zusammen mit Ikonen, die Kommandos für andere Geräte symbolisieren. Zusätzlich könnte eine Legende im Menü die Hintergrundfarben der Ikonen
124
KAPITEL 6. EVALUATION
Abbildung 6.4: Vertikale Sitenavigation (Mockup).
erklären, die sich jeweils auf ein anderes Gerät beziehen.
Abbildung 6.5: „Schwebendes“ Menü (Mockup).
6.1.4
Signalisierung der Stimmlautstärke
In Tests hat sich bei der Verwendung eines geräuschreduzierenden Mikrophons zur Spracheingabe herausgestellt, dass die Erkennung schon bei leisem bis halbwegs moderatem Sprechen korrekte Resultate liefert. Entgegen der Vermutung, dass der Anwender laut und klar
sprechen sollte, reicht eine präzise Artikulation zur korrekten Verarbeitung aus. Die Farbs-
6.1. KONZEPTANALYSE
125
kala sollte demnach - wie in den Lautstärkeskalen von HiFi-Verstärkern - bei leisem bis
angehend lauten Pegel grün und bei sehr lautem Pegel rot sein.
6.1.5
Transparenz
Im Designentwurf wurde ursprünglich vorgesehen, Steuerelemente der Schnittstelle transparent und ohne gruppierende Boxen oder Hintergründe darzustellen. Gruppierungen semantisch ähnlicher Elemente sollten sich durch Positionierung und Layout ergeben. Aufgrund des jungen, technisch noch unausgereiften .Net-Frameworks und der Eigenarten des
OpenGL-Rendering des ARBrowser, z.B. Double-Buffering) war eine zufriedenstellende
Umsetzung im Rahmen dieser Arbeit nicht möglich. So lassen sich zwar einzelne Steuerelemente wie Buttons oder Labels separat ohne Gruppierung auf dem Videobild rendern,
doch dazu müssen sie einzelne untergeordnete Controls des den ARBrowser einbettenden
Managers sein. Dies wiederum verstößt gegen das Konzept der Widgets, die als Sammlung
von einzelnen Elementen eine Gruppe bilden und innerhalb einer Box gerendert werden.
Jene Box kann nicht auf einfache Weise transparent dargestellt werden. Flimmern oder
„Cut-Outs“ des Videobilds sind die Folge, wenn die Elemente nicht einzeln „von Hand“
gezeichnet werden. „Von Hand“-Zeichnungen bedeuten, dass Controls als grundlegende
Elemente einer Windows-Anwendung als Zeichenobjekte und nicht mehr als Interaktionselemente gehandhabt werden. Dies hätte den Aufwand um ein vielfaches erhöht. Es wurden zwei Ansätze gefunden und implementiert, die versuchen, diese Problematik zu lösen.
Sogenannte No-Control-Widgets (NCWidget) sind nicht von der Basisklasse aller Controls abgeleitet und haben somit keine Gruppierung. Stattdessen rendert der Manager alle
in diesem Widget definierten Elemente einzeln. Probleme ergeben sich dann aber während der Interaktion, da der Manager jedes einzelne Element als Widget behandelt. Die
Ansteuerung über die CLV’s der Keymap ist damit nicht mehr gewährleistet. Weiterhin
waren Veränderungen in Position und Erscheinung eines NCWidget und seiner Kontrollen
nicht ohne größeren Aufwand zu rendern. Beispielsweise war als Alternative zur Sitenavigation mittels Thumbnails ein textuelles Hierarchiemenü vorgesehen, das alle Areale und
Ausstellungstücke vom äußeren Grenzbereich des Museums bis zur aktuellen Position anzeigt und sich infolgedessen kontinuierlich ändert. Als zweiter Ansatz sollte das Konzept
der Multi-Document-Interfaces (MDI) des .NET-Framework jedes Widget als separates
126
KAPITEL 6. EVALUATION
Fenster anzeigen lassen. Fenster sind die einbettende Instanz für alle Controls und können
ohne eigene Routinen auf Transparenz gesetzt werden. Doch dies gilt leider nur für das
„Wurzelfenster“ der Applikation.
Wie bereits festgestellt, sind Transparenzen innerhalb des .NET-Framework nur mit eigens
geschriebenen Zeichnungsroutinen zu erzeugen. Der Manager müsste die in einem Widget definierten Elemente einzeln rendern und sie während der Interaktion immer wieder
mit dem Widget identifizieren, um die korrekte Ereigniskette einzuhalten. Eine zusätzliche Routine im Manager wäre also nötig, um die einzelnen Elemente zu markieren und
sich stets ihren Status zu merken. Die Komplexität dieses Verfahrens scheint recht aufwendig. Eine andere Überlegung trennt sich vollständig vom GUI-Framework und sieht das
Rendern von Tools und Controls mittels in OpenGL geschriebenem Code vor. Der dem
ARBrowser zugrundeliegende AVALON-Renderer könnte diese Routinen interpretieren.
Eine Schleusung von eigenem Code in den Browser ist bisher aber noch nicht vorgesehen. Was für OpenGL gilt, könnte auch auf VRML zutreffen. Der VRML-Dialekt eröffnet
auch noch viele weitere Optionen, die Schnittstelle um Funktionalität zu erweitern. Dies
gilt insbesondere für dreidimensional gerenderte Augmentierungen.
6.1.6
3D-Rendering
Theoretisch wäre es möglich gewesen, vorgerenderte dreidimensionale Objekte als Overlays zu verwenden und korrekt zu augmentieren. Praktisch wäre der Aufwand allerdings
nicht im Zeitrahmen dieser Arbeit geblieben. Mindestens zwei Kameras sind notwendig,
um Position und Orientierung des Anwenders dreidimensional zu bestimmen und die Koordinaten für das Overlay mittels epipolargeometrischer Berechnungen im zweidimensionalen Videobild festzulegen. Das Konzept der Handlermenüs hätte sich mit dieser Methode ähnlich wie in Abb. 6.6 und Abb. 6.7 umsetzen lassen können.
Das Mockup der Innenansicht gibt nicht vollständig wieder, wie das Konzept zu verstehen
ist. Es handelt sich um ein dreidimensionales Objekt, dessen vorderen Flächen, die die
hinteren verdecken, verschwinden und dafür die Ansicht der Innenräume aufdecken. Der
Guide behandelt die aufgedeckten Objekte dann als eigenständige Ausstellungsstücke, mit
127
6.1. KONZEPTANALYSE
Abbildung
6.6:
Handlermenü
am
dreidimensionalen
Objekt
(Mockup).
Abbildung 6.7: Innenansicht eines
Objektes (Mockup).
denen wie mit der äußeren Pyramide interagiert werden kann. Die Sitenavigation springt
eine Ebene tiefer. Die Objekte sollten sich zoomen und rotieren lassen und die gleichen
Medien beherbergen wie alle anderen Exponate.
6.1.7
VRML
Einschleusung von in VRML formulierten dreidimensionalen Szenarien in den ARBrowser könnte die Verwendung des GUI-Toolkits des .NET-Frameworks vollständig ablösen.
Es ist darauf zu achten, dass getrackte und ungetrackte Objekte gerendert werden müssen,
zur Erhaltung des „world-stabilized“-“screen-stabilized“-Prinzips. Das Format bietet alle
Vorteile dreidimensionaler Interaktionen, wie etwa Animationen, Skalierungen, Rotationen, Löschen und Hinzufügen anderer Objekte. Dies mag die Absicht unterstützten, für
Ausstellungsbesucher einen höheren Lern- und Erlebniseffekt zu erzielen.
6.1.8
Nicht realisierte Konzepte
Einige vorgeschlagene Konzepte konnten innerhalb des vorgegebenen Zeitrahmens nicht
realisiert werden. Entgegen den im Anwenderszenario 4.4 erwähnten Vorschlägen blei-
128
KAPITEL 6. EVALUATION
ben Navigations- und Orientierungsinteraktionen auf ein einzelnes Exponat und dessen
Hot Spots beschränkt. Daher integriert der vorliegende Prototyp auch noch kein räumliches Audiofeedback, das von den Daten von GPS und Kompass abhängig ist. Desweiteren
fehlt es an Audiokommentaren, die aber Teil des Repository und somit Teil von intCulture
sind. Dreidimensionale Modelle, ob getrackt oder im Showcase, werden ebenso Aufgabe
zukünftiger Entwicklungen sein.
6.2
Benutzertests
Um die vor der Designphase aufgestellten Hypothesen überprüfen zu können, ist in erster
Linie die Erprobung und Bewertung durch potenzielle Benutzer notwendig, also geschichtsund kulturinteressierte Reisende, Gelegenheitsbesucher, Pauschaltouristen, Studienreisende, Kinder, Jugendliche, Erwachsene etc. Prinzipiell muss für ein aussagekräftiges Ergebnis ein breites Spektrum an Erfahrungen und Erwartungen an die Themen Tourismus,
Kulturgut und Mobile Equipment abgedeckt werden. Im Rahmen dieser Arbeit ist ein Test
an einer historischen Stätte oder in einem Museum mit vor Ort präsenten Testpersonen allerdings nicht möglich gewesen. Zum einen aus zeitlichen Gründen, zum anderen, weil die
inhalteliefernde Komponente von intCulture noch nicht integriert ist. Außerdem sind die
Ortungskomponenten noch nicht angeschlossen. Tests vor Ort wären dennoch möglich, allerdings wurde schon bei ersten Versuchsläufen vor der eigentlichen Befragung bemerkt,
dass selbst geringfügige Schwächen, die vielleicht nur eine Änderung in der Konfiguration bedeuten, die Wahrnehmung und Informationsaufnahme deutlich beeinträchtigen. Die
Erprobung verschiedener Konfigurationen in Testläufen ist also eigentlich notwendig. Daher beschränkt sich die erste Befragung auf zwei kleine Benutzergruppen von jeweils 7
Testpersonen, die allesamt aus der Berufsgruppe Ingenieur / Informatiker stammen. Vor
Beginn des Tests wurden die Kandidaten kurz über die prinzipielle Verwendung von Sprache und Maus / RC und die zu verwendenden Tools informiert. Ebenso wurden sie auf
bekannte Einschränkungen des Systems, wie partiell nicht vorhandener Content zu Kommandos und Controls sowie die fehleranfällige, sprecherabhängige Spracherkennung hingewiesen. Zur Minimierung derer Fehlerquote wurden vorab zwei Sprachprofile erstellt,
von einer griechisch männlichen und einer griechisch weiblichen Stimme. Personen mit
129
6.2. BENUTZERTESTS
akzentfreierem Englisch wurde ein deutsch männliches Profil zugeteilt. Die Sprache der
Schnittstelle selbst ist in Englisch gehalten.
Abbildung 6.8: Erklärung von Tools,
Controls und Verwendung der Eingabegeräte.
Abbildung 6.9: Erklärung des Exhibitmenü und der Versteckfunktion.
Abbildung 6.10: Erklärung der augmentierten Ansicht.
Nach Feststellung von Stärken und Schwächen des Designs bzw. Verifizierung der Hypothesen zeigen sich dann die Konsequenzen für kommende Weiterentwicklungen.
130
6.2.1
KAPITEL 6. EVALUATION
Testparcours
Nach Anpassung der Konfigurationen nach dem Testlauf mit einer Versuchsperson wurden die Kandidaten, die den Fragebogen zur endgültigen Analyse beantworten würden,
gebeten, den Test indoor und stationär vorzunehmen. Sie wurden mit unterschiedlichen
Gerätschaften ausgestattet. Ein mobiler Parcours hätte, so die Vermutung, mit dem aktuellen Prototypen keinen Vorteil oder mehr Realitätsnähe erbracht. In einem Halbkreis
wurden 3 verschiedene “Ausstellungsstücke„ positioniert. Die einzige Aufgabe bestand
darin, möglichst viele Informationen über die einzelnen Standorte und ihre Merkmale zu
sammeln und währenddessen eine Idee zur Funktionalität des Systems zu bekommen.
Das gesamte Testfeld wurde in zwei gleichgroße Gruppen aufgeteilt. Erstere wurde mit
Abbildung 6.11: Erprobung der Schnittstelle im Test.
Abbildung 6.12: Testkandidatin während der Evaluation.
einem Video-See-Through-HMD und einer standardmäßigen Desktop-Maus ausgestattet,
letztere mit einem Video-See-Through-Binocular und einer Fernbedienung mit eingebautem Bewegungssensor, sowie beide mit einem Single-Sided-Headset. Die RC war für die
erste Testgruppe noch nicht verfügbar. Wegen technischer Schwierigkeiten konnte die Gyration UltraGT Maus nicht eingesetzt werden. Vorab lässt sich bereits festhalten, dass
keine eindeutig „perfekte“ Konfiguration der Geräte gefunden werden konnte. Der HMD
wurde den Benutzern stets zu schwer und drückte so sehr, dass er von der eigentlichen
Information zu sehr ablenkte und zu den Binoculars gewechselt wurde. Die Binoculars
6.2. BENUTZERTESTS
131
wiederum erfordern die Betätigung des Ausgabegerätes anstatt sich auf die Eingabemodi
zu konzentrieren.
6.2.2
Konzept des Fragebogens
Zu jeder Hypothese wurden diverse zu verifizierende oder falsifizierende Fragen aufgestellt. Einige Thesen konnten mit gleichen Fragen überprüft, wiederum andere durch Design und Implementierung bestätigt werden. Die Testkandidaten konnten zu jeder Frage
eigene Kommentare und Verbesserungsvorschläge abgeben. Teilweise waren Inhaltsfragen zu beantworten. Auf Auffälligkeiten wird gesondert eingegangen.
6.2.3
Auswertung
Die Erfüllung der in 4.1 erwähnten Grundsätze und Kategorien werden zusammenfassend
bewertet. Die ausführlichen, statistischen Ergebnisse der Fragen zu einzelnen Hypothesen
sind in Anhang G zu finden. Einen Überblick über die wichtigsten Ergebnisse geben die
Diagramme 6.13 bis 6.19.
Die Auswertung wird anhand der Gesamtergebnisse beider Testgruppen durchgeführt, da
Vor- und Nachteile der gewechselten Ein- und Ausgabegeräte bekannt sind. Auf Untersuchungen, die sich speziell auf die Eingabegeräte beziehen, wird gesondert eingegangen.
Desweiteren waren einige Kandidaten unentschieden oder haben Teile der Schnittstelle
separat bewertet.
Aufgabenangemessenheit
„Ein Dialog ist aufgabenangemessen, wenn er den Benutzer unterstützt, seine
Arbeitsaufgabe effektiv und effizient zu erledigen.“
Aufgabenangemessenheit bedeutet in erster Linie, dass die Elemente der Schnittstelle den
Benutzer nicht bei der Lösung seiner „Aufgabe“ behindern. Das Bedürfnis eines Besu-
132
Abbildung 6.13: Benutzerfreundlichkeit.
KAPITEL 6. EVALUATION
Abbildung 6.14: Erfüllte Erwartungshaltung.
chers besteht im Speziellen darin, möglichst viele Informationen über ein Ausstellungsstück zu erfahren, und zwar, ohne dass seine reale Sicht auf das Objekt eingeschränkt
wird. 9 von 14 Benutzern wurden durch die sichtbaren Elemente bzw. Tools nicht in ihrer Sicht auf das Geschehen am Objekt behindert. Die Positionierung der Sitenavigation
war der einzige Kritikpunkt für die übrigen. Eine Alternative wurde bereits in Abschnitt
6.1 vorgestellt. Die Option zum Verstecken der Elemente konnte von 12 Benutzern leicht
gefunden werden, wurde aber nicht immer und stetig angewendet. Transparente Menüs
oder ein interaktiveres, augmentiertes Menü scheinen eine Alternative, da sich der Fokus
dann auf eine Sicht konzentriert und nicht zwischen „Show“ und „Hide“ geschaltet werden müsste. Ein Kandidat schlug vor, die Elemente separat ein- und ausschalten zu können.
Hinsichtlich ihrer Verwendbarkeit hatten 12 Personen einen positiven Eindruck von den
visuellen Tools. Negativ wirkten sich lediglich mangelnde Mediainhalte und - wie schon
erwähnt - die Größe der Sitenavigation aus. Parallel aufgetretene Redundanz bei Menüeinträgen in der Sitenavigation und im augmentierten Ausstellungsstückmenü irritierte manche Benutzer. Die Selektionsoption war nicht eindeutig. Da sich jene beiden Menüarten
auch hinsichtlich der Darstellungsform (statisch fixiert - dynamisch getrackt) unterscheiden, war der Vorgang des Wechselns vom einen zum anderen Tool nicht immer offensicht-
6.2. BENUTZERTESTS
Abbildung 6.15: Bevorzugte Eingabegeräte.
133
Abbildung 6.16: Leichte Gewöhnung an
die Eingabegeräte.
lich. Manche Benutzer schlugen die Augmentierung der Sitenavigation sowie abwechselndes Hervorholen des aktiven und Verstecken der passiven Tools zur Orientierung vor.
An die Spracheingabe gewöhnte sich das gesamte Testfeld sehr schnell, lediglich ein Benutzer hat Sprache überhaupt nicht verwendet. Dagegen hatten mehrere Benutzer anfangs
Schwierigkeiten mit der Maus- bzw. RC-Eingabe. Die meisten mussten sich ergo an die
Bedienung der Geräte nach der kurzen Einführung erinnern. Grundsätzlich wurde eine
kurze Trainingsphase benötigt. Zum einen lag dies an mangelndem Kontrast im Blickfeld,
so dass nicht ersichtlich war, welches Tool und welche Controls gerade aktiviert waren,
zum anderen an der Belegung der Maustasten. Die RC wurde allerdings besser als die
Maus angenommen, obwohl das Binocular mit einer Hand festgehalten werden musste.
Der Großteil beider Gruppen war zufrieden mit den Reaktionen des Systems auf angeforderte Informationen. Wie schon zur Testeinführung geschildert, zählt zur Erwartungshaltung primär passender und variierender Content, aufgrund dessen manchem Benutzer
nicht ersichtlich war, wie eine adäquate Reaktion auszusehen hat. Einige HMD-Träger berichteten zudem von Konzentrationsschwierigkeiten auf die eigentlichen Inhalte durch das
Gewicht des Geräts. Demgegenüber hat das System kaum irrelevante oder unaufgeforderte
134
KAPITEL 6. EVALUATION
Abbildung 6.17: Immersionsgefühl.
Abbildung 6.18: Intuitive Interaktion.
Information geliefert. Lediglich die Hilfefunktion benötigt eine Verbesserung.
Aus den Ergebnissen kann man schließen, dass der Dialog der gestellten Aufgabe angemessen ist. Die Benutzer waren in der Lage, an erwünschte Informationen mit mindestens einem der Eingabegeräte zu gelangen. Nachbesserungsbedarf besteht hinsichtlich des
Kontrastes zwischen aktiven und passiven Elementen, der Belegung der Eingabetasten für
Maus und RC sowie in der Positionierung der Sitenavigation. Jede dieser Schwächen kann
mit Hilfe einer geänderten Konfiguration behoben werden. Dennoch ist eine Änderung des
Highlighting von Tools und Controls, beispielsweise eines Rahmens oder eines „Aktiv“Icons (siehe Abb. 6.20), in Erwägung zu ziehen. Ebenso kann über eine Alternative zu
Maus und RC nachgedacht werden, wie etwa die Integration der Knöpfe am Binocular.
Sehr positiv zeigt sich, dass niemand Probleme mit der direkten Anwendung von Sprache
hatte.
Selbstbeschreibungsfähigkeit
„Ein Dialog ist selbstbeschreibungsfähig, wenn jeder einzelne Dialogschritt
durch Rückmeldung des Dialogsystems unmittelbar verständlich ist oder dem
Benutzer auf Anfrage erklärt wird.“
6.2. BENUTZERTESTS
135
Abbildung 6.19: Multimodales Interaktionsgefühl.
Abbildung 6.20: „Aktiv“-Icon (Konzept)
Die Repräsentation der Sprachkommandos in Form von farblich hervorgehobenem Text
erwies sich als sehr hilfreich. Der Bezug war im allgemeinen intuitiv. Dennoch wünschte
sich nahezu die Hälfte aller Tester nähere Erläuterungen zu ihren Bedeutungen, insbesondere für die Topics in der angedachten Hilfe zu den Sprachkommandos. Andere Formulierungen benötigen hingegen „Annotation“ und „Go into“. Die Kommandos waren
einprägsam, 4 Benutzer konnten sich sogar an mehr als 10 Kommandos nach dem Test
erinnern.
Dem Grundsatz der Selbstbeschreibungsfähigkeit ist nur eine konkrete Hypothese zugeordnet. Er wird unter anderem durch die folgenden Abschnitte über Fehlertoleranz und
Benutzerführung ergänzt.
136
KAPITEL 6. EVALUATION
Steuerbarkeit
„Ein Dialog ist steuerbar, wenn der Benutzer in der Lage ist, den Dialogablauf
zu starten sowie seine Richtung und Geschwindigkeit zu beeinflussen, bis das
Ziel erreicht ist.“
Den Untersuchungsergebnissen folgend war der Dialog konsistent genug, um zu jeder vorhandenen Information zu gelangen. Eine Eingewöhnungsphase scheint jedoch immer erforderlich, insbesondere im Hinblick auf die Eingabegeräte, hier vor allem Maus und RC.
Die Kandidaten mussten weniger darüber nachdenken, welche Elemente sie selektieren
mussten als wie sie zu einem bestimmten finalen Punkt gelangen würden. Bemerkt wurde,
dass es sich sowohl bei Interaktion als auch bei Präsentation um neuartige Technologien
handle, mit denen man bisher noch nicht konfrontiert wurde, vor allem die Abstraktion
von Gerät über die augmentierte Ansicht zu Menüstrukturen.
Zur Positionierung der Tools und ihrer Controls gab es unterschiedliche Meinungen, insbesondere zur Anbringung der Sitenavigation vertikal auf der linken Seite des Bildschirms.
Die einen irritierte es nur am Anfang, die anderen gelegentlich, wenn sie z.B. eine freie
Sicht haben wollten. Ein Benutzer äußerte, dass die Kombination von Bild und Text als
Menüelement bereits zu viel an Information sei, die beschränkt werden könne, um mehr
Platz auf dem Schirm zu schaffen. Die Navigationselemente „Previous“ und „Next“ waren
in geringem Maße nicht erwartungskonform, denn erwartet wurde gelegentlich ein Wechsel des Overlays. Dagegen war den meisten offensichtlich, welches Tool welche Funktionalität besitzt. Mit der Suche nach einer Funktion verbanden die meisten auch die längere
Navigationszeit mit Maus oder RC im Vergleich zu Sprache.
Fast alle Benutzer waren in der Lage während des Tests mit anderen umgebenden und
nicht beteiligten Personen zu kommunizieren. Gelegentlich zeigte das System etwas unkontrolliertes Verhalten, was darauf zurückzuführen ist, dass vergessen wurde, das Mikrophon auszuschalten, wenngleich ausnahmslos alle die Funktion zum An- und Ausschalten
der Peripherie entdeckt hatten. Eine Testperson hatte vorgedacht und sich gefragt, wie das
Mikrophon wieder angeschaltet werden könne. Desweiteren ist aufgefallen, das wenige
6.2. BENUTZERTESTS
137
die Funktion konstant verwendet haben, vielmehr haben sie sie nur überprüft.
Das eingeschränkte Sprachvokabular erleichterte fast allen die Erinnerung an Kommandos. Auch hier gilt der Satz, je mehr Training, desto gefestigter die Erinnerung. Knapp ein
Drittel versuchte andere als die vorgegebenen Kommandos. Verursacht wurde dies zum
einen durch mangelnden Kontrast zwischen blauen und schwarzen Schriftzügen, zum anderen hat das System während eines kontinuierlichen Sprachflusses, z.B. bei der Diskussion mit anderen Personen, gespeicherte Kommandos erkannt.
Fast alle Testpersonen hielten Sprache und Maus / RC für angemessene Eingabegeräte,
allerdings mit der Einschränkung, dass Maus / RC das weniger bequeme und intuitive von
beiden sei. Funktionen an den Geräten selbst wurden nicht vermisst, lediglich eine Person fände die Interaktion mit einem Gamepad besser. In diesem Zusammenhang haben
sich einige zusätzliche Funktionen wie eine Navigationshilfe („Wo kann ich als nächstes hingehen ?“), kontextsensitive Hilfe zu allen UI-Elementen sowie mehr Mediainhalte
gewünscht. Zu überlegen ist, ob der Zugang zu diesen Funktionen ohne visuelle Repräsentation nicht direkt auf das Eingabegerät selbst ausgelagert werden kann, um immer
verfügbar zu sein.
Niemand hatte demnach ernsthafte Schwierigkeiten, Inhalte zu finden. Die Schnittstelle
war stets präsent. Probleme gab es hinsichtlich der Interaktion mit der Maus / RC und
gelegentlichen Verwirrungen bei der Aktivierung des nächsten Tools oder Control. Ein
paar Tester äußerten , dass eine intuitivere Analogie zwischen den Repräsentationen einer
Control in der UI und am Eingabegerät diese Schwächen korrigieren könnten.
Erwartungskonformität
„Ein Dialog ist erwartungskonform, wenn er konsistent ist und den Merkmalen des Benutzers entspricht, z.B. den Kenntnissen aus dem Arbeitsgebiet, der
Ausbildung und der Erfahrung des Benutzers sowie den allgemein anerkannten Konventionen.“
138
KAPITEL 6. EVALUATION
Bedenkt man die unterschiedlichen Erfahrungswerte der potenziellen Zielgruppe - nicht
unbedingt die der nahezu homogenen Testgruppen -, so kann man, da kein detailliertes
Wissen über deren Erfahrungsschatz vorhanden ist, nur mutmaßen, ob der Dialog erwartungskonform ist. Daher wurden die Kandidaten lediglich gefragt, ob das Testsystem die
Erwartungen erfüllt hat, die jeder nach der kurzen Einführung mitgebracht hatte. Mehr als
dreiviertel waren zufriedengestellt. Problematisch waren - so auch in der Testeinführung
erwähnt - die fehlenden Inhalte. Es zeigt sich, dass die Benutzer den höchsten Anspruch
an die zu präsentierenden Siteinformationen haben. Mängel in der Interaktion wurden an
dieser Stelle nicht festgestellt.
Fehlertoleranz
„Ein Dialog ist fehlertolerant, wenn das beabsichtigte Arbeitsergebnis trotz
erkennbar fehlerhafter Eingaben entweder mit keinem oder mit minimalem
Korrekturaufwand durch den Benutzer erreicht werden kann.“
Eine Maxime für diese Arbeit lautete, dass ein Benutzer keine fehlerhaften Eingaben machen kann, da das System die Korrekturen automatisch vornimmt oder zumindest Lösungsvorschläge präsentiert. Eine positive Einschränkung auf Systemseite ist außerdem,
dass der Benutzer keine dynamischen Daten hinzufügen kann. Eher wird statisch auf Ereignisse reagiert, sprich jede fixe Eingabe hat eine fixe Ausgabe zur Folge. Daten müssen
nicht überprüft werden. Was also berichtigt werden müsste, ist das Verhalten des Systems
selbst, etwa, wenn es einen Befehl nicht versteht und nur eine vage Prognose geben kann.
Dies ist weniger Korrektur als die Bestätigung nach einer Eingabe durch den Benutzer.
Das benutzerführende Konzept der Validierung von Spracherkennungshypothesen etwa
(s. Abschnitt 4.5.2) konnte in diesem Prototypen noch nicht implementiert werden.
Um den Benutzer zu führen und ihn auf seinen Status und den des Systems hinzuweisen,
wurden diverse Formen von Feedback integriert, wie etwa Textnachrichten, Audiosignale
und farbliche Hervorhebungen. Als störend empfand diese automatische Funktion eigentlich niemand. Zwei Benutzer waren unentschlossen. Einige Benutzer haben die Textnachrichten zum Lernen des Systems benötigt, andere sahen in akkuratem Tracking eine Form
6.2. BENUTZERTESTS
139
von Feedback. Bis auf eine Person fanden alle Form und Inhalt des Feedbacks hilfreich,
mehr allerdings für die Kenntnis des eigenen Status als für Orientierung und Navigation.
Die Anzahl relevanter Informationen für Orientierung und Navigation beschränkte sich
eher auf simple Positionsangaben im Sinne von „You are in area...“ oder „You can see the
exhibit’s items“. Navigationsfunktionen für eine vollständige Orientierung auf einer komplexen Site werden mit der Anbindung von intCulture realisiert. Wie ein Benutzer festgestellt hat, ist das System momentan mehr reaktiv als proaktiv und schlug die Kombination
von Lokalisationspunkten und Beschreibungen auf einer Navigationskarte vor, womit auch
das Sitenavigationstool überflüssig wäre. Ein solcher Ansatz wurde schon einmal im Anwenderszenario in Kapitel 4.4 verfolgt, aufgrund bereits vorhandener intCulture-Konzepte
aber nicht integriert.
Das System toleriert „Fehler“ also bereits durch die Filterung von Eingaben. In diesem
Sinne liegen die Fehler also im System selbst, etwa wenn, wie schon erwähnt, passende
Inhalte fehlen.
Individualisierbarkeit
„Ein Dialog ist individualisierbar, wenn das Dialogsystem Anpassungen an
die Erfordernisse der Arbeitsaufgabe, individuelle Vorlieben des Benutzers
und Benutzerfähigkeiten zulässt.“
Beide bereitgestellten Interaktionsmodi wurden von den Testpersonen verwendet. Der
überwiegende Teil, nämlich 10 Kandidaten, tendierte zur Spracheingabe, während 2 die
Maus und 2 weitere die RC favorisierten. 11 von ihnen haben erwogen, beide Geräte zu
verwenden, 2 haben sich unmittelbar für Maus / RC und eine Person für Sprache entschieden. Mehr als die Hälfte benötigte beide Modi, meistens, wenn der jeweils andere nicht
ordentlich funktionierte. Es fiel auf, dass von einigen Benutzern entweder Sprache oder
Maus / RC absichtlich vermieden wurde. Es ist also tatsächlich so, dass eines der Geräte
immer als Alternative und zur Umgehung des anderen Schwächen verwendet wurde. Da
für den Test keine aktive multimodale Interaktion bereitgestellt wurde, konnte man aber
nur aktiv unimodal agieren.
140
KAPITEL 6. EVALUATION
Die wenigsten Benutzer waren an selbstständiger individueller Positionierung der Tools
interessiert. Stattdessen bevorzugten fast alle ein automatisches Layout, entweder anhand
von Vorschlägen durch das System oder nach Profilierung. Die Vermutung war folglich
korrekt, dass freie Individualisierbarkeit in diesem Anwendungsfall nicht relevant ist.
Eine überlegtere Verteilung der Tools würde auch dem Manko helfen, dass viele Benutzer
durch die Position der Sitenavigation so sehr abgelenkt wurden, dass sie es gerne separat
versteckt hätten. Dennoch waren sie mit dem Layout der Tools selbst zufrieden.
Individualisierung gehört nicht zu den notwendigen aktiven Bedürfnissen der Testpersonen. Personalisierung kann automatisch durch das System erfolgen, je nach Präferenzen
eines Benutzers. Vielmehr verlangten die Benutzer Interaktionsvielfalt und Unabhängigkeit in der Ansteuerung. Die Tendenz geht also in Richtung mehrerer Eingabemodi und
automatischer UI-Anpassung auch während der Benutzung unter Verwendung passiver
Modi.
Lernförderlichkeit
„Ein Dialog ist lernförderlich, wenn er den Benutzer beim Erlernen des Dialogsystems unterstützt und anleitet.“
Nach der Einführung waren die Testpersonen auf sich allein gestellt. Das Hilfesystem gehört nicht zu den vorgestellten Designkonzepten und präsentiert sich als Slideshow der
Einführungsfolien, die mittels „Help“ im Statustool abgerufen werden können. Es wurde
noch kurz vor dem Test implementiert. Das Feedback in Form von Kurztext, Audio und
Highlighting sollte demnach zur Anleitung ausreichen.
Die Hervorhebung von Sprachkommandos in blauem Schriftzug fanden alle Benutzer
sinnvoll, die Sprache verwendet haben. Die Kontrastschwäche erschwerte allerdings deren
Erkennung. Sie ist aber teilweise bedingt durch die kontrastarmen Displays. Die Mehrheit
der Benutzer musste sich nach Trainingsphase aber nicht mehr an dieses Feature erinnern,
6.2. BENUTZERTESTS
141
um zu erkennen, dass es sich um ein Sprachkommando handelte. Ein Benutzer ging davon
aus, dass jedes Textelement ein Kommando repräsentiert.
Das Highlighting von Tools und Controls wurde bereits zuvor diskutiert. Die Kontrastschwäche und die Auswahl der Farben ließ nicht immer eine eindeutige Unterscheidung
der aktiven und passiven Elemente zu.
Da intCulture noch nicht angebunden war, konnte zudem nicht überprüft werden, ob die
Benutzer sich an die präsentierten, objektbeschreibenden Informationen erinnern konnten.
Wiedergegebene Medien hatten stets denselben Inhalt.
Bisher ist der Dialog also nur begrenzt lernförderlich. Insbesondere die Kontrastschwäche
führte zu Irritationen. Wie schon vorgeschlagen, ist auch an Alternativen zur Farbhervorhebung zu denken.
Benutzerführung
Benutzerführung ist eigentlich ein separates Kapitel in der softwareergonomischen Analyse. Das Europäische Komitee für Normung hat hierzu eine eigene Richtlinie [fN98b]
herausgegeben. Im Rahmen dieser Arbeit werden deren Grundsätze aber nicht im einzelnen analysiert. Der Prototyp ist in einem noch zu jungen Entwicklungsstadium. Stattdessen
wurden beispielhafte Fragen zu diversen Konzepten gestellt.
Adäquate Benutzerführung sollte in erster Linie durch die drei Feedbackformen gewährleistet werden. Die „Audio Cue“s beschränkten sich im Test allerdings auf kurze Signaltöne anstatt gesprochenem Text.
Die Formen und Präsentationen des Feedback empfanden die meisten Benutzer als hilfreich und passend. Insbesondere Textfeedback hat vielen zum Verständnis ihrer Interaktion
weitergeholfen. Wie schon mehrmals erkannt, störte aber der mangelnde Kontrast im Display bei der Erkennung der aktiven und passiven Farbschemata. Das Audiofeedback haben
einige Benutzer nicht bemerkt oder „falsch“ interpretiert. Wiederum andere sagten, dass
142
KAPITEL 6. EVALUATION
es nach einer Weile nicht mehr benötigt werden würde. Daraus lässt sich schließen, dass
zum einen eine begrenzte Anzahl an Feedbackmodi ausreicht und zum anderen, dass der
Inhalt des Feedback präzise formuliert sein muss.
Die Wahl der Feedbackinhalte scheint insofern eine Aufgabe für zukünftige Prototypen.
Es ist darauf zu achten, dass mit fortgeschrittener Anzahl an Tools und Interaktionsmöglichkeiten auch die Quantität des Feedback steigen muss. Die meisten Benutzer fanden die
bisherigen Feedbackinhalte passend zu ihren Aktionen, einige andere störte aber das Audiofeedback oder vermissten Reaktionen des Systems. Jene Reaktionen müssen sich nicht
immer in der Form von aktivem Feedback äußern. Schon passive Reaktionen wie die Präsentation von passendem Content reichen als Bestätigung aus. Weiterhin ist zu überlegen,
wie das System auf nicht erkannte Eingaben reagieren soll, etwa wenn die Spracherkennung stockt.
Die Vermischung von Videobild, augmentierten und statischen UI-Elementen kann den
Benutzer beim Wechseln des Fokus irritieren. Die meisten Kandidaten mussten nur gelegentlich nach dem gerade aktiven Tool suchen. Einige andere wurden aber inbesondere durch die Redundanz von Einträgen im letzten Hierarchielevel der Sitenavigation und
des Ausstellungsstückmenüs abgelenkt. Ein Benutzer hat vorgeschlagen, den Bereich mit
Steuerelementen und den mit Videobild von vornherein voneinander abzugrenzen.
Die Aufteilung der Steuerelemente in „world-stabilized“ und „screen-stabilized“ hat der
Mehrheit dazu geholfen, die kontext- und objektbezogenen Informationen zu unterscheiden. Dennoch mussten 3 Probanden den Fokus wechseln und wurden dadurch beeinträchtigt. Wiederum die Sitenavigation hat zu dieser Irritation beigetragen.
Multimodale Interaktion
Einige der aufgestellten Hypothesen können schon durch die Implementation überprüft
werden oder sind nicht durch subjektive Benutzerfragen zu beantworten. Sie werden anhand der Erfahrungen während Benutzer- und Implementationstests im Anschluss an die
Auswertung der Fragebögen bewertet.
6.2. BENUTZERTESTS
143
Es wurde davon ausgegangen, dass sich die Benutzer durch die multimodale Dateneingabe, insbesondere von Sprache, immersiver in der Umgebung fühlen. Lediglich 5 Personen
konnten dies bestätigen, 6 haben dies nicht empfunden und 3 waren unentschlossen. Die
Ursache lässt sich allerdings nur aus den bisherigen Ergebnissen erahnen. Zum einen waren die Displays sowohl des HMD als auch der Binoculars sehr kontrastarm, insbesondere
verglichen zu Versuchen auf einem herkömmlichen Laptopdisplay. Ebenso waren die Helligkeitsunterschiede zwischen aktivem und passivem Highlight nicht deutlich genug. Darüber hinaus muss von Maus und RC zur visuellen Interaktion mit der Schnittstelle noch
stark abstrahiert werden. Betrachteten die Benutzer die Umgebung durch das Fernglas,
konnte man beobachten, dass es ihnen schwer fiel, gleichzeitig die RC zu bedienen. Andererseits störte das Gewicht des HMD die Konzentration auf die Interaktion. Zwar wurden
vorher Versuche mit einem Gamepad unternommen, doch wurde dies für die Benutzertests ausgeschlossen, weil einhändige Bedienung schwierig und die Funktionsvielfalt zu
opulent ist. Beidhändig wäre es nur für den HMD in Frage gekommen, den viele Benutzer
wiederum nach einer Weile festgehalten haben, weil er auf die Nasenflügel drückte.
Wenn sich ein Kandidat immersiv fühlte, so lag der Grund meist in der Augmentierung
der Overlays, also der „screen-stabilized“ Elemente. Für andere war es dann aber eine
Schwierigkeit, das Overlay aufgrund von Verwacklungen beim Tracking zu fokussieren.
Ideen zur Verstärkung des Immersionsgefühls werden am Ende der Arbeit in Kapitel 8
vorgestellt.
Es hat sich bereits herausgestellt, dass für benutzerfreundliche Funktionalität Daten nicht
notwendigerweise multimodal eingegeben werden müssen, wenn sie geringfügig komplex
sind. Etwa sind derzeit weder temporäre noch räumliche Angaben zu machen. Demnach
besteht die Multimodalität darin, dem Benutzer die Wahl des Eingabegerätes zu überlassen, abhängig von seinen Präferenzen und unabhängig vom Status der Schnittstelle. Darüber hinaus erlaubt die Schnittstelle die Verknüpfung mit passiven Eingabedatenströmen,
woraus sich die Definition eines „blended multimodal user interface“ ergab. Derzeit wird
dieser Datenstrom aber auch nur separat für die Analyse des Benutzerverhaltens verwendet und nicht in Kombination mit dem aktiven Strom. Dennoch haben 10 Tester angege-
144
KAPITEL 6. EVALUATION
ben, multimodal interagiert zu haben, weil sie mehr als ein Gerät verwendeten. Insgesamt
8 meinten, dass sie das Eingabegerät häufig während des Test wechselten. Den Begriff
„simultane Verwendung“ hat man unterschiedlich aufgefasst. Einerseits impliziert es Parallelität während der Dateneingabe, andererseits Parallelität im Verlaufe des Tests, also
eher alternativ. 10 Personen sagten demnach, dass sie nicht simultan interagiert haben.
Insgesamt empfanden aber 11 Kandidaten die Interaktion mit mehr als einem Eingabegerät komfortabel. Die übrigen haben stets nur ein Gerät verwendet. Ein Benutzer erwähnte,
dass die Interaktion besonders im Zustand des Laufens schlicht gehalten werden sollte.
Daraus lässt sich z.B. ableiten, dass die etwas längeren Mauseingaben hier vermieden
werden sollten, wie etwa das Scrollen durch Tools und Controls.
Die meisten Benutzer haben nicht mitbekommen, dass ihre Stimmlautstärke gemessen
wurde, obwohl ebenso viele den Pegel des Mikrophons gesehen hatten, nicht aber, dass
der Guide mit Textfeedback reagiert, wenn der Pegel eine gewisse Schranke über- oder
unterschreitet. Die Frage war hier nicht präzise genug gestellt.
Für den Test wurde keine multimodale Verkettung von Befehlen verwendet, dennoch muss
in diesem Stadium schon auf Ambiguitäten geachtet werden. Fast alle Tester konnten hier
keine Doppeldeutigkeiten feststellen, die Auswahl der Kommandos war präzise und eindeutig. Ebenso wurden sie als konsistent und gut verständlich empfunden. Einzig die Bedeutung der Topicnamen für die Kommandohilfe war nicht ganz klar. Dies hat aber keinen
Einfluss auf die multimodale Verarbeitung.
Eine weitere Vermutung war, dass eine multimodale Schnittstelle die Benutzung freundlicher und intuitiver gestaltet als eine unimodale. Der Vergleich konnte im Test nicht direkt
hergestellt werden. Alle Benutzer äußerten also, dass die Schnittstelle in ihrem jetzigen
Status durchaus benutzerfreundlich sei, allerdings unter Beachtung der zur Einführung genannten Einschränkungen. Das Konzept im Allgemeinen sei durchdacht, die Umsetzung
bedürfe aber noch ein paar Verfeinerungen und Änderungen. Schwächen wurden bereits
einige Absätze zuvor herausgestellt. Darüber hinaus besteht eine größere Aufgabe darin, die Akzeptanz zur nahezu „neuen“ Interaktionsform herzustellen. Eine Vermutung ist,
dass diese Hürde durch die vermehrte Einbettung benutzerführender Aufgaben wie Na-
6.2. BENUTZERTESTS
145
vigation und Orientierung sowie visuell ergonomischerer Komponenten abgebaut werden
kann. Die Mehrheit war mit der jetzigen Fassung weitestgehend zufrieden. Eine Auflistung
erwünschter Verbesserungen folgt:
• Verbesserung der Analogie zwischen Maus/RC-Buttons und ihrer visuellen Repräsentation auf dem Bildschirm,
• Reduzierung der Hierarchiestufen in der Sitenavigation,
• Darstellung einer einzigen Ansicht für alle Elemente, Steuerungen und Informationen zur Vermeidung weiter Interaktionswege,
• Vermeidung von Sprachkommandos, die per Maus / RC nicht ansteuerbar sind oder
gänzlich unsichtbar sind und gemerkt werden müssen (z.B. „Commands“, „Previous
tool“, „Next tool“, „Return“, „All“, „Contained“, „Related“, etc.)(s. Abb. 6.21),
• transparente Tools und Steuerelemente,
• Repositionierung der Sitenavigation,
• individuellere Kontrollen wie z.B. separates Ein- und Ausschalten von Tools,
• Vergrößerung des natürlichen Blickfeldes und Reduzierung der Verdeckung durch
Tools,
• Verbesserung der Spracherkennung,
• Verbesserung von Kontrast, Highlighting und Feedbacknachrichten,
• interaktivere Kommandos innerhalb des Exhibitmenü,
• schrilleres und ausgefalleneres Design.
Jeder Kandidat hat ein bis zwei dieser Punkte erwähnt. Die Verbesserungsvorschläge waren also von Mal zu Mal sehr unterschiedlich und durch individuelle Vorlieben bestimmt.
Zur Festlegung einer Prioritätsliste wären größere Testgruppen nötig.
146
KAPITEL 6. EVALUATION
Abbildung 6.21: Kommandos und Labels
Viele der vorgeschlagenen Verbesserungen gelten für die Präsentationskomponente des
Systems. Hingegen wurde die Intention bestätigt, die Interaktion möglichst intuitiv zu gestalten. Lediglich jeweils ein Benutzer hat sich dagegen ausgesprochen oder war unentschlossen.
Analyse nicht abgefragter Hypothesen
Einige der Hypothesen konnten mittels Benutzertests nicht ausgewertet werden, da sie
entweder zu eng an die Technik gebunden sind, innerhalb des Zeitrahmens nicht implementierbar waren oder im Rahmen des Anwendungsgebietes bisher noch nicht notwendig
waren. So versteht der Guide etwa keinen temporalen Kontext. Es heißt, dass sich Sprache
gut zu dessen Beschreibung eignet. Bestätigt wurde stattdessen, dass sich Sprache gut zur
Kurzkommandoeingabe eignet.
Dass multimodale Kommandos vom Test ausgeschlossen wurden, liegt nicht zuletzt an
ihrem Potenzial. Derzeit beschränkt sich die Interaktion auf das Abrufen von Inhalten. Modifikation und Manipulation von Information und Objekten sind nicht integriert. Ebenso
ist die Menge, aus der ausgewählt werden kann, auf wenige Datensätze limitiert. Schlichte, kurze Kommandos mit Maus / RC und Sprache haben daher ausgereicht, um umgehend
ans Ziel zu gelangen.
6.2. BENUTZERTESTS
147
In Vorversuchen wurde die multimodale Funktionalität mit kombinierten Kommandos getestet. Durch die Speicherung von Kommandos im Puffer, konfigurierbare Zeitspanne und
Puffergröße können Kommandos sequentiell eingegeben werden. Wichtig ist indes die
Reihenfolge, in welcher das System die eingehenden Einzelkommandos erkennt. Es ist
aufgefallen, dass Sprache generell mehr Reaktionszeit als Maus oder RC verbraucht. Eine
gewisser zeitlicher Abstand zwischen den Einzelkommandos war ergo immer nötig, damit
eine korrekte Sequenz erkannt werden konnte.
Während der Implementation wurde auch festgestellt, dass durch das Konzept des Keymapping multimodale und unimodale Kommandos keineswegs redundant sind. Werden
multimodale Befehlsketten verwendet, so bleiben als Startsequenz erkannte Kommandos
erstmal im Puffer und werden nach Ablauf des Zeitfensters unimodal weitergeleitet. Einziger Nachteil, der sich hieraus ergibt, ist die zeitlich aufgeschobene Verarbeitung, wenn
eine Startsequenz gleichzeitig multimodal oder unimodal sein kann. Durch die konkrete
Formulierung akzeptierbarer Eingangsdaten wird auch deren Redundanz vermieden. Erstens werden beim Ereignismanagement jedem Key mehrere Values zugeordnet. Ein Key
taucht also nur einmal auf, wenn nach einer passenden Aktion für ein Event gesucht wird.
Zweitens enthält keine Komponente des Systems Algorithmen zur semantischen Zerlegung kontinuierlicher Eingabeströme, die einen Abgleich mit zur Verfügung stehendem
Content zur Folge hätte. Die Prozedur folgt also dem einfachen Prinzip von Aktion und
Reaktion. Dies erweist sich allerdings keineswegs als Nachteil, da die Keymap dynamisch
um beliebige Events und CLV erweitert werden kann.
Vermeidung von Redundanz bedeutet normalerweise auch, dass sich die erkannten Kommandos der Eingabeströme weder gegenseitig aufheben, noch gleichen. Sie sollten sich
komplettieren und somit komplexere Aktionen vereinfachen. Dies trifft in diesem System
nur dann zu, wenn multimodale Keytupel separat definiert werden. Andererseits kann das
Event des einen Geräts immer dem eines anderen gleichen, und entspricht somit der Intention, jederzeit alles mit jedem Modus ansteuerbar zu halten. Es muss schließlich immer
unterschieden werden, ob ein Benutzer unimodal oder multimodal interagiert.
148
KAPITEL 6. EVALUATION
Besonderere Ansprüche an eine multimodale Schnittstelle sind nach [Ovi02] Generalisierbarkeit, Robustheit und Skalierbarkeit. In der Interaktionskomponente sprechen dafür die
Unterteilung der Geräte nach Funktionalität wie Eingabe-, Ausgabe- und Lokalisierungsgeräte und die Kapselung spezifischer Geräte mit Hilfe der Steuerinterfaces der Gerätegruppen. Es können beliebige Modi jederzeit hinzugefügt werden. Ihre Verwendbarkeit
ergibt sich dann aus den Konfigurationen der verfügbaren Events und ihrer Integration in
das Event Management. Die Präsentationskomponente stellt mit dem Widgetkonzept die
Plattform für beliebige Reaktionen des Systems. Widgets können rein funktionale und/oder visuelle Aufgaben erfüllen. Ihre Steuerbarkeit wird durch proprietäre Interfaces und
ihre Zustandsautomaten gewährleistet.
Graphical User Interface (GUI) vs Multimodal User Interface (MUI)
Prinzipiell gibt es zwischen GUI und MUI eine klare Abgrenzung. Das Konzept wechselt
von Fenstern, Ikonen, Menüs und Zeigern zu der Verarbeitung paralleler, kontinuierlicher
Eingabedatenströme mit der Präsentation von Multimedia als Ausgabe. Statische Zugriffe auf Steuerelemente sollen durch dynamische Aktionen ersetzt werden. Die Intention
dieser Arbeit war es allerdings, GUI nicht durch MUI gänzlich abzulösen, sondern zu erweitern, insbesondere, weil dem Benutzer eine visuelle Repräsentation der verfügbaren
Steuerelemente zur Verfügung stehen sollte, die er nicht interpretieren muss und die nicht
von ihm verlangt, darüber nachzudenken, wie er interagieren muss. Dies soll aber nicht
implizieren, dass eine MUI diese Aufgabe nicht erfüllen kann. Vielmehr war die Absicht,
dem Benutzer eine „gewohnte“ Plattform zu bieten, wenngleich man nicht davon ausgehen
kann, dass jeder Tourist schon einmal einen Desktop-Computer bedient hat. Das ursprüngliche Interaktionsprinzip von WIMP ist daher auch weggefallen. Die Pointing-Metapher ist
im Dreidimensionalen unpraktisch, Ikonen erfordern Abstraktionsvermögen, herkömmliche Menüs - insbesondere, wenn sie eine tiefe Hierarchiestruktur besitzen - erscheinen
schwer navigierbar ohne Pointing und sich überlagernde Fenster mögen einzeln schwer
ansteuerbar sein. Stattdessen wurde das .NET zugrundeliegende GUI-Framework sozusagen zweckentfremdet, um eine neue Art von Oberfläche zu gestalten. Nichtsdestotrotz
haben die resultierenden visuellen Tools immer noch eine starke Ähnlichkeit zu DesktopApplikationen. Dafür haben sich Ansteuerung und Komplexität geändert.
6.2. BENUTZERTESTS
149
Die Ansteuerung von visuellen Elementen erfolgt demnach entweder indirekt und sequentiell durch das Scrollen oder Tabbing durch Tools und Controls oder unmittelbar durch
Sprachkommandos. Das Tabbing wird weiterhin - wie in GUI üblich - durch Farb- und
Helligkeitsfeedback signalisiert und die Auswahl der jeweiligen darunterliegenden Control muss zusätzlich bestätigt werden, wohingegen Sprachkommandos eine direkte Reaktion auslösen und somit dem MUI-Konzept näher sind. Performanter ist die Sprachkontrolle.
Wie Benutzer aber kommentierten, entspricht diese nicht immer dem unbedingt bevorzugten Modus.
Nicht nur bedingt durch das begrenzte Sichtfeld und bedingte Schärfe und Kontrast musste die Komplexität der Tools auf ein Minimum reduziert werden, bei gleichem Anspruch
an deren Funktionalität. Zwar scheint dies eine Maxime für jede Art von Applikation zu
sein, doch ist in vielen Desktop-Applikationen oft eine hohe Funktionsvielfalt mit vielen Ansteuerungselementen zu finden. Das Design der Schnittstelle hat daher vorgesehen,
die Reichweite der Funktionen eng auf den Anwendungsbereich und die Ansprüche eines Ausstellungsbesuchers zu begrenzen. Weiterhin präsentiert das System nur Elemente,
die in den aktuellen Kontext passen. Die einzigen verbleibenden hierarchischen Strukturen sind die Sitenavigation und die Kommandohilfe. Trotz nur zweier vorhandener Steuerelemente erschien einigen Benutzern die Navigation durch die Thumbnails aber noch
zu komplex. Entscheidend dafür waren unter anderem die Helligkeitsunterschiede aktiver und passiver Elemente und deren Anordnung. Vorschläge zur Umgehung dieser Problematik wurden bereits in Abschnitt 6.1 und in Kapitel 4 präsentiert. Das in Kapitel 4
vorgeschlagene Konzept der Navigationskarte wäre wohl auch für die Einbindung multimodaler Kommandos prädestiniert und könnte die Komplexität noch einmal verringern,
da mehr räumliche Informationen vorhanden sind.
Folglich kann das System nicht einem Konzept - GUI oder MUI - zugeordnet werden,
sondern ist hybrid aufgebaut. Ein Überblick über die konkreten, auf die beiden Konzepte
passenden Eigenschaften der Schnittstelle ist in Tabelle 6.1 gegeben.
150
KAPITEL 6. EVALUATION
GUI
MUI
Kriterium
Einzelner Ereignisdatenstrom
Kontinuierliche, simultane Eingabe von
parallel ankommenden Strömen
Eigenschaften
Unimodale Dateneingabe, optional per
Maus / RC oder Sprache
Multimodale Dateneingabe per Maus /
RC und Sprache
Kriterium
Atomare, eindeutige Ereignisse
Erkennungsbasierte Ereignisse
wahrscheinlichkeitstheoretischen
Methoden
der
Verarbeitung
wechselseitiger Begriffsklärung
mit
und
Eigenschaften
Keymapping einzelner Events
Keymapping mehrerer, unmittelbar aufeinanderfolgender Eventtupel; eindeutig;
Begriffsklärung anhand Keymap; Sprache wird vorab erkannt und anhand eines Vokabulars als atomares Event verarbeitet
Kriterium
Statische singuläre Implementierung
Vernetzte Erkennung und Interpretation
des Kontext
Eigenschaften
Event und Control (∼
=Widget) entkoppelt;
dynamische Erweiterung von und mit
Widgets ohne Anpassung der Events;
Regulierung von Eventströmen mittels
Zustandsautomaten
Statische Erkennung von Eventtupeln;
Interpretation durch Key-Value-Mapping
Kriterium
Farb- und Helligkeitsfeedback
Feedback in Form von Text-To-Speech,
Non-Speech Audio, Graphik und Animation (Multimedia)
Eigenschaften
Zur Signalisierung von Maus / RCAktionen; binäre Unterscheidung in aktive und passive Elemente; Textfeedback
und Audiosignalfeedback
Textfeedback, Audiosignalfeedback und
direkte Reaktion und Informationspräsentation bei Sprachaktionen
Tabelle 6.1: GUI vs. MUI (Kriterien nach Oviatt [Ovi02])
Kapitel 7
Fazit
Benutzerschnittstellen mobiler AR-Schnittstellen haben kein einheitliches Design. Sie sind
abhängig von dem Anwendungszweck des zugrundeliegenden Systems gestaltet. Außerdem orientieren sich die Konzepte oft an Erfahrungswerten und nicht an Styleguides oder
Richtlinien. In Kapitel 3 wurden Rückschlüsse auf die Benutzerfreundlichkeit der unterschiedlichen UI-Typen gezogen und in das Design der MUI des ARGuide einbezogen.
Die Konzepte orientierten sich weniger an den Funktionen, die der mobile Touristenführer
beherrschen soll, sondern mehr an den Ansprüchen eines Besuchers an den Wissensschatz
eines Museums oder einer Kulturstätte. Wenn sich Inhalte ändern, so ist ARGuide fähig,
dieselben Konzepte anzuwenden. Wenn ein Besucher sich mit spezifischen Eingabegeräten nicht wohlfühlt, ist die MUI in der Lage, ihm andere Modi anzubieten. Die Anwendungsfreundlichkeit menschlich-natürlicher Kommunikationsformen spiegelt sich in den
Testergebnissen wieder.
Allerdings konnten die Fähigkeiten und Kenntnisse der Testgruppen als weitgehend einheitlich und fortgeschritten eingestuft werden. Da keine heterogene, zufällig ausgewählte
Besuchergruppe einbezogen wurde, lag die Erwartungshaltung eher auf technisch funktionalen Features als auf Informationsgehalt, wohl beabsichtigt für einen initialen Prototypen. Die Benutzerschnittstelle wurde trotz Inhaltsdefizit als benutzerfreundlich gewertet.
Die Interaktionskonzepte sind intuitiv und natürlich. Funktionen waren einfach zu fin-
151
152
KAPITEL 7. FAZIT
den und auszuführen. Eine Stärke multimodaler Interaktion ist ihre Erweiterbarkeit, etwa
der Sprachwortschatz der Schnittstelle, so wie auch natürliche Kommunikationsmittel erweiterbar sind. Gleiches gilt für die Präsentationskonzepte, die sich als nützlich erwiesen
haben, allerdings noch einen Feinschliff in Layout und Platzierung benötigen. Sichtbehinderungen lenkten zu sehr ab und wirkten sich sehr nachteilig auf den Gesamteindruck der
Schnittstelle aus. Die Tools konnten den Anwender bei der Wahl seiner nächsten Aktionen anleiten. Eine Gewöhnungszeit war allerdings immer notwendig, auch wenn sie stets
kurz war und dies zeigt, dass die Metaphern nicht zu fremdartig waren. Die Abstraktion
von Sprache, Maus und Remote zur Aktion im System muss immer vollzogen werden.
Die Idee, dass sich die Geräte gegenseitig ersetzen und gleichzeitig multimodal eingesetzt
werden können, erhöhte den Freiheitsgrad der Interaktion und war wichtig, um die Akzeptanz unter den Anwendern herzustellen. Redundanz von Eingaben unterschiedlicher
Geräte war somit beabsichtigt. Zweideutigkeiten sind hingegen nicht aufgetaucht.
„Guiding“ bedeutet nicht nur die Unterstützung von Orientierung und Navigation auf dem
Ausstellungsgelände, sondern auch die ständige Beantwortung der Frage, welche Aktionen wie ausführbar sind. Das konstante Feedback war passend und half vor allem, den
Status des Anwenders zu signalisieren. Punktuelle Orientierungshilfen gaben Sitenavigationstool und die merkmalsbezogenen Hot Spots der Overlays. Das System war insofern
nur begrenzt mobil einsetzbar.
Nach Terminologie ist die Schnittstelle multimodal konzipiert und realisiert. Der Einsatz
multimodaler Befehlskombinationen ist momentan noch nicht notwendig. Die Möglichkeit unimodaler Interaktion lässt eine leichte Gewöhnung an die Eingabegeräte zu. Nach
den Eingewöhnungsphasen wurde bevorzugt mit nur einem einzigen Gerät interagiert. Dynamische Gerätewechsel ermöglichen die flexible Anpassung an die Bedürfnisse des Anwenders und die Anforderungen des Systems. Die Auswahl einer Alternative wurde als
angenehm empfunden. Effektiv konnten die passiven Datenströme eingesetzt werden. Die
Daten unterstützten das Feedback, ohne dass es dem Anwender offensichtlich war.
Sprache wurde als Eingabemodus bevorzugt. Dies war aber nicht die Regel, denn auch
Maus oder RC waren gelegentlich die erste Wahl. Durch das begrenzte, dynamisch wach-
153
sende Vokabular und die klare Repräsentation in der GUI war der Kommandowortschatz
einprägsam. Die Wortwahl und Steuerung durch Kommandos war intuitiv. Man merkte, dass Sprache aufgrund ihrer direkten Ausführbarkeit stets zu Informationspräsentationen oder Statusänderungen der UI führte. Mensch-Mensch- und Mensch-MaschineKommunikation sind parallel ausführbar.
Die Konzepte können einen Besucher mit Hilfe einer mobilen AR-Plattform über eine
Ausstellung führen. Es muss darauf geachtet werden, dass die Komponenten exakt aufeinander abgestimmt sind. Irritationen können das Immersionsgefühl reduzieren. So müssen
Interaktionen immer die gewünschten Reaktionen hervorrufen und das Erscheinungsbild
der Tools darf die freie Sicht nicht stören. Für einen intensiveren Einsatz multimodaler Eingaben bzw. menschlich-natürlicher Modi spricht der geringe Lernbedarf. Die Modi sind
quasi schon vorhanden und bekannt, es müssen nur neue Metaphern hinzugefügt werden.
Konzeptanalyse und Benutzertests haben gezeigt, dass die Konzepte die gestellten Ansprüche an die Schnittstelle weitestgehend erfüllen. Wie es für einen initialen Prototypen
üblich sein dürfte, konzentrierte sich die Implementation auf Umsetzung von Funktionalität. Die Stärken der Schnittstelle liegen in ihrer „Generalisierbarkeit“ (Unabhängigkeit von Geräten und Widgets vom Anwendungszweck), ihrer „Robustheit“ (Vokabular,
Zustandsautomaten) und ihrer „Skalierbarkeit“ (Anbindung multipler Geräte, skalierbarer Ereigniswortschatz ohne Ambiguitäten und Redundanzen) und bilden somit die erste
Voraussetzung für eine allgemeingültige UI mit beliebigen Interaktionsmetaphern.
154
KAPITEL 7. FAZIT
Kapitel 8
Ausblick
Der vorliegende Prototyp hat gezeigt, wie sich Tracking und Rendering des ARBrowser
und Content-, Site- und Medienmanagement von intCulture bzw. ARGuide nutzen lassen,
um einem Besucher detaillierte augmentierte Informationen zu einem Ausstellungsstück
zu geben und ihn in seiner Interaktion zu unterstützen. Die Entwicklung steht hier aber
noch am Anfang und kann in vielen Richtungen expandiert werden. Zum Teil sind weiterführende Ideen und Konzepte abhängig von den zukünftigen Entwicklungen des ARBrowser und intCulture.
8.1
Interaktion
Die multimodalen Fähigkeiten der Schnittstelle konnten bisher nicht ausgeschöpft werden.
Unimodale Interaktion hat den Anforderungen am besten entsprochen. Ob dieses Konzept
auch aufgeht, kann deshalb nur in zukünftigen Tests herausgefunden werden, wenn neue
Funktionen dies erfordern. In Zukunft sollten auch abstrakte Geräte wie Maus und Remote Control durch andere menschlich-natürliche Kommunikationsmodi abgelöst werden. Es
bleibt aber immer eine Frage der Notwendigkeit und der Akzeptanz unter den Besuchern.
Die Interaktionen des Besuchers beschränken sich momentan auf die Navigation durch
Tools, Steuerelemente und die Hot Spots eines Exponats sowie den Abruf weiterführen155
156
KAPITEL 8. AUSBLICK
der Informationen. Steigt die Komplexität der Information, wie etwa dreh- und skalierbare
dreidimensionale Abbilder eines Exponats in einem Showcase oder begehbare Modelle,
steigt auch der Anspruch an die Interaktion. Es werden mehr manipulative Funktionen
benötigt. Diese wiederum eignen sich ideal für multimodale Steuerung. Entsprechende
Metaphern hätten etwa die Form Scale < distance >, mit < distance > als mit zwei
Fingern gestengedeutetem Abstand. Für fortgeschrittenere interaktiv augmentierte Modelle lässt sich das Hot-Spot-Konzept erweitern. Auch die Navigation durch die Exponate
der Site kann konkreter und dynamischer gestaltet werden. Vorzustellen ist sich hier etwa
im Sinne von Bolt [Bol80] eine Metapher in der Form Show items < there >, wobei
die Richtung < there > durch eine Geste gedeutet werden kann. Der Befehl würde die
Exponate in der gewünschten Richtung auflisten.
Die Trägheitssensoren der Remote Control lassen sich zur Simulation zweidimensionaler Gesten verwenden. Die Abschaltautomatik erlaubt das gezielte Ziehen von Linienzügen im Sichtfeld. Die Gesten sollten auf dem Bildschirm zur Verfolgung und Verifikation
durch den Anwender nachgezeichnet werden.
Der Prototyp wurde auf Interaktionen für ein einziges Exponat beschränkt. Die Tests verliefen stationär. Bei Geh- und Laufbewegungen dürfte die Bedienung von Handgeräten
schwer fallen. Entweder sie müssen dann vorübergehend am Körper untergebracht werden,
was die Interaktion behindert, oder - wie schon erwähnt - sie werden durch natürliche ersetzt, oder Eingabemodalitäten werden am Ausgabegerät integriert. Als erster Schritt sollten die Knöpfe der Binoculars angebunden werden. Schwere Video-See-Through-HMD
sollten nicht in Frage kommen.
8.2
Präsentation
Ein äußerst auffälliges und teilweise störendes Manko des Prototypen ist das visuelle Erscheinungsbild. Die Tools verdecken die Sicht stets mit ihrer kompletten Größe. Eine wesentliche Verbesserung dürfte sich einstellen, wenn die gruppierenden Elemente transparent und die Steuerelemente halbtransparent werden. Ein starker Kontrast zum Videobild
8.3. APPLIKATION
157
muss allerdings erhalten bleiben, besonders in Außenbereichen mit starker Sonneneinstrahlung. Wenn Transparenz nicht durch Weiterführung der bisher versuchten Ansätze
hergestellt werden kann, könnte versucht werden, mit OpenGL geschriebenen Code in
den ARBrowser zu integrieren oder eigenständig über dem Videobild zu rendern.
Kontextsensitive Menüs werden bisher direkt per Bildbearbeitung in das Overlay integriert. Das System erkennt dessen Relevanz nur durch Verzeichnisstruktur und Dateiname.
Dynamischer wären in VRML definierte Modelle, deren Hot Spots manipulierbar sind und
mit den vorgeschlagenen „Flying Menus“ markiert werden (z.B. eine Tür, die sich öffnen
lässt). Die Integration bedingt aber eine Erweiterung des ARBrowser um Import, Tracking
und Rendering von VRML-Modellen. Ebenso müssen Ereignisse der Schnittstelle weitergeleitet werden können, um den Szenegraphen zu manipulieren.
Ebenso könnten die systemsteuernden Menüs durch den ARBrowser dargestellt werden.
Sie müssen zwar nicht getrackt werden, allerdings könnte der AVALON-Renderer sie an
Bildschirmkoordinaten fixiert rendern. Dies dürfte auch zur Lösung der Transparenzprobleme beitragen. Weiterhin könnte der Besucher durch am Boden augmentierte, getrackte
Navigationspfeile die Wege von Exponat zu Exponat erklärt bekommen.
Schließlich müssen die Komponenten von intCulture noch vollständig integriert werden.
Darüber hinaus werden für die mobile Nutzung noch die Orientierungs- und Navigationsfunktionen benötigt, die entsprechend an den ARGuide anzupassen sind.
8.3
Applikation
Die Feedback-Funktionen haben sich als sehr hilfreich erwiesen und sollten erweitert werden. Vor allem sollte es strukturiert sein und nicht direkt im Programmcode untergebracht
werden. Eine Ausgliederung in ein externes Format in der Art wie VoiceXML1 könnte
einen Dialog zwischen Mensch und Maschine definieren. Aktionen des Benutzers (bereits
interpretiert in Widgetkommandos) resultieren in Feedback mit Angabe von Format, Inhalt
1
Informationen zum Standard unter http://www.voicexml.org/ und http://www.w3.org/TR/voicexml20/
158
KAPITEL 8. AUSBLICK
und darstellendem Widget. Es folgt ein kurzes Mockup zu dieser Idee.
<FeedbackDialogue>
< D ia l o gu e It e m >
<Human A c t i o n = " Play media " / >
<Machine Response= " You see a media f i l e o f X . " >
< !−− X i s p a r s e d and r e p l a c e d w i t h a p p r o p r i a t e s i t e i t e m i d . −−>
< \ D ia l o gu e It e m >
< \ FeedbackDialogue>
Daneben sollte jedes Tool selbst immer Highlightfeedback liefern. Statt des Kontrasts zwischen aktivem und passiven Tools könnte ein Rahmen den Zustand symbolisieren.
Das auftretende Feedback könnte weiterhin analysiert werden, um die Schnittstelle dynamisch an die Bedürfnisse des Anwenders anzupassen. Selten genutzte Tools könnten automatisch versteckt werden. Das System könnte bei Registrierung von Interaktionsschwierigkeiten ein anderes Layout vorschlagen. Es ist auch an eine verbesserte Handhabung der
Tools zu denken wie dynamisches Verstecken und Hervorbringen einzelner Tools. Es ist
aber darauf zu achten, dass die bestätigten Hypothesen nicht verletzt werden.
Automatisiertes Feedback könnte sich auch in einem verbesserten, dynamischeren Hilfesystem widerspiegeln. Statt aktivem Aufruf statischer Hilfen sollten kontextsensitive Hilfen dynamisch und konstant präsent sein und bei Bedarf abgeschaltet werden können. Bei
Fokussierung von Steuerelementen zeigt ein aufblendendes Label etwa die dahintersteckende Funktion. Oder bei Fokussierung von Tools werden die dort zur Verfügung stehenden Sprachbefehle in einem Label angezeigt.
Alle natürlichen Eingabemodi, die in zukünftigen Prototypen angebunden werden, können passive Datenströme liefern, die für biometrisches Feedback ausgenutzt werden sollten (z.B. Körperbewegungen oder Lidschläge beim Eyetracking).
8.4. ALLGEMEIN
8.4
159
Allgemein
Die Einordnung von Designentscheidungen und Testergebnissen in softwareergonomische
Grundsätze sollte auf weitere Normen ausgedehnt werden. Auch wenn sie eigentlich nur
auf die Arbeit mit stationären Desktopsystemen ausgerichtet sind, so können sie doch
eine Idee benutzerfreundlichen Designs vermitteln und die Entwicklung natürlicher ARInteraktion unterstützen.
Ebenso ist der Testparcour in ein reales Ausstellungsgelände zu verlagern. Wenn heterogene Testgruppen mit unterschiedlichen Präferenzen, Vorkenntnissen und Erwartungshaltungen evaluiert werden, haben die Ergebnisse eine weitreichendere Bedeutung.
Es ist auch in Zukunft die Frage zu beantworten, ob Kleingeräte wie PDA und Mobiltelefone multimodale Funktionalitäten integrieren können und sollten. Denn eigentlich verfügen sie schon über typische und vor allem gewohnte Eingabemodi. Die Akzeptanz für
die Technik wird jedenfalls nur dann wachsen - so die Vermutung -, je komfortabler und
miniaturisierter die Hardware und je intuitiver und natürlicher die Bedienung werden.
160
KAPITEL 8. AUSBLICK
Anhang A
Zum Inhalt des Anhangs
Die Inhalte des Anhangs sind zum größten Teil in Englisch gehalten, da die Arbeit während der gesamten Zeit vom Team des Abteilung Content Delivery Systems in Intracom
unterstützt auf Englisch und die Ergebnisse in regelmäßigen Abständen diskutiert und präsentiert wurden. Ebenso dienen die Diagramme und Beschreibungen der einfachen Wartung und Erweiterung der Schnittstelle im Anschluss an diese Arbeit. Desweiteren sind
die Schnittstelle sowie die Inhalte selbst auch in Englisch gehalten.
161
162
ANHANG A. ZUM INHALT DES ANHANGS
Anhang B
Eingabegeräte
Device
Technical Description
Advantages
Disadvantages
Cloth
gloves
with
electrical
sensors
in
each
fingertip,
contact
between
any two or more
digits
completes
a
conductive
path,
sample source code
is available for either
SGI or PC platforms.
No
calibration,
low-cost
method
of
recognizing
natural
gestures,
tracking
available
(Polhemus and Ascension).
Gestures are limited to
the use of finger tips,
too
much
functionality for a tourist,
wearing
gloves
in
summer
might
be
uncomfortable,
bulky
receiver,
high
costs,
tracking not included.
Measures finger flexure (1 sensor per
finger) and the orientation (pitch and roll)
of the user’s hand,
USB adapter available.
Wireless version and
more sensors available,
mouse emulation mode.
Extra
model
for
each left and righthanded
people,
mouse emulation mode
only in wired version,
uncomfortable
as
the
pinch
gloves,
expensive,
tracking not included.
163
164
ANHANG B. EINGABEGERÄTE
Device
Technical Description
Advantages
Disadvantages
22 high-accuracy jointangle measurements,
18-sensor model features two bend sensors
on each finger, four
abduction
sensors,
plus sensors measuring thumb crossover,
palm arch, wrist flexion
and wrist abduction,
18-sensor CyberGlove
includes open fingertips, which allow the
user to type, write and
grasp objects while
wearing the glove.
Tracking available (Polhemus and Ascension),
feedback features like a
LED on the glove.
Tracking not included,
same
disadvantages
as the other gloves,
too
much
functionality for a tourist,
not affordable.
Mouse-mode
compatible,
6 degrees of tracking
(X, Y, Z, Yaw, Pitch
and Roll) to ensure
realistic
movement,
USB
port,
infrared control receptor
with scratch-resistant,
anti-reflective lens.
Low-cost-device,
SDK
available,
easy
handling
by
triggering and pointing to the screen,
wireless.
Infrared
sensor
needs line of sight,
is too big and receives signals from
the wrong direction,
would be a perfect
device if wired or
Bluetooth
version
would be available,
might be too uncomfortable because of plastic
elements (to be tested).
165
Device
Technical Description
Advantages
Disadvantages
11 programmable buttons, trackable with receivers.
Built-in tracking sensor, but no receivers,
familiar looking button
interface like remote controls have got,
programmable.
11 buttons might be
too much for tourists,
extra
tracking
devices
needed,
not
hands-free,
not wireless.
3
programmable, tactile buttons,
„Hula-Point“-Navigation
by Joystick button.
Light-weight,
less
buttons,
tracker mounts.
Not wireless, extra protocol must be written,
can be connected to
CAVELib and Trackd
compatible applications,
not hands-free.
Steering cross, 10 programmable
buttons,
analog
sticks,
software bundle.
Light-weight,
less
buttons,
tracker mounts.
Cordless,
force
feedback,
customizable through
standard drivers.
Optical/nonwearing
measuring
system,
8
illuminated
programmable
buttons,
durable
stainless
steel
construction,
stationary,
movements by sliding,
pulling, tilting the cap,
6 DOF.
Set
with
Logitech
mouse,
small,
easy
interface,
supports
turn-andclick
metaphor,
hands-free
if
attached to output device or
body.
Too
expensive
for
too
less
functions,
maybe
too
much
buttons,
not
a
lightweight,
not
very
natural,
not yet known if device has to be moved like a mouse or
just in turnarounds,
not known if there is an
API.
166
ANHANG B. EINGABEGERÄTE
Device
Technical Description
Advantages
Disadvantages
Bluetooth,
switch to optical mouse,
two buttons, scrolling
design.
Hardware
ergonomic
because lying in hand,
most known metaphor,
customizable,
„wearable
mouse“,
tactile
feedback,
wireless,
direct
usability,
no
training
phase
needed.
Not
trackable,
too
expensive
for
too
less
functions,
no hands-free.
USB
interface,
gesture
detection
software,
pad
can
behave like a mouse,
standard mouse and
keyboard behaviours,
gesture editor.
Natural
interaction,
programmable,
light-weight,
gesture
detection
software.
Touchpad is too large
(0.31 x 7.1 x 5.5 inches),
gestures
might
be too difficult to
learn in short time,
cant be easily attached
to body.
Four
mechanical
buttons;
three
programmable functions,
No contact pressure
required;
sensitivity
adjustable with driver,
USB and PS/2.
Good
price,
small (4 in. long x 4.4 in.
wide x 0.375 in. deep),
behaves like a mouse,
tap
zones,
tapping on pad can
emulate left and right
clicks.
Gesture
recognition
difficult,
libraries available in
different languages but
untested (e.g. StrokeIt),
advanced
gestures
might be difficult for the
user to learn.
167
Device
Technical Description
Advantages
Disadvantages
USB dual RF receiver,
gyroscopic
motion sensor for use
off
the
desktop,
extra
long
30-foot
RF range, no lineof-sight
limitations,
ultra precise optical sensor for use on the desk,
no mouse pad required,
long-life
rechargeable
NiMH
battery with convenient,
desktop
charging
cradle,
GyroTools
PC
Media Control Software
for Windows, which
includes 60 General,
Internet, Media, Input
and Windows tools,
clickable scroll wheel.
Point-andClick-Metaphor,
device
is
tracked,
customizable software,
wireless,
recently priced.
To be evaluated.
Cheap,
totally
small,
2-Button functionality,
handy,
body-attachable.
Not
wireless,
for further interaction methods maybe not
suitable.
168
ANHANG B. EINGABEGERÄTE
Device
Synaptics Touchpad attached on wrist
Technical Description
Advantages
Disadvantages
100-ft RF range with no
line-of-sight limitations,
solid-state
motion
sensor,
receiver connects to
computer via USB port,
advanced
techniques
using subtle movements.
Gestures,
Pointing,
customizable,
high
functionality,
wireless,
tactile feedback.
To be evaluated.
Using Synaptics technology.
Body-attached,
hands-free,
usability like a watch,
natural input method,
easy gestures like left
striping / right striping,
tap zones.
Advanced
gestures
not easy to learn,
gesture
recognition
library necessary, too
costly.
Anhang C
Anwendungsdiagramme
Blaue Anwendungsfälle sind aus den Anwendungsfalldiagrammen des Projekts Archeoguide [VIK+ 02] entnommen.
169
170
C.1
ANHANG C. ANWENDUNGSDIAGRAMME
Generelle Benutzerinteraktionen
Abbildung C.1: Benutzerbedürfnisse
C.1. GENERELLE BENUTZERINTERAKTIONEN
Abbildung C.2: Benutzerhandlungen
171
172
C.2
ANHANG C. ANWENDUNGSDIAGRAMME
Unterteilung der Museumssite
Jede Museumsanlage ist hierarchisch aufgebaut und besteht aus verschiedenen „Area of
Interest“ (AOI), die sich nicht überlappen sollten. Jedes AOI besteht wiederum aus verschiedenen „Point of Interest“ (POI). Der POI kann entweder ein Hot Spot eines augmentierten Objektes, das augmentierte Objekt selbst oder ein beliebiger Interessenspunkt
innerhalb der Site sein. Ein AOI kann auch ein POI sein, ein POI aber niemals ein AOI.
Abbildung C.3: Area of Interest (AOI)
C.2. UNTERTEILUNG DER MUSEUMSSITE
Abbildung C.4: Point of Interest (POI)
173
174
C.3
ANHANG C. ANWENDUNGSDIAGRAMME
Benutzerbedürfnisse im Detail
Abbildung C.5: Erkunden
C.3. BENUTZERBEDÜRFNISSE IM DETAIL
Abbildung C.6: Nachfragen nach Informationen
175
176
ANHANG C. ANWENDUNGSDIAGRAMME
Abbildung C.7: Dokumentieren und Erinnern
C.3. BENUTZERBEDÜRFNISSE IM DETAIL
Abbildung C.8: Empfehlen und Führen lassen
177
178
ANHANG C. ANWENDUNGSDIAGRAMME
Abbildung C.9: Erklären lassen
C.3. BENUTZERBEDÜRFNISSE IM DETAIL
Abbildung C.10: Nachforschen
179
180
ANHANG C. ANWENDUNGSDIAGRAMME
Abbildung C.11: Kontrollieren
Anhang D
Anwendungsszenarios
D.1
Kind
A Greek family visits the ancient hill of Athens’ Acropolis. A museum’s assistant offers
the familiy’s child to explore the site by solving some playful quests together with other
children on the site. The child is equipped with a head-mounted display, a backpack with
laptop equipment, a headset and a minimized mouse with two buttons. After the HMD is
calibrated to its head and the system is initialized with the child’s profile an animated avatar icon appears and tells about the main story of this ancient place. Afterwards, it invites
the child to reveal the secrets the Greek tribe has left centuries ago. A background story is
told and an image of the secret is shown like it looked in ancient times. A first abstract hint
is given by the avatar to find the secret. Exploring the area the avatar informs the child how
close it is to the secret. The child’s position indicating point on the miniature map blinks
and pulses faster the closer it gets. Unfortunately, the Acropolis site is very huge, so it
lasts long to explore. Therefore, the child receives a second hint after a mouse click telling
more details about the secret. In the next hint a navigation arrow appears in the display
showing the direction the child has to go. Additionally, instructions and explanations are
played in audio cues and displayed in the status bar. The navigation help disappears as the
child reaches the bounding area of the point of interest with the secret. Finally, it founds
the secret which is signalized by an appearing treasure image and a surprising earcon. The
181
182
ANHANG D. ANWENDUNGSSZENARIOS
avatar tells the child that it has collected some points calculated by the needed time and
the number of hints. Now, some additional information about the secret can be accessed.
After the child finishes its quest its points are compared to the other childs which explored the area at the same time and it receives a printout of all found secrets that can be
shown to the other childs around.
D.2
Hörgeschädigter Erwachsener
Chris comes from Germany and would like to explore Delphi’s ancient amphitheatre. Unfortunately, he is deaf since his birth and not able to listen to the usual guides. Therefore,
a museum’s assistant offers him to be guided by an augmented reality system consisting
of a head-mounted display, an ear-enclosing headset, laptop equipment in a backpack and
a wireless mouse device with force feedback. After every device has been applied to his
body properly, he enters the site.
The system introduces him to the site by an automatic scrolling text description on the
bottom of the screen. Navigational information is not provided at the moment since Chris
should have a full view of the environment. In order to get an orientation on the site he
interrupts the guide’s explanation by a simple noise into the microphone. A small status
panel indicates the quality of the recognition resp. the loudness of Chris’ voice. The text
panel flashes, disappears and is exchanged by a status message. Shortly after, a menubar
with a few entries appears at the bottom indicated by a keyword and an icon. By pressing and holding a mouse button he cycles through these entries and releases as the entry
„Navigation“ is highlighted. After another mouse click a minimized map and a menu of
suggested points of interest in the near environment appear at the bottom.
After selecting a point of interest and guided to the area the navigation menu disappears
and a menu with selectable media like scrolling text, video with subtitles and animations
is displayed at the bottom. His choice of scrolling text opens the same text panel as for the
mentioned introduction.
D.3. UNTERSCHIEDE VON AOI UND POI AM BEISPIEL EINES ERWACHSENEN183
After Chris has finished reading he proceeds towards another area. As he reaches its zone
the mouse vibrates and the procedure is repeating.
D.3
Unterschiede von AOI und POI am Beispiel eines Erwachsenen
Kostas is equipped with the museum’s electronic guidance system and enters the area of
the Temple of Hera. A female voice introduces him to the main background story and
history of the area (Information need 1: Where am I?). After the voice cue has finished a
menu appears at the bottom containing the hint „You can see here“ followed by the area’s
name, a thumbnail list and their keyword descriptions (Information need 2: What can I see
here?). Choosing the item „Temple of Hera“ the female voice returns and tells Kostas the
details about the temple’s history. As he is standing in front of the temple itself after being
led by augmented navigation pointers and has got a fully immersive view on the exhibit
the image is augmented with an overlay of the ancient intact temple. At its corners the
image is applied with miniature icons which offer Kostas the temple view to be manipulated. An explanation of the icons is provided at the sidebar of the screen. The scroll wheel
of the mouse is now used to cycle through the icons (Note: for each cycle state a new
overlay is needed). A „Select“ on the icon standing for „Unhide“ resp. „Go into“ causes
the augmented image to animate and reveal an interior view of the temple with transparent
front and side walls (cut-away). Kostas cycles to the icon for the interaction „Timetravel“.
Selection causes a tracked animation of several appearances of the building during its era
(Information need 3: What can I do here?).
Notice that everytime icon handlers are shown explaining help sidebars are displayed unless they are hidden by one of Kostas commands. During the hiding only one icon is visible
in the bottom-right corner of the screen explaining the command needed to unhide the GUI
items.
184
ANHANG D. ANWENDUNGSSZENARIOS
Nevertheless, Kostas wants much more detailed information about the temple. Therefore, he asks for details by speaking the suggested keyword „Details“ into the microphone
on his headset. Additionally to the speech a textbox is displayed scrolling the text of the
speech and highlighting keywords. Meanwhile, an overlay animation is augmented on the
screen highlighting the positions of the exhibits appearing in the text. Next to the highlighted areas labels with keywords appear. At the end of the speech a final overlay is shown
containing all the highlights and their corresponding keywords. A status bar at the bottom
instructed Kostas with the possible interaction „Details on Area’s exhibits by choosing
keyword on list“ he picks the entry „Statue of Zeus“ by voice. Otherwise he could have
switched between textbox and labels by a mouse button and scrolled through by the mouse
wheel. The other button would have choosen the highlighted entry.
A menu appears with several interaction methods. After the selection of „Media“ a media
player pops up playing some suggested media files including animations of the statue. As
it finishes the menu is still there. Additionally, the entry „3D Model“ leds to another popup
which shows an manipulative 3D model of the statue to be rotated and scaled.
Anhang E
Mockups
Jedes Anwenderszenario wurde anhand von Mockups nachgestellt. Die folgenden Beispielabbildungen zeigen, wie die Ideen umgesetzt werden sollten. Es wurde dabei mehr
auf die konzeptuelle Bedeutung geachtet als auf visuelle Attraktivität geachtet.
Abbildung E.1: Fokussierter POI eines AOI
185
186
ANHANG E. MOCKUPS
Abbildung E.2: Selektierter POI eines AOI
Abbildung E.3: Showcase mit 3D Modell
Abbildung E.4: Kompass zur Navigation zu einem AOI oder POI
Anhang F
Sequenzdiagramme
Am Beispiel der nach den Erfahrungen in den Projekten intCulture und Archeoguide am
meisten gestellten Fragen von Besuchern auf einer Ausstellung zeigen die folgenden Sequenzdiagramme, wie die Systemkomponenten interagieren. Die unten aufgeführten Sequenzdiagramme sind partiell in dem hier beschriebenen System implementiert worden.
Abbildung F.1: Frage „Wo bin ich?“
187
188
ANHANG F. SEQUENZDIAGRAMME
Abbildung F.2: Frage „Was kann ich hier sehen?“
189
Abbildung F.3: Frage „Was ist in der Nähe?“
190
ANHANG F. SEQUENZDIAGRAMME
Anhang G
Fragebogen
Jeder Hypothese wurden versucht, Fragen für den Benutzertest zuzuordnen. Einige Thesen konnten allerdings schon durch die Implementation selbst oder die Konzeptanalyse
beantwortet werden. Wiederum andere konnten aufgrund fehlender Interaktionsmöglichkeiten oder Content nicht beantwortet werden. Diese Thesen und Fragen sind aufgeführt,
allerdings ohne statistische Ergebnisse. Kommentare der Benutzer sind in die Bewertung
bereits mit eingeflossen.
G.1
Aufgabenangemessenheit
Hypotheses & Questions
Yes
No
Both
Did the visible elements occlude your view?
5
9
0
Have you been easily able to hide the visible elements ?
12
2
0
Transparenz oder Unsichtbarkeit von Steuerelementen
erleichtern die Sicht, wenn jene nicht in Gebrauch sind.
Das visuelle Design und die Anordnung der Elemente
des graphischen Teils der Schnittstelle behindern nicht die Sicht
auf die Ausstellungsstücke.
Nur für die aktuelle Benutzeraufgabe bestimmte Steuerelemente
sind sichtbar.
191
192
ANHANG G. FRAGEBOGEN
Hypotheses & Questions
Yes
No
Both
Were the visible elements useful to interact with the system?
12
0
2
Were any elements unnnecessary in your opinion? If yes, which
ones?
4
8
2
Was it easy to get used to the speech input?
13
0
0
Was it easy to get used to the mouse input?
8
4
2
Did you need to remember how to use the input devices while
using the system?
9
3
2
Did you receive any information you were interested in?
10
3
1
Has the system presented information you have not been interested in?
1
11
2
In which information would you be interested using such a system?
-
-
-
Yes
No
Both
Multimodale Interaktion, insbesondere mit „natürlichen“ Eingabemethoden, benötigt wenig Gewöhnung an die Eingabegeräte
und der Benutzer kann sich auf seine Aufgabe konzentrieren.
Durch eingesetzte Kombination von Ein- und Ausgabegeräten konzentriert sich der Fokus des Benutzers
auf die Information anstatt auf deren Handhabung.
Die Kombination von natürlichen, erkennungsbasierten
Eingabemodi und nicht auf Mixed Reality spezialisierten Modi
verringert die Komplexität der Interaktion bei gleichzeitiger
Erhöhung der Freiheitsgrade.
Keine
det,
um
Eingabemethode
eine
andere
wird
zu
verwenaktivieren.
Weder wird der Zugang zu Informationen unnötig blockiert, noch wird zuviel an Information präsentiert.
Der Freiheitsgrad der Interaktionen ist zur Handhabung
der Schnittstelle ausreichend.
G.2
Selbstbeschreibungsfähigkeit
Hypotheses & Questions
Kurze Kommandos und Kommandophrasen sind einprägsam.
193
G.3. STEUERBARKEIT
G.3
Hypotheses & Questions
Yes
No
Both
Do you still remember the speech commands? Which ones?
13
0
0
Did you need to remember the functionality of the speech commands? (Negotiation: Have they been intuitive?)
1
12
0
Are the visible representations of commands sufficient for remembering?
13
0
1
Do you need more help on the commands?
6
7
1
Yes
No
Both
Did you need to think about how to receive information?
5
8
1
Did you need to think about which visible elements to access to
receive information?
2
12
0
Did you need to think about how to use the input devices to receive information?
6
8
0
Have you been confused by the arrangment of the visible elements?
7
6
1
Did you need to search for a visible tool to receive information?
4
10
0
Were you able to communicate with other persons while using
the system?
11
2
1
Did the system behave incorrectly when you were talking to
others?
4
8
0
Did you recognize that you can switch on and off the microphone?
13
0
1
4
10
0
Steuerbarkeit
Hypotheses & Questions
Durch konsistente Navigation in der Benutzerschnittstelle gelangt
der Benutzer zu jeder vorhandenen Information.
Durch Positionierung aller „notwendigen Informationen für eine
gegebene Aufgabe in einer einzigen Ansicht“ kann der Benutzer
die Schnittstelle in einem einzigen Arbeitsschritt manipulieren.
Die Verwendung von Sprache als Eingabemodalität schadet nicht
der Kommunikation mit Unbeteiligten in der Umgebung.
Ein eingeschränktes Vokabular hilft, sich an notwendige Kommandos gut zu erinnern und sie schnell auszuführen.
Did you try commands not recognized by the system?
194
ANHANG G. FRAGEBOGEN
Hypotheses & Questions
Yes
No
Both
Have there been too many commands to remember?
1
13
0
Durch die Kombination von Sprache und alternativem Eingabegerät lassen sich komplexe Interaktionsaufgaben durchführen.
-
-
-
Were the input devices appropriate for the interaction?
12
1
1
Did you miss a function on the device to interact with the system?
4
9
0
13
0
1
Yes
No
Both
11
2
1
Yes
No
Both
Has the system annoyed you by feedback messages?
0
12
2
Were the feedback messages helpful?
13
1
0
Were the messages helpful for your orientation?
8
5
0
Were the messages helpful for your navigation?
8
5
0
Were the messages helpful for knowing your status?
13
1
0
Nicht nur die Eingabegeräte, sondern auch die Interaktionsmetaphern der Benutzerschnittstelle bestimmen die Qualität ihrer
Funktionalität. Die Eingabegeräte entsprechen den Anforderungen der Schnittstelle.
Die Schnittstelle ist zu jeder Zeit verfügbar.
Was the interface available anytime you needed it?
G.4
Erwartungskonformität
Hypotheses & Questions
Der Dialog ist konsistent und der Erwartungshaltung eines Besuchers einer bestimmten Stätte oder eines Museums entsprechend gestaltet.
Did the system satisfiy your expectations according to the introduction by the museum staff / researcher?
G.5
Fehlertoleranz
Hypotheses & Questions
Vorschläge zur Lösung einer Aufgabe sind hilfreicher als die Korrektur von Eingaben.
195
G.6. INDIVIDUALISIERBARKEIT
G.6
Hypotheses & Questions
Yes
No
Both
Could the system help you to find information?
10
2
2
Yes
No
Both
Which input device did you prefer?
2
Mouse
2
Remote
10
Voice
Have you considered to use both devices?
11
3
0
Did you need both devices?
8
6
0
Would you be interested in rearrangement of the visible elements
to your preferences?
9
5
0
Would you like the system to arrange the elements for you?
13
1
0
Were the visible elements properly arranged?
10
3
1
Were the visible elements disturbung you in any way?
8
5
1
Did you feel to put any visible element elsewhere to have a free
view?
9
5
0
Individualisierbarkeit
Hypotheses & Questions
Eine multimodale Schnittstelle fördert die Verwendung
von alternativen Ansteuerungen für ein und dieselbe Aktion.
Multimodale Interaktion bedeutet nicht notwendigerweise,
dass der Benutzer zwei oder mehrerere Eingabemodi gleichzeitig zur Ausführung einer Interaktion benutzen wird, obwohl
die Möglichkeit stets zur Verfügung steht. Vielmehr mag sich ein
Besucher nach einer Weile für einen Modus entscheiden, oder
zumindest neigt er zu der Verwendung eines bestimmten Eingabegerätes. Dennoch tendieren Benutzer eher zu multimodaler
als unimodaler Interaktion.
Freie Individualisierbarkeit ist für den Benutzer eines Touristenführers nicht relevant.
Die Positionierung der visuellen Elemente in einer einzigen Perspektive ist geeignet zur Ansteuerung der Schnittstelle. Frei positionierbare Elemente sind nicht notwendig.
196
G.7
ANHANG G. FRAGEBOGEN
Lernförderlichkeit
Hypotheses & Questions
Yes
No
Both
Was the highlighting of speech commands useful?
13
1
0
Did you have to recognize the highlight later on to realize that it
is a speech command?
5
9
0
Nicht nur das Dialogsystem, sondern auch die bereitgestellten
Informationen lassen sich leicht erlernen.
-
-
-
Yes
No
Both
Were the different color schemes useful to separate the functinality of the visible elements?
9
2
3
Were the audio cues useful to signalize your interaction?
11
2
0
Was the text feedback useful to support you?
14
0
0
11
2
1
3
10
1
Die Verknüpfung von sichtbarem Steuerelement und Sprachkommando ist sinnvoll, um den Dialog zu erlernen.
G.8
Benutzerführung
Hypotheses & Questions
Die Signalisierung von Interaktionen durch „Audio Cues“, Text
und farblich hervorgehobene Steuerelemente unterstützt die Erwartungshaltung an die Schnittstelle und die erfolgreiche Navigation zur gesuchten Information.
Kontinuierliches, unmittelbares und auf den Kontext zugeschnittenes Feedback ist nicht störend, sondern unterstützt die Handhabung der Benutzerschnittstelle auf dem Weg zur gesuchten Information.
Was the feedback appropriate to your actions or did it annoy you
by presenting unrequested information?
Das Verhältnis von „Fokus“ und „Kontext“ ist ausgeglichen. Die
Aufnahme momentan fokussierter Information wird nicht durch
die umgebene kontextuelle Information beeinträchtigt.
When interacting with a visible tool were you distracted by other
tools or the view on the environment?
197
G.9. MULTIMODALE INTERAKTION
Hypotheses & Questions
Yes
No
Both
11
3
0
Hypotheses & Questions
Yes
No
Both
Mittels kurzen Kommandos und Phrasen anstatt eines Dialogs
kann Sprache für mehrere Zwecke als für temporale oder nichträumliche Information angewandt werden.
-
-
-
5
6
3
Did you realize that your voice temperament was analyzed?
4
10
0
Did you realize that your hand movements have been analyzed?
-
-
-
Did you realize that the guide was reacting to this behaviour?
9
5
0
8
6
0
10
4
0
4
10
0
Durch die Aufteilung der sichtbaren Elemente der Schnittstelle in
„world-stabilized and screen-stabilized items“ lassen sich objektbezogene und kontextbezogene Informationen eindeutig unterscheiden.
Were the controls for an interaction at a proper position or did you
need to switch your focus for their related action result?
G.9
Multimodale Interaktion
Die Multimodalität verstärkt das Immersionsgefühl.
Did you feel immersive? Or, did you feel somehow artifical with
the system?
„Blended multimodal interfaces“ unterstützen permanentes
Feedback durch den Guide.
Nicht unbedingt jedes Kommando wird weiterverarbeitet.
Did you expected used commands to be recognized which have
not been recognized?
Aufgrund des „blended multimodal interface“ werden Benutzer
nicht äußern, dass sie multimodal interagieren, auch wenn passive Eingabedaten nicht unmittelbar mit aktiven verarbeitet werden.
Do you think you interacted multimodal which means that you
took more than one device for interaction?
Die bereitgestellten aktiven Eingabemodi werden nicht simultan
verwendet. Darüber hinaus müssen sie nicht simultan betätigt
werden, um korrekt verarbeitet werden zu können.
Did you use the input devices simultaneously?
198
ANHANG G. FRAGEBOGEN
Hypotheses & Questions
Yes
No
Both
Were the speech commands and mouse commands ambiguous?
1
13
0
Bei korrekter multimodaler Verarbeitung werden Benutzer weniger Sprachkommandos verwenden, dafür aber zusammen mit
dem zweiten aktiven Eingabemodus.
-
-
-
8
6
0
Which device did you prefer?
s.a.
s.a
s.a.
Die multimodale Verflechtung von Eingabedatenströmen ersetzt
keineswegs deren unimodale Verwendung. Die Inhalte sind nicht
redundant.
-
-
-
13
0
0
Do you think the interface can be considered as „user-friendly“?
12
0
2
Were you satisfied with the interface? If not, what are you missing?
10
3
1
Was the interaction intuitive?
12
1
1
Multimodale Befehle dienen am meisten der Manipulation, insbesondere der von augmentierten Objekten.
-
-
-
Die Maussteuerung kann die Sprachsteuerung ersetzen.
-
-
-
Kurze Eingabekommandos erhöhen die Performanz linguistischer Verarbeitung und verringern die kognitive Belastung des
Benutzers.
s.a.
s.a.
s.a.
Die Schnittstelle ist „generell, robust und skalierbar.“
-
-
-
Alle Eingabekommandos sind nicht zweideutig.
In einem multimodalen System interagieren die Benutzer nicht
immer multimodal, sondern auch unimodal mit gelegentlichem
und spontanen Wechsel des Eingabemodus.
Did you change the input device often during interaction?
Sprache ist nicht die primäre Eingabemethode.
Die multimodalen Befehle sind einheitlich und verständlich.
Were the (speech and mouse) commands consistent and articulate?
Der Vorteil einer multimodalen Schnittstelle besteht nicht in der
Performanz der Verarbeitung, sondern in der intuitiverern Handhabung und Benutzerfreundlichkeit.
199
G.9. MULTIMODALE INTERAKTION
Hypotheses & Questions
Yes
No
Both
In which situations did you use more than one device for combinations of commands to interact?
-
-
-
Did you feel comfortable to use more than one device at once to
interact?
11
3
0
Did you like to use combinded commands?
-
-
-
Multimodale Steuerbefehle werden häufig während der Modifikation und Manipulation von Information verwendet sowie bei der
Auswahl aus einer großen Datenmenge.
200
ANHANG G. FRAGEBOGEN
Literaturverzeichnis
[Aeb85]
A EBLI , H ANS: Zwölf Grundformen des Lehrens. Eine allgemeine Didaktik
auf psychologischer Grundlage. Klett-Cotta, 2 Auflage, 1985.
[AGS04]
ACHENBACH , O LIVER, D R .-I NG . S TEFAN G ÖBEL und O LIVER S CHNEI DER : GEIST: A Narrative AR Learning Application. INIGRAPHICS computer graphik topics, 16(3):26–27, 2004. Fraunhofer IGD et alii, Darmstadt.
[BKLP04]
B OWMAN , D OUG A., E RNST K RUIJFF, J OSEPH J. J R . L AV IOLA und I VAN
P OUPYREV: 3D User Interfaces: Theory and Practice. Addison-Wesley,
2004.
[BM02]
B REWSTER , S TEPHEN A. und DAVID K. M C G OOKIN: DOLPHIN : The
design and initial evaluation of multimodal focus and context. In: Proceedings of the International Conference on Auditory Display, Kyoto, Japan, July 2002. Department of Computer Science, University of Glasgow, Glasgow,
Scotland.
[Bol80]
B OLT, R ICHARD: Put-That-There : Voice and Gesture at the Graphics Interface. In: Proceedings of SIGGRAPH, Seiten 262–270. ACM Press, 1980.
[CDMF00] C HEVEREST, K EITH, N IGEL DAVIES, K EITH M ITCHELL und A DRIAN
F RIDAY: Experiences of Developing and Deploying a Context-Aware Tourist Guide: The GUIDE project. In: MOBICOM, Boston MA USA, 2000.
[Die04]
D IENER , H OLGER: Game Based Interfaces. INIGRAPHICS computer graphik topics, 16(3):8–9, 2004. Fraunhofer IGD et alii, Darmstadt.
201
202
[DVI04]
LITERATURVERZEICHNIS
D EMIRIS , T HANOS, VASSILIS V LAHAKIS und N IKOS I OANNIDIS: intCulture: Location-based Multiplatform Publishing of Cultural Heritage Information. In: Proceedings of the ICHIM 2004, Seiten CD–ROM paper C2,
2004.
[DVM+ 05] D EMIRIS , ATHANASIOS M., VASSILIOS V LAHAKIS, A LEXANDRA M A KRI , M ANOS PAPAIOANNOU und N ICOLAOS I OANNIDIS : intGuide: a Platform for Context-aware Services featuring Augmented-reality, based on the
Outcome of European Research Projects. In: Signal Processing: Image Communication - Special Edition (ICJ SI), Band 26. Elsevier, INTRACOM S.A.,
Hellenic Telecommunications and Electronics Industry, Greece, 2005.
[EOea94]
E BERLEH , E DMUND, H ORST O BERQUELLE und R EINHARD O PPERMANN
ET ALII : Einführung in die Software-Ergonomie: Gestaltung graphischinteraktiver Systeme: Prinzipien, Werkzeuge, Lösungen, Band 1 der Reihe
Mensch Computer Kommunikation - Grundwissen. Walter de Gruyter, 2 Auflage, 1994.
[fN95]
N ORMUNG , E UROPÄISCHES KOMITEE FÜR: Ergonomische Anforderungen
für Bürotätigkeiten mit Bildschirmgeräten, Teil 10: Grundsätze der Dialoggestaltung (EN ISO 9241-10). Europäische Norm, Europäisches Komitee für
Normung, 1995.
[fN98a]
N ORMUNG , E UROPÄISCHES KOMITEE FÜR: Ergonomische Anforderungen
für Bürotätigkeiten mit Bildschirmgeräten Teil 12: lnformationsdarstellung
(ISO 9241-12). Europäische Norm, Europäisches Komitee für Normung,
1998.
[fN98b]
N ORMUNG , E UROPÄISCHES KOMITEE FÜR: Ergonomische Anforderungen
für Bürotätigkeiten mit Bildschirmgeräten Teil 13: Benutzerführung (ISO
9241-13). Europäische Norm, Europäisches Komitee für Normung, 1998.
[fN99]
N ORMUNG , E UROPÄISCHES KOMITEE FÜR: Ergonomische Anforderungen
für Bürotätigkeiten mit Bildschirmgeräten Teil 16: Dialogführung mittels di-
LITERATURVERZEICHNIS
203
rekter Manipulation (ISO 9241-16). Europäische Norm, Europäisches Komitee für Normung, 1999.
[GHJV95]
G AMMA , E RICH, R ICHARD H ELM, R ALPH J OHNSON und J OHN V LIS SIDES: Design Patterns: Elements of Reusable Object-Oriented Software.
Addison-Wesley Professional Computing Series. Addison-Wesley, Indianapolis, USA, 1995.
[HFT+ 99]
H ÖLLERER , T OBIAS, S TEVEN F EINER, TACHIO T ERAUCHI, G US R ASHID
und D REXEL H ALLAWAY: Exploring MARS: Developing Indoor and Outdoor User Interfaces to a Mobile Augmented Reality System. Computer &
Graphics, 23(6):779–785, 1999.
[Hsi02]
H SI , S HERRY: The Electronic Guidebook: A Study of User Experiences using
Mobile Web Content in a Museum Setting. In: Proceedings of the IEEE International Workshop on Wireless and Mobile Technologies in Education.
Metacourse, Inc., 2002.
[Kaa03]
K AASINEN , E IJA: User needs for loation-aware mobile services. In: Pers
Uniquit Comput, Band 7, Seiten 70–79. VTT Information Technology and
Springer Verlag Limited, Tampere, Finland and London, UK, 2003.
[KSH02]
K USUNOKI , F USAKO, M ASANORI S UGIMOTO und H IROMICHI H ASHIZU ME : Toward an Interactive Museum Guide System with Sensing and Wireless
Network Technologies. In: Proceedings of the IEEE International Workshop
on Wireless and Mobile Technologies in Education, 2002.
[Mic02]
M ICROSOFT: Microsoft Speech SDK (SAPI 5.1) Documentation.
Technischer Bericht, Microsoft Corporation, 2002.
http://download.microsoft.com/download/speechSDK/SDK/5.1/WXP/ENUS/sapi.chm.
[Mil56]
M ILLER , G EORGE A.: The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information. The Psychological
Review, 63:81–97, 1956.
204
[MLB04]
LITERATURVERZEICHNIS
M ÖHRING , M ATHIAS, C HRISTIAN L ESSIG und O LIVER B IMBER: Video
See-Through AR on Consumer Cell Phones. In: Third IEEE and ACM International Symposium on Mixed and Augmented Reality (ISMAR’04), Seiten
252–253, Bauhaus University, Weimar, Germany, November 2004.
[MRKB04] M AC W ILLIAMS , A SA, T HOMAS R EICHER, G UDRUN K LINKER und
B ERND B RUEGGE: Design Patterns for Augmented Reality Systems. In: D U BOIS , E MMANUEL , P HILIP G RAY , DANIELA T REVISAN und J EAN VAN DERDONCKT (Herausgeber): IUI-CADUI Workshop on Exploring the Design and Engineering of Mixed Reality Systems, Band 91. Lehrstuhl für Angewandte Softwaretechnik, Institut für Informatik, Technische Universität
München, 2004.
[MS95]
M ULLET, K EVIN und DARRELL S ANO: Designing Visual Interfaces: Communication Oriented Techniques. SunSoft Press, 2550 Gracia Avenue, Mountain View, California, USA, 1995.
[Ovi02]
OVIATT, S HARON: Multimodal Interfaces. In: JACKO , J ULIE A. und A N DREW S EARS (Herausgeber): The Human-Computer Interaction Handbook:
Fundamentals, Evolving Technologies and Emerging Applications, Kapitel 14, Seiten 286–304. Lawrence Erlbaum Associates, Inc., 2002.
[PBT02]
P OPESCU , G EORGE P., G RIGORE C. B URDEA und H ELMUTH T REFFTZ:
Multimodal Interaction Modelling. In: S TANNEY, K AY M. (Herausgeber):
Handbook of Virtual Environments: Design, Implementation, and Applications, Human Factors and Ergonomics, Kapitel 21, Seiten 435–454. Lawrence
Erlbaum Associates, Mahwah, New Jersey, 2002.
[PT03]
P IEKARSKI , WAYNE und B RUCE H. T HOMAS: Augmented Reality User Interfaces and Techniques for Outdoor Modelling. In: ACM SIGGRAPH Symposium on Interactive 3D Graphics (I3D2003), Seiten 225–226, Monterey,
California, April 2003. Wearable Computer Laboratory, School of Computer
and Information Science, University of South Australia, ACM Press.
LITERATURVERZEICHNIS
205
[PTB+ 02]
P OUPYREV, I VAN, D ESNEY S. TAN, M ARK B ILLINGBURST, H IROKATZU
K ATO, , H OLGER R EGENBRECHT, und N OBUJI T ETSUTANI: Developing a
Generic Augmented-Reality Interface. IEEE Computer, 35(3):44–50, March
2002.
[SBG98]
S CHMIDT, A LBRECHT, M ICHAEL B EIGL und H ANS -W. G ELLERSEN: There is more to Context than Location: Environment Sensing Technologies for
Adaptive Mobile User Interfaces. In: Proceedings of Workshop on Interactive
Applications of Mobile Computing (IMC98), Rostock, Germany, Nov 1998.
Telecooperation Office (TecO), University of Karlsruhe, Germany.
[SGBT00]
S CHMIDT, A LBRECHT, H ANS -W. G ELLERSEN, M ICHAEL B EIGL und
O RTWIN T HATE: Developing User Interfaces for Wearable Computers:
Don’t Stop to Point and Click. In: International Workshop on Interactive
Applications of Mobile Computing (IMC2000). TecO, University of Karlsruhe, Germany, 2000.
[Shn00]
S HNEIDERMAN , B EN: The Limits of Speech Recognition. Communications
of the ACM, 43(9):63–65, September 2000.
[Str01]
S TRICKER , D IDIER: Tracking with Reference Images: A Real-Time and Markerless Tracking Solution for Out-Door Augmented Reality Applications. In:
Proceedings of Conference on Virtual Reality, Archeology, and Cultural Heritage, Seiten 77–82, Darmstadt, Germany, 2001. Fraunhofer IGD.
[SW03]
S TRICKER , D IDIER und J ENS W EIDENHAUSEN: What can be done with
Augmented-Reality? Two applications @ the Cebit 2003. INIGRAPHICS
computer graphik topics, 15(1):34–35, 2003. Fraunhofer IGD et alii, Darmstadt.
[VIK+ 02]
V LAHAKIS , VASSILIOS, N IKOLAOS I OANNIDIS, J OHN K ARIGIANNIS,
M ANOLIS T SOTROS, M ICHAEL G OUNARIS, D IDIER S TRICKER, T IM
G LEUE, PATRICK DAEHNE und L UIS A LMEIDA: Archeoguide: An Augmented Reality Guide for Archaeological Sites. IEEE Computer & Graphics,
22(5):52–60, 2002.
206
[YA]
LITERATURVERZEICHNIS
YACOUB , S HERIF M. und H ANY H. A MMAR: Finite State Machine Patterns.
[YYDW99] YANG , J IE, W EIYI YANG, M ATTHIAS D ENECKE und A LEX WAIBEL:
Smart Sight: A Tourist Assistant System. In: 3rd International Symposium
on Wearable Computers (ISWC’99), Seiten 73–78, San Francisco, California,
October 1999. Interactive Systems Laboratories, Carnegie Mellon University,
Pittsburgh, IEEE Computer Society.
[ZSB02]
Z UDILOVA , E.V., P.M.A. S LOOT und R.G. B ELLEMAN: A Multi-Modal Interface for an Interactive Simulated Vascular Reconstruction System. In: Proceedings of the 4th IEEE International Conference on Multimodal Interfaces
(ICMI’02). Section of Computational Science, Faculty of Science, University
of Amsterdam, IEEE Computer Society, 2002.
Abbildungsverzeichnis
1.1
Interaktion in GUI und MUI . . . . . . . . . . . . . . . . . . . . . . . .
13
2.1
i-Glasses mit SVGA-Display (mit 800 x 600 betrieben). . . . . . . . . . .
17
2.2
n-Vision Binoculars mit Firewire-Kamera und Kompass (mit 800 x 600
betrieben). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.3
PDA im „ragged case“. . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.4
Dell Sub-Notebook. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.5
Funktionsweise der Spracherkennung in SAPI . . . . . . . . . . . . . . .
20
3.1
Geste „Daumen rechts“ führt zum Wechsel des Overlay. . . . . . . . . . .
33
3.2
Geste „Daumen rechts“ zeigt nächstes Overlay. . . . . . . . . . . . . . .
33
3.3
Microsoft™Sidewinder Freestyle Pro Gamepad. . . . . . . . . . . . . . .
47
4.1
Multimodale Ereignisverarbeitung . . . . . . . . . . . . . . . . . . . . .
78
4.2
Räumliches Feedback außerhalb der AOI. . . . . . . . . . . . . . . . . .
82
4.3
Räumliches Feedback innerhalb eines AOI. . . . . . . . . . . . . . . . .
82
4.4
Relation der Steuerelemente (Mockup) . . . . . . . . . . . . . . . . . . .
87
4.5
Hierarchiemenü mit horizontaler Baumstruktur (Konzept). . . . . . . . .
88
4.6
Alternatives Hierarchiemenü mit Baumstruktur (Konzept). . . . . . . . .
88
207
208
ABBILDUNGSVERZEICHNIS
4.7
Menü mit Miniaturbildern und Bezeichnern (Konzept). . . . . . . . . . .
88
4.8
Hotspots eines Exponats (Konzept) . . . . . . . . . . . . . . . . . . . . .
90
4.9
Komponentenkommunikation . . . . . . . . . . . . . . . . . . . . . . .
93
4.10 Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
5.1
Keymapping (algorithmisch) . . . . . . . . . . . . . . . . . . . . . . . . 100
5.2
Keymapping (schematisch) . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.3
Positionierung im Grid . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.1
Hervorgehobene Hotspots. . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.2
Hervorgehobene Hotspots mit markanterem semantischem Bezug (Mockup).122
6.3
Exhibitmenü in versteckter Ansicht. . . . . . . . . . . . . . . . . . . . . 123
6.4
Vertikale Sitenavigation (Mockup). . . . . . . . . . . . . . . . . . . . . . 124
6.5
„Schwebendes“ Menü (Mockup). . . . . . . . . . . . . . . . . . . . . . . 124
6.6
Handlermenü am dreidimensionalen Objekt (Mockup). . . . . . . . . . . 127
6.7
Innenansicht eines Objektes (Mockup). . . . . . . . . . . . . . . . . . . 127
6.8
Erklärung von Tools, Controls und Verwendung der Eingabegeräte. . . . . 129
6.9
Erklärung des Exhibitmenü und der Versteckfunktion. . . . . . . . . . . . 129
6.10 Erklärung der augmentierten Ansicht. . . . . . . . . . . . . . . . . . . . 129
6.11 Erprobung der Schnittstelle im Test. . . . . . . . . . . . . . . . . . . . . 130
6.12 Testkandidatin während der Evaluation. . . . . . . . . . . . . . . . . . . 130
6.13 Benutzerfreundlichkeit. . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.14 Erfüllte Erwartungshaltung. . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.15 Bevorzugte Eingabegeräte. . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.16 Leichte Gewöhnung an die Eingabegeräte. . . . . . . . . . . . . . . . . . 133
6.17 Immersionsgefühl. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
ABBILDUNGSVERZEICHNIS
209
6.18 Intuitive Interaktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.19 Multimodales Interaktionsgefühl. . . . . . . . . . . . . . . . . . . . . . . 135
6.20 „Aktiv“-Icon (Konzept) . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.21 Kommandos und Labels . . . . . . . . . . . . . . . . . . . . . . . . . . 146
C.1 Benutzerbedürfnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
C.2 Benutzerhandlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
C.3 Area of Interest (AOI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
C.4 Point of Interest (POI) . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
C.5 Erkunden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
C.6 Nachfragen nach Informationen . . . . . . . . . . . . . . . . . . . . . . 175
C.7 Dokumentieren und Erinnern . . . . . . . . . . . . . . . . . . . . . . . . 176
C.8 Empfehlen und Führen lassen . . . . . . . . . . . . . . . . . . . . . . . . 177
C.9 Erklären lassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
C.10 Nachforschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
C.11 Kontrollieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
E.1 Fokussierter POI eines AOI . . . . . . . . . . . . . . . . . . . . . . . . . 185
E.2 Selektierter POI eines AOI . . . . . . . . . . . . . . . . . . . . . . . . . 186
E.3 Showcase mit 3D Modell . . . . . . . . . . . . . . . . . . . . . . . . . . 186
E.4 Kompass zur Navigation zu einem AOI oder POI . . . . . . . . . . . . . 186
F.1
Frage „Wo bin ich?“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
F.2
Frage „Was kann ich hier sehen?“ . . . . . . . . . . . . . . . . . . . . . 188
F.3
Frage „Was ist in der Nähe?“ . . . . . . . . . . . . . . . . . . . . . . . . 189
210
ABBILDUNGSVERZEICHNIS
Tabellenverzeichnis
5.1
Realisierte Widgets und ihre Funktionen . . . . . . . . . . . . . . . . . . 115
6.1
GUI vs. MUI (Kriterien nach Oviatt [Ovi02]) . . . . . . . . . . . . . . . 150
211
212
TABELLENVERZEICHNIS
Listings
5.1
Konfiguration der Mausereignisfilter . . . . . . . . . . . . . . . . . . . .
5.2
Beispieleintrag der Keymap . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.3
Beispieleintrag der Keymap für Events mit Zusatzinfo . . . . . . . . . . . 103
5.4
Beispieleintrag der Keymap für multimodale Befehle . . . . . . . . . . . 105
5.5
FSM-Konfiguration am Beispiel des Exponatmenüs . . . . . . . . . . . . 107
5.6
Auszug aus der Konfiguration des UIManagers . . . . . . . . . . . . . . 109
5.7
Auszug aus der Konfiguration der Kommandoleiste . . . . . . . . . . . . 117
213
98