Anwendung Rechnernetze Thema: Spracheingabe Michael Pöhnert

Transcription

Anwendung Rechnernetze Thema: Spracheingabe Michael Pöhnert
Anwendung Rechnernetze
Thema: Spracheingabe
Michael Pöhnert
Matrikel: INF04
Kennnummer: 12538
Gliederung
- Einleitung
- Theoretische Grundlagen
- Praktische Durchführung
- Zusammenfassung
- Quellenangaben
Einleitung
• Mensch möchte Maschine(Computer) möglichst
einfach und intuitiv bedienen
• Zur Bedienung oft sehr viele Befehle notwendig
• Besteht Herausforderung zur Schaffung intelligenter
Benutzerschnittstellen
• Ermöglicht intuitive Bedienung
• Vereinfacht somit Mensch-Maschine-Kommunikation
Einleitung
• Interaktion zwischen Mensch und Maschine als MTI
(Mensch-Technik-Interaktion) bezeichnet
• Auf verschiedene Arten möglich(Sprache, Schrift,
Tastatur, Maus,...)
• Möglichst einfache Kommunikation
• Verschiedene Ansätze auf Gebiet der MTI
Video-basierte Interaktion(z.B. Gesten- und Positionserkennung)
Spracheingabe und Spracherkennung(z.B. Dialogsysteme)
Avatare/Assistenten(z.B. Büroklammer bei Office)
• Heute nur Spracheingabe wichtig
Theoretische Grundlagen
• Spracheingabe ist Eingabe von Sprache(Texte,
Befehle) in eine Maschine(Computer)
• Eingabe über ein Mikrophon(Headset vorteilhaft)
• Spracherkennung oder auch automatische
Spracherkennung ist ein Teilgebiet der angewandten
Informatik. Sie beschäftigt sich mit der Untersuchung
und Entwicklung von Verfahren, die Automaten,
insbesondere Computern die gesprochene Sprache
der automatischen Datenerfassung zugänglich macht.
Quelle: Wikipedia
Theoretische Grundlagen(Geschichte)
• Beginn der Forschung an Spracherkennung 60er Jahre
• Von privaten Firmen entwickelt(einige 100 Wörter
erkannt)
• Mitte 1980er kam Entdeckung: Kontextprüfung erkennt
Homophone(gleich klingende Wörter haben
unterschiedliche Bedeutungen; z.B. bis vs. Biss)
• Statistiken über Häufigkeiten bestimmter
Wortkombinationen(Trigrammstatistiken: drei Wörter oder
drei Buchstaben ) für Spracherkennung wichtig
ICH -> 1,15% // EIN -> 1,08%
(statistische Auswertung einer deutschen Textbasis von
etwa acht Millionen Zeichen)
Theoretische Grundlagen(Geschichte)
• 1984 - IBM: 5000 englische Worte erkannt
Nachteil: ein Erkennungsvorgang dauert mehrere Minuten auf einem Großrechner
• Dragon Systems: System für tragbaren PC
• 1991 - IBM: TANGORA 4 (20000-30000 deutsche
Worte erkannt)
CeBIT-Vorstellung extra Raum nötig wegen Lärm der Menge
• 1993/94 - IBM Personal Dictation System(erstes
System für Massenmarkt)
• 1994 auf CeBIT als IBM VoiceType Diktiersystem sehr
begehrt(Preis unter $1.000)
Theoretische Grundlagen(Geschichte)
• 2004 Teile des Systems als Open Source freigegeben
• Vermutlicher Grund: Microsoft bereits ein offenes
System vorgestellt(Speech-SDK SAPI)
• Aktuell: Microsoft(inVista eingebaut, Speech Server),
IBM ViaVoice und Dragon Naturally Speaking
(Nuance), Voice Pro (Linguatec)
• neu(2007): Loquedo ASR(autom. Spracherkennung),
SVOX(für Embedded Systeme)
ASR- Automatic Speech Recognition
Theoretische Grundlagen
• Aktueller Stand:
Sprecherabhängige Spracherkennung
* Trainingsphase zur Einstimmung auf die Sprechgewohnheiten
* Wechselnde Sprecher nicht möglich
* Größerer Wortschatz als bei Sprecherunabhängigem Ansatz
Sprecherunabhängige Spracherkennung
* Keine Trainingsphase -> höhere Fehlerrate
* Wechselnde Sprecher möglich
* Auf mehrere tausend Wörter begrenzt
Theoretische Grundlagen
• Größe des Wortschatzes(gramm. Formen extra)
• Sprache wird im Normalen fließend gesprochen
• Mensch orientiert sich intuitiv am Übergang zwischen
den Worten
• Diskrete Sprache(deutliche Pausen zwischen den
Worten)
• Kontinuierliche Sprache(fließend)
erst bei neueren Spracherkennungsprogrammen möglich
Theoretische Grundlagen
• Unterscheidung der Vokale mittels
Formanten(unterschiedliche Frequenzbereiche)
• Konsonanten schwieriger erkennbar
a) Durch benachbarte Laute
b) Durch spektrale Muster
• Verwendung mathematischer Verfahren(HiddenMarkov-Model, Wahrscheinlichkeiten,Statistik) sowie
Neuronaler Netze und Grammatiken zur Erkennung
Theoretische Grundlagen
Aufbau eines Spracherkennungssystems nach Waibel
Praktische Durchführung
• Voice Portale in Callcenter-Agenturen(Banken,...)
• Fahrplanauskünfte und -bestellungen am Telefon
• Medizinische Befunde und Schreibarbeit
• Diktat von Texten
• Sprachsteuerung eines Autoradios(Senderwahl)
• Embedded Systeme(Chips in Maschinen,Automaten)
• Sprachchat(z.B. TeamSpeak)
Praktische Durchführung
Nuance(IBM)
Linguatec
Nuance
Praktische Durchführung
Installation eines Spracherkennungssystems
• Installation des Programmes(„Windows-Like“)
• Erster Start: Probediktate 20-60min.
• Programm rechnet ca. 30min.(Wertet Probediktate
aus- erstellt Stimmenprofil)
• Programme sind startbereit zum Diktat(ca. 5-10 Fehler
auf 100 Worte)
• Verminderung der Fehler auf ca. 3-8 Fehler pro 100
Worte mittels schon geschriebener Texte
• Diktate geschehen mittels Mikrophon(Headset) wegen
geringerer Fehler durch Lärm in der Umgebung
Praktische Durchführung
Speech Application Programming Interface(SAPI)
• Schnittstelle zur Anbindung von Bibliotheken zur
Sprachsynthese und Spracherkennung
• Entwickler: Microsoft
• Ab Windows 2000 in einer englischen Version
vorinstalliert
• Kann aber auf alle Systeme nachinstalliert werden
• Programmierer benötigt SAPI-SDK
Zusammenfassung
Vorteile
• Verminderter Arbeitsaufwand beim Tippen
• Hände frei für andere Aufgaben
• Einfache und intuitive Bedienung
• Relativ preiswerte Programme
Zusammenfassung
Nachteile
• Langwierige Einarbeitungszeit
• Ohne Trainingszeit enorm hohe Fehlerrate
• Fortschritt noch nicht so enorm
• Anfällig auf Nebengeräusche(Messe, Konferenz,
Büros,...)
• Kritisch bei Erkältung und Stimmproblemen
Quellenangaben
Links
http://www.wikipedia.de/
http://www.nuance.de/
http://www.microsoft.com/
http://www.google.de/
E-Book
Dr. Eckard Bernd (Fraunhofer Institut) -“Angewandte
Forschung in der Mensch-Technik-Interaktion“
Danke für die Aufmerksamkeit!
Gibt es noch Fragen?