Entwicklung von Multi-Medialen Lernmaterialien für die perzeptive

Transcription

Entwicklung von Multi-Medialen Lernmaterialien für die perzeptive
Technische Universität Berlin
Fachbereich 1, Kommunikations- und Geschichtswissenschaften
Entwicklung von Multi-Medialen
Lernmaterialien
für die perzeptive Audiocodierung
Freie wissenschaftliche Arbeit
zur Erlangung des akademischen Grades
eines Magister Artium
Vorgelegt von
Daniel Pape, Pestalozzistr. 2 A, 13187 Berlin
Matr. Nr. 186023
Inhaltsverzeichnis
1. Zusammenfassung, Konventionen ............................................. 4
1.1. Zusammenfassung ................................................................. 4
1.2. Abstract................................................................................ 5
1.3. Konventionen ........................................................................ 6
1.4. Zustätzliche Bestandteile......................................................... 7
2. Einleitung .................................................................................. 8
2.1. Vorwort ................................................................................ 8
2.2. Motivation ............................................................................. 8
2.3. Ziele dieser Arbeit .................................................................10
2.4. Gliederung der Arbeit.............................................................12
3. Grundlagen des multimedialen Lernens ................................... 15
3.1. Lerntheoretische Grundlagen ..................................................15
3.2. Instruktionsdesign für Lernsoftware .........................................17
3.3. Prinzipien des Multimedialen Lernens .......................................18
4. Der MPEG Layer-3 (MP3) Codec ............................................... 25
4.1. Entwicklung und Geschichte....................................................25
4.2. Parametrisierung von MP3-Codecs ...........................................28
4.3. Funktionsweise des MP3-Encoders ...........................................29
4.4. Funktionsweise des MP3-Decoders...........................................39
4.5. Qualitätsmerkmale des Encoders .............................................40
4.6. Unterschiede zwischen den Encodern .......................................43
4.7. Objektive Vergleichsmöglichkeiten von Codecs ..........................44
5. Aktueller Stand der Forschung in der perzeptiven
Audiocodierung............................................................................ 56
5.1. MPEG4 Audio / MPEG2 AAC.....................................................56
5.2. SBR (Spectral Band Replication) ..............................................59
5.3. BCC (Binaural Cue Coding) .....................................................60
5.4. Parametric Coding .................................................................60
6. Usability von Mensch-Maschine-Interfaces .............................. 62
6.1. Definition .............................................................................62
6.2. Warum wird Usability aktuell wichtig? ......................................62
6.3. Designkriterien nach Norman ..................................................63
6.4. Die häufigsten Usability-Fehler ................................................64
6.5. Ein Usability-Test: Die Heuristische Evaluation ..........................66
6.6. Testen des multimedialen Lernmoduls nach Usability-Kriterien.....68
7. Anforderungsanalyse für die Nutzung des Lernmoduls ............ 69
7.1. Einsatzszenario in der Lehre und in den Vorlesungen..................69
7.2. Einsatzszenario in der Forschung .............................................70
7.3. Einsatzszenario in Tonstudios..................................................70
8. Die Spezifikationen – Das Pflichtenheft ................................... 71
8.1. Die Programmschwerpunkte ...................................................71
8.2. Die Nutzer............................................................................72
8.3. Die Abspielsoftware ...............................................................73
8.4. Die Plattform ........................................................................73
8.5. Lauffähigkeit des Programms über ein Internetprotokoll .............73
2
8.6. Die grafische Gestaltung ........................................................73
8.7. Die Navigation ......................................................................74
8.8. Das User-Interface ................................................................74
9. Entwurf des multimedialen Lernmoduls ................................... 75
9.1. Definition der Funktionen – Festlegung der Multimediasoftware ...75
9.3. Auswahl der Experimente und Versuche ...................................79
9.4. Entwurf der möglichen Benutzeroberfläche – Usability und
Navigation ..................................................................................82
9.5. Entwurf der Systemfunktionen und unterstützte Plattformen .......86
9.6. Entwurf der einzelnen Programm-Teile .....................................87
9.7. Zusammenfassung ................................................................93
10. Implementierung ................................................................... 94
10.1. Analyse der Werkzeuge für die Umsetzung..............................94
10.2. Beschreibung der Programm-Komponenten.............................96
10.3. Zusammenfassung ............................................................ 109
11. Zusammenfassung und Ausblick .......................................... 111
11.1. Zusammenfassung ............................................................ 111
11.2. Bestehende Einschränkungen und Lösungsansätze ................. 112
11.3. Nächste Schritte – Zukünftige Verbesserungen und
Lösungsansätze......................................................................... 113
12. Glossar................................................................................. 116
13. Literatur............................................................................... 119
14. Anhang und Listing .............................................................. 123
14.1. Scripte und Programme...................................................... 123
14.2. Screenshots der einzelnen Programmteile ............................. 127
3
1. Zusammenfassung, Abstract, Konventionen
1.1. Zusammenfassung
Unter der Vorgabe, multimediale Lernmaterialien zum Thema „Perzeptive
Audiocodierung“ zu entwickeln, wurde mit Hilfe der Multimedia-Software
Macromedia Director ein in sich abgeschlossenes, ohne jede weitere
Zusatz-Software lauffähiges multimediales Lernmodul spezifiziert,
entworfen und implementiert. Der Hauptschwerpunkt lag im Entwurf von
erklärenden und verdeutlichenden psychoakustischen Simulationen und
Experimenten sowie in einer großen Anzahl von Hörbeispielen. Während
technische Literatur und Dokumentationen zum Thema in ausreichendem
Maße existieren, gibt es nur sehr vereinzelt die für diese Thematik
existenziellen Hörbeispiele sowie auditive Verdeutlichungen der
psychoakustischen und audiotechnischen Grundlagen. Ein kurzes Beispiel
soll diese Notwendigkeit verdeutlichen:
Im Rahmen des Verständnisses eines perzeptiven Audio-Codecs ist es
naheliegend, das Prinzip der spektralen Transformation des Audiosignals
(verwirklicht durch eine Filterbank) durch eine spezielle Darstellung der
einzelnen Signale zu ermöglichen. In dieser Darstellung sind die
gefilterten Signale der einzelnen Filterbänder durch den Benutzer
auswählbar und damit anhörbar. Damit wird für diejenigen Benutzer, die
nicht täglich mit Filtern und Audiosignal-Bearbeitung umgehen, erstmals
verdeutlicht, welche Anteile des ungefilterten Signals in den einzelnen
Filterbändern überhaupt enthalten sind.
Diesen Gedanken weiterführend sind in dieser Magisterarbeit diverse
klassische psychoakustische Experimente programmiert, die vom Benutzer
am Bildschirm durchgeführt werden können. Die Funktionsweise
perzeptiver Audiocodierung wird somit verdeutlicht. Dazu gehören im
wesentlichen die klassischen Experimente der verschiedenen
Mithörschwellen: die Verdeckung von Sinustönen durch
Schmalbandrauschen und die Verdeckung von Schmalbandrauschen durch
verschiedene Musiksignale bei drei sehr unterschiedliche Musikstilen.
An weiteren Hörbeispielen wurde sowohl ein direkter Vergleich der
Klangqualität eines Fraunhofer-MP3-Codecs bei verschiedenen Bitraten als
auch ein direkter Vergleich aller gängigen Audio-Codecs (wie Real9 und
WindowsMediaEncoder) bei verschiedenen Bitraten verwirklicht.
Eine einführende Animation sensibilisiert den Benutzer für das Thema
durch einen passenden Vergleich, im dem zeitsynchron die Verringerung
der Audioqualität eines Musikstückes und der Bildqualität eines Fotos
dargestellt wird. Dieses wird einerseits durch perzeptive Audiocodierung
und andererseits durch diverse Bildfilter realisiert.
Ein ausführliche Erklärung der Funktionsweise eines MP3-Encoders und ein
Literatur-Teil mit einer Vielzahl von eingebundenen technischen
Veröffentlichungen der AES, des IRT und der DAGA runden das Programm
4
ab und ermöglichen dem interessierten Benutzer ein weiterführendes
Studium perzeptiver Audiocodierung.
In der Gestaltung des Programms wurde neben den Grundlagen
multimedialen Lernens besonderes Augenmerk auf die Gestaltung nach
Usability-Kriterien gelegt, Kriterien der Benutzbarkeit von Software, die
dem Benutzer eine einfache Handhabung des Programms ermöglichen
sollen.
Auf eine Implementierung der in dieser Arbeit ebenfalls ausführlich
dargestellten Themen wie objektive Qualitätsvergleiche perzeptiver
Codecs1 und Funktionsweise verbesserter Codecs wurde im Rahmen des
erstellten Programms verzichtet. Die Realisierung ist unkompliziert aber
sehr zeitaufwendig, und wird infolge dessen auf eine spätere Phase der
Verbesserung des Programms verschoben.
1.2. Abstract
By means of the multimedia software Macromedia Director an e-learning
module was specified, designed and implemented for the field “perceptive
audio coding”. This module runs without any additional software.
The multimedia module was based on the following criteria:
First it was designed for explaining and elucidating simulations and
realizations of psychoacoustic experiments. Second a great variety of
auditive expamples was implemented. While technical papers and
documentations exist in sufficient amount, audio examples demonstrating
the underlying psychoacoustic phenomena of perceptual coding in a
satisfying quality and quantity are rather rare.
For these reasons explaining the underlying psychoacoustic phenomena
and hear them with one’s own ears in a multimedia learning module is of
great value.
For example: In perceptual coding the signal is transformed to the
spectral domain by means of cascaded bandpass filters. If a certain wellknown audio signal (for example a piece of music) is filtered by various
bandpass filters, the principles of spectral transformation might be easier
to understand for the user, if the user can listen to these filtered signals.
For users who are not familiar to filters this “auralization” of the filterbank
possibly are of great value.
Splitting the original audio signal into different bands, the user can listen
to the different bands seperately and find out which bands contain
relevant information about the original signal.
To continue this idea some classical pychoacoustic experiments were
implemented which can be run by the user in front of the screen to
demonstrate the main principles of perceptual coding. These consist in the
classical masking thresholds: (a) the masking of sine waves by narrow
1
Möglich wäre beispielsweise die Programmierung der Simulation eines objektiven CodecTests nach der entsprechenden ISO-Norm, um die Durchführung solcher Hörvergleiche zu
verdeutlichen.
5
band noise and (b) the masking of narrow band noise by different music
signals (in three different music styles).
Further audio examples consist in (a) the comparison of the the audio
quality of a Fraunhofer MP3-codec at different bitrates and (b) the
comparison of today’s all important audio codecs (like
WindowsMediaEncoder and Real9) at different bitrates. An introductive
animation prepares the user for the topic “perceptual coding” by using a
well-fitting comparison: the time-sychronized decrease of the audio
quality of a piece of music and the decrease of the graphic quality of a
fotograph picture. The decrease in quality was achieved through
perceptive coding on the one hand and on the other hand through the use
of different graphic filters.
Finally a structured explanation of the mode of operation of an MP3
encoder and a module containing further references to publications of the
AES, the IRT and the DAGA were included in the presented software.
Besides the multimedia learning theories the design of the software was
created following carefully the usability guidelines: how user-friendly is a
software and how can this user-friendliness be optimized by the designer.
Some of the theoretically discussed topics like objective comparison of the
quality of different audio codecs2 and the mode of operation of successors
of the MP3 codec were not implemented, since the implementation is
uncomplicated but very time-consuming. It will be done at a future stage
of the software-development.
1.3. Konventionen
Die vorliegende Magisterarbeit hat nach der Magisterprüfungsordnung der
TU Berlin [MPO87] in deutscher Sprache vorzuliegen. Durch Übersetzen
der Zusammenfassung (siehe Abschnitt 1.2.) ins Englische wurde
versucht, allen nicht-deutschsprachigen Interessierten an dieser Arbeit
zumindest das Verstehen der Ziele und des Inhalts der einzelnen
Programm-Module zu ermöglichen.
Durch die (durchaus sinnvolle) Verwendung der englischen Sprache in der
gesamten benutzten Fachliteratur ist es trotz aller Bemühungen nicht
immer möglich, alle Fachbegriffe sinnvoll in die deutsche Sprache zu
übersetzen, obwohl dies immer versucht wird. Wenn die Fachbegriffe
jedoch nicht sinnvoll und eineindeutig übersetzt werden konnten, wurde
durch die Verwendung von Anführungsstrichen der englische Fachbegriff
beibehalten, um nicht zusätzliche Fehlerquellen durch unsaubere
Übersetzung zu schaffen. Wenn es sich um Fachbegriffe handelt, die nur
mehrdeutig oder unsauber zu übersetzen sind, wird der verwendete
englische Begriff in Klammern hinter der deutschen Übersetzung
vermerkt.
2
It could be possible to program a simulation of an objective codec test after the
corresponding ISO standard to explain the design of such an objective listening test.
6
Eine Vielzahl von Begriffen und die Definition von deren begrifflichen
Verwendung in dieser Arbeit (da leider in der verwendeten Fachliteratur
unterschiedliche Begriffe auch immer mit unterschiedlichen Definitionen
belegt haben) wird im Glossar (Kapitel 12) erklärt. Die Schwierigkeit der
eineindeutigen Begriffsdefinition wurde durch das Zusammenführen
verschiedenster Fachgebiete wie Akustik, Psychologie und Audiotechnik
erschwert. Es existieren Begriffe, die in den genannten Fachgebieten
unterschiedlich definiert wurden. Das Kapitel Glossar soll dieses Problem
durch eine gültige Begriffsdefinition zumindest für diese Arbeit lösen.
Texte, die in eckigen Klammern wiedergegeben werden, verweisen auf die
in der Literatur (Kapitel 13) aufgeführten Quellen.
In der Magisterarbeit abgedruckter Programm-Code ist in der Schriftart
„Courier“ notiert.
1.4. Zustätzliche Bestandteile
Teile des erstellten Programms sind im Internet unter der Adresse
http://www.audiocodierung.de
verfügbar. Aus rechtlichen Gründen ist ein Passwortschutz eingerichtet
worden. Der Nutzername lautet „mea“, das Passwort „culpa“.
Das vollständige Programm konnte aufgrund der nicht genehmigten
Rechte-Freigabe der verwendeten Musikstücke nicht im Internet
veröffentlicht werden.
Das vollständige Programm ist der Arbeit in Form einer CD-ROM angefügt.
Das Programm wurde für das MS-Windows-Betriebssystem kompiliert. Es
ist ohne weitere Hilfsprogramme durch Starten des ausführbaren
Programms „perz_aud.exe“ lauffähig.
7
2. Einleitung
In diesem Kapitel wird die Motivation, der Umfang und die Ziele dieser
Magisterarbeit dargestellt. Es wird definiert, ob und warum ein
multimediales Lernmodul für die perzeptive Audiocodierung als sinnvoll zu
erachten ist und stellt die Vorteile dieser Lernmethode gegenüber
klassischen Lernmethoden wie beispielsweise reinem Literaturstudium
heraus. Schließlich wird ein Überblick über die Gliederung der
Magisterarbeit gegeben.
2.1. Vorwort
Die MP3-Komprimierung hat sich in den letzten Jahren nicht zuletzt
aufgrund von Internet-Tauschbörsen (Peer-to-Peer-Systeme)
zunehmender Beliebtheit erfreut. Da die Bandbreiten der ModemInternetanschlüsse der meisten Users nicht ausreichten, um in akzeptabler
Zeit zufriedenstellend große Mengen unkomprimiertes Audio über das
Internet zu verschicken oder zu erhalten, waren Verfahren der
Audiokompression erwünscht, die eine Verringerung der Größe dieser
Audiodateien um ungefähr den Faktor 10 bei kaum hörbarem
Qualitätsverlust ermöglichen.
Es wurde immer wieder versucht, den messtechnischen und den wirklich
wahrnehmbaren Verlust dieser verlustbehafteten Kompression bezüglich
der Audioqualität objektiv zu messen. Da das Verfahren der MP3Kompression, die zu den perzeptiven Kompressionsverfahren zählt, nur
Signalanteile entfernt, die auditiv nicht wahrnehmbar sind, ist eine
Signalqualitäts-Messung nach herkömmlichen Methoden (die allgemein die
entstandenen Signalverzerrungen betrachtet, unabhängig von deren
tatsächlicher Wahrnehmbarkeit) schwierig.
Die naheliegendste Lösung, Blindhörtests mit einerseits audiotechnisch
ausgebildeten Versuchspersonen (zum Beispiel Mastering-Ingenieuren
oder Tonmeistern) und andererseits mit den Benutzern und Käufern der
Komprimierungsverfahren wurden in diversen Konstellationen und
Versuchsdesigns durchgeführt.
Andererseits wurde auch versucht, die Qualitätsverluste objektiv durch
Messverfahren auszudrücken, um einen in der Praxis aussagekräftigen
Qualitätskoeffizienten zu erhalten, der die Qualität der verwendeten
Kompressionsverfahren kennzeichnet.
2.2. Motivation
8
Erhebungen zu verschiedenen Anwendungen im Multimediabereich haben
ergeben, dass dicht hinter der Unterhaltungssoftware an zweiter Stelle die
Lehranwendungen wie E-Learning, Computergestütztes Lernen und
Edutainment3 stehen [KHA00]. Angesichts der sich ständig wandelnden
Berufsbilder, der immer kürzeren Innovationszyklen und der steigenden
Qualitätsanforderungen, die eine fortwährende Weiterbildung in allen
Bereichen notwendig machen, werden in Zukunft multimediale und
computerbasierte Lernanwendungen mehr an Bedeutung gewinnen. Dem
Lernenden soll der Zugang zum neuen Themenkomplex
abwechslungsreich und ermüdungsfrei in verschiedenen, interaktiv
wählbaren Komplexitätsstufen erleichtert werden. In genau diesem Punkt
hat das Medium Computer mit seinen Möglichkeiten der Einbindung von
Audio, Video und dreidimensionalen Grafiken auch den größten Vorteil
gegenüber den herkömmlichen Lehrmethoden wie Vorlesungen und
Bücher4. Durch die „Revolution der Informationstechnologie“, die bereits
in alle Bereiche des öffentlichen und privaten Lebens Einzug gefunden hat,
stehen prinzipiell für alle traditionellen Lehr- und Lerngebiete die
Möglichkeit zumindest des computergestützten Lehrens und Lernens offen.
Don Tapscott schreibt über diese „Revolution der Informationstechnologie
in einem Aufsatz in dem Buch „La Red“ [CEB98] passend (nicht
authorisierte Übersetzung dem Zitat folgend):
„En los anos noventa, la revolución se ha concentrado en torno a la red.
[...] Sin embargo, no es exagerado decir que estamos presenciando los
primeros y turbulentos días de una revolución tan importante como
cualquier otra en la historia. Está surgiendo un nuevo medio de
comunicación humana, que podría acabar superando todas las
revoluciones anteriores – la imprenta, el teléfono, la televisión, el
ordenador – por lo que se refiere a su impacto en nuestra vida económica
y social.”
“In den neunziger Jahren verlagerte sich die Revolution dagegen auf das
Netze. [...] Es ist jedoch nicht übertrieben zu sagen dass wir uns erst in
den ersten und turbulenten Tagen einer so bedeutenden Revolution
befinden, wie es bisher keine andere in der Geschichte gab. Es taucht ein
neues Medium der menschlichen Kommunikation auf, die beginnen kann,
alle herkömmlichen Revolutionen zu übertreffen, wie den Buchdruck, das
Telefon, das Fernsehen und den Computer. In Beziehung darauf
jedenfalls, was ihr Einfluss und ihre Wirkung auf unser wirtschaftliches
und soziales Leben ist.“
Folgt man dieser Strömung und greift die Idee einer an die neuen Medien
angepassten Darbietungsform für Lehr- und Lerninhalte auf, dann eignet
3
Form des Computergestützten Lernens, in denen das Lernen durch diverse
Unterhaltungs- und Spielmodule aufgelockert wird [KHA00]
4
Dieser Vorteil sollte aber mit Bedacht eingesetzt werden. Viele Multimediaanwendungen
verspielen ihre Vorteile durch Überladung mit bunten und ablenkenden multimedialen
Elementen.
9
sich das Thema „Audiokompression“ natürlich besonders für ein
multimediales Lernmodul, da zum genauen Verständnis des Codierungsund Decodierungsprozesses ein Verständnis von Themenkomplexen der
digitalen Audiotechnik, der musikalischen Akustik, der Musik, der
Sprachakustik, der Signalverarbeitung und der Psychoakustik notwendig
sind, um hier nur einige Bereiche zu nennen. Die aber oft sehr komplexen
und komplizierten theoretischen Prinzipien, die in eine Gestaltung eines
Kompressionsalgorithmus einfließen, lassen sich ohne Hörbeispiele oder
vereinfachende Animationen und Simulationen nur sehr schwer
verdeutlichen. Zwei Beispiele sollen diesen Sachverhalt kurz skizzieren:
1. Es ist zum Verständnis des verwendeten Verfahrens der Aufteilung des
zu komprimierenden Signals in einzelne Frequenzbereiche durch Filter
sehr naheliegend, wenn nicht sogar zum Verständnis erforderlich (sofern
der Lernende nicht schon selbst mit Filtern gearbeitet hat, und deshalb
komplexe theoretische Ausführungen über das verwendete Filterdesign
nachvollziehen kann), die Bereiche unter den Filterkurven im FrequenzPegel-Diagramm anzuklicken. In diesem Fall ist zu hören, welcher Teil des
Signals in das jeweilige Frequenzband fällt und gefiltert wird.
Des weiteren ist es in einem multimedialen Lernmodul im Gegensatz zu
einem Lehrbuch möglich, sich Beispiele für hörbare Signalverzerrungen
(sogenannte Artefakte) anzuhören, die ein verlustbehafteter
Kompressionsalgorithmus unterschiedlichen Signalen zufügt. Ebenso ist es
möglich, sich das zugehörige Spektrogramm anzusehen.
2. Es ist zur Erklärung der Ausnutzung der Maskierungseffekte des Ohres
durch den Kompressionsalgorithmus naheliegend, einen Versuch zu
simulieren, wo beispielsweise ein vom Benutzer frei in der Frequenz
variabler Sinuston von einem Schmalbandrauschen bei bestimmten
Frequenzen verdeckt wird. Dieser in der Psychoakustik nachgewiesene
Effekt kann im multimedialen Lernmodul dem Lernenden zum
Selbstversuch angeboten werden. Die dargestellten Maskierungseffekte
können zwar in Text und Bild beschrieben werden, aber eine reale
Demonstration ist natürlich viel überzeugender und wird viel eher zum
Verständnis der perzeptiven Audiokompression beitragen.
2.3. Ziele dieser Arbeit
Ziel dieser Arbeit soll daher weniger die Erstellung eines virtuellen AudioEncoders sein. Vielmehr ist das Ziel eine multimediale Umsetzung zur
Erklärung der Funktionsweise eines Encoders.
Dabei sollen multimediale Lernmethoden (Animationen, Videosequenzen,
Experimente) als unterstützendes Merkmal fungieren, um die thematisch
sehr weit gestreuten komplexen wissenschaftlichen Forschungsergebnisse
zu beleuchten, die in die Entwicklung eines solchen Audio-Encoders
einfließen. Diese teilweise schwer zugänglichen theoretischen
10
Zusammenhänge aus unterschiedlichsten Gebieten wie Psychoakustik,
digitaler Signalverarbeitung und Audiotechnik sollen für die Benutzer
dieses Lernmoduls (die kein so ausgeprägtes Wissen in diesen Gebieten
haben, sich aber für die Funktionsweise eines solchen Audio-Encoders
interessieren) erhellend dargestellt werden.
Dabei ist es unerheblich, ob sich der Benutzer im Rahmen eines virtuellen
Labors mit Audiocodierung beschäftigt, oder ob es sich um einen Benutzer
handelt, der für seine eigene Arbeit Audio codieren will, und sich aus
diesem Grund eingehender mit der Funktionsweise beschäftigen möchte.
Aus diesem Grunde ist ein Schwerpunkt der vorliegenden Arbeit den
speziellen Problemen und typischen Verzerrungen des Audiosignals durch
einen typischen verlustbehafteten perzeptiven Audio-Encoder gewidmet,
da für letztgenannten Benutzer dieser Schwerpunkt die höchste Priorität
haben dürfte, um für seine Arbeit den optimalen Encoder und dessen
optimale Einstellungen für gerade seine Art der Audiosignale zu finden.
Weiterhin unterscheidet sich ein ausgewogenes Lernmodul erst dann von
einer einfachen multimedialen Aufbereitung eines Lehrbuches, wenn es
nicht nur dem theoretischen Erklären und Erlernen eines
Themenkomplexes dient, sondern auch eine Vielzahl von Tipps und
Beispielen für die Praxis und den alltäglichen Umgang mit diesem
Themenkomplex bereitstellt.
Infolgedessen wird das Lernmodul durch einen Programmteil abgerundet,
in dem Klangbeispiele für bestimmte Audiocodierungsfehler und
verschiedene Codierungsparameter angehört werden können sowie auf die
Vermeidung dieser Codierungsfehler eingegangen wird.
Entsprechend dieser Argumentation wird in dieser Arbeit auf drei
Schwerpunkte besonderer Wert gelegt:
•
Ein genaues Verständnis der Arbeitsweise eines verlustbehafteten
perzeptiven Kompressionsalgorithmus: Die diversen
zugrundeliegenden Prinzipien sollen möglichst für jeden Lernenden
mit einer gewissen audiotechnischen und akustischen Vorbildung
lückenlos verständlich sein. Die multimedialen Beispiele sollen
praktisch schwer zu erfassende Prinzipien vereinfacht verdeutlichen
und greifbar machen. Dabei sind aufgrund der Komplexität des
Themas im Rahmen dieser Arbeit Abstriche zu machen. Aus diesem
Grund ist die Voraussetzung eines Lernenden mit einer
audiotechnischen und akustischen Vorbildung begründet, da die
Darstellung aller verwendeten Grundlagen der Audiotechnik den
Rahmen dieser Arbeit sprengt.
•
Die Darstellung und Hörbarmachung von wahrnehmbaren
Signalverzerrungen und deren Klassifikation ist elementar. Auf
diesen Punkt wird unter folgendem Gesichtspunkt eingegangen: Was
muss ich als Benutzer, der mit einer vorgegebenen Bitrate ein
Audiofile komprimieren möchte, in der Auswahl und
11
Parametrisierung des Codecs beachten, um mein Quellsignal mit der
bestmöglichen Qualität zu codieren?
•
Eine einfache Bedienbarkeit des Modul-Interfaces: Das Interface soll
nach Benutzbarkeits-Richtlinien so gestaltet werden, dass man mit
möglichst wenigen Schritten den jeweils gewünschten Teil des
Programms finden kann, und eine Orientierung in der
Programmstruktur für den Lernenden sehr leicht fällt, in welch
tiefem Unterbereich des Programms er sich auch gerade befindet.
2.4. Gliederung der Arbeit
Diese Arbeit gliedert sich dementsprechend in folgende Abschnitte:
Im dritten Kapitel wird ein kurzer Überblick über die für das zu erstellende
Programm möglichen didaktischen Entwürfe in Form der Darstellung
klassischer Lerntheorien und der Prinzipien multimedialen Lernens
gegeben.
Im vierten Kapitel werden die für den Inhalt des zu erstellenden
Programms notwendigen theoretischen Thematiken ausführlich
dargestellt. Es werden sowohl die Funktionsweise, die Parametrisierung
und Qualitätskriterien sowie typischen Fehlersignale eines MP3-Codecs
ausführlich dargestellt. Aus diesen Fehlersignalen resultierend wird auf die
Problematik der Messtechnik der Qualität perzeptiver Audiocodecs
ausführlich eingegangen, die sich von der herkömmlichen AudioMesstechnik grundlegend unterscheidet.
Im fünften Kapitel werden die seit der Standardisierung des MP3 Codecs
erreichten Fortschritte in der perzeptiven Audiocodierung dargestellt. Es
wird ein Überblick über die aktuelle Forschung und Standardisierung
gegeben. Dabei liegt ein Schwerpunkt auf der Darstellung des Formates
AAC, welches in der Zukunft in weiten Teilen der Welt das Format sein
wird, über das komprimiertes Audio in vielfältiger Weise verbreitet wird.
Das sechste Kapitel betrachtet die grundlegenden Kriterien und Lehren der
Usability-Forschung. Darunter wird die Benutzbarkeit von Software
verstanden, eine Thematik, die oftmals in der Gestaltung von Software
und Internet-Präsenzen grob vernachlässigt wird. Es werden einige
Testverfahren beleuchtet sowie auf die grundlegenden Fehler in der
Gestaltung von Software eingegangen.
In den folgenden vier Kapiteln wird eine Erarbeitung des zu erstellenden
Programms nach dem klassischen Aufbau: Anforderungsanalyse –
Spezifikationen – Entwurf – Implementierung [MAN01] vorgenommen.
12
Im siebenten Kapitel wird eine Anforderungsanalyse des zu erstellenden
Programms in Bezug auf die zu erwartende Nutzung vorgenommen. Dabei
werden die Anforderungen an das Programm für die Nutzungsszenarios
Forschung und Lehre sowie Einsatz im Tonstudio definiert.
Das achte Kapitel liefert eine genaue Spezifikation des zu erstellenden
Programms. Es dient als ausführliches Pflichtenheft für einerseits die
globalen Eigenschaften, die das Programm besitzen sollte. Es werden hier
die Programmschwerpunkte, die grafische Gestaltung und die
Navigationsstruktur sowie die potentiellen Nutzer definiert.
Andererseits werden die einzelnen zu erstellenden Experimente,
Simulationen und Animationen spezifiziert, die aufgrund der in Kapitel 4
dargestellten theoretischen Thematik sich notwendig zum genauen
Verständnis der Funktionsweise eines perzeptiven Audiocodecs ergeben.
Im neunten Kapitel werden die im achten Kapitel aufgeführten
Spezifikationen in konkrete Entwürfe umgesetzt. Es werden Entwürfe für
die globale Navigationsstruktur und den strukturellen Aufbau des
Programms in Module geschildert. Im weiteren werden die einzelnen
Experimente und Simulationen entsprechend den Spezifikationen
entworfen und deren Realisierbarkeit und Einschränkungen diskutiert.
Schließlich werden die einzelnen Module strukturiert und deren genaue
inhaltliche Thematik festgelegt sowie die Navigation innerhalb der Module
festgelegt.
Das zehnte Kapitel beschreibt die programmiertechnische Umsetzung der
Entwürfe. Es werden die einzelnen Werkzeuge für die Umsetzung der
Entwürfe diskutiert und die Auswahl der schließlich benutzten Werkzeuge
begründet.
Nachdem die genaue Realisierung der Entwürfe in der globalen ProgrammStruktur beschrieben wurde, folgt eine genaue Beschreibung der
Umsetzung der Entwürfe in den einzelnen Programm-Modulen.
Abschließend wird eine Zusammenfassung über den Erfolg der Umsetzung
der geforderten Spezifikationen in Bezug auf die am Ende vorliegende
programmtechnische Umsetzung gegeben, die der Versuch der
realistischen Einschätzung der Qualität und des Innovationsfaktors des
erstellten Programms sein soll.
Das elfte Kapitel erläutert bestehende Fehler und Einschränkungen im
erstellten Programm. Daraus resultierend werden Lösungsmöglichkeiten
und Wege zur Verbesserung präsentiert. Im zweiten Teil des Kapitels wird
ein Ausblick auf weitere mögliche und sinnvolle Module gegeben, welche
die Qualität des Programms deutlich erhöhen. Es werden weiterhin
verschiedene nicht realisierte Programm-Module und Ideen zu ProgrammModulen präsentiert und eine Einschätzung auf den tatsächlichen
Qualitätsgewinn im entstehenden Programm in Bezug auf den zu
investierenden Aufwand vorgenommen.
13
Das zwölfte Kapitel besteht aus einem Glossar. Aufgrund des
interdisziplinären Charakters des behandelten Themas werden
Fachbegriffe in verschiedenen Publikationen unterschiedlich definiert und
verwendet. Im Glossar werden diese Fachbegriffe in Bezug auf den
Gebrauch in dieser Arbeit definiert. Weiterhin werden Fachbegriffe, bei
ihrer ersten Benutzung in der Arbeit definiert werden, im Glossar kurz
erläutert, um ein besseres Verständnis beim Lesen der Arbeit in
ungeordneter Reihenfolge zu ermöglichen.
Das dreizehnte Kapitel enthält eine Auflistung der in der Arbeit
verwendeten und zitierten Literatur.
Im vierzehnten Kapitel werden die wichtigsten bei der Programmierung
erstellten Programme und Skripte in Form des entsprechenden ProgrammCodes abgedruckt. Der zweite Teil des Kapitels enthält Screenshots
(Bildschirm-Ausdrucke) der einzelnen erstellten Programm-Module, um
einen Eindruck von der Struktur, der Gestaltung und dem Inhalt des
Programms zu erhalten, ohne das Programm auf der beiliegenden CDROM starten zu müssen.
14
3. Grundlagen des multimedialen Lernens
In diesem Kapitel werden verschiedene mögliche Lerntheorien zur
Erarbeitung des Lernkonzepts für das multimediale Lernmodul
beschrieben. Da dieses Thema in einer sehr großen Anzahl von Büchern
und Veröffentlichungen erschöpfend behandelt wurde, ist der Umfang
dieses Kapitels bewusst kurz gehalten und es werden nur einige
ausgewählte Lerntheorien betrachtet. Neben den klassischen
lerntheoretischen Grundlagen werden Theorien zu Instruktionsdesign für
Lernsoftware betrachtet und schließlich Prinzipien des Multimedialen
Lernens dargestellt.
3.1. Lerntheoretische Grundlagen
Zunächst werden die wesentlichen klassischen Lerntheorien genauer
betrachtet. Es wird auf die drei klassischen Bereiche Behaviourismus,
Kognitivismus und Konstruktivismus eingegangen. Tabelle 1 stellt die
wesentlichen Merkmale der genannten Theorien nach [KAL02] gegenüber.
Behaviourismus
Paradmigma Konditionierung
Kognitivismus
Informationsverarbeitung
durch Individuen
Lernbeispiele Patterndrill,
Konzeptlernen,
positives/negatives Problemlösen
Reinforcement
Lehrerrolle
Experte
Tutor
Ziel
Objektives Wissen Objektives Wissen
Konstruktivismus
Aktive
Wissenskonstruktion
Fallbasiertes Lernen
Trainer, Coach
Kompetenz
Tabelle 1: Gegenüberstellung der drei klassischen Lerntheorien Behaviourismus,
Kognitivismus und Konstruktivismus [KAL02]
Im folgenden werden die drei Theorien genauer betrachtet.
3.1.1. Behaviorismus
Der Behaviorismus wurde zu einem großen Teil durch die Theorien
Skinners mitbegründet, in welchen der Konditionierung und Verstärkung
von Lernprozessen durch positives Feedback und Belohnung eine große
Bedeutung zugesprochen wurde. Nachfolgend werden nach Skinner
[AND01] und [SPA90] sieben Prinzipien des programmierten Lernens
angeführt, nach denen heute noch eine Großzahl der Drill-and-PracticeLernprogrammen des CBT (Computer-Based-Training) aufgebaut sind:
15
1. Auf jede Antwort muss eine Rückmeldung erfolgen.
2. Der „Anwender“ sollte in seinem persönlichen Lerntempo den
Lernstoff bewältigen.
3. Die Lernziele müssen für den Anwender klar definiert werden.
4. Aufgaben sollten mit hoher Warscheinlichkeit gelöst werden können.
5. Der Lernstoff sollte in einer Abfolge von Frage-AntwortKombinationen gegliedert werden.
6. Die Aufgaben sollten so gestellt sein, dass sie vom Lernenden
möglichst effizient bearbeitet werden können.
7. Engagiertes Arbeiten sollte durch Belohnung bekräftigt werden.
Das Hauptproblem des Behaviorismus besteht darin, dass er Lernen nur
im Sinne von Reiz-Reaktions-Verhältnis (S-R-Schema) versteht. Damit
wird dem Lernenden eine ausschließlich passive Rolle zugewiesen.
3.1.2. Kognitivismus
Kognitive Lerntheorien weisen dem selbständig entdeckenden Lernen eine
wichtigere Rolle zu ([AND01] und [SPA90]). Wissen soll danach aktiv
wahrgenommen, erfahren und erlebt werden, der Anwender ist dabei in
der Lage, die Informationen selbständig und eigenmotiviert in eine bereits
vorhandene Wissensstruktur zu integrieren.
Im „Instruktionsdesign“ des Kognitivismus [GOL97] geht man von der
Annahme aus, dass sich Lernprozesse in Bezug auf bestimmte Lernziele
gliedern lassen. Daraus folgend kann Lernsoftware einen objektivierten,
vorstrukturierten Ablauf haben, der allerdings auf verschiedene Lernstoffe
anwendbar sein sollte. Wichtige Vertreter der Strömung waren J.S.
Brunner, R. Gagné und M.D. Merill.
3.1.3. Konstruktivismus
Im Konstruktivismus geht man in seinen Lehr- und Lernkonzepten noch
darüber hinaus, da man die Bereitstellung optimaler Methoden zur
Erreichung von Lernzielen grundsätzlich in Frage stellt ([AND01] und
[SPA90]). Lernen ist immer in einem bestimmten Kontext situiert, und
dieser kann nicht durch vorgegebene Lernmethoden simuliert werden. Das
über Jahrzehnte vorherrschende Paradigma von der lernzielorientierten
Planung wird durch ein neues Paradigma offener Lernsituationen abgelöst,
in welchen der Lernende den Lernprozess und die Lernsituation nach
Möglichkeit selbst definiert und damit Wissen konstruiert.
Dabei werden als Werkzeug „digitale Assistenten“ (ITS: Intelligente
Tutorielle Systeme) entwickelt, welche sich an das Lernverhalten des
Anwenders anpassen (Adaptivität) und ihm ermöglichen, eigene
16
Lernkonzepte zu generieren (Programmierbarkeit). Als offene
Lernumgebung könnten Hypertextsystem dienen. Ihre Konzipierung und
Realisierung ist allerdings nur im Rahmen umfangreicher
Forschungsprojekte möglich. Zu den Hauptvertretern dieser Bewegung
zählen A. Collins, D.J. Cunningham, T. Duffy und D.H. Jonassen.
3.2. Instruktionsdesign für Lernsoftware
L.I. Issing stellt in der Abhandlung „Instruktionsdesign für Multimedia“
[ISS97] ein allgemeines Modell zur Entwicklung von Lernsoftware vor, das
in seiner Grundstruktur vielen bekannten Modellen der Stoffvermittlung
entsprechen soll.
Die allgemeine Instruktionsmethode wird nachfolgend aufgeführt:
1. Einführung
• Aufmerksamkeit erregen, motivieren
• Problem darstellen
• Ziele formulieren
2. Bearbeitung
• Vorwissen aktivieren
• Neue Information vermitteln
• Lernhilfen durch gezielte Aufgaben, Fragen und Hinweise
• Rückmeldungen und Korrekturen
3. Festigung
• Das Neue mit Bekanntem verknüpfen
• Wiederholen, Ergänzen und Vertiefen
• Lernerfolg ermitteln
• Auf weiterführende Lerninhalte hinweisen
Nachfolgend werden die einzelnen Arbeitsphasen des Modells des
systematischen Instruktionsdesigns beschrieben:
1. Definition der Lernziele:
Zu Beginn der Erstellung des Lernangebots steht die präzise
Formulierung der Lernziele, um die weiteren Arbeitsschritte und das
Erreichen derselben in der fertigen Anwendung an der definierten
Zielsetzung zu überprüfen.
2. Festlegen der Lernereigenschaften:
Zur genaueren Bestimmung der Lernziele gehören umfangreiche
Untersuchungen der Lernereigenschaften durch Vortests und
repräsentative Stichproben, da der Lernerfolg einer Lernanwendung
stark mit ihrer Fähigkeit zusammenhängt, sich in ihrem
Schwierigkeitsgrad und ihrer Vermittlungsstruktur an die Anwender
anzupassen. Über- und Unterforderung demotivieren und ermüden
den Anwender.
17
3. Auswahl des Lernstoffes:
Der Lernstoff wird in Abschnitte mit bestimmten Aufgaben
gegliedert, die eine logisch strukturierte und sinnvolle Lernabfolge
ergeben sollten.
4. Instruktions- und Visualisierungsform:
Die Instruktionsmethode wird abhängig vom Inhalt und dem
Anwender genauer bestimmt: Soll der Schwerpunkt auf übendem,
selbstgesteuertem oder unterhaltendem Lernen liegen? Soll
beispielsweise durch „simulierte Problemsituationen“ der Anwender
die Lösung selbst erarbeiten, oder wird er in „dialogischer Form“ auf
ein Problem hingeführt?
5. Entwicklung der Instruktionseinheiten und Produktion:
Nachdem die didaktische Planung abgeschlossen ist, erfordert die
Umsetzung im eigentlichen Produktionsprozess die Teamarbeit von
Fachdidaktikern, Mediendidaktikern und Medienexperten wie
Grafikern etc.
6. Erprobung der Einheiten an Einzelteilnehmern und der fertigen
Produktion in Lernergruppen:
Die gestellten Aufgaben und Lösungsschritte müssen während der
Produktion immer wieder überprüft werden, um Fehler im
Vermittlungskonzept noch rechtzeitig zu korrigieren. Dazu gehören
neben Medien- und Fachexperten Teilnehmer der anvisierten
Zielgruppe.
7. Implementierung und Felderprobung.
3.3. Prinzipien des Multimedialen Lernens
Nachfolgend werden Prinzipien des Multimedialen Lernens betrachtet.
In jeder Anfangsphase einer neuen Technologie gab es die Prophezeiung
von revolutionären Lernverbesserungen, die mit der neuen Technologie
jeweils verwirklicht werden sollten. Der Einsatz des neuen Mediums sollte
in dieser Hinsicht das Lernen stark vereinfachen und verbessern. Wurden
Evaluationsstudien zu den jeweiligen Lernverbesserungen in der
Entstehung der neuen Medien durchgeführt, dann zeigten sich auch
signifikante Verbesserungen. Wurden die Studien in einer späteren Phase
repliziert, dann waren diese Verbesserungen nur noch sehr schwach zu
messen. Dementsprechend wird davon ausgegangen, dass die
Verbesserungen eher durch den Enthusiasmus der beteiligten Personen
hervorgerufen wurden als durch den Einsatz der neuen Technologie.
18
Da dieses Phänomen bei der Einführung aller Medien beobachtet wurde,
liegt die Vermutung nahe, dass eine revolutionäre Lernverbesserung durch
E-learning nicht zu erwarten ist.
Im folgenden sollen nach [SCH94], [SCH99] und [SCH03] die wichtigsten
Erkenntnisse der klassischen Lerntheorien nochmals zusammengefasst
werden, um dann auf die Vorteile von Multimedia in der Umsetzung dieser
Erkenntnisse einzugehen:
•
•
•
Lernen ist ein kein rezeptiver Prozess, sondern ein aktiver und
konstruktiver Prozess. Der Lernende baut seine eigenen Strukturen
und Fähigkeitssysteme auf.
Lernen ist stark zielorientiert und selbstgesteuert.
Lernen ist situiert, findet also in einem gewissen Kontext statt.
Dieser Lernkontext bleibt erhalten. Der Lerneffekt ist ausgeprägter,
wenn die Anwendung in dem gleichen Kontext wieder abgefragt
wird.
Das Potential von Multimedianutzung
Betrachtet man diese Ergebnisse, dann hat multimediales Lernen ein
hohes Potential, um diese Ergebnisse umzusetzen [SCH03]:
•
•
•
•
•
Durch den Einsatz von Multimedia können realitätsnahe
authentische Lernsituationen geschaffen werden. Das didaktische
Prinzip der Anschaulichkeit und Visualisierung kann so konsequent
realisiert werden.
Durch den Einsatz von Multimedia (beispielsweise Filmclips) kann
vorhandenes Vorwissen aktiviert werden.
Lernen mit mehreren Sinnen ist möglich. Nach einigen Lerntheorien
ist Lernen mit mehreren Sinnen effektiver, da die Encodierung der
Lerninhalte besser erfolgt.
Multimediales Lernen ermöglicht durch die Verwendung von
informationsverarbeitenden Systemen eine Interaktivität, die bei
herkömmlichen Lernmethoden nur begrenzt verfügbar ist. Durch
diese informationsverarbeitenden Systeme kann Lernen stark
selbstgesteuert erfolgen.
Es ist ein exploratives Lernen möglich, in dem der Lernende
ausgiebig mit dem System interagieren kann.
Diese Punkte beschreiben nur das Potential des multimedialen Lernens.
Ob tatsächlich eine Lernverbesserung erfolgt, hängt vom richtigen Einsatz
und Zusammenspiel der verschiedenen Ebenen von Multimedia ab:
•
•
Die technische Ebene: die Zeichenträger (die Geräte: Computer,
Netzwerke...)
Die semiotische Ebene: die Zeichenarten (die Formen der
Repräsentation: Texte, Bilder, Diagramme...)
19
•
Die sensorische Ebene: die Zeichenrezeption (sensorische
Modalitäten: Auge, Ohr...)
Wird nur eine Ebene genutzt, dann wird sich keine Verbesserung im
Lernverhalten ergeben. Ein Beispiel: es könnte bei der Produktion von
multimedialen Lernmaterialien unter Ausreizung aller technischen
Möglichkeiten nur die technische Ebene betrachtet werden, indem eine
Lernumgebung geschaffen wird, die ein perfektes Zusammenspiel aller
technischen Entwicklungen beinhaltet. Wenn die semiotische und die
sensorischen Ebene nicht beachtet werden, dann wird dieses Programm
kaum ein effektives Lernen ermöglichen, da die Rezeption der zu
vermittelnden Inhalte blockiert wird.
Einsatz der einzelnen Medientypen
Im folgenden werden die einzelnen zur Verfügung stehenden Medientypen
beschrieben. Im Anschluss werden die Vorteile, die Nachteile und die
Gefahren ausgewählter Medientypen beim Einsatz in multimedialen
Lernumgebungen unter dem Gesichtspunkt der Erhöhung der Lerneffizienz
nach [SCH03] betrachtet.
In der folgenden Tabelle werden nach [KAL02] die einzelnen zur
Verfügung stehenden Medientypen beschrieben werden und deren
Anwendung dargestellt:
Medientyp
Text
Definition
Screenshot
WEB
Beschreibung
Erklärungen in
Textform, gegliedert in
maximal 3 Ebenen
(Unterabschnitt,
Kapitel, Teile eines
Kapitels)
Definitionen, Begriff
und textmäßige
Erklärung
Einzelne oder Folge von
Screenshots – zeigt
Inteaktion zwischen
Lernendem und
Computer
Kommentierte Links
(d.h. Kommentar zu
einem Link), eventuell
klassifiziert als
Hintergrund-Link,
probier-mal-aus-Link
20
Anwendung
Textmäßige
Beschreibung von
Sachverhalten
Kompakte Darstellung,
Grundlage für Weiteres
Präsentation von
Softwareabläufen und
Dialogen
Dokumentation von
weiteren Quellen im
Internet für das
Selbststudium
Medientyp
Programm
Beschreibung
Programmcode
Architekturgrafik
Architekturgrafik mit
beschrifteten Ebenen,
Rechtecken, Kanten
oder Wolken
Prozess-Grafik
Prozessgrafik mit
Instanzen (Aktivitäten)
und Artefakten
(Gegenstände,
Dokumente) sowie ihre
Zusammenhänge
Pixelgrafik
Foto
Animation
Video
Animation, Trickfolge
für Technik und
Verfahren
Videosequenz
Audio
Audiosequenz
Active
Aktive
Programmkomponente
(ActiveX oder Java)
Multiple Choice
MC
Lückentext
Anwendung
Auflistung und
Dokumentation von
Programmcode
Dokumentiert und
veranschaulicht
funktionale
Beziehungen,
Sachzusammenhänge
oder Schichten in einem
Softwaresystem
Dokumentiert und
veranschaulicht
zeitliche
Abhängigkeiten
Dokumentiert
Menschen, Geräte oder
Gegenstände als
Veranschaulichung
Dokumentation von
bewegten Vorgängen
Präsentation von
Beispielen im
akustischen Bereich
Präsentation von
Anwendungen
Üben und Prüfen mit
Fragen zu einem Thema
Üben und Prüfen von
Fragmenten zu
Programmcode und
Aufgaben
Ergänzen ausgelassener
Textfragmente
Tabelle 2: mögliche Bestandteile von multimedialen Lernmaterialien und deren
potentielle Anwendung [KAL02]
W. Schnotz beschreibt in [SCH03] die einzelnen Vorteile und Nachteile der
Nutzung von bestimmten Medientypen unter dem Gesichtspunkt des
Einsatzes in multimedialen Lernumgebungen:
21
Darbietungsform Eigenschaften in multimedialer Lernumgebung
Multiple Formen
Text mit Bild wird besser behalten als wenn Text allein
der
dargeboten wird:
Repräsentationen
• Wird begründet durch die Existenz von zwei
unterschiedlichen mentalen Modelle: (1)
verbales mentales Modell und (2) piktoriales
mentales Modell)
• Durch Kontiguität (enge räumliche oder zeitliche
Nähe) und Koheränz (gleiche Inhalte) von Text
und Bild wird Lerneffekt gestärkt, da eine
Integration der mentalen Modelle stattfindet
• Reihenfolge Text und danach Bild ist effektiver
als umgekehrt (da Interferenz der mentalen
Modelle verhindert wird: wird erst der Text
präsentiert, kann ein anderes mentales Bild
entstehen als für das dann später gezeigte Bild)
• Sehr viele verschiedene Repräsentationen eines
Sachverhaltes sind nicht effektiv, da diese
verschiedenen Möglichkeiten nicht genutzt
werden. Dies ist insofern zu begründen, da der
Lernende bei jeder neuen Repräsentation ein
Vergleich mit den bei den vorherig gebildeten
mentalen Modellen des Sachverhaltes
vergleichen muss. Dies resultiert in erhöhten
kognitiven Kosten und wird speziell von
schwächeren Lernenden vermieden.
Animationen
Vorteile:
• Ermöglicht ein sofortiges Verständnis eines
dreidimensionalen Sachverhalts, der sonst nur
zweidimensional dargeboten werden könnte
(Drehung von zweidimensionalen Objekten)
• Möglichkeit der Lenkung der Aufmerksamkeit
(kann auch vom Wesentlichen ablenken!)
• Erwerb prozeduralen Wissens (beispielsweise zur
Erklärung einer auszuführenden Reihenfolge)
• Supplantation: Durch den Einsatz einer externen
Simulation wird diese Darbietungsart von
Lernenden genutzt, die Schwierigkeiten haben,
einen Prozess ohne visuelle Hilfe
nachzuvollziehen. Für diese Lernenden wird eine
Unterstützung kognitiver Prozesse erreicht.
Nachteile:
• Oberflächliche Verarbeitung durch ausschließlich
passive Beschäftigung mit der Thematik
• Erhöhung der Gefahr, dass fehlerhafte mentale
Modelle gebildet werden
• Erhöhung der Gefahr, dass Lernende sich nur
passiv mit dem Thema beschäftigen
22
Darbietungsform
Multiple
sensorische
Modalitäten
(beschränkt auf
Auge und Ohr)
Eigenschaften in multimedialer Lernumgebung
• Bei Darbietung von visuellem Text und Bild
resultiert eine Doppelbelastung des visuellen
Arbeitsgedächtnisses (split attention).
•
Bei gleichzeitiger Darbietung von auditivem Text
und Bild kann sich das visuelle Arbeitsgedächtnis
auf die Verarbeitung der Bildinformation
konzentrieren, das auditive Arbeitsgedächtnis
verarbeitet die auditive Information. Durch das
Ansprechen beider Sinneskanäle resultiert eine
Vergrößerung der mentalen
Verarbeitungskapazität.
•
Die Verwendung von auditivem Text,
identischem visuellem Text und Bildern führt zu
geringerem Lernerfolg. Dies ist einerseits
dadurch begründet, dass wiederum „split
attention“ auftritt (der visuelle Text wird trotz
identischer Darbietung gelesen). Andererseits ist
die Geschwindigkeit der Verarbeitung von
gelesenem Text und gehörtem Text eine andere,
so dass Synchronisationsprobleme entstehen.
Es gibt klare Hinweise darauf, dass die
gleichzeitige Darbietung auditiver Texte und
eingebetteter Hintergrundmusik während einer
Instruktion das auditive Arbeitsgedächtnis
doppelt belastet und verringert damit die
semantische Verarbeitung des auditiven Textes.
•
Nichtlineare
Instruktion
Angenommene Vorteile:
• Multiple Perspektiven möglich
• Anregung für den Lernenden, Sachverhalte von
verschiedenen Seiten zu beleuchten
• Nicht lineares Denken wird gefördert
• Kognitive Flexibilität kann erhöht werden
Forschungsergebnisse:
• sind nicht einheitlich. Es gibt ebenso viele
Studien, dieVorteile gegenüber linearer
Darbietung zeigen, wie umgekehrt.
• Die Navigation, die Suche und die
Informationsevaluation erfordern kognitive
Ressourcen, die dann nicht mehr für Lerninhalte
zur Verfügung stehen.
23
Darbietungsform Eigenschaften in multimedialer Lernumgebung
Interaktivität
Angenommene Vorteile:
• Aktives Lernen
• Selbstgesteuertes Lernen
• Entdeckendes Lernen
Forschungsergebnisse:
• Sind nicht einheitlich.
• Interaktion erfordert kognitive Ressourcen.
• Häufig geringe Verwendung von Interaktion vom
Benutzer.
Tabelle 3: Eigenschaften verschiedener Darbietungsformen in multimedialen
Lernumgebungen nach [SCH03]
Es ist anzumerken, dass beim Einsatz von Multimedia in der Lehre das
Prinzip des angemessener Medieneinsatzes zu verfolgen ist, um auch eine
tatsächliche didaktische Verbesserung für den Lernenden zu erzielen.
W. Schnotz schließt in [SCH03]:
„Multimedia verbessert nicht generell das Lernen. Es gibt keine einfachen
didaktischen Daumenregeln. [...] Das Wesentliche ist für mich, dass das
Design von multimedialen Angeboten, also Instruktionsdesign von solchen
Lernumgebungen eine wissenschaftliche Theorie des multimedialen
Lernens braucht, also ein Verständnis dessen, was tatsächlich im
menschlichen Kopf passiert. [...]
Die neuen Medien können das Lernen effektiver und einfacher und
machen. Die Frage ist: Sollen wir das Lernen überhaupt so leicht wie
möglich machen. [...] Wir können es Lernenden auch zu leicht machen
und sie dadurch vom Lernen abhalten, indem wir ihnen kognitive Prozesse
abnehmen, zu denen sie durchaus selbst in der Lage sind.
Ich bin der Auffassung, dass Lernen eigentlich immer Anstrengung
erfordert und das Lernen nicht in einem netten Edutainment bestehen
kann, sondern dass der Ertrag in einem anderen Verstehen von
Zusammenhängen besteht, von denen man länger profitiert.
Insgesamt bin ich der Ansicht, dass Lernen mit Multimedia nur in dem
Maße erfolgreich sein wird, wie seine Realisierung auch angeleitet wird
durch eine kognitive Theorie, die zugleich empirisch gesichert ist.“
24
4. Der MPEG Layer-3 (MP3) Codec
In diesem Kapitel werden die für den Inhalt der multimedialen
Lernmaterialen relevanten Themen dargestellt.
Das Kapitel beginnt mit der Entwicklung und Geschichte des MPEGKonsortiums und der daraus entwickelten Standards. Im Anschluss
werden die verschiedenen Parametrisierungsmöglichkeiten eines MP3Encoders betrachtet. Es folgt eine ausführliche Erklärung der
Funktionsweise inklusive zugrundeliegender psychoakustischer
Phänomene. Dieser Teil des Kapitels ist bewusst ausführlich gehalten
worden, da das Verständnis der Funktionsweise und der einzelnen
zugrundeliegenden Prinzipien den gesamten Spezifikationen und
Entwürfen zugrunde liegt. In den folgenden Kapiteln wird aus diesem
Grund immer wieder auf diesen Abschnitt dieses Kapitels zurückgegriffen
werden.
Weiterhin wird in diesem Kapitel auf die Qualitätsmerkmale und –
unterschiede verschiedener perzeptiver Codecs eingegangen. Schließlich
werden die Möglichkeiten und Standards zur objektiven
Vergleichsmöglichkeit verschiedener Codecs beleuchtet, sowie die
Resultate verschiedener Codecs in objektiven Tests dargestellt.
4.1. Entwicklung und Geschichte
Der MPEG Layer-3 Codec blickt schon jetzt auf eine fast zehnjährige
Geschichte zurück. Er wurde im Jahr 1991 standardisiert. In den ersten
Jahren wurde er hauptsächlich für Studio- und Broadcast-Anwendungen
benutzt, unter anderem konnte man mit MP3 ISDN-Telefonleitungen als
einen kosteneffektiven Kanal zur Übertragung von Audio mit hoher
Qualität benutzten. 1995 wurde MPEG Layer-3 als das Audioformat für das
digitale Satellitenfernsehen (DSB) ausgewählt. Aufgrund der
massenhaften Verbreitung des Internets, auch als Medium für den
elektronischen Tausch von digital gespeicherter Musik, erlangte aufgrund
der begrenzten Bandbreiten der meisten Internetzugänge MPEG Layer-3
als ein hochwertiges Kompressionsformat für diesen Musiktausch einen
hohe Berühmtheit. 1999 war „.mp3“ der meistgesuchte Begriff im Word
Wide Web. 1998 begann die Firma Saehan Information Systems mit dem
Verkauf des ersten portablen MP3-Players „MPMAN“, der Beginn der
Produktion diverser Player für das MP3-Format, womit endgültig die
Loslösung von Audio-Files, die nur auf Computer-Festplatten vorlagen und
dementsprechend nicht mobil einsetzbar waren, begann. Berühmtheit
erlangte das MP3-Format nicht zuletzt durch diverse Prozesse und Klagen
der Musikindustrie, da in den diversen Tauschbörsen nicht nur
Eigenproduktionen oder freie Musik gehandelt wurden, sondern
zunehmend auch Raubkopien diverser rechtlich geschützter Musiktitel,
25
teilweise ganze Alben von kommerziell sehr erfolgreichen Musikern. In den
vergangenen Jahren musste die Musikindustrie durch diese Art der
Verbreitung raubkopierter Musik finanzielle Schäden von 10% hinnehmen.
Diese Zahl stammt aus diversen Marktanalysen verschiedener
Marktforschungsunternehmen. Die Musikindustrie beruft sich gern auf
höhere Zahlen. Es ist zweifellos richtig, dass durch die Tauschbörsen
finanzielle Verluste entstanden, aber welchen Anteil diese real am
Gesamtverlust haben bleibt fraglich. Allgemein gehen die Marktanalysen
davon aus, dass sich das Konsumverhalten der für die Musikindustrie
hauptsächlich interessanten Zielgruppe (20-30jährige) in den letzten
Jahren von Musik- und Unterhaltungselektronik zunehmend zu
Telekommunikationsprodukten verlagert hat.
4.1.1. Die verschiedenen MPEG-Standards
Die MPEG-Gruppe Moving Pictures Experts Group) wurde 1988 von der
ISO/IEC Standardisierungsgruppe ins Leben gerufen, um Standards für die
Codierung von Video und Audio zu schaffen. Die einzelnen Standards
werden im folgenden beschrieben.
MPEG-1
Die erste Phase des Projektes wurde MPEG-1 genannt und begann 1988.
Ende 1992 wurde der erste Standard, genannt IS 11172, fertiggestellt.
Der Teil dieses Standards, der die Audiokodierung beschreibt (IS 11172-3)
besteht aus 3 Operationsmodi, die die steigende Komplexität und
Performanz beschreiben, genannt Layer-1, Layer-2 und Layer-3. Der
komplexeste Modus, Layer-3, wurde entwickelt um die höchste
Klangqualität bei geringen Bitraten (um 128 kBit/s für Stereo) zu
gewährleisten.
MPEG-2
Die zweite Phase des Projektes wurde MPEG-2 genannt und führte neue
Konzepte in die Videocodierung ein, unter anderem die Unterstützung von
Interlaced Video und Motion Compensation. 1994 wurde der MPEG-2
Audiostandard (IS 13818-3) fertiggestellt und bestand im Wesentlichen
aus folgenden Verbesserungen: Es wurde eine Mehrkanaloption
implementiert, so dass unter anderem auch das bekannte Kinotonformat
5.1 codiert werden konnte. Dieses Format ist auch als 3/2-Format
gebräuchlich: zusätzlich zum Stereosignal existieren drei weitere
vollwertige Audiokanäle: ein Centerkanal, ein linker und ein rechter
Surroundkanal; weiterhin für tieffrequente Effekte ein Kanal für den SubBassbereich). Diese Mehrkanal-Option ist rückwärtskompatibel, so dass
26
MPEG-1 Stereodecoder über eine Downmix-Matrix alle Kanäle in ein
Stereosignal decodieren können.
Ebenso wurden andere Abtastraten (16kHz, 22.05kHz, 24kHz) zu den
bereits unterstützten (32kHz, 44.1kHz und 48kHz) implementiert.
1994 zeigten Tests, dass neue Codierungsverfahren, die keine
Rückwärtskompatibilität zu MPEG-1 besaßen, eine signifikante
Verbesserung in der Codierungseffizienz mit sich brachten. Dies führte
dazu, dass ein neuer Audiocodierungs-Standard entwickelt wurde,
genannt MPEG-2 Advanced Audio Coding (AAC, IS 13818-7). Dieser wurde
im Jahr 1997 fertiggestellt. AAC ist ein Audiocodierungsalgorithmus der
zweiten Generation, der sowohl Stereo- als auch Mehrkanalsignale (bis zu
48 Kanälen) codieren kann und Abtastraten von 8kHz bis zu 96kHz
unterstützt.
MPEG-3
MPEG plante einen Standard für die Videocodierung von HDTV (High
Definition Television) zu entwickeln. Es stellte sich aber heraus, dass die
MPEG-2 Codierungsverfahren und deren Anwendungen auch den
Qualitätsansprüchen von HDTV genügten, und so wurde ein MPEG-3
Standard nie verwirklicht. Manchmal ist unter dem Begriff „MPEG-3“ die
Bezeichnung des Formates MPEG Layer-3 zu finden. Dies ist aber ein
Fehler, ein MPEG-3 hat es nie gegeben.
MPEG-4
Die erste Version des Standards MPEG-4 (IS 14496-39) wurde 1998
fertiggestellt, die zweite Version 1999. In MPEG-4 wurden eher neue
Funktionalität als bessere Effizienz des Compressions-Algorithmus
verwirklicht, unter anderem Datenbankenzugang, mobiler und stationärer
Zugang und verschiedene Arten von interaktiven Dienstleistungen. MPEG4 besteht aus einer ganzen Gruppe von Audiocodierungsalgorithmen, von
Sprachcodierungen bei niedrigen Bitraten (bis zu 2kBit/s) bis zu
hochqualitativer Audiocodierung. Die Audiocodierung bei mittleren bis
hohen Bitraten wird durch AAC verwirklicht.
Da die Codecs teilweise lizensiert werden mussten, wurde der MPEG-4
Codec urheberrechtlich widerrechtlich raubkopiert und dieser neue Code
für alle zugänglich unter dem Namen DIVX implementiert und
veröffentlicht. Der Name DIVX geht dabei auf ein in den USA
verwirklichtes Pay-TV-Projekt zurück. Als effizeinter und kostenloser
Video-Codec hat sich DIVX einen bedeutenderen Namen gemacht als das
Original, der MPEG-4-Codec.
MPEG-7
27
Entgegen MPEG-1, MPEG-2 und MPEG-4 definiert MPEG-7 keinen
Codierungsalgorithmus. MPEG-7 ist ein Repräsentationssystem für
multimediale Inhaltssuche, bestehend unter anderem aus Inhalts-Filtern,
Inhaltsmanagement und Inhaltsbearbeitung.
MPEG-21
MPEG-21 besteht im Wesentlichen aus verschiedenen Möglichkeiten zur
Copyright-Wahrung, der Wahrung anderer Urheber-Rechte sowie
verschiedenen Abrechnungsmöglichkeiten für die Nutzung digitaler
Medien. Dies wird unter dem Begriff DRM (Digital Rights Managements)
zusammengefasst.
4.2. Parametrisierung von MP3-Codecs
Um den Codec an möglichst viele verschiedene Nutzungs-Szenarios
anpassbar zu machen, bietet MPEG Layer-3 einige Anpassungsoptionen
und Parametrisierungen, die im folgenden dargestellt werden.
4.2.1. Operating mode
Der Codec ist für Mono- und Stereosignale einsetzbar. Folgende Parameter
sind einstellbar:
•
•
•
•
Single channel
Dual channel (Codieren von zwei unabhängigen Kanälen, zum
Beispiel unterschiedliche Sprachen auf beiden Kanälen)
Stereo
Joint Stereo (effiziente kombinierte Codierung des linken und
rechten Kanals eines stereophonen Audiosignals unter Ausnutzung
der Reduktion aufnahmebedingter Redundanz)
4.2.2. Abtastrate
Der Codec kann Abtastraten von 32kHz, 44.1kHz und 48 kHz verarbeiten.
4.2.3. Bitrate
Der Codec kann mit verschiedenen Bitraten betrieben werden. Die
einzustellende Bitrate ist (unter Festlegung diskreter Werte) frei
28
einstellbar. Es können Bitraten von 8kBit/s bis zu 320kBit/s eingestellt
werden. Ein MP3-Decoder muss die Unterstützung von unterschiedlichen
Bitraten von Audioframe zu Audioframe bieten. Dieses gewährleistet (in
Kombination mit der Bit-Reservoir-Technik) sowohl variable
Bitratencodierung als auch konstante Bitraten-Codierung.
4.3. Funktionsweise des MP3-Encoders
Das Prinzip der Funktionsweise eines MP3-Enocers ist in Abbildung 1als
Blockdiagramm dargestellt.
Abbildung 1: Blockdiagramm eines MP3- Encoders aus [BRA94]
Das am Eingang des Encoders anliegende Audiosignal wird durch zwei
Filterbänke in den Frequenzbereich transformiert. Die erste Filterbank teilt
das Audiosignal in äquidistante Frequenzbereiche auf, sie gewährleistet
eine Kompatibilität zu MPEG1 Layer1 und MPEG Layer2. Die zweite
Filterbank teilt die durch die erste Filterbank gefilterten
Signalkomponenten in weitere, schmalere Frequenzbereiche.
Parallel dazu wird das Signal durch eine FFT transformiert einem
perzeptiven Modell zugeführt, welches für alle Signalkomponenten die
gerade noch erlaubte Maskierungsschwellen bestimmt5.
Diese Schwellen dienen als Grundlage für die nachfolgende
Quantisierungs-Stufe des Encoders. Diese bestimmt aus den berechneten
Schwellen die gerade noch tolerierbare Quantisierung für die
Signalkomponenten, so dass das dabei entstehende
Quantisierungsrauschen unterhalb der berechneten Schwellen bleibt.
Nach der Quantisierung der Signalkomponenten werden diese einer
Huffman-Codierung unterzogen und schließlich in einem MP3 kompatiblen
Datenstrom angeordnet.
5
Aufgrund der Signalenergie in der betrachteten Signalkomponente wird die Schwelle
bestimmt, bei der ein dem Signal zugefügtes Rauschsignal gerade hörbar wird.
29
Nach dieser kurzen Skizzierung wird im folgenden ausführlich das Prinzip
der Funktiosweise der einzelnen Komponenten eines MP3-Encoders
beschrieben. Dabei handelt sich um eine Zusammenfassung der
Literaturquellen [BRA00], [BRA88], [BRA03], [BRA94], [BRA99] sowie der
Dissertationen [RAN01] und [LAI01].
4.3.1. Die hybride Filterbank
Das digitale Audiosignal wird mittels einer hybriden Filterbank in spektral
getrennte Teilsignale zerlegt. Diese hybride Filterbank besteht aus zwei
unterschiedlichen, kaskadierten Arten von Filterbänken, einer polyphasen
Filterbank und einer MDCT-Filterbank (Modified Discrete Cosine
Transform). Die polyphase Filterbank wurde benutzt, um die
Kompatibilität zu Layer1 und Layer2 aufrechtzuerhalten. Sie zerlegt das
Audiosignal in 32 Teilbänder, die alle den gleichen spektralen Abstand
haben (500Hz Bandbreite bei einer Abtastrate von 32 kHz). Nach diesem
Prozess befinden sich die gefilterten Audiosignale noch immer im
Zeitbereich. Jedes Teilband besteht jetzt aus 32 Samples. Durch die Wahl
der Filterbandbreite ist eine gute Zeitauflösung des Eingangssignal
gegeben (2ms; T=1/f), aber mit 500 Hz Auflösung besitzt es eine denkbar
schlechte Frequenzauflösung. Durch Überlappung der einzelnen Filter wird
ein Aliasing erzeugt.
Eine Verbesserung der Frequenzauflösung (und gleichzeitig die
Transformation in den Frequenzbereich) erfolgt durch Unterteilung in 18
feinere Sub-Frequenzbänder durch die MDCT-Filterbank. Insgesamt
besteht die maximale Anzahl der Kanäle aus 32x18=576 Kanälen. Sie
erhöht das Potential für die Redundanz-Entfernung und führt damit zu
einer erhöhten Effizienz der Codierung für tonale Signale. Durch die
höhere Frequenzauflösung kann das entstehende Fehlersignal besser
kontrolliert werden, und führt damit zu einer genaueren Bestimmung der
Maskierungsschwelle.
Die MDCT-Filterbank kann auf eine niedrige und eine hohe
Frequenzauflösung (und damit auf eine genauere und ungenauere
Zeitauflösung) umgestellt werden, um „pre-echoes“ (zur Erklärung siehe
Kapitel „Artefakte“) zu vermeiden.
Treten diese „pre-echoes“ vor der Vorverdeckungsgrenze des Signals auf
(siehe Kapitel „Maskierung), dann kann das Rauschen deutlich hörbar als
durch den Encoder hinzugefügtes Verzerrungs-Signal wahrgenommen
werden.
Zur Vermeidung von „pre-echoes“ ist es notwendig, ein Kriterium zu
definieren, wann die Länge des Analysefensters umgeschaltet werden soll,
wann also ein transientes Signal auftritt.
Dazu wird das Verhalten der sogenannten PE (perceptual entropy)
betrachtet: dabei handelt es sich vereinfacht dargestellt um die Anzahl der
Bits, die benötigt werden, um einen Signalanteil zu encodieren. Eine „pre30
echoe“-Kondition kann durch einen plötzlichen Anstieg der PE
gekennzeichnet identifiziert werden. Überschreitet die Bit-Notwendigkeit
für eine Codierungssequenz einen bestimmten Wert, dann wird eine „preechoe“-Situation angenommen und der Mechanismus zum Umschalten der
Fensterlänge aktiviert, und es wird auf ein kürzeres Zeitfenster
umgeschaltet. Nach der Codierung der Transiente wird wieder auf das
lange Zeitfenster umgeschaltet. Das Verhältnis der Länge der beiden
Fenster ist 1:3.
Durch die notwendigerweise erhöhte Bitanzahl bei der Codierung der
Transiente ist es möglich, dass der „Bit-Reservoir“-Mechanismus aktiviert
wird.
Im „mixed block mode“ ist es möglich, lange Zeitfenster für die ersten
beiden Frequenzbänder (also bis 1000Hz) und kurze Zeitfenster für die
restlichen 30 Frequenzbänder zu benutzen. Dieser Modus gestattet damit
eine gute Frequenzauflösung für die tiefen Frequenzen, ohne die (für die
genaue Reproduktion von Transienten notwendige) hohe Zeitauflösung für
die hohen Frequenzen zu beeinträchtigen.
In der MDCT-Filterbank wird gleichzeitig das Aliasing entfernt, das den
einzelnen Teilsignalen durch die polyphase Filterbank zugefügt wurde.
4.3.2. Das perzeptive6 Modell
Während das Eingangssignal der hybriden Filterbank zugeführt wird, führt
der Algorithmus es synchron einem sogenannten perzeptiven Modell zu,
welches das Verhältnis von Signalenergie zur Maskierungsschwelle für
jedes Frequenzband bestimmt.
Es simuliert das menschliche auditive Wahrnehmungssystem und
bestimmt, welche Teile des Audiosignals für das auditive
Wahrnehmungssystem irrelevant (also nicht hörbar) sind, und damit ohne
wahrnehmbare Klangveränderungen aus dem Audiosignal entfernt werden
können. Im speziellen definiert es beispielsweise die Schwelle, bis zu der
man dem Audiosignal im entsprechenden Frequenzband ein Rauschen
hinzufügen kann, ohne dass dieses hinzugefügte Rauschen hörbar ist,
wenn es gleichzeitig mit dem Audiosignal dargeboten wird.
Dieses perzeptive Modell bestimmt hauptsächlich die Qualität des
Encoders: Jeder Encoder kann sein eigenes perzeptives Modell (oder auch
gar keines!) benutzen, um die speziellen Eigenschaften des menschlichen
Ohres gezielt zur Verbesserung der Qualität seines Encoders auszunutzen,
was K. Brandenburg deutlich herausstellt:
6
In der englischen Fachliteratur wird der Begriff „perceptual model“ benutzt. In einigen
deutschen Publikationen (aber nicht in Fraunhofer oder MPEG Publikationen) wird der
Begriff mit „Psychoakustisches Modell“ übersetzt. Da für diesen deutschen Begriff aber
eine eindeutige englische Übersetzung in dem Wort „psychoacoustic model“ existiert,
wurde in dieser Arbeit „perceptual model“ mit „Perzeptives Modell“ übersetzt.
31
„Encoding of MPEG Audio is completely left to the implementer of the
standard. As a helpful guide-line, the ISO standards contain the
description of example encoders. While these descriptions were derived
from the original encoders used for verification tests, a lot of experience
and knowledge is necessary to implement good-quality MPEG audio
encoders. The amount of investment necessary to engineer a high-quality
MPEG audio encoder has kept the number of independently-developed
encoder implementations very low.” ([BRA00], Seite 7)
Als Resultat des perzeptiven Modells werden Werte für die
Maskierungsschwellen für jedes einzelne Frequenzband des Encoders
erzeugt. Das Ziel ist es, das entstehende Quantisierungsrauschen in
jedem Frequenzband unterhalb dieser Maskierungsschwelle zu halten,
denn dann ist das komprimierte Signal nicht vom Originalsignal in Bezug
auf den Rauschanteil zu unterscheiden.
Im folgenden sollen die verschiedenen Maskierungsschwellen dargestellt
werden. In dieser Arbeit werden keine physiologischen,
wahrnehmungspsychologischen oder evolutionären Erklärungen der
dargestellten psychoakustischen Phänomene gegeben, da dies den
Umfang dieser Arbeit sprengen würde. Es wird auf die jeweiligen Kapitel in
[ZWI90], [ZWI67] und [ROE93] verwiesen.
Die Maskierungsschwellen
Beim Erzeugen eines Schalles werden winzige Schwankungen des
Luftdruckes um den statischen atmosphärischen Luftdruck erzeugt,
genannt Schalldruck. Diese Schwankungen werden über den auditiven
Apparat in ein „Hörereignis“ umgewandelt. Dabei kann ein sehr geringer
Schalldruck, wie er zum Beispiel beim Fallen einer Nadel entsteht, ebenso
gehört werden wie ein sehr hoher Schalldruck, wie er beim Starten eines
Düsenjets in der Nähe des Flugzeuges (und da zumindest einmal gehört
werden kann...) erzeugt wird. Das Hörvermögen des Menschen umfasst
dabei mehrere Zehnerpotenzen des Schalldruckes.
Es ist aus der persönlichen Erfahrung nachvollziehbar, dass das Fallen
einer Nadel nicht wahrnehmbar ist, wenn zu gleicher Zeit das Geräusch
des startenden Düsenjets zu hören ist. Ebenso wird man das Ticken eines
Weckers nicht hören, wenn er gerade laut klingelt, obwohl er zweifellos in
dieser Zeit auch tickt.
Dieses Phänomen wird als Maskierung bezeichnet. Maskierung tritt immer
dann auf, wenn ein leises Audiosignal in spektraler oder zeitlicher Nähe
eines lauten Audiosignals nicht mehr wahrnehmbar ist. Man unterscheidet
im Wesentlichen drei verschiedene Arten der Maskierung:
32
Maskierung unterhalb der Absoluten Hörschwelle
Die absolute Hörschwelle eines Tones wird definiert als diejenige
(Schalldruck-) Schwelle, bei der ein reiner Ton (Sinus) gerade
wahrnehmbar ist. Ermittelt man diese Schwelle für alle reinen Töne (also
alle Frequenzen) und über viele Hörer, dann erhält man die in Abbildung 2
dargestellte Hörschwelle.
Diese gibt über die Frequenz aufgetragen jeweils denjenigen Schalldruck
an, an der ein Sinuston der jeweiligen Frequenz gerade hörbar ist.
Abbildung 2: Absolute Hörschwelle von Sinustönen aus [ZWI67]
Sollte die Energie eines Audiosignals unter der absoluten Hörschwelle
liegen, so wird dieses Audiosignal natürlich nicht wahrgenommen.
Mithörschwelle
Tritt ein Audiosignal mit geringer Energie in spektraler Nähe eines
Audiosignals mit höherer Energie auf (z.B. ein leiser 1100Hz Ton und ein
lauter 1000Hz Ton), dann wird nur das Signal mit der höheren Energie
(genannt Masker) wahrgenommen, das leisere Signal wird vom lauteren
Signal verdeckt.
Die Maskierungsschwelle eines gegebenen Maskers hängt von dessen
Energie und Frequenz ab. In Abbildung 3 ist die Mithörschwelle über der
Frequenz aufgetragen die Mithörschwelle von Sinustönen (ab welchem
Schalldruckpegel sie wahrgenommen werden), wenn ein
Schmalbandrauschen mit der Mittenfrequenz von 1000Hz und den mit Lg
dargestellten Schalldruckpegeln gleichzeitig dargeboten wird:
33
Abbildung 3: Mithörschwellen eines Sinustones, verdeckt durch
Schmalbandrauschen aus [ZWI67]
Jedes Audiosignal (also auch jedes Rauschen), dessen Energie sich
unterhalb der Maskierungsschwelle des Maskers befindet, ist nicht
wahrnehmbar, sofern es zeitgleich (und auf dem gleichen Ohr) mit dem
Masker dargeboten wird.
Nachverdeckung / Vorverdeckung
Tritt ein Audiosignal mit geringer Energie zeitlich kurz vor
(Vorverdeckung) oder kurz nach (Nachverdeckung) einem anderen
Audiosignal mit höherer Energie auf, beispielsweise ein leiser Violinenton
kurz nach einem lauten Orchester-Gesamtspiel, dann wird nur das Signal
mit der höheren Energie (der Masker) wahrgenommen, das leisere Signal
wird vom lauteren Signal maskiert.
Abbildung 4 zeigt die Nachverdeckungskurve eines Rechtecksignals:
34
Abbildung 4: Vorverdeckungs- und Nachverdeckungskurve eines
Rechtecksignals aus [ERN01]
Nachverdeckung tritt bis zu 160ms nach Beendigung des Maskers auf,
Vorverdeckung nur bis zu 20ms vor Beginn des Maskers.
4.3.3. Quantisierung und Codierung
Die Quantisierung des Audiosignals orientiert sich an den vom perzeptiven
Modell berechneten Maskierungsschwellen. Das Audiosignal wird in den
entsprechenden Frequenzbändern so quantisiert, dass das dabei
entstehende Quantisierungsrauschen7 gerade unterhalb der berechneten
Maskierungsschwelle bleibt:
„The output of the perceptual model consists of values for the masking
threshold of the allowed noise for each coder partition. [...] If the
quantization noise can be kept below the masking threshold for each
coder partition, then the compression result should be indistinguishable
from the original signal.” ([BRA00], Seite 7)
Abbildung 5 verdeutlicht dieses Prinzip:
7
Eine gröbere Quantisierung bedeutet höheres Quantisierungsrauschen. Es sind jedoch
eine geringere Anzahl an Bits zur Darstellung des Signals notwendig.
35
Abbildung 5: Maskierungsschwelle eines Signals und Pegel von verschiedenen
Quantisierungsstufen aus [ERN01]
Bei einer gegebenen Quantisierung des Signals von m Bits entsteht ein
Quantisierungs-Rausch-Teppich. Wird die Quantisierung noch eine Stufe
herabgesetzt auf (m-1), was sich positiv auf die zur Encodierung
notwendigen Bits auswirken würde, so erhöht sich der Rausch-Teppich.
Steigt der Rausch-Teppich schließlich so weit an, das die MaskierungsSchwelle überschritten wird, dann wird dieses Rauschen hörbar, und die
Qualität des Signals verschlechtert sich damit wahrnehmbar. Im folgenden
wird das Prinzip der Quantisierung im MP3-Codec ausführlich dargestellt.
Es wird ein System aus zwei ineinander geschachtelten iterativen
Schleifen benutzt, um die Quantisierung und Codierung im Encoder zu
realisieren. Die Quantisierung wird mit einem „power law quantizer“
umgesetzt. In diesem werden große Werte automatisch weniger genau
codiert (nonuniform quantization), ein Noise-Shaping ist in diesen Prozess
bereits integriert. Folgende Formel kommt dabei für die Quantisierung zur
Anwendung:
Abbildung 6: Für die MP3-Encodierung verwendete Quantisierungsformel aus
[BRA94]
Die quantisierten Werte werden anschließend nach dem HuffmanVerfahren codiert. Um den Codierungsprozess den zeitlich
unterschiedlichen statistischen Eigenschaften des Audiosignals
anzupassen, wird die jeweilige optimale Huffman-Tabelle aus einer Anzahl
unterschiedlicher Huffman-Tabellen ausgewählt. Die Huffman-Codierung
arbeitet in Paaren und im Fall von sehr kleinen Werten in Quadrupeln. Um
36
eine noch genauere Annäherung an die Statistik des Signals zu erhalten,
ist es möglich, unterschiedliche Huffman-Tabellen für verschiedene Teile
des Spektrums auszuwählen. Da die Huffman-Codierung eine Codierung
mit variabler Codelänge ist, und Noise-Shaping nötig ist, um das
Quantisierungsrauschen unter der Maskierungsschwelle zu halten, wird ein
„global gain value“ (das die Quantisierungs-Schrittweite bestimmt) und
„scalefactors“ (die die Faktoren für das Noise-Shaping für jedes Band
bestimmen) vor der Quantisierung appliziert. Um die optimalen „gain
values“ und „scale factors“ aus einem perzeptiven Block für einen
gegebenen Block und eine gegebene Bitrate zu finden, werden zwei
ineinander geschachtelte iterative Schleifen in einem „analysis-bysynthesis“ Verfahren kombiniert:
Inner iteration loop (rate loop)
Die Huffman-Code-Tabellen weisen (häufiger vorkommenden) kleineren
Quantisierungswerten kürzere Codeworte zu. Wenn die Anzahl der Bits,
die aus der Codierung resultiert, die Anzahl der verfügbaren Bits für den
gegebenen Datenblock übersteigt, können die „global gain values“
angepasst werden. Damit einhergehend wird eine größere QuantisierungsSchrittweite erreicht, und damit weniger Quantisierungswerte.
Diese Operation wird solange mit verschiedenen QuantisierungsSchrittweiten wiederholt, bis die Anzahl der angeforderten Bits für die
Huffman-Codierung klein genug ist.
Outer iteration loop (noise control loop)
Um das Quantisierungsrauschen in Bezug zur Maskierungsschwelle
spektral zu formen, werden „scalefactors“ auf jedes Band angewendet.
Das System beginnt mit dem Faktor 1.0 für jedes Band. Wenn das
Quantisierungsrauschen im gegebenen Band die Maskierungsschwelle
übersteigt (und damit den erlaubten Rauschwert für dieses Band), die
durch das perzeptive Modell gegeben ist, dann wird der „scalefactor“
dieses Bandes so angepasst, dass das Quantisierungsrauschen reduziert
wird. Da für ein geringeres Quantisierungsrauschen eine grössere
Quantisierungs-Schrittweite und damit mehr Bits zur aktuellen Codierung
notwendig sind, muss bei jeder Veränderung der „scalefactors“ erneut der
„rate loop“ wieder angepasst werden. Somit ist der „rate loop“ in den
„noise control loop“ geschachtelt.
Der „noise control loop“ wird solange wiederholt, bis das tatsächliche
Rauschen (gebildet als die Differenz zwischen den originalen spektralen
Werten und den quantisierten spektralen Werten) unterhalb der
Maskierungsschwelle für jedes Band liegen.
37
Konvergenzbetrachtungen
Während der rate loop immer konvergiert (nötigenfalls indem die
Quantisierungs-Schrittweite so groß gesetzt wird, dass alle spektralen
Werte auf Null gesetzt werden), gilt das nicht für die Kombination aus
beiden Schleifen. Wenn das perzeptive Modell so kleine QuantisierungsSchrittweiten verlangt, dass der „rate loop“ diese immer weiter erhöhen
muss, um in der vorgegebenen Bitrate codieren zu können, dann kann
dieser Vorgang zu einer endlosen Schleife führen.
4.3.4. Formatierung des Bitstromes
Der letzte Block des Encodierens besteht in der Produktion eines den
Spezifikationen des MP3-Formats entsprechenden Bitstroms. Die Huffmancodierten spektralen Koeffizienten, Meta-Information und ein FrameHeader werden zu einem Frame zusammengefügt. Jeder Frame
repräsentiert 1152 Audiosamples, die einzelnen Frames werden zu einem
Bitstrom verbunden. Im Header wird die benutzte Bitrate und
Abtastfrequenz definiert. In den Meta-Informationen wird unter anderem
die Filterauflösung, die verwendeten Huffman-Tablellen und die „scale
factors“ festgehalten.
Abbildung 7 zeigt den genauen Aufbau eines MP3-konformen AudioHeaders:
Abbildung 7: MPEG Layer 3-konformer Audio-Header aus [BEA97]
38
Bit-Reservoir
Wenn der Encoder in einem Frame nicht die volle Anzahl der zur
Verfügung stehenden Bits benötigt, um den Audio-Block vollständig zu
encodieren, dann kann er die überschüssigen Bits einem sogenannten
„Bit-Reservoir“ zuweisen.
Wenn der Encoder in einem anderen Frame hingegen mehr als die zur
Verfügung stehende Anzahl an Bits benötigt, so kann er Bits vom „BitReservoir“ leihen. Es ist nur möglich, Bits von bereits encodierten Frames
zu leihen, nicht von zukünftig zu encodierenden Frames.
Diese Technik bestimmt auch wesentlich die VBR-Möglichkeit (Variable Bit
Rate) verschiedener Encoder. In dieser wird keine konstante Bitrate
übertragen, sondern nur die Bitrate, die zur Encodierung des jeweiligen
Signals notwendig ist. Bei vielen Signalen kann durch diese Technologie
die Bitrate des encodierten Datenstroms gegenüber der konstanten Bitrate
deutlich sinken.
4.4. Funktionsweise des MP3-Decoders
Abbildung 8 zeigt das Prinzip des MP3-Decoders. Im folgenden soll das
Prinzip des MP3-Decoders kurz dargestellt werden.
Abbildung 8: Blockdiagramm eines MPEG Layer 3 Decoders aus [BRA94]
Die Huffman-codierten Werte werden decodiert. Weiterhin werden die
„scale factors“ und die einzelnen Signal-Informations-Samples aus dem
Datenstrom seperiert (demultimplext). Aus den einzelnen
Signalinformationen (spektrale Koeffizienten) wird unter Beachtung der
„scale factors“ und der „bit allocation“ über eine Synthesefilterbank
(inverse MDCT-Filterbank) dann wieder das komplette Audiosignal
rekonstruiert.
39
Dabei benötigt der Decoderung bedeutend weniger Rechenaufwand als die
Encodierung.
4.5. Qualitätsmerkmale des Encoders
Codecs können die Qualität des Audiosignals verändern, wenn sie mit zu
niedriger Bandbreite oder mit falschen Parametern betrieben werden.
Fehlersignale, die im Audiosignal durch perzeptive Audiocodierung
entstehen, werden Artefakte genannt. Diese Artefakte unterscheiden sich
grundsätzlich von herkömmlichen Veränderungen des Audiosignals, da
perzeptive Codecs Verzerrungen erzeugen, die als zeitveränderliches
Fehlersignal in bestimmten Frequenzbereichen beschrieben werden
können. Sie sind damit entgegen herkömmlichen Verzerrungen (wie zum
Beispiel harmonische Verzerrungen) nicht auf die Harmonischen im
Musiksignal beschränkt, und fallen unter Umständen durch ihren sehr
ungewöhnlichen, sehr unnatürlichen Klangcharakter stark auf. Das
resultierende Musiksignal kann folgendermaßen klingen:
•
•
•
Verzerrt, aber nicht harmonisch verzerrt;
Erhöhtes Rauschen, aber das Rauschen tritt nur in bestimmten
Frequenzbereichen auf;
Rauher Klang, dabei kann die Rauheit sehr deutlich aufgrund des
sehr zeitvariablen Charakters sein, da das Fehlersignal alle 24ms
seine Charakteristik ändern kann.
4.5.1. Pre-echoes
„Pre-echoes“ sind als Artefakte bei den Codecs, die eine hohe
Frequenzauflösung benutzen, sehr verbreitet. Als „pre-echoe“ wird der
Effekt bezeichnet, dass ein Störsignal wahrnehmbar ist, bevor das Signal,
dass dieses Störsignal verursacht, zu hören ist.
Dieses Störsignal entsteht folgendermaßen: Im Decoder werden die
rekonstruierten Frequenzanteile von der Synthesefilterbank wieder
zusammengesetzt. Diese besteht aus der Modulationsmatrix und dem
Synthesefenster. Der Quantisierungsfehler kann als ein zusätzliches
Rauschsignal gesehen werden, das den Frequenzen des Originalsignals
hinzugefügt wird. Dieser Fehler hat eine zeitliche Länge, die der Länge des
Synthesefensters entspricht. Also werden diese Rekonstruktionsfehler
auch über diese gesamte Fensterlänge gestreut werden. Wenn im
Musiksignal nun ein kurzer, plötzlicher Anstieg der Signalenergie
stattfindet (z.B. ein kurzer Implus wie das Anschlagen von Kastagnetten8),
8
Spanisches traditionelles Musikinstrument, das im Wesentlichen aus zwei
schalenförmigen kleinen Hartholzplatten besteht, die gegeneinander geschlagen werden.
40
dann steigt der Quantisierungsfehler ebenso an9. Dieser
Quantisierungsfehler wird dann in der Rekonstruktion über die gesamte
Fensterlänge gestreut, und ist damit dann schon eine gewisse Zeit vor
dem eigentlichen Anschlagsgeräusch hörbar.
Abbildung 9: Darstellung des „Pre-echoe“-Phänomen, entnommen aus [ERN01].
Die obere Abbildung zeigt das Originalsignal, die mittlere Abbildung zeigt das
encodierte und wieder decodierte Signal und die untere Abbildung zeigt das
durch das durch diese Codierung entstandene Fehlersignal.
Abbildung 9 stellt dieses Phänomen deutlich dar, in der oberen Abbildung
ist das Originalsignal in einer Oszillogrammdarstellung zu sehen, in der
mittleren Abbildung ist das encodierte und wieder decodierte Signal zu
sehen. Deutlich zu erkennen ist das durch die Encodierung vor dem
eigentlichen Signal auftretende Rauschsignal. Im unteren Bild ist das
entstandene Fehersignal dargestellt.
4.5.2. „Loss of bandwidth“, “birdies”
Wenn ein Encoder keine Möglichkeit findet, einen gegebenen Block mit
einem besonders komplexen Musiksignal mit der Anzahl der zur Verfügung
stehenden Bits der gegebenen Bitrate zu codieren, dann fehlen ihm
Möglichkeiten, alle Anteile des Musiksignals vollständig zu codieren. In
diesem Fall werden einige Frequenzlinien nicht codiert, normalerweise ist
der hohe Frequenzbereich des Signals betroffen. Diese
Signalveränderungen sind natürlich besonders deutlich wahrzunehmen,
wenn sich die effektive Bandbreite des Signals von Frame zu Frame
ändert, wenn das zu codierende Signal also nicht bandbreitenbegrenzt ist,
aber in bestimmten Signalabschnitten ein hochfrequenter Signalanteil zu
codieren ist.
9
Da eine hohe Signalenergie auch eine hohe Maskierungsschwelle besitzt. Aus diesem
Grunde kann eine sehr grobe Quantisierung für das Signal gewählt werden, da das
entstehende Quantisierungsrauschen bis zu einem sehr hohen Pegel verdeckt wird.
41
Abbildung 10: Darstellung des „birdies“-Phänomen in einer SpektrogrammDarstellung, entnommen aus [ERN01].
Abbildung 10 stellt dieses Phänomen in einer Spektrogrammdarstellung
dar. Deutlich zu erkennen sind Energieanteile im hohen Frequenzbereich,
die zeitlich sehr variabel sind. An einigen Stellen ist im hohen
Frequenzbereich deutliche Energie zu verzeichnen, während an anderen
Stellen diese Energie überhaupt nicht auftritt (wenngleich sie beim
Originalsignal vorhanden war).
4.5.3. Rauheit und “double speak”
Speziell bei niedrigen Bitraten und geringen Abtastraten gibt es Probleme
zwischen der Zeitauflösung des Codecs und der Zeitstruktur einiger
Signale, besonders anzutreffen bei Sprachsignalen und bei Abhören über
Kopfhörer. Da eine einzeln aufgenommene Stimme bei diesem Effekt
klingt, als wäre sie doppelt aufgenommen und überlagert worden, wird
dieser Effekt manchmal auch „double speak“ genannt.
4.5.4. Codierung des hochfrequenten Anteils des Audiosignals
Frequenzen im Audiosignal bis 20kHz können zwar von jungen Menschen
noch gut gehört werden können, aber es wird davon ausgegangen, dass
die Hörbarkeit der hohen Frequenzen mit jeder Dekade um 1kHz
abnimmt. Es gibt kein Ergebnis eines Hörtests, in dem Unterschiede
zwischen auf 16kHz bandbegrenzten Audiosignalen und Audiosignalen mit
hochfrequenten Anteilen bis zu 20kHz nachgewiesen werden konnten.
42
Somit wird in vielen Encodern das Audiosignal vor der Codierung auf
16kHz (oder tiefer) bandbegrenzt.
Der Vorteil besteht darin, dass die verfügbaren Bits statt zur Abbildung
(des vielleicht nicht oder nicht mehr hörbaren) hochfrequenten
Signalanteils zur besseren Abbildung der tiefen Frequenzen benutzt
werden können, auf deren Verzerrung und Manipulation das menschliche
Ohr empfindlicher reagiert.
Wird einem Encoder ein nicht bandbegrenztes Signal zur Codierung
übergeben, so kann es vorkommen, dass die Reproduktion der hohen
Frequenzen von Frame zu Frame (also alle 24ms!) schwankt. Damit
ändert sich dann auch die Genauigkeit der Auflösung der Frequenzen im
tiefen Frequenzbereich. Diese zeitliche Variation ist dann sowohl im hohen
als auch im tiefen Frequenzbereich deutlich wahrnehmbar.
4.5.5. Unterschiedliche Einstellungen für unterschiedliche Bitraten
Da es im Encoder dazu kommen kann, dass die Iterationsschleifen nicht
konvergieren, wenn das perzeptive Modell so kleine QuantisierungsSchrittweiten verlangt, dass der „rate loop“ diese immer weiter erhöhen
muss, um den gegebenen Signalanteil sauber codieren zu können, dann
kann dieser Vorgang in einer endlosen Schleife resultieren. In diesem Fall
ist es sinnvoll, die Parameter im perzeptiven Modell so zu verändern, dass
die Schleifen im Normalfall konvergieren, auch wenn das zu
Klangeinbussen im codierten Signal führt. Um diese Balance zwischen
verfügbarer Bitrate und den Anforderungen des perzeptiven Modells
möglichst immer zu erreichen, müssen die Parameter im perzeptiven
Modell für jede einstellbare Bitrate immer unterschiedlich angepasst
werden.
4.6. Unterschiede zwischen den Encodern
Der MPEG-Standard definiert nicht die Implementierung und das Design
des Audio-Encoders. Dies soll noch einmal herausgestellt werden. Zum
Beispiel könnte ein Entwickler völlig auf die Implementierung eines
perzeptiven Modells verzichten. Das Resultat wäre ein sehr schnell
operierender Encoder, der vollständig mit dem MPEG-Standard kompatibel
ist. Dieser Encoder wird aber mit der hochqualitativen Codierung einer
großen Anzahl von komplexen Audiosignalen Schwierigkeiten haben:
„The MPEG standards do not prescribe the implementation of the audio
encoder. In an extreme case, one could completely acoid implementing
the perceptual model, decide not to use the scalefactors (and therefore
the outer iteration loop), ando do a very simple inner iteration loop. Such
an encoder would be very fast (potentially much faster than any current
43
encoder product), would be compliant with the standard, would even
produce a nice audio quality for some signals, but would sound very bad
with a large selection of music.” ([BRA00], Seite11)
Andererseits kann es für einen Entwickler, der sein eigenes verbessertes
perzeptives Modell implementiert, vielleicht auch unter Beachtung noch
anderer Phänomene des menschlichen Hörens, möglich sein, einen
Encoder zu entwickeln, der vielleicht speziell bei sehr niedrigen Bitraten
eine deutlich bessere Qualität aufweist. Dies ist der Grund für die Vielzahl
an verfügbaren Encodern, und auch für die weitergeführte Entwicklung
neuerer Encoder.
Daraus resultiert natürlich die Notwendigkeit, verschiedene Encoder
objektiv hinsichtlich ihrer Klangqualität (unter bestimmten
Parametereinstellungen) miteinander zu vergleichen.
4.7. Objektive Vergleichsmöglichkeiten von Codecs
In den vergangenen Jahren hat die verlustbehaftete Audiokompression vor
allem im Telekommunikationsbereich eine große Bedeutung erlangt. Als
einige wichtige Anwendungen seien GSM (Mobiltelefonie) und VoIP (Voiceover-IP, Telefonieren über das Internet) genannt. Es wurde sehr schnell
klar, dass durch die Notwendigkeit zur Kompression in niedrigsten
Bitraten, durch die fehlende Redundanz in den Systemen sowie durch
massive Qualitätsverluste durch die oftmals notwendige Kaskadierung
(serielle Nacheinanderschaltung) von Codecs objektive
Vergleichsmöglichkeiten von Audio-Codecs geschaffen werden mussten.
Im Grunde gibt es drei Ansätze, die Klangqualität von Encodern objektiv
zu vergleichen: ausgedehnte Hörtests, herkömmliche standardisierte
Messtechniken und perzeptive Messtechniken.
Im folgenden werden die einzelnen Möglichkeiten genauer betrachtet.
4.7.1. Hörtests
Groß angelegte Hörtests unter kontrollierten Bedingungen sind bis heute
eigentlich fast die einzige Methode, die unterschiedlichen
Codierungsalgorithmen und Encoder objektiv miteinander zu vergleichen.
Es gibt einige Vorschläge (recommendations) für die Durchführung dieser
Hörtests (unter anderem von der ITU-R10). Meist werden für die
Beurteilung der Klangqualität Testsignale ausgewählt, von denen bekannt
ist, dass sie sehr schwer hochqualitativ zu codieren oder prädestiniert für
das Auftreten bestimmter Artefakte sind.
10
“Radiocommunication Sector of the International Telecommunication Union, former
CCIR)” [KEY99]
44
Die Computertechnik-Zeitschrift C’T führte sowohl Experten-Hörtests als
auch groß angelegte Leser-Hörtests durch ([CTZ00][CTZ02]), um eine
eindeutige Qualitätsbewertung von MP3 und dessen Nachfolgern zu
präsentieren. Das Ziel waren also objektive, reproduzierbare Tests, die die
vom Hörer subjektiv beurteilte Qualität von Audio-Codecs (bei bestimmten
Bitraten) mit der des unkomprimierten Musikstückes vergleichen sollten.
Zwei Hörtests dieser Zeitschrift, aus dem Jahr 2000 und aus dem Jahr
2002) sollen im folgenden genauer betrachtet werden, da diese eine
nüchterne Betrachtung der oftmals hitzig geführten Diskussion über die
Qualität von MP3 und deren Nachfolgern gestatten. Mit
Anführungsstrichen werden Zitate aus den beiden Zeitschriften
gekennzeichnet.
Der C’T-Leser-Hörtest publiziert in Heft 04/2000
Aufgrund einer heftigen Debatte von Kompressions-Befürwortern und
deren Gegnern berief die Redaktion der C’T einen Leser-Hörtest mit 12 für
einen solchen Test qualifizierten Lesern ein.
Der Abhörraum war laut C’T ausreichend akustisch bearbeitet („ein
audiophiles Wohnzimmer“, der ehemalige Hörraum der Zeitschrift HiFIVision, grossflächig mit Diffusern versehen), und mit einer hochwertigen
Abhör-Anlage versehen (Abhörmonitore B&W-Nautilus803 sowie Kopfhörer
Sennheiser Orpheus).
Es galt, im Blindtest bei mehreren Musikstücken das unkomprimierte
Format, das MP3-Format mit 128 kBit/s und das MP3-Format mit 256
kBit/s zu erkennen.
Im einzelnen sind nachfolgend einzelne der 12 Hörer aufgeführt (primär
um zu zeigen, dass es sich nicht um Disco(-Hör)-Geschädigte TechnoMusik-Anhänger handelte). In Klammern ist jeweils ein Kommentar des
Hörers zum Test angegeben:
•
•
•
•
Ein Tonmeister, der für die Deutsche Grammophon
Klassikaufnahmen produziert und mastert. („Das war hart. Es kam
mir fast so vor, als ob einige der 256kBit/s-Einspielungen etwas
runder und gefälliger geklungen hätten als die Originale von CD.
Davon durfte man sich nicht beirren lassen.“)
Ein studierender Elektronik-Entwickler („Seit eines Explosionsunfalls
höre ich links nur noch bis 8kHz, und rechts hatte ich bis vor kurzem
einen hartnäckigen Tinnitus. Trotzdem bekomme ich die typischen
Flanging-Effekte der MP3-Filterbank mit, und das sogar besser als
meine Freunde – vielleicht sogar wegen meines Hörschadens.“
Ein „Musikfreund, der 40000 DM für seine Stereoanlage ausgab“
ein Entwickler von Hörgeräten, der an
Audiosignalverarbeitungsalgorithmen arbeitet. („Ich bin es gewohnt,
ein intensiven Klangtests genauestens auf Verarbeitungs-Artefakte
und Klangunterschiede zu achten.“
45
•
Ein an der Entwicklung des Kunstkopfes aktiv Beteiligter, der bereits
seit der Geburt blind ist.
Folgende Ergebnisse wurden für diesen Hörtest publiziert:
•
•
•
•
Gerade bei Hörer mit Hörschaden sind die Artefakte der
Kompression gut wahrnehmbar, weil das gesamte Prinzip der
verlustbehafteten Codierung (siehe Maskierungseffekte) für diese
Hörer nicht mehr gilt, wahrscheinlich aufgrund antrainierter
kompensatorischer Hörgewohnheiten.
Keineswegs wurden Klassikaufnahmen immer richtig beurteilt,
vielmehr wurden richtige Zuordnungen eher bei Musik-Stilen wie
zum Beispiel „Funk“ erreicht.
Die mit 128kBit/s-MP3-Proben konnten treffsicher von den beiden
anderen Proben unterschieden werden (statistisch signifikant mit
1% Irrtumswahrscheinlichkeit), aber zwischen 256kBit/s-MP3 und
der unkomprimierten Probe war kein Unterschied erkennbar.
Es gibt keine Musikrichtung, die sich besonders gut oder besonders
schlecht zur Komprimierung eignet, die Erkennbarkeit der
Kompression war nicht auf bestimmte Stile begrenzt.
Der C’T-Hörtest publiziert in Heft 19/2002
Die Qualität der Nachfolger des MP3-Formates (im Einzelnen OggVorbis,
MP3Pro, WMA9, RealMedia und AAC) wurde einerseits durch einen
Experten-Hörtest, bei dem Spezialisten, die in ihrer täglichen Arbeit im
weitesten Sinne mit Audio zu tun haben, und andererseits durch einen
Internet-basierten Leser-Hörtest mit 3500 Teilnehmern geprüft.
Der erste Teil des Hörtests fand in den Peppermint-Studios in Hannover
statt. Als Abhörraum wurde der Hauptregieraum, der natürlich akustisch
behandelt ist, mit den dort fest installierten Quested-Haupmonitoren
benutzt.
Es galt, drei Test-CDs mit 64, 128 und 160 kBit/s einzustufen. Dabei
enthielt jede CD neben dem unkomprimierten Referenz-Format nochmals
das gleiche, diesmal aber versteckte unkomprimierte Format und sechs
weitere Musikstücke, die mit den schon genannten Codecs komprimiert
wurden:
•
•
•
•
•
•
Ogg Vorbis
MP3
MP3pro
WMA9
RealMedia
AAC
46
Der zweite Teil des Tests war identisch mit dem ersten Teil, aber die
Experten konnten sich ihre (von der C’T-Redaktion komprimierten)
präferierten Musikstücke in ihrer jeweiligen Hörumgebung ohne
Zeitbegrenzung anhören.
Im einzelnen sind nachfolgend die teilnehmenden Experten aufgeführt:
• Wiederum der Tonmeister, der für die Deutsche Grammophon
Klassikaufnahmen produziert und mastert
• Ein Kopfhörerentwickler, der bei Sennheiser beschäftigt ist
• Ein Hörer, der ehrenamtlich im Tonstudio arbeitet, und seit der
Geburt blind ist (nahm bereits am vorherigen Test teil)
• Eine Sopranistin, die an der Niedersächsischen Staatsoper angestellt
ist
• Ein musikbegeisterter Schüler, der seit dem siebenten Lebensjahr
Klavier spielt
• Ein Codec-Designer, der seit Jahren mit der Entwicklung von AudioKompressionsverfahren beschäftigt ist
• Der Chefredakteur der C’T
• Ein Popmusik-Produzent und wohl auch Musiker (MousseT)
Folgende Ergebnisse wurden publiziert:
•
•
•
MP3 stellte sich bei 64kBit/s als schlechtestes Kompressionsformat
heraus.
MP3Pro fällt gerade bei höheren Bitraten zunehmend hinter die
anderen Kompressionen zurück11.
Im zweiten Teil des Tests gelang es fast allen Experten, das
(versteckte) unkomprimierte Format in den ersten drei Plätzen
einzuordnen, es also als qualitativ hochwertiger gegenüber den
Kompressionsformaten einzustufen.
Der Online-Hörtest war identisch mit dem ersten Teil des ExpertenHörtests, es wurden die gleichen Kompressionsalgorithmen benutzt,
allerdings wurden nur 64 und 128kBit/s als Bitraten angeboten, und die
Länge der Testfiles wurde aufgrund der (ohnehin schon sehr langen)
Download-Zeit der Files über das Internet gekürzt.
Folgende Ergebnisse wurden publiziert:
•
•
11
64kBit/s : Das MP3-komprimierte Format schnitt deutlich am
schlechtesten ab (90% für den letzten Platz), das unkomprimierte
Format wurde von 41% der Online-Tester als am besten bewertet.
64kBit/s: Das „Ogg Vorbis“ Format schnitt deutlich am besten ab,
es wurde von 25% der Tester für das beste Testfile gehalten
(inklusive unkomprimiertem Referenz-Testfile).
MP3Pro ist allerdings auch klar für niedrige Bitraten optimiert.
47
•
•
•
64kBit/s: Das RealAudio-Format wurde tendenziell auf die hinteren
Plätze verwiesen (51% für den 6. Platz).
128kBit/s: Die Unterschiede verwaschen: „Ogg Vorbis“ ist immer
noch in führender Position, das unkomprimierte Format findet sich
hauptsächlich auf den vorderen Plätzen.
128kBit/s: Das AAC-Format schneidet eher schlecht ab (26% für
den letzten Platz).
Fazit
Bei den klassischen 128kBit/s scheint es laut C’T für die breite Masse
momentan keinen Grund zu geben, vom Klassiker MP3 abzurücken.
Dagegen schneidet dieser Codec bei 64kBit/s sowohl bei den Experten als
auch beim Online-Test am schlechtesten ab. Bei dieser Bitrate schneidet
„Ogg Vorbis“ im Online-Test am besten ab. In Vorab-Tests in der C’TRedaktion wurde das „Ogg Vorbis“ Format bei 64kBit/s sehr oft mit dem
Original verwechselt, ein erstaunliches Ergebnis, das sich in den OnlineTest bestätigte.
In den Regionen ab 160kBit/s (und auch schon bei dieser Bitrate)
verwaschen die Unterschiede zwischen den Codecs zunehmend, und die
statistischen Signifikanzen verschwinden.
Es war in den beiden C’T-Artikeln nicht zu erfahren, wie die Rechte- und
Copyright-Klärung beim Online-Test gelöst wurde. Das ist insofern
relevant, da im Rahmen der Internet-Publikation des fertiggestellten
multimedialen Lernmoduls zur perzeptiven Audiocodierung aufgrund der
verwendeten Musikstücke diese Veröffentlichung von den TonträgerLabels nicht genehmigt wurde. Selbst die 30sekündigen Extrakte bei
vollständiger Namen- und Rechte-Nennung und der Garantie der
Nichtspeicherungsmöglichkeit der Files (da das Programm nur streambar
sein sollte) sorgten nicht für eine Freigabe.
4.7.2. Subjektive Messtechniken – die ITU-Skalen
Die ITU verabschiedete einige Standards zur subjektiven Messtechnik von
perzeptiven Codecs, die im folgenden genauer betrachtet werden sollen.
Dieser Abschnitt ist eine Zusammenfassung von [KEY99]. Die genaue
Beschreibung der verschiedenen Standards findet sich unter anderem in
[ITUw].
Die ITU-T12 P.800
12
[KEY99]: International Telecommunication Union, Geneva, (former CCIITT)
48
Für die Qualitätseinschätzung von Sprach-Codecs entwickelte die ITU-T
die Empfehlung P.800. Sie definiert einen sogenannten ACR (Absolute
Category Rating test method), bestehend aus einer fünfstufigen
„impairment“-Skala:
Impairment
Excellent
Good
Fair
Poor
Bad
Grade
5
4
3
2
1
Tabelle 4: Die ITU-T P.800 "five-grade impairment scale"
Da der ACR ursprünglich für den Telekommunikationsbereich entwickelt
wurde, verwendet der Test keine unkomprimierte Referenz, da im
typischen Anwendungsfall (also einem Telefongespräch) der Hörer
ebenfalls das unkomprimierte Signal (die Originalstimme des
Sprechenden) nicht als Vergleichsreferenz zur Verfügung steht. Um einen
Vergleich zu ermöglichen und um die Meinung des Hörers an die AbsolutSkala anzupassen, werden definierte, mit Modulationen und Rauschen
versehene Referenzsamples am Beginn des Tests eingefügt. Jedes Sample
präsentiert eine Stufe auf der fünfstufigen Skala.
Normalerweise wird der Test mit 20-50 Testpersonen durchgeführt. Die
Testperson wird aufgefordert, jedes Sprachsample auf der fünfstufigen
Skala zu bewerten. Aus den individuellen Daten kann am Ende ein „mean
opinion score“ für die Wertung „impairment“ des jeweiligen Codecs
gebildet werden.
Die ITU-R BS-1116
Die ITU verabschiedete ebenfalls eine Testprozedur zur Bewertung von
(den gesamten Frequenzbereich bearbeitenden) Audio-Codecs auf der
Basis von Hörtests unter dem Namen BS-1116 „Methods for the
Subjective Assessment of small Impairments in Audio Systems including
Multichannel Sound Systems“. Dieser Test basiert auf dem Vergleich des
komprimierten mit dem unkomprimierten Signal. Die Testmethode wird
„double-blind triple-stimulus with hidden reference“ bezeichnet. Sie
ermöglicht speziell die Detektion geringer Signalqualitätsverluste (small
impairments). Zu Beginn des Tests werden wie bei der P.800-Empfehlung
Referenzsamples angeboten, die eine Angleichung an die Absolutskala
ermöglichen:
49
Impairment
Imperceptible
Perceptible, but not annoying
Slightly Annoying
Annoying
Very Annoying
Grade
5.0
4.0
3.0
2.0
1.0
Tabelle 5: Die ITU-R BS 1116 „five-grade impairment scale“
Problematisch bei diesem Test ist die Tatsache, dass das Testdesign nur
die Bewertung geringer Signalqualitätsverluste zulässt. Zweitens ist durch
die Teilung der Skala in über 40 diskrete Schritte (Skala wird in einer
Genauigkeit von einer Nachkommastelle abgefragt) die Gefahr der
Überforderung der Testpersonen durch zu viele Wahlmöglichkeiten sehr
hoch.
Oft wurde (in Ermangelung eines anderen geeigneten Tests) die
Bewertung von Audio-Codecs, die durch höhere Signalqualitätsverluste
gekennzeichnet sind, durch die Empfehlung P.800 vorgenommen. Die
Skala für diese Empfehlung wurde aber aus den Sprach-Codecs für
Telekommunikation mit ihren typischen Verzerrungen erzeugt, und es gibt
keine klar definierten Referenz-Verzerrungen für Audio-Codecs mit sehr
niedrigen Bitraten, um die P.800-Absolut-Skala zu erzeugen. Da die
erzielten Resultate stark von der subjektiven Interpretation der
Signalqualitätsverluste abhängen, kann die P.800-Skala eigentlich nicht
zur Beurteilung von Musik-Codecs eingesetzt werden.
4.7.3. Objektive Messtechniken
Um die Qualität des Encoders zu bestimmen, können bestimmte typische
Signalqualitätsparameter wie zum Beispiel der Signal-Rausch-Abstand
(SNR) bestimmt werden.
Es wurde aber schnell klar, dass es nicht viel Sinn macht, konventionelle
Meßmethoden zur Qualitätsbestimmung anzuwenden. Ein Grund dafür ist,
dass die Codecs durch die komplexe psychoakustische Modellierung ein
hohes nichtlineares Verhalten zeigen. Meßmethoden wie Frequenzgang
und Signal-Rausch-Abstand zielen auf ein lineares System ab, um
vernünftig auswertbare Ergebnisse zu erhalten. Maskierungseffekte des
menschlichen Ohres (die von den Codecs ja gerade ausgenutzt werden)
finden bei herkömmlichen Meßmethoden keine Beachtung.
Das Prinzip perzeptiver Codierung ist aber gerade, die messbare
Signalqualität möglicherweise zu beeinträchtigen, beispielsweise den
Signal-Rausch-Abstand unter Berücksichtigung der Maskierungsschwelle
absichtlich zu verringern, solange es für die Bitratenreduzierung sinnvoll
ist, und eben nicht vom menschlichen Hörapparat als Verschlechterung
der Signalqualität empfunden wird.
50
Weiterhin muss zur Messung eines nichtlinearen Systems natürlich auch
ein Testsignal gewählt werden, welches die Nichtlinearität zum Vorschein
bringt. Ein einzelner Sinuston, der mit Sicherheit am einfachsten zu
codieren ist, ist dafür nicht geeignet. Durch das Verfahren des BitReservoirs (also die Pufferung und Möglichkeit des „Leihens“ von Bits, um
ein Signal zu codieren) ist eine weitere Gefahr gegeben: Das gleiche
Signal kann in zwei unterschiedlichen Qualitäten codiert werden, abhängig
davon, ob das Bit-Reservoir Bits zur Verfügung stellen kann oder das BitReservoir leergelaufen ist.
Zu schlussfolgern ist, dass herkömmliche Meßmethoden der Signalqualität
nicht geeignet sind, um die Qualität perzeptiver Encoder sinnvoll
miteinander zu vergleichen. Vielmehr sollte ein System geschaffen
werden, das die auditive Wahrnehmung des menschlichen Hörapparates
nachbildet, und in dieser Nachbildung die Differenz des unkomprimierten
und des komprimierten Signals bildet. Diese Differenz sollte dann der
wahrnehmbaren Verzerrung und Veränderung des Signals durch den
Codec entsprechen. Beim Vergleich von Codecs sollte natürlich die gleiche
Testsequenz verwendet werden.
4.7.4. Perzeptive Messtechniken
In den letzten 15 Jahren wurden neue Techniken entwickelt, um
komprimierte Signale zu evaluieren. Diese beziehen sowohl
psychoakustische als auch kognitive Effekte ein, um die auditive
Wahrnehmung zu modellieren.
Ein wichtiger Antriebsfaktor bei der Entwicklung reliabler Testmethoden
war die enorme finanzielle und zeitliche Belastung, die ein repräsentativer
Hörtest fordert. Erschwerend kommt hinzu, dass die herkömmlichen
Testmethoden im täglichen Gebrauch keine Überwachung der CodecQualität leisten können, da sie zeitlich viel zu aufwendig sind.
Abbildung 11: Allgemeine Struktur eines perzeptiven Mess-Algorithmus aus
[KEY99]
Das Konzept der perzeptiven Messtechniken ist immer ähnlich und in
Abbildung 11 dargestellt:
Der Prozeß der menschlichen auditiven Perzeption wird modelliert. Dabei
simuliert das Modell ein auditives System, welches die vom auditiven
51
System wahrgenommenen Komponenten des Signals zeigt. Dieses kann
als eine Art interne Präsentation des Audiosignals im auditiven System
verstanden werden. Diesem Modell wird einerseits das unkomprimierte,
andererseits das komprimierten Signal zugeführt. Der Vergleich des
Differenzsignals aus beiden Signalen ergibt dann die „auditiv
wahrnehmbare Differenz“. Durch verschiedene Algorithmen und
Gewichtungen wird diese Differenz in einen Einzahlwert überführt. Dieser
mittlere Unterschiedswert sollte dem Mittelwert des Ergebnisses eines
Hörtests vergleichbar sein.
Meist werden für das Modell der perzeptiven Messtechnik die
verschiedensten psychoakustischen Effekte modelliert. Beispielsweise
könnte die Modellierung der Maskierung aufgrund der Ergebnisse von
Zwickers ([ZWI67] [ZWI90]) psychoakustischen Experimenten erfolgen
(die mit Rauschen und Sinustönen durchgeführt wurden). Durch eine
Generalisierung und Implementierung einer Vielzahl solcher
psychoakustischen Experimentalergebnisse kann ein perzeptiver
Messalgorithmus entwickelt werden, welcher auch auf komplexe
Audiosignale anwendbar ist. Diese Ansätze wurden von den Verfahren
NMR und PSQM verfolgt.
Aufbau und Funktionsweise eines typischen perzeptiven Messalgorithmus
Ein Vergleich verschiedener Algorithmen (z.B. PAQM, PSQM, NMR,
PERCEVAL, DIX, OASE, POM) führt zu folgendem allgemeinen Aufbau:
Es existieren zwei Eingänge, einer für das (unbearbeitete) Referenzsignal
und einer für das zu testende Signal (das Ausgangssignal eines Codecs,
dessen Eingangssignal das Referenzsignal war). Es wird davon
ausgegangen, dass die Signale zeitlich synchron vorliegen (über ein „delay
compensation“) und den gleichen Pegel besitzen (über „gain
compensation“). Weiterhin wird angenommen, dass die Signale keine DCKomponente (Gleichspannungsoffset) besitzen, da die meisten
Algorithmen solche Signalkomponenten nicht handhaben können.
In einem ersten Bearbeitungsschritt wird die Peripherie des Ohres
modelliert („ear model“). In einem nachfolgendem Schritt errechnet der
Algorithmus die wahrnehmbaren Verzerrungen im zu testenden Signals in
Bezug auf das Referenzsignal, indem er die Ausgangssignale des
Ohrmodells (für beide Signale) miteinander vergleicht. Das Ergebnis
dieses Prozesses wird MOVs („Model Output Variables“) genannt. Um
einen Einzahlwert für die hörbare Verzerrung des zu testenden Signals zu
erhalten, werden die MOVs einem Algorithmus zugeführt, der den
kognitiven Part des menschlichen auditiven Systems (grob: die
Verarbeitung durch das Gehirn) simuliert. Dieses kann zum Beispiel durch
algorithmische Beschreibungen (z.B. PSQM) oder künstliche neuronale
Netzwerke (z.B. PEAQ) geschehen.
52
Standardisierungen für perzeptive Messtechniken – Die ITU-Empfehlungen
PSQM und PEAQ
PSQM
Nach einem weitreichenden Vergleich diverser existenter Methoden wurde
1986 für die objektive Beurteilung von Sprach-Codecs die Empfehlung
ITU-T P.861 entwickelt. In dieser wurde der PSQM-Algorithmus favorisiert.
Das Ergebnis dieser Messtechnik korrelierte zu 98 Prozent mit den
Ergebnissen subjektiver Hörtests.
Abbildung 12: Blockdiagramm PSQM aus [KEY99]
Abbildung 12 skizziert das Prinzip von PSQM. In dieser Arbeit wird nicht
genauer auf die einzelnen Komponenten eingegangen. Der genaue Aufbau
und die Funktionsweise der einzelnen Komponenten ist [KEY99] zu
entnehmen.
PEAQ
Um auch die Qualität von breitbandigen Audiosignalen objektiv beurteilen
zu können, wurde 1988 die Empfehlung ITU-R BS.1387 entwickelt. In
dieser wurden zwei Versionen des PEAQ-Algorithmus (PErceived Audio
Quality) präsentiert: eine „basic“-Version, die durch eine geringe
Komplexität gekennzeichnet war (und damit durch eine hohe
Berechnungseffizienz und geringe Latenz: vorrangig für den EchtzeitEinsatz entwickelt), und eine „advanced“-Version, die eine höhere
Komplexität (aber eine sehr hohe Genauigkeit und hohe Latenz) aufweist.
53
Abbildung 13: Blockdiagramm PEAQ aus [KEY99]. Eingang des Modells sind das
Eingangssignal (links) und der Abhörpegel in db(SPL) (rechts).
Abbildung 13 skizziert das Prinzip von PEAQ. Der genaue Aufbau und die
Funktionsweise der einzelnen Komponenten ist ebenfalls [KEY99] zu
entnehmen.
Anwendungen der perzeptiven Messtechniken
Folgende Auflistung gibt nach ITU-R BS.1387 (PEAQ) die
Anwendungsgebiete der perzeptiven Messtechnik und ihre Priorität (in
Klammern) an:
Entwicklung:
• Codec-Entwicklung (mittel)
• Netzwerk-Planung (mittel)
• Hilfe bei subjektiven Bewertungen (niedrig)
Diagnose:
• Bewertung der Codec-Qualität (hoch)
• Status der Geräte und Verbindungen (mittel)
• Codec-Identifikation (niedrig)
Operationale Anwendungen:
• Online Monitoring (hoch)
• Line up (hoch)
In besonderem Maße ist in der Telekommunikation (und in gleichem Maße
beim Rundfunk) die Kaskadierung von (möglicherweise unterschiedlichen)
54
Codecs relevant. Damit einher geht oftmals ein massiver Qualitätsverlusts
des zu übertragenen Audiosignals.
Da sich die Sprach-Codierung zum Erreichen der geforderten niedrigen
Bitraten die Modellierung des menschlichen Vokaltraktes zunutze macht,
sind Sprach-Codecs auf das Übertragen von Sprache unter diesen
Parametern optimiert und leisten in diesem Bereich gute Dienste. Wird
allerdings ein breitbandiges Musiksignal über einen solchen Sprach-Codec
übertragen, ist das qualitative Ergebnis oft sehr schlecht, da der SprachCodec völlig andere Parameter aus dem Signal extrahiert als ein MusikCodec. Wird eine Übertragung eines Musiksignals über eine Telefonleitung
gewünscht, leistet die Evaluierung der Signalqualitätsverluste durch
perzeptive Messtechnik gute Dienste.
Waren bis vor ein paar Jahren noch einige wenige große Gesellschaften für
Telekommunikations für die Errichtung der Telekommunikationsnetze und
damit auch für die einheitliche Einführung von Sprach-Codecs
verantwortlich, führt heutzutage durch die zunehmende Privatisierung der
Telekommunikation und durch eine Vielzahl von kleineren Firmen auch zu
immer unterschiedlicheren und proprietären Codecs. Durch die oft
angemieteten oder geleasten Telefonleitungen (und damit auch deren
Codecs) ist die massive Qualitätsverschlechterung durch mehrfache
Kaskadierung von Codecs vorprogrammiert. Eine objektive Überwachung
der Signalqualität durch perzeptive Messtechniken ist hier unumgänglich.
4.7.5. Vergleich der subjektiven und objektiven ITU-Empfehlungen nach
Datenraten
Für die Anwendung der einzelnen ITU-Normen (im subjektiven und
objektiven Vergleich) werden folgende Datenraten empfohlen [KEY99]:
Datenrate
...
128 kBit/s
.
64kBit/s
.
16kBit/s
...
Subjektiv
Objektiv
ITU-R BS.1116
ITU-R BS.1387 (PEAQ)
Typischer Music-Codec
-----------------------------------------------------Typischer Sprach-Codec
ITU-T P.800
ITU-T P.861 (PSQM)
Tabelle 6: Überblick über objektive und subjektive ITU-Empfehlungen und deren
Bandbreiten aus [KEY99]
55
5. Aktueller Stand der Forschung in der perzeptiven
Audiocodierung
In diesem Kapitel werden die Nachfolger des MP3-Codecs beschrieben. Im
Wesentlichen werden die Codecs MPEG4 Audio (bzw. MPEG2 AAC)
beschrieben. Es wird auf Verbesserungen gegenüber MP3, auf
Funktionsweise, Qualität und Kompatibilität eingegangen. Dieser Teil des
Kapitels ist eine Zusammenfassung der Publikationen [BRA], [GRI01] und
[GRI02].
Im Anschluss werden weiterführende innovative Konzepte der perzeptiven
Audiocodierung betrachtet, im Wesentlichen beruhend auf [DIE03],
[FAL03] und [SCH03].
5.1. MPEG4 Audio / MPEG2 AAC
5.1.1. Die Verbesserungen gegenüber MP3
In MPEG4 Audio ist der MPEG2 AAC Codec enthalten. Mit diesem können
ebenso wie mit MP3 monophone und stereophone, aber auch
mehrkanalige Audiosignale codiert werden. MPEG4 Audio wurde
entwickelt, um alle möglichen Codierungs-Szenarios, von der Codierung
niedrigster Bitraten bis zur Codierung für Tonstudio-Anwendungen
abzudecken. Es enthält eine Reihe von Codecs, die auf bestimmte
Audiosignalarten optimiert wurden, wie zum Beispiel spezielle SprachCodecs für sehr niedrige Bitraten. Besonderes Merkmal von MPEG4 Audio
ist eine Bitraten-Skalierung. Diese Funktion erlaubt die dynamische
Anpassung der Bitrate an zeitlich variable Kanäle, wie zum Beispiel das
Internet oder drahtlose Übertragungskanäle. Ebenso bietet es Vorteile bei
der Übertragung über Verbindungen mit unbekannter Kanalkapazität, da
diese nicht mehr bereits bei der Encodierung bekannt sein muss. Der
Datenstrom bei der Bitratenskalierung besteht aus verschiedenen
Bitströmen, die hierarchisch decodiert werden. Dadurch resultiert die
Decodierung nur eines (kanalangepassten) Teilstromes des totalen
Datenstromes in einem vollständigen decodierten Signal mit niedrigerer
Bitrate und Qualität.
5.1.2. Funktionsweise des MPEG 2 AAC Encoders
Im folgenden soll die Funktionsweise des MPEG2 AAC Encoders genauer
betrachtet werden. Abbildung 14 stellt in einem Blockdiagramm die
Funktionsweise dar:
56
Abbildung 14: Blockdiagramm eines MPEG-2 AAC Encoders aus [BRA99]
Im folgenden soll die Funktionsweise genauer betrachtet werden.
Das Prinzip der Bitratenskalierung
In Abb. ist in einem Blockdiagramm das Prinzip der Bitratenskalierung
dargestellt:
Abbildung 15: Prinzip der Bitratenskalierung im AAC-Encoder aus [GRI01]
Das Eingangssignal wird von einem ersten Encoder bearbeitet und der
resultierende Bitstrom als erster Teil des zusammengesetzten Bitstroms
übertragen. Dieser bildet die erste Codierungsebene, genannt erster
Layer.
Dann wird das Fehlersignal als Differenz aus dem ersten codierten
Bitstrom und dem Originalsignal gebildet. Dieses Fehlersignal bildet das
Eingangssignal für die nächste Codierungsebene, deren Ausgangssignal
den zweiten Teil des zusammengesetzten Bitstroms, also den zweiten
Layer bildet. Dieser Vorgang kann so oft wiederholt werden, bis das
gewünschte Codierungsergebnis erreicht ist, in der Praxis werden selten
mehr als vier Codierungs-Layer durchlaufen.
Während der erste Codierungslayer (genannt „base layer“) den
überwiegenden Anteil der relevanten Signalkomponenten enthält, erhöhen
57
die nachfolgenden Layer (genannt „enhancement layer“) nacheinander
immer mehr die Codierungsqualität.
Die Funktionsweise der Encodierung
Der „core coder“ ist ein „base layer“ Encoder, der auf einer niedrigeren
Abtastrate arbeitet: Das Eingangssignal wird auf eine niedrigere
Abtastrate gebracht und vom „core coder“ codiert. Der resultierende „core
layer“ Bitstrom wird einerseits an den Bitstrom-Multiplexer weitergereicht
und andererseits von einem „local core decoder“ gleich wieder decodiert.
Dieser Datenstrom wird wieder auf die vorherige höhere Abtastrate
gebracht und der MDCT-Filterbank zugeführt.
In einem parallelen Signalweg wird das (um die eben beschriebene
Bearbeitungszeit zeitverzögerte) Original-Eingangssignal ebenfalls der
MDCT-Filterbank zugeführt.
Ein frequenzselektiver Schalter (genannt „FSS-frequency selective
switch“) wählt zwischen zwei Codierungsmöglichkeiten. Es werden
entweder die spektralen Koeffizienten des Eingangssignals codiert oder die
Differenz aus dem Eingangssignal und dem decodierten „core layer“
Datenstrom. Diese spektralen Koeffizienten werden nun der
nachfolgenden Codierungsstufe zur Quantisierung und Codierung
übergeben. Dieser „enhancement layer“ Bitstrom kann entweder als
eigene Ebene in den zusammengesetzten Bitstrom übernommen oder
separat übertragen werden.
Die Decodierung
Der „core layer“ Bitstrom wird zuerst decodiert und auf eine höhere
Abtastrate gebracht. Nachdem die Zeitverzögerung kompensiert wurde,
wird er der MDCT-Analyse-Filterbank zugeführt. Wenn nur der „core layer“
Bitstrom übertragen wurde, wird der Ausgang der MDCT-Filterbank (nach
einem optionalen nachgeschaltetem Filter) an den inversen
frequenzselektiven Schalter weitergereicht (genannt „IFSS-inverse
frequency selective switch“).
Wurden ebenfalls „enhancemant layer“-Bitströme übertragen, dann
werden die spektralen Daten aller Ebenen akkumuliert, decodiert und mit
den spektralen Daten des „core layer“ Bitstrom über die Einstellungen des
IFSS zusammengeführt. Über eine inverse MDCT-Filterbank (IMDCT)
werden die spektralen Daten dann schließlich in den Zeitbereich
zurücktransformiert.
Mono/Stereo-Skalierung
Der „MPEG4 scalable GA (general audio) coder“ enthält auch eine
Skalierungsmöglichkeit für Mono/Stereo: Die Decodierung von niederen
58
Layern resultiert in ein Monosignal, während die Decodierung von höheren
Layern in ein Stereosignal resultiert: Alle Mono-Layer codieren das
Stereosignal als ein Monosignal. Die Stereo-Layer codieren das
Stereosignal entweder in einer M/S13- oder L/R14-Darstellung des Signals.
Wenn die MS-Darstellung des Signals benutzt wird, ist das encodierte
Signal des niederen Monolayers näherungsweise als ein Mitten-Signal
verfügbar.
5.1.3. Die Qualität des MPEG2 AAC Encoders
Verglichen mit einem einfach skalierten AAC Datenstrom, verursacht die
Skalierbarkeit des MPEG4 Audio Encoders einen Verlust der
Kompressionseffizienz. Der Verifikationstest (MPEG98/N2425) zeigte, dass
die Signalqualität für den skalierten AAC-Encoder (bei drei skalierten
Layern) zwischen der des unskalierten AAC-Encoders und der
Signalqualität des MP3-Encoders liegt.
5.2. SBR (Spectral Band Replication)
Die Codierung mit SBR geht auf einen Vortrag von [DIE03] der Firma
Coding Technoligies zurück, der auf der DAGA 2003 gehalten wurde (es
liegt bisher kein Paper vor).
SBR versucht den Nachteil auszugleichen, der durch Nichtcodierung des
hochfrequenten Signalanteils vieler perzeptiver Audio-Codecs entsteht.
Diese Nichtcodierung resultiert aus der Anfälligkeit vieler Codecs
gegenüber diesen hochfrequenten Signalanteilen (Entstehung von
„Birdies“) und der Notwendigkeit der effizienten Verteilung der
verfügbaren Bandbreite, so dass das Audiosignal oft bandlimitiert und nur
bis zu einer gewissen Grenzfrequenz codiert wird. Coding Technologies
fand eine hohe Korrelation zwischen den tieffrequenten und den
hochfrequenten Signalanteilen. Das Grundprinzip der SBR besteht darin,
das der hochfrequente Signalanteil wieder rekonstruiert wird, indem die
tieffrequenten Spektrallinien in den (da bandbegrenzt und damit oberhalb
der Grenzfrequenz nicht mehr vorhandenen) hochfrequenten
Spektralbereich einfach kopiert werden („patching“). Die mit dem
Originalsignal nicht mehr übereinstimmende spektrale Hüllkurve wird
angeglichen, indem eine Sidechain-Information in den Metadaten des
codierten Datenstromes ausgewertet wird. Diese Sidechain-Information
enthält die spektrale Hüllkurve des Originalsignals, und wurde bei der
13
Mitte-Seite-Codierung: Ein Verfahren, in der das Stereosignal als Mittensignal und
Seitensignal übertragen wurde. Aus der Summierung des Mitten- und phasenrichtigen
Seitensignals wird der linke Kanal gewonnen, aus dem Mitten- und phasengedrehten
Seitensignal wird der rechte Kanal gewonnen.
14
Links-Rechts-Codierung: Übliches Stereoformat, in der auf einem Kanal der
vollständige linke Kanal und auf einem weiteren Kanal der vollständige rechte Kanal
übertragen wird.
59
Encodierung erzeugt. Sie benötigt nur 3kBit/s Bandbreite im codierten
Datenstrom.
Diese Rekonstruktion des hochfrequenten Signalanteils erfolgt für jeden
Zeit-Frame. SBR ist auf jeden Codec applizierbar. Sollte ein Decoder SBR
nicht unterstützen, wird der normale Datenstrom ohne SBR decodiert.
Durch Kombination von MP3 und SBR entsteht das Format MP3Pro, durch
Kombination von AAC und SBR entsteht AACPlus (AAC+). Laut Angaben
des Herstellers soll mit AAC+ mit einer Bandbreite von 48kBit/s
„broadcast quality“ erreicht werden. In diversen Tests (MPEG März 2003,
EBU September 2002) erreichten die Codecs mit SBR vordere bis
vorderste Plätze.
5.3. BCC (Binaural Cue Coding)
Die Codierung mit BCC geht auf einen Vortrag von [FAL03] zurück, der auf
der DAGA 2003 gehalten wurde (es liegt bisher kein Paper vor).
Das Einsatzgebiet von BCC ist die Übertragung von mehrkanaligem Audio
unter niedrigen Bitraten. BCC benutzt ICLD (interchannel level difference)
und ICTD (interchannel time difference). Diese Cues werden in der
Frequenzebene („subbands“), in der Zeitebene („at regular time
intervals“) und zwischen Kanälen („between pairs of channels“)
ausgewertet, indem Energie- und Delayberechnungen von einzelnen
Audio-„Objekten“ ausgewertet werden (die Klassifizierung und das
Mapping von Audiosignalen in Audio-Objekte wurde nicht erschöpfend
dargestellt). Die Parameter der Berechnungen werden in einem SidechainDatenstrom codiert. Für Stereosignale entsteht eine Datenrate von 1.5
kBit/s, für Mehrkanalsound entsteht diese Datenrate für jedes Kanalpaar.
Durch BCC soll sich das Stereobild des Signals deutlich besser encodieren
lassen. Auch BCC ist auf jeden Codec applizierbar und abwärtskompatibel.
5.4. Parametric Coding
„Parametric coding“ geht auf einen Vortrag von [SCH03] der Firma Philips
zurück, der auf der DAGA 2003 gehalten wurde (es liegt kein Paper vor).
Während sogenanntes „waveform coding“ durch Filter und geeignete
perzeptive Modelle versucht, das Audiosignal durch Adaption an den
menschlichen Hörapparat möglichst ohne hörbare Qualitätsverluste zu
encodieren, geht „parametric modeling“ einen anderen Weg. Ähnlich dem
„Quelle-Filter-Modell“ und der daraus resultierenden CELP15 und anderer
LPC-Codecs, wird versucht, das Audiosignal durch ein Modell möglichst
genau zu beschreiben. Im Quelle-Filter-Modell wird das Sprachsignal
zerlegt in ein Anregungssignal, die Glottis (Stimmlippen), und in ein Filter,
15
Codec für die Mobiltelefonkommunikation
60
den Vokaltrakt, die beide zeitvariant sind. Die Anregung kann entweder
als „Pulsetrain“16 mit einem bestimmten Grundfrequenzverlauf, oder als
„noise source“ (Rauschsignal) mit einer bestimmten spektralen Formung
vorliegen, und kann durch einige wenige Parameter beschrieben und
encodiert werden. Der Filter wird durch einige wenige Filterkoeffizienten
beschrieben, und kann ebenfalls sehr effizient codiert werden.
Im „parametric coding“ wird das Signal untersucht auf:
• Transienten
• Sinuskomponenten
• Rauschen.
Diese Signal-Komponenten werden für jeden Zeit-Frame bestimmt und als
Parameter übertragen. Es steht ein Reservoir für Signalteile zur
Verfügung, die nicht durch diese Signalkomponenten modelliert werden
können.
Laut den Angaben der Hersteller weist „parametric coding“ bei 24kBit/s
eine bessere Qualität auf als der AAC-Codec bei 24kBit/s und 32kBit/s.
Das Besondere an der Art des Parametric coding der Firma Philips ist nun,
dass nicht nur wie erwartet sehr gute Ergebnisse bei der
Sprachencodierung erreicht wurden, sondern auch bei komplexen
Musiksignalen bei sehr geringen Bitraten (durch die geringe Bandbreite
der Steuerparameter) eine erstaunliche Qualität erzielt wurde. Erreicht
wurde diese Qualität nach Firmenangaben nicht nur über die beschriebene
Parametrisierung der Signale, sondern auch über die Generierung und die
Steuerung durch zeitliches Tracking von „audio objects“. Genauere
Informationen wurden nicht bekanntgegeben.
16
Zeitlich definierte, aufeinanderfolgende transiente Signale
61
6. Usability von Mensch-Maschine-Interfaces
In diesem Kapitel wird ein wenig beachteter Bereich des SoftwareEngineering betrachtet, die Usability von Software und Internet-Seiten. Im
Wesentlichen basiert dieses Kapitel auf [NOR99], [PUS01] und [KRU00].
Es wird eine Begriffseingrenzung vorgenommen und dem aktuell erhöhten
Interesse an der Usability nachgefragt. Im Anschluss werden wichtige
Interface-Design-Kriterien unter verschiedenen Gesichtspunkten
abgeleitet und häufige Usability-Fehler analysiert sowie deren mögliche
Vermeidung dargestellt.
6.1. Definition
Der Begriff Usability ist in den vergangenen Jahren durch den Einsatz in
der Informatik, im Webdesign und im Firmenmarketing inflationär
gebraucht worden, so dass es inzwischen sehr schwierig ist, eine
zutreffende Definition zu finden. Die ISO 9241-11 definiert passend:
„Usability ist die Effektivität, Effizienz und das Ausmaß der Zufriedenheit,
mit denen bestimmte Benutzer spezifizierte Ziele in vorgegebenen
Umgebungen erreichen.“
6.2. Warum wird Usability aktuell wichtig?
Bis vor ein paar Jahren lagen die Relevanzen für den erfolgreichen Verkauf
aus marketingtechnischer Sicht bei der grafischen Umschlaggestaltung,
dem wohlklingenden Namen, der Marktposition des Herstellers, dem guten
Abschneiden bei Software-Tests und der Promotion einer Software. War
die Software verkauft, also die Bedürfnisse der Entwicklerfirma damit
befriedigt, war es prinzipiell nicht relevant, ob der User Probleme mit der
Bedienbarkeit und der Funktionalität des Software-Paketes hatte. Im
Gegenteil, der User suchte meist den Fehler bei sich und quälte sich durch
die Programmstruktur und die diversen Hilfen, bis er sich an die
Unzulänglichkeiten der Software gewöhnt hatte.
Teilweise war dieses Verhalten sogar wünschenswert, vorzugsweise bei
marktführenden Firmen, da somit eine gute Einnahmequelle durch
Schulungen und (kostenpflichtigen) technischen Support gewährleistet
war. Mit dem sprunghaften Anstieg des Internets und damit auch der
Online-Shops kam die Möglichkeit der freien Information über Produkte
ohne Kaufzwang in aller Anonymität, und plötzlich stellte sich die Frage
nach der Benutzbarkeit von Websites und Online-Auftritten: Es gibt im
Gegensatz zum realen Geschäft keinen Verkäufer mehr, der einen mit
62
psychologischen Manipulationen zum Kauf zwingen könnte. Man kann in
aller Ruhe suchen und Produkte erproben und das Geschäft jederzeit
wieder verlassen, auch ohne Kauf.
Aktuell ist es wichtig, dass ein potentieller Kunde nicht nur einmal die
Website besucht, sondern möglichst oft und lange. Findet sich der Kunde
in einem anderen Shop besser zurecht oder kommen ihm Zweifel über die
Seriosität der Firma und über die Sicherheit der Zahlung auf, dann wird
sich der Kunde sofort bei einem Konkurrenzshop orientieren und hat dabei
keine finanziellen Verluste oder gar Gewissensbisse, da ein Abbruch des
Besuchs jederzeit vollkommen anonym und folgenlos bleibt.
Experimente zum Online-Kaufverhalten von Usern [MAN...] durch das
amerikanische Unternehmen „User Interface Engineering“ ergaben
denkwürdige Ergebnisse:
• Die potenziellen 100 Kunden des Feldversuches benötigten
tatsächlich ein bestimmtes Produkt.
• Sie wurden (durch Schenken) mit den notwendigen finanziellen
Mitteln ausgestattet.
• Nur 30% der Shopping-Versuche sind erfolgreich. Viele Benutzer
scheitern schon beim Auffinden der Produktkategorie.
• 16% scheiterten beim Festlegen der genauen Produkteigenschaften
und 13% beim Bezahlen.
• Von möglichen 9000 US-Dollar, die den Usern zum Einkauf
geschenkt wurden, lagen nur für 3857 Dollar Waren in den
Einkaufswagen.
• Tatsächlich wurden sogar nur für 3350 Dollar Waren tatsächlich
geordert.
6.3. Designkriterien nach Norman
Nach Norman [NOR89], dem Wegbereiter des Human Engineering und
Ergonomie von Mensch-Maschine-Interfaces gelten sieben Prinzipien für
gutes Design, die dafür sorgen, dass gute Benutzbarkeit eines Produktes
gegeben ist:
1. Nutze sowohl das Wissen im Kopf als auch das Wissen in der Umwelt.
2. Vereinfache die Struktur der Aufgaben.
3. Mache die Dinge sichtbar: Überbrücke die Kluft der Ausführung und die
Kluft der Ausführung.
4. Sorge dafür, dass die Mappings stimmen.
5. Nutze die Einschränkungen, sowohl natürliche als auch künstliche.
6. Berücksichtige mögliche Fehler.
7. Wenn alles andere schief geht, richte dich nach bestehenden Normen.
Weiterhin sollte Design:
63
•
•
•
•
Die Feststellung, welche Handlungen zum jeweiligen Zeitpunkt
möglich sind, erleichtern (Einschränkungen nutzen).
Dinge sichtbar machen, darunter auch das konzeptuelle Modell des
Systems, mögliche Alternativen und die Ergebnisse von Handlungen.
Die Einschätzung des gegenwärtigen Zustands des Systems
erleichtern.
Die natürlichen Mappings berücksichtigen, und zwar zwischen
Intentionen und erforderlichen Handlungen; zwischen Handlungen
und deren Auswirkungen; und zwischen sichtbaren Informationen
und der Deutung des Systemzustands.
Das zugrundeliegende Design sollte dafür sorgen, dass der Benutzer
jederzeit herausfinden kann, wie er in jedem Augenblick vorgehen soll und
welches der augenblickliche Zustand des Systems ist.
6.4. Die häufigsten Usability-Fehler
Nach [MAN01] sollen im Folgenden die häufigsten Usability-Fehler im
Software-Engineering und in der Erstellung von Internet-Seiten aufgeführt
werden.
6.4.1. Fehlende Botschaft
Der User versteht nicht, was er in dem jeweiligen Programmteil gerade
tun soll. Die einzelnen Screens sind oftmals mit Designelementen und
Inhalt so überfüllt entworfen, dass der auf den ersten Blick zu erfassende
Zweck des jeweiligen Screens nicht eindeutig erkennbar ist.
6.4.2. Fehlende Orientierungsmöglichkeiten
In der Regel bieten Softwaresysteme und Hypertext nichtgeradlinige
Navigation an. In einer Struktur, in der verlinkte Strukturen existieren,
also eine nichtgeradlinige Navigation durch Hypertext möglich ist, ist es
wichtig, dass der User immer einen Anhaltspunkt bekommt, wo er sich
aktuell befindet. Da in diversen Studien im Navigationsverhalten der User
sehr häufig „wildes Herumklicken“ registriert wurde, kann nicht davon
ausgegangen werden, dass immer ein geradliniges Ziel mit einem klar
definierten Weg verfolgt wird. Ein solcher Weg kann durch eine
sogenannte „Brotkrumen-Spur“, die Existenz reizvoller Schlüsselelemente,
auch bei unentschlossenen Usern erzeugt werden, aber um auch den
ungünstigsten Fall abzudecken, sollte auf eine überaus klare Anzeige der
Position des Users in der Programmstruktur Wert gelegt werden.
64
6.4.3. Benutzerbezogene Menüstruktur
Die Navigations- und Menüstruktur, die der Entwickler der Software für
sein Programm definiert hat, entspricht oftmals nicht der Suchstruktur des
Anwenders, mit der ein User im Programm Informationen finden möchte.
Dies liegt darin begründet, dass der User im allgemeinen nicht über den
Wissensstand des Entwicklers im jeweiligen Fachgebiet verfügt, und ihm
bestimmte Untergliederungen eines Themenbereiches nicht bekannt sind,
die für den Entwickler aufgrund von möglicherweise jahrelanger
Beschäftigung mit dem Thema selbstverständlich erscheinen.
Dementsprechend sollte die Menüstruktur so gewählt werden, dass eine
Menüstruktur erzeugt wird, die das Gruppieren der einzelnen Thematiken
in vom Benutzer nachzuvollziehende Strukturen ermöglicht.
6.4.4. Grafische Überladung
Grafische Gestaltung ist elementar, um Textstrukturen aufzulockern und
zu erläutern. In der Architektur existierten Perioden wie der Barock, in
denen Flächen und Strukturen durch Überladung an Gestaltungselementen
so überfüllt wurden, dass das Auge keine Fixationspunkte mehr bilden
konnte. Demgegenüber wurde in der Bauhausphase das Prinzip „form
follows function“ propagiert, was sich in sehr schlichten
Gestaltungselementen und einer reinen, funktionellen Form
wiederspiegelte.
Zwischen diesen Extremen ist Gestaltung möglich. In den Anfangstagen
des Internets konnte man oft überladene Websites betrachten, die durch
inflationären Einsatz von farbigen Schriftfonts und Blink-Schrift dem
Benutzer ebenfalls die Orientierung erschwerten. Dieses Phänomen ist in
heutigen Websites nicht mehr zu finden, da offensichtlich die
Benutzbarkeit und der gute Geschmack vorherrschend werden.
Wie beschrieben ist grafische Gestaltung elementar, wenn aber die
grafische Gestaltung in Unlesbarkeit eines Text-Fonts oder zu kleiner
Schriftgröße aus gestalterischen Motiven mündet, dann ist keine gute
Benutzbarkeit gewährleistet.
Dementsprechend sollte nur die elementar notwendige grafische
Gestaltung geleistet werden, die die Schnittstelle ästhetisch ansprechend
macht und die Hervorhebung und Gestaltung wichtiger ProgrammElemente unterstützt.
6.4.5. Lange Ladezeiten
Wenn ein Programmblock geladen wird, kann durch seine Dateigröße eine
längere Nachladezeit die Folge sen. Der Benutzer sollte sowohl über
diesen Umstand informiert werden, als auch über den Ladefortschritt in
Kenntnis gesetzt werden, da eine Nichtkenntnis auf der Seite des Users
65
eine Unsicherheit über den Zustand des Programms (zum Beispiel die
Frage nach einem Programmabsturz) auslöst.
6.4.6. Falsche Strukturierung der Inhalte
Programminhalte, die für das Lesen am Bildschirm aufbereitet werden,
haben anderen strukturellen und typographischen Anforderungen zu
genügen als beispielsweise Inhalte für ein Buch.
Begründet in einer anderen Form der Informationssuche (schnelles
Scannen der Texte), sollten sie im Idealfall, um den gleichen Grad an
Interesse zu erhalten, folgenden Anforderungen genügen:
• sie sollten wesentlich knapper gehalten sein,
• möglichst ohne Scrollen lesbar sein,
• mehr Strukturierungen und visuelle Anker enthalten
• sie sollten im Idealfall dem „umgekehrten Pyramidenstil“ folgen:
erst die Schlagzeile, danach die Zusammenfassung und dann die
Details.
6.5. Ein Usability-Test: Die Heuristische Evaluation
In der Heuristischen Evaluation, einer Usability-Test-Methode, wird die
Usability eine Applikation von einer Anzahl von Experten auf UsabilityFehler bewertet.
Dabei wird davon ausgegangen, dass 5 Experten mit ihrer gemeinsamen
Expertise ungefähr 80 Prozent der Usability-Probleme aufdecken.
6.5.1. Die Merkmale
Die Merkmale der Heuristischen Evaluation sind:
• die Methode ist buttom-up gerichtet
• sie ist analytisch, kritisierend und korrektiv
• sie ist vollständig und systematisch bezüglich der Funktionen
• sie ist selektiv bezüglich der Beurteilung (nur Mängel)
• sie hat die Prinzipien als Grundlage, nicht Lernfähigkeit der Benutzer
• sie ist primär lokal orientiert
• sie ist redundant in der Mängelbeschreibung
• sie ist gut geeignet auch für frühe Phase der Entwicklung
(beispielsweise in der Phase des Rapid Prototyping)
• sie ist sehr kostengünstig
66
6.5.2. Die Bewertung
Ein Rating gibt die Schwere der gefundenen Probleme an. Dabei
bedeuten:
Schweregrad
0
1
2
3
4
Beschreibung
Kein Problem
Kosmetisches Problem
Kleines Problem – geringe Priorität
Größeres Problem – hohe Priorität
Katastrophe – höchste Priorität
Tabelle 7: Rating-Skala bei der heuristischen Evaluation
6.5.3. Ergebnisse
Die Heuristische Evaluation trifft Aussagen über potentielle Probleme der
Benutzbarkeit der Applikation aus Expertensicht. Es entsteht eine
systematische Übersicht über die gefundenen Probleme. Die Zuordnung
der Probleme zu Heuristiken gibt die Richtung für eine Veränderung an.
Eine Prioritätenliste (die Relevanz der Usability-Probleme) zeigt die
Reihenfolge der notwendigen Veränderungen.
Die Generalisierung einer Vielzahl von Ergebnissen diverser Usability-Tests
werden von Nielson als Empfehlungen für eine gute Software-Usability
zusammengefaßt [MAN01]:
1. Stelle einen einfachen und natürlichen Dialog her.
2. Sprich die Sprache der Benutzer.
3. Minimiere die Gedächtnislast der Benutzer.
4. Sei konsistent und halte dich an Standards.
5. Liefere Feedback.
6. Stelle klar markierte Ausgänge zur Verfügung.
7. Stelle Abkürzungen zur Verfügung.
8. Liefere gute Fehlermeldungen.
9. Verhüte Fehler.
10. Liefere angemessene Hilfe und Dokumentationen.
Im einfachsten Sinne wird unter Usability die Lehre von der Benutzbarkeit
einer Software im Sinne des Users verstanden. Damit ist gemeint, dass
der User (oder im Sinne einer statistischen Erhebung ein Durchschnitt) die
Güte der Benutzbarkeit nach seinen Kriterien und erlernter Symbolik
bestimmt, nicht der Programmierer.
67
6.6. Testen des multimedialen Lernmoduls nach Usability-Kriterien
Jakob Nielsen legte in seinem Paper „Usability Engineering at a Discount“
1989 dar, dass zum Test einer Applikation nicht unbedingt ein UsabilityLabor mit Experten benutzt werden muss. Natürlich ist es wünschenswert,
ein Rating von Experten mit ausgearbeiteten Fehlern und deren
Lösungsvorschlägen zu erhalten, aber man kann einen sehr großen
Prozentsatz von Fehlern mit weniger Aufwand entdecken. Als Tester
werden potentielle Benutzer der Applikation eingesetzt. Jakob Nielsen und
Tom Landauer haben gezeigt, dass Tests mit 5 Usern etwa 85 Prozent der
Usability-Probleme aufdecken können. [KRU00] schlägt vor, Tests mit drei
oder 4 Usern mehrmals durchzuführen. Beim ersten Durchlauf werden die
drei User wahrscheinlich alle besonders signifikanten Probleme entdecken.
Diese Mängel werden behoben. Beim nächsten Durchlauf werden die User
die nächstschwereren Probleme entdecken, da sie nun nicht mehr von den
bereits behobenen Fehlern aufgehalten werden. Zur besseren
Replizierbarkeit sollten die Schritte der Benutzer mit einer Videokamera
aufgezeichnet werden.
Im Rahmen der Magisterarbeit wurde das multimediale Lernmodul mit fünf
potentiellen Benutzern der Applikation mit dieser Methode getestet, um
signifikante Schwächen in der Navigation und im Verständnis der
Simulationen aufzudecken. Nach jedem deutlichen „Steckenbleiben“ oder
Unverständnis des dargestellten Bildschirminhaltes oder Wissensinhaltes
wurde das Modul verändert und wiederum ein Test durchgeführt.
Gravierende Probleme wurden so gefunden und behoben.
68
7. Anforderungsanalyse für die Nutzung des Lernmoduls
In diesem Kapitel werden die verschiedenen wahrscheinlichen
Einsatzmöglichkeiten des zu erstellenden Programms kurz beschrieben.
Daraus abgeleitet wird unter dem Gesichtspunkt der Einsatzmöglichkeiten
eine Anforderungsanalyse der notwendigen Strukturen und thematischen
Inhalte sowie die zu erwartenden Nutzer definiert.
Es sind primär Einsatzmöglichkeiten in der Lehre, in der Forschung und im
Tonstudio denkbar.
7.1. Einsatzszenario in der Lehre und in den Vorlesungen
Haupteinsatzgebiet des Programms dürfte die Lehre und Bildung im
Bereich Audiotechnik sein. Aus diesem Grund sollten für Präsentationen
des Programms und zur Verdeutlichung der zugrundeliegenden Prinzipien
die wichtigsten Diagramme und Grafiken einerseits einfach und schnell zu
erreichen sein und andererseits in ausreichender Größe zur Verfügung
stehen, so dass sie bei einer Präsentation des Programms mit einem
Beamer und Notebook auch von weiter entfernten Positionen noch deutlich
zu erkennen sind.
Weiterhin ist das Einsatz-Szenario als multimediales Lernmodul im
Rahmenplan einer Ausbildung an einer Virtuellen Universität oder
Hochschule denkbar, bei der dann keine Lehrkräfte im herkömmlichen
Sinne zur Verfügung stehen, sondern der Lernende sich die Thematik
selbständig am Computer erarbeiten sollte. Für dieses Szenario sollten alle
thematisch wichtigen Informationen im Programm enthalten sein,
beispielsweise die ausführliche Erklärung der Funktionsweise oder die
ausführliche Erklärung der als Hörbeispiele zur Verfügung gestellten
typischen Fehlersignale perzeptiver Codecs.
Durch diese Szenarios definiert sich auch die Hauptnutzer-Gruppe. Es
werden Studenten und Dozenten sein, die das Thema perzeptive
Audiocodierung erarbeiten und dabei die Vorteile der Multimedia-Technik
nutzen wollen, mit speziellem Augenmerk auf der Nutzung der vielfältigen
Experimente und Hörbeispiele.
Weiterhin wird das Programm für alle Lehrbereiche interessant, in denen
das menschliche Hören behandelt wird, da die behandelten Phänomene
und Effekte nicht nur in der perzeptiven Audiocodierung Verwendung
finden. So können die zur Verfügung gestellten Experimente und
Simulationen in vielen Fachbereichen benutzt werden, um diese
Phänomene des menschlichen Gehörs zu demonstrieren, beispielsweise in
der Audiotechnik oder der musikalischen Ausbildung.
69
7.2. Einsatzszenario in der Forschung
Bei der Nutzung des Programms in der Forschung wäre beispielsweise eine
schnelle Erarbeitung der Funktionsweise und die explorative Nutzung der
Diagramme und Grafiken denkbar. Ein Hörvergleich verschiedener Codecs
kann beispielsweise in der Psychoakustik dazu dienen, die Audio-Qualität
der verschiedenen Codecs bei verschiedenen Bitraten miteinander zu
vergleichen und somit Schlüsse auf deren Verbesserungsmöglichkeiten für
die eigene Arbeit zu ziehen.
Hauptsächliches Ziel wird es aber sein, in kurzer Zeit durch die Nutzung
der im Programm zur Verfügung gestellten verschiedenen Medien wie
Hörbeispiele, Bilder, Diagramme und Text eine umfassende und effektive
Erarbeitung des Themas „Perzeptive Audiocodierung“ zu ermöglichen.
7.3. Einsatzszenario in Tonstudios
Für den Einsatz in Tonstudios ist das Programm prädestiniert, wenn eine
Vielzahl von Hörbeispielen zur Verfügung gestellt wird. Während die
Erklärung der Funktionsweise ebenfalls von Interesse sein kann, wird doch
bei diesem Szenario eher der schnelle Vergleich der
Kompressionsverfahren und Codecs bedeutsam sein. Hauptnutzer wird
hier der Toningenieur oder Tonmeister sein, der für sein aktuelles Projekt
Audiosignale unter bestimmten Vorgaben wie festgelegter Bitrate zu
komprimieren hat. Dieser Nutzer wird sich nun primär für die zu
erwartenden Qualitätsverluste und deren Eigenschaften bei verschiedenen
Signalen wie Sprache, klassischer Musik und elektronischer Musik
interessieren. Ein vom Programm zur Verfügung gestelltes Klang-Archiv,
in dem eine Vielzahl von unterschiedlichen Audiosignalen, die von
möglichst allen aktuell auf dem Markt erhältlichen Codecs bei
verschiedenen Bitraten encodiert und wieder decodiert wurde, wäre für
diesen Nutzer von großer Bedeutung. Weiterhin wird dieser Nutzer
Interesse für die Gehörschulung in Bezug auf perzeptive Audiocodierung
zeigen. Er ist es gewohnt, Audiosignale bezüglich ihrer Qualität zu
bewerten und hinsichtlich dieser Bewertung eine Bearbeitung des Signals
vorzunehmen (beispielsweise genau auf im Signal vorkommendes
Rauschen oder Klick-Laute zu hören). Perzeptive Codierung aber erzeugt
prinzipbedingt eine Vielzahl neuer, in der herkömmlichen Audiotechnik
nicht vorkommender Fehlersignale, auf deren Erkennung das Ohr erst
geschult werden muss. Daraus resultiert, dass der Toningenieur oder
Tonmeister durch die Bereitstellung eines Archivs typischer Fehlersignale
perzeptiver Codierung und deren Erklärung eine Möglichkeit hat, das Ohr
auf den typischen Klang dieser Fehlersignale zu schulen. Ist diese
Schulung abgeschlossen, kann er dann Mittel zur Entfernung dieser
Fehlersignale aus dem Audiosignal erarbeiten.
70
8. Die Spezifikationen – Das Pflichtenheft
In diesem Kapitel werden die Spezifikationen für das multimediale
Lernmodul zur perzeptiven Audiocodierung festgelegt. Es werden die
thematischen Schwerpunkte festgelegt und deren Umfang und Inhalt
begründet.
Weiterhin werden die zu bedienenden Systemplattformen definiert. Es
werden die notwendigen Systemvoraussetzungen des Nutzers sowie die
Distributionsmedien definiert.
Schließlich wird die Rolle der grafischen Gestaltung unter dem
Gesichtspunkt des Speicheraufwands und der Priorität sowie die
Gestaltung der Navigation durch die Programmstruktur festgelegt.
8.1. Die Programmschwerpunkte
Das Lernmodul wird in folgende Schwerpunkte unterteilt:
•
•
•
•
•
ein Intro (Einführung in das Thema)
die Erklärung der Funktionsweise eines perzeptiven Codecs
diverse psychoakustische Experimente
die Hörbeispiele
weiterführende Literatur (Beigabe als PDF-Files).
Diese Unterteilung in Module wurde gewählt, da so thematisch von einem
Thema auf das nächste hingeleitet werden kann und einer späteren
Erweiterung des Programms um weitere Module um weitere Schwerpunkte
möglich ist.
Besonderer Schwerpunkt wird auf die Erarbeitung der Hörbeispiele und
psychoakustischen Experimente gelegt. Gedruckte Spezifikationen und
Publikationen sind von Benutzern mit Interesse an der perzeptiven
Audiocodierung leicht zu beschaffen und thematisch zu erarbeiten,
während aber ein repräsentativer Hörvergleich unterschiedlicher Codecs
und die auditive Darstellung psychoakustischer Phänomene sehr schwer
zu finden sind. Dementsprechend sollte bei der Erstellung des Programms
die Experimente und Hörbeispiele in ausreichender Quantität und guter
Qualität zur Verfügung stehen.
Das Intro sollte thematisch auf das Thema einstimmen, es sollte versucht
werden, eine Analogie zwischen der Verschlechterung der Audioqualität
und der Verschlechterung der Qualität anderer Medien zu finden, zum
Beispiel der Bildqualität von Fotos oder der Lesbarkeit von Text.
Die Erklärung der Funktionsweise des MP3-Codecs sollte eher knapp
gehalten werden. Auf eine erschöpfende wissenschaftliche Abhandlung
71
sollte zugunsten der sofortigen Verständlichkeit für den Nutzer verzichtet
werden. Weitergehende Erklärungen sollten durch dem Programm
beiliegende PDF-Files erfolgen, in denen bei Bedarf die Funktionsweise und
das Prinzip perzeptiver Audiocodierung in technischen Veröffentlichungen
erschöpfend behandelt wird. Für diese Dateien sollte das Programm
AcrobatReader auf der CD-Rom vorhanden sein. Eine Einbindung der
Dokumente in die Programm-Struktur sollte nicht notwendig sein, da bei
einem begründeten Interesse des Nutzers an weiterführender Literatur
davon ausgegangen werden kann, dass der Umgang mit Acrobat Reader
geläufig sei. Diese PDF-Files sind als Beigabe zu betrachten, und nicht als
zum Programm-Modul zugehörig. Auf eine Konvertierung der PDF-Files in
HTML-Dokumente kann verzichtet werden, da zum Aufruf der Dateien in
jedem Fall Zusatzsoftware zu installieren wäre. Die Argumentation, dass
ein HTML-Browser in jedem Fall auf allen Zielrechnern zur Verfügung
steht, ist nicht haltbar, da Acrobat Reader ebenfalls mit allen aktuellen
Zielrechnern ausgeliefert wird und somit ebenfalls zur Verfügung steht.
In den psychoakustischen Experimenten und Simulationen soll der
Programm-Nutzer für diverse Mechanismen und Eigenheiten des
menschlichen Gehörs und deren mögliche Nutzung in der perzeptiven
Audio-Codierung sensibilisiert werden. Da die Benutzung und der Umfang
der perzeptiven Modelle in den Spezifikationen der Codecs nicht
festgeschrieben ist, sollen in den Experimenten und Simulationen
mögliche Ansätze für eine Entfernung nichthörbarer Signalanteile gezeigt
werden, beispielsweise die Ausnutzung von Maskierungseffekten.
In den Hörbeispielen sollten für einen Nutzer einerseits die hörbaren
Unterschiede von MP3-komprimierten Signalen bei unterschiedlichen
Bitraten in möglichst repräsentativer Form (bei verschiedenen Musikstilen)
dargestellt werden, andererseits sollte ein Hörvergleich unterschiedlicher
auf dem Markt befindlicher Codecs bei verschiedenen Bitraten verwirklicht
werden. Ist das Ziel eines Programm-Nutzers beispielsweise die
Information über den hörbaren Qualitätsverlust bei verschiedensten
Signalen (zum Beispiel das Ziel der Auswahl eines geeigneten Codecs für
Archivierungszwecke), dann sollte die Qualität der Codecs bei der
gegebenen Bitrate direkt vergleichbar sein, und dem Nutzer eine korrekte
Auswahlentscheidung ermöglichen.
8.2. Die Nutzer
Bei der Nutzung des Programms wurde für den Nutzer ein Verständnis der
Grundzüge der Audiotechnik vorausgesetzt, da die Erklärung aller
notwendigen Audio-Werkzeuge (wie Spektrogramme, Spektren, dB...) den
Rahmen des Programms gesprengt hätte. Ausführlich wurden die
potentiellen Nutzer des Programms in der Anforderungsanalyse (siehe
Kapitel 7) spezifiziert.
72
8.3. Die Abspielsoftware
Es sollte keine zusätzliche Software auf dem Zielrechner zu installieren
sein. Das Programm sollte in traditioneller Weise über eine CD-ROM
vertrieben werden. Nach Einlegen der CD-Rom sollte der Inhalt sofort
ohne eventuell notwendige Änderungen im System und ohne
Zusatzsoftware laufen. Der Speicherumfang sollte 800 MB (Kapazität einer
handelsüblichen CD-ROM) nicht überschreiten.
8.4. Die Plattform
Im Rahmen dieser Arbeit wurde davon ausgegangen, dass eine
Unterstützung von Windows und Macintosh-Betriebssystemen ausreichend
sei. Wünschenswert wäre weiterhin eine Unterstützung von Linux. Es
wurde aber davon ausgegangen, dass Linux-Nutzern eine Möglichkeit zum
Abspielen des Programms entweder unter einem Windows-Emulator oder
unter einem realen Windows-System (z.B. auf einer Windows-Partition)
möglich sei.
Sound-Dateien sollten in einem solchen Format (sowohl das Dateiformat
als auch Abtastrate und Bittiefe) vorliegen, dass sie mit jeder gängigen
Audio-Karte abspielbar sind.
8.5. Lauffähigkeit des Programms über ein Internetprotokoll
Das Programm-Modul sollte problemlos für das Internet als lauffähige
Applikation kompilierbar sein, ein reiner Download der Software und
nachfolgende Installation auf dem Zielrechner sind aufgrund der oft
eingeschränkten Installations- und Zugriffsrechte nicht wünschenswert.
Die Sounddateien sollten aufgrund des audiotechnisch und klanglich
sensiblen Themas nicht verlustbehaftet komprimiert sein (wie z.B. MP3
oder Shockwave-Audio).
8.6. Die grafische Gestaltung
In Anbetracht der großen Anzahl an speicherintensiven HörbeispielSounddateien und der Maßgabe, dass der ganze Inhalt des Moduls die
Speicherkapazität einer CD-Rom nicht überschreiten sollte, sollte auf eine
aufwändige grafische Gestaltung und ein durchkomponiertes Layout
verzichtet werden. In der grafischen Gestaltung des Programm-Interfaces
sollten im Wesentlichen die internen Darstellermöglichkeiten der
73
Programmumgebung genutzt werden. Speziell beim Design der
Navigationselemente und Hintergrundbilder sollte auf speicherintensive
Bilder und Grafiken zugunsten einer größeren Anzahl an Hörbeispielen und
psychoakustischen Simulationen und Experimenten verzichtet werden.
Animationen sollten, wenn überhaupt, nur sparsam eingesetzt werden. In
diesem Sinne sollte, um den im Usability-Kapitel benutzten Vergleich
wieder aufzugreifen, der Ansatz des Bauhaus-Stiles im wesentlichen
verwirklicht werden und damit die Aufmerksamkeit des Benutzers nicht
von grafischer Gestaltung abgelenkt werden. Somit werden die in Kapitel
6 aufgestellten Usability-Kriterien zu befolgen sein.
In der Gestaltung des Programm-Moduls ist darauf zu achten, dass alle
Navigationselemente und Hintergrundgrafiken leicht aufzufinden und
auszutauschen sind, sollte im Zuge der Verbesserung des ProgrammModuls eine ausgefeilte und aufwändige grafische Gestaltung gewünscht
werden.
8.7. Die Navigation
Den aufgestellten Usability-Kriterien des Kapitel 6 folgend, sollte für den
ungeübteren Nutzer eine geradlinige Navigation, als auch für den geübten
Nutzer ein schnelles Springen zwischen den Programm-Modulen mittels
Sitemap oder Startseite erarbeitet werden. In der geradlinigen Navigation
sollte es möglich sein, alle Seiten des gesamten Moduls mittels „Seite
vorwärts“ und „Seite zurück“ zu erreichen, eine logische Reihenfolge des
Auftretens der einzelnen Seiten wird in dieser Form der Navigation
natürlich vorausgesetzt.
8.8. Das User-Interface
Die Gestaltung des Programminterfaces sollte klar und strukturiert sein.
Es sollte immer auf den ersten Blick für den Nutzer erkennbar sein, in
welchem Unterpunkt des Programmmenüs er sich befindet, um eine
Konfusion und ein „Verirren“ zu vermeiden. Die Navigationsstruktur sollte
klar als solche zu erkennen sein, ein Verstecken in einem vom Nutzer zu
erforschenden Bedienpanel ist zu vermeiden, es sollten aus dem Web oder
der Windows-Welt bekannte Symbole und Strukturen verwendet werden.
Bezüglich der internen Struktur der einzelnen Module ist darauf zu achten,
dass bei mehrteiligen Programmpunkten immer klar erkennbar ist,
welcher Programmpunkt aktiv ist, welche anderen Punkte weiterhin
vorhanden sind und wie man diese schnell erreichen kann.
Modulüberschriften sollten als solche klar und kontrastreich erkennbar
sein, Unterüberschriften sollten sich in unmittelbarer Nähe befinden und
die einzelnen Untermodule strukturieren.
74
9. Entwurf des multimedialen Lernmoduls
In diesem Kapitel werden die verschiedenen Umsetzungsmöglichkeiten der
im vorigen Kapitel aufgestellten Spezifikationen diskutiert und Lösungen in
der Umsetzung sowohl für das Design des Interfaces als auch speziell für
die einzelnen Module aufgezeigt. Am Beginn wird eine Analyse der
technischen Umsetzungsmöglichkeiten der in Kapitel 8 definierten
Spezifikationen vorgenommen. Weiterhin werden die Systemfunktionen
und globalen Strukturen des Programms entwickelt.
Folgend werden die Experimente und Simulationen entworfen, die das
Programm beinhalten soll und das Lernkonzept definiert, nach denen das
Lernmodul wird.
Schließlich werden Möglichkeiten für die Entwürfe der einzelnen
Programmteile diskutiert und aus dieser Diskussion die letztendliche
Auswahl der dann zu verwirklichenden Entwürfe begründet.
9.1. Definition der Funktionen – Festlegung der Multimediasoftware
9.1.1. Analyse der Software zum Arrangieren der Multimedia-Inhalte
Bevor die einzelnen Programmteile entworfen wurden, musste die
Festlegung der Multimedia-Software erfolgen, da sich die weiteren
Entwurfskriterien nach den Möglichkeiten und Extensionsmöglichkeiten
dieser Software richten sollten, um in der vorgegebenen Zeit zu
brauchbaren Ergebnissen zu kommen. Gleichzeitig hielt man damit die
immer vorhandene Gefahr eher gering, dass die einzelnen Entwürfe
technisch nicht umgesetzt werden können, da die Software nicht die
passenden Funktionen bietet, und der Programmierer einen Rückschlag
erleidet. Aus diesem Grunde war das Vorgehen, dass erst die ArrangierSoftware gewählt wurde, und dann die Entwürfe auf ihre Umsetzbarkeit
geprüft wurden.
75
Im wesentlichen lassen sich multimediale Inhalte über folgende
Plattformen darbieten17:
Plattformen
Vorteile
Nachteile
HTML bzw. XML- Leicht erweiterbar, Stabilität und
basiert
Vielzahl an
Synchronität von
Editoren
Video und Audio
nicht
gewährleistet
Apple Quicktime Gute Stabilität und Komplizierter
Synchronität von
Aufbau von
Audio und Video
Interaktivität,
Wahl des
geeigneten
Codecs
kompliziert
Real Player,
SMIL
Macromedia
Sehr gute
Stabilität und
Flash
VektorgrafikSynchronität von
möglichkeiten
Video und Audi
nicht
gewährleistet
Macromedia
Gute Stabilität und Director
Synchronität von
Audio und Video,
viele
Interaktionsmodule
bereits vorhanden
Zusätzliche
Software
erforderlich?
Ja, Web- Browser
Ja,
QuicktimePlayer
Ja, RealPlayer
Ja, FlashPlayer
Nein
Tabelle 8: Vor- und Nachteile der verschiedenen Multimedia-Systeme
Es wurde eine Implementierung in Macromedia Director gewählt und
verwirklicht, da in dieser Programmumgebung ein schnelles,
synchronisiertes und nicht-stockendes Abspielen auch längerer SoundDateien weitgehend gewährleistet ist. Weiterhin erzeugt Director einen
ausführbaren Programmcode (*.EXE) und bindet alle notwendigen
Zusatzmodule in diesen Programmcode ein, so dass keine Zusatzsoftware
zum Abspielen des Programms notwendig ist. Für alle anderen oben
aufgeführten Programme gilt, dass immer ein Abspielprogramm
vorhanden sein muss. Allerdings könnte man im Falle von HTML-basierten
Anwendungen und Quicktime davon ausgehen, dass auf jedem normal
installierten Windows-Betriebssystem ein Webbrowser (MS Internet
17
Finanziell sehr aufwändige Systeme wie die von „blackboardsoftware“ werden hier
ausgenommen.
76
Explorer) und eine Quicktime-Abspielsoftware (MS Media Player)
vorhanden sein sollte.
Weiterhin stellt Director eine Vielzahl von benutzbaren InteraktionsModulen (wie verschiedene Mauszeiger und Schaltflächen) zur Verfügung,
die keinen weiteren Speicherplatz benötigen und somit mehr Speicherplatz
für die eigentlichen Programm-Inhalte zur Verfügung stellen.
Schließlich kann aus Director heraus über eine Einbindung in InternetProtokolle der arrangierte Programminhalt in das proprietäre ShockwaveFormat umgewandelt werden. Nach Download des kostenlos verfügbaren
Shockwave-Players ist das erstellte Programm in jedem Web-Browser
abspielbar.
9.1.2. Grober Entwurf der Komponenten
Da der Hauptschwerpunkt des Programms die psychoakustischen
Experimente/Simulationen und die Hörbeispiele waren, wurden diese
Punkte sehr ausführlich für den potentiellen Nutzer analysiert und erprobt.
Da die Funktionsweise eines perzeptiven Audiocodecs hauptsächlich in der
Ausnutzung der Maskierungseigenschaften des menschlichen Gehörs liegt,
wurden Simulationen klassischer Mithörschwellenexperimente der
Psychoakustik ausgearbeitet.
Der Aufbau der Experimente sollte nach dem Modell konstruktivistischen
Lernens erfolgen, welches in multimedialen Lernumgebungen häufig
verwendet wird ([BAU99], [KAL02]). Die Vorteile und Nachteile der
Verwendung der einzelnen Möglichkeiten zum Aufbau von
Lernumgebungen wurden in Kapitel 3 diskutiert. Die Vorteile und Nachteile
des Einsatzes einzelner Medien und der Medien im Verbund wurde in
Kapitel 3.3. ausführlich dargestellt. Im Entwurf des gesamten Programms
wurde großen Wert darauf gelegt, die in Kapitel 3.3. dargestellten
Prinzipien und Forschungsergebnisse zu beachten.
Im Entwurf der im Programm verwirklichten Experimente und
Simulationen wurde der klassische Aufbau eines Experiments nach
konstruktivistischen Prinzipien verwirklicht:
•
•
•
Erklärung: Dem Benutzer wird der Aufbau des Experimentes erklärt.
Aufgabe: Dem Benutzer wird eine Aufgabe zum Experiment gestellt.
Experimentieranordnung: Hier wird das eigentliche Experiment
demonstriert.
Dieser Aufbau wurde gewählt, da mit dieser Anordnung ein hoher
Lerneffekt zu erwarten war, sowie durch das Einhalten dieser üblichen
Anordnung die kognitive Last des Benutzers zum Nachvollziehen eines
abweichenden Lernprinzips minimiert wird.
77
Im entstehenden Programm sollte weiterhin eine Simulation der MP3Filterbank enthalten sein. In dieser sollte die Aufsplittung des auf 32 kHz
heruntergesampelten Signals in 32 Filterbänke gleicher Bandbreite
(500Hz) approximiert werden. Diese Frequenzbänder sollten graphisch
dargestellt werden. Es sollte möglich sein, die gefilterten Signale der
einzelnen Frequenzbänder anzuhören, um dem Nutzer einerseits einen
Eindruck davon zu vermitteln, wie gefilterte Signale klingen. Andererseits
sollte es damit möglich sein nachzuvollziehen, welche Instrumente und
Signalanteile sich in welchem Frequenzband befinden, welche
Frequenzbänder einen relevanten Anteil am Gesamt-Musiksignal haben
und welche dagegen einen so geringen Anteil haben, dass sie ohne
hörbare Verluste aus dem Signal entfernt werden können. Beispielsweise
tritt bei einem Grossteil klassischer Musik relevante Signalinformation nur
im Frequenzbereich 0-5000Hz auf (Becken und andere Instrumente mit
hauptsächlich hochfrequentem Energieanteil ausgenommen). Das
bedeutet: bei einer Abtastrate von 32 kHz müssen mehr als zwei Drittel
des Signals nicht codiert werden, da sie keine hörbaren Informationen
enthalten18.
Für die Hörbeispiele wurde einerseits ein Hörvergleich des MP3-Codecs bei
verschiedenen Bitraten ausgearbeitet, andererseits wurde ein
ausführlicher Hörvergleich verschiedener Codecs geplant. Schließlich
wurden Hörbeispiele für eine repräsentative Auswahl an fehlerbehafteten
Signalen ausgewählt, die durch perzeptive Codecs erzeugt werden
(Artefakte).
Die Erklärung der Funktionsweise eines MP3-Encoders sollte bewusst so
knapp abgehandelt werden, dass ein in den Spezifikationen definierter
Nutzer (siehe Kapitel 8.2) die Funktionsweise verstehen und
nachvollziehen kann19.
Eine ausführliche Erarbeitung und Verdeutlichung mittels Animationen und
interaktiven Videos wurde nicht geplant und auf die Phase der
Verbesserung und Erweiterung des Moduls verschoben. Sollte sich der
Nutzer genauer über die Funktionsweise informieren wollen, sollte auf das
Programm-Modul „Weiterführende Literatur“ verwiesen werden, wo
mehrere technische Artikel genauestens über die einzelnen Bausteine und
Algorithmen informieren. Diese genaue Dokumentation sollte aber in
keinem Fall im Programm-Modul vorliegen, da dies nur zu einem
Informationsüberfluss des Nutzers und Langeweile führen würde, im
Extremfall zu einer Reaktanz (Abwehrhaltung).
18
Diese Argumentation ist prinzipiell zu sehen. Es ist klar, dass im hochfrequenten
Bereich Signalinformationen auftreten, die vom Ohr zur Auswertung von Lokalisation und
Rauminformationen genutzt werden. Genau diese Hörphänomene werden auch bei
neueren perzeptiven Codecs beachtet (siehe Abschnitt 5.2 und 5.3). Es wird hier aber
von grundsätzlichen Prinzipien der perzeptiven Audiocodierung ausgegangen.
19
Ein in der Audiotechnik und Akustik unerfahrener Nutzer sollte die Funktionsweise
nachvollziehen können, ohne jedes Detail zu verstehen. Die Funktionsweise sollte so
erklärt werden, dass ein Nutzer ohne Grundkenntnisse der Audiotechnik das Prinzip im
Großen und Ganzen verstehen kann.
78
Der Literaturteil sollte sehr einfach strukturiert werden. Eine Einbindung
der technischen Publikationen, die als PDF-Dateien vorlagen, war aus den
in Abschnitt 8.3. aufgeführten Gründen nicht notwendig. So wurde nur ein
Informationstext entworfen, der auf die auf der CD-Rom enthaltenen
Artikel und die Software „AcrobatReader“ verweisen sollte. Bei der
Distribution der Software über das Internet sollten die Artikel nicht
enthalten sein, da nicht klar war, inwiefern Verbreitungsrechte und
Copyrights zu beachten sind.
Um schließlich eine Einleitung zu diesen komplexen Modulen zu finden
wurde ein Intro entworfen. Der ursprüngliche Entwurf sah eine VideoAufnahme eines Sinfonie-Orchesters oder einer Big-Band vor, die Qualität
der zugehörigen Tonspur sollte sich durch die Codierung durch einen
perzeptiven Audiocodec mit immer kleiner werdenden Bandbreite nach
und nach verschlechtern, während synchron dazu die Bildqualität nach
und nach immer schlechter wird. So sollte der Nutzer auf die jedem
bewusste Verschlechterung eines Bildes oder Videos durch Unschärfe,
Kontrastverlust oder Farbverfälschungen auch auf die Verschlechterung
der Audioqualität sensibilisiert und neugierig gemacht werden, die einem
Normal-Anwender, der sich nicht mit Audio beschäftigt, nur marginal
bewusst ist.
Gleichzeitig sollte Bild ungenügender Internet-Bandbreite für Videos
heraufbeschworen werden, die jeder Nutzer von briefmarkengroßen, mit
grober Auflösung gerechneten und mit Artefakten übersäten
Videosequenzen aus dem Internet kennt. Dass die gleichen Fehler aber bei
perzeptiver Audiocodierung (MP3) in genau dem gleichen Maße auftreten,
wird selten von nicht auf die Qualität von Audio achtenden Menschen
bemerkt oder wahrgenommen!
9.3. Auswahl der Experimente und Versuche
9.3.1. Klassische Mithörschwelle – Verdeckung durch
Schmalbandrauschen
Um eine möglichst deutliche Demonstration der Existenz von
Maskierungseffekten zu realisieren und den Nutzer auf die Wichtigkeit von
Maskierungseffekten zu sensibilisieren, wurde auf ein klassisches,
jederzeit mit geringem technischen Aufwand zu realisierendes
psychoakustisches Experiment der Mithörschwelle durch schmalbandiges
Rauschen zurückgegriffen:
Werden Sinustöne und ein schmalbandiges Rauschen (bandbegrenztes
Rauschsignal) mit einer bestimmten Mittenfrequenz und Bandbreite
gleichzeitig (auf dem gleichen Ohr) dargeboten, dann ist der Sinuston
außerhalb des Frequenzbereichs des Schmalbandrauschens deutlich
wahrnehmbar. Bei der Mittenfrequenz des Schmalbandrauschens wird er
maximal maskiert (verdeckt). In geringem Abstand von der
79
Mittenfrequenz wird er ebenfalls verdeckt, zu hohen Frequenzen hin
stärker als zu tiefen Frequenzen (siehe Abbildung).
Entworfen wurde eine Simulation, in der der Nutzer durch einen [Oktave
höher]- und [Oktave tiefer]-Button Sinustöne im Oktavabstand anhören
und das zugehörige Spektrum ansehen kann. Dabei sollte als Aufgabe der
Lautstärkeeindruck der Sinustöne beachtet werden.
Die Pegel dieser Sinustöne (63,125,250,500,1000,2000,4000 und 8000
Hz) wurden mit einem A-bewerteten Korrekturwert multipliziert, um einen
einheitlichen Lautstärkeeindruck zu gewährleisten.
Einschub: A-Bewertung
Töne, die mit unterschiedlicher Frequenz, aber dem gleichen Schalldruck
dargeboten werden, werden unterschiedlich laut wahrgenommen. Ein
Sinuston von 50 Hz wird als viel leiser empfunden als ein Sinuston von
1000 Hz. Wird eine Versuchsperson nun aufgefordert, diesen 50Hz
Sinuston genauso laut einzustellen wie den 1000Hz-Referenzton, und wird
dieser Versuch mit einer Vielzahl von Sinustönen und verschiedenen
Pegeln wiederholt, entstehen die in Abbildung 16 dargestelltn „Kurven
gleicher Lautstärke“ oder Isophone:
Abbildung 16: Kurven gleicher Lautstärke für das ebene Schallfeld. Die Kurven
sind sowohl mit dem Lautstärkepegel LN als auch mit der zugehörigen Lautheit
N beziffert, entnommen [ZOL93]
Aufgrund des unterschiedlichen Verlaufs der einzelnen Isophone
entstanden in der Akustik diverse Schallpegelbewertungen: A,B,C und D.
Die A-Bewertung entspricht im Wesentlichen einer Korrektur des
unbewerteten Schalldrucks anhand der 30dB-Kurve der Isophone. Sie
berücksichtigt somit die unterschiedliche Empfindlichkeit des Ohres bei
verschiedenen Frequenzen. Aktuell hat nur die D-Bewertung noch
Relevanz, sie entspricht im Wesentlichen der Isophone bei 100dB und wird
bei Messungen von Signalen mit hohen Schalldruckpegel (z.B.
Flugzeuggeräusche) verwendet. Sie trägt dem Sachverhalt Rechnung,
80
dass die Isophone bei hohen Pegeln anders verlaufen als bei niedrigen
Pegeln und infolge dessen eine A-Bewertung inkorrekt wäre.
Werden nun Sinustöne mit dem gleichen Schalldruckpegel (entspricht
gleicher digitaler Aussteuerung bei Sinustönen, wenn man keine Verluste
im Frequenzgang der Reproduktonskette annimmt) und unterschiedlicher
Frequenz einer Korrektur anhand einer Isophonen-Kurve unterzogen,
dann sollten bei auditiver Darbietung (bei dem dadurch festgelegten
Isophonen-Schalldruck) die Sinustöne gleich laut klingen, ein
„Normgehör“, also keine Veränderungen des Hörvermögens,
vorausgesetzt.
Da der Abhörpegel der Sinustöne im Programm-Modul natürlich nicht
festgelegt werden kann, wurde eine Gewichtung der Sinustöne über einen
A-bewerteten Korrekturfaktor nach der entsprechenden DIN-Norm
vorgenommen. Dementsprechend ist der gleiche Lautstärkeeindruck mit
dieser Gewichtung nicht exakt, aber es gewährleistet einen relativ
homogenen Lautstärkeeindruck der Sinustöne über alle Frequenzen, und
war die beste Kompromisslösung.
Dann wurde ein schmalbandiges Rauschsignal mit einer Mittenfrequenz
von 1000 Hz generiert. Die Aussteuerung des Rauschsignals wurde so
bemessen, dass der 1000Hz-Sinuston gerade nicht mehr hörbar war, also
vollständig vom Rauschsignal maskiert wurde. Die Oktave über 1000 Hz
(2kHz) und die Oktave unter 1000 Hz (500Hz) lagen in der Frequenz so
weit außerhalb des Frequenzbereichs des Schmalbandrauschens, dass
kein geringerer Lautstärkeeindruck, also keine Maskierung mehr
wahrnehmbar war. Das gleiche galt natürlich für die anderen Sinustöne.
Im zweiten Teil des Experiments wurden die gleichen Sinustöne wie im
ersten Teil dargeboten, aber gleichzeitig war durchgängig das
schmalbandige Rauschen zu hören. Wieder wurde die Aufgabe gestellt, auf
den Lautstärkeeindruck der Sinustöne zu achten. Der 1000Hz-Ton war
nicht mehr wahrnehmbar, obwohl er im Spektum deutlich erkennbar mit
höherem Pegel als das Schmalbandrauschen dargestellt wurde.
Nach diesen beiden Teilen des Experimentes sollte eine Erklärung der
wahrgenommenen Phänomene folgen.
9.3.2. Klassische Mithörschwelle – Verdeckung außerhalb des
Frequenzbereiches des Maskers
Dieses Experiment sollte als Ergänzung zum bereits beschriebenen
Experiment dienen und den Nutzer auf den Fakt sensibilisieren, dass eine
Maskierung nicht nur im Frequenzbereich des Maskers auftritt, sondern
auch in dem höheren Frequenzbereich, in dem der Masker keine Energie
mehr aufweist. Der Aufbau dieser Simulation sollte identisch mit der
vorher beschriebenen sein. Statt der Sinustöne im Oktavabstand sollten
Sinustöne von 800-1200Hz im Abstand von jeweils 20 Hz benutzt werden,
alle Sinustöne sollten A-bewertet werden. Die Mittenfrequenz des
81
schmalbandigen Rauschens sollte bei 1000Hz liegen, die Bandbegrenzung
sollte bei 800Hz und 1200Hz vorgenommen werden. Als Ergebnis sollte
deutlich wahrnehmbar sein, dass die Sinustöne, deren Frequenz über
1000 Hz liegt, in einem weit größeren Frequenzbereich (und außerhalb
des Frequenzbereichs des Maskers) maskiert werden, während bei
Sinustönen, deren Frequenz unter 1000Hz liegt, dieser
Maskierungsbereich schmaler ist.
9.3.3. Klassische Mithörschwelle – Verdeckung von
Schmalbandrauschen durch breitbandige Signale (verschiedene
Musikstücke)
Das Ziel des Experiments für den Nutzer ist die Sensibilisierung für den
Sachverhalt, dass man ein Rauschsignal mit relativ hohem Pegel in einem
normalen Musikstück ohne hörbare Konsequenzen „verstecken“ kann.
In diesem Experiment sollte ein exakter Bezug zum hauptsächlichen
Prinzip der perzeptiven Audiocodierung hergestellt werden: die
Nichthörbarkeit des entstehenden Quantisierungsrauschens, wenn der
Pegel des Rauschsignals unter der Maskierungsschwelle gehalten wird. Zu
diesem Zweck sollten Extrakte aus drei sehr verschiedenen Musikstilen
erstellt werden, die möglichst eine gute Repräsentation verschiedenster
Instrumente und Dynamik darstellt. Zusammen mit diesen MusikExtrakten sollte ein im Pegel veränderliches Schmalbandrauschen hörbar
sein. Der Pegel sollte von „nicht hörbar“ (mute) bis zur Vollaussteuerung
in sinnvollen Pegelschritten veränderlich sein. Dem Nutzer sollte die
Aufgabe gestellt werden, denjenigen Pegel des Schmalbandrauschens
einzustellen, bei dem das Rauschen hörbar wird (also nicht mehr vom
Musiksignal maskiert wird). Dieser Rauschpegel sollte dann ohne das
Musiksignal abgehört werden, um Vergleiche der jeweiligen Lautstärke
und damit der Stärke der Maskierung zuzulassen. Dieser Pegel ist
natürlich abhängig vom Musiksignal: einfach betrachtet, geht man von
einer Vollaussteuerung des Musiksignals aus, ist dieser Maskierungspegel
abhängig von der Energie im Frequenzbereich des Maskers. Diese Energie
wiederum ist abhängig von der Lautstärke (loudness) des Musikstücks,
bestimmend ist also letztendlich der Crest-Faktor (Verhältnis Spitzenpegel
zu RMS-Pegel).
9.4. Entwurf der möglichen Benutzeroberfläche – Usability und
Navigation
In der Gestaltung der Benutzeroberfläche sollte nach den Kriterien
vorgegangen werden, die im Kapitel 6 aufgeführt sind. Speziell sollten die
Probleme und Fehler vermieden werden, die unter 6.4. aufgeführt sind.
Als nutzbare Bildschirmauflösung wurde von einer Grafikkarte und einem
82
Bildschirm der vorletzten Generation ausgegangen (800*600 bei 256
Farben), da die in der Spezifikationen aufgeführten potentiellen Nutzer
zumindest über diese Möglichkeiten verfügen würden. Das bedeutete gute
Lesbarkeit und ausreichenden Platz auf dem Bildschirm sowohl für die
Darstellung von Spektren, als auch für Instruktionstexte und Erklärungen.
Bei dieser Bildschirmauflösung ist eine 12-Punkt-Schrift auf einem 17 ZollMonitor sehr gut zu lesen [PUS01][KRU00][MAN01].
Da ein einfarbiger Hintergrund schnell langweilig und ermüdend wirken
kann, wurde ein individuell strukturierter Hintergrund für die einzelnen
Programm-Module gewählt. Im Idealfall sollte der Hintergrund einen
thematischen Bezug zum Programm-Modul haben. Somit wurde ein
Digitalfoto als sehr stimmig und passend empfunden, das vom Autor bei
dem vom elektroakustischen Studio der TU Berlin verwirklichten
Mehrkanal-Aufnahme-Projekt von Luigi Nono’s „Prometeo, tragedia dell’
ascolto“ [BRD00] in der Berliner Philharmonie fotografiert wurde. Es zeigt
einen Orchesternotenständer mit Noten, die von dessen integrierter
Lichtquelle angeleuchtet werden. Im Hintergrund sind die Ränge der
Philharmonie und die Bühne zu sehen. Dieses Bild ist so bearbeitet
worden, dass es die Motive gerade noch erkennen lässt, aber weiterhin so
abgedunkelt oder aufgehellt wird, dass das Lesen der Schrift nicht gestört
wird.
In der Gestaltung des Hintergrund-Schriftfarbe-Kontrastes wurde von den
wahrnehmungspsychologischen und softwareergonomischen
Erkenntnissen ausgegangen, dass helle Schrift auf dunklem Hintergrund
den perzeptiven Apparat mehr anstrengt als dunkle Schrift auf hellem
Hintergrund [PUS01][KRU00][MAN01]. Aus diesem Grunde wird eine
schwarze Schriftfarbe gewählt, der Hintergrund mit dem Hintergrundbild
sollte also so weit aufgehellt werden, dass ein sehr guter Kontrast und
damit sehr gute Lesbarkeit gewährleistet ist. Wichtige Textabschnitte
sollten vom restlichen Bildschirm durch einen gefüllten
Hintergrundrahmen hervorgehoben werden, so dass sich das Auge des
Benutzers an diesem Rahmen fokussieren kann und gleichzeitig die
Wichtigkeit dieses Textbereiches hervorgehoben wird.
Die jeweilige Modul-Überschrift sollte sich kontrastreich vom restlichen
Bildschirm absetzen, um so dem Nutzer auf den ersten Blick die
Orientierung zu ermöglichen. Es wurde ein dunkelfarbiger Balken
entwickelt, der die Überschrift in heller Farbe in sich trägt.
Im Entwurf der Navigationsstruktur wurde entschieden darauf geachtet,
dass sich die für die Programmstruktur unbedingt notwendigen Elemente
erstens immer an exakt der gleichen Stelle des Bildschirms befinden und
sich zweitens diese Navigation kontrastreich vom Rest des Bildschirms
absetzt. Da durch die Forderung der kontrastierenden Modul-Überschrift
bereits eine Abteilung vom restlichen Bildschirminhalt gegeben war, wurde
die Navigationsleiste über dem Überschriften-Balken positioniert. Der
Hintergrund der Navigationsleiste sollte ebenfalls die Struktur des
Hintergrundbildes erhalten, die Navigationsbuttons sollten ebenfalls in
83
dunkler Hintergrundfarbe entworfen werden, die Schrift in heller Farbe,
damit sie eine Einheit mit dem Überschriftenbalken bilden. Diese
neugebildete Einheit sollte sich damit vom ständig wechselnden
Bildschirminhalt abheben und damit auf die immer gleich bleibenden
Elemente hinweisen. Die Buttons sollten dreidimensional wirken, damit sie
sich besser von der zweidimensionalen Struktur des restlichen
Bildschirminhalts abheben, entsprechend den Gestaltgesetzen der
Wahrnehmungspsychologie [GOL97]. Beim Positionieren des Cursors über
den Buttons sollten diese hell aufleuchten, die Buttonbeschriftungen
sollten dann ihre Form oder Größe ändern, um auf die Wichtigkeit dieser
Navigationsleiste hinzuweisen.
Es wurde eine lineare Navigation entworfen, die im Wesentlichen aus
einem „Seite Weiter“ und einem „Seite zurück“ Button bestand. Diese
Buttons ermöglichten die Navigation von einem Programm-Teilelement
zum nächsten, und damit ein kontinuierliches „Durchklicken“ von der
ersten Bildschirmseite des Programm-Moduls zur letzten zu ermöglichen.
Sie sollte eine einfache Navigation für im Umgang mit unterschiedlichen
Programmteilen ungeübten Nutzern ermöglichen. Für die Nutzer, die eine
schnelle Navigation benutzen, wurde eine Kombination aus den erwähnten
Buttons und einem „Startseite“ Button entwickelt. Dieser Button sollte
erwartungsgemäß zur Startseite führen, von der alle Programmteile
aufrufbar sein sollten. Ein weiterer Vorteil des „Startseite“-Buttons besteht
nach den in Kapitel 6 beschreibenen Usability-Kriterien darin, dass
eventuell in der Programmstruktur verirrte Nutzer einen Punkt immer
einen Button sehen, der sie zu einem klar definierten Punkt in der
Programm-Struktur führt.
Schließlich sollte ein „Exit“-Button das Programm jederzeit beenden
können. Es ist auch denkbar, dass der „Exit“-Button erst über die
Startseite erreichbar sein könnte. Die Möglichkeit des komfortablen und
jederzeit möglichen Beendens des Programms wurde jedoch bevorzugt,
unter anderem durch den Umstand, dass bei einem Wunsch zum Beenden
des Programms des ungeübten Nutzers entgegengesetzt zum geübten
Nutzer der Gedankengang „Ich muss zur Startseite gehen, um den Button
zum Beenden des Programms zu finden.“ nicht vorausgesetzt werden
konnte.
84
Abbildung 17 zeigt den beschriebenen Entwurf der Navigationsstruktur:
SeiteWeiter
Exit
Startseite
SeiteZurück
ÜBERSCHRIFT
INHALT DER SEITE
WEITERE NAVIGATIONSELEMENTE (NAViGATION IN DEN
PROGRAMMTEILEN)
Abbildung 17: Entwurf der globalen Navigationsstruktur für das zu erstellende
Programm
Im Entwurf der Navigation der einzelnen Programmteile wurde darauf
geachtet, dass eine Einheitlichkeit im Design bestand. Beispielsweise sollte
im Modul der Simulationen/Experimente, wo mehrere Experimente
auswählbar sind, das jeweils aktivierte Experiment deutlich in der
Navigation zu erkennen sein. Die Buttons sollten sofort als solche
erkennbar sein, der Cursor sollte sich beim Bewegen über einen Button
nach Web-Standards in eine Hand verwandeln, um so die Existenz und die
Funktion des jeweiligen Navigationselementes zu verdeutlichen. In den
einzelnen Teilen sollte auf die unter Director zur Verfügung gestellten
Schaltflächen zurückgegriffen werden, da diese beim Speichern in ein
internes wenig speicherintensives Format umgerechnet werden, während
beim Einbinden von Navigationselementen als Bilder ein hoher
Speicherbedarf auf dem Medium berücksichtigt werden muss, der dann
möglicherweise weniger Hörbeispiele (die ja hohe Priorität hatten) zulässt.
Schließlich wurde eine Farbcodierung entworfen, die dem Nutzer eine
Orientierung in der Programm-Struktur erleichtern sollte und eine
unmittelbare Rückmeldung über die aktuelle Position im Programm über
die Hintergrundfarbwahl gibt.
Dafür wurden verschiedene Farbgebungen für folgende Programmteile
geplant, in Klammern sind die Gründe für die Unterteilung aufgeführt:
•
•
•
Das Intro (nur eine Einführung in das Programm)
Die Startseite (Navigation durch das gesamte Programm-Modul,
kann gleiche Farbe wie das Intro haben, ist aber abzutrennen vom
restlichen Programm)
Die Experimente, die Funktionsweise, die Simulationen (das
eigentliche Programm-Modul)
85
•
Die weiterführende Literatur (gehört nicht mehr zum eigentlichen
Programm-Modul)
Für die Inhalte der eigentlichen zum Modul gehörigen Programmteile gibt
es eine einheitliche, helle Hintergrundfarbe. Sollte der Nutzer die
Startseite aufrufen, um schnell zu den anderen Teilen zu gelangen, wird er
auch durch das Ändern der Hintergrundfarbe darauf aufmerksam
gemacht, dass er die inhaltliche Struktur verlassen hat. Das gleiche gilt für
die unterschiedliche Farbgebung im Intro. Sollte die Seite für die
weiterführende Literatur aufgerufen werden, weist die unterschiedliche
Farbgebung darauf hin, dass die eigentliche Programm-Struktur verlassen
wurde und die Literatur-Seite nur einen Verweis auf die technischen
Dokumentationen in einem Ordner der CD darstellt. Anders ausgedrückt
soll dies nur ein Verweis für weitere Informationsmöglichkeiten sein, die
aber nicht mehr in die Programmstruktur eingebunden sind.
9.5. Entwurf der Systemfunktionen und unterstützte Plattformen
Die Systemfunktionen beschränken sich auf Navigation und Präsentation.
Alle in den Experimenten und Hörbeispielen eingesetzten Audio-Signale
wurden vorbereitet und zum benötigten Zeitpunkt abgespielt. Der Grund
für dieses Vorgehen waren Stabilitätskriterien der Software und
angeschlossener Hardware (wie durch die Spezifikation der Unterstützung
unterschiedlichster Audio-Hardware gegeben war) und die Vermeidung der
Überforderung von Benutzern. Aus diesen Gründen wurden keine SinusOszillatoren oder ähnliches zur Echtzeit-Generierung der Signale in den
Experimenten implementiert. Ebenfalls wurden alle zu mixenden AudioSignale soweit vorbereitet, dass das unproblematische Abspielen der
Signale über die einzelnen Audiokanäle der Multimedia-Software möglich
war.
Als unterstützte Plattformen waren wie im Kapitel 8.4. definiert Macintosh
und Windows vorgesehen, Linux kann aufgrund der von Director
favorisierten „executable“-Strategie (Kompilierung der Director-Struktur in
eine ausführbare, von Zusatzsoftware unabhängig lauffähige Datei) nicht
bedient werden, dem Autor ist auch keine Strategie zur Portierung
bekannt. Da aber davon ausgegangen wurde, dass Linux-Nutzer sich
dieses Problems durch andere Erfahrungen bewusst sind, kann davon
ausgegangen werden, dass diese Nutzer eine Möglichkeit des Abspielens
finden werden, sei es in einer Windows-Emulation oder einer speziellen
Windows-Partition. Eine Kurzumfrage unter einigen Linux-Nutzern
bestätigte diese Vermutung. Die Grundtendenz unter den Nutzern war,
dass sie das Ausweichen auf die Windows-Struktur vom
Interessantheitsgrad des Programms abhängig machen würden.
Die Kompilierung des Director-Programmcodes ist nur auf dem laufenden
System lauffähig [KHA00], das heißt, um einen unter Windows lauffähigen
86
„Projektor“ zu erhalten, wie die ausführbare Datei in Director heißt, muss
der Director-Programmcode unter Windows kompiliert werden. Das
gleiche gilt für das Macintosh-Betriebssystem. Aus diesem Grunde wurde
bei der Implementierung peinlich genau darauf geachtet, die 8.3Regelung20 zu beachen sowie nur Kleinbuchstaben zu benutzen, um
eventuelle Fehlerquellen im Director-Programmcode für die Portierung
auszuschalten. Es ist im Rahmen dieser Arbeit nur vorgesehen, die
Windows-Version zu kompilieren, eine Macintosh-Version ist aber
problemlos erstellbar, indem der Programmcode unter einer auf dem
Macintosh-System laufenden Director-Applikation kompiliert wird.
Anschließend können beide kompilierte ausführbare Dateien auf einem
unter beiden Systemen zu lesendem Medium (z.B. ISO9660 kompatible
CD-Rom21 oder Hybrid-CD: Joliet+HFS) bereitgestellt werden.
Alle anderen möglichen Betriebssysteme werden nicht bedient. Der
Entwicklungsaufwand würde den Nutzen bei weitem übersteigen. Aus
diesem Grunde wurde im Rahmen dieser Arbeit auf eine Entwicklung
verzichtet. Es ist hinzuzufügen, dass wie bei den Linux-Nutzern von einer
sehr hohen Wahrscheinlichkeit der Abspielmöglichkeit auf einer Windowsoder Macintosh-Plattform ausgegangen werden kann.
9.6. Entwurf der einzelnen Programm-Teile
9.6.1. Programm-Teil „Intro“
Aufgrund des sehr begrenzten Speicherplatzes und des selbst bei sehr
effektiv komprimiertem Video zu erwartenden hohen Speicherbedarfs
wurde entgegen dem im Abschnitt 9.1. im Textabschnitt über das Intro
beschriebenen Entwurf nur eine „Foto-Dia-Show“ verwirklicht, die sehr
wenig Speicherplatz benötigt. Diese wurde so entworfen, dass die unter
9.1. erwähnte Audiospur im Konzept verbleibt, aber statt der
Videoaufnahmen nur ein zum Thema passendes Bild gezeigt wird (im
Videobereich als „stills“ bezeichnet), dessen Qualität sich bei jeder Stufe
der sich verschlechternden Audioqualität ebenfalls verschlechtert. Dieses
sollte durch diverse bildbearbeitende Mittel (wie Unschärfe und Filter)
verwirklicht werden.
Trotzdem transportierte sich das gewünschte mentale Bild nicht
vollständig, so dass durch die Umsetzung des oben aufgeführten Video20
„ISO9660-Level1“-Norm für Dateinamen: 8 Zeichen für den Dateinamen, 3 Zeichen für
den Dateityp
21
Der ganze Entwurf des Programms und der zugehörigen Medien war so ausgelegt, dass
die Speichergrenze von 800MB beachtet wurde. Aus diesem Grunde wurden Abstriche im
Design gemacht, um möglichst viele Hörbeispiele und Experimente/Simulationen zu
ermöglichen. Dieses Speicherlimit fordert dann bei der Verbreitung beider kompilierter
Dateien eine Nutzung von 2 CD-Roms anstelle der vorgesehenen einen CD-Rom, was
aber keine Verletzung der Spezifikationen darstellt.
87
Konzeptes eine Verbesserung der Ideenübertragung zum Nutzer zu
erwarten ist. Dieser Teil wird aber auf die Phase der Verbesserung des
Programm-Moduls auf einen späteren Zeitpunkt verschoben.
9.6.2. Programm-Teil „Erklärung der Funktionsweise des MP3-Codec“
Nach den hauptsächlichen Betrachtungen in Abschnitt 9.1. wurde eine
Navigation durch das komplexe Modul gesucht. Dabei diente das in Kapitel
4.3. als Abbildung 1 dargestellte Blockdiagramm als Grundlage.
Als Navigationsleiste wird die im Blockdiagramm dargestellte Struktur
direkt unterhalb der Modul-Überschrift übernommen, um erstens die
aktuelle Position durch Hervorhebung des Blockdiagramm-Elementes zu
bestimmen, zweitens ein schnelles Navigieren zwischen den einzelnen
Seiten zu ermöglichen. Drittens ist damit immer ein Blick auf das
Blockschaltbild gewährleistet, das sich somit einprägen kann und
maßgeblich zum Verständnis durch die blockartige Struktur beitragen soll.
Für jedes einzelne Element wurden Erklärungstexte entworfen, die in
möglichst einfacher und knapper Sprache die Funktionsweise darstellen
sollten. Dabei wurden diese Texte mehrfach mit verschiedenen Personen
besprochen und überarbeitet, die mit dieser Materie keinen Kontakt
hatten, um die exzessive Nutzung von Fachterminologie zu vermeiden.
Weiterhin war natürlich durch die zeitlich lange und intensive
Beschäftigung mit perzeptiver Audiocodierung eine objektive Betrachtung
von „schwer zu verstehenden“ und „näher zu erläuternden Fakten“ nicht
mehr gegeben. Dabei wurde billigend in Kauf genommen, dass sich
bestimmte Nutzer, die sich mit bestimmten Grundlagen der perzeptiver
Codierung bereits beschäftigten, eher unterfordert und gelangweilt fühlen
konnten. Diese Herangehensweise wurde aber der Alternative, der
Überforderung einer Vielzahl von Nutzern, vorgezogen.
Wie in den Spezifikationen gefordert wurde auf Animationen und
Videosequenzen, da zu speicherintensiv, verzichtet. Statt dessen wurde
die Erklärung der Funktionsweise mittels von potentiellen Nutzern
erarbeiteten Textbausteinen und Abbildungen vorgenommen. Ein weiterer
Ausbau des Moduls wurde auf die Verbesserungsphase verschoben.
9.6.3. Programm-Teil „Simulation der MP3-Filterbank“
Nach den grundlegenden Betrachtungen in Abschnitt 9.1. wurden
mögliche Ausführungen des Entwurfs durchdacht. Es wurden Musikstücke
in drei verschiedenen, sehr unterschiedlichen Stilen und Instrumenten
ausgewählt, auf die diese Filterband-Simulation jeweils angewendet
werden konnte.
Als am intuitivsten nachvollziehbar für eine im Umgang mit Spektren
vertraute Nutzergruppe (siehe Abschnitt 8.2.) erwies sich eine
88
Spektrogramm-Darstellung. In dieser werden (in zwei Dimensionen) auf
der Abszisse die Zeit und auf der Ordinate die Frequenz abgetragen. Die
Energie des Signals wird durch eine Graustufencodierung (in der
Sprachverarbeitung) oder Farbcodierung (Akustik und Signal Processing)
verwirklicht: dunkle Grautöne (Rot-Töne) geben eine hohe Energie an,
helle Grautöne (Blau-Töne) deuten auf eine geringe Energie. Abbildung
18 zeigt ein typisches Spektrogramm eines Sprachsignals:
Abbildung 18: Spektrogramm eines Sprachsignals. Das Frequenzband von
1000Hz bis 1500Hz wurde markiert (zur näheren Erklärung siehe Text).
Die einzelnen Frequenzbänder des MP3-Encoders werden nun durch
waagerechte farbige Teilungen deutlich gemacht werden (ohne diese
deutlichen Teilungen wurde das Prinzip der einzelnen Filterbänder in
Vortests nicht erkannt), eine Beschriftung in den Bändern sollte die
Grenzfrequenzen definieren (in Abbildung 18 wurde dies für den
Frequenzbereich von 1000-1500 Hz demonstriert). Die gesamte Fläche
der einzelnen Bänder wird als klickbarer Bereich ausgelegt werden
(Mauszeiger verwandelt sich in eine Hand). Beim Anklicken wird dann das
mit den jeweiligen Grenzfrequenzen bandpass-gefilterte Signal abgespielt.
Weiterhin sollte ein Button existieren, der zum direkten Vergleich das
ungefilterte Original-Signal hörbar macht.
Es wurde eine Aufteilung des 16kHz umfassenden Bereichs in jeweils 5kHz
realisiert, da eine Darstellung des gesamten Frequenzbereichs auf einem
Bildschirm zu unübersichtlich wäre.
Usability-Tests mit potentiellen Nutzern zeigten, dass nur auf die
Grenzfrequenz-Beschriftungen geklickt wurde, der restliche sensitive
Bereich wurde übersehen. Das war aber insofern ohne Bedeutung, da das
für das Modul wichtige, zugrundeliegende Prinzip von allen
Versuchspersonen verstanden und angenommen wurde. Alle
Versuchspersonen hielten diese Form der Visualisierung und Auralisation
einer Filterbank für eine sehr gute und sofort nachvollziehbare
Ausführung. Da ein besseres Verständnis beim Nutzer bei Erweiterung des
89
ersten Spektrogramms (0-5kHz) um die beiden weiteren Spektrogramme
(5kHz-10kHz und 10kHz-16kHz) nicht beobachtet wurde und eher
Ermüdungserscheinungen aufgrund des Umfangs des umfangreichen
Moduls auftraten, wurden diese Spektrogramme wieder aus dem Modul
entfernt, eine Neuimplementierung unter anderen Entwurfskriterien (z.B.
durch ein „Weiterblättern“ über einen [nächster Frequenzbereich]-Button
werden für den interessierten Nutzer als sinnvoll betrachtet und auf die
Verbesserungsphase des Moduls verschoben).
9.6.4. Programm-Teil „Hörvergleiche“
Hörbeispiele für verschiedene Bitraten beim Fraunhofer MP3-Codec
Der Hörvergleich für die verschiedenen Bitraten sollte für verschiedenste
Musikstile und Sprache die zu erwartenden Qualitätsverluste bei den
vorgegebenen Bitraten illustrieren und weiterhin darstellen, welche
Instrumente und Signalformen die höchsten Qualitätsverluste durch die
Codierung nach sich ziehen. Es sollten von 8kBit/s bis 320 kBit/s alle
möglichen Parametrisierungen hörbar gemacht werden. Aufgrund der
Qualitätsunterschiede zwischen den Codecs (siehe Abschnitt 4.6.) ist die
Wahl eines geeigneten MP3-Codecs elementar. Es wurde ein FraunhoferMP3-Codec ausgewählt, da er einerseits in verschiedensten Hörtests die
besten Ergebnisse lieferte, andererseits das Fraunhofer-Institut
maßgeblich an der Entwicklung der ersten Codecs und auch weiterer
marktführender und standardisierter Codecs beteiligt war.
Hörbeispiele für die Qualität verschiedener Codecs bei unterschiedlichen
Bitraten
Ein Hauptschwerpunkt der Arbeit lag in der Produktion von Hörbeispielen,
die sehr schwierig bis unmöglich zu beschaffen sind, sei es aufgrund von
technischen Schwierigkeiten (professionelle Aufnahmekriterien für
Hörbeispiele) oder der rechtlich diffizilen Rechtslage der legalen
Benutzung von Musik-Extrakten. Diesen Hörbeispielen kommt aber durch
die Definition einer Schicht der potentiellen Nutzer eine entscheidende
Bedeutung zu. Es sind audiotechnisch Interessierte oder audiotechnisch
professionell Arbeitende, die das Programm mit dem Ziel nutzen, für
Archivierungszwecke 22 oder Transportzwecke23 einen Klangvergleich
verschiedenster Codecs zur Verfügung zu haben. Gleichfalls ist es für
diese Nutzer höchst interessant, die klanglichen Fehler eines perzeptiven
Codecs, die im Vergleich zu den klassischen Qualitätsverlusten (wie
22
Beispielsweise kann hier die Erstellung eines großen Multimedia-Archives, aus
Kostengründen (Speicherplatz) mithilfe eines perzeptiven Audiocodec realisiert.
23
Beispielsweise kann hier die Verschickung klangqualitativ kritischer Musik über das
Internet genannt werden.
90
erhöhtes Rauschen oder Knack-Signale) einen komplett anderen
Klangcharakter haben, also auch eine komplett andere Sensibilisierung
und Schulung für diese Fehler erfolgen muss.
Aus diesem Grunde wurde der Aufbau einer repräsentativen
Klangbibliothek vorgesehen, die einerseits die für einen perzeptiven
Audio-Codec schwer zu encodierenden Signalformen und Instrumente
nach bestimmten typischen Fehlerkriterien katalogisiert, und andererseits
die Klangqualität dieser Instrumente und Signalformen durch
verschiedenste kostenlos und kommerziell erhältliche Audio-Codecs als
Hörbeispiele zur Verfügung stellt. Die Auswahl sollte dann entsprechend
den Nutzergruppen erfolgen.
Nach umfangreicher Internet-Recherche und Information auf für dieses
Thema relevanten Konferenzen (Forum Acusticum, Sevilla, 2002;
Tonmeistertagung 2002, Hannover, 2002; DAGA2003, Aachen, 2002)
fanden sich CD-Roms von zwei Instituten, die sich bereits intensiv mit
diesem Thema beschäftigten:
• die CD-Rom „Perceptual Audio Codecs – What to listen for“ des AES
Technical Commitee [AES02] bietet Hörbeispiele für viele typische
Artefakte perzeptiver Audiocodecs, daneben sind einige Artikel und
HTML-Dokumente enthalten, die eine Erklärung dieser Fehlersignale
liefern. Die Aufnahmequalität der Signale und Musikbeispiele ist zum
Teil schlecht, Feinheiten im Signal sind aus diesem Grunde oft nicht
hörbar, aber die Hauptfehler sind sehr deutlich dargestellt und
hörbar.
• Die CD-Rom „AIDA: Audio Internet Demonstration Aid“ des IRT
(Institut für Rundfunktechnik) [AID02] bietet einen Hörvergleich
aller gängigen Codecs in verschiedenen Bitraten. Weiterhin sind
Informationen über die Performanz der Codecs (Dauer der
Encodierung, Prozessorlast) und die verwendete Encoder-Software
enthalten. Ein Hauptproblem der CD-Rom ist die nicht einheitliche
Wahl des Formates für die Sound-Dateien, die im Normalfall
„*.WAV“ wäre. Die Sounddateien liegen neben den EncoderFormaten (z.B. „*.mp3“) in diversesten, teilweise sehr exotischen
Auflösungen (Abtastraten und Bittiefe) als „*.wav“ vor, was eine
ungenügende Aufbereitung der Medien für den Nutzer darstellt, da
bestimmte Abtastraten von vielen Software-Playern und AudioKarten nicht abgespielt werden können.
Da die geplanten Hörbeispiele und Testsignale auf diesen genannten CDs
vorlagen, wurde der Plan auf die Erstellung der eigenen Klangbibliothek
verworfen und statt dessen eine Übernahme der vorhandenen
Hörbeispiele geplant. Eine Verbesserung und Ausweitung der auf den CDRoms vorliegenden Beispiele wurde auf die Phase der Überarbeitung und
Verbesserung des Programm-Moduls verschoben. Zu klären wäre der
Rechte-Aspekt der Hörbeispiele.
Eine Übernahme oder Verlinkung der Programmstruktur der oben
genannten CD-Roms ist nicht möglich, da das Format beider CD-Roms
HTML-basiert war und damit die Vorgabe der Abspielbarkeit des
kompletten Programm-Moduls ohne notwendige Zusatzsoftware (es wäre
91
mindestens eine Browser-Software notwendig) verletzt worden wäre.
Somit blieb als einzige Lösung die Portierung der auf den CD-Roms
vorhandenen Sound-Files auf die generierte Programm-Struktur.
Es wurde ein Interface zum Abspielen der auf der CD-Rom „AIDA“
enthaltenen Soundfiles entworfen, welches dem verwendeten Format von
„AIDA“ sehr ähnlich war. Dieses Interface war in Tabellenform
strukturiert: die Spalten geben die unterschiedlichen Codecs an, die Zeilen
geben die verwendeten Signale (Sprache in Musik eingebettet, Klassik,
Jazz...) an. Ein Klicken auf das Abspielsymbol im Schnittpunkt der
jeweiligen Zeile und Spalte spielt das ausgewählte Signal encodiert vom
ausgewählten Codec ab (siehe Tabelle 10).
Codec
1
Signal1
Signal 2
...
Codec
2
Codec
3
...
x
Tabelle 9: Entwurf des Interfaces des Codec-Hörvergleichs. Eingetragen ist der
Klickpunkt, um das zweite Signal, encodiert von Codec2, zu hören.
Weiterhin ist eine Spalte vorhanden, in der die uncodierte Referenz (das
Original) angehört werden kann. Eine weitere zusätzliche Spalte gibt
Informationen über das verwendete Signal, eine weitere zusätzliche Zeile
gibt Informationen über den verwendeten Codec (Encodier-Software,
Herstellerverweise usw.). Wird diese beschriebene Tabelle auf mehreren
Bildschirm-Seiten für mehrere Bandbreiten erstellt, steht ein
umfangreiches Archiv zur Verfügung, mit dem man bei gewünschter
Bitrate unmittelbar die Qualität verschiedenster Codecs in verschiedensten
Musik- und Sprachkontexten direkt im AB-Vergleich miteinander
vergleichen kann.
Hörbeispiele für typische Fehlersignale perzeptiver Codecs
Auf der CD-ROM „Perceptual Audio Codecs – What to listen for“ der AES
war bereits eine große Anzahl typischer Fehlersignale zusammen mit der
uncodierten Referenz (dem Original) vorhanden. Da die Struktur des
Interfaces nicht in die bestehende Programmstruktur integrierbar ist,
wurde auch hier ein neues, einfach strukturiertes Interface entworfen.
Neben dem deutschen und englischen Titel des Fehlersignals sollte es
einen Button für das Abhören des Fehlersignals und einen Button für das
Abhören der Referenz geben. Ein weiterer Button sollte zu einer
Bildschirm-Seite führen, auf der das Entstehen und das Prinzip sowie,
wenn vorhanden, Möglichkeiten zur Vermeidung des Auftretens dieses
Fehlersignals gegeben werden sollten. Deutlich erkennbar sollte ein
Hinweis angebracht werden, dass zum Verständnis des Entstehens des
Fehlersignals die Kenntnis des Moduls „Funktionsweise des MP3-Encoders“
92
notwendig sei, um Wiederholungen des Textes zu vermeiden und damit
möglichen Verwirrungen der Nutzer vorzubeugen.
9.6.5. Programm-Teil „Weiterführende Literatur“
In diesem Modul-Teil wurden der unter Abschnitt 9.1. beschriebene
einfache Entwurf umgesetzt. Da der Bildschirm dieses Moduls nur einen
Verweistext auf die in einem Ordner der CD-Rom enthaltenen technischen
Publikationen enthalten sollte, wurde neben den Standard-Elementen wie
Navigation und Überschrift nur ein Textrahmen entwickelt, der diese
textuellen Inhalte in diesem Rahmen darstellt. Weiterhin wurde ein
Hintergrundbild aufgrund den in Abschnitt 9.3. entworfenen
Farbcodierungen ausgewählt und bearbeitet.
9.7. Zusammenfassung
Es wurden entsprechend den Spezifikationen Entwürfe zur Erstellung des
multimedialen Lernmoduls erstellt. Im einzelnen wurden Entwürfe für die
globale Navigationsstruktur und den strukturellen Aufbau des Programms
in Module dargestellt. Im weiteren werden die einzelnen Experimente und
Simulationen entsprechend den Spezifikationen entworfen und deren
Realisierbarkeit und entstehende Einschränkungen diskutiert. Schließlich
werden die einzelnen Module strukturiert und deren genaue inhaltliche
Thematik festgelegt sowie die Navigation innerhalb der Module festgelegt.
93
10. Implementierung
In diesem Kapitel wird die konkrete Umsetzung und Programmierung der
in Kapitel 9 ausführlich erarbeiteten Entwürfe beschrieben.
Das wesentliche Vorgehen zur Erstellung der multimedialen ContainerDateien (Sound-, Bild-, Textdateien) wird dokumentiert, sowie eine
ausführliche Begründung für die Formatauswahl gegeben. Schließlich wird
die genaue Umsetzung der Entwürfe in den einzelnen Programm-Modulen
dargestelt, indem die Erstellung der einzelnen Medien und deren
Einbindung in Macromedia Director beschrieben wird.
Vorausgreifend wird darauf hingewiesen, dass zum besseren Verständnis
und zum Begutachten der einzelnen Module im Anhang Screenshots aller
Module aufgeführt sind, die das vielleicht an einigen Stellen sehr trockene
Positionieren der einzelnen Programmelemente auf einen Blick
verdeutlicht, sofern ein Begutachten des beiliegenden Programms nicht
möglich ist.
Anforderungen an die Implementierung waren:
• Robustheit (Minimierung der möglichen Systemprobleme)
• Wiederverwendbarkeit (Nutzung der einzelnen Inhalte in einem
anderen Rahmen)
• Verteilte Implementierung (in der Verbesserungsphase sollte
verteiltes Arbeiten, auch durch verschiedene Entwickler möglich
sein)
• Eine einfache Erweiterbarkeit sollte gewährleistet werden.
10.1. Analyse der Werkzeuge für die Umsetzung
10.1.1. Das Werkzeug zum Komponieren der Multimedia-Inhalte
Dieses Werkzeug wurde bereits in Abschnitt 9.1. definiert, da der zeitliche
Rahmen der Arbeit ein effektives Erarbeiten und Umsetzen der einzelnen
Programmabschnitte forderte. Damit war eine Erarbeitung der Entwürfe
ohne Prüfung auf deren tatsächliche technische Realisierbarkeit nicht
möglich. Als Software zum Arrangieren wurde aus den unter 9.1.
aufgeführten Gründen Macromedia Director festgelegt.
10.1.2. Die Sinustöne und Spektren
Die benötigten Sinustöne und ihre Spektren wurden mit der
Sprachverarbeitungssoftware PRAAT [PRAwb] erstellt, da diese Software
sehr gute und schnelle Synthesemöglichkeiten bietet. Das Programm ist in
94
eine Vielzahl von einzeln parametrisierbaren Analyse- und
Synthesemodulen unterteilt, die bereits sehr gut auf oft benötigte
Signalverarbeitungs-Aufgaben abgestimmt sind. Damit lassen sich bei
vielen Aufgaben bessere und zeiteffizientere Lösungen erzielen als bei der
Benutzung von Matlab, wobei die Aufgabenfelder der beiden Programme
natürlich unterschiedlich sind.
Durch die integrierte Skript-Sprache können häufig wiederkehrende oder
komplexe Bearbeitungsschritte sehr vereinfacht werden. Alle Module
lassen sich mit der kompletten Parametrisierung durch Skripte steuern.
Spektren und Spektrogramme (sowohl FFT- als auch LPC-basiert) lassen
sich sehr komfortabel erzeugen und graphisch darstellen.
10.1.3. Die Bilddateien
Da in Director nur Bilder im Bitmap-Format (*.BMP) und PhotoshopBildformate importierbar sind, wurden alle für das Programm-Modul
notwendigen Spektrogramme und Spektren, die aus anderen
Softwarequellen wie PRAAT oder Matlab als PostScript oder Enhanced
Metafile vorlagen, mit Hilfe von Adobe Photoshop importiert und in ein
Graustufenbild umgewandelt. Diese Bilder wurden dann im *.BMP Format
gespeichert und konnten dann problemlos in Director importiert werden.
Alle Hintergrundbilder und Fotos wurden nach der Bearbeitung in
Photoshop im proprietären Photoshop-Format gespeichert und konnten
dann ebenfalls direkt in Director importiert werden.
10.1.4. Die Sounddateien
Die Sounddateien wurden nach ihrer Bearbeitung im Wave-Format
(*.WAV) gespeichert, mit den Attributen 44.1 kHz und 16 Bit, um Fehler
bei der Wiedergabe von bestimmten, sehr kostengünstigen Audio-Karten
zu vermeiden. Diese unterstützen meist nur bestimmte, gängige
Abtastraten (meist 44.1kHz und 48kHz)24. Speziell bei der Bearbeitung
des AIDA-Sound-Pools (Modul: Hörbeispiele, Teilmodule: Hörvergleich
unterschiedlicher Codecs) war eine umfangreiche Abtastratenänderung
notwendig, da die Sounddateien in sehr vielen verschiedenen Abtastraten
vorlagen, deren teilweise sehr exotische Abtastraten sogar auf einer
professionellen Audiokarte Wiedergabe-Probleme verursachten. Beim
Abspielen der Musikbeispiele wurde ein 0.5s langer Fade-In realisiert, da
die Beispiele aus der Mitte der Stücke entnommen wurden, und durch die
teilweise hohe Kompression und damit verbundene Lautheit ein
24
Weiterhin wird so eine unproblematische Erstellung einer Audio-CD möglich
(festgelegte Abtastrate 44.1kHz), ohne eine Abtastratenkonversion vornehmen zu
müssen.
95
unangenehmes Hörempfinden durch den plötzlichen massiven
Lautstärkesprung entstand.
Alle notwendigen Schnitte, Fades, Abtastraten- und Formatänderungen
wurden mit dem Audiobearbeitungsprogramm SoundForge6 der Firma
SonicFoundry durchgeführt.
10.1.5. Die Textdateien
Die für das Programm-Modul notwendigen Textdateien wurden in
Microsoft Word erstellt, formatiert und anschließend als RTF-Format in
Director importiert, da dies laut [KHA00] die einzige Möglichkeit ist,
größere Mengen Text in Director einzubinden und trotzdem komfortabel
bearbeitbar zu halten. Eine Einbindung direkt als Word-Dokument schlug
fehl, da Director diese Texte offenbar als Bilddateien einband, und durch
Größenänderungen durch die Interpolation der Pixel die Lesbarkeit des
Textes litt.
10.2. Beschreibung der Programm-Komponenten
Es folgt die genaue Dokumentation der Umsetzung der Entwürfe, sowie
die Erstellung der einzelnen Programm-Elemente in den einzelnen
Software-Paketen sowie deren Arrangierung in Director.
10.2.1. Anlegen des Director-Projektes
Entsprechend den aufgestellten Vorgaben wurde zunächst ein DirectorTemplate erstellt. Die einzelnen Module sollten in einzelnen Filmen
realisiert werden, damit beim Ändern eines kleinen Teils an einem Modul
nicht das ganze Programm geändert werden musste. Weiterhin war so ein
unabhängiges paralleles Arbeiten an den Modulen möglich, was ansonsten
aufgrund der Frage nach der jeweils aktuellen Version erschwert worden
wäre. Für die spätere Verbesserungsphase des Moduls bedeutete dies,
dass unterschiedliche Autoren das Programm gleichzeitig verbessern
können, beispielsweise ein 3D-Designer für das Intro, ein Psychoakustiker
für die Experimente usw.
Die Bühnengröße wurde auf 800x600, die Farbtiefe der Bühne wurde auf 8
Bit (entspricht 256 darstellbaren Farben) festgelegt. Sollte im ProgrammModul ein Bild benötigt werden, das Farben enthält, die im 8Bit-Farbcode
nicht zu finden sind, besteht die Möglichkeit, das Bild in Photoshop im
Modus „indizierte Farben“ zu speichern. Das Bild liegt dann im 8-BitModus vor, es werden aber nur die im Bild tatsächlich enthaltenen
(maximal 256) Farben gespeichert. Die Farbinformationen werden in einer
eigenen Farbtabelle gespeichert.
96
Die Deckkraft des in den Entwürfen als passend empfundene
Hintergrundbildes wurde mit Photoshop auf rund 20% gesetzt, damit ist
das Motiv noch gut erkennbar und eine sehr gute Lesbarkeit der später in
der obersten Bühnen-Ebene zu findenden Textpassagen war
gewährleistet. Als Bühnen-Hintergrundfarbe wurde schwarz gewählt, bei
einem späteren Abspielen des Films in einer höheren Auflösung als
800x600 wird der restliche Teil des Bildschirms mit der schwarzen
Hintergrundfarbe gefüllt, und das eigentliche Programm-Modul ist gut
abgegrenzt und grafisch ansprechend in der Mitte des Bildschirms
zentriert.
Es wurde ein dunkelblauer Farbbalken in Director generiert, der als
Texthintergrund für die Modulüberschriften und als Abgrenzung zur
Navigationsleiste fungieren sollte. Die Modulüberschriften sollten für eine
kontrastreichere Darstellung in Weiß, in großem Font und fettgedruckt
dargestellt werden, um eine „auf den ersten Blick“-Erkennbarkeit zu
gewährleisten.
Als Schriftfont wurde für alle Textblöcke (alle Textelemente außer
Buttonbeschriftungen) Verdana verwendet. Verdana ist eine serifenlose
Schriftart, sie ist nach [PUS01][KRU00][MAN01] eine der Schriftarten, die
für das Lesen an Monitoren am besten geeignet ist. Sie ist für das Lesen
von längeren Texten am ermüdungsfreiesten und bietet die geringste
Verwechselungsgefahr von leicht zu verwechselnden Zeichen wie „i“ und
„l“. Das Problem der Nichtexistenz der Schriftart auf einem der Zielrechner
stellte sich nicht, da Director beim Kompilieren des Programmcodes die
verwendeten Schriftarten mit einbindet.
Die Navigationsleiste wurde komplett in Photoshop erstellt und besteht
aus dunkelblauen Buttons mit weißer Aufschrift, die beim Überfahren mit
dem Cursor hell aufleuchten, um die Existenz eines klickbaren Bereiches
zu melden. Dieses helle Aufleuchten wurde durch einen identischen Button
realisiert, dessen Farbe allerdings ein sehr helles Blau ist, der Schriftgrad
wurde vergrößert, um die Aufmerksamkeit des Nutzers im Augenblick des
Überfahrens auch wirklich auf diesen Button zu fokussieren (es entsteht
eine plötzliche Bewegung, die immer die Aufmerksamkeit des Betrachters
fokussiert).
Bei der Erstellung aller Schaltflächen im Director-Projekt wurde ein LingoSkript auf diese Schaltfläche angewandt, welches den Cursor in eine Hand
verwandelt, wenn der Cursor über der betreffenden Schaltfläche
positioniert wird, und ihn wieder in einen normalen Pfeil verwandelt, wenn
sich der Cursor nicht mehr über der Schaltfläche befindet. Damit soll das
Erkennen von „klickbaren“ Schaltflächen erleichtert werden. Weiterhin
wird die Konvention von Web-Browsern beibehalten, die den Cursor
ebenfalls in eine Hand verwandeln, wenn ein Link überfahren wird. Damit
ist einem wichtigen Kriterium, dem Einhalten von Konventionen und
97
Standards, Rechnung getragen worden, um die Navigation im Programm
zu erleichtern.
Im folgenden soll auf die genaue Implementierung der einzelnen Module
eingegangen werden. Alle einzelnen Filme wurden mit den beschriebenen
Voreinstellungen begonnen.
10.2.2. Erstellen des Moduls „Intro“
Nach den Entwürfen wurde ein Musikstück (Rosana: „Pa´ti no estoy“)
ausgewählt, da es einerseits eine sehr eingängige Melodie besitzt,
andererseits mit einer Vielzahl von verschiedenen Instrumenten
eingespielt wurde. Damit lassen sich möglicherweise auftretende
perzeptive Artefakte gut wahrnehmen. Auf das Intro folgend wurde nach
einigen Takten ein Takt aus dem Stück herausgeschnitten. Dieser Takt
sollte durch einen MP3-Codec in verschiedenen Bitraten encodiert und
decodiert werden und dann wieder in das Musikstück eingesetzt werden.
Dabei sollte für jeden Takt eine Codierung eingesetzt werden, die eine
Bitratenstufe niedriger encodiert wurde. Damit wurde ein kontinuierlicher
Audio-Qualitätsverlust erreicht. Am Ende sollte wieder der Originaltakt
(mit der Originalqualität) eingesetzt werden, um darzustellen, um welchen
Grad sich die Audio-Qualität verschlechtert hatte.
Es wurde ein Bild ausgesucht, das einen Verbund mit dem Thema bieten
sollte. Ausgewählt wurde eine Fotografie eines Tanztheaters, das sehr
viele Details bot, um die später angewendete Verschlechterung der
Bildqualität zu demonstrieren.
An den Zeitpunkten, an denen sich die Bitrate (und damit die Qualität) des
Musikstückes änderte, sollte auch eine Verschlechterung der Bildqualität
auftreten. Realisiert wurde diese Verschlechterung durch in Adobe
Photoshop integrierte Bildfilter. Im einzelnen wurden
Weichzeichnungsfilter, Bewegungsunschärfe, Störungsfilter und
Verzerrungsfilter (Ozeanwellen), teilweise auch in Kombinationen und
kaskadiert, auf das ausgewählte Bild angewendet.
In Director wurde das neu zusammengesetzte Musikstück in eine Tonspur
importiert. An jeder Stelle, an der eine neue Bitrate im Musikstück erreicht
wurde, ist das ursprüngliche Tanztheater-Bild durch ein Bild schlechterer
Qualität des gleichen Tanztheaters ersetzt worden. Damit wurde eine
Synchronität der Verschlechterung der Qualität des Bildes und des Tons
erreicht.
Es wurde ein [Intro überspringen]-Button entwickelt, der bei Klicken sofort
das Abspielen des Intros unterbrach und zur Startseite springt. Dieser
wurde an einer gut sichtbaren Position angebracht. Der Hintergrund dafür
ist ein Usability-Prinzip, das den Benutzer nicht warten und untätig sein
lassen sollte. Sollte ein Benutzer das Intro bereits kennen oder
uninteressant finden, ist er nicht gezwungen, das komplette Abspielen des
Intros abzuwarten, ehe er in die Programmstruktur vordringen kann.
98
10.2.3. Erstellen der Startseite
Eine Startseite wird für die Navigation benötigt. Dementsprechend wurde
zur Implementierung dieses Programm-Teils in der Mitte des Bildschirms
eine Sternstruktur verwirklicht, in deren Mitte sich ein dunkles, den
Farben des Hintergrundes angepasstes Oval mit der Aufschrift „Perzeptive
Audiocodierung“ befindet. Von diesem gehen strahlenförmig einige
Objekte ab, die als Schaltflächen verwirklicht wurden. Diese wurden mit
den Modulnamen beschriftet. Beim Klicken auf diese Schaltflächen wird
auf diese Module verwiesen (dieses Modul aufgerufen). Bei Erweiterung
des Programms um weitere Module ist so eine einfache Aktualisierung
durch Hinzufügen weiterer „Strahlen“ gewährleistet. Der Hintergrund der
Schaltflächen wurde bewusst weiß belassen. Damit wurden die
Spezifikationen nicht verletzt, weil auf der Startseite noch kein Modul
aktiviert ist, gleichzeitig wird auf die gleiche Relevanz (gleiche Ebene der
hierarchischen Struktur) hingewiesen.
Die Startseite wird sich in der Farbe von den restlichen ProgrammModulen, das Intro ausgenommen, unterscheiden. Von dieser sollten alle
Module des Programms zu erreichen sein.
Als Hintergrundbild wurde wiederum das Tanztheater-Bild verwendet, das
auch schon im Intro Verwendung fand. Durch die Benutzung des gleichen
Bildes in Intro und Startseite sollte der Einstieg in das Programm
vereinfacht werden.
10.2.4. Erstellen des Moduls „Erklärung der Funtionsweise des MP3Codecs“
Das in Kapitel 4.1 in Abbildung 1 dargestellte Blockdiagramm eines MP3Encoders wurde in Director als Navigationsleiste implementiert, indem die
Blockelemente als Schaltflächen angelegt wurden. Die Verbindungen
wurden durch graphische Elemente (Linien) gelöst. Diese Schaltflächen
wurden mit Lingo-Skripten belegt, welche auf die in der ProgrammStruktur vorhandenen Marker springen sollten. Ein Klick auf
„Filterbank“beispielsweise sollte beispielsweise auf den Marker „Filter“ im
Director-Drehbuch springen, so dass eine Navigation im Modul möglich
war. Weiterhin wurden alle nicht aktiven Schaltflächen des
Blockdiagramms mit der Fülloption „Hintergrund transparent“ versehen,
so dass nur die aktive Schaltfläche einen weißen Hintergrund aufwies.
Damit ist auf einen Blick zu erkennen, in welchem Teil des
Funktionsweise-Moduls man sich befindet.
Die einzelnen Texte zur Erklärung der Funktionsweise wurden in MS Word
erstellt und in Director unter dem RTF-Format importiert. Die Grafiken
wurden aus [ZWI67] und [ZWI90] gescannt, in Photoshop unter dem
99
BMP-Format gespeichert und ebenfalls in Director importiert. Diese beiden
Teile wurden dann in Director auf der verfügbaren Bühnenfläche so
angeordnet, dass eine gute und intuitive Erfassung des Textes und der
Grafiken möglich ist.
10.2.5. Erstellen des Moduls „Experimente“
Nach dem in Kapitel 9 geschilderten Entwurf einer konstruktivistischen
Lernstruktur wurde der Programm-Teil „Experimente“ erstellt.
In diesem Modul befinden sich alle psychoakustischen Experimente und
Simulationen. In der oberen linken Bildschirmseite wurde eine zusätzliche
Navigationsstruktur verwirklicht, die ein Springen zu den einzelnen Teilen
ermöglichte. Für alle Teile des Moduls wurde ein Button [Audio Stoppen!]
auf dem Bildschirm direkt oberhalb der Spektren implementiert. Der
Button ist mit einem Lingo-Skript belegt, der alle abgespielten Signale in
allen Audio-Kanälen sofort stoppt. Dieses Element wurde insofern als
wichtig erachtet, als bei Fehleinstellung der Abhöreinrichtung ein
sofortiges Stoppen aller Audiosignale gewährleistet ist (und damit
vielleicht das Gehör retten kann!). Zweitens soll bei Vorführungen das
Stillegen des Programm-Audioausgangs gewährleistet sein, wenn
beispielsweise ein Teil des Moduls in Vorlesungen erklärt wird. Im
folgenden wird die Implementierung der einzelnen Experimente erklärt.
Experimente „Maskierung von Sinustönen in Schmalbandrauschen“
Experiment 1 (Oktavsinustöne)
Nach den Entwürfen in Abschnitt 9.2. wurden die einzelnen Sinustöne mit
PRAAT generiert. Gleichzeitig wurde ein Durchschnittsspektrum dieser
Sinustöne generiert. Dieses Spektrum wurde geplottet und als EPS-File
zur Weiterbearbeitung in Photoshop exportiert. Die einzelnen Sinustöne
wurden dann mit einer A-Bewertung versehen, um einen gleichbleibenden
Lautstärkeeindruck speziell bei Frequenzen wie 8kHz und 500 Hz zu
gewährleisten (bei diesen Frequenzen weisen die Isophone einen
extremeren Pegelunterschied auf, wie in Abbildung 16 in Kapitel 9.3.1.
deutlich zu erkennen ist).
Diese Korrekturwerte für die A-Bewertung wurden freundlicherweise von
Dr.-Ing. André Jakob (Institut für Technische Akustik) zur Verfügung
gestellt, der nach der entsprechenden DIN-Norm ein Matlab-Script
erstellte, das die Korrekturwerte für eine A-Bewertung bestimmt. Diese
Korrekturwerte wurden dann wiederum in Matlab in Verstärkungs- oder
Abschwächungsmultiplikatoren umgerechnet. Diese wurden auf die
Sinussignale multipliziert, die zuvor in Matlab als WAV-Dateien importiert
wurden. Anschließend wurden diese veränderten Signale wieder als WAVDateien exportiert. Der Grund für das vorherige Plotten der Spektren war,
dass die Ordinatenachse als unbewertete Pegel-Achse vorlag, das Plotten
der bearbeiteten (A-bewerteten) Sinussignale also zu unterschiedlichen
100
Pegeln im Spektrum geführt hätten. Diese Darstellung hätte den Nutzer
eher verwirrt.
Für die Generierung des Schmalbandrauschens wurde ein weißes
Rauschsignal mit sehr steilflankigen linearphasigen Hoch- und
Tiefpassfilter bearbeitet (Waves: “Linear Phase EQ“). Die Mittenfrequenz
war 1000Hz, die Grenzfrequenzen waren 775Hz und 1202Hz, der Q-Faktor
war 6.5. Bei den Frequenzen 700Hz und 1202Hz lag bereits ein Pegelabfall
von über 40dB vor, somit waren unerwünschte Frequenzen wirkungsvoll
genug unterdrückt. Abbildung 19 zeigt einen Screenshot des
Filterinterfaces mit den beschriebenen Parametern:
Abbildung 19: Interface des für die Filterung des Schmalbandrauschens
verwendeten Audio-Plug-In. Aktiv waren die Bänder mit den Grenzfrequenzen
775Hz und 1205Hz.
Abbildung 20 zeigt das Spektrum des mit diesen Parametern aus dem
Weißen Rauschen erzeugten Schmalbandrauschens:
101
Abbildung 20: Spektrum (oben linker, unten rechter Kanal) des für die Filterung
des Schmalbandrauschens verwendeten Filters.
Der notwendige Pegel des Maskierungsrauschens für das Experiment
wurde bestimmt, indem in einem mehrspurigen Audio-Editor auf einer
Spur die verschiedenen A-bewerteten Sinustöne abgespielt wurden. Auf
einer weiteren Spur wurde das generierte Schmalbandrauschen
abgespielt. Der Pegel des Schmalbandrauschens wurde dann so
eingestellt, dass der Sinuston von 1000Hz gerade nicht mehr zu hören
war. Das Schmalbandrauschen wurde dann mit dieser neuen
Aussteuerung exportiert.
Die einzelnen jetzt unbewerteten Sinustöne wurden im Audio-Editor
zusammen mit dem Schmalbandrauschen gemischt und als WAV-Files
exportiert (gebounced). Von diesen Wave-Files wurden wiederum in
PRAAT die Spektren erstellt. Damit waren für beide Experimentteile alle
Spektren vorhanden.
In Director wurde für den ersten Teil des Experimentes in jedes Bild ein
Oktav-Sinuston in die Tonspur eingefügt. Das zum jeweiligen Sinuston
zugehörige Spektrum wurde im linken unteren Teil der Bühne positioniert.
Im oberen rechten Teil entstanden 2 Buttons, die zum nächsthöheren und
zum nächsttieferen Bild sprangen, in dem sich die Audiodateien und
Spektren der nächsthöheren Sinustöne (Oktave höher) oder
nächsttieferen Sinustöne (Oktave tiefer) befanden. Damit war dem Nutzer
ein Durchschalten der einzelnen Oktavtöne über diese beiden Buttons
möglich. Der Button [Oktave tiefer] bei der Frequenz 63Hz und [Okave
höher] bei der Frequenz 16kHz wurden nach üblicher Windows-Konvention
hellgrau dargestellt25, um dem Nutzer mitzuteilen, dass an diesem Punkt
kein weiterer Experimentdurchlauf verfügbar ist.
25
Da unterhalb von 63Hz und oberhalb von 16kHz kein Oktav-Sinuston mehr anwählbar
war.
102
Es wurde ein Text auf dem oberen Teil der Bühne platziert, der dem
Nutzer die Objekte und die Möglichkeiten des Experimentes erklärt und
eine Aufgabe stellt. Diese Aufgabe lautete, dass der Nutzer genau darauf
achten sollte, ob die Lautstärke der Oktavsinustöne ungefähr gleich ist.
Schließlich wurde in der unteren rechten Ecke des Bildschirms ein Button
positioniert, der zum zweiten Teil des Experimentes führen sollte.
Im zweiten Teil des ersten Experimentes war der Aufbau ähnlich. Zu den
Sinustönen in der Tonspur 1 wurde noch das Schmalbandrauschen auf der
Tonspur 2 implementiert. Beide Tonspuren waren zu hören. Die Spektren
stellten jetzt natürlich die Sinustöne und das Schmalbandrauschen dar.
Der Sinuston von 1000Hz war jetzt nicht mehr wahrnehmbar, da er
vollständig vom Schmalbandrauschen maskiert wurde. Als Aufgabe für
den Nutzer wurde gestellt, dass eine Bewertung darüber erfolgen sollte,
ob trotz des Schmalbandrauschens die Sinustöne ungefähr gleich waren.
Um das gehörte Phänomen zu erklären, führte ein Button auf eine
Erklärungsseite, auf der die gehörten Phänomene kurz erklärt wurden und
eine Grafik aus einem Buch von Zwicker zur besseren Verdeutlichung
präsentiert wurde.
Experiment 2 (Sinustöne im Frequenzbereich von 700Hz bis 1400Hz im
Abstand von 20Hz )
Das zweite Experiment sollte die Erkenntnisse der Psychoakustik
darstellen, dass Maskierung nicht nur im Frequenzbereich des Maskers
auftritt, sondern auch im höheren Frequenzbereich und schwächer
ausgeprägt auch im niedrigeren Frequenzbereich.
Die Implementierung war identisch mit der für Experiment 1
beschriebenen Implementierung. Statt der Oktav-Sinustöne wurden
Sinustöne von 700Hz bis 1400Hz generiert, im Abstand von jeweils 20 Hz.
Das Schmalbandrauschen war mit dem aus Experiment 1 identisch. Der
Effekt, dass die Sinustöne nicht nur im Frequenzbereich des
Schmalbandrauschens maskiert wurden, sondern auch im höheren
Frequenzbereich massiv abgeschwächt wurden, und auch im niedrigeren
Frequenzbereich deutlich abgeschwächt wurden, konnte sehr gut
verdeutlicht werden.
Experiment 3 (Maskierung von Schmalbandrauschen in verschiedenen
Musiksignalen)
Dieses Experiment ist für das Verständnis perzeptiver Audiocodierung am
wichtigsten, da es ein Verständnis für das Maskieren von Rauschsignalen
in Musik ermöglicht.
103
Für diesen Teil wurden zuerst 3 Musikstücke ausgewählt, die eine
möglichst große Bandbreite an Instrumenten und musikalischen Stilen
bieten sollte. Im einzelnen kamen zum Einsatz:
•
•
•
Herbert Grönemeyer „Luxus“, von der MTV-Unplugged CD, Grönland
Records
Brahms „Concerto for violin and orchestra in D-major: Allegro non
troppo“, Aufnahme: Anne Sophie Mutter und Berliner Philharmoniker
unter der Leitung von H. Karajan, Deutsche Grammophon
Virginia Rodrigues „Ilê é impar“, CD „Nós“, Natasha Records
Das erste Stück ist ein Rockmusik-Stück und enthält sehr gute Aufnahmen
von hochwertigsten akustischen Instrumenten und ist außerdem sehr gut
produziert. Das dritte Stück ist ein typische brasilianische SambaAufnahme und enthält neben der sehr gut aufgenommenen Stimme von
Virginia Rodrigues viele verschiedene Schlagzeug- und PercussionInstrumente. Das zweite Stück ist eine typische Aufnahme klassischer
Musik mit komplettem Orchesterinstrumentarium. Mit diesen drei Stücken
sollte ein repräsentativer Querschnitt durch diverseste Instrumente und
Signalquellen gewährleistet sein, um die Eigenarten perzeptiver
Audiocodierung zu verdeutlichen.
Aus den Musikstücken wurden 30 repräsentative Sekunden geschnitten.
Diese Musikstücke konnten über Buttons auf dem Bildschirm angehört
werden. Dazu wurden 2 Buttons implementiert, die das im vorherigen
Experiment beschriebene Schmalbandrauschen mit dem Musiksignal
überlagerten. Der Pegel des Schmalbandrauschens war variabel in 3dBSchritten. Dazu wurde verschiedene WAV-Files des Schmalbandrauschens
mit Aussteuerungen zwischen –36dBFS und –6dBFS erzeugt. Diese WAVFiles wurden in der beschriebenen Reihenfolge abgerufen, wenn einer der
Buttons vom Nutzer betätigt wurde, während das Musiksignal in
unveränderter Aussteuerung abgespielt wurde. Auf eine Vollaussteuerung
des Rauschsignals wurde verzichtet, da es in diesem Falle zum Clipping
durch das Erreichen und Überschreiten der Reserven des Digital-AnalogWandlers gekommen wäre. Das gleiche wäre bei der Aussteuerung des
Rauschens bei –6dBFS im dritten Musikstück passiert, weshalb in diesem
Musikstück das Rauschsignal nur bis –9dBFS zu regeln ist.
Drei weitere Buttons erlaubten das Schalten zwischen den Einstellungen:
•
•
•
Musiksignal ohne Rauschen
Rauschsignal ohne Musik (mit der gerade gewählten RauschsignalAussteuerung)
Das Musiksignal mit Rauschsignal (mit der gerade gewählten
Rauschsignal-Aussteuerung)
um einen Eindruck von den Maskierungseffekten der einzelnen
Musikstücke auf die Wahrnehmbarkeit des Schmalbandrauschens zu
bekommen.
104
Dem Nutzer wurde wiederum in einem mit einem Textrahmen unterlegten
Instruktionstext die einzelnen Elemente und Möglichkeiten des
Experiments erklärt. Es wurde die Aufgabe gestellt, den Pegel des
Rauschsignals so einzustellen, dass es gerade hörbar ist.
Da das Experiment vorsieht, dass die Lautstärke von maskiertem und
nicht maskierten Rauschen verglichen werden sollte, konnte auf das
Abhören des Rauschsignals umgeschaltet werden, um einen
Lautstärkevergleich der beiden Rauschsignale zu ermöglichen. Dabei sollte
festgestellt werden, dass das Rauschsignal, wenn es ohne Musiksignal
abgespielt wird, um ein Vielfaches lauter gehört wird als das Rauschsignal,
wenn es zusammen mit Musik angehört wird. Das sollte den Nutzer auf
den für die perzeptive Audiocodierung entscheidenden Sachverhalt
aufmerksam machen, dass ein Rauschsignal bis zu einer gewissen
Schwelle (Signal-to-Mask-Ratio, das elementare Element vieler
perzeptiver Codecs nach [BRA94],[BRA99],[BRA03],[BRA88] und
[BRA00]) nicht hörbar ist, wenn es zusammen mit einem Musiksignal
dargeboten wird.
10.2.6. Simulation der MP3-Filterbank
Für diese Simulation wurden wiederum die in Abschnitt 10.2.5.
beschriebenen Musikstücke (aus den genannten Gründen) verwendet. In
PRAAT wurden Spektrogramme der Musikstücke im Frequenzbereich 05000Hz erstellt (siehe Abschnitt 9.5.3. für genaue Erklärungen). Diese
Spektrogramme wurden in Director importiert und im linken unteren Teil
des Bildschirms positioniert.
Die Musikstücke wurden mit einer in Matlab entworfenen Filterbank
verwirklicht, der die gleiche Koeffizientenzahl und die gleichen
Grenzfrequenzen sowie ungefähr die gleichen Sperrdämpfungen aufweist
wie die MP3-Filterbank.
Abbildung 21 zeigt den Frequenzgang des zweiten Filters (500Hz1000Hz):
105
Abbildung 21: Frequenzgang und Phasengang des zur Filterung der
Musiksignale in der Simulation der MP3-Filterbank benutzten Matlab-Filters.
Die Musikstücke wurden über diese Filterbank gefiltert und die einzelnen
gefilterten Signale wurden in einzelne WAV-Files exportiert.
In Director wurden diese WAV-Files wieder importiert. Die benannten
Frequenzbereiche der gefilterten Signale wurden auf dem
Spektrogrammbild berührungssensitiv („klickbar“) gestaltet. Weiterhin
wurden Schaltflächen mit den Angaben der Filtergrenzfrequenzen in die
Frequenzbereiche sowie rote horizontale Trennlinien (ebenfalls bei den
Filtergrenzfrequenzen) im Spektrogramm positioniert. Die
dazwischenliegenden Frequenzbereiche (entspricht also den
Durchlassbereichen der Filterbänder) wurden dann mit Lingo-Skripten
belegt, die das zum jeweiligen Frequenzbereich gehörende gefilterte
Signal abspielte, wenn vom Nutzer in den Frequenzbereich geklickt wird.
Weiterhin wurde ein Button „Original (Ungefiltert)“ positioniert, der beim
Klicken das Original-Musikstück abspielte, um einen Vergleich beider
Signale herstellen zu können.
10.2.7. Erstellen des Moduls „Hörbeispiele“
In diesem Modul wurden alle Hörbeispiele zusammengefasst, die einen
Beitrag zur Verdeutlichung perzeptiver Audiocodierung leisten sollten.
Hörbeispiele: „Vergleich unterschiedlicher Bitraten“
Für diesen Programmteil wurden mit der Software MusicMatch 7.1 aus den
unter Abschnitt 10.2.5. erwähnten Musikstücken MP3-Encodierungen und
die darauffolgende Decodierung unter verschiedenen Bitraten
vorgenommen, um einen Eindruck von der Qualität und den Verzerrungen
106
durch MP3 zu vermitteln. Die Decodierung wurde vorgenommen, damit
das Soundformat im ganzen Programm konstant bleibt, und nicht durch
andere Abspielparameter geändert wird.
MusicMatch 7.1 verwendet den Fraunhofer IIS „MPEG Layer 3 Audio
Coding Technology“, einen von Fraunhofer lizensierten Codec. Mit dieser
Software wurden MP3-Codierungen der 3 Stücke in folgenden Bitraten
vorgenommen:
•
•
•
•
•
•
8 kBit/s
16 kBit/s
32 kBit/s
64 kBit/s
128 kBit/s (typische Bandbreite für MP3 über das Internet)
256 kBit/s
Diese entstandenen Sound-Dateien (*.WAV) wurden in Director
importiert. Es wurde eine einfache Bildschirmstruktur geschaffen, welche
in Spalten das zur Encodierung verwendete Musikstück präsentiert und in
den Zeilen die einzelnen Bitraten. Die zur Kennzeichnung der TabellenStruktur verwendeten Elemente waren wiederum Director-Schaltflächen,
welche beim Anklicken die jeweilige Sound-Datei abspielten.
Hörbeispiele „Vergleich unterschiedlicher Codecs“
Für diesen Programmteil wurde ein Großteil der Sound-Beispiele zum
Vergleich verschiedener Audio-Codecs der CD-Rom „AIDA: Audio Internet
Demonstration Aid“ verwendet. Der Inhalt der CD und die Gründe für die
Verwendung dieser externen Hörbeispiele wurden ausführlich in Abschnitt
9.5.4.2. behandelt. Das in diesem Abschnitt dargestellte PräsentationsKonzept für die Sound-Dateien wurde ebenfalls mit Director-Schaltflächen
verwirklicht. Das Vorgehen zum Abspielen war identisch mit der im
vorigen Abschnitt beschriebenen. Schließlich wurde am Fuß der
Bildschirmfläche ein Copyright-Hinweis auf die Herkunft der SoundBeispiele gegeben.
Hörbeispiele „Typische Artefakte und Verzerrungen“
Für diesen Programmteil wurden die Sound-Beispiele für Verzerrungen
perzeptiver Audio-Codecs der CD-Rom „AIDA“ verwendet. Die Gründe für
die Verwendung dieser externen Hörbeispiele wurden in Abschnitt 9.5.4.2.
und 9.6.4.3. dargestellt.
Zu jedem einzelnen Fehlersignal wurden drei Schaltflächen entwickelt. Die
ersten beiden sollten beim Klicken das Soundfile mit dem Fehlersignal und
die uncodierte Referenz (das Original-Soundfile) hörbar machen. Ein Klick
auf die dritte Schaltfläche definiert einen Sprung zu einem neuen
Bildschirm, auf dem Erklärungen zum Entstehen der einzelnen
Fehlersignale dargestellt sind. Diese Erklärungen wurden in beschriebener
107
Weise durch Textrahmen eingefasst und mit erläuternden Grafiken
versehen. Am Fuß der Seite wurde ein Button platziert, der wieder auf die
Seite mit den Hörbeispielen verweist.
10.2.8. Erstellen des Moduls „Weiterführende Literatur“
Wie bereits in den Entwürfen in Abschnitt 9.5.5. erwähnt, sollte dieses
Modul sehr knapp gefasst sein. Es sollte nur aus einem Text bestehen, der
auf die auf der CD-Rom enthaltenen PDF-Files verweisen sollte. Weiterhin
sollte sich die Hintergrundfarbe deutlich von den anderen Modulen
unterscheiden, da verdeutlicht werden sollten, dass bei Erreichen dieses
Moduls die normale Programm-Struktur verlassen wurde. Zu diesem
Zweck wurde als Hintergrundbild eine in Brauntönen gehaltene Fotografie
der Neubrandenburger Konzertkirche gewählt. Das Motiv zeigt die leere
Konzerthalle, in der sich auf der Bühne ein Flügel befindet. Es weist damit
auf die Beenden des Programms hin, bei Befragungen der Nutzer wurde
diese Metapher gut verstanden.
Der Text wurde größer als der Text zur Erklärung der Funktionsweise
gesetzt, um sich deutlich von anderen Text-Teilen abzuheben. Er wurde
mit einem hellgrauen Textrahmen versehen und mittig platziert.
108
10.3. Zusammenfassung
In den Spezifikationen wurden folgende Module definiert:
•
•
•
•
•
•
Intro
Erklärung der Funktionsweise eines MP3-Codecs
Simulation der MP3-Filterbank
Psychoakustische Experimente
Hörbeispiele zur Perzeptiven Codierung
Weiterführende Literatur
In diesem Kapitel wurde beschrieben, wie diese implementiert wurden.
Das Hauptaugenmerk lag auf der Entwicklung von Hörbeispielen und der
Simulation psychoakustischer Experimente. So wurden diverse am
Bildschirm durchzuführende Experimente zu Mithörschwellen und SignalRausch-Abständen entwickelt und implementiert. Weiterhin wurde ein
Hörvergleich der Codierungsqualität eines MP3-Encoders unter
verschiedenen Bitraten verwirklicht. Ebenso wurde ein Hörvergleich von
verschiedensten auf dem Markt erhältlichen perzeptiven Audiocodecs mit
unterschiedlichem Musikmaterial realisiert.
Demgegenüber wurden beispielsweise zur Erklärung der Funktionsweise
eines MP3-Codecs mögliche Animationen und verdeutlichende Filme in den
Hintergrund gestellt, obwohl ein Modul implementiert wurde, das die
Funktionsweise eines MP3-Encoders in Text und Grafiken ausführlich
darstellt. Die Ausarbeitung dieses Moduls müsste in der
Verbesserungsphase stattfinden. Da Hörbeispiele und akustische
Simulationen zum Verständnis der vom MP3-Codec ausgenutzten
Phänomene des menschlichen Hörapparates als elementar betrachtet
wurden, wurde dieser Teil des Programms besonders ausführlich gestaltet.
Aus vielen Gesprächen mit potentiellen Nutzern wurde deutlich, dass ein
deutliches Defizit im Verständnis der grundlegenden Hörphänomene wie
beispielsweise dem Verständnis der Maskierung besteht. Ein Verdeutlichen
dieser Phänomene wurde als sehr wichtig empfunden und demzufolge als
primär zu verwirklichendes Lernmaterial angesehen. Ein technisches
Verständnis der Funktionsweise wurde in dieser Hinsicht als zweitrangig
empfunden. Dementsprechend wurde eine Vielzahl von Artikeln und
Dokumentationen zum Selbststudium zur Verfügung gestellt, während
Klangbeispiele entweder sehr verstreut oder gar nicht vorhanden waren.
Beim Erstellen des multimedialen Lernmoduls wurden die in Kapitel 6.5.4.
dokumentierten Usability-Richtlinien eingehalten. Informelle UsabilityBefragungen nach [MAN01] von Benutzern bescheinigten dem Programm
in allen aufgeführten Punkten sehr gute Ergebnisse:
109
Usability-Richtlinien
1. Stelle einen einfachen und
natürlichen Dialog her.
2. Sprich die Sprache der Benutzer.
3. Minimiere die Gedächtnislast der
Benutzer.
4. Sei konsistent und halte dich an
Standards.
5. Liefere Feedback.
6. Stelle klar markierte Ausgänge
zur Verfügung.
7. Stelle Abkürzungen zur
Verfügung.
8. Liefere gute Fehlermeldungen.
9. Verhüte Fehler.
10. Liefere angemessene Hilfe und
Dokumentationen.
Laut Umfrage (5 Benutzer) im
vorliegenden multimedialen
Lernmodul erreicht oder nicht
erreicht
ja
ja
keine Angaben
ja
ja
ja
ja
ja
Keine Angaben
ja
Tabelle 10: Umfrage über die Erfüllung der Usability-Kriterien, ausgeführt bei
potentiellen Nutzern des Programms
Aufgrund von Restriktionen der Rechte-Inhaber der verwendeten
Musikstücke wird es keine über das Internet abzurufende Version der
Module geben, in denen diese Musikstücke verwendet wurden. Das ist
sehr zu bedauern, aber von den Rechteinhabern wurde mir empfohlen,
selbst diese Beispiele, die immer nur 30 Sekunden eines Musikstückes
darstellten, auf keinen Fall im Internet zur Verfügung zu stellen. Aus
diesem Grunde werden nur die verwirklichten Module ohne Hörbeispiele
im Internet verfügbar sein, für eine vollständige Programm-Version wird
auf Anfrage eine CD-Rom für nichtkommerzielle, für die Forschung und
Lehre bestimmte Version bereitgestellt werden.
110
11. Zusammenfassung und Ausblick
Dieses Kapitel gibt eine Zusammenfassung der vorliegenden Arbeit und
des erstellten Programms.
Weiterhin werden bestehende Einschränkungen im erstellten Programm
dargestellt. Daraus resultierend werden Lösungsmöglichkeiten und Wege
zur Verbesserung dargestellt. Weiterhin wird ein Ausblick auf weitere
mögliche und sinnvolle Module gegeben, welche die Qualität des
Programms deutlich erhöhen können.
Es werden verschiedene nicht realisierte Programm-Module und Ideen zu
Programm-Modulen präsentiert und eine Einschätzung auf den
tatsächlichen Qualitätsgewinn im entstehenden Programm in Bezug auf
den zu investierenden Aufwand vorgenommen.
11.1. Zusammenfassung
In dieser Magisterarbeit wurde die Erstellung einer multimedialen
Lernumgebung für das Thema „Perzeptive Audiocodierung“ dargestellt.
Zu Beginn wurde ein Überblick sowohl über die wichtigsten klassischen
Lerntheorien gegeben als auch die Prinzipien multimedialen Lernens
dargestellt und die sinnvollen Einsatzmöglichkeiten der unterschiedlichen
Medien diskutiert. Weiterhin wurden Richtlinien über die Erstellung eines
Programms mit optimierter Benutzbarkeit dargestellt sowie Hinweise zur
Vermeidung häufiger Fehler gegeben.
In einem weiteren Teil der Magisterarbeit wurden die für den Inhalt des
Programms relevanten Themen dargestellt. Diese umfassten sowohl die
ausführliche Darstellung des MP3-Codecs als auch einen Überblick über
den aktuellen Stand der Forschung und der Entwicklung in der perzeptiven
Audiocodierung. Weiterhin wurden alle wichtigen objektiven
Qualitätsmessverfahren und -tests dargestellt.
Die Erstellung des Lernmoduls wurde in der klassischen Strukturierung der
Informatik dargestellt:
(1) In der Anforderungsanalyse wurden die potentiellen Nutzer des
Programms analysiert. Es wurde begründet, dass die Schwerpunkte des
Programms auf der Darstellung von auditiv verdeutlichenden Aspekten
perzeptiver Codierung liegen sollten: im Einzelnen Simulationen und
Experimente zu den relevanten zugrundeliegenden psychoakustischen und
audiotechnischen Prinzipien sowie eine Vielzahl von verdeutlichenden
Hörbeispielen.
(2) In den Spezifikationen wurden aufgrund dieser Schwerpunkte die
Aufteilung der darzustellenden Inhalte in einzelne Programmteile
spezifiziert und begründet. Es wurden die im Programm zu integrierenden
theoretischen und praktischen Elemente definiert, woraus sich folgende
111
Strukturierung des Programms ergab: „Intro“, „Erklärung der
Funktionsweise eines MP3-Encoders“, „Psychoakustische Experimente“,
„Simulation der MP3-Filterbank“ und „Weiterführende Literatur“. Weiterhin
wurden die Systemfunktionen des Programms geschildert.
(3) In den Entwürfen wurden die in den Spezifikationen definierten
Programm-Punkte in eine genaue Struktur umgesetzt. Es wurden
mögliche Entwürfe diskutiert und darauf folgend die Auswahl der
präferierten Entwürfe begründet. Die Auswahl der psychoakustischen
Experimente und der Hörbeispiele wurde ausführlich dargestellt.
(4) In der Implementierung wurde die genaue Umsetzung der
beschriebenen Entwürfe durch die Programmierung in der gewählten
Multimedia-Software dargestellt. Es wurden Angaben zum Umgang
potentieller Nutzer mit dem fertiggestellten Programm gemacht.
Das Ziel war, ein multimediales Lernmodul zur perzeptiven Audiocodierung
zu entwickeln, das eine Ansammlung von relevanten und verdeutlichenden
Hörbeispielen und psychoakustischen Phänomenen bietet. Damit ist es
sowohl für den Einsatz in der Lehre prädestiniert (zum Thema
Audiocodierung und allgemeiner zu Hörphänomenen) als auch für den
Einsatz im Tonstudio. In diesem Bereich kommen Programme zur
herkömmlichen Schulung des Gehörs (wie beispielsweise „Golden Ear“26)
zum Einsatz, Programme zur Schulung des Gehörs auf typische Fehler
perzeptiver Codecs, wie sie in der Audio-Aufnahme immer mehr zum
Einsatz kommen, sind in diesem Einsatz-Szenario nur marginal
vorhanden. In diesen beschriebenen Szenarios soll das Programm
bereichernd zur freien Verfügung stehen.
Im folgenden werden bestehende Mängel im Programm mit ihren
Lösungsansätzen diskutiert und ein Ausblick auf zukünftige Erweiterungen
des Programms gegeben.
11.2. Bestehende Einschränkungen und Lösungsansätze
Durch die Verwendung einer Ton-Datei im Modul „Intro“ wird, abhängig
von der Datenrate des Internet-Zuganges des Nutzers, die Synchronität
von Bild und Ton teilweise empfindlich gestört. Dieses Problem sollte sich
über die Verwendung von Markern in der Sound-Datei nach [KHA00] sehr
gut lösen lassen. Eine Lösung ist allerdings nur für die Verwendung von
Macintosh-Computern angegeben. Ein Lösungsversuch mit einer MarkerSetzung unter SoundForge (wird in die verwendete WAV-Datei mit
abgespeichert) brachte nicht die erwünschten Resultate. Hier ist ein
Testen von anderen Markern in anderen Prgrammen wie CoolEdit oder
ProTools für die Verbesserungs-Phase vorgesehen.
26
„Golden Ear“ ist eine Schulungs-CD für Toningenieure und Tonmeister, die eine Vielzahl
von wichtigen Audiobeispielen bietet, wie hervorgehobene oder abgesenkte
Frequenzbereiche in komplexen Musiksignalen zu erkennen oder minimal zugefügtes
Rauschen und Knacken wahrzunehmen.
112
Bei den psychoakustischen Experimenten und bei der Simulation der MP3Filterbank ist es wünschenswert, wenn das Soundfile nicht immer wieder
von vorn abgespielt wird, wenn beispielsweise der Signal-Rausch-Abstand
verändert wird oder ein anderes Filter-Band abgehört wird. Dieses
Problem ist aber nicht ohne erheblichen Programmier-Aufwand zu lösen
und verlangt eine äußerst genaue Synchronisierung, um Sprünge im
Tonmaterial oder Knackimpulse zu verhindern. In diesem Sinne wird es
eine Frage der Kosten-Nutzen-Abschätzung sein, ob dieser Aufwand
betrieben wird und ob dieses Problem wirklich so ungemein störend für
den Nutzer ist. Bei Befragungen potentieller Nutzer dieses Programms
wurde das Problem entgegen der Sicht des Autors als nicht störend
empfunden.
11.3. Nächste Schritte – Zukünftige Verbesserungen und
Lösungsansätze
Ausbau des „Funktionsweise“-Moduls mittels Fabrik-Metapher
Da das Hauptaugenmerk bei der Entwicklung des Programms auf der
Erstellung von psychoakustischen Experimenten und Simulationen sowie
einer Vielzahl von Hörbeispielen lag, kam natürlich eine genaue
Ausarbeitung des Moduls „Funktionsweise des MP3-Codecs“ mittels
Animationen und Filmen zu kurz. Das könnte darin münden, dass einige
Nutzer die theoretische Funktionsweise eines MP3-Encoders nicht
verstehen. In der Verbesserungsphase müsste also aktiv und gezielt an
Metaphern und Animations-Ideen für die Erklärung der Funktionsweise
gearbeitet werden. Denkbar wäre beispielsweise eine Metapher „Fabrik“,
in der als Rohstoffe unkomprimiertes Audio angeliefert wird, das in seinem
Urzustand eine viel zu hohe Datenrate hat, und aus diesem Grunde in
keinen der zur Verfügung stehenden und für den Transport notwendigen
Container passt. Es könnten dann alle zur Verfügung stehenden
Produktionsprozesse (Algorithmen) und Bearbeitungsschritte (Punkte der
MP3-Codierung) in diesem Sinne dargestellt werden. Eine Nutzung von
verdeutlichenden Techniken wie Animationen oder ähnliches wäre dann
ein sinnvoller Weg. Beispielsweise bietet sich die Erklärung der HuffmanCodierung über eine Animations-Sequenz geradezu an.
Weiterhin wäre es möglich, die technologischen Fortschritte, die in
neueren Codecs wie beispielsweise AAC oder SBR zu finden sind, in einer
vernünftigen Einbettung zu erklären. In einem Produktionsschritt
„Qualitätskontrolle“ könnten alle möglichen zur Verfügung stehenden
objektiven Qualitätstests dargestellt sowie die Ergebnisse der einzelnen
Codecs in diesen Qualitätstests aufgelistet werden. Eine andere
Möglichkeit der Implementierung solcher Qualitätstests ist im Abschnitt
„Erweiterung des Programms um ein Modul Objektive Qualitätsvergleiche“
geschildert.
113
Verbesserung der Einbindung des Literatur-Moduls
Die momentan gewählte Lösung der Integration der technischen
Dokumentationen und Veröffentlichungen ist sicherlich
verbesserungswürdig. Es ist eine Integration in die bestehende
Programm-Struktur wünschenswert. Dieses sollte sich durch ein DirectorPlugIn oder durch eine in Lingo geschriebene Schnittstelle problemlos
realisieren lassen.
Verbesserung des Intros durch Videosequenzen
Obwohl der momentane Stand des Intros die Nutzer überzeugte und die
Botschaft in gewünschter Weise transportierte, ist es doch
wünschenswert, wenn diese Metapher der gleichzeitigen Verschlechterung
der Bild- und Tonqualität über eine Videosequenz realisiert werden würde,
beispielsweise wie vorgeschlagen über einen Videomitschnitt eines
Orchesters. Diese Option ist im vorliegenden Programm aufgrund von
Limitationen des zur Verfügung stehenden Speicherplatzes auf dem
Zieldatenträger CD-Rom nicht realisiert worden. In Zukunft stellt dies wohl
bei genauer Kenntnis des freien Speicherplatzes und eines geeigneten
Video-Codecs kein Problem mehr da.
Erweiterung des Experimente-Moduls mit moduliertem Rauschen
Eine Erweiterung des Moduls „psychoakustische Experimente“ ist
wünschenswert. Statt aber mit Optionen wie für den Nutzer frei
einstellbare Sinuston-Oszillatoren zu operieren, ist eher an eine
Erweiterung der Experimente im fachlichen Sinne gedacht. Beispielsweise
könnte das Experiment „Hörbarkeit von Schmalbandrauschen in
Musiksignalen“ mit moduliertem Schmalbandrauschen implementiert
werden (wenn das Musiksignal leiser wird, wird auch das
Schmalbandrauschen leiser). Eine Realisierung im bestehenden Programm
wurde nicht vorgenommen, da aufgrund von Nutzer-Tests im Vorfeld die
Version mit nicht moduliertem Rauschen präferiert wurde. Bei
Vorführungen durch Herrn Prof. Dr. Brandenburg wird die Maskierung von
weißem Rauschen durch Musiksignale in der Regel mit moduliertem
Rauschen gezeigt. Das Prinzip der perzeptiven Codierung wird so natürlich
deutlicher, allerdings zeigte sich dieses Verständnis auch bei den Tests,
dazu wurde der Effekt der Abhängigkeit der Maskierung von der
Lautstärke deutlicher erkannt. Ungeachtet dessen wäre natürlich eine
Nutzer-Option im Programm vorteilhaft, in der der jeweilige Nutzer
auswählen kann, ob er das Maskierungsexperiment mit moduliertem oder
nicht moduliertem Rauschen durchführen möchte.
114
Erweiterung des Programms um ein Modul „Objektive Qualitätsvergleiche
perzeptiver Codecs“
In diesem Modul könnte die in Abschnitt „4.7. Objektive
Vergleichsmöglichkeiten von Codecs“ ausführlich dargestellten
Möglichkeiten zum Vergleich der Audio-Qualität verschiedener Codecs
dargestellt werden. Denkbar wäre beispielsweise die Verwirklichung einer
Simulation eines objektiven Hörtests, beruhend auf den ITUEmpfehlungen, um dem Benutzer das Vorgehen und das Prinzip solcher
objektiver Hörtests zu verdeutlichen. Diese Hörtests existieren als
eigenständige Software-Lösungen, es müssen nur die zu testenden Codecs
definiert und die Stimuli erstellt werden. Eine Einbindung eines solchen
Tests in die bestehende Programmstruktur sollte also problemlos zu
realisieren sein.
115
12. Glossar
AAC: Advanced Audio coding. Vom Fraunhofer-Institut IIS (Institut für
Integrierte Schaltungen) entwickelter Encoder, der standardisiert ist.
Siehe Abschnitt 4.1. und 5.1. für ausführliche Information.
Audio: Als Audio wird alles definiert, was als Tonsignal voliegt, also
Sprache und Musik ebenso wie Geräusche und Rauschen.
Bouncen: Als Bouncen wird in Multi-Track-Geräten das
Zusammenmischen mehrerer Spuren (Tracks) auf eine einzelne Spur
bezeichnet.
Buttons: Als Buttons werden nach Web-Standards als Grafik gestaltete
Schaltflächen bezeichnet, die als Navigationsstruktur dienen und durch
das Anklicken mit der Maus auf eine neue Seite bzw. auf einen anderen
Seitenabschnitt zu führen.
Clipping: Als Clipping wird bei einem digitalen Signal das Überschreiten
der absoluten, vom Digital-Analog-Wandler festgelegten
Aussteuerungsgrenze bezeichnet.
Codec: Als Codec wird eine Verbindung aus Encoder und zugehörigem
Decoder verstanden.
Decoder: Als Decoder wird ein Algorithmus verstanden, der einen von
einem Encoder erzeugten Datenstrom nach genau definierten Kriterien
wieder in das Format zurückwandelt, in dem sich das Signal vor der
Encodierung befand.
Director: Mulitmedia-Software der Firma Macromedia
Encoder: Als Encoder wird ein Algorithmus verstanden, der durch
spezielle Codierverfahren (verlustbehaftet oder nicht verlustbehaftet) ein
Signal bearbeitet, so dass es in einem bestimmten, nicht ohne einen
Decoder wieder zu lesenden Format vorliegt.
FFT: Fast Fourier Transform. Ein Verfahren, um die Transformation eines
Signals vom Zeitbereich in den Frequenzbereich zu bilden.
ISO: International Organization für Standardization.
Lingo: Eine Programmier- und Skriptsprache, welche die Funktionalität
des Programms Director stark erweitert.
116
LPC: Linear Predictive Coding. Ein Verfahren, um die Transformation eines
Signals vom Zeitbereich in den Frequenzbereich zu ermöglichen.
MP3: Kurzform für MPEG1-Layer 3 Audio. Vom Fraunhofer-Institut IIS
(Institut für Integrierte Schaltungen) entwickelter Encoder, der
standardisiert ist. Siehe Abschnitt 4.1. für ausführliche Information.
MPEG: Moving Picture Expert Group. Siehe Kapitel 4.1. für ausführliche
Information.
Noise-Shaping: Das entstandene Quantisierungsrauschen wird spektral
so geformt, dass es bestimmten Kriterien (wie beispielsweise der
Isophonen-Kurve) entspricht und damit möglichst wenig wahrnehmbar
sein sollte.
Oszillogramm: Zeitrepräsentation eines Signals.
Perzeptiv: Perzeptiv soll im Zusammenhang mit Codecs verdeutlichen,
dass die Codierung auf wahrnehmungspsychologischer Eingenschaften
beruht.
Pre-Echoe: Ein Pre-echoe ist ein typisches Kompressions-Fehlersignal
von perzeptiven Audio-Codecs. Es handelt sich um ein plötzlich
auftretendes, breitbandiges Rauschsignal, das bereits wahrnehmbar ist,
bevor stark impulshafte Audiosignale (wie zum Beispiel Händeklatschen
oder Kastagnetten) zu hören sind.
Programm: Als Programm wird das gesamte multimediale Lernmaterial
mit allen Modulen bezeichnet.
Programm-Modul: Als Programm-Modul wird ein Teil des Programms
bezeichnet, das in sich thematisch abgeschlossen ist und sich durch eben
diese Thematik von den anderen Modulen unterscheidet, die in ihrer
Gesamtheit ein Programm bilden.
Screen-Shot: Als Screen-Shot oder Hard-Copy bezeichnet man den
Ausdruck des Inhaltes eines Bildschirms.
Signal: Als Signal wird hier immer ein Audio-Signal verstanden.
Spektrogramm: An diskreten aufeinanderfolgenden Zeitpunkten im
Signal wird jeweils ein Spektrum berechnet. Die Gesamtheit dieser
aufeinanderfolgenden Spektren bildet dann das Spektrogramm.
Spektrum: Frequenzrepräsentation eines im Zeitbereich vorliegenden
Signals.
117
Weißes Rauschen: Weißes Rauschen ist ein Rauschsignal, welches in
jedem (gleich breiten) betrachteten Frequenzabschnitt die gleiche
Energiedichte besitzt.
118
13. Literatur
[AES02] CD-ROM „Perceptual Audio Codecs: What to listen for“, Education
CD-ROM des AES-Technical Commitee on Coding of Audio Signals, 2002
[AID02] CD-ROM „AIDA: Audio Internet Demonstration Aid”, Education
CD-ROM des Institut für Rundfunktechnik, 2002
[AND01] Anderson, J.R., “Kognitive Psychologie”, Spektrum Akademischer
Verlag, Heidelberg, 2001
[BAU99] Baumgartner, P. und Payr, S., „Lernen mit Software“, StudienVerlag, Innsbruck, 1999
[BEA97] Beauchamp, J.W., “Encyclopedia of Acoustics”, chapter “Digital
Audio”, John Wiley and Sons, 1997
[BRA00] Brandenburg, K. „An introduction to MPEG Layer 3”, EBU
Technical Review, June 2000
[BRD00] http:kgw.tu-berlin.de/~cbradter/nono/index.html
[BRA88] Brandenburg, K., „High-Quality Sound Coding at 2.5
Bits/Sample“, presented at the 84th Convention of the Audio Engineering
Society, Paris, France, 1988
[BRA03] Brandenburg, K., “Introduction to perceptual coding of audio
signals”, presented at the DAGA 2003, Aachen, 2003
[BRA94] Brandenburg, K., “ISO-MPEG-1 Audio: A Generic Standard for
Coding of High-Quality Digital Audio”, presented at the 92nd Convention of
the Audio Engineering Society, Vienna, Austria, 1992, reprint J. Audio Eng.
Soc., vol.42, pp.780-792 (1994 October)
[BRA99] Brandenburg, K., “ MP3 AND AAC EXPLAINED”, AES 17th
International Conference on High Quality Audio Coding, Florence, Italy,
1999
[DIE97] Dietz, M., “Bridging the gap: Extending MPEG Audio down to 8
kbit/s“, presented at the 102nd Convention of the Audio Engineering
Society, Munich, Germany, 1997
[DIE03] Dietz, M., “Enhancing perceptual audio coding through Spectral
Band Replication”, presented at the DAGA 2003, Aachen, 2003
119
[ENE98] Enerstam, J. und Peman, J., „Hardware Implementation of MPEG
Audio Real-Time-Encoder“, Thesis: Lulea University of Technology,
Sweden and Axis Communications AB, 1998
[ERN01] Erne, M., “Perceptual Audio Coders “What to listen for””,
presented at the 111th Convention of the Audio Engineering Society, New
York, USA, 2001
[FAL03] Faller, C., “Binaural Cue Coding: Rendering of Sources Mixed into
a Mono Signal”, presented at the DAGA 2003, Aachen, 2003
[GOL97] Goldstein, E.B., “Wahrnehmungspsychologie: Eine Einführung”,
Spektrum Akademischer Verlag, Heidelberg, 1997
[GRI01] Grill, B. (contact), “MPEG-4 Audio: Scalable AAC Coding”,
Fraunhofer IIS information paper: 03-01 / IIS-A / mos
[GRI02] Grill, B. (contact), “MPEG-4 and ISMA A/V-Streaming Solutions”,
Fraunhofer IIS information paper: 09-02 /IIS /ohl
[ISO91] ISO/IEC 13818-3: ISO 11172-3: Coding of Moving Pictures and
associated audio for digital storage media at up to about 1.5 MBIT/s, Part
3 Audio, 1991
[ISO94] ISO/IEC 13818-3:1994(E): Coding of Moving Pictures and
Associated Audio: Audio, 1994
[ISS97] Issing, L.J., “Instruktionsdesign für Multimedia” in Issing/Klimsa
(Hrsg.): Information und Lernen mit Multimedia”, Weinheim, 1997
[ITUwb] Internetpräsenz der ITU: http://www.itu.org
[KAL02] Kalkbrenner, G., " Lehren und Lernen an der Virtuellen
Universität", Habilitationsschrift, Universität Potsdam, 2002
[KEY99] Keyhl, M., “A combined measurement tool for the objective,
perceptual based evaluation of compressed speech and audio signals”,
presented at the 106th Convention of the Audio Engineering Society,
Munich, Germany, 1999
[KHA00] Khazaeli, C. D., „Multimedia mit Director 8 – Projektplanung und
Interfacedesign“, rororo-computer, 2000
[KRU00] Krug, S., „Don´t make me think! A common Sense Approach to
Web Usability“, Peason Education Inc., 2000
120
[KUM??] Kumar, M. und Zubasir, M., „A high performance software
implementation of MPEG Audio Enocder“, IBM T.J. Watson Research
Center, Yorktown Hgts. NY, USA,
[LAI01] Lai, H.-C., „MPEG-1 Layer 3: Real-Time-Implementation of MPEG1 Layer 3 Audio Decoder on a DSP Chip”, Thesis: Institute of Electrical and
Control Engineering National Chiao-Tung-University, 2001
[MAN01] Manhartsberger, M. und Musil, S., „Web Usability - Das Prinzip
des Vertrauens“, Galileo Design, 2001
[MPO87] Ordnung für die Magisterprüfung der Technischen Universität
Berlin (Magisterprüfungsordnung – MPO) vom 30. November 1987, Berlin:
Technische Universität Berlin, 1987
[NOR99] Norman, D. A., „Dinge des Alltags: gutes Design und Psychologie
für Gebrauchsgegenstände“, Campus, 1989
[PET98] Petersen, M. G., „Towards Uability Evaluation of Multimedia
Applications“, ACM, 1998
[PRAwb] Sprachverarbeitungssoftware PRAAT; kostenloser Download und
genaue Dokumentation unter: http://www.praat.org
[PUS01] Puscher, F., „Das Usability-Prinzip“, dpunkt-Verlag, 2001
[RAN01] Rangachar, R., „Analysis and Improvement of the MPEG-1 Audio
Layer III Algorithm at low bit-rates“, Thesis: Arizona State University,
USA, 2001
[ROE93] Roederer, J., „Physikalische und psychoakustische Grundlagen
der Musik“, Springer Verlag, 1993
[SCH94] Schnotz, W., „Aufbau von Wissensstrukturen“, Weinheim Beltz,
1994
[SCH99] Schnotz, W. und Vosniadou, S. und Carretero, M. (Hrsg), „New
Perspectives on Concept and Change (Advances in Learning and
Instruction Series)“, Oxford: Elsevier, 1999
[SCH03] W. Schnotz, “Lernen mit Neuen Medien: Pädagogische
Verheißungen und empirische Befunde”, Vortrag auf der Konferenz „GML
2003: Grundfragen multimedialer Lehre”, 2003, Potsdam
[SCH03] Schuijers, E. G. P., “Progress on Parametric Coding forHighQuality Audio”, presented at the DAGA 2003, Aachen, 2003
121
[SPA90] Spada, H. (Hrsg.), “Allgemeine Psychologie”, Huber Verlag,Bern,
1990
[TOD94] Craig, C., “AC3: Flexible perceptual coding for audio transmission
and storage”, presented at the 96th Convention of the Audio Engineering
Society, 1994
[CEB98]Cebrián, J. J., “La red – Cómo cambiaran nuestras vidas los
nuevos medios de comunicación“, Santillana, S.A. Taurus, Madrid, 1998
[ZOI03] Zoia, G., “Room Models and Object-Orientated Audio Coding:
Advantages and Applications”, presented at the DAGA 2003, Aachen, 2003
[ZOL93] Zollner, M. und Zwicker, E., „Elektroakustik“, Springer Verlag,
Stuttgart, 1993
[ZWI67] Zwicker, E. und Feldtkeller, R., „Das Ohr als
Nachrichtenempfänger“, S.Hirzel Verlag Stuttgart, 1967
[ZWI90] Zwicker, E., „Psychoacoustics - Facts and Models“, Springer
Verlag, 1990
122
14. Anhang und Listing
In diesem Kapitel sind die wichtigsten benutzten Scripte und Programme
abgedruckt. Für kleinere Lingo-Skripte und die genaue Sktruktur des
Director-Programmcodes wird auf die nicht geschützten27 Director-Filme
auf der beiliegenden CD-Rom verwiesen, wo bei Bedarf die genaue
Struktur im Drehbuch und in den einzelnen Besetzungungslisten
nachzuvollziehen ist.
Im zweiten Teil des Kapitels werden Screen-Shots der einzelnen
Programm-Module präsentiert, um sich auch ohne das multimediale
Lernmodul zur perzeptiven Audiocodierung zu kennen ein Bild vom Aufbau
und den Möglichkeiten des Programms verschaffen zu können.
14.1. Scripte und Programme
14.1.1. PRAAT-Scripte
Generierung der Sinussignale und deren Spektren
#
#
#
#
#
#
praat: written daniel pape
version 16.01.2002
creates sine signals, writes them to wave-file
plots corresponding spectra and writes them to postscript-file
(further photoshop-editing required
#
creates sine wave
Create Sound... sine_63 0 2 44100 1/8 * sin(2*pi*63*x)
Write to WAV file... D:\magister\filterbank\wavs\si63.wav
#
creates spectra
To Spectrum
Erase all
#Viewport... 0.5 6 0.5 4
#
plots spectra
Draw (log freq)... 10 10000 40 100 yes
#Viewport... 0 6 0 4
pause 63
#Viewport... 0 6 0 4
Write to EPS file... D:\magister\filterbank\pics\si63.eps
14.1.2. Matlab-Skripte
27
Nicht geschützte Director-Dateien können mit Director eingesehen und bearbeitet
werden, während bei geschützten Director-Dateien dies nicht möglich ist.
123
Generierung der einzelnen Bandpass-Filter zur Simulierung der MP3-Filterbank
%
%
%
%
written daniel pape 02.2002
matlab-script: generates 32 filtered signals from an input wav-file
simulating the polyphase filter implementation of the
MPEG1-Layer3 filter bank
%read signal has to be resampled at 32 kHz to match the
%bandlimited signal character of the fraunhofer coder
y = wavread('D:\magister\temp\rodrim.wav');
b1 = fir1(512,[20/22050 500/22050]);
b2 = fir1(512,[500/22050 1000/22050]);
b3 = fir1(512,[1000/22050 1500/22050]);
b4 = fir1(512,[1500/22050 2000/22050]);
b5 = fir1(512,[2500/22050 3000/22050]);
b6 = fir1(512,[3000/22050 3500/22050]);
b7 = fir1(512,[3500/22050 4000/22050]);
b8 = fir1(512,[4000/22050 4500/22050]);
b9 = fir1(512,[4500/22050 5000/22050]);
b10 = fir1(512,[5000/22050 5500/22050]);
b11 = fir1(512,[5500/22050 6000/22050]);
b12 = fir1(512,[6000/22050 6500/22050]);
b13 = fir1(512,[6500/22050 7000/22050]);
b14 = fir1(512,[7000/22050 7500/22050]);
b15 = fir1(512,[7500/22050 8000/22050]);
b16 = fir1(512,[8000/22050 8500/22050]);
b17 = fir1(512,[8500/22050 9000/22050]);
b18 = fir1(512,[9000/22050 9500/22050]);
b19 = fir1(512,[9500/22050 10000/22050]);
b20 = fir1(512,[10000/22050 10500/22050]);
b21 = fir1(512,[10500/22050 11000/22050]);
b22 = fir1(512,[11000/22050 11500/22050]);
b23 = fir1(512,[11500/22050 12000/22050]);
b24 = fir1(512,[12000/22050 12500/22050]);
b25 = fir1(512,[12500/22050 13000/22050]);
b26 = fir1(512,[13000/22050 13500/22050]);
b27 = fir1(512,[13500/22050 14000/22050]);
b28 = fir1(512,[14000/22050 14500/22050]);
b29 = fir1(512,[14500/22050 15000/22050]);
b30 = fir1(512,[15000/22050 15500/22050]);
b31 = fir1(512,[15500/22050 22050/22050]);
sig1 = filtfilt(b1,1,y);
sig2 = filtfilt(b2,1,y);
sig3 = filtfilt(b3,1,y);
sig4 = filtfilt(b4,1,y);
sig5 = filtfilt(b5,1,y);
sig6 = filtfilt(b6,1,y);
sig7 = filtfilt(b7,1,y);
sig8 = filtfilt(b8,1,y);
sig9 = filtfilt(b9,1,y);
sig10 = filtfilt(b10,1,y);
sig11 = filtfilt(b11,1,y);
sig12 = filtfilt(b12,1,y);
sig13 = filtfilt(b13,1,y);
sig14 = filtfilt(b14,1,y);
sig15 = filtfilt(b15,1,y);
sig16 = filtfilt(b16,1,y);
sig17 = filtfilt(b17,1,y);
sig18 = filtfilt(b18,1,y);
124
sig19
sig20
sig21
sig22
sig23
sig24
sig25
sig26
sig27
sig28
sig29
sig30
sig31
=
=
=
=
=
=
=
=
=
=
=
=
=
filtfilt(b19,1,y);
filtfilt(b20,1,y);
filtfilt(b21,1,y);
filtfilt(b22,1,y);
filtfilt(b23,1,y);
filtfilt(b24,1,y);
filtfilt(b25,1,y);
filtfilt(b26,1,y);
filtfilt(b27,1,y);
filtfilt(b28,1,y);
filtfilt(b29,1,y);
filtfilt(b30,1,y);
filtfilt(b31,1,y);
wavwrite(sig1,44100,'D:\magister\temp\rodr_01.wav');
wavwrite(sig2,44100,'D:\magister\temp\rodr_02.wav');
wavwrite(sig3,44100,'D:\magister\temp\rodr_03.wav');
wavwrite(sig4,44100,'D:\magister\temp\rodr_04.wav');
wavwrite(sig5,44100,'D:\magister\temp\rodr_05.wav');
wavwrite(sig6,44100,'D:\magister\temp\rodr_06.wav');
wavwrite(sig7,44100,'D:\magister\temp\rodr_07.wav');
wavwrite(sig8,44100,'D:\magister\temp\rodr_08.wav');
wavwrite(sig9,44100,'D:\magister\temp\rodr_09.wav');
wavwrite(sig10,44100,'D:\magister\temp\rodr_10.wav');
wavwrite(sig11,44100,'D:\magister\temp\gros_11.wav');
wavwrite(sig12,44100,'D:\magister\temp\gros_12.wav');
wavwrite(sig13,44100,'D:\magister\temp\gros_13.wav');
wavwrite(sig14,44100,'D:\magister\temp\gros_14.wav');
wavwrite(sig15,44100,'D:\magister\temp\gros_15.wav');
wavwrite(sig16,44100,'D:\magister\temp\gros_16.wav');
wavwrite(sig17,44100,'D:\magister\temp\gros_17.wav');
wavwrite(sig18,44100,'D:\magister\temp\gros_18.wav');
wavwrite(sig19,44100,'D:\magister\temp\gros_19.wav');
wavwrite(sig20,44100,'D:\magister\temp\gros_20.wav');
wavwrite(sig21,44100,'D:\magister\temp\gros_21.wav');
wavwrite(sig22,44100,'D:\magister\temp\gros_22.wav');
wavwrite(sig23,44100,'D:\magister\temp\gros_23.wav');
wavwrite(sig24,44100,'D:\magister\temp\gros_24.wav');
wavwrite(sig25,44100,'D:\magister\temp\gros_25.wav');
wavwrite(sig26,44100,'D:\magister\temp\gros_26.wav');
wavwrite(sig27,44100,'D:\magister\temp\gros_27.wav');
wavwrite(sig28,44100,'D:\magister\temp\gros_28.wav');
wavwrite(sig29,44100,'D:\magister\temp\gros_29.wav');
wavwrite(sig30,44100,'D:\magister\temp\gros_30.wav');
wavwrite(sig31,44100,'D:\magister\temp\gros_31.wav');
A-Bewertung: Generierung der Korrekturfaktoren für die A-Bewertung der
Sinustöne, geschrieben von André Jakob (Institut für Technische Akustik, TU
Berlin)
function a=abewert(f);
% function a=abewert(f);
%
% A-Bewertung : Die Funktion gibt den A-Bewertungs-Korrekturfaktor (nicht
in db!) zur Frequenz f zurück.
% Funktioniert auch mit f als Vektor (nicht als Matrix!).
%
% André Jakob, 1998
125
% Das ganze kann als Filter realisiert werden.
% Pol- und Nullstellen aus der entsprechenden DIN herausgesucht.
Cpole=[20.6 20.6 12200 12200];
Apole=[Cpole 107.7 737.9];
Cnullen=[0 0];
Anullen=[Cnullen 0 0];
% Und nu wird schlichtweg der Frequenzgang dieses Filters an der/den
entsprecheden Frequenz(en) ausgewertet:
s0=j*1000*2*pi;
a0 = 1/abs(s0^4/prod(s0+2*pi*Apole)); % Vorfaktor, damit bei 1kHz 0dB
herauskommen
a=zeros(size(f));
for n=1:length(f)
s=j*2*pi*f(n);
a(n) = a0 * abs( s^4 / prod(s+2*pi*Apole) ); % Übertragungsfunktion in
Produktdarstellung
end
A-Bewertung: Anpassung des Pegels für Signale (Sinustöne) aufgrund der
Korrekturfaktoren für die A-Bewertung
% written daniel pape 02.2003
%
% corrects sound level of an intput sound due to the a-weighting curve
ordner= dir('C:\Magister\WAVS\');
item = size('ordner.name');
[y,FS,NBITS] = wavread('C:\Neuer Ordner\8000.wav');
a = abewert(8000)
%keyboard
b = (1/a)
y=y.*b;
wavwrite(y,FS,NBITS,'C:\Neuer Ordner\s2_a8000.wav');
126
14.2. Screenshots der einzelnen Programmteile
14.2.1. Programm-Teil „Intro“
14.2.2. Programm-Teil „Startseite“
127
14.2.3. Programm-Teil „Funktionsweise eines MP3-Codecs“
14.2.4. Programm-Teil „Simulation der MP3-Filterbank“
128
14.2.5. Programm-Teil „Experimente: Mithörschwellle - Sinus und
Schmalbandrauschen“
14.2.6. Programm-Teil „Experimente: Mithörschwelle –
Schmalbandrauschen und Musik“
129
14.2.7. Programm-Teil „Hörbeispiele: MP3 – verschiedene Bitraten“
14.2.8. Programm-Teil „Hörbeispiele: verschiedene Codecs bei gleichen
Bitraten“
130
14.2.9. Programm-Teil „Weiterführende Literatur“
131
Die selbständige Anfertigung versichere ich an Eides Statt.
Berlin, den 05.05.2003
...................................................
Daniel Pape
132