Entwicklung von Multi-Medialen Lernmaterialien für die perzeptive
Transcription
Entwicklung von Multi-Medialen Lernmaterialien für die perzeptive
Technische Universität Berlin Fachbereich 1, Kommunikations- und Geschichtswissenschaften Entwicklung von Multi-Medialen Lernmaterialien für die perzeptive Audiocodierung Freie wissenschaftliche Arbeit zur Erlangung des akademischen Grades eines Magister Artium Vorgelegt von Daniel Pape, Pestalozzistr. 2 A, 13187 Berlin Matr. Nr. 186023 Inhaltsverzeichnis 1. Zusammenfassung, Konventionen ............................................. 4 1.1. Zusammenfassung ................................................................. 4 1.2. Abstract................................................................................ 5 1.3. Konventionen ........................................................................ 6 1.4. Zustätzliche Bestandteile......................................................... 7 2. Einleitung .................................................................................. 8 2.1. Vorwort ................................................................................ 8 2.2. Motivation ............................................................................. 8 2.3. Ziele dieser Arbeit .................................................................10 2.4. Gliederung der Arbeit.............................................................12 3. Grundlagen des multimedialen Lernens ................................... 15 3.1. Lerntheoretische Grundlagen ..................................................15 3.2. Instruktionsdesign für Lernsoftware .........................................17 3.3. Prinzipien des Multimedialen Lernens .......................................18 4. Der MPEG Layer-3 (MP3) Codec ............................................... 25 4.1. Entwicklung und Geschichte....................................................25 4.2. Parametrisierung von MP3-Codecs ...........................................28 4.3. Funktionsweise des MP3-Encoders ...........................................29 4.4. Funktionsweise des MP3-Decoders...........................................39 4.5. Qualitätsmerkmale des Encoders .............................................40 4.6. Unterschiede zwischen den Encodern .......................................43 4.7. Objektive Vergleichsmöglichkeiten von Codecs ..........................44 5. Aktueller Stand der Forschung in der perzeptiven Audiocodierung............................................................................ 56 5.1. MPEG4 Audio / MPEG2 AAC.....................................................56 5.2. SBR (Spectral Band Replication) ..............................................59 5.3. BCC (Binaural Cue Coding) .....................................................60 5.4. Parametric Coding .................................................................60 6. Usability von Mensch-Maschine-Interfaces .............................. 62 6.1. Definition .............................................................................62 6.2. Warum wird Usability aktuell wichtig? ......................................62 6.3. Designkriterien nach Norman ..................................................63 6.4. Die häufigsten Usability-Fehler ................................................64 6.5. Ein Usability-Test: Die Heuristische Evaluation ..........................66 6.6. Testen des multimedialen Lernmoduls nach Usability-Kriterien.....68 7. Anforderungsanalyse für die Nutzung des Lernmoduls ............ 69 7.1. Einsatzszenario in der Lehre und in den Vorlesungen..................69 7.2. Einsatzszenario in der Forschung .............................................70 7.3. Einsatzszenario in Tonstudios..................................................70 8. Die Spezifikationen – Das Pflichtenheft ................................... 71 8.1. Die Programmschwerpunkte ...................................................71 8.2. Die Nutzer............................................................................72 8.3. Die Abspielsoftware ...............................................................73 8.4. Die Plattform ........................................................................73 8.5. Lauffähigkeit des Programms über ein Internetprotokoll .............73 2 8.6. Die grafische Gestaltung ........................................................73 8.7. Die Navigation ......................................................................74 8.8. Das User-Interface ................................................................74 9. Entwurf des multimedialen Lernmoduls ................................... 75 9.1. Definition der Funktionen – Festlegung der Multimediasoftware ...75 9.3. Auswahl der Experimente und Versuche ...................................79 9.4. Entwurf der möglichen Benutzeroberfläche – Usability und Navigation ..................................................................................82 9.5. Entwurf der Systemfunktionen und unterstützte Plattformen .......86 9.6. Entwurf der einzelnen Programm-Teile .....................................87 9.7. Zusammenfassung ................................................................93 10. Implementierung ................................................................... 94 10.1. Analyse der Werkzeuge für die Umsetzung..............................94 10.2. Beschreibung der Programm-Komponenten.............................96 10.3. Zusammenfassung ............................................................ 109 11. Zusammenfassung und Ausblick .......................................... 111 11.1. Zusammenfassung ............................................................ 111 11.2. Bestehende Einschränkungen und Lösungsansätze ................. 112 11.3. Nächste Schritte – Zukünftige Verbesserungen und Lösungsansätze......................................................................... 113 12. Glossar................................................................................. 116 13. Literatur............................................................................... 119 14. Anhang und Listing .............................................................. 123 14.1. Scripte und Programme...................................................... 123 14.2. Screenshots der einzelnen Programmteile ............................. 127 3 1. Zusammenfassung, Abstract, Konventionen 1.1. Zusammenfassung Unter der Vorgabe, multimediale Lernmaterialien zum Thema „Perzeptive Audiocodierung“ zu entwickeln, wurde mit Hilfe der Multimedia-Software Macromedia Director ein in sich abgeschlossenes, ohne jede weitere Zusatz-Software lauffähiges multimediales Lernmodul spezifiziert, entworfen und implementiert. Der Hauptschwerpunkt lag im Entwurf von erklärenden und verdeutlichenden psychoakustischen Simulationen und Experimenten sowie in einer großen Anzahl von Hörbeispielen. Während technische Literatur und Dokumentationen zum Thema in ausreichendem Maße existieren, gibt es nur sehr vereinzelt die für diese Thematik existenziellen Hörbeispiele sowie auditive Verdeutlichungen der psychoakustischen und audiotechnischen Grundlagen. Ein kurzes Beispiel soll diese Notwendigkeit verdeutlichen: Im Rahmen des Verständnisses eines perzeptiven Audio-Codecs ist es naheliegend, das Prinzip der spektralen Transformation des Audiosignals (verwirklicht durch eine Filterbank) durch eine spezielle Darstellung der einzelnen Signale zu ermöglichen. In dieser Darstellung sind die gefilterten Signale der einzelnen Filterbänder durch den Benutzer auswählbar und damit anhörbar. Damit wird für diejenigen Benutzer, die nicht täglich mit Filtern und Audiosignal-Bearbeitung umgehen, erstmals verdeutlicht, welche Anteile des ungefilterten Signals in den einzelnen Filterbändern überhaupt enthalten sind. Diesen Gedanken weiterführend sind in dieser Magisterarbeit diverse klassische psychoakustische Experimente programmiert, die vom Benutzer am Bildschirm durchgeführt werden können. Die Funktionsweise perzeptiver Audiocodierung wird somit verdeutlicht. Dazu gehören im wesentlichen die klassischen Experimente der verschiedenen Mithörschwellen: die Verdeckung von Sinustönen durch Schmalbandrauschen und die Verdeckung von Schmalbandrauschen durch verschiedene Musiksignale bei drei sehr unterschiedliche Musikstilen. An weiteren Hörbeispielen wurde sowohl ein direkter Vergleich der Klangqualität eines Fraunhofer-MP3-Codecs bei verschiedenen Bitraten als auch ein direkter Vergleich aller gängigen Audio-Codecs (wie Real9 und WindowsMediaEncoder) bei verschiedenen Bitraten verwirklicht. Eine einführende Animation sensibilisiert den Benutzer für das Thema durch einen passenden Vergleich, im dem zeitsynchron die Verringerung der Audioqualität eines Musikstückes und der Bildqualität eines Fotos dargestellt wird. Dieses wird einerseits durch perzeptive Audiocodierung und andererseits durch diverse Bildfilter realisiert. Ein ausführliche Erklärung der Funktionsweise eines MP3-Encoders und ein Literatur-Teil mit einer Vielzahl von eingebundenen technischen Veröffentlichungen der AES, des IRT und der DAGA runden das Programm 4 ab und ermöglichen dem interessierten Benutzer ein weiterführendes Studium perzeptiver Audiocodierung. In der Gestaltung des Programms wurde neben den Grundlagen multimedialen Lernens besonderes Augenmerk auf die Gestaltung nach Usability-Kriterien gelegt, Kriterien der Benutzbarkeit von Software, die dem Benutzer eine einfache Handhabung des Programms ermöglichen sollen. Auf eine Implementierung der in dieser Arbeit ebenfalls ausführlich dargestellten Themen wie objektive Qualitätsvergleiche perzeptiver Codecs1 und Funktionsweise verbesserter Codecs wurde im Rahmen des erstellten Programms verzichtet. Die Realisierung ist unkompliziert aber sehr zeitaufwendig, und wird infolge dessen auf eine spätere Phase der Verbesserung des Programms verschoben. 1.2. Abstract By means of the multimedia software Macromedia Director an e-learning module was specified, designed and implemented for the field “perceptive audio coding”. This module runs without any additional software. The multimedia module was based on the following criteria: First it was designed for explaining and elucidating simulations and realizations of psychoacoustic experiments. Second a great variety of auditive expamples was implemented. While technical papers and documentations exist in sufficient amount, audio examples demonstrating the underlying psychoacoustic phenomena of perceptual coding in a satisfying quality and quantity are rather rare. For these reasons explaining the underlying psychoacoustic phenomena and hear them with one’s own ears in a multimedia learning module is of great value. For example: In perceptual coding the signal is transformed to the spectral domain by means of cascaded bandpass filters. If a certain wellknown audio signal (for example a piece of music) is filtered by various bandpass filters, the principles of spectral transformation might be easier to understand for the user, if the user can listen to these filtered signals. For users who are not familiar to filters this “auralization” of the filterbank possibly are of great value. Splitting the original audio signal into different bands, the user can listen to the different bands seperately and find out which bands contain relevant information about the original signal. To continue this idea some classical pychoacoustic experiments were implemented which can be run by the user in front of the screen to demonstrate the main principles of perceptual coding. These consist in the classical masking thresholds: (a) the masking of sine waves by narrow 1 Möglich wäre beispielsweise die Programmierung der Simulation eines objektiven CodecTests nach der entsprechenden ISO-Norm, um die Durchführung solcher Hörvergleiche zu verdeutlichen. 5 band noise and (b) the masking of narrow band noise by different music signals (in three different music styles). Further audio examples consist in (a) the comparison of the the audio quality of a Fraunhofer MP3-codec at different bitrates and (b) the comparison of today’s all important audio codecs (like WindowsMediaEncoder and Real9) at different bitrates. An introductive animation prepares the user for the topic “perceptual coding” by using a well-fitting comparison: the time-sychronized decrease of the audio quality of a piece of music and the decrease of the graphic quality of a fotograph picture. The decrease in quality was achieved through perceptive coding on the one hand and on the other hand through the use of different graphic filters. Finally a structured explanation of the mode of operation of an MP3 encoder and a module containing further references to publications of the AES, the IRT and the DAGA were included in the presented software. Besides the multimedia learning theories the design of the software was created following carefully the usability guidelines: how user-friendly is a software and how can this user-friendliness be optimized by the designer. Some of the theoretically discussed topics like objective comparison of the quality of different audio codecs2 and the mode of operation of successors of the MP3 codec were not implemented, since the implementation is uncomplicated but very time-consuming. It will be done at a future stage of the software-development. 1.3. Konventionen Die vorliegende Magisterarbeit hat nach der Magisterprüfungsordnung der TU Berlin [MPO87] in deutscher Sprache vorzuliegen. Durch Übersetzen der Zusammenfassung (siehe Abschnitt 1.2.) ins Englische wurde versucht, allen nicht-deutschsprachigen Interessierten an dieser Arbeit zumindest das Verstehen der Ziele und des Inhalts der einzelnen Programm-Module zu ermöglichen. Durch die (durchaus sinnvolle) Verwendung der englischen Sprache in der gesamten benutzten Fachliteratur ist es trotz aller Bemühungen nicht immer möglich, alle Fachbegriffe sinnvoll in die deutsche Sprache zu übersetzen, obwohl dies immer versucht wird. Wenn die Fachbegriffe jedoch nicht sinnvoll und eineindeutig übersetzt werden konnten, wurde durch die Verwendung von Anführungsstrichen der englische Fachbegriff beibehalten, um nicht zusätzliche Fehlerquellen durch unsaubere Übersetzung zu schaffen. Wenn es sich um Fachbegriffe handelt, die nur mehrdeutig oder unsauber zu übersetzen sind, wird der verwendete englische Begriff in Klammern hinter der deutschen Übersetzung vermerkt. 2 It could be possible to program a simulation of an objective codec test after the corresponding ISO standard to explain the design of such an objective listening test. 6 Eine Vielzahl von Begriffen und die Definition von deren begrifflichen Verwendung in dieser Arbeit (da leider in der verwendeten Fachliteratur unterschiedliche Begriffe auch immer mit unterschiedlichen Definitionen belegt haben) wird im Glossar (Kapitel 12) erklärt. Die Schwierigkeit der eineindeutigen Begriffsdefinition wurde durch das Zusammenführen verschiedenster Fachgebiete wie Akustik, Psychologie und Audiotechnik erschwert. Es existieren Begriffe, die in den genannten Fachgebieten unterschiedlich definiert wurden. Das Kapitel Glossar soll dieses Problem durch eine gültige Begriffsdefinition zumindest für diese Arbeit lösen. Texte, die in eckigen Klammern wiedergegeben werden, verweisen auf die in der Literatur (Kapitel 13) aufgeführten Quellen. In der Magisterarbeit abgedruckter Programm-Code ist in der Schriftart „Courier“ notiert. 1.4. Zustätzliche Bestandteile Teile des erstellten Programms sind im Internet unter der Adresse http://www.audiocodierung.de verfügbar. Aus rechtlichen Gründen ist ein Passwortschutz eingerichtet worden. Der Nutzername lautet „mea“, das Passwort „culpa“. Das vollständige Programm konnte aufgrund der nicht genehmigten Rechte-Freigabe der verwendeten Musikstücke nicht im Internet veröffentlicht werden. Das vollständige Programm ist der Arbeit in Form einer CD-ROM angefügt. Das Programm wurde für das MS-Windows-Betriebssystem kompiliert. Es ist ohne weitere Hilfsprogramme durch Starten des ausführbaren Programms „perz_aud.exe“ lauffähig. 7 2. Einleitung In diesem Kapitel wird die Motivation, der Umfang und die Ziele dieser Magisterarbeit dargestellt. Es wird definiert, ob und warum ein multimediales Lernmodul für die perzeptive Audiocodierung als sinnvoll zu erachten ist und stellt die Vorteile dieser Lernmethode gegenüber klassischen Lernmethoden wie beispielsweise reinem Literaturstudium heraus. Schließlich wird ein Überblick über die Gliederung der Magisterarbeit gegeben. 2.1. Vorwort Die MP3-Komprimierung hat sich in den letzten Jahren nicht zuletzt aufgrund von Internet-Tauschbörsen (Peer-to-Peer-Systeme) zunehmender Beliebtheit erfreut. Da die Bandbreiten der ModemInternetanschlüsse der meisten Users nicht ausreichten, um in akzeptabler Zeit zufriedenstellend große Mengen unkomprimiertes Audio über das Internet zu verschicken oder zu erhalten, waren Verfahren der Audiokompression erwünscht, die eine Verringerung der Größe dieser Audiodateien um ungefähr den Faktor 10 bei kaum hörbarem Qualitätsverlust ermöglichen. Es wurde immer wieder versucht, den messtechnischen und den wirklich wahrnehmbaren Verlust dieser verlustbehafteten Kompression bezüglich der Audioqualität objektiv zu messen. Da das Verfahren der MP3Kompression, die zu den perzeptiven Kompressionsverfahren zählt, nur Signalanteile entfernt, die auditiv nicht wahrnehmbar sind, ist eine Signalqualitäts-Messung nach herkömmlichen Methoden (die allgemein die entstandenen Signalverzerrungen betrachtet, unabhängig von deren tatsächlicher Wahrnehmbarkeit) schwierig. Die naheliegendste Lösung, Blindhörtests mit einerseits audiotechnisch ausgebildeten Versuchspersonen (zum Beispiel Mastering-Ingenieuren oder Tonmeistern) und andererseits mit den Benutzern und Käufern der Komprimierungsverfahren wurden in diversen Konstellationen und Versuchsdesigns durchgeführt. Andererseits wurde auch versucht, die Qualitätsverluste objektiv durch Messverfahren auszudrücken, um einen in der Praxis aussagekräftigen Qualitätskoeffizienten zu erhalten, der die Qualität der verwendeten Kompressionsverfahren kennzeichnet. 2.2. Motivation 8 Erhebungen zu verschiedenen Anwendungen im Multimediabereich haben ergeben, dass dicht hinter der Unterhaltungssoftware an zweiter Stelle die Lehranwendungen wie E-Learning, Computergestütztes Lernen und Edutainment3 stehen [KHA00]. Angesichts der sich ständig wandelnden Berufsbilder, der immer kürzeren Innovationszyklen und der steigenden Qualitätsanforderungen, die eine fortwährende Weiterbildung in allen Bereichen notwendig machen, werden in Zukunft multimediale und computerbasierte Lernanwendungen mehr an Bedeutung gewinnen. Dem Lernenden soll der Zugang zum neuen Themenkomplex abwechslungsreich und ermüdungsfrei in verschiedenen, interaktiv wählbaren Komplexitätsstufen erleichtert werden. In genau diesem Punkt hat das Medium Computer mit seinen Möglichkeiten der Einbindung von Audio, Video und dreidimensionalen Grafiken auch den größten Vorteil gegenüber den herkömmlichen Lehrmethoden wie Vorlesungen und Bücher4. Durch die „Revolution der Informationstechnologie“, die bereits in alle Bereiche des öffentlichen und privaten Lebens Einzug gefunden hat, stehen prinzipiell für alle traditionellen Lehr- und Lerngebiete die Möglichkeit zumindest des computergestützten Lehrens und Lernens offen. Don Tapscott schreibt über diese „Revolution der Informationstechnologie in einem Aufsatz in dem Buch „La Red“ [CEB98] passend (nicht authorisierte Übersetzung dem Zitat folgend): „En los anos noventa, la revolución se ha concentrado en torno a la red. [...] Sin embargo, no es exagerado decir que estamos presenciando los primeros y turbulentos días de una revolución tan importante como cualquier otra en la historia. Está surgiendo un nuevo medio de comunicación humana, que podría acabar superando todas las revoluciones anteriores – la imprenta, el teléfono, la televisión, el ordenador – por lo que se refiere a su impacto en nuestra vida económica y social.” “In den neunziger Jahren verlagerte sich die Revolution dagegen auf das Netze. [...] Es ist jedoch nicht übertrieben zu sagen dass wir uns erst in den ersten und turbulenten Tagen einer so bedeutenden Revolution befinden, wie es bisher keine andere in der Geschichte gab. Es taucht ein neues Medium der menschlichen Kommunikation auf, die beginnen kann, alle herkömmlichen Revolutionen zu übertreffen, wie den Buchdruck, das Telefon, das Fernsehen und den Computer. In Beziehung darauf jedenfalls, was ihr Einfluss und ihre Wirkung auf unser wirtschaftliches und soziales Leben ist.“ Folgt man dieser Strömung und greift die Idee einer an die neuen Medien angepassten Darbietungsform für Lehr- und Lerninhalte auf, dann eignet 3 Form des Computergestützten Lernens, in denen das Lernen durch diverse Unterhaltungs- und Spielmodule aufgelockert wird [KHA00] 4 Dieser Vorteil sollte aber mit Bedacht eingesetzt werden. Viele Multimediaanwendungen verspielen ihre Vorteile durch Überladung mit bunten und ablenkenden multimedialen Elementen. 9 sich das Thema „Audiokompression“ natürlich besonders für ein multimediales Lernmodul, da zum genauen Verständnis des Codierungsund Decodierungsprozesses ein Verständnis von Themenkomplexen der digitalen Audiotechnik, der musikalischen Akustik, der Musik, der Sprachakustik, der Signalverarbeitung und der Psychoakustik notwendig sind, um hier nur einige Bereiche zu nennen. Die aber oft sehr komplexen und komplizierten theoretischen Prinzipien, die in eine Gestaltung eines Kompressionsalgorithmus einfließen, lassen sich ohne Hörbeispiele oder vereinfachende Animationen und Simulationen nur sehr schwer verdeutlichen. Zwei Beispiele sollen diesen Sachverhalt kurz skizzieren: 1. Es ist zum Verständnis des verwendeten Verfahrens der Aufteilung des zu komprimierenden Signals in einzelne Frequenzbereiche durch Filter sehr naheliegend, wenn nicht sogar zum Verständnis erforderlich (sofern der Lernende nicht schon selbst mit Filtern gearbeitet hat, und deshalb komplexe theoretische Ausführungen über das verwendete Filterdesign nachvollziehen kann), die Bereiche unter den Filterkurven im FrequenzPegel-Diagramm anzuklicken. In diesem Fall ist zu hören, welcher Teil des Signals in das jeweilige Frequenzband fällt und gefiltert wird. Des weiteren ist es in einem multimedialen Lernmodul im Gegensatz zu einem Lehrbuch möglich, sich Beispiele für hörbare Signalverzerrungen (sogenannte Artefakte) anzuhören, die ein verlustbehafteter Kompressionsalgorithmus unterschiedlichen Signalen zufügt. Ebenso ist es möglich, sich das zugehörige Spektrogramm anzusehen. 2. Es ist zur Erklärung der Ausnutzung der Maskierungseffekte des Ohres durch den Kompressionsalgorithmus naheliegend, einen Versuch zu simulieren, wo beispielsweise ein vom Benutzer frei in der Frequenz variabler Sinuston von einem Schmalbandrauschen bei bestimmten Frequenzen verdeckt wird. Dieser in der Psychoakustik nachgewiesene Effekt kann im multimedialen Lernmodul dem Lernenden zum Selbstversuch angeboten werden. Die dargestellten Maskierungseffekte können zwar in Text und Bild beschrieben werden, aber eine reale Demonstration ist natürlich viel überzeugender und wird viel eher zum Verständnis der perzeptiven Audiokompression beitragen. 2.3. Ziele dieser Arbeit Ziel dieser Arbeit soll daher weniger die Erstellung eines virtuellen AudioEncoders sein. Vielmehr ist das Ziel eine multimediale Umsetzung zur Erklärung der Funktionsweise eines Encoders. Dabei sollen multimediale Lernmethoden (Animationen, Videosequenzen, Experimente) als unterstützendes Merkmal fungieren, um die thematisch sehr weit gestreuten komplexen wissenschaftlichen Forschungsergebnisse zu beleuchten, die in die Entwicklung eines solchen Audio-Encoders einfließen. Diese teilweise schwer zugänglichen theoretischen 10 Zusammenhänge aus unterschiedlichsten Gebieten wie Psychoakustik, digitaler Signalverarbeitung und Audiotechnik sollen für die Benutzer dieses Lernmoduls (die kein so ausgeprägtes Wissen in diesen Gebieten haben, sich aber für die Funktionsweise eines solchen Audio-Encoders interessieren) erhellend dargestellt werden. Dabei ist es unerheblich, ob sich der Benutzer im Rahmen eines virtuellen Labors mit Audiocodierung beschäftigt, oder ob es sich um einen Benutzer handelt, der für seine eigene Arbeit Audio codieren will, und sich aus diesem Grund eingehender mit der Funktionsweise beschäftigen möchte. Aus diesem Grunde ist ein Schwerpunkt der vorliegenden Arbeit den speziellen Problemen und typischen Verzerrungen des Audiosignals durch einen typischen verlustbehafteten perzeptiven Audio-Encoder gewidmet, da für letztgenannten Benutzer dieser Schwerpunkt die höchste Priorität haben dürfte, um für seine Arbeit den optimalen Encoder und dessen optimale Einstellungen für gerade seine Art der Audiosignale zu finden. Weiterhin unterscheidet sich ein ausgewogenes Lernmodul erst dann von einer einfachen multimedialen Aufbereitung eines Lehrbuches, wenn es nicht nur dem theoretischen Erklären und Erlernen eines Themenkomplexes dient, sondern auch eine Vielzahl von Tipps und Beispielen für die Praxis und den alltäglichen Umgang mit diesem Themenkomplex bereitstellt. Infolgedessen wird das Lernmodul durch einen Programmteil abgerundet, in dem Klangbeispiele für bestimmte Audiocodierungsfehler und verschiedene Codierungsparameter angehört werden können sowie auf die Vermeidung dieser Codierungsfehler eingegangen wird. Entsprechend dieser Argumentation wird in dieser Arbeit auf drei Schwerpunkte besonderer Wert gelegt: • Ein genaues Verständnis der Arbeitsweise eines verlustbehafteten perzeptiven Kompressionsalgorithmus: Die diversen zugrundeliegenden Prinzipien sollen möglichst für jeden Lernenden mit einer gewissen audiotechnischen und akustischen Vorbildung lückenlos verständlich sein. Die multimedialen Beispiele sollen praktisch schwer zu erfassende Prinzipien vereinfacht verdeutlichen und greifbar machen. Dabei sind aufgrund der Komplexität des Themas im Rahmen dieser Arbeit Abstriche zu machen. Aus diesem Grund ist die Voraussetzung eines Lernenden mit einer audiotechnischen und akustischen Vorbildung begründet, da die Darstellung aller verwendeten Grundlagen der Audiotechnik den Rahmen dieser Arbeit sprengt. • Die Darstellung und Hörbarmachung von wahrnehmbaren Signalverzerrungen und deren Klassifikation ist elementar. Auf diesen Punkt wird unter folgendem Gesichtspunkt eingegangen: Was muss ich als Benutzer, der mit einer vorgegebenen Bitrate ein Audiofile komprimieren möchte, in der Auswahl und 11 Parametrisierung des Codecs beachten, um mein Quellsignal mit der bestmöglichen Qualität zu codieren? • Eine einfache Bedienbarkeit des Modul-Interfaces: Das Interface soll nach Benutzbarkeits-Richtlinien so gestaltet werden, dass man mit möglichst wenigen Schritten den jeweils gewünschten Teil des Programms finden kann, und eine Orientierung in der Programmstruktur für den Lernenden sehr leicht fällt, in welch tiefem Unterbereich des Programms er sich auch gerade befindet. 2.4. Gliederung der Arbeit Diese Arbeit gliedert sich dementsprechend in folgende Abschnitte: Im dritten Kapitel wird ein kurzer Überblick über die für das zu erstellende Programm möglichen didaktischen Entwürfe in Form der Darstellung klassischer Lerntheorien und der Prinzipien multimedialen Lernens gegeben. Im vierten Kapitel werden die für den Inhalt des zu erstellenden Programms notwendigen theoretischen Thematiken ausführlich dargestellt. Es werden sowohl die Funktionsweise, die Parametrisierung und Qualitätskriterien sowie typischen Fehlersignale eines MP3-Codecs ausführlich dargestellt. Aus diesen Fehlersignalen resultierend wird auf die Problematik der Messtechnik der Qualität perzeptiver Audiocodecs ausführlich eingegangen, die sich von der herkömmlichen AudioMesstechnik grundlegend unterscheidet. Im fünften Kapitel werden die seit der Standardisierung des MP3 Codecs erreichten Fortschritte in der perzeptiven Audiocodierung dargestellt. Es wird ein Überblick über die aktuelle Forschung und Standardisierung gegeben. Dabei liegt ein Schwerpunkt auf der Darstellung des Formates AAC, welches in der Zukunft in weiten Teilen der Welt das Format sein wird, über das komprimiertes Audio in vielfältiger Weise verbreitet wird. Das sechste Kapitel betrachtet die grundlegenden Kriterien und Lehren der Usability-Forschung. Darunter wird die Benutzbarkeit von Software verstanden, eine Thematik, die oftmals in der Gestaltung von Software und Internet-Präsenzen grob vernachlässigt wird. Es werden einige Testverfahren beleuchtet sowie auf die grundlegenden Fehler in der Gestaltung von Software eingegangen. In den folgenden vier Kapiteln wird eine Erarbeitung des zu erstellenden Programms nach dem klassischen Aufbau: Anforderungsanalyse – Spezifikationen – Entwurf – Implementierung [MAN01] vorgenommen. 12 Im siebenten Kapitel wird eine Anforderungsanalyse des zu erstellenden Programms in Bezug auf die zu erwartende Nutzung vorgenommen. Dabei werden die Anforderungen an das Programm für die Nutzungsszenarios Forschung und Lehre sowie Einsatz im Tonstudio definiert. Das achte Kapitel liefert eine genaue Spezifikation des zu erstellenden Programms. Es dient als ausführliches Pflichtenheft für einerseits die globalen Eigenschaften, die das Programm besitzen sollte. Es werden hier die Programmschwerpunkte, die grafische Gestaltung und die Navigationsstruktur sowie die potentiellen Nutzer definiert. Andererseits werden die einzelnen zu erstellenden Experimente, Simulationen und Animationen spezifiziert, die aufgrund der in Kapitel 4 dargestellten theoretischen Thematik sich notwendig zum genauen Verständnis der Funktionsweise eines perzeptiven Audiocodecs ergeben. Im neunten Kapitel werden die im achten Kapitel aufgeführten Spezifikationen in konkrete Entwürfe umgesetzt. Es werden Entwürfe für die globale Navigationsstruktur und den strukturellen Aufbau des Programms in Module geschildert. Im weiteren werden die einzelnen Experimente und Simulationen entsprechend den Spezifikationen entworfen und deren Realisierbarkeit und Einschränkungen diskutiert. Schließlich werden die einzelnen Module strukturiert und deren genaue inhaltliche Thematik festgelegt sowie die Navigation innerhalb der Module festgelegt. Das zehnte Kapitel beschreibt die programmiertechnische Umsetzung der Entwürfe. Es werden die einzelnen Werkzeuge für die Umsetzung der Entwürfe diskutiert und die Auswahl der schließlich benutzten Werkzeuge begründet. Nachdem die genaue Realisierung der Entwürfe in der globalen ProgrammStruktur beschrieben wurde, folgt eine genaue Beschreibung der Umsetzung der Entwürfe in den einzelnen Programm-Modulen. Abschließend wird eine Zusammenfassung über den Erfolg der Umsetzung der geforderten Spezifikationen in Bezug auf die am Ende vorliegende programmtechnische Umsetzung gegeben, die der Versuch der realistischen Einschätzung der Qualität und des Innovationsfaktors des erstellten Programms sein soll. Das elfte Kapitel erläutert bestehende Fehler und Einschränkungen im erstellten Programm. Daraus resultierend werden Lösungsmöglichkeiten und Wege zur Verbesserung präsentiert. Im zweiten Teil des Kapitels wird ein Ausblick auf weitere mögliche und sinnvolle Module gegeben, welche die Qualität des Programms deutlich erhöhen. Es werden weiterhin verschiedene nicht realisierte Programm-Module und Ideen zu ProgrammModulen präsentiert und eine Einschätzung auf den tatsächlichen Qualitätsgewinn im entstehenden Programm in Bezug auf den zu investierenden Aufwand vorgenommen. 13 Das zwölfte Kapitel besteht aus einem Glossar. Aufgrund des interdisziplinären Charakters des behandelten Themas werden Fachbegriffe in verschiedenen Publikationen unterschiedlich definiert und verwendet. Im Glossar werden diese Fachbegriffe in Bezug auf den Gebrauch in dieser Arbeit definiert. Weiterhin werden Fachbegriffe, bei ihrer ersten Benutzung in der Arbeit definiert werden, im Glossar kurz erläutert, um ein besseres Verständnis beim Lesen der Arbeit in ungeordneter Reihenfolge zu ermöglichen. Das dreizehnte Kapitel enthält eine Auflistung der in der Arbeit verwendeten und zitierten Literatur. Im vierzehnten Kapitel werden die wichtigsten bei der Programmierung erstellten Programme und Skripte in Form des entsprechenden ProgrammCodes abgedruckt. Der zweite Teil des Kapitels enthält Screenshots (Bildschirm-Ausdrucke) der einzelnen erstellten Programm-Module, um einen Eindruck von der Struktur, der Gestaltung und dem Inhalt des Programms zu erhalten, ohne das Programm auf der beiliegenden CDROM starten zu müssen. 14 3. Grundlagen des multimedialen Lernens In diesem Kapitel werden verschiedene mögliche Lerntheorien zur Erarbeitung des Lernkonzepts für das multimediale Lernmodul beschrieben. Da dieses Thema in einer sehr großen Anzahl von Büchern und Veröffentlichungen erschöpfend behandelt wurde, ist der Umfang dieses Kapitels bewusst kurz gehalten und es werden nur einige ausgewählte Lerntheorien betrachtet. Neben den klassischen lerntheoretischen Grundlagen werden Theorien zu Instruktionsdesign für Lernsoftware betrachtet und schließlich Prinzipien des Multimedialen Lernens dargestellt. 3.1. Lerntheoretische Grundlagen Zunächst werden die wesentlichen klassischen Lerntheorien genauer betrachtet. Es wird auf die drei klassischen Bereiche Behaviourismus, Kognitivismus und Konstruktivismus eingegangen. Tabelle 1 stellt die wesentlichen Merkmale der genannten Theorien nach [KAL02] gegenüber. Behaviourismus Paradmigma Konditionierung Kognitivismus Informationsverarbeitung durch Individuen Lernbeispiele Patterndrill, Konzeptlernen, positives/negatives Problemlösen Reinforcement Lehrerrolle Experte Tutor Ziel Objektives Wissen Objektives Wissen Konstruktivismus Aktive Wissenskonstruktion Fallbasiertes Lernen Trainer, Coach Kompetenz Tabelle 1: Gegenüberstellung der drei klassischen Lerntheorien Behaviourismus, Kognitivismus und Konstruktivismus [KAL02] Im folgenden werden die drei Theorien genauer betrachtet. 3.1.1. Behaviorismus Der Behaviorismus wurde zu einem großen Teil durch die Theorien Skinners mitbegründet, in welchen der Konditionierung und Verstärkung von Lernprozessen durch positives Feedback und Belohnung eine große Bedeutung zugesprochen wurde. Nachfolgend werden nach Skinner [AND01] und [SPA90] sieben Prinzipien des programmierten Lernens angeführt, nach denen heute noch eine Großzahl der Drill-and-PracticeLernprogrammen des CBT (Computer-Based-Training) aufgebaut sind: 15 1. Auf jede Antwort muss eine Rückmeldung erfolgen. 2. Der „Anwender“ sollte in seinem persönlichen Lerntempo den Lernstoff bewältigen. 3. Die Lernziele müssen für den Anwender klar definiert werden. 4. Aufgaben sollten mit hoher Warscheinlichkeit gelöst werden können. 5. Der Lernstoff sollte in einer Abfolge von Frage-AntwortKombinationen gegliedert werden. 6. Die Aufgaben sollten so gestellt sein, dass sie vom Lernenden möglichst effizient bearbeitet werden können. 7. Engagiertes Arbeiten sollte durch Belohnung bekräftigt werden. Das Hauptproblem des Behaviorismus besteht darin, dass er Lernen nur im Sinne von Reiz-Reaktions-Verhältnis (S-R-Schema) versteht. Damit wird dem Lernenden eine ausschließlich passive Rolle zugewiesen. 3.1.2. Kognitivismus Kognitive Lerntheorien weisen dem selbständig entdeckenden Lernen eine wichtigere Rolle zu ([AND01] und [SPA90]). Wissen soll danach aktiv wahrgenommen, erfahren und erlebt werden, der Anwender ist dabei in der Lage, die Informationen selbständig und eigenmotiviert in eine bereits vorhandene Wissensstruktur zu integrieren. Im „Instruktionsdesign“ des Kognitivismus [GOL97] geht man von der Annahme aus, dass sich Lernprozesse in Bezug auf bestimmte Lernziele gliedern lassen. Daraus folgend kann Lernsoftware einen objektivierten, vorstrukturierten Ablauf haben, der allerdings auf verschiedene Lernstoffe anwendbar sein sollte. Wichtige Vertreter der Strömung waren J.S. Brunner, R. Gagné und M.D. Merill. 3.1.3. Konstruktivismus Im Konstruktivismus geht man in seinen Lehr- und Lernkonzepten noch darüber hinaus, da man die Bereitstellung optimaler Methoden zur Erreichung von Lernzielen grundsätzlich in Frage stellt ([AND01] und [SPA90]). Lernen ist immer in einem bestimmten Kontext situiert, und dieser kann nicht durch vorgegebene Lernmethoden simuliert werden. Das über Jahrzehnte vorherrschende Paradigma von der lernzielorientierten Planung wird durch ein neues Paradigma offener Lernsituationen abgelöst, in welchen der Lernende den Lernprozess und die Lernsituation nach Möglichkeit selbst definiert und damit Wissen konstruiert. Dabei werden als Werkzeug „digitale Assistenten“ (ITS: Intelligente Tutorielle Systeme) entwickelt, welche sich an das Lernverhalten des Anwenders anpassen (Adaptivität) und ihm ermöglichen, eigene 16 Lernkonzepte zu generieren (Programmierbarkeit). Als offene Lernumgebung könnten Hypertextsystem dienen. Ihre Konzipierung und Realisierung ist allerdings nur im Rahmen umfangreicher Forschungsprojekte möglich. Zu den Hauptvertretern dieser Bewegung zählen A. Collins, D.J. Cunningham, T. Duffy und D.H. Jonassen. 3.2. Instruktionsdesign für Lernsoftware L.I. Issing stellt in der Abhandlung „Instruktionsdesign für Multimedia“ [ISS97] ein allgemeines Modell zur Entwicklung von Lernsoftware vor, das in seiner Grundstruktur vielen bekannten Modellen der Stoffvermittlung entsprechen soll. Die allgemeine Instruktionsmethode wird nachfolgend aufgeführt: 1. Einführung • Aufmerksamkeit erregen, motivieren • Problem darstellen • Ziele formulieren 2. Bearbeitung • Vorwissen aktivieren • Neue Information vermitteln • Lernhilfen durch gezielte Aufgaben, Fragen und Hinweise • Rückmeldungen und Korrekturen 3. Festigung • Das Neue mit Bekanntem verknüpfen • Wiederholen, Ergänzen und Vertiefen • Lernerfolg ermitteln • Auf weiterführende Lerninhalte hinweisen Nachfolgend werden die einzelnen Arbeitsphasen des Modells des systematischen Instruktionsdesigns beschrieben: 1. Definition der Lernziele: Zu Beginn der Erstellung des Lernangebots steht die präzise Formulierung der Lernziele, um die weiteren Arbeitsschritte und das Erreichen derselben in der fertigen Anwendung an der definierten Zielsetzung zu überprüfen. 2. Festlegen der Lernereigenschaften: Zur genaueren Bestimmung der Lernziele gehören umfangreiche Untersuchungen der Lernereigenschaften durch Vortests und repräsentative Stichproben, da der Lernerfolg einer Lernanwendung stark mit ihrer Fähigkeit zusammenhängt, sich in ihrem Schwierigkeitsgrad und ihrer Vermittlungsstruktur an die Anwender anzupassen. Über- und Unterforderung demotivieren und ermüden den Anwender. 17 3. Auswahl des Lernstoffes: Der Lernstoff wird in Abschnitte mit bestimmten Aufgaben gegliedert, die eine logisch strukturierte und sinnvolle Lernabfolge ergeben sollten. 4. Instruktions- und Visualisierungsform: Die Instruktionsmethode wird abhängig vom Inhalt und dem Anwender genauer bestimmt: Soll der Schwerpunkt auf übendem, selbstgesteuertem oder unterhaltendem Lernen liegen? Soll beispielsweise durch „simulierte Problemsituationen“ der Anwender die Lösung selbst erarbeiten, oder wird er in „dialogischer Form“ auf ein Problem hingeführt? 5. Entwicklung der Instruktionseinheiten und Produktion: Nachdem die didaktische Planung abgeschlossen ist, erfordert die Umsetzung im eigentlichen Produktionsprozess die Teamarbeit von Fachdidaktikern, Mediendidaktikern und Medienexperten wie Grafikern etc. 6. Erprobung der Einheiten an Einzelteilnehmern und der fertigen Produktion in Lernergruppen: Die gestellten Aufgaben und Lösungsschritte müssen während der Produktion immer wieder überprüft werden, um Fehler im Vermittlungskonzept noch rechtzeitig zu korrigieren. Dazu gehören neben Medien- und Fachexperten Teilnehmer der anvisierten Zielgruppe. 7. Implementierung und Felderprobung. 3.3. Prinzipien des Multimedialen Lernens Nachfolgend werden Prinzipien des Multimedialen Lernens betrachtet. In jeder Anfangsphase einer neuen Technologie gab es die Prophezeiung von revolutionären Lernverbesserungen, die mit der neuen Technologie jeweils verwirklicht werden sollten. Der Einsatz des neuen Mediums sollte in dieser Hinsicht das Lernen stark vereinfachen und verbessern. Wurden Evaluationsstudien zu den jeweiligen Lernverbesserungen in der Entstehung der neuen Medien durchgeführt, dann zeigten sich auch signifikante Verbesserungen. Wurden die Studien in einer späteren Phase repliziert, dann waren diese Verbesserungen nur noch sehr schwach zu messen. Dementsprechend wird davon ausgegangen, dass die Verbesserungen eher durch den Enthusiasmus der beteiligten Personen hervorgerufen wurden als durch den Einsatz der neuen Technologie. 18 Da dieses Phänomen bei der Einführung aller Medien beobachtet wurde, liegt die Vermutung nahe, dass eine revolutionäre Lernverbesserung durch E-learning nicht zu erwarten ist. Im folgenden sollen nach [SCH94], [SCH99] und [SCH03] die wichtigsten Erkenntnisse der klassischen Lerntheorien nochmals zusammengefasst werden, um dann auf die Vorteile von Multimedia in der Umsetzung dieser Erkenntnisse einzugehen: • • • Lernen ist ein kein rezeptiver Prozess, sondern ein aktiver und konstruktiver Prozess. Der Lernende baut seine eigenen Strukturen und Fähigkeitssysteme auf. Lernen ist stark zielorientiert und selbstgesteuert. Lernen ist situiert, findet also in einem gewissen Kontext statt. Dieser Lernkontext bleibt erhalten. Der Lerneffekt ist ausgeprägter, wenn die Anwendung in dem gleichen Kontext wieder abgefragt wird. Das Potential von Multimedianutzung Betrachtet man diese Ergebnisse, dann hat multimediales Lernen ein hohes Potential, um diese Ergebnisse umzusetzen [SCH03]: • • • • • Durch den Einsatz von Multimedia können realitätsnahe authentische Lernsituationen geschaffen werden. Das didaktische Prinzip der Anschaulichkeit und Visualisierung kann so konsequent realisiert werden. Durch den Einsatz von Multimedia (beispielsweise Filmclips) kann vorhandenes Vorwissen aktiviert werden. Lernen mit mehreren Sinnen ist möglich. Nach einigen Lerntheorien ist Lernen mit mehreren Sinnen effektiver, da die Encodierung der Lerninhalte besser erfolgt. Multimediales Lernen ermöglicht durch die Verwendung von informationsverarbeitenden Systemen eine Interaktivität, die bei herkömmlichen Lernmethoden nur begrenzt verfügbar ist. Durch diese informationsverarbeitenden Systeme kann Lernen stark selbstgesteuert erfolgen. Es ist ein exploratives Lernen möglich, in dem der Lernende ausgiebig mit dem System interagieren kann. Diese Punkte beschreiben nur das Potential des multimedialen Lernens. Ob tatsächlich eine Lernverbesserung erfolgt, hängt vom richtigen Einsatz und Zusammenspiel der verschiedenen Ebenen von Multimedia ab: • • Die technische Ebene: die Zeichenträger (die Geräte: Computer, Netzwerke...) Die semiotische Ebene: die Zeichenarten (die Formen der Repräsentation: Texte, Bilder, Diagramme...) 19 • Die sensorische Ebene: die Zeichenrezeption (sensorische Modalitäten: Auge, Ohr...) Wird nur eine Ebene genutzt, dann wird sich keine Verbesserung im Lernverhalten ergeben. Ein Beispiel: es könnte bei der Produktion von multimedialen Lernmaterialien unter Ausreizung aller technischen Möglichkeiten nur die technische Ebene betrachtet werden, indem eine Lernumgebung geschaffen wird, die ein perfektes Zusammenspiel aller technischen Entwicklungen beinhaltet. Wenn die semiotische und die sensorischen Ebene nicht beachtet werden, dann wird dieses Programm kaum ein effektives Lernen ermöglichen, da die Rezeption der zu vermittelnden Inhalte blockiert wird. Einsatz der einzelnen Medientypen Im folgenden werden die einzelnen zur Verfügung stehenden Medientypen beschrieben. Im Anschluss werden die Vorteile, die Nachteile und die Gefahren ausgewählter Medientypen beim Einsatz in multimedialen Lernumgebungen unter dem Gesichtspunkt der Erhöhung der Lerneffizienz nach [SCH03] betrachtet. In der folgenden Tabelle werden nach [KAL02] die einzelnen zur Verfügung stehenden Medientypen beschrieben werden und deren Anwendung dargestellt: Medientyp Text Definition Screenshot WEB Beschreibung Erklärungen in Textform, gegliedert in maximal 3 Ebenen (Unterabschnitt, Kapitel, Teile eines Kapitels) Definitionen, Begriff und textmäßige Erklärung Einzelne oder Folge von Screenshots – zeigt Inteaktion zwischen Lernendem und Computer Kommentierte Links (d.h. Kommentar zu einem Link), eventuell klassifiziert als Hintergrund-Link, probier-mal-aus-Link 20 Anwendung Textmäßige Beschreibung von Sachverhalten Kompakte Darstellung, Grundlage für Weiteres Präsentation von Softwareabläufen und Dialogen Dokumentation von weiteren Quellen im Internet für das Selbststudium Medientyp Programm Beschreibung Programmcode Architekturgrafik Architekturgrafik mit beschrifteten Ebenen, Rechtecken, Kanten oder Wolken Prozess-Grafik Prozessgrafik mit Instanzen (Aktivitäten) und Artefakten (Gegenstände, Dokumente) sowie ihre Zusammenhänge Pixelgrafik Foto Animation Video Animation, Trickfolge für Technik und Verfahren Videosequenz Audio Audiosequenz Active Aktive Programmkomponente (ActiveX oder Java) Multiple Choice MC Lückentext Anwendung Auflistung und Dokumentation von Programmcode Dokumentiert und veranschaulicht funktionale Beziehungen, Sachzusammenhänge oder Schichten in einem Softwaresystem Dokumentiert und veranschaulicht zeitliche Abhängigkeiten Dokumentiert Menschen, Geräte oder Gegenstände als Veranschaulichung Dokumentation von bewegten Vorgängen Präsentation von Beispielen im akustischen Bereich Präsentation von Anwendungen Üben und Prüfen mit Fragen zu einem Thema Üben und Prüfen von Fragmenten zu Programmcode und Aufgaben Ergänzen ausgelassener Textfragmente Tabelle 2: mögliche Bestandteile von multimedialen Lernmaterialien und deren potentielle Anwendung [KAL02] W. Schnotz beschreibt in [SCH03] die einzelnen Vorteile und Nachteile der Nutzung von bestimmten Medientypen unter dem Gesichtspunkt des Einsatzes in multimedialen Lernumgebungen: 21 Darbietungsform Eigenschaften in multimedialer Lernumgebung Multiple Formen Text mit Bild wird besser behalten als wenn Text allein der dargeboten wird: Repräsentationen • Wird begründet durch die Existenz von zwei unterschiedlichen mentalen Modelle: (1) verbales mentales Modell und (2) piktoriales mentales Modell) • Durch Kontiguität (enge räumliche oder zeitliche Nähe) und Koheränz (gleiche Inhalte) von Text und Bild wird Lerneffekt gestärkt, da eine Integration der mentalen Modelle stattfindet • Reihenfolge Text und danach Bild ist effektiver als umgekehrt (da Interferenz der mentalen Modelle verhindert wird: wird erst der Text präsentiert, kann ein anderes mentales Bild entstehen als für das dann später gezeigte Bild) • Sehr viele verschiedene Repräsentationen eines Sachverhaltes sind nicht effektiv, da diese verschiedenen Möglichkeiten nicht genutzt werden. Dies ist insofern zu begründen, da der Lernende bei jeder neuen Repräsentation ein Vergleich mit den bei den vorherig gebildeten mentalen Modellen des Sachverhaltes vergleichen muss. Dies resultiert in erhöhten kognitiven Kosten und wird speziell von schwächeren Lernenden vermieden. Animationen Vorteile: • Ermöglicht ein sofortiges Verständnis eines dreidimensionalen Sachverhalts, der sonst nur zweidimensional dargeboten werden könnte (Drehung von zweidimensionalen Objekten) • Möglichkeit der Lenkung der Aufmerksamkeit (kann auch vom Wesentlichen ablenken!) • Erwerb prozeduralen Wissens (beispielsweise zur Erklärung einer auszuführenden Reihenfolge) • Supplantation: Durch den Einsatz einer externen Simulation wird diese Darbietungsart von Lernenden genutzt, die Schwierigkeiten haben, einen Prozess ohne visuelle Hilfe nachzuvollziehen. Für diese Lernenden wird eine Unterstützung kognitiver Prozesse erreicht. Nachteile: • Oberflächliche Verarbeitung durch ausschließlich passive Beschäftigung mit der Thematik • Erhöhung der Gefahr, dass fehlerhafte mentale Modelle gebildet werden • Erhöhung der Gefahr, dass Lernende sich nur passiv mit dem Thema beschäftigen 22 Darbietungsform Multiple sensorische Modalitäten (beschränkt auf Auge und Ohr) Eigenschaften in multimedialer Lernumgebung • Bei Darbietung von visuellem Text und Bild resultiert eine Doppelbelastung des visuellen Arbeitsgedächtnisses (split attention). • Bei gleichzeitiger Darbietung von auditivem Text und Bild kann sich das visuelle Arbeitsgedächtnis auf die Verarbeitung der Bildinformation konzentrieren, das auditive Arbeitsgedächtnis verarbeitet die auditive Information. Durch das Ansprechen beider Sinneskanäle resultiert eine Vergrößerung der mentalen Verarbeitungskapazität. • Die Verwendung von auditivem Text, identischem visuellem Text und Bildern führt zu geringerem Lernerfolg. Dies ist einerseits dadurch begründet, dass wiederum „split attention“ auftritt (der visuelle Text wird trotz identischer Darbietung gelesen). Andererseits ist die Geschwindigkeit der Verarbeitung von gelesenem Text und gehörtem Text eine andere, so dass Synchronisationsprobleme entstehen. Es gibt klare Hinweise darauf, dass die gleichzeitige Darbietung auditiver Texte und eingebetteter Hintergrundmusik während einer Instruktion das auditive Arbeitsgedächtnis doppelt belastet und verringert damit die semantische Verarbeitung des auditiven Textes. • Nichtlineare Instruktion Angenommene Vorteile: • Multiple Perspektiven möglich • Anregung für den Lernenden, Sachverhalte von verschiedenen Seiten zu beleuchten • Nicht lineares Denken wird gefördert • Kognitive Flexibilität kann erhöht werden Forschungsergebnisse: • sind nicht einheitlich. Es gibt ebenso viele Studien, dieVorteile gegenüber linearer Darbietung zeigen, wie umgekehrt. • Die Navigation, die Suche und die Informationsevaluation erfordern kognitive Ressourcen, die dann nicht mehr für Lerninhalte zur Verfügung stehen. 23 Darbietungsform Eigenschaften in multimedialer Lernumgebung Interaktivität Angenommene Vorteile: • Aktives Lernen • Selbstgesteuertes Lernen • Entdeckendes Lernen Forschungsergebnisse: • Sind nicht einheitlich. • Interaktion erfordert kognitive Ressourcen. • Häufig geringe Verwendung von Interaktion vom Benutzer. Tabelle 3: Eigenschaften verschiedener Darbietungsformen in multimedialen Lernumgebungen nach [SCH03] Es ist anzumerken, dass beim Einsatz von Multimedia in der Lehre das Prinzip des angemessener Medieneinsatzes zu verfolgen ist, um auch eine tatsächliche didaktische Verbesserung für den Lernenden zu erzielen. W. Schnotz schließt in [SCH03]: „Multimedia verbessert nicht generell das Lernen. Es gibt keine einfachen didaktischen Daumenregeln. [...] Das Wesentliche ist für mich, dass das Design von multimedialen Angeboten, also Instruktionsdesign von solchen Lernumgebungen eine wissenschaftliche Theorie des multimedialen Lernens braucht, also ein Verständnis dessen, was tatsächlich im menschlichen Kopf passiert. [...] Die neuen Medien können das Lernen effektiver und einfacher und machen. Die Frage ist: Sollen wir das Lernen überhaupt so leicht wie möglich machen. [...] Wir können es Lernenden auch zu leicht machen und sie dadurch vom Lernen abhalten, indem wir ihnen kognitive Prozesse abnehmen, zu denen sie durchaus selbst in der Lage sind. Ich bin der Auffassung, dass Lernen eigentlich immer Anstrengung erfordert und das Lernen nicht in einem netten Edutainment bestehen kann, sondern dass der Ertrag in einem anderen Verstehen von Zusammenhängen besteht, von denen man länger profitiert. Insgesamt bin ich der Ansicht, dass Lernen mit Multimedia nur in dem Maße erfolgreich sein wird, wie seine Realisierung auch angeleitet wird durch eine kognitive Theorie, die zugleich empirisch gesichert ist.“ 24 4. Der MPEG Layer-3 (MP3) Codec In diesem Kapitel werden die für den Inhalt der multimedialen Lernmaterialen relevanten Themen dargestellt. Das Kapitel beginnt mit der Entwicklung und Geschichte des MPEGKonsortiums und der daraus entwickelten Standards. Im Anschluss werden die verschiedenen Parametrisierungsmöglichkeiten eines MP3Encoders betrachtet. Es folgt eine ausführliche Erklärung der Funktionsweise inklusive zugrundeliegender psychoakustischer Phänomene. Dieser Teil des Kapitels ist bewusst ausführlich gehalten worden, da das Verständnis der Funktionsweise und der einzelnen zugrundeliegenden Prinzipien den gesamten Spezifikationen und Entwürfen zugrunde liegt. In den folgenden Kapiteln wird aus diesem Grund immer wieder auf diesen Abschnitt dieses Kapitels zurückgegriffen werden. Weiterhin wird in diesem Kapitel auf die Qualitätsmerkmale und – unterschiede verschiedener perzeptiver Codecs eingegangen. Schließlich werden die Möglichkeiten und Standards zur objektiven Vergleichsmöglichkeit verschiedener Codecs beleuchtet, sowie die Resultate verschiedener Codecs in objektiven Tests dargestellt. 4.1. Entwicklung und Geschichte Der MPEG Layer-3 Codec blickt schon jetzt auf eine fast zehnjährige Geschichte zurück. Er wurde im Jahr 1991 standardisiert. In den ersten Jahren wurde er hauptsächlich für Studio- und Broadcast-Anwendungen benutzt, unter anderem konnte man mit MP3 ISDN-Telefonleitungen als einen kosteneffektiven Kanal zur Übertragung von Audio mit hoher Qualität benutzten. 1995 wurde MPEG Layer-3 als das Audioformat für das digitale Satellitenfernsehen (DSB) ausgewählt. Aufgrund der massenhaften Verbreitung des Internets, auch als Medium für den elektronischen Tausch von digital gespeicherter Musik, erlangte aufgrund der begrenzten Bandbreiten der meisten Internetzugänge MPEG Layer-3 als ein hochwertiges Kompressionsformat für diesen Musiktausch einen hohe Berühmtheit. 1999 war „.mp3“ der meistgesuchte Begriff im Word Wide Web. 1998 begann die Firma Saehan Information Systems mit dem Verkauf des ersten portablen MP3-Players „MPMAN“, der Beginn der Produktion diverser Player für das MP3-Format, womit endgültig die Loslösung von Audio-Files, die nur auf Computer-Festplatten vorlagen und dementsprechend nicht mobil einsetzbar waren, begann. Berühmtheit erlangte das MP3-Format nicht zuletzt durch diverse Prozesse und Klagen der Musikindustrie, da in den diversen Tauschbörsen nicht nur Eigenproduktionen oder freie Musik gehandelt wurden, sondern zunehmend auch Raubkopien diverser rechtlich geschützter Musiktitel, 25 teilweise ganze Alben von kommerziell sehr erfolgreichen Musikern. In den vergangenen Jahren musste die Musikindustrie durch diese Art der Verbreitung raubkopierter Musik finanzielle Schäden von 10% hinnehmen. Diese Zahl stammt aus diversen Marktanalysen verschiedener Marktforschungsunternehmen. Die Musikindustrie beruft sich gern auf höhere Zahlen. Es ist zweifellos richtig, dass durch die Tauschbörsen finanzielle Verluste entstanden, aber welchen Anteil diese real am Gesamtverlust haben bleibt fraglich. Allgemein gehen die Marktanalysen davon aus, dass sich das Konsumverhalten der für die Musikindustrie hauptsächlich interessanten Zielgruppe (20-30jährige) in den letzten Jahren von Musik- und Unterhaltungselektronik zunehmend zu Telekommunikationsprodukten verlagert hat. 4.1.1. Die verschiedenen MPEG-Standards Die MPEG-Gruppe Moving Pictures Experts Group) wurde 1988 von der ISO/IEC Standardisierungsgruppe ins Leben gerufen, um Standards für die Codierung von Video und Audio zu schaffen. Die einzelnen Standards werden im folgenden beschrieben. MPEG-1 Die erste Phase des Projektes wurde MPEG-1 genannt und begann 1988. Ende 1992 wurde der erste Standard, genannt IS 11172, fertiggestellt. Der Teil dieses Standards, der die Audiokodierung beschreibt (IS 11172-3) besteht aus 3 Operationsmodi, die die steigende Komplexität und Performanz beschreiben, genannt Layer-1, Layer-2 und Layer-3. Der komplexeste Modus, Layer-3, wurde entwickelt um die höchste Klangqualität bei geringen Bitraten (um 128 kBit/s für Stereo) zu gewährleisten. MPEG-2 Die zweite Phase des Projektes wurde MPEG-2 genannt und führte neue Konzepte in die Videocodierung ein, unter anderem die Unterstützung von Interlaced Video und Motion Compensation. 1994 wurde der MPEG-2 Audiostandard (IS 13818-3) fertiggestellt und bestand im Wesentlichen aus folgenden Verbesserungen: Es wurde eine Mehrkanaloption implementiert, so dass unter anderem auch das bekannte Kinotonformat 5.1 codiert werden konnte. Dieses Format ist auch als 3/2-Format gebräuchlich: zusätzlich zum Stereosignal existieren drei weitere vollwertige Audiokanäle: ein Centerkanal, ein linker und ein rechter Surroundkanal; weiterhin für tieffrequente Effekte ein Kanal für den SubBassbereich). Diese Mehrkanal-Option ist rückwärtskompatibel, so dass 26 MPEG-1 Stereodecoder über eine Downmix-Matrix alle Kanäle in ein Stereosignal decodieren können. Ebenso wurden andere Abtastraten (16kHz, 22.05kHz, 24kHz) zu den bereits unterstützten (32kHz, 44.1kHz und 48kHz) implementiert. 1994 zeigten Tests, dass neue Codierungsverfahren, die keine Rückwärtskompatibilität zu MPEG-1 besaßen, eine signifikante Verbesserung in der Codierungseffizienz mit sich brachten. Dies führte dazu, dass ein neuer Audiocodierungs-Standard entwickelt wurde, genannt MPEG-2 Advanced Audio Coding (AAC, IS 13818-7). Dieser wurde im Jahr 1997 fertiggestellt. AAC ist ein Audiocodierungsalgorithmus der zweiten Generation, der sowohl Stereo- als auch Mehrkanalsignale (bis zu 48 Kanälen) codieren kann und Abtastraten von 8kHz bis zu 96kHz unterstützt. MPEG-3 MPEG plante einen Standard für die Videocodierung von HDTV (High Definition Television) zu entwickeln. Es stellte sich aber heraus, dass die MPEG-2 Codierungsverfahren und deren Anwendungen auch den Qualitätsansprüchen von HDTV genügten, und so wurde ein MPEG-3 Standard nie verwirklicht. Manchmal ist unter dem Begriff „MPEG-3“ die Bezeichnung des Formates MPEG Layer-3 zu finden. Dies ist aber ein Fehler, ein MPEG-3 hat es nie gegeben. MPEG-4 Die erste Version des Standards MPEG-4 (IS 14496-39) wurde 1998 fertiggestellt, die zweite Version 1999. In MPEG-4 wurden eher neue Funktionalität als bessere Effizienz des Compressions-Algorithmus verwirklicht, unter anderem Datenbankenzugang, mobiler und stationärer Zugang und verschiedene Arten von interaktiven Dienstleistungen. MPEG4 besteht aus einer ganzen Gruppe von Audiocodierungsalgorithmen, von Sprachcodierungen bei niedrigen Bitraten (bis zu 2kBit/s) bis zu hochqualitativer Audiocodierung. Die Audiocodierung bei mittleren bis hohen Bitraten wird durch AAC verwirklicht. Da die Codecs teilweise lizensiert werden mussten, wurde der MPEG-4 Codec urheberrechtlich widerrechtlich raubkopiert und dieser neue Code für alle zugänglich unter dem Namen DIVX implementiert und veröffentlicht. Der Name DIVX geht dabei auf ein in den USA verwirklichtes Pay-TV-Projekt zurück. Als effizeinter und kostenloser Video-Codec hat sich DIVX einen bedeutenderen Namen gemacht als das Original, der MPEG-4-Codec. MPEG-7 27 Entgegen MPEG-1, MPEG-2 und MPEG-4 definiert MPEG-7 keinen Codierungsalgorithmus. MPEG-7 ist ein Repräsentationssystem für multimediale Inhaltssuche, bestehend unter anderem aus Inhalts-Filtern, Inhaltsmanagement und Inhaltsbearbeitung. MPEG-21 MPEG-21 besteht im Wesentlichen aus verschiedenen Möglichkeiten zur Copyright-Wahrung, der Wahrung anderer Urheber-Rechte sowie verschiedenen Abrechnungsmöglichkeiten für die Nutzung digitaler Medien. Dies wird unter dem Begriff DRM (Digital Rights Managements) zusammengefasst. 4.2. Parametrisierung von MP3-Codecs Um den Codec an möglichst viele verschiedene Nutzungs-Szenarios anpassbar zu machen, bietet MPEG Layer-3 einige Anpassungsoptionen und Parametrisierungen, die im folgenden dargestellt werden. 4.2.1. Operating mode Der Codec ist für Mono- und Stereosignale einsetzbar. Folgende Parameter sind einstellbar: • • • • Single channel Dual channel (Codieren von zwei unabhängigen Kanälen, zum Beispiel unterschiedliche Sprachen auf beiden Kanälen) Stereo Joint Stereo (effiziente kombinierte Codierung des linken und rechten Kanals eines stereophonen Audiosignals unter Ausnutzung der Reduktion aufnahmebedingter Redundanz) 4.2.2. Abtastrate Der Codec kann Abtastraten von 32kHz, 44.1kHz und 48 kHz verarbeiten. 4.2.3. Bitrate Der Codec kann mit verschiedenen Bitraten betrieben werden. Die einzustellende Bitrate ist (unter Festlegung diskreter Werte) frei 28 einstellbar. Es können Bitraten von 8kBit/s bis zu 320kBit/s eingestellt werden. Ein MP3-Decoder muss die Unterstützung von unterschiedlichen Bitraten von Audioframe zu Audioframe bieten. Dieses gewährleistet (in Kombination mit der Bit-Reservoir-Technik) sowohl variable Bitratencodierung als auch konstante Bitraten-Codierung. 4.3. Funktionsweise des MP3-Encoders Das Prinzip der Funktionsweise eines MP3-Enocers ist in Abbildung 1als Blockdiagramm dargestellt. Abbildung 1: Blockdiagramm eines MP3- Encoders aus [BRA94] Das am Eingang des Encoders anliegende Audiosignal wird durch zwei Filterbänke in den Frequenzbereich transformiert. Die erste Filterbank teilt das Audiosignal in äquidistante Frequenzbereiche auf, sie gewährleistet eine Kompatibilität zu MPEG1 Layer1 und MPEG Layer2. Die zweite Filterbank teilt die durch die erste Filterbank gefilterten Signalkomponenten in weitere, schmalere Frequenzbereiche. Parallel dazu wird das Signal durch eine FFT transformiert einem perzeptiven Modell zugeführt, welches für alle Signalkomponenten die gerade noch erlaubte Maskierungsschwellen bestimmt5. Diese Schwellen dienen als Grundlage für die nachfolgende Quantisierungs-Stufe des Encoders. Diese bestimmt aus den berechneten Schwellen die gerade noch tolerierbare Quantisierung für die Signalkomponenten, so dass das dabei entstehende Quantisierungsrauschen unterhalb der berechneten Schwellen bleibt. Nach der Quantisierung der Signalkomponenten werden diese einer Huffman-Codierung unterzogen und schließlich in einem MP3 kompatiblen Datenstrom angeordnet. 5 Aufgrund der Signalenergie in der betrachteten Signalkomponente wird die Schwelle bestimmt, bei der ein dem Signal zugefügtes Rauschsignal gerade hörbar wird. 29 Nach dieser kurzen Skizzierung wird im folgenden ausführlich das Prinzip der Funktiosweise der einzelnen Komponenten eines MP3-Encoders beschrieben. Dabei handelt sich um eine Zusammenfassung der Literaturquellen [BRA00], [BRA88], [BRA03], [BRA94], [BRA99] sowie der Dissertationen [RAN01] und [LAI01]. 4.3.1. Die hybride Filterbank Das digitale Audiosignal wird mittels einer hybriden Filterbank in spektral getrennte Teilsignale zerlegt. Diese hybride Filterbank besteht aus zwei unterschiedlichen, kaskadierten Arten von Filterbänken, einer polyphasen Filterbank und einer MDCT-Filterbank (Modified Discrete Cosine Transform). Die polyphase Filterbank wurde benutzt, um die Kompatibilität zu Layer1 und Layer2 aufrechtzuerhalten. Sie zerlegt das Audiosignal in 32 Teilbänder, die alle den gleichen spektralen Abstand haben (500Hz Bandbreite bei einer Abtastrate von 32 kHz). Nach diesem Prozess befinden sich die gefilterten Audiosignale noch immer im Zeitbereich. Jedes Teilband besteht jetzt aus 32 Samples. Durch die Wahl der Filterbandbreite ist eine gute Zeitauflösung des Eingangssignal gegeben (2ms; T=1/f), aber mit 500 Hz Auflösung besitzt es eine denkbar schlechte Frequenzauflösung. Durch Überlappung der einzelnen Filter wird ein Aliasing erzeugt. Eine Verbesserung der Frequenzauflösung (und gleichzeitig die Transformation in den Frequenzbereich) erfolgt durch Unterteilung in 18 feinere Sub-Frequenzbänder durch die MDCT-Filterbank. Insgesamt besteht die maximale Anzahl der Kanäle aus 32x18=576 Kanälen. Sie erhöht das Potential für die Redundanz-Entfernung und führt damit zu einer erhöhten Effizienz der Codierung für tonale Signale. Durch die höhere Frequenzauflösung kann das entstehende Fehlersignal besser kontrolliert werden, und führt damit zu einer genaueren Bestimmung der Maskierungsschwelle. Die MDCT-Filterbank kann auf eine niedrige und eine hohe Frequenzauflösung (und damit auf eine genauere und ungenauere Zeitauflösung) umgestellt werden, um „pre-echoes“ (zur Erklärung siehe Kapitel „Artefakte“) zu vermeiden. Treten diese „pre-echoes“ vor der Vorverdeckungsgrenze des Signals auf (siehe Kapitel „Maskierung), dann kann das Rauschen deutlich hörbar als durch den Encoder hinzugefügtes Verzerrungs-Signal wahrgenommen werden. Zur Vermeidung von „pre-echoes“ ist es notwendig, ein Kriterium zu definieren, wann die Länge des Analysefensters umgeschaltet werden soll, wann also ein transientes Signal auftritt. Dazu wird das Verhalten der sogenannten PE (perceptual entropy) betrachtet: dabei handelt es sich vereinfacht dargestellt um die Anzahl der Bits, die benötigt werden, um einen Signalanteil zu encodieren. Eine „pre30 echoe“-Kondition kann durch einen plötzlichen Anstieg der PE gekennzeichnet identifiziert werden. Überschreitet die Bit-Notwendigkeit für eine Codierungssequenz einen bestimmten Wert, dann wird eine „preechoe“-Situation angenommen und der Mechanismus zum Umschalten der Fensterlänge aktiviert, und es wird auf ein kürzeres Zeitfenster umgeschaltet. Nach der Codierung der Transiente wird wieder auf das lange Zeitfenster umgeschaltet. Das Verhältnis der Länge der beiden Fenster ist 1:3. Durch die notwendigerweise erhöhte Bitanzahl bei der Codierung der Transiente ist es möglich, dass der „Bit-Reservoir“-Mechanismus aktiviert wird. Im „mixed block mode“ ist es möglich, lange Zeitfenster für die ersten beiden Frequenzbänder (also bis 1000Hz) und kurze Zeitfenster für die restlichen 30 Frequenzbänder zu benutzen. Dieser Modus gestattet damit eine gute Frequenzauflösung für die tiefen Frequenzen, ohne die (für die genaue Reproduktion von Transienten notwendige) hohe Zeitauflösung für die hohen Frequenzen zu beeinträchtigen. In der MDCT-Filterbank wird gleichzeitig das Aliasing entfernt, das den einzelnen Teilsignalen durch die polyphase Filterbank zugefügt wurde. 4.3.2. Das perzeptive6 Modell Während das Eingangssignal der hybriden Filterbank zugeführt wird, führt der Algorithmus es synchron einem sogenannten perzeptiven Modell zu, welches das Verhältnis von Signalenergie zur Maskierungsschwelle für jedes Frequenzband bestimmt. Es simuliert das menschliche auditive Wahrnehmungssystem und bestimmt, welche Teile des Audiosignals für das auditive Wahrnehmungssystem irrelevant (also nicht hörbar) sind, und damit ohne wahrnehmbare Klangveränderungen aus dem Audiosignal entfernt werden können. Im speziellen definiert es beispielsweise die Schwelle, bis zu der man dem Audiosignal im entsprechenden Frequenzband ein Rauschen hinzufügen kann, ohne dass dieses hinzugefügte Rauschen hörbar ist, wenn es gleichzeitig mit dem Audiosignal dargeboten wird. Dieses perzeptive Modell bestimmt hauptsächlich die Qualität des Encoders: Jeder Encoder kann sein eigenes perzeptives Modell (oder auch gar keines!) benutzen, um die speziellen Eigenschaften des menschlichen Ohres gezielt zur Verbesserung der Qualität seines Encoders auszunutzen, was K. Brandenburg deutlich herausstellt: 6 In der englischen Fachliteratur wird der Begriff „perceptual model“ benutzt. In einigen deutschen Publikationen (aber nicht in Fraunhofer oder MPEG Publikationen) wird der Begriff mit „Psychoakustisches Modell“ übersetzt. Da für diesen deutschen Begriff aber eine eindeutige englische Übersetzung in dem Wort „psychoacoustic model“ existiert, wurde in dieser Arbeit „perceptual model“ mit „Perzeptives Modell“ übersetzt. 31 „Encoding of MPEG Audio is completely left to the implementer of the standard. As a helpful guide-line, the ISO standards contain the description of example encoders. While these descriptions were derived from the original encoders used for verification tests, a lot of experience and knowledge is necessary to implement good-quality MPEG audio encoders. The amount of investment necessary to engineer a high-quality MPEG audio encoder has kept the number of independently-developed encoder implementations very low.” ([BRA00], Seite 7) Als Resultat des perzeptiven Modells werden Werte für die Maskierungsschwellen für jedes einzelne Frequenzband des Encoders erzeugt. Das Ziel ist es, das entstehende Quantisierungsrauschen in jedem Frequenzband unterhalb dieser Maskierungsschwelle zu halten, denn dann ist das komprimierte Signal nicht vom Originalsignal in Bezug auf den Rauschanteil zu unterscheiden. Im folgenden sollen die verschiedenen Maskierungsschwellen dargestellt werden. In dieser Arbeit werden keine physiologischen, wahrnehmungspsychologischen oder evolutionären Erklärungen der dargestellten psychoakustischen Phänomene gegeben, da dies den Umfang dieser Arbeit sprengen würde. Es wird auf die jeweiligen Kapitel in [ZWI90], [ZWI67] und [ROE93] verwiesen. Die Maskierungsschwellen Beim Erzeugen eines Schalles werden winzige Schwankungen des Luftdruckes um den statischen atmosphärischen Luftdruck erzeugt, genannt Schalldruck. Diese Schwankungen werden über den auditiven Apparat in ein „Hörereignis“ umgewandelt. Dabei kann ein sehr geringer Schalldruck, wie er zum Beispiel beim Fallen einer Nadel entsteht, ebenso gehört werden wie ein sehr hoher Schalldruck, wie er beim Starten eines Düsenjets in der Nähe des Flugzeuges (und da zumindest einmal gehört werden kann...) erzeugt wird. Das Hörvermögen des Menschen umfasst dabei mehrere Zehnerpotenzen des Schalldruckes. Es ist aus der persönlichen Erfahrung nachvollziehbar, dass das Fallen einer Nadel nicht wahrnehmbar ist, wenn zu gleicher Zeit das Geräusch des startenden Düsenjets zu hören ist. Ebenso wird man das Ticken eines Weckers nicht hören, wenn er gerade laut klingelt, obwohl er zweifellos in dieser Zeit auch tickt. Dieses Phänomen wird als Maskierung bezeichnet. Maskierung tritt immer dann auf, wenn ein leises Audiosignal in spektraler oder zeitlicher Nähe eines lauten Audiosignals nicht mehr wahrnehmbar ist. Man unterscheidet im Wesentlichen drei verschiedene Arten der Maskierung: 32 Maskierung unterhalb der Absoluten Hörschwelle Die absolute Hörschwelle eines Tones wird definiert als diejenige (Schalldruck-) Schwelle, bei der ein reiner Ton (Sinus) gerade wahrnehmbar ist. Ermittelt man diese Schwelle für alle reinen Töne (also alle Frequenzen) und über viele Hörer, dann erhält man die in Abbildung 2 dargestellte Hörschwelle. Diese gibt über die Frequenz aufgetragen jeweils denjenigen Schalldruck an, an der ein Sinuston der jeweiligen Frequenz gerade hörbar ist. Abbildung 2: Absolute Hörschwelle von Sinustönen aus [ZWI67] Sollte die Energie eines Audiosignals unter der absoluten Hörschwelle liegen, so wird dieses Audiosignal natürlich nicht wahrgenommen. Mithörschwelle Tritt ein Audiosignal mit geringer Energie in spektraler Nähe eines Audiosignals mit höherer Energie auf (z.B. ein leiser 1100Hz Ton und ein lauter 1000Hz Ton), dann wird nur das Signal mit der höheren Energie (genannt Masker) wahrgenommen, das leisere Signal wird vom lauteren Signal verdeckt. Die Maskierungsschwelle eines gegebenen Maskers hängt von dessen Energie und Frequenz ab. In Abbildung 3 ist die Mithörschwelle über der Frequenz aufgetragen die Mithörschwelle von Sinustönen (ab welchem Schalldruckpegel sie wahrgenommen werden), wenn ein Schmalbandrauschen mit der Mittenfrequenz von 1000Hz und den mit Lg dargestellten Schalldruckpegeln gleichzeitig dargeboten wird: 33 Abbildung 3: Mithörschwellen eines Sinustones, verdeckt durch Schmalbandrauschen aus [ZWI67] Jedes Audiosignal (also auch jedes Rauschen), dessen Energie sich unterhalb der Maskierungsschwelle des Maskers befindet, ist nicht wahrnehmbar, sofern es zeitgleich (und auf dem gleichen Ohr) mit dem Masker dargeboten wird. Nachverdeckung / Vorverdeckung Tritt ein Audiosignal mit geringer Energie zeitlich kurz vor (Vorverdeckung) oder kurz nach (Nachverdeckung) einem anderen Audiosignal mit höherer Energie auf, beispielsweise ein leiser Violinenton kurz nach einem lauten Orchester-Gesamtspiel, dann wird nur das Signal mit der höheren Energie (der Masker) wahrgenommen, das leisere Signal wird vom lauteren Signal maskiert. Abbildung 4 zeigt die Nachverdeckungskurve eines Rechtecksignals: 34 Abbildung 4: Vorverdeckungs- und Nachverdeckungskurve eines Rechtecksignals aus [ERN01] Nachverdeckung tritt bis zu 160ms nach Beendigung des Maskers auf, Vorverdeckung nur bis zu 20ms vor Beginn des Maskers. 4.3.3. Quantisierung und Codierung Die Quantisierung des Audiosignals orientiert sich an den vom perzeptiven Modell berechneten Maskierungsschwellen. Das Audiosignal wird in den entsprechenden Frequenzbändern so quantisiert, dass das dabei entstehende Quantisierungsrauschen7 gerade unterhalb der berechneten Maskierungsschwelle bleibt: „The output of the perceptual model consists of values for the masking threshold of the allowed noise for each coder partition. [...] If the quantization noise can be kept below the masking threshold for each coder partition, then the compression result should be indistinguishable from the original signal.” ([BRA00], Seite 7) Abbildung 5 verdeutlicht dieses Prinzip: 7 Eine gröbere Quantisierung bedeutet höheres Quantisierungsrauschen. Es sind jedoch eine geringere Anzahl an Bits zur Darstellung des Signals notwendig. 35 Abbildung 5: Maskierungsschwelle eines Signals und Pegel von verschiedenen Quantisierungsstufen aus [ERN01] Bei einer gegebenen Quantisierung des Signals von m Bits entsteht ein Quantisierungs-Rausch-Teppich. Wird die Quantisierung noch eine Stufe herabgesetzt auf (m-1), was sich positiv auf die zur Encodierung notwendigen Bits auswirken würde, so erhöht sich der Rausch-Teppich. Steigt der Rausch-Teppich schließlich so weit an, das die MaskierungsSchwelle überschritten wird, dann wird dieses Rauschen hörbar, und die Qualität des Signals verschlechtert sich damit wahrnehmbar. Im folgenden wird das Prinzip der Quantisierung im MP3-Codec ausführlich dargestellt. Es wird ein System aus zwei ineinander geschachtelten iterativen Schleifen benutzt, um die Quantisierung und Codierung im Encoder zu realisieren. Die Quantisierung wird mit einem „power law quantizer“ umgesetzt. In diesem werden große Werte automatisch weniger genau codiert (nonuniform quantization), ein Noise-Shaping ist in diesen Prozess bereits integriert. Folgende Formel kommt dabei für die Quantisierung zur Anwendung: Abbildung 6: Für die MP3-Encodierung verwendete Quantisierungsformel aus [BRA94] Die quantisierten Werte werden anschließend nach dem HuffmanVerfahren codiert. Um den Codierungsprozess den zeitlich unterschiedlichen statistischen Eigenschaften des Audiosignals anzupassen, wird die jeweilige optimale Huffman-Tabelle aus einer Anzahl unterschiedlicher Huffman-Tabellen ausgewählt. Die Huffman-Codierung arbeitet in Paaren und im Fall von sehr kleinen Werten in Quadrupeln. Um 36 eine noch genauere Annäherung an die Statistik des Signals zu erhalten, ist es möglich, unterschiedliche Huffman-Tabellen für verschiedene Teile des Spektrums auszuwählen. Da die Huffman-Codierung eine Codierung mit variabler Codelänge ist, und Noise-Shaping nötig ist, um das Quantisierungsrauschen unter der Maskierungsschwelle zu halten, wird ein „global gain value“ (das die Quantisierungs-Schrittweite bestimmt) und „scalefactors“ (die die Faktoren für das Noise-Shaping für jedes Band bestimmen) vor der Quantisierung appliziert. Um die optimalen „gain values“ und „scale factors“ aus einem perzeptiven Block für einen gegebenen Block und eine gegebene Bitrate zu finden, werden zwei ineinander geschachtelte iterative Schleifen in einem „analysis-bysynthesis“ Verfahren kombiniert: Inner iteration loop (rate loop) Die Huffman-Code-Tabellen weisen (häufiger vorkommenden) kleineren Quantisierungswerten kürzere Codeworte zu. Wenn die Anzahl der Bits, die aus der Codierung resultiert, die Anzahl der verfügbaren Bits für den gegebenen Datenblock übersteigt, können die „global gain values“ angepasst werden. Damit einhergehend wird eine größere QuantisierungsSchrittweite erreicht, und damit weniger Quantisierungswerte. Diese Operation wird solange mit verschiedenen QuantisierungsSchrittweiten wiederholt, bis die Anzahl der angeforderten Bits für die Huffman-Codierung klein genug ist. Outer iteration loop (noise control loop) Um das Quantisierungsrauschen in Bezug zur Maskierungsschwelle spektral zu formen, werden „scalefactors“ auf jedes Band angewendet. Das System beginnt mit dem Faktor 1.0 für jedes Band. Wenn das Quantisierungsrauschen im gegebenen Band die Maskierungsschwelle übersteigt (und damit den erlaubten Rauschwert für dieses Band), die durch das perzeptive Modell gegeben ist, dann wird der „scalefactor“ dieses Bandes so angepasst, dass das Quantisierungsrauschen reduziert wird. Da für ein geringeres Quantisierungsrauschen eine grössere Quantisierungs-Schrittweite und damit mehr Bits zur aktuellen Codierung notwendig sind, muss bei jeder Veränderung der „scalefactors“ erneut der „rate loop“ wieder angepasst werden. Somit ist der „rate loop“ in den „noise control loop“ geschachtelt. Der „noise control loop“ wird solange wiederholt, bis das tatsächliche Rauschen (gebildet als die Differenz zwischen den originalen spektralen Werten und den quantisierten spektralen Werten) unterhalb der Maskierungsschwelle für jedes Band liegen. 37 Konvergenzbetrachtungen Während der rate loop immer konvergiert (nötigenfalls indem die Quantisierungs-Schrittweite so groß gesetzt wird, dass alle spektralen Werte auf Null gesetzt werden), gilt das nicht für die Kombination aus beiden Schleifen. Wenn das perzeptive Modell so kleine QuantisierungsSchrittweiten verlangt, dass der „rate loop“ diese immer weiter erhöhen muss, um in der vorgegebenen Bitrate codieren zu können, dann kann dieser Vorgang zu einer endlosen Schleife führen. 4.3.4. Formatierung des Bitstromes Der letzte Block des Encodierens besteht in der Produktion eines den Spezifikationen des MP3-Formats entsprechenden Bitstroms. Die Huffmancodierten spektralen Koeffizienten, Meta-Information und ein FrameHeader werden zu einem Frame zusammengefügt. Jeder Frame repräsentiert 1152 Audiosamples, die einzelnen Frames werden zu einem Bitstrom verbunden. Im Header wird die benutzte Bitrate und Abtastfrequenz definiert. In den Meta-Informationen wird unter anderem die Filterauflösung, die verwendeten Huffman-Tablellen und die „scale factors“ festgehalten. Abbildung 7 zeigt den genauen Aufbau eines MP3-konformen AudioHeaders: Abbildung 7: MPEG Layer 3-konformer Audio-Header aus [BEA97] 38 Bit-Reservoir Wenn der Encoder in einem Frame nicht die volle Anzahl der zur Verfügung stehenden Bits benötigt, um den Audio-Block vollständig zu encodieren, dann kann er die überschüssigen Bits einem sogenannten „Bit-Reservoir“ zuweisen. Wenn der Encoder in einem anderen Frame hingegen mehr als die zur Verfügung stehende Anzahl an Bits benötigt, so kann er Bits vom „BitReservoir“ leihen. Es ist nur möglich, Bits von bereits encodierten Frames zu leihen, nicht von zukünftig zu encodierenden Frames. Diese Technik bestimmt auch wesentlich die VBR-Möglichkeit (Variable Bit Rate) verschiedener Encoder. In dieser wird keine konstante Bitrate übertragen, sondern nur die Bitrate, die zur Encodierung des jeweiligen Signals notwendig ist. Bei vielen Signalen kann durch diese Technologie die Bitrate des encodierten Datenstroms gegenüber der konstanten Bitrate deutlich sinken. 4.4. Funktionsweise des MP3-Decoders Abbildung 8 zeigt das Prinzip des MP3-Decoders. Im folgenden soll das Prinzip des MP3-Decoders kurz dargestellt werden. Abbildung 8: Blockdiagramm eines MPEG Layer 3 Decoders aus [BRA94] Die Huffman-codierten Werte werden decodiert. Weiterhin werden die „scale factors“ und die einzelnen Signal-Informations-Samples aus dem Datenstrom seperiert (demultimplext). Aus den einzelnen Signalinformationen (spektrale Koeffizienten) wird unter Beachtung der „scale factors“ und der „bit allocation“ über eine Synthesefilterbank (inverse MDCT-Filterbank) dann wieder das komplette Audiosignal rekonstruiert. 39 Dabei benötigt der Decoderung bedeutend weniger Rechenaufwand als die Encodierung. 4.5. Qualitätsmerkmale des Encoders Codecs können die Qualität des Audiosignals verändern, wenn sie mit zu niedriger Bandbreite oder mit falschen Parametern betrieben werden. Fehlersignale, die im Audiosignal durch perzeptive Audiocodierung entstehen, werden Artefakte genannt. Diese Artefakte unterscheiden sich grundsätzlich von herkömmlichen Veränderungen des Audiosignals, da perzeptive Codecs Verzerrungen erzeugen, die als zeitveränderliches Fehlersignal in bestimmten Frequenzbereichen beschrieben werden können. Sie sind damit entgegen herkömmlichen Verzerrungen (wie zum Beispiel harmonische Verzerrungen) nicht auf die Harmonischen im Musiksignal beschränkt, und fallen unter Umständen durch ihren sehr ungewöhnlichen, sehr unnatürlichen Klangcharakter stark auf. Das resultierende Musiksignal kann folgendermaßen klingen: • • • Verzerrt, aber nicht harmonisch verzerrt; Erhöhtes Rauschen, aber das Rauschen tritt nur in bestimmten Frequenzbereichen auf; Rauher Klang, dabei kann die Rauheit sehr deutlich aufgrund des sehr zeitvariablen Charakters sein, da das Fehlersignal alle 24ms seine Charakteristik ändern kann. 4.5.1. Pre-echoes „Pre-echoes“ sind als Artefakte bei den Codecs, die eine hohe Frequenzauflösung benutzen, sehr verbreitet. Als „pre-echoe“ wird der Effekt bezeichnet, dass ein Störsignal wahrnehmbar ist, bevor das Signal, dass dieses Störsignal verursacht, zu hören ist. Dieses Störsignal entsteht folgendermaßen: Im Decoder werden die rekonstruierten Frequenzanteile von der Synthesefilterbank wieder zusammengesetzt. Diese besteht aus der Modulationsmatrix und dem Synthesefenster. Der Quantisierungsfehler kann als ein zusätzliches Rauschsignal gesehen werden, das den Frequenzen des Originalsignals hinzugefügt wird. Dieser Fehler hat eine zeitliche Länge, die der Länge des Synthesefensters entspricht. Also werden diese Rekonstruktionsfehler auch über diese gesamte Fensterlänge gestreut werden. Wenn im Musiksignal nun ein kurzer, plötzlicher Anstieg der Signalenergie stattfindet (z.B. ein kurzer Implus wie das Anschlagen von Kastagnetten8), 8 Spanisches traditionelles Musikinstrument, das im Wesentlichen aus zwei schalenförmigen kleinen Hartholzplatten besteht, die gegeneinander geschlagen werden. 40 dann steigt der Quantisierungsfehler ebenso an9. Dieser Quantisierungsfehler wird dann in der Rekonstruktion über die gesamte Fensterlänge gestreut, und ist damit dann schon eine gewisse Zeit vor dem eigentlichen Anschlagsgeräusch hörbar. Abbildung 9: Darstellung des „Pre-echoe“-Phänomen, entnommen aus [ERN01]. Die obere Abbildung zeigt das Originalsignal, die mittlere Abbildung zeigt das encodierte und wieder decodierte Signal und die untere Abbildung zeigt das durch das durch diese Codierung entstandene Fehlersignal. Abbildung 9 stellt dieses Phänomen deutlich dar, in der oberen Abbildung ist das Originalsignal in einer Oszillogrammdarstellung zu sehen, in der mittleren Abbildung ist das encodierte und wieder decodierte Signal zu sehen. Deutlich zu erkennen ist das durch die Encodierung vor dem eigentlichen Signal auftretende Rauschsignal. Im unteren Bild ist das entstandene Fehersignal dargestellt. 4.5.2. „Loss of bandwidth“, “birdies” Wenn ein Encoder keine Möglichkeit findet, einen gegebenen Block mit einem besonders komplexen Musiksignal mit der Anzahl der zur Verfügung stehenden Bits der gegebenen Bitrate zu codieren, dann fehlen ihm Möglichkeiten, alle Anteile des Musiksignals vollständig zu codieren. In diesem Fall werden einige Frequenzlinien nicht codiert, normalerweise ist der hohe Frequenzbereich des Signals betroffen. Diese Signalveränderungen sind natürlich besonders deutlich wahrzunehmen, wenn sich die effektive Bandbreite des Signals von Frame zu Frame ändert, wenn das zu codierende Signal also nicht bandbreitenbegrenzt ist, aber in bestimmten Signalabschnitten ein hochfrequenter Signalanteil zu codieren ist. 9 Da eine hohe Signalenergie auch eine hohe Maskierungsschwelle besitzt. Aus diesem Grunde kann eine sehr grobe Quantisierung für das Signal gewählt werden, da das entstehende Quantisierungsrauschen bis zu einem sehr hohen Pegel verdeckt wird. 41 Abbildung 10: Darstellung des „birdies“-Phänomen in einer SpektrogrammDarstellung, entnommen aus [ERN01]. Abbildung 10 stellt dieses Phänomen in einer Spektrogrammdarstellung dar. Deutlich zu erkennen sind Energieanteile im hohen Frequenzbereich, die zeitlich sehr variabel sind. An einigen Stellen ist im hohen Frequenzbereich deutliche Energie zu verzeichnen, während an anderen Stellen diese Energie überhaupt nicht auftritt (wenngleich sie beim Originalsignal vorhanden war). 4.5.3. Rauheit und “double speak” Speziell bei niedrigen Bitraten und geringen Abtastraten gibt es Probleme zwischen der Zeitauflösung des Codecs und der Zeitstruktur einiger Signale, besonders anzutreffen bei Sprachsignalen und bei Abhören über Kopfhörer. Da eine einzeln aufgenommene Stimme bei diesem Effekt klingt, als wäre sie doppelt aufgenommen und überlagert worden, wird dieser Effekt manchmal auch „double speak“ genannt. 4.5.4. Codierung des hochfrequenten Anteils des Audiosignals Frequenzen im Audiosignal bis 20kHz können zwar von jungen Menschen noch gut gehört werden können, aber es wird davon ausgegangen, dass die Hörbarkeit der hohen Frequenzen mit jeder Dekade um 1kHz abnimmt. Es gibt kein Ergebnis eines Hörtests, in dem Unterschiede zwischen auf 16kHz bandbegrenzten Audiosignalen und Audiosignalen mit hochfrequenten Anteilen bis zu 20kHz nachgewiesen werden konnten. 42 Somit wird in vielen Encodern das Audiosignal vor der Codierung auf 16kHz (oder tiefer) bandbegrenzt. Der Vorteil besteht darin, dass die verfügbaren Bits statt zur Abbildung (des vielleicht nicht oder nicht mehr hörbaren) hochfrequenten Signalanteils zur besseren Abbildung der tiefen Frequenzen benutzt werden können, auf deren Verzerrung und Manipulation das menschliche Ohr empfindlicher reagiert. Wird einem Encoder ein nicht bandbegrenztes Signal zur Codierung übergeben, so kann es vorkommen, dass die Reproduktion der hohen Frequenzen von Frame zu Frame (also alle 24ms!) schwankt. Damit ändert sich dann auch die Genauigkeit der Auflösung der Frequenzen im tiefen Frequenzbereich. Diese zeitliche Variation ist dann sowohl im hohen als auch im tiefen Frequenzbereich deutlich wahrnehmbar. 4.5.5. Unterschiedliche Einstellungen für unterschiedliche Bitraten Da es im Encoder dazu kommen kann, dass die Iterationsschleifen nicht konvergieren, wenn das perzeptive Modell so kleine QuantisierungsSchrittweiten verlangt, dass der „rate loop“ diese immer weiter erhöhen muss, um den gegebenen Signalanteil sauber codieren zu können, dann kann dieser Vorgang in einer endlosen Schleife resultieren. In diesem Fall ist es sinnvoll, die Parameter im perzeptiven Modell so zu verändern, dass die Schleifen im Normalfall konvergieren, auch wenn das zu Klangeinbussen im codierten Signal führt. Um diese Balance zwischen verfügbarer Bitrate und den Anforderungen des perzeptiven Modells möglichst immer zu erreichen, müssen die Parameter im perzeptiven Modell für jede einstellbare Bitrate immer unterschiedlich angepasst werden. 4.6. Unterschiede zwischen den Encodern Der MPEG-Standard definiert nicht die Implementierung und das Design des Audio-Encoders. Dies soll noch einmal herausgestellt werden. Zum Beispiel könnte ein Entwickler völlig auf die Implementierung eines perzeptiven Modells verzichten. Das Resultat wäre ein sehr schnell operierender Encoder, der vollständig mit dem MPEG-Standard kompatibel ist. Dieser Encoder wird aber mit der hochqualitativen Codierung einer großen Anzahl von komplexen Audiosignalen Schwierigkeiten haben: „The MPEG standards do not prescribe the implementation of the audio encoder. In an extreme case, one could completely acoid implementing the perceptual model, decide not to use the scalefactors (and therefore the outer iteration loop), ando do a very simple inner iteration loop. Such an encoder would be very fast (potentially much faster than any current 43 encoder product), would be compliant with the standard, would even produce a nice audio quality for some signals, but would sound very bad with a large selection of music.” ([BRA00], Seite11) Andererseits kann es für einen Entwickler, der sein eigenes verbessertes perzeptives Modell implementiert, vielleicht auch unter Beachtung noch anderer Phänomene des menschlichen Hörens, möglich sein, einen Encoder zu entwickeln, der vielleicht speziell bei sehr niedrigen Bitraten eine deutlich bessere Qualität aufweist. Dies ist der Grund für die Vielzahl an verfügbaren Encodern, und auch für die weitergeführte Entwicklung neuerer Encoder. Daraus resultiert natürlich die Notwendigkeit, verschiedene Encoder objektiv hinsichtlich ihrer Klangqualität (unter bestimmten Parametereinstellungen) miteinander zu vergleichen. 4.7. Objektive Vergleichsmöglichkeiten von Codecs In den vergangenen Jahren hat die verlustbehaftete Audiokompression vor allem im Telekommunikationsbereich eine große Bedeutung erlangt. Als einige wichtige Anwendungen seien GSM (Mobiltelefonie) und VoIP (Voiceover-IP, Telefonieren über das Internet) genannt. Es wurde sehr schnell klar, dass durch die Notwendigkeit zur Kompression in niedrigsten Bitraten, durch die fehlende Redundanz in den Systemen sowie durch massive Qualitätsverluste durch die oftmals notwendige Kaskadierung (serielle Nacheinanderschaltung) von Codecs objektive Vergleichsmöglichkeiten von Audio-Codecs geschaffen werden mussten. Im Grunde gibt es drei Ansätze, die Klangqualität von Encodern objektiv zu vergleichen: ausgedehnte Hörtests, herkömmliche standardisierte Messtechniken und perzeptive Messtechniken. Im folgenden werden die einzelnen Möglichkeiten genauer betrachtet. 4.7.1. Hörtests Groß angelegte Hörtests unter kontrollierten Bedingungen sind bis heute eigentlich fast die einzige Methode, die unterschiedlichen Codierungsalgorithmen und Encoder objektiv miteinander zu vergleichen. Es gibt einige Vorschläge (recommendations) für die Durchführung dieser Hörtests (unter anderem von der ITU-R10). Meist werden für die Beurteilung der Klangqualität Testsignale ausgewählt, von denen bekannt ist, dass sie sehr schwer hochqualitativ zu codieren oder prädestiniert für das Auftreten bestimmter Artefakte sind. 10 “Radiocommunication Sector of the International Telecommunication Union, former CCIR)” [KEY99] 44 Die Computertechnik-Zeitschrift C’T führte sowohl Experten-Hörtests als auch groß angelegte Leser-Hörtests durch ([CTZ00][CTZ02]), um eine eindeutige Qualitätsbewertung von MP3 und dessen Nachfolgern zu präsentieren. Das Ziel waren also objektive, reproduzierbare Tests, die die vom Hörer subjektiv beurteilte Qualität von Audio-Codecs (bei bestimmten Bitraten) mit der des unkomprimierten Musikstückes vergleichen sollten. Zwei Hörtests dieser Zeitschrift, aus dem Jahr 2000 und aus dem Jahr 2002) sollen im folgenden genauer betrachtet werden, da diese eine nüchterne Betrachtung der oftmals hitzig geführten Diskussion über die Qualität von MP3 und deren Nachfolgern gestatten. Mit Anführungsstrichen werden Zitate aus den beiden Zeitschriften gekennzeichnet. Der C’T-Leser-Hörtest publiziert in Heft 04/2000 Aufgrund einer heftigen Debatte von Kompressions-Befürwortern und deren Gegnern berief die Redaktion der C’T einen Leser-Hörtest mit 12 für einen solchen Test qualifizierten Lesern ein. Der Abhörraum war laut C’T ausreichend akustisch bearbeitet („ein audiophiles Wohnzimmer“, der ehemalige Hörraum der Zeitschrift HiFIVision, grossflächig mit Diffusern versehen), und mit einer hochwertigen Abhör-Anlage versehen (Abhörmonitore B&W-Nautilus803 sowie Kopfhörer Sennheiser Orpheus). Es galt, im Blindtest bei mehreren Musikstücken das unkomprimierte Format, das MP3-Format mit 128 kBit/s und das MP3-Format mit 256 kBit/s zu erkennen. Im einzelnen sind nachfolgend einzelne der 12 Hörer aufgeführt (primär um zu zeigen, dass es sich nicht um Disco(-Hör)-Geschädigte TechnoMusik-Anhänger handelte). In Klammern ist jeweils ein Kommentar des Hörers zum Test angegeben: • • • • Ein Tonmeister, der für die Deutsche Grammophon Klassikaufnahmen produziert und mastert. („Das war hart. Es kam mir fast so vor, als ob einige der 256kBit/s-Einspielungen etwas runder und gefälliger geklungen hätten als die Originale von CD. Davon durfte man sich nicht beirren lassen.“) Ein studierender Elektronik-Entwickler („Seit eines Explosionsunfalls höre ich links nur noch bis 8kHz, und rechts hatte ich bis vor kurzem einen hartnäckigen Tinnitus. Trotzdem bekomme ich die typischen Flanging-Effekte der MP3-Filterbank mit, und das sogar besser als meine Freunde – vielleicht sogar wegen meines Hörschadens.“ Ein „Musikfreund, der 40000 DM für seine Stereoanlage ausgab“ ein Entwickler von Hörgeräten, der an Audiosignalverarbeitungsalgorithmen arbeitet. („Ich bin es gewohnt, ein intensiven Klangtests genauestens auf Verarbeitungs-Artefakte und Klangunterschiede zu achten.“ 45 • Ein an der Entwicklung des Kunstkopfes aktiv Beteiligter, der bereits seit der Geburt blind ist. Folgende Ergebnisse wurden für diesen Hörtest publiziert: • • • • Gerade bei Hörer mit Hörschaden sind die Artefakte der Kompression gut wahrnehmbar, weil das gesamte Prinzip der verlustbehafteten Codierung (siehe Maskierungseffekte) für diese Hörer nicht mehr gilt, wahrscheinlich aufgrund antrainierter kompensatorischer Hörgewohnheiten. Keineswegs wurden Klassikaufnahmen immer richtig beurteilt, vielmehr wurden richtige Zuordnungen eher bei Musik-Stilen wie zum Beispiel „Funk“ erreicht. Die mit 128kBit/s-MP3-Proben konnten treffsicher von den beiden anderen Proben unterschieden werden (statistisch signifikant mit 1% Irrtumswahrscheinlichkeit), aber zwischen 256kBit/s-MP3 und der unkomprimierten Probe war kein Unterschied erkennbar. Es gibt keine Musikrichtung, die sich besonders gut oder besonders schlecht zur Komprimierung eignet, die Erkennbarkeit der Kompression war nicht auf bestimmte Stile begrenzt. Der C’T-Hörtest publiziert in Heft 19/2002 Die Qualität der Nachfolger des MP3-Formates (im Einzelnen OggVorbis, MP3Pro, WMA9, RealMedia und AAC) wurde einerseits durch einen Experten-Hörtest, bei dem Spezialisten, die in ihrer täglichen Arbeit im weitesten Sinne mit Audio zu tun haben, und andererseits durch einen Internet-basierten Leser-Hörtest mit 3500 Teilnehmern geprüft. Der erste Teil des Hörtests fand in den Peppermint-Studios in Hannover statt. Als Abhörraum wurde der Hauptregieraum, der natürlich akustisch behandelt ist, mit den dort fest installierten Quested-Haupmonitoren benutzt. Es galt, drei Test-CDs mit 64, 128 und 160 kBit/s einzustufen. Dabei enthielt jede CD neben dem unkomprimierten Referenz-Format nochmals das gleiche, diesmal aber versteckte unkomprimierte Format und sechs weitere Musikstücke, die mit den schon genannten Codecs komprimiert wurden: • • • • • • Ogg Vorbis MP3 MP3pro WMA9 RealMedia AAC 46 Der zweite Teil des Tests war identisch mit dem ersten Teil, aber die Experten konnten sich ihre (von der C’T-Redaktion komprimierten) präferierten Musikstücke in ihrer jeweiligen Hörumgebung ohne Zeitbegrenzung anhören. Im einzelnen sind nachfolgend die teilnehmenden Experten aufgeführt: • Wiederum der Tonmeister, der für die Deutsche Grammophon Klassikaufnahmen produziert und mastert • Ein Kopfhörerentwickler, der bei Sennheiser beschäftigt ist • Ein Hörer, der ehrenamtlich im Tonstudio arbeitet, und seit der Geburt blind ist (nahm bereits am vorherigen Test teil) • Eine Sopranistin, die an der Niedersächsischen Staatsoper angestellt ist • Ein musikbegeisterter Schüler, der seit dem siebenten Lebensjahr Klavier spielt • Ein Codec-Designer, der seit Jahren mit der Entwicklung von AudioKompressionsverfahren beschäftigt ist • Der Chefredakteur der C’T • Ein Popmusik-Produzent und wohl auch Musiker (MousseT) Folgende Ergebnisse wurden publiziert: • • • MP3 stellte sich bei 64kBit/s als schlechtestes Kompressionsformat heraus. MP3Pro fällt gerade bei höheren Bitraten zunehmend hinter die anderen Kompressionen zurück11. Im zweiten Teil des Tests gelang es fast allen Experten, das (versteckte) unkomprimierte Format in den ersten drei Plätzen einzuordnen, es also als qualitativ hochwertiger gegenüber den Kompressionsformaten einzustufen. Der Online-Hörtest war identisch mit dem ersten Teil des ExpertenHörtests, es wurden die gleichen Kompressionsalgorithmen benutzt, allerdings wurden nur 64 und 128kBit/s als Bitraten angeboten, und die Länge der Testfiles wurde aufgrund der (ohnehin schon sehr langen) Download-Zeit der Files über das Internet gekürzt. Folgende Ergebnisse wurden publiziert: • • 11 64kBit/s : Das MP3-komprimierte Format schnitt deutlich am schlechtesten ab (90% für den letzten Platz), das unkomprimierte Format wurde von 41% der Online-Tester als am besten bewertet. 64kBit/s: Das „Ogg Vorbis“ Format schnitt deutlich am besten ab, es wurde von 25% der Tester für das beste Testfile gehalten (inklusive unkomprimiertem Referenz-Testfile). MP3Pro ist allerdings auch klar für niedrige Bitraten optimiert. 47 • • • 64kBit/s: Das RealAudio-Format wurde tendenziell auf die hinteren Plätze verwiesen (51% für den 6. Platz). 128kBit/s: Die Unterschiede verwaschen: „Ogg Vorbis“ ist immer noch in führender Position, das unkomprimierte Format findet sich hauptsächlich auf den vorderen Plätzen. 128kBit/s: Das AAC-Format schneidet eher schlecht ab (26% für den letzten Platz). Fazit Bei den klassischen 128kBit/s scheint es laut C’T für die breite Masse momentan keinen Grund zu geben, vom Klassiker MP3 abzurücken. Dagegen schneidet dieser Codec bei 64kBit/s sowohl bei den Experten als auch beim Online-Test am schlechtesten ab. Bei dieser Bitrate schneidet „Ogg Vorbis“ im Online-Test am besten ab. In Vorab-Tests in der C’TRedaktion wurde das „Ogg Vorbis“ Format bei 64kBit/s sehr oft mit dem Original verwechselt, ein erstaunliches Ergebnis, das sich in den OnlineTest bestätigte. In den Regionen ab 160kBit/s (und auch schon bei dieser Bitrate) verwaschen die Unterschiede zwischen den Codecs zunehmend, und die statistischen Signifikanzen verschwinden. Es war in den beiden C’T-Artikeln nicht zu erfahren, wie die Rechte- und Copyright-Klärung beim Online-Test gelöst wurde. Das ist insofern relevant, da im Rahmen der Internet-Publikation des fertiggestellten multimedialen Lernmoduls zur perzeptiven Audiocodierung aufgrund der verwendeten Musikstücke diese Veröffentlichung von den TonträgerLabels nicht genehmigt wurde. Selbst die 30sekündigen Extrakte bei vollständiger Namen- und Rechte-Nennung und der Garantie der Nichtspeicherungsmöglichkeit der Files (da das Programm nur streambar sein sollte) sorgten nicht für eine Freigabe. 4.7.2. Subjektive Messtechniken – die ITU-Skalen Die ITU verabschiedete einige Standards zur subjektiven Messtechnik von perzeptiven Codecs, die im folgenden genauer betrachtet werden sollen. Dieser Abschnitt ist eine Zusammenfassung von [KEY99]. Die genaue Beschreibung der verschiedenen Standards findet sich unter anderem in [ITUw]. Die ITU-T12 P.800 12 [KEY99]: International Telecommunication Union, Geneva, (former CCIITT) 48 Für die Qualitätseinschätzung von Sprach-Codecs entwickelte die ITU-T die Empfehlung P.800. Sie definiert einen sogenannten ACR (Absolute Category Rating test method), bestehend aus einer fünfstufigen „impairment“-Skala: Impairment Excellent Good Fair Poor Bad Grade 5 4 3 2 1 Tabelle 4: Die ITU-T P.800 "five-grade impairment scale" Da der ACR ursprünglich für den Telekommunikationsbereich entwickelt wurde, verwendet der Test keine unkomprimierte Referenz, da im typischen Anwendungsfall (also einem Telefongespräch) der Hörer ebenfalls das unkomprimierte Signal (die Originalstimme des Sprechenden) nicht als Vergleichsreferenz zur Verfügung steht. Um einen Vergleich zu ermöglichen und um die Meinung des Hörers an die AbsolutSkala anzupassen, werden definierte, mit Modulationen und Rauschen versehene Referenzsamples am Beginn des Tests eingefügt. Jedes Sample präsentiert eine Stufe auf der fünfstufigen Skala. Normalerweise wird der Test mit 20-50 Testpersonen durchgeführt. Die Testperson wird aufgefordert, jedes Sprachsample auf der fünfstufigen Skala zu bewerten. Aus den individuellen Daten kann am Ende ein „mean opinion score“ für die Wertung „impairment“ des jeweiligen Codecs gebildet werden. Die ITU-R BS-1116 Die ITU verabschiedete ebenfalls eine Testprozedur zur Bewertung von (den gesamten Frequenzbereich bearbeitenden) Audio-Codecs auf der Basis von Hörtests unter dem Namen BS-1116 „Methods for the Subjective Assessment of small Impairments in Audio Systems including Multichannel Sound Systems“. Dieser Test basiert auf dem Vergleich des komprimierten mit dem unkomprimierten Signal. Die Testmethode wird „double-blind triple-stimulus with hidden reference“ bezeichnet. Sie ermöglicht speziell die Detektion geringer Signalqualitätsverluste (small impairments). Zu Beginn des Tests werden wie bei der P.800-Empfehlung Referenzsamples angeboten, die eine Angleichung an die Absolutskala ermöglichen: 49 Impairment Imperceptible Perceptible, but not annoying Slightly Annoying Annoying Very Annoying Grade 5.0 4.0 3.0 2.0 1.0 Tabelle 5: Die ITU-R BS 1116 „five-grade impairment scale“ Problematisch bei diesem Test ist die Tatsache, dass das Testdesign nur die Bewertung geringer Signalqualitätsverluste zulässt. Zweitens ist durch die Teilung der Skala in über 40 diskrete Schritte (Skala wird in einer Genauigkeit von einer Nachkommastelle abgefragt) die Gefahr der Überforderung der Testpersonen durch zu viele Wahlmöglichkeiten sehr hoch. Oft wurde (in Ermangelung eines anderen geeigneten Tests) die Bewertung von Audio-Codecs, die durch höhere Signalqualitätsverluste gekennzeichnet sind, durch die Empfehlung P.800 vorgenommen. Die Skala für diese Empfehlung wurde aber aus den Sprach-Codecs für Telekommunikation mit ihren typischen Verzerrungen erzeugt, und es gibt keine klar definierten Referenz-Verzerrungen für Audio-Codecs mit sehr niedrigen Bitraten, um die P.800-Absolut-Skala zu erzeugen. Da die erzielten Resultate stark von der subjektiven Interpretation der Signalqualitätsverluste abhängen, kann die P.800-Skala eigentlich nicht zur Beurteilung von Musik-Codecs eingesetzt werden. 4.7.3. Objektive Messtechniken Um die Qualität des Encoders zu bestimmen, können bestimmte typische Signalqualitätsparameter wie zum Beispiel der Signal-Rausch-Abstand (SNR) bestimmt werden. Es wurde aber schnell klar, dass es nicht viel Sinn macht, konventionelle Meßmethoden zur Qualitätsbestimmung anzuwenden. Ein Grund dafür ist, dass die Codecs durch die komplexe psychoakustische Modellierung ein hohes nichtlineares Verhalten zeigen. Meßmethoden wie Frequenzgang und Signal-Rausch-Abstand zielen auf ein lineares System ab, um vernünftig auswertbare Ergebnisse zu erhalten. Maskierungseffekte des menschlichen Ohres (die von den Codecs ja gerade ausgenutzt werden) finden bei herkömmlichen Meßmethoden keine Beachtung. Das Prinzip perzeptiver Codierung ist aber gerade, die messbare Signalqualität möglicherweise zu beeinträchtigen, beispielsweise den Signal-Rausch-Abstand unter Berücksichtigung der Maskierungsschwelle absichtlich zu verringern, solange es für die Bitratenreduzierung sinnvoll ist, und eben nicht vom menschlichen Hörapparat als Verschlechterung der Signalqualität empfunden wird. 50 Weiterhin muss zur Messung eines nichtlinearen Systems natürlich auch ein Testsignal gewählt werden, welches die Nichtlinearität zum Vorschein bringt. Ein einzelner Sinuston, der mit Sicherheit am einfachsten zu codieren ist, ist dafür nicht geeignet. Durch das Verfahren des BitReservoirs (also die Pufferung und Möglichkeit des „Leihens“ von Bits, um ein Signal zu codieren) ist eine weitere Gefahr gegeben: Das gleiche Signal kann in zwei unterschiedlichen Qualitäten codiert werden, abhängig davon, ob das Bit-Reservoir Bits zur Verfügung stellen kann oder das BitReservoir leergelaufen ist. Zu schlussfolgern ist, dass herkömmliche Meßmethoden der Signalqualität nicht geeignet sind, um die Qualität perzeptiver Encoder sinnvoll miteinander zu vergleichen. Vielmehr sollte ein System geschaffen werden, das die auditive Wahrnehmung des menschlichen Hörapparates nachbildet, und in dieser Nachbildung die Differenz des unkomprimierten und des komprimierten Signals bildet. Diese Differenz sollte dann der wahrnehmbaren Verzerrung und Veränderung des Signals durch den Codec entsprechen. Beim Vergleich von Codecs sollte natürlich die gleiche Testsequenz verwendet werden. 4.7.4. Perzeptive Messtechniken In den letzten 15 Jahren wurden neue Techniken entwickelt, um komprimierte Signale zu evaluieren. Diese beziehen sowohl psychoakustische als auch kognitive Effekte ein, um die auditive Wahrnehmung zu modellieren. Ein wichtiger Antriebsfaktor bei der Entwicklung reliabler Testmethoden war die enorme finanzielle und zeitliche Belastung, die ein repräsentativer Hörtest fordert. Erschwerend kommt hinzu, dass die herkömmlichen Testmethoden im täglichen Gebrauch keine Überwachung der CodecQualität leisten können, da sie zeitlich viel zu aufwendig sind. Abbildung 11: Allgemeine Struktur eines perzeptiven Mess-Algorithmus aus [KEY99] Das Konzept der perzeptiven Messtechniken ist immer ähnlich und in Abbildung 11 dargestellt: Der Prozeß der menschlichen auditiven Perzeption wird modelliert. Dabei simuliert das Modell ein auditives System, welches die vom auditiven 51 System wahrgenommenen Komponenten des Signals zeigt. Dieses kann als eine Art interne Präsentation des Audiosignals im auditiven System verstanden werden. Diesem Modell wird einerseits das unkomprimierte, andererseits das komprimierten Signal zugeführt. Der Vergleich des Differenzsignals aus beiden Signalen ergibt dann die „auditiv wahrnehmbare Differenz“. Durch verschiedene Algorithmen und Gewichtungen wird diese Differenz in einen Einzahlwert überführt. Dieser mittlere Unterschiedswert sollte dem Mittelwert des Ergebnisses eines Hörtests vergleichbar sein. Meist werden für das Modell der perzeptiven Messtechnik die verschiedensten psychoakustischen Effekte modelliert. Beispielsweise könnte die Modellierung der Maskierung aufgrund der Ergebnisse von Zwickers ([ZWI67] [ZWI90]) psychoakustischen Experimenten erfolgen (die mit Rauschen und Sinustönen durchgeführt wurden). Durch eine Generalisierung und Implementierung einer Vielzahl solcher psychoakustischen Experimentalergebnisse kann ein perzeptiver Messalgorithmus entwickelt werden, welcher auch auf komplexe Audiosignale anwendbar ist. Diese Ansätze wurden von den Verfahren NMR und PSQM verfolgt. Aufbau und Funktionsweise eines typischen perzeptiven Messalgorithmus Ein Vergleich verschiedener Algorithmen (z.B. PAQM, PSQM, NMR, PERCEVAL, DIX, OASE, POM) führt zu folgendem allgemeinen Aufbau: Es existieren zwei Eingänge, einer für das (unbearbeitete) Referenzsignal und einer für das zu testende Signal (das Ausgangssignal eines Codecs, dessen Eingangssignal das Referenzsignal war). Es wird davon ausgegangen, dass die Signale zeitlich synchron vorliegen (über ein „delay compensation“) und den gleichen Pegel besitzen (über „gain compensation“). Weiterhin wird angenommen, dass die Signale keine DCKomponente (Gleichspannungsoffset) besitzen, da die meisten Algorithmen solche Signalkomponenten nicht handhaben können. In einem ersten Bearbeitungsschritt wird die Peripherie des Ohres modelliert („ear model“). In einem nachfolgendem Schritt errechnet der Algorithmus die wahrnehmbaren Verzerrungen im zu testenden Signals in Bezug auf das Referenzsignal, indem er die Ausgangssignale des Ohrmodells (für beide Signale) miteinander vergleicht. Das Ergebnis dieses Prozesses wird MOVs („Model Output Variables“) genannt. Um einen Einzahlwert für die hörbare Verzerrung des zu testenden Signals zu erhalten, werden die MOVs einem Algorithmus zugeführt, der den kognitiven Part des menschlichen auditiven Systems (grob: die Verarbeitung durch das Gehirn) simuliert. Dieses kann zum Beispiel durch algorithmische Beschreibungen (z.B. PSQM) oder künstliche neuronale Netzwerke (z.B. PEAQ) geschehen. 52 Standardisierungen für perzeptive Messtechniken – Die ITU-Empfehlungen PSQM und PEAQ PSQM Nach einem weitreichenden Vergleich diverser existenter Methoden wurde 1986 für die objektive Beurteilung von Sprach-Codecs die Empfehlung ITU-T P.861 entwickelt. In dieser wurde der PSQM-Algorithmus favorisiert. Das Ergebnis dieser Messtechnik korrelierte zu 98 Prozent mit den Ergebnissen subjektiver Hörtests. Abbildung 12: Blockdiagramm PSQM aus [KEY99] Abbildung 12 skizziert das Prinzip von PSQM. In dieser Arbeit wird nicht genauer auf die einzelnen Komponenten eingegangen. Der genaue Aufbau und die Funktionsweise der einzelnen Komponenten ist [KEY99] zu entnehmen. PEAQ Um auch die Qualität von breitbandigen Audiosignalen objektiv beurteilen zu können, wurde 1988 die Empfehlung ITU-R BS.1387 entwickelt. In dieser wurden zwei Versionen des PEAQ-Algorithmus (PErceived Audio Quality) präsentiert: eine „basic“-Version, die durch eine geringe Komplexität gekennzeichnet war (und damit durch eine hohe Berechnungseffizienz und geringe Latenz: vorrangig für den EchtzeitEinsatz entwickelt), und eine „advanced“-Version, die eine höhere Komplexität (aber eine sehr hohe Genauigkeit und hohe Latenz) aufweist. 53 Abbildung 13: Blockdiagramm PEAQ aus [KEY99]. Eingang des Modells sind das Eingangssignal (links) und der Abhörpegel in db(SPL) (rechts). Abbildung 13 skizziert das Prinzip von PEAQ. Der genaue Aufbau und die Funktionsweise der einzelnen Komponenten ist ebenfalls [KEY99] zu entnehmen. Anwendungen der perzeptiven Messtechniken Folgende Auflistung gibt nach ITU-R BS.1387 (PEAQ) die Anwendungsgebiete der perzeptiven Messtechnik und ihre Priorität (in Klammern) an: Entwicklung: • Codec-Entwicklung (mittel) • Netzwerk-Planung (mittel) • Hilfe bei subjektiven Bewertungen (niedrig) Diagnose: • Bewertung der Codec-Qualität (hoch) • Status der Geräte und Verbindungen (mittel) • Codec-Identifikation (niedrig) Operationale Anwendungen: • Online Monitoring (hoch) • Line up (hoch) In besonderem Maße ist in der Telekommunikation (und in gleichem Maße beim Rundfunk) die Kaskadierung von (möglicherweise unterschiedlichen) 54 Codecs relevant. Damit einher geht oftmals ein massiver Qualitätsverlusts des zu übertragenen Audiosignals. Da sich die Sprach-Codierung zum Erreichen der geforderten niedrigen Bitraten die Modellierung des menschlichen Vokaltraktes zunutze macht, sind Sprach-Codecs auf das Übertragen von Sprache unter diesen Parametern optimiert und leisten in diesem Bereich gute Dienste. Wird allerdings ein breitbandiges Musiksignal über einen solchen Sprach-Codec übertragen, ist das qualitative Ergebnis oft sehr schlecht, da der SprachCodec völlig andere Parameter aus dem Signal extrahiert als ein MusikCodec. Wird eine Übertragung eines Musiksignals über eine Telefonleitung gewünscht, leistet die Evaluierung der Signalqualitätsverluste durch perzeptive Messtechnik gute Dienste. Waren bis vor ein paar Jahren noch einige wenige große Gesellschaften für Telekommunikations für die Errichtung der Telekommunikationsnetze und damit auch für die einheitliche Einführung von Sprach-Codecs verantwortlich, führt heutzutage durch die zunehmende Privatisierung der Telekommunikation und durch eine Vielzahl von kleineren Firmen auch zu immer unterschiedlicheren und proprietären Codecs. Durch die oft angemieteten oder geleasten Telefonleitungen (und damit auch deren Codecs) ist die massive Qualitätsverschlechterung durch mehrfache Kaskadierung von Codecs vorprogrammiert. Eine objektive Überwachung der Signalqualität durch perzeptive Messtechniken ist hier unumgänglich. 4.7.5. Vergleich der subjektiven und objektiven ITU-Empfehlungen nach Datenraten Für die Anwendung der einzelnen ITU-Normen (im subjektiven und objektiven Vergleich) werden folgende Datenraten empfohlen [KEY99]: Datenrate ... 128 kBit/s . 64kBit/s . 16kBit/s ... Subjektiv Objektiv ITU-R BS.1116 ITU-R BS.1387 (PEAQ) Typischer Music-Codec -----------------------------------------------------Typischer Sprach-Codec ITU-T P.800 ITU-T P.861 (PSQM) Tabelle 6: Überblick über objektive und subjektive ITU-Empfehlungen und deren Bandbreiten aus [KEY99] 55 5. Aktueller Stand der Forschung in der perzeptiven Audiocodierung In diesem Kapitel werden die Nachfolger des MP3-Codecs beschrieben. Im Wesentlichen werden die Codecs MPEG4 Audio (bzw. MPEG2 AAC) beschrieben. Es wird auf Verbesserungen gegenüber MP3, auf Funktionsweise, Qualität und Kompatibilität eingegangen. Dieser Teil des Kapitels ist eine Zusammenfassung der Publikationen [BRA], [GRI01] und [GRI02]. Im Anschluss werden weiterführende innovative Konzepte der perzeptiven Audiocodierung betrachtet, im Wesentlichen beruhend auf [DIE03], [FAL03] und [SCH03]. 5.1. MPEG4 Audio / MPEG2 AAC 5.1.1. Die Verbesserungen gegenüber MP3 In MPEG4 Audio ist der MPEG2 AAC Codec enthalten. Mit diesem können ebenso wie mit MP3 monophone und stereophone, aber auch mehrkanalige Audiosignale codiert werden. MPEG4 Audio wurde entwickelt, um alle möglichen Codierungs-Szenarios, von der Codierung niedrigster Bitraten bis zur Codierung für Tonstudio-Anwendungen abzudecken. Es enthält eine Reihe von Codecs, die auf bestimmte Audiosignalarten optimiert wurden, wie zum Beispiel spezielle SprachCodecs für sehr niedrige Bitraten. Besonderes Merkmal von MPEG4 Audio ist eine Bitraten-Skalierung. Diese Funktion erlaubt die dynamische Anpassung der Bitrate an zeitlich variable Kanäle, wie zum Beispiel das Internet oder drahtlose Übertragungskanäle. Ebenso bietet es Vorteile bei der Übertragung über Verbindungen mit unbekannter Kanalkapazität, da diese nicht mehr bereits bei der Encodierung bekannt sein muss. Der Datenstrom bei der Bitratenskalierung besteht aus verschiedenen Bitströmen, die hierarchisch decodiert werden. Dadurch resultiert die Decodierung nur eines (kanalangepassten) Teilstromes des totalen Datenstromes in einem vollständigen decodierten Signal mit niedrigerer Bitrate und Qualität. 5.1.2. Funktionsweise des MPEG 2 AAC Encoders Im folgenden soll die Funktionsweise des MPEG2 AAC Encoders genauer betrachtet werden. Abbildung 14 stellt in einem Blockdiagramm die Funktionsweise dar: 56 Abbildung 14: Blockdiagramm eines MPEG-2 AAC Encoders aus [BRA99] Im folgenden soll die Funktionsweise genauer betrachtet werden. Das Prinzip der Bitratenskalierung In Abb. ist in einem Blockdiagramm das Prinzip der Bitratenskalierung dargestellt: Abbildung 15: Prinzip der Bitratenskalierung im AAC-Encoder aus [GRI01] Das Eingangssignal wird von einem ersten Encoder bearbeitet und der resultierende Bitstrom als erster Teil des zusammengesetzten Bitstroms übertragen. Dieser bildet die erste Codierungsebene, genannt erster Layer. Dann wird das Fehlersignal als Differenz aus dem ersten codierten Bitstrom und dem Originalsignal gebildet. Dieses Fehlersignal bildet das Eingangssignal für die nächste Codierungsebene, deren Ausgangssignal den zweiten Teil des zusammengesetzten Bitstroms, also den zweiten Layer bildet. Dieser Vorgang kann so oft wiederholt werden, bis das gewünschte Codierungsergebnis erreicht ist, in der Praxis werden selten mehr als vier Codierungs-Layer durchlaufen. Während der erste Codierungslayer (genannt „base layer“) den überwiegenden Anteil der relevanten Signalkomponenten enthält, erhöhen 57 die nachfolgenden Layer (genannt „enhancement layer“) nacheinander immer mehr die Codierungsqualität. Die Funktionsweise der Encodierung Der „core coder“ ist ein „base layer“ Encoder, der auf einer niedrigeren Abtastrate arbeitet: Das Eingangssignal wird auf eine niedrigere Abtastrate gebracht und vom „core coder“ codiert. Der resultierende „core layer“ Bitstrom wird einerseits an den Bitstrom-Multiplexer weitergereicht und andererseits von einem „local core decoder“ gleich wieder decodiert. Dieser Datenstrom wird wieder auf die vorherige höhere Abtastrate gebracht und der MDCT-Filterbank zugeführt. In einem parallelen Signalweg wird das (um die eben beschriebene Bearbeitungszeit zeitverzögerte) Original-Eingangssignal ebenfalls der MDCT-Filterbank zugeführt. Ein frequenzselektiver Schalter (genannt „FSS-frequency selective switch“) wählt zwischen zwei Codierungsmöglichkeiten. Es werden entweder die spektralen Koeffizienten des Eingangssignals codiert oder die Differenz aus dem Eingangssignal und dem decodierten „core layer“ Datenstrom. Diese spektralen Koeffizienten werden nun der nachfolgenden Codierungsstufe zur Quantisierung und Codierung übergeben. Dieser „enhancement layer“ Bitstrom kann entweder als eigene Ebene in den zusammengesetzten Bitstrom übernommen oder separat übertragen werden. Die Decodierung Der „core layer“ Bitstrom wird zuerst decodiert und auf eine höhere Abtastrate gebracht. Nachdem die Zeitverzögerung kompensiert wurde, wird er der MDCT-Analyse-Filterbank zugeführt. Wenn nur der „core layer“ Bitstrom übertragen wurde, wird der Ausgang der MDCT-Filterbank (nach einem optionalen nachgeschaltetem Filter) an den inversen frequenzselektiven Schalter weitergereicht (genannt „IFSS-inverse frequency selective switch“). Wurden ebenfalls „enhancemant layer“-Bitströme übertragen, dann werden die spektralen Daten aller Ebenen akkumuliert, decodiert und mit den spektralen Daten des „core layer“ Bitstrom über die Einstellungen des IFSS zusammengeführt. Über eine inverse MDCT-Filterbank (IMDCT) werden die spektralen Daten dann schließlich in den Zeitbereich zurücktransformiert. Mono/Stereo-Skalierung Der „MPEG4 scalable GA (general audio) coder“ enthält auch eine Skalierungsmöglichkeit für Mono/Stereo: Die Decodierung von niederen 58 Layern resultiert in ein Monosignal, während die Decodierung von höheren Layern in ein Stereosignal resultiert: Alle Mono-Layer codieren das Stereosignal als ein Monosignal. Die Stereo-Layer codieren das Stereosignal entweder in einer M/S13- oder L/R14-Darstellung des Signals. Wenn die MS-Darstellung des Signals benutzt wird, ist das encodierte Signal des niederen Monolayers näherungsweise als ein Mitten-Signal verfügbar. 5.1.3. Die Qualität des MPEG2 AAC Encoders Verglichen mit einem einfach skalierten AAC Datenstrom, verursacht die Skalierbarkeit des MPEG4 Audio Encoders einen Verlust der Kompressionseffizienz. Der Verifikationstest (MPEG98/N2425) zeigte, dass die Signalqualität für den skalierten AAC-Encoder (bei drei skalierten Layern) zwischen der des unskalierten AAC-Encoders und der Signalqualität des MP3-Encoders liegt. 5.2. SBR (Spectral Band Replication) Die Codierung mit SBR geht auf einen Vortrag von [DIE03] der Firma Coding Technoligies zurück, der auf der DAGA 2003 gehalten wurde (es liegt bisher kein Paper vor). SBR versucht den Nachteil auszugleichen, der durch Nichtcodierung des hochfrequenten Signalanteils vieler perzeptiver Audio-Codecs entsteht. Diese Nichtcodierung resultiert aus der Anfälligkeit vieler Codecs gegenüber diesen hochfrequenten Signalanteilen (Entstehung von „Birdies“) und der Notwendigkeit der effizienten Verteilung der verfügbaren Bandbreite, so dass das Audiosignal oft bandlimitiert und nur bis zu einer gewissen Grenzfrequenz codiert wird. Coding Technologies fand eine hohe Korrelation zwischen den tieffrequenten und den hochfrequenten Signalanteilen. Das Grundprinzip der SBR besteht darin, das der hochfrequente Signalanteil wieder rekonstruiert wird, indem die tieffrequenten Spektrallinien in den (da bandbegrenzt und damit oberhalb der Grenzfrequenz nicht mehr vorhandenen) hochfrequenten Spektralbereich einfach kopiert werden („patching“). Die mit dem Originalsignal nicht mehr übereinstimmende spektrale Hüllkurve wird angeglichen, indem eine Sidechain-Information in den Metadaten des codierten Datenstromes ausgewertet wird. Diese Sidechain-Information enthält die spektrale Hüllkurve des Originalsignals, und wurde bei der 13 Mitte-Seite-Codierung: Ein Verfahren, in der das Stereosignal als Mittensignal und Seitensignal übertragen wurde. Aus der Summierung des Mitten- und phasenrichtigen Seitensignals wird der linke Kanal gewonnen, aus dem Mitten- und phasengedrehten Seitensignal wird der rechte Kanal gewonnen. 14 Links-Rechts-Codierung: Übliches Stereoformat, in der auf einem Kanal der vollständige linke Kanal und auf einem weiteren Kanal der vollständige rechte Kanal übertragen wird. 59 Encodierung erzeugt. Sie benötigt nur 3kBit/s Bandbreite im codierten Datenstrom. Diese Rekonstruktion des hochfrequenten Signalanteils erfolgt für jeden Zeit-Frame. SBR ist auf jeden Codec applizierbar. Sollte ein Decoder SBR nicht unterstützen, wird der normale Datenstrom ohne SBR decodiert. Durch Kombination von MP3 und SBR entsteht das Format MP3Pro, durch Kombination von AAC und SBR entsteht AACPlus (AAC+). Laut Angaben des Herstellers soll mit AAC+ mit einer Bandbreite von 48kBit/s „broadcast quality“ erreicht werden. In diversen Tests (MPEG März 2003, EBU September 2002) erreichten die Codecs mit SBR vordere bis vorderste Plätze. 5.3. BCC (Binaural Cue Coding) Die Codierung mit BCC geht auf einen Vortrag von [FAL03] zurück, der auf der DAGA 2003 gehalten wurde (es liegt bisher kein Paper vor). Das Einsatzgebiet von BCC ist die Übertragung von mehrkanaligem Audio unter niedrigen Bitraten. BCC benutzt ICLD (interchannel level difference) und ICTD (interchannel time difference). Diese Cues werden in der Frequenzebene („subbands“), in der Zeitebene („at regular time intervals“) und zwischen Kanälen („between pairs of channels“) ausgewertet, indem Energie- und Delayberechnungen von einzelnen Audio-„Objekten“ ausgewertet werden (die Klassifizierung und das Mapping von Audiosignalen in Audio-Objekte wurde nicht erschöpfend dargestellt). Die Parameter der Berechnungen werden in einem SidechainDatenstrom codiert. Für Stereosignale entsteht eine Datenrate von 1.5 kBit/s, für Mehrkanalsound entsteht diese Datenrate für jedes Kanalpaar. Durch BCC soll sich das Stereobild des Signals deutlich besser encodieren lassen. Auch BCC ist auf jeden Codec applizierbar und abwärtskompatibel. 5.4. Parametric Coding „Parametric coding“ geht auf einen Vortrag von [SCH03] der Firma Philips zurück, der auf der DAGA 2003 gehalten wurde (es liegt kein Paper vor). Während sogenanntes „waveform coding“ durch Filter und geeignete perzeptive Modelle versucht, das Audiosignal durch Adaption an den menschlichen Hörapparat möglichst ohne hörbare Qualitätsverluste zu encodieren, geht „parametric modeling“ einen anderen Weg. Ähnlich dem „Quelle-Filter-Modell“ und der daraus resultierenden CELP15 und anderer LPC-Codecs, wird versucht, das Audiosignal durch ein Modell möglichst genau zu beschreiben. Im Quelle-Filter-Modell wird das Sprachsignal zerlegt in ein Anregungssignal, die Glottis (Stimmlippen), und in ein Filter, 15 Codec für die Mobiltelefonkommunikation 60 den Vokaltrakt, die beide zeitvariant sind. Die Anregung kann entweder als „Pulsetrain“16 mit einem bestimmten Grundfrequenzverlauf, oder als „noise source“ (Rauschsignal) mit einer bestimmten spektralen Formung vorliegen, und kann durch einige wenige Parameter beschrieben und encodiert werden. Der Filter wird durch einige wenige Filterkoeffizienten beschrieben, und kann ebenfalls sehr effizient codiert werden. Im „parametric coding“ wird das Signal untersucht auf: • Transienten • Sinuskomponenten • Rauschen. Diese Signal-Komponenten werden für jeden Zeit-Frame bestimmt und als Parameter übertragen. Es steht ein Reservoir für Signalteile zur Verfügung, die nicht durch diese Signalkomponenten modelliert werden können. Laut den Angaben der Hersteller weist „parametric coding“ bei 24kBit/s eine bessere Qualität auf als der AAC-Codec bei 24kBit/s und 32kBit/s. Das Besondere an der Art des Parametric coding der Firma Philips ist nun, dass nicht nur wie erwartet sehr gute Ergebnisse bei der Sprachencodierung erreicht wurden, sondern auch bei komplexen Musiksignalen bei sehr geringen Bitraten (durch die geringe Bandbreite der Steuerparameter) eine erstaunliche Qualität erzielt wurde. Erreicht wurde diese Qualität nach Firmenangaben nicht nur über die beschriebene Parametrisierung der Signale, sondern auch über die Generierung und die Steuerung durch zeitliches Tracking von „audio objects“. Genauere Informationen wurden nicht bekanntgegeben. 16 Zeitlich definierte, aufeinanderfolgende transiente Signale 61 6. Usability von Mensch-Maschine-Interfaces In diesem Kapitel wird ein wenig beachteter Bereich des SoftwareEngineering betrachtet, die Usability von Software und Internet-Seiten. Im Wesentlichen basiert dieses Kapitel auf [NOR99], [PUS01] und [KRU00]. Es wird eine Begriffseingrenzung vorgenommen und dem aktuell erhöhten Interesse an der Usability nachgefragt. Im Anschluss werden wichtige Interface-Design-Kriterien unter verschiedenen Gesichtspunkten abgeleitet und häufige Usability-Fehler analysiert sowie deren mögliche Vermeidung dargestellt. 6.1. Definition Der Begriff Usability ist in den vergangenen Jahren durch den Einsatz in der Informatik, im Webdesign und im Firmenmarketing inflationär gebraucht worden, so dass es inzwischen sehr schwierig ist, eine zutreffende Definition zu finden. Die ISO 9241-11 definiert passend: „Usability ist die Effektivität, Effizienz und das Ausmaß der Zufriedenheit, mit denen bestimmte Benutzer spezifizierte Ziele in vorgegebenen Umgebungen erreichen.“ 6.2. Warum wird Usability aktuell wichtig? Bis vor ein paar Jahren lagen die Relevanzen für den erfolgreichen Verkauf aus marketingtechnischer Sicht bei der grafischen Umschlaggestaltung, dem wohlklingenden Namen, der Marktposition des Herstellers, dem guten Abschneiden bei Software-Tests und der Promotion einer Software. War die Software verkauft, also die Bedürfnisse der Entwicklerfirma damit befriedigt, war es prinzipiell nicht relevant, ob der User Probleme mit der Bedienbarkeit und der Funktionalität des Software-Paketes hatte. Im Gegenteil, der User suchte meist den Fehler bei sich und quälte sich durch die Programmstruktur und die diversen Hilfen, bis er sich an die Unzulänglichkeiten der Software gewöhnt hatte. Teilweise war dieses Verhalten sogar wünschenswert, vorzugsweise bei marktführenden Firmen, da somit eine gute Einnahmequelle durch Schulungen und (kostenpflichtigen) technischen Support gewährleistet war. Mit dem sprunghaften Anstieg des Internets und damit auch der Online-Shops kam die Möglichkeit der freien Information über Produkte ohne Kaufzwang in aller Anonymität, und plötzlich stellte sich die Frage nach der Benutzbarkeit von Websites und Online-Auftritten: Es gibt im Gegensatz zum realen Geschäft keinen Verkäufer mehr, der einen mit 62 psychologischen Manipulationen zum Kauf zwingen könnte. Man kann in aller Ruhe suchen und Produkte erproben und das Geschäft jederzeit wieder verlassen, auch ohne Kauf. Aktuell ist es wichtig, dass ein potentieller Kunde nicht nur einmal die Website besucht, sondern möglichst oft und lange. Findet sich der Kunde in einem anderen Shop besser zurecht oder kommen ihm Zweifel über die Seriosität der Firma und über die Sicherheit der Zahlung auf, dann wird sich der Kunde sofort bei einem Konkurrenzshop orientieren und hat dabei keine finanziellen Verluste oder gar Gewissensbisse, da ein Abbruch des Besuchs jederzeit vollkommen anonym und folgenlos bleibt. Experimente zum Online-Kaufverhalten von Usern [MAN...] durch das amerikanische Unternehmen „User Interface Engineering“ ergaben denkwürdige Ergebnisse: • Die potenziellen 100 Kunden des Feldversuches benötigten tatsächlich ein bestimmtes Produkt. • Sie wurden (durch Schenken) mit den notwendigen finanziellen Mitteln ausgestattet. • Nur 30% der Shopping-Versuche sind erfolgreich. Viele Benutzer scheitern schon beim Auffinden der Produktkategorie. • 16% scheiterten beim Festlegen der genauen Produkteigenschaften und 13% beim Bezahlen. • Von möglichen 9000 US-Dollar, die den Usern zum Einkauf geschenkt wurden, lagen nur für 3857 Dollar Waren in den Einkaufswagen. • Tatsächlich wurden sogar nur für 3350 Dollar Waren tatsächlich geordert. 6.3. Designkriterien nach Norman Nach Norman [NOR89], dem Wegbereiter des Human Engineering und Ergonomie von Mensch-Maschine-Interfaces gelten sieben Prinzipien für gutes Design, die dafür sorgen, dass gute Benutzbarkeit eines Produktes gegeben ist: 1. Nutze sowohl das Wissen im Kopf als auch das Wissen in der Umwelt. 2. Vereinfache die Struktur der Aufgaben. 3. Mache die Dinge sichtbar: Überbrücke die Kluft der Ausführung und die Kluft der Ausführung. 4. Sorge dafür, dass die Mappings stimmen. 5. Nutze die Einschränkungen, sowohl natürliche als auch künstliche. 6. Berücksichtige mögliche Fehler. 7. Wenn alles andere schief geht, richte dich nach bestehenden Normen. Weiterhin sollte Design: 63 • • • • Die Feststellung, welche Handlungen zum jeweiligen Zeitpunkt möglich sind, erleichtern (Einschränkungen nutzen). Dinge sichtbar machen, darunter auch das konzeptuelle Modell des Systems, mögliche Alternativen und die Ergebnisse von Handlungen. Die Einschätzung des gegenwärtigen Zustands des Systems erleichtern. Die natürlichen Mappings berücksichtigen, und zwar zwischen Intentionen und erforderlichen Handlungen; zwischen Handlungen und deren Auswirkungen; und zwischen sichtbaren Informationen und der Deutung des Systemzustands. Das zugrundeliegende Design sollte dafür sorgen, dass der Benutzer jederzeit herausfinden kann, wie er in jedem Augenblick vorgehen soll und welches der augenblickliche Zustand des Systems ist. 6.4. Die häufigsten Usability-Fehler Nach [MAN01] sollen im Folgenden die häufigsten Usability-Fehler im Software-Engineering und in der Erstellung von Internet-Seiten aufgeführt werden. 6.4.1. Fehlende Botschaft Der User versteht nicht, was er in dem jeweiligen Programmteil gerade tun soll. Die einzelnen Screens sind oftmals mit Designelementen und Inhalt so überfüllt entworfen, dass der auf den ersten Blick zu erfassende Zweck des jeweiligen Screens nicht eindeutig erkennbar ist. 6.4.2. Fehlende Orientierungsmöglichkeiten In der Regel bieten Softwaresysteme und Hypertext nichtgeradlinige Navigation an. In einer Struktur, in der verlinkte Strukturen existieren, also eine nichtgeradlinige Navigation durch Hypertext möglich ist, ist es wichtig, dass der User immer einen Anhaltspunkt bekommt, wo er sich aktuell befindet. Da in diversen Studien im Navigationsverhalten der User sehr häufig „wildes Herumklicken“ registriert wurde, kann nicht davon ausgegangen werden, dass immer ein geradliniges Ziel mit einem klar definierten Weg verfolgt wird. Ein solcher Weg kann durch eine sogenannte „Brotkrumen-Spur“, die Existenz reizvoller Schlüsselelemente, auch bei unentschlossenen Usern erzeugt werden, aber um auch den ungünstigsten Fall abzudecken, sollte auf eine überaus klare Anzeige der Position des Users in der Programmstruktur Wert gelegt werden. 64 6.4.3. Benutzerbezogene Menüstruktur Die Navigations- und Menüstruktur, die der Entwickler der Software für sein Programm definiert hat, entspricht oftmals nicht der Suchstruktur des Anwenders, mit der ein User im Programm Informationen finden möchte. Dies liegt darin begründet, dass der User im allgemeinen nicht über den Wissensstand des Entwicklers im jeweiligen Fachgebiet verfügt, und ihm bestimmte Untergliederungen eines Themenbereiches nicht bekannt sind, die für den Entwickler aufgrund von möglicherweise jahrelanger Beschäftigung mit dem Thema selbstverständlich erscheinen. Dementsprechend sollte die Menüstruktur so gewählt werden, dass eine Menüstruktur erzeugt wird, die das Gruppieren der einzelnen Thematiken in vom Benutzer nachzuvollziehende Strukturen ermöglicht. 6.4.4. Grafische Überladung Grafische Gestaltung ist elementar, um Textstrukturen aufzulockern und zu erläutern. In der Architektur existierten Perioden wie der Barock, in denen Flächen und Strukturen durch Überladung an Gestaltungselementen so überfüllt wurden, dass das Auge keine Fixationspunkte mehr bilden konnte. Demgegenüber wurde in der Bauhausphase das Prinzip „form follows function“ propagiert, was sich in sehr schlichten Gestaltungselementen und einer reinen, funktionellen Form wiederspiegelte. Zwischen diesen Extremen ist Gestaltung möglich. In den Anfangstagen des Internets konnte man oft überladene Websites betrachten, die durch inflationären Einsatz von farbigen Schriftfonts und Blink-Schrift dem Benutzer ebenfalls die Orientierung erschwerten. Dieses Phänomen ist in heutigen Websites nicht mehr zu finden, da offensichtlich die Benutzbarkeit und der gute Geschmack vorherrschend werden. Wie beschrieben ist grafische Gestaltung elementar, wenn aber die grafische Gestaltung in Unlesbarkeit eines Text-Fonts oder zu kleiner Schriftgröße aus gestalterischen Motiven mündet, dann ist keine gute Benutzbarkeit gewährleistet. Dementsprechend sollte nur die elementar notwendige grafische Gestaltung geleistet werden, die die Schnittstelle ästhetisch ansprechend macht und die Hervorhebung und Gestaltung wichtiger ProgrammElemente unterstützt. 6.4.5. Lange Ladezeiten Wenn ein Programmblock geladen wird, kann durch seine Dateigröße eine längere Nachladezeit die Folge sen. Der Benutzer sollte sowohl über diesen Umstand informiert werden, als auch über den Ladefortschritt in Kenntnis gesetzt werden, da eine Nichtkenntnis auf der Seite des Users 65 eine Unsicherheit über den Zustand des Programms (zum Beispiel die Frage nach einem Programmabsturz) auslöst. 6.4.6. Falsche Strukturierung der Inhalte Programminhalte, die für das Lesen am Bildschirm aufbereitet werden, haben anderen strukturellen und typographischen Anforderungen zu genügen als beispielsweise Inhalte für ein Buch. Begründet in einer anderen Form der Informationssuche (schnelles Scannen der Texte), sollten sie im Idealfall, um den gleichen Grad an Interesse zu erhalten, folgenden Anforderungen genügen: • sie sollten wesentlich knapper gehalten sein, • möglichst ohne Scrollen lesbar sein, • mehr Strukturierungen und visuelle Anker enthalten • sie sollten im Idealfall dem „umgekehrten Pyramidenstil“ folgen: erst die Schlagzeile, danach die Zusammenfassung und dann die Details. 6.5. Ein Usability-Test: Die Heuristische Evaluation In der Heuristischen Evaluation, einer Usability-Test-Methode, wird die Usability eine Applikation von einer Anzahl von Experten auf UsabilityFehler bewertet. Dabei wird davon ausgegangen, dass 5 Experten mit ihrer gemeinsamen Expertise ungefähr 80 Prozent der Usability-Probleme aufdecken. 6.5.1. Die Merkmale Die Merkmale der Heuristischen Evaluation sind: • die Methode ist buttom-up gerichtet • sie ist analytisch, kritisierend und korrektiv • sie ist vollständig und systematisch bezüglich der Funktionen • sie ist selektiv bezüglich der Beurteilung (nur Mängel) • sie hat die Prinzipien als Grundlage, nicht Lernfähigkeit der Benutzer • sie ist primär lokal orientiert • sie ist redundant in der Mängelbeschreibung • sie ist gut geeignet auch für frühe Phase der Entwicklung (beispielsweise in der Phase des Rapid Prototyping) • sie ist sehr kostengünstig 66 6.5.2. Die Bewertung Ein Rating gibt die Schwere der gefundenen Probleme an. Dabei bedeuten: Schweregrad 0 1 2 3 4 Beschreibung Kein Problem Kosmetisches Problem Kleines Problem – geringe Priorität Größeres Problem – hohe Priorität Katastrophe – höchste Priorität Tabelle 7: Rating-Skala bei der heuristischen Evaluation 6.5.3. Ergebnisse Die Heuristische Evaluation trifft Aussagen über potentielle Probleme der Benutzbarkeit der Applikation aus Expertensicht. Es entsteht eine systematische Übersicht über die gefundenen Probleme. Die Zuordnung der Probleme zu Heuristiken gibt die Richtung für eine Veränderung an. Eine Prioritätenliste (die Relevanz der Usability-Probleme) zeigt die Reihenfolge der notwendigen Veränderungen. Die Generalisierung einer Vielzahl von Ergebnissen diverser Usability-Tests werden von Nielson als Empfehlungen für eine gute Software-Usability zusammengefaßt [MAN01]: 1. Stelle einen einfachen und natürlichen Dialog her. 2. Sprich die Sprache der Benutzer. 3. Minimiere die Gedächtnislast der Benutzer. 4. Sei konsistent und halte dich an Standards. 5. Liefere Feedback. 6. Stelle klar markierte Ausgänge zur Verfügung. 7. Stelle Abkürzungen zur Verfügung. 8. Liefere gute Fehlermeldungen. 9. Verhüte Fehler. 10. Liefere angemessene Hilfe und Dokumentationen. Im einfachsten Sinne wird unter Usability die Lehre von der Benutzbarkeit einer Software im Sinne des Users verstanden. Damit ist gemeint, dass der User (oder im Sinne einer statistischen Erhebung ein Durchschnitt) die Güte der Benutzbarkeit nach seinen Kriterien und erlernter Symbolik bestimmt, nicht der Programmierer. 67 6.6. Testen des multimedialen Lernmoduls nach Usability-Kriterien Jakob Nielsen legte in seinem Paper „Usability Engineering at a Discount“ 1989 dar, dass zum Test einer Applikation nicht unbedingt ein UsabilityLabor mit Experten benutzt werden muss. Natürlich ist es wünschenswert, ein Rating von Experten mit ausgearbeiteten Fehlern und deren Lösungsvorschlägen zu erhalten, aber man kann einen sehr großen Prozentsatz von Fehlern mit weniger Aufwand entdecken. Als Tester werden potentielle Benutzer der Applikation eingesetzt. Jakob Nielsen und Tom Landauer haben gezeigt, dass Tests mit 5 Usern etwa 85 Prozent der Usability-Probleme aufdecken können. [KRU00] schlägt vor, Tests mit drei oder 4 Usern mehrmals durchzuführen. Beim ersten Durchlauf werden die drei User wahrscheinlich alle besonders signifikanten Probleme entdecken. Diese Mängel werden behoben. Beim nächsten Durchlauf werden die User die nächstschwereren Probleme entdecken, da sie nun nicht mehr von den bereits behobenen Fehlern aufgehalten werden. Zur besseren Replizierbarkeit sollten die Schritte der Benutzer mit einer Videokamera aufgezeichnet werden. Im Rahmen der Magisterarbeit wurde das multimediale Lernmodul mit fünf potentiellen Benutzern der Applikation mit dieser Methode getestet, um signifikante Schwächen in der Navigation und im Verständnis der Simulationen aufzudecken. Nach jedem deutlichen „Steckenbleiben“ oder Unverständnis des dargestellten Bildschirminhaltes oder Wissensinhaltes wurde das Modul verändert und wiederum ein Test durchgeführt. Gravierende Probleme wurden so gefunden und behoben. 68 7. Anforderungsanalyse für die Nutzung des Lernmoduls In diesem Kapitel werden die verschiedenen wahrscheinlichen Einsatzmöglichkeiten des zu erstellenden Programms kurz beschrieben. Daraus abgeleitet wird unter dem Gesichtspunkt der Einsatzmöglichkeiten eine Anforderungsanalyse der notwendigen Strukturen und thematischen Inhalte sowie die zu erwartenden Nutzer definiert. Es sind primär Einsatzmöglichkeiten in der Lehre, in der Forschung und im Tonstudio denkbar. 7.1. Einsatzszenario in der Lehre und in den Vorlesungen Haupteinsatzgebiet des Programms dürfte die Lehre und Bildung im Bereich Audiotechnik sein. Aus diesem Grund sollten für Präsentationen des Programms und zur Verdeutlichung der zugrundeliegenden Prinzipien die wichtigsten Diagramme und Grafiken einerseits einfach und schnell zu erreichen sein und andererseits in ausreichender Größe zur Verfügung stehen, so dass sie bei einer Präsentation des Programms mit einem Beamer und Notebook auch von weiter entfernten Positionen noch deutlich zu erkennen sind. Weiterhin ist das Einsatz-Szenario als multimediales Lernmodul im Rahmenplan einer Ausbildung an einer Virtuellen Universität oder Hochschule denkbar, bei der dann keine Lehrkräfte im herkömmlichen Sinne zur Verfügung stehen, sondern der Lernende sich die Thematik selbständig am Computer erarbeiten sollte. Für dieses Szenario sollten alle thematisch wichtigen Informationen im Programm enthalten sein, beispielsweise die ausführliche Erklärung der Funktionsweise oder die ausführliche Erklärung der als Hörbeispiele zur Verfügung gestellten typischen Fehlersignale perzeptiver Codecs. Durch diese Szenarios definiert sich auch die Hauptnutzer-Gruppe. Es werden Studenten und Dozenten sein, die das Thema perzeptive Audiocodierung erarbeiten und dabei die Vorteile der Multimedia-Technik nutzen wollen, mit speziellem Augenmerk auf der Nutzung der vielfältigen Experimente und Hörbeispiele. Weiterhin wird das Programm für alle Lehrbereiche interessant, in denen das menschliche Hören behandelt wird, da die behandelten Phänomene und Effekte nicht nur in der perzeptiven Audiocodierung Verwendung finden. So können die zur Verfügung gestellten Experimente und Simulationen in vielen Fachbereichen benutzt werden, um diese Phänomene des menschlichen Gehörs zu demonstrieren, beispielsweise in der Audiotechnik oder der musikalischen Ausbildung. 69 7.2. Einsatzszenario in der Forschung Bei der Nutzung des Programms in der Forschung wäre beispielsweise eine schnelle Erarbeitung der Funktionsweise und die explorative Nutzung der Diagramme und Grafiken denkbar. Ein Hörvergleich verschiedener Codecs kann beispielsweise in der Psychoakustik dazu dienen, die Audio-Qualität der verschiedenen Codecs bei verschiedenen Bitraten miteinander zu vergleichen und somit Schlüsse auf deren Verbesserungsmöglichkeiten für die eigene Arbeit zu ziehen. Hauptsächliches Ziel wird es aber sein, in kurzer Zeit durch die Nutzung der im Programm zur Verfügung gestellten verschiedenen Medien wie Hörbeispiele, Bilder, Diagramme und Text eine umfassende und effektive Erarbeitung des Themas „Perzeptive Audiocodierung“ zu ermöglichen. 7.3. Einsatzszenario in Tonstudios Für den Einsatz in Tonstudios ist das Programm prädestiniert, wenn eine Vielzahl von Hörbeispielen zur Verfügung gestellt wird. Während die Erklärung der Funktionsweise ebenfalls von Interesse sein kann, wird doch bei diesem Szenario eher der schnelle Vergleich der Kompressionsverfahren und Codecs bedeutsam sein. Hauptnutzer wird hier der Toningenieur oder Tonmeister sein, der für sein aktuelles Projekt Audiosignale unter bestimmten Vorgaben wie festgelegter Bitrate zu komprimieren hat. Dieser Nutzer wird sich nun primär für die zu erwartenden Qualitätsverluste und deren Eigenschaften bei verschiedenen Signalen wie Sprache, klassischer Musik und elektronischer Musik interessieren. Ein vom Programm zur Verfügung gestelltes Klang-Archiv, in dem eine Vielzahl von unterschiedlichen Audiosignalen, die von möglichst allen aktuell auf dem Markt erhältlichen Codecs bei verschiedenen Bitraten encodiert und wieder decodiert wurde, wäre für diesen Nutzer von großer Bedeutung. Weiterhin wird dieser Nutzer Interesse für die Gehörschulung in Bezug auf perzeptive Audiocodierung zeigen. Er ist es gewohnt, Audiosignale bezüglich ihrer Qualität zu bewerten und hinsichtlich dieser Bewertung eine Bearbeitung des Signals vorzunehmen (beispielsweise genau auf im Signal vorkommendes Rauschen oder Klick-Laute zu hören). Perzeptive Codierung aber erzeugt prinzipbedingt eine Vielzahl neuer, in der herkömmlichen Audiotechnik nicht vorkommender Fehlersignale, auf deren Erkennung das Ohr erst geschult werden muss. Daraus resultiert, dass der Toningenieur oder Tonmeister durch die Bereitstellung eines Archivs typischer Fehlersignale perzeptiver Codierung und deren Erklärung eine Möglichkeit hat, das Ohr auf den typischen Klang dieser Fehlersignale zu schulen. Ist diese Schulung abgeschlossen, kann er dann Mittel zur Entfernung dieser Fehlersignale aus dem Audiosignal erarbeiten. 70 8. Die Spezifikationen – Das Pflichtenheft In diesem Kapitel werden die Spezifikationen für das multimediale Lernmodul zur perzeptiven Audiocodierung festgelegt. Es werden die thematischen Schwerpunkte festgelegt und deren Umfang und Inhalt begründet. Weiterhin werden die zu bedienenden Systemplattformen definiert. Es werden die notwendigen Systemvoraussetzungen des Nutzers sowie die Distributionsmedien definiert. Schließlich wird die Rolle der grafischen Gestaltung unter dem Gesichtspunkt des Speicheraufwands und der Priorität sowie die Gestaltung der Navigation durch die Programmstruktur festgelegt. 8.1. Die Programmschwerpunkte Das Lernmodul wird in folgende Schwerpunkte unterteilt: • • • • • ein Intro (Einführung in das Thema) die Erklärung der Funktionsweise eines perzeptiven Codecs diverse psychoakustische Experimente die Hörbeispiele weiterführende Literatur (Beigabe als PDF-Files). Diese Unterteilung in Module wurde gewählt, da so thematisch von einem Thema auf das nächste hingeleitet werden kann und einer späteren Erweiterung des Programms um weitere Module um weitere Schwerpunkte möglich ist. Besonderer Schwerpunkt wird auf die Erarbeitung der Hörbeispiele und psychoakustischen Experimente gelegt. Gedruckte Spezifikationen und Publikationen sind von Benutzern mit Interesse an der perzeptiven Audiocodierung leicht zu beschaffen und thematisch zu erarbeiten, während aber ein repräsentativer Hörvergleich unterschiedlicher Codecs und die auditive Darstellung psychoakustischer Phänomene sehr schwer zu finden sind. Dementsprechend sollte bei der Erstellung des Programms die Experimente und Hörbeispiele in ausreichender Quantität und guter Qualität zur Verfügung stehen. Das Intro sollte thematisch auf das Thema einstimmen, es sollte versucht werden, eine Analogie zwischen der Verschlechterung der Audioqualität und der Verschlechterung der Qualität anderer Medien zu finden, zum Beispiel der Bildqualität von Fotos oder der Lesbarkeit von Text. Die Erklärung der Funktionsweise des MP3-Codecs sollte eher knapp gehalten werden. Auf eine erschöpfende wissenschaftliche Abhandlung 71 sollte zugunsten der sofortigen Verständlichkeit für den Nutzer verzichtet werden. Weitergehende Erklärungen sollten durch dem Programm beiliegende PDF-Files erfolgen, in denen bei Bedarf die Funktionsweise und das Prinzip perzeptiver Audiocodierung in technischen Veröffentlichungen erschöpfend behandelt wird. Für diese Dateien sollte das Programm AcrobatReader auf der CD-Rom vorhanden sein. Eine Einbindung der Dokumente in die Programm-Struktur sollte nicht notwendig sein, da bei einem begründeten Interesse des Nutzers an weiterführender Literatur davon ausgegangen werden kann, dass der Umgang mit Acrobat Reader geläufig sei. Diese PDF-Files sind als Beigabe zu betrachten, und nicht als zum Programm-Modul zugehörig. Auf eine Konvertierung der PDF-Files in HTML-Dokumente kann verzichtet werden, da zum Aufruf der Dateien in jedem Fall Zusatzsoftware zu installieren wäre. Die Argumentation, dass ein HTML-Browser in jedem Fall auf allen Zielrechnern zur Verfügung steht, ist nicht haltbar, da Acrobat Reader ebenfalls mit allen aktuellen Zielrechnern ausgeliefert wird und somit ebenfalls zur Verfügung steht. In den psychoakustischen Experimenten und Simulationen soll der Programm-Nutzer für diverse Mechanismen und Eigenheiten des menschlichen Gehörs und deren mögliche Nutzung in der perzeptiven Audio-Codierung sensibilisiert werden. Da die Benutzung und der Umfang der perzeptiven Modelle in den Spezifikationen der Codecs nicht festgeschrieben ist, sollen in den Experimenten und Simulationen mögliche Ansätze für eine Entfernung nichthörbarer Signalanteile gezeigt werden, beispielsweise die Ausnutzung von Maskierungseffekten. In den Hörbeispielen sollten für einen Nutzer einerseits die hörbaren Unterschiede von MP3-komprimierten Signalen bei unterschiedlichen Bitraten in möglichst repräsentativer Form (bei verschiedenen Musikstilen) dargestellt werden, andererseits sollte ein Hörvergleich unterschiedlicher auf dem Markt befindlicher Codecs bei verschiedenen Bitraten verwirklicht werden. Ist das Ziel eines Programm-Nutzers beispielsweise die Information über den hörbaren Qualitätsverlust bei verschiedensten Signalen (zum Beispiel das Ziel der Auswahl eines geeigneten Codecs für Archivierungszwecke), dann sollte die Qualität der Codecs bei der gegebenen Bitrate direkt vergleichbar sein, und dem Nutzer eine korrekte Auswahlentscheidung ermöglichen. 8.2. Die Nutzer Bei der Nutzung des Programms wurde für den Nutzer ein Verständnis der Grundzüge der Audiotechnik vorausgesetzt, da die Erklärung aller notwendigen Audio-Werkzeuge (wie Spektrogramme, Spektren, dB...) den Rahmen des Programms gesprengt hätte. Ausführlich wurden die potentiellen Nutzer des Programms in der Anforderungsanalyse (siehe Kapitel 7) spezifiziert. 72 8.3. Die Abspielsoftware Es sollte keine zusätzliche Software auf dem Zielrechner zu installieren sein. Das Programm sollte in traditioneller Weise über eine CD-ROM vertrieben werden. Nach Einlegen der CD-Rom sollte der Inhalt sofort ohne eventuell notwendige Änderungen im System und ohne Zusatzsoftware laufen. Der Speicherumfang sollte 800 MB (Kapazität einer handelsüblichen CD-ROM) nicht überschreiten. 8.4. Die Plattform Im Rahmen dieser Arbeit wurde davon ausgegangen, dass eine Unterstützung von Windows und Macintosh-Betriebssystemen ausreichend sei. Wünschenswert wäre weiterhin eine Unterstützung von Linux. Es wurde aber davon ausgegangen, dass Linux-Nutzern eine Möglichkeit zum Abspielen des Programms entweder unter einem Windows-Emulator oder unter einem realen Windows-System (z.B. auf einer Windows-Partition) möglich sei. Sound-Dateien sollten in einem solchen Format (sowohl das Dateiformat als auch Abtastrate und Bittiefe) vorliegen, dass sie mit jeder gängigen Audio-Karte abspielbar sind. 8.5. Lauffähigkeit des Programms über ein Internetprotokoll Das Programm-Modul sollte problemlos für das Internet als lauffähige Applikation kompilierbar sein, ein reiner Download der Software und nachfolgende Installation auf dem Zielrechner sind aufgrund der oft eingeschränkten Installations- und Zugriffsrechte nicht wünschenswert. Die Sounddateien sollten aufgrund des audiotechnisch und klanglich sensiblen Themas nicht verlustbehaftet komprimiert sein (wie z.B. MP3 oder Shockwave-Audio). 8.6. Die grafische Gestaltung In Anbetracht der großen Anzahl an speicherintensiven HörbeispielSounddateien und der Maßgabe, dass der ganze Inhalt des Moduls die Speicherkapazität einer CD-Rom nicht überschreiten sollte, sollte auf eine aufwändige grafische Gestaltung und ein durchkomponiertes Layout verzichtet werden. In der grafischen Gestaltung des Programm-Interfaces sollten im Wesentlichen die internen Darstellermöglichkeiten der 73 Programmumgebung genutzt werden. Speziell beim Design der Navigationselemente und Hintergrundbilder sollte auf speicherintensive Bilder und Grafiken zugunsten einer größeren Anzahl an Hörbeispielen und psychoakustischen Simulationen und Experimenten verzichtet werden. Animationen sollten, wenn überhaupt, nur sparsam eingesetzt werden. In diesem Sinne sollte, um den im Usability-Kapitel benutzten Vergleich wieder aufzugreifen, der Ansatz des Bauhaus-Stiles im wesentlichen verwirklicht werden und damit die Aufmerksamkeit des Benutzers nicht von grafischer Gestaltung abgelenkt werden. Somit werden die in Kapitel 6 aufgestellten Usability-Kriterien zu befolgen sein. In der Gestaltung des Programm-Moduls ist darauf zu achten, dass alle Navigationselemente und Hintergrundgrafiken leicht aufzufinden und auszutauschen sind, sollte im Zuge der Verbesserung des ProgrammModuls eine ausgefeilte und aufwändige grafische Gestaltung gewünscht werden. 8.7. Die Navigation Den aufgestellten Usability-Kriterien des Kapitel 6 folgend, sollte für den ungeübteren Nutzer eine geradlinige Navigation, als auch für den geübten Nutzer ein schnelles Springen zwischen den Programm-Modulen mittels Sitemap oder Startseite erarbeitet werden. In der geradlinigen Navigation sollte es möglich sein, alle Seiten des gesamten Moduls mittels „Seite vorwärts“ und „Seite zurück“ zu erreichen, eine logische Reihenfolge des Auftretens der einzelnen Seiten wird in dieser Form der Navigation natürlich vorausgesetzt. 8.8. Das User-Interface Die Gestaltung des Programminterfaces sollte klar und strukturiert sein. Es sollte immer auf den ersten Blick für den Nutzer erkennbar sein, in welchem Unterpunkt des Programmmenüs er sich befindet, um eine Konfusion und ein „Verirren“ zu vermeiden. Die Navigationsstruktur sollte klar als solche zu erkennen sein, ein Verstecken in einem vom Nutzer zu erforschenden Bedienpanel ist zu vermeiden, es sollten aus dem Web oder der Windows-Welt bekannte Symbole und Strukturen verwendet werden. Bezüglich der internen Struktur der einzelnen Module ist darauf zu achten, dass bei mehrteiligen Programmpunkten immer klar erkennbar ist, welcher Programmpunkt aktiv ist, welche anderen Punkte weiterhin vorhanden sind und wie man diese schnell erreichen kann. Modulüberschriften sollten als solche klar und kontrastreich erkennbar sein, Unterüberschriften sollten sich in unmittelbarer Nähe befinden und die einzelnen Untermodule strukturieren. 74 9. Entwurf des multimedialen Lernmoduls In diesem Kapitel werden die verschiedenen Umsetzungsmöglichkeiten der im vorigen Kapitel aufgestellten Spezifikationen diskutiert und Lösungen in der Umsetzung sowohl für das Design des Interfaces als auch speziell für die einzelnen Module aufgezeigt. Am Beginn wird eine Analyse der technischen Umsetzungsmöglichkeiten der in Kapitel 8 definierten Spezifikationen vorgenommen. Weiterhin werden die Systemfunktionen und globalen Strukturen des Programms entwickelt. Folgend werden die Experimente und Simulationen entworfen, die das Programm beinhalten soll und das Lernkonzept definiert, nach denen das Lernmodul wird. Schließlich werden Möglichkeiten für die Entwürfe der einzelnen Programmteile diskutiert und aus dieser Diskussion die letztendliche Auswahl der dann zu verwirklichenden Entwürfe begründet. 9.1. Definition der Funktionen – Festlegung der Multimediasoftware 9.1.1. Analyse der Software zum Arrangieren der Multimedia-Inhalte Bevor die einzelnen Programmteile entworfen wurden, musste die Festlegung der Multimedia-Software erfolgen, da sich die weiteren Entwurfskriterien nach den Möglichkeiten und Extensionsmöglichkeiten dieser Software richten sollten, um in der vorgegebenen Zeit zu brauchbaren Ergebnissen zu kommen. Gleichzeitig hielt man damit die immer vorhandene Gefahr eher gering, dass die einzelnen Entwürfe technisch nicht umgesetzt werden können, da die Software nicht die passenden Funktionen bietet, und der Programmierer einen Rückschlag erleidet. Aus diesem Grunde war das Vorgehen, dass erst die ArrangierSoftware gewählt wurde, und dann die Entwürfe auf ihre Umsetzbarkeit geprüft wurden. 75 Im wesentlichen lassen sich multimediale Inhalte über folgende Plattformen darbieten17: Plattformen Vorteile Nachteile HTML bzw. XML- Leicht erweiterbar, Stabilität und basiert Vielzahl an Synchronität von Editoren Video und Audio nicht gewährleistet Apple Quicktime Gute Stabilität und Komplizierter Synchronität von Aufbau von Audio und Video Interaktivität, Wahl des geeigneten Codecs kompliziert Real Player, SMIL Macromedia Sehr gute Stabilität und Flash VektorgrafikSynchronität von möglichkeiten Video und Audi nicht gewährleistet Macromedia Gute Stabilität und Director Synchronität von Audio und Video, viele Interaktionsmodule bereits vorhanden Zusätzliche Software erforderlich? Ja, Web- Browser Ja, QuicktimePlayer Ja, RealPlayer Ja, FlashPlayer Nein Tabelle 8: Vor- und Nachteile der verschiedenen Multimedia-Systeme Es wurde eine Implementierung in Macromedia Director gewählt und verwirklicht, da in dieser Programmumgebung ein schnelles, synchronisiertes und nicht-stockendes Abspielen auch längerer SoundDateien weitgehend gewährleistet ist. Weiterhin erzeugt Director einen ausführbaren Programmcode (*.EXE) und bindet alle notwendigen Zusatzmodule in diesen Programmcode ein, so dass keine Zusatzsoftware zum Abspielen des Programms notwendig ist. Für alle anderen oben aufgeführten Programme gilt, dass immer ein Abspielprogramm vorhanden sein muss. Allerdings könnte man im Falle von HTML-basierten Anwendungen und Quicktime davon ausgehen, dass auf jedem normal installierten Windows-Betriebssystem ein Webbrowser (MS Internet 17 Finanziell sehr aufwändige Systeme wie die von „blackboardsoftware“ werden hier ausgenommen. 76 Explorer) und eine Quicktime-Abspielsoftware (MS Media Player) vorhanden sein sollte. Weiterhin stellt Director eine Vielzahl von benutzbaren InteraktionsModulen (wie verschiedene Mauszeiger und Schaltflächen) zur Verfügung, die keinen weiteren Speicherplatz benötigen und somit mehr Speicherplatz für die eigentlichen Programm-Inhalte zur Verfügung stellen. Schließlich kann aus Director heraus über eine Einbindung in InternetProtokolle der arrangierte Programminhalt in das proprietäre ShockwaveFormat umgewandelt werden. Nach Download des kostenlos verfügbaren Shockwave-Players ist das erstellte Programm in jedem Web-Browser abspielbar. 9.1.2. Grober Entwurf der Komponenten Da der Hauptschwerpunkt des Programms die psychoakustischen Experimente/Simulationen und die Hörbeispiele waren, wurden diese Punkte sehr ausführlich für den potentiellen Nutzer analysiert und erprobt. Da die Funktionsweise eines perzeptiven Audiocodecs hauptsächlich in der Ausnutzung der Maskierungseigenschaften des menschlichen Gehörs liegt, wurden Simulationen klassischer Mithörschwellenexperimente der Psychoakustik ausgearbeitet. Der Aufbau der Experimente sollte nach dem Modell konstruktivistischen Lernens erfolgen, welches in multimedialen Lernumgebungen häufig verwendet wird ([BAU99], [KAL02]). Die Vorteile und Nachteile der Verwendung der einzelnen Möglichkeiten zum Aufbau von Lernumgebungen wurden in Kapitel 3 diskutiert. Die Vorteile und Nachteile des Einsatzes einzelner Medien und der Medien im Verbund wurde in Kapitel 3.3. ausführlich dargestellt. Im Entwurf des gesamten Programms wurde großen Wert darauf gelegt, die in Kapitel 3.3. dargestellten Prinzipien und Forschungsergebnisse zu beachten. Im Entwurf der im Programm verwirklichten Experimente und Simulationen wurde der klassische Aufbau eines Experiments nach konstruktivistischen Prinzipien verwirklicht: • • • Erklärung: Dem Benutzer wird der Aufbau des Experimentes erklärt. Aufgabe: Dem Benutzer wird eine Aufgabe zum Experiment gestellt. Experimentieranordnung: Hier wird das eigentliche Experiment demonstriert. Dieser Aufbau wurde gewählt, da mit dieser Anordnung ein hoher Lerneffekt zu erwarten war, sowie durch das Einhalten dieser üblichen Anordnung die kognitive Last des Benutzers zum Nachvollziehen eines abweichenden Lernprinzips minimiert wird. 77 Im entstehenden Programm sollte weiterhin eine Simulation der MP3Filterbank enthalten sein. In dieser sollte die Aufsplittung des auf 32 kHz heruntergesampelten Signals in 32 Filterbänke gleicher Bandbreite (500Hz) approximiert werden. Diese Frequenzbänder sollten graphisch dargestellt werden. Es sollte möglich sein, die gefilterten Signale der einzelnen Frequenzbänder anzuhören, um dem Nutzer einerseits einen Eindruck davon zu vermitteln, wie gefilterte Signale klingen. Andererseits sollte es damit möglich sein nachzuvollziehen, welche Instrumente und Signalanteile sich in welchem Frequenzband befinden, welche Frequenzbänder einen relevanten Anteil am Gesamt-Musiksignal haben und welche dagegen einen so geringen Anteil haben, dass sie ohne hörbare Verluste aus dem Signal entfernt werden können. Beispielsweise tritt bei einem Grossteil klassischer Musik relevante Signalinformation nur im Frequenzbereich 0-5000Hz auf (Becken und andere Instrumente mit hauptsächlich hochfrequentem Energieanteil ausgenommen). Das bedeutet: bei einer Abtastrate von 32 kHz müssen mehr als zwei Drittel des Signals nicht codiert werden, da sie keine hörbaren Informationen enthalten18. Für die Hörbeispiele wurde einerseits ein Hörvergleich des MP3-Codecs bei verschiedenen Bitraten ausgearbeitet, andererseits wurde ein ausführlicher Hörvergleich verschiedener Codecs geplant. Schließlich wurden Hörbeispiele für eine repräsentative Auswahl an fehlerbehafteten Signalen ausgewählt, die durch perzeptive Codecs erzeugt werden (Artefakte). Die Erklärung der Funktionsweise eines MP3-Encoders sollte bewusst so knapp abgehandelt werden, dass ein in den Spezifikationen definierter Nutzer (siehe Kapitel 8.2) die Funktionsweise verstehen und nachvollziehen kann19. Eine ausführliche Erarbeitung und Verdeutlichung mittels Animationen und interaktiven Videos wurde nicht geplant und auf die Phase der Verbesserung und Erweiterung des Moduls verschoben. Sollte sich der Nutzer genauer über die Funktionsweise informieren wollen, sollte auf das Programm-Modul „Weiterführende Literatur“ verwiesen werden, wo mehrere technische Artikel genauestens über die einzelnen Bausteine und Algorithmen informieren. Diese genaue Dokumentation sollte aber in keinem Fall im Programm-Modul vorliegen, da dies nur zu einem Informationsüberfluss des Nutzers und Langeweile führen würde, im Extremfall zu einer Reaktanz (Abwehrhaltung). 18 Diese Argumentation ist prinzipiell zu sehen. Es ist klar, dass im hochfrequenten Bereich Signalinformationen auftreten, die vom Ohr zur Auswertung von Lokalisation und Rauminformationen genutzt werden. Genau diese Hörphänomene werden auch bei neueren perzeptiven Codecs beachtet (siehe Abschnitt 5.2 und 5.3). Es wird hier aber von grundsätzlichen Prinzipien der perzeptiven Audiocodierung ausgegangen. 19 Ein in der Audiotechnik und Akustik unerfahrener Nutzer sollte die Funktionsweise nachvollziehen können, ohne jedes Detail zu verstehen. Die Funktionsweise sollte so erklärt werden, dass ein Nutzer ohne Grundkenntnisse der Audiotechnik das Prinzip im Großen und Ganzen verstehen kann. 78 Der Literaturteil sollte sehr einfach strukturiert werden. Eine Einbindung der technischen Publikationen, die als PDF-Dateien vorlagen, war aus den in Abschnitt 8.3. aufgeführten Gründen nicht notwendig. So wurde nur ein Informationstext entworfen, der auf die auf der CD-Rom enthaltenen Artikel und die Software „AcrobatReader“ verweisen sollte. Bei der Distribution der Software über das Internet sollten die Artikel nicht enthalten sein, da nicht klar war, inwiefern Verbreitungsrechte und Copyrights zu beachten sind. Um schließlich eine Einleitung zu diesen komplexen Modulen zu finden wurde ein Intro entworfen. Der ursprüngliche Entwurf sah eine VideoAufnahme eines Sinfonie-Orchesters oder einer Big-Band vor, die Qualität der zugehörigen Tonspur sollte sich durch die Codierung durch einen perzeptiven Audiocodec mit immer kleiner werdenden Bandbreite nach und nach verschlechtern, während synchron dazu die Bildqualität nach und nach immer schlechter wird. So sollte der Nutzer auf die jedem bewusste Verschlechterung eines Bildes oder Videos durch Unschärfe, Kontrastverlust oder Farbverfälschungen auch auf die Verschlechterung der Audioqualität sensibilisiert und neugierig gemacht werden, die einem Normal-Anwender, der sich nicht mit Audio beschäftigt, nur marginal bewusst ist. Gleichzeitig sollte Bild ungenügender Internet-Bandbreite für Videos heraufbeschworen werden, die jeder Nutzer von briefmarkengroßen, mit grober Auflösung gerechneten und mit Artefakten übersäten Videosequenzen aus dem Internet kennt. Dass die gleichen Fehler aber bei perzeptiver Audiocodierung (MP3) in genau dem gleichen Maße auftreten, wird selten von nicht auf die Qualität von Audio achtenden Menschen bemerkt oder wahrgenommen! 9.3. Auswahl der Experimente und Versuche 9.3.1. Klassische Mithörschwelle – Verdeckung durch Schmalbandrauschen Um eine möglichst deutliche Demonstration der Existenz von Maskierungseffekten zu realisieren und den Nutzer auf die Wichtigkeit von Maskierungseffekten zu sensibilisieren, wurde auf ein klassisches, jederzeit mit geringem technischen Aufwand zu realisierendes psychoakustisches Experiment der Mithörschwelle durch schmalbandiges Rauschen zurückgegriffen: Werden Sinustöne und ein schmalbandiges Rauschen (bandbegrenztes Rauschsignal) mit einer bestimmten Mittenfrequenz und Bandbreite gleichzeitig (auf dem gleichen Ohr) dargeboten, dann ist der Sinuston außerhalb des Frequenzbereichs des Schmalbandrauschens deutlich wahrnehmbar. Bei der Mittenfrequenz des Schmalbandrauschens wird er maximal maskiert (verdeckt). In geringem Abstand von der 79 Mittenfrequenz wird er ebenfalls verdeckt, zu hohen Frequenzen hin stärker als zu tiefen Frequenzen (siehe Abbildung). Entworfen wurde eine Simulation, in der der Nutzer durch einen [Oktave höher]- und [Oktave tiefer]-Button Sinustöne im Oktavabstand anhören und das zugehörige Spektrum ansehen kann. Dabei sollte als Aufgabe der Lautstärkeeindruck der Sinustöne beachtet werden. Die Pegel dieser Sinustöne (63,125,250,500,1000,2000,4000 und 8000 Hz) wurden mit einem A-bewerteten Korrekturwert multipliziert, um einen einheitlichen Lautstärkeeindruck zu gewährleisten. Einschub: A-Bewertung Töne, die mit unterschiedlicher Frequenz, aber dem gleichen Schalldruck dargeboten werden, werden unterschiedlich laut wahrgenommen. Ein Sinuston von 50 Hz wird als viel leiser empfunden als ein Sinuston von 1000 Hz. Wird eine Versuchsperson nun aufgefordert, diesen 50Hz Sinuston genauso laut einzustellen wie den 1000Hz-Referenzton, und wird dieser Versuch mit einer Vielzahl von Sinustönen und verschiedenen Pegeln wiederholt, entstehen die in Abbildung 16 dargestelltn „Kurven gleicher Lautstärke“ oder Isophone: Abbildung 16: Kurven gleicher Lautstärke für das ebene Schallfeld. Die Kurven sind sowohl mit dem Lautstärkepegel LN als auch mit der zugehörigen Lautheit N beziffert, entnommen [ZOL93] Aufgrund des unterschiedlichen Verlaufs der einzelnen Isophone entstanden in der Akustik diverse Schallpegelbewertungen: A,B,C und D. Die A-Bewertung entspricht im Wesentlichen einer Korrektur des unbewerteten Schalldrucks anhand der 30dB-Kurve der Isophone. Sie berücksichtigt somit die unterschiedliche Empfindlichkeit des Ohres bei verschiedenen Frequenzen. Aktuell hat nur die D-Bewertung noch Relevanz, sie entspricht im Wesentlichen der Isophone bei 100dB und wird bei Messungen von Signalen mit hohen Schalldruckpegel (z.B. Flugzeuggeräusche) verwendet. Sie trägt dem Sachverhalt Rechnung, 80 dass die Isophone bei hohen Pegeln anders verlaufen als bei niedrigen Pegeln und infolge dessen eine A-Bewertung inkorrekt wäre. Werden nun Sinustöne mit dem gleichen Schalldruckpegel (entspricht gleicher digitaler Aussteuerung bei Sinustönen, wenn man keine Verluste im Frequenzgang der Reproduktonskette annimmt) und unterschiedlicher Frequenz einer Korrektur anhand einer Isophonen-Kurve unterzogen, dann sollten bei auditiver Darbietung (bei dem dadurch festgelegten Isophonen-Schalldruck) die Sinustöne gleich laut klingen, ein „Normgehör“, also keine Veränderungen des Hörvermögens, vorausgesetzt. Da der Abhörpegel der Sinustöne im Programm-Modul natürlich nicht festgelegt werden kann, wurde eine Gewichtung der Sinustöne über einen A-bewerteten Korrekturfaktor nach der entsprechenden DIN-Norm vorgenommen. Dementsprechend ist der gleiche Lautstärkeeindruck mit dieser Gewichtung nicht exakt, aber es gewährleistet einen relativ homogenen Lautstärkeeindruck der Sinustöne über alle Frequenzen, und war die beste Kompromisslösung. Dann wurde ein schmalbandiges Rauschsignal mit einer Mittenfrequenz von 1000 Hz generiert. Die Aussteuerung des Rauschsignals wurde so bemessen, dass der 1000Hz-Sinuston gerade nicht mehr hörbar war, also vollständig vom Rauschsignal maskiert wurde. Die Oktave über 1000 Hz (2kHz) und die Oktave unter 1000 Hz (500Hz) lagen in der Frequenz so weit außerhalb des Frequenzbereichs des Schmalbandrauschens, dass kein geringerer Lautstärkeeindruck, also keine Maskierung mehr wahrnehmbar war. Das gleiche galt natürlich für die anderen Sinustöne. Im zweiten Teil des Experiments wurden die gleichen Sinustöne wie im ersten Teil dargeboten, aber gleichzeitig war durchgängig das schmalbandige Rauschen zu hören. Wieder wurde die Aufgabe gestellt, auf den Lautstärkeeindruck der Sinustöne zu achten. Der 1000Hz-Ton war nicht mehr wahrnehmbar, obwohl er im Spektum deutlich erkennbar mit höherem Pegel als das Schmalbandrauschen dargestellt wurde. Nach diesen beiden Teilen des Experimentes sollte eine Erklärung der wahrgenommenen Phänomene folgen. 9.3.2. Klassische Mithörschwelle – Verdeckung außerhalb des Frequenzbereiches des Maskers Dieses Experiment sollte als Ergänzung zum bereits beschriebenen Experiment dienen und den Nutzer auf den Fakt sensibilisieren, dass eine Maskierung nicht nur im Frequenzbereich des Maskers auftritt, sondern auch in dem höheren Frequenzbereich, in dem der Masker keine Energie mehr aufweist. Der Aufbau dieser Simulation sollte identisch mit der vorher beschriebenen sein. Statt der Sinustöne im Oktavabstand sollten Sinustöne von 800-1200Hz im Abstand von jeweils 20 Hz benutzt werden, alle Sinustöne sollten A-bewertet werden. Die Mittenfrequenz des 81 schmalbandigen Rauschens sollte bei 1000Hz liegen, die Bandbegrenzung sollte bei 800Hz und 1200Hz vorgenommen werden. Als Ergebnis sollte deutlich wahrnehmbar sein, dass die Sinustöne, deren Frequenz über 1000 Hz liegt, in einem weit größeren Frequenzbereich (und außerhalb des Frequenzbereichs des Maskers) maskiert werden, während bei Sinustönen, deren Frequenz unter 1000Hz liegt, dieser Maskierungsbereich schmaler ist. 9.3.3. Klassische Mithörschwelle – Verdeckung von Schmalbandrauschen durch breitbandige Signale (verschiedene Musikstücke) Das Ziel des Experiments für den Nutzer ist die Sensibilisierung für den Sachverhalt, dass man ein Rauschsignal mit relativ hohem Pegel in einem normalen Musikstück ohne hörbare Konsequenzen „verstecken“ kann. In diesem Experiment sollte ein exakter Bezug zum hauptsächlichen Prinzip der perzeptiven Audiocodierung hergestellt werden: die Nichthörbarkeit des entstehenden Quantisierungsrauschens, wenn der Pegel des Rauschsignals unter der Maskierungsschwelle gehalten wird. Zu diesem Zweck sollten Extrakte aus drei sehr verschiedenen Musikstilen erstellt werden, die möglichst eine gute Repräsentation verschiedenster Instrumente und Dynamik darstellt. Zusammen mit diesen MusikExtrakten sollte ein im Pegel veränderliches Schmalbandrauschen hörbar sein. Der Pegel sollte von „nicht hörbar“ (mute) bis zur Vollaussteuerung in sinnvollen Pegelschritten veränderlich sein. Dem Nutzer sollte die Aufgabe gestellt werden, denjenigen Pegel des Schmalbandrauschens einzustellen, bei dem das Rauschen hörbar wird (also nicht mehr vom Musiksignal maskiert wird). Dieser Rauschpegel sollte dann ohne das Musiksignal abgehört werden, um Vergleiche der jeweiligen Lautstärke und damit der Stärke der Maskierung zuzulassen. Dieser Pegel ist natürlich abhängig vom Musiksignal: einfach betrachtet, geht man von einer Vollaussteuerung des Musiksignals aus, ist dieser Maskierungspegel abhängig von der Energie im Frequenzbereich des Maskers. Diese Energie wiederum ist abhängig von der Lautstärke (loudness) des Musikstücks, bestimmend ist also letztendlich der Crest-Faktor (Verhältnis Spitzenpegel zu RMS-Pegel). 9.4. Entwurf der möglichen Benutzeroberfläche – Usability und Navigation In der Gestaltung der Benutzeroberfläche sollte nach den Kriterien vorgegangen werden, die im Kapitel 6 aufgeführt sind. Speziell sollten die Probleme und Fehler vermieden werden, die unter 6.4. aufgeführt sind. Als nutzbare Bildschirmauflösung wurde von einer Grafikkarte und einem 82 Bildschirm der vorletzten Generation ausgegangen (800*600 bei 256 Farben), da die in der Spezifikationen aufgeführten potentiellen Nutzer zumindest über diese Möglichkeiten verfügen würden. Das bedeutete gute Lesbarkeit und ausreichenden Platz auf dem Bildschirm sowohl für die Darstellung von Spektren, als auch für Instruktionstexte und Erklärungen. Bei dieser Bildschirmauflösung ist eine 12-Punkt-Schrift auf einem 17 ZollMonitor sehr gut zu lesen [PUS01][KRU00][MAN01]. Da ein einfarbiger Hintergrund schnell langweilig und ermüdend wirken kann, wurde ein individuell strukturierter Hintergrund für die einzelnen Programm-Module gewählt. Im Idealfall sollte der Hintergrund einen thematischen Bezug zum Programm-Modul haben. Somit wurde ein Digitalfoto als sehr stimmig und passend empfunden, das vom Autor bei dem vom elektroakustischen Studio der TU Berlin verwirklichten Mehrkanal-Aufnahme-Projekt von Luigi Nono’s „Prometeo, tragedia dell’ ascolto“ [BRD00] in der Berliner Philharmonie fotografiert wurde. Es zeigt einen Orchesternotenständer mit Noten, die von dessen integrierter Lichtquelle angeleuchtet werden. Im Hintergrund sind die Ränge der Philharmonie und die Bühne zu sehen. Dieses Bild ist so bearbeitet worden, dass es die Motive gerade noch erkennen lässt, aber weiterhin so abgedunkelt oder aufgehellt wird, dass das Lesen der Schrift nicht gestört wird. In der Gestaltung des Hintergrund-Schriftfarbe-Kontrastes wurde von den wahrnehmungspsychologischen und softwareergonomischen Erkenntnissen ausgegangen, dass helle Schrift auf dunklem Hintergrund den perzeptiven Apparat mehr anstrengt als dunkle Schrift auf hellem Hintergrund [PUS01][KRU00][MAN01]. Aus diesem Grunde wird eine schwarze Schriftfarbe gewählt, der Hintergrund mit dem Hintergrundbild sollte also so weit aufgehellt werden, dass ein sehr guter Kontrast und damit sehr gute Lesbarkeit gewährleistet ist. Wichtige Textabschnitte sollten vom restlichen Bildschirm durch einen gefüllten Hintergrundrahmen hervorgehoben werden, so dass sich das Auge des Benutzers an diesem Rahmen fokussieren kann und gleichzeitig die Wichtigkeit dieses Textbereiches hervorgehoben wird. Die jeweilige Modul-Überschrift sollte sich kontrastreich vom restlichen Bildschirm absetzen, um so dem Nutzer auf den ersten Blick die Orientierung zu ermöglichen. Es wurde ein dunkelfarbiger Balken entwickelt, der die Überschrift in heller Farbe in sich trägt. Im Entwurf der Navigationsstruktur wurde entschieden darauf geachtet, dass sich die für die Programmstruktur unbedingt notwendigen Elemente erstens immer an exakt der gleichen Stelle des Bildschirms befinden und sich zweitens diese Navigation kontrastreich vom Rest des Bildschirms absetzt. Da durch die Forderung der kontrastierenden Modul-Überschrift bereits eine Abteilung vom restlichen Bildschirminhalt gegeben war, wurde die Navigationsleiste über dem Überschriften-Balken positioniert. Der Hintergrund der Navigationsleiste sollte ebenfalls die Struktur des Hintergrundbildes erhalten, die Navigationsbuttons sollten ebenfalls in 83 dunkler Hintergrundfarbe entworfen werden, die Schrift in heller Farbe, damit sie eine Einheit mit dem Überschriftenbalken bilden. Diese neugebildete Einheit sollte sich damit vom ständig wechselnden Bildschirminhalt abheben und damit auf die immer gleich bleibenden Elemente hinweisen. Die Buttons sollten dreidimensional wirken, damit sie sich besser von der zweidimensionalen Struktur des restlichen Bildschirminhalts abheben, entsprechend den Gestaltgesetzen der Wahrnehmungspsychologie [GOL97]. Beim Positionieren des Cursors über den Buttons sollten diese hell aufleuchten, die Buttonbeschriftungen sollten dann ihre Form oder Größe ändern, um auf die Wichtigkeit dieser Navigationsleiste hinzuweisen. Es wurde eine lineare Navigation entworfen, die im Wesentlichen aus einem „Seite Weiter“ und einem „Seite zurück“ Button bestand. Diese Buttons ermöglichten die Navigation von einem Programm-Teilelement zum nächsten, und damit ein kontinuierliches „Durchklicken“ von der ersten Bildschirmseite des Programm-Moduls zur letzten zu ermöglichen. Sie sollte eine einfache Navigation für im Umgang mit unterschiedlichen Programmteilen ungeübten Nutzern ermöglichen. Für die Nutzer, die eine schnelle Navigation benutzen, wurde eine Kombination aus den erwähnten Buttons und einem „Startseite“ Button entwickelt. Dieser Button sollte erwartungsgemäß zur Startseite führen, von der alle Programmteile aufrufbar sein sollten. Ein weiterer Vorteil des „Startseite“-Buttons besteht nach den in Kapitel 6 beschreibenen Usability-Kriterien darin, dass eventuell in der Programmstruktur verirrte Nutzer einen Punkt immer einen Button sehen, der sie zu einem klar definierten Punkt in der Programm-Struktur führt. Schließlich sollte ein „Exit“-Button das Programm jederzeit beenden können. Es ist auch denkbar, dass der „Exit“-Button erst über die Startseite erreichbar sein könnte. Die Möglichkeit des komfortablen und jederzeit möglichen Beendens des Programms wurde jedoch bevorzugt, unter anderem durch den Umstand, dass bei einem Wunsch zum Beenden des Programms des ungeübten Nutzers entgegengesetzt zum geübten Nutzer der Gedankengang „Ich muss zur Startseite gehen, um den Button zum Beenden des Programms zu finden.“ nicht vorausgesetzt werden konnte. 84 Abbildung 17 zeigt den beschriebenen Entwurf der Navigationsstruktur: SeiteWeiter Exit Startseite SeiteZurück ÜBERSCHRIFT INHALT DER SEITE WEITERE NAVIGATIONSELEMENTE (NAViGATION IN DEN PROGRAMMTEILEN) Abbildung 17: Entwurf der globalen Navigationsstruktur für das zu erstellende Programm Im Entwurf der Navigation der einzelnen Programmteile wurde darauf geachtet, dass eine Einheitlichkeit im Design bestand. Beispielsweise sollte im Modul der Simulationen/Experimente, wo mehrere Experimente auswählbar sind, das jeweils aktivierte Experiment deutlich in der Navigation zu erkennen sein. Die Buttons sollten sofort als solche erkennbar sein, der Cursor sollte sich beim Bewegen über einen Button nach Web-Standards in eine Hand verwandeln, um so die Existenz und die Funktion des jeweiligen Navigationselementes zu verdeutlichen. In den einzelnen Teilen sollte auf die unter Director zur Verfügung gestellten Schaltflächen zurückgegriffen werden, da diese beim Speichern in ein internes wenig speicherintensives Format umgerechnet werden, während beim Einbinden von Navigationselementen als Bilder ein hoher Speicherbedarf auf dem Medium berücksichtigt werden muss, der dann möglicherweise weniger Hörbeispiele (die ja hohe Priorität hatten) zulässt. Schließlich wurde eine Farbcodierung entworfen, die dem Nutzer eine Orientierung in der Programm-Struktur erleichtern sollte und eine unmittelbare Rückmeldung über die aktuelle Position im Programm über die Hintergrundfarbwahl gibt. Dafür wurden verschiedene Farbgebungen für folgende Programmteile geplant, in Klammern sind die Gründe für die Unterteilung aufgeführt: • • • Das Intro (nur eine Einführung in das Programm) Die Startseite (Navigation durch das gesamte Programm-Modul, kann gleiche Farbe wie das Intro haben, ist aber abzutrennen vom restlichen Programm) Die Experimente, die Funktionsweise, die Simulationen (das eigentliche Programm-Modul) 85 • Die weiterführende Literatur (gehört nicht mehr zum eigentlichen Programm-Modul) Für die Inhalte der eigentlichen zum Modul gehörigen Programmteile gibt es eine einheitliche, helle Hintergrundfarbe. Sollte der Nutzer die Startseite aufrufen, um schnell zu den anderen Teilen zu gelangen, wird er auch durch das Ändern der Hintergrundfarbe darauf aufmerksam gemacht, dass er die inhaltliche Struktur verlassen hat. Das gleiche gilt für die unterschiedliche Farbgebung im Intro. Sollte die Seite für die weiterführende Literatur aufgerufen werden, weist die unterschiedliche Farbgebung darauf hin, dass die eigentliche Programm-Struktur verlassen wurde und die Literatur-Seite nur einen Verweis auf die technischen Dokumentationen in einem Ordner der CD darstellt. Anders ausgedrückt soll dies nur ein Verweis für weitere Informationsmöglichkeiten sein, die aber nicht mehr in die Programmstruktur eingebunden sind. 9.5. Entwurf der Systemfunktionen und unterstützte Plattformen Die Systemfunktionen beschränken sich auf Navigation und Präsentation. Alle in den Experimenten und Hörbeispielen eingesetzten Audio-Signale wurden vorbereitet und zum benötigten Zeitpunkt abgespielt. Der Grund für dieses Vorgehen waren Stabilitätskriterien der Software und angeschlossener Hardware (wie durch die Spezifikation der Unterstützung unterschiedlichster Audio-Hardware gegeben war) und die Vermeidung der Überforderung von Benutzern. Aus diesen Gründen wurden keine SinusOszillatoren oder ähnliches zur Echtzeit-Generierung der Signale in den Experimenten implementiert. Ebenfalls wurden alle zu mixenden AudioSignale soweit vorbereitet, dass das unproblematische Abspielen der Signale über die einzelnen Audiokanäle der Multimedia-Software möglich war. Als unterstützte Plattformen waren wie im Kapitel 8.4. definiert Macintosh und Windows vorgesehen, Linux kann aufgrund der von Director favorisierten „executable“-Strategie (Kompilierung der Director-Struktur in eine ausführbare, von Zusatzsoftware unabhängig lauffähige Datei) nicht bedient werden, dem Autor ist auch keine Strategie zur Portierung bekannt. Da aber davon ausgegangen wurde, dass Linux-Nutzer sich dieses Problems durch andere Erfahrungen bewusst sind, kann davon ausgegangen werden, dass diese Nutzer eine Möglichkeit des Abspielens finden werden, sei es in einer Windows-Emulation oder einer speziellen Windows-Partition. Eine Kurzumfrage unter einigen Linux-Nutzern bestätigte diese Vermutung. Die Grundtendenz unter den Nutzern war, dass sie das Ausweichen auf die Windows-Struktur vom Interessantheitsgrad des Programms abhängig machen würden. Die Kompilierung des Director-Programmcodes ist nur auf dem laufenden System lauffähig [KHA00], das heißt, um einen unter Windows lauffähigen 86 „Projektor“ zu erhalten, wie die ausführbare Datei in Director heißt, muss der Director-Programmcode unter Windows kompiliert werden. Das gleiche gilt für das Macintosh-Betriebssystem. Aus diesem Grunde wurde bei der Implementierung peinlich genau darauf geachtet, die 8.3Regelung20 zu beachen sowie nur Kleinbuchstaben zu benutzen, um eventuelle Fehlerquellen im Director-Programmcode für die Portierung auszuschalten. Es ist im Rahmen dieser Arbeit nur vorgesehen, die Windows-Version zu kompilieren, eine Macintosh-Version ist aber problemlos erstellbar, indem der Programmcode unter einer auf dem Macintosh-System laufenden Director-Applikation kompiliert wird. Anschließend können beide kompilierte ausführbare Dateien auf einem unter beiden Systemen zu lesendem Medium (z.B. ISO9660 kompatible CD-Rom21 oder Hybrid-CD: Joliet+HFS) bereitgestellt werden. Alle anderen möglichen Betriebssysteme werden nicht bedient. Der Entwicklungsaufwand würde den Nutzen bei weitem übersteigen. Aus diesem Grunde wurde im Rahmen dieser Arbeit auf eine Entwicklung verzichtet. Es ist hinzuzufügen, dass wie bei den Linux-Nutzern von einer sehr hohen Wahrscheinlichkeit der Abspielmöglichkeit auf einer Windowsoder Macintosh-Plattform ausgegangen werden kann. 9.6. Entwurf der einzelnen Programm-Teile 9.6.1. Programm-Teil „Intro“ Aufgrund des sehr begrenzten Speicherplatzes und des selbst bei sehr effektiv komprimiertem Video zu erwartenden hohen Speicherbedarfs wurde entgegen dem im Abschnitt 9.1. im Textabschnitt über das Intro beschriebenen Entwurf nur eine „Foto-Dia-Show“ verwirklicht, die sehr wenig Speicherplatz benötigt. Diese wurde so entworfen, dass die unter 9.1. erwähnte Audiospur im Konzept verbleibt, aber statt der Videoaufnahmen nur ein zum Thema passendes Bild gezeigt wird (im Videobereich als „stills“ bezeichnet), dessen Qualität sich bei jeder Stufe der sich verschlechternden Audioqualität ebenfalls verschlechtert. Dieses sollte durch diverse bildbearbeitende Mittel (wie Unschärfe und Filter) verwirklicht werden. Trotzdem transportierte sich das gewünschte mentale Bild nicht vollständig, so dass durch die Umsetzung des oben aufgeführten Video20 „ISO9660-Level1“-Norm für Dateinamen: 8 Zeichen für den Dateinamen, 3 Zeichen für den Dateityp 21 Der ganze Entwurf des Programms und der zugehörigen Medien war so ausgelegt, dass die Speichergrenze von 800MB beachtet wurde. Aus diesem Grunde wurden Abstriche im Design gemacht, um möglichst viele Hörbeispiele und Experimente/Simulationen zu ermöglichen. Dieses Speicherlimit fordert dann bei der Verbreitung beider kompilierter Dateien eine Nutzung von 2 CD-Roms anstelle der vorgesehenen einen CD-Rom, was aber keine Verletzung der Spezifikationen darstellt. 87 Konzeptes eine Verbesserung der Ideenübertragung zum Nutzer zu erwarten ist. Dieser Teil wird aber auf die Phase der Verbesserung des Programm-Moduls auf einen späteren Zeitpunkt verschoben. 9.6.2. Programm-Teil „Erklärung der Funktionsweise des MP3-Codec“ Nach den hauptsächlichen Betrachtungen in Abschnitt 9.1. wurde eine Navigation durch das komplexe Modul gesucht. Dabei diente das in Kapitel 4.3. als Abbildung 1 dargestellte Blockdiagramm als Grundlage. Als Navigationsleiste wird die im Blockdiagramm dargestellte Struktur direkt unterhalb der Modul-Überschrift übernommen, um erstens die aktuelle Position durch Hervorhebung des Blockdiagramm-Elementes zu bestimmen, zweitens ein schnelles Navigieren zwischen den einzelnen Seiten zu ermöglichen. Drittens ist damit immer ein Blick auf das Blockschaltbild gewährleistet, das sich somit einprägen kann und maßgeblich zum Verständnis durch die blockartige Struktur beitragen soll. Für jedes einzelne Element wurden Erklärungstexte entworfen, die in möglichst einfacher und knapper Sprache die Funktionsweise darstellen sollten. Dabei wurden diese Texte mehrfach mit verschiedenen Personen besprochen und überarbeitet, die mit dieser Materie keinen Kontakt hatten, um die exzessive Nutzung von Fachterminologie zu vermeiden. Weiterhin war natürlich durch die zeitlich lange und intensive Beschäftigung mit perzeptiver Audiocodierung eine objektive Betrachtung von „schwer zu verstehenden“ und „näher zu erläuternden Fakten“ nicht mehr gegeben. Dabei wurde billigend in Kauf genommen, dass sich bestimmte Nutzer, die sich mit bestimmten Grundlagen der perzeptiver Codierung bereits beschäftigten, eher unterfordert und gelangweilt fühlen konnten. Diese Herangehensweise wurde aber der Alternative, der Überforderung einer Vielzahl von Nutzern, vorgezogen. Wie in den Spezifikationen gefordert wurde auf Animationen und Videosequenzen, da zu speicherintensiv, verzichtet. Statt dessen wurde die Erklärung der Funktionsweise mittels von potentiellen Nutzern erarbeiteten Textbausteinen und Abbildungen vorgenommen. Ein weiterer Ausbau des Moduls wurde auf die Verbesserungsphase verschoben. 9.6.3. Programm-Teil „Simulation der MP3-Filterbank“ Nach den grundlegenden Betrachtungen in Abschnitt 9.1. wurden mögliche Ausführungen des Entwurfs durchdacht. Es wurden Musikstücke in drei verschiedenen, sehr unterschiedlichen Stilen und Instrumenten ausgewählt, auf die diese Filterband-Simulation jeweils angewendet werden konnte. Als am intuitivsten nachvollziehbar für eine im Umgang mit Spektren vertraute Nutzergruppe (siehe Abschnitt 8.2.) erwies sich eine 88 Spektrogramm-Darstellung. In dieser werden (in zwei Dimensionen) auf der Abszisse die Zeit und auf der Ordinate die Frequenz abgetragen. Die Energie des Signals wird durch eine Graustufencodierung (in der Sprachverarbeitung) oder Farbcodierung (Akustik und Signal Processing) verwirklicht: dunkle Grautöne (Rot-Töne) geben eine hohe Energie an, helle Grautöne (Blau-Töne) deuten auf eine geringe Energie. Abbildung 18 zeigt ein typisches Spektrogramm eines Sprachsignals: Abbildung 18: Spektrogramm eines Sprachsignals. Das Frequenzband von 1000Hz bis 1500Hz wurde markiert (zur näheren Erklärung siehe Text). Die einzelnen Frequenzbänder des MP3-Encoders werden nun durch waagerechte farbige Teilungen deutlich gemacht werden (ohne diese deutlichen Teilungen wurde das Prinzip der einzelnen Filterbänder in Vortests nicht erkannt), eine Beschriftung in den Bändern sollte die Grenzfrequenzen definieren (in Abbildung 18 wurde dies für den Frequenzbereich von 1000-1500 Hz demonstriert). Die gesamte Fläche der einzelnen Bänder wird als klickbarer Bereich ausgelegt werden (Mauszeiger verwandelt sich in eine Hand). Beim Anklicken wird dann das mit den jeweiligen Grenzfrequenzen bandpass-gefilterte Signal abgespielt. Weiterhin sollte ein Button existieren, der zum direkten Vergleich das ungefilterte Original-Signal hörbar macht. Es wurde eine Aufteilung des 16kHz umfassenden Bereichs in jeweils 5kHz realisiert, da eine Darstellung des gesamten Frequenzbereichs auf einem Bildschirm zu unübersichtlich wäre. Usability-Tests mit potentiellen Nutzern zeigten, dass nur auf die Grenzfrequenz-Beschriftungen geklickt wurde, der restliche sensitive Bereich wurde übersehen. Das war aber insofern ohne Bedeutung, da das für das Modul wichtige, zugrundeliegende Prinzip von allen Versuchspersonen verstanden und angenommen wurde. Alle Versuchspersonen hielten diese Form der Visualisierung und Auralisation einer Filterbank für eine sehr gute und sofort nachvollziehbare Ausführung. Da ein besseres Verständnis beim Nutzer bei Erweiterung des 89 ersten Spektrogramms (0-5kHz) um die beiden weiteren Spektrogramme (5kHz-10kHz und 10kHz-16kHz) nicht beobachtet wurde und eher Ermüdungserscheinungen aufgrund des Umfangs des umfangreichen Moduls auftraten, wurden diese Spektrogramme wieder aus dem Modul entfernt, eine Neuimplementierung unter anderen Entwurfskriterien (z.B. durch ein „Weiterblättern“ über einen [nächster Frequenzbereich]-Button werden für den interessierten Nutzer als sinnvoll betrachtet und auf die Verbesserungsphase des Moduls verschoben). 9.6.4. Programm-Teil „Hörvergleiche“ Hörbeispiele für verschiedene Bitraten beim Fraunhofer MP3-Codec Der Hörvergleich für die verschiedenen Bitraten sollte für verschiedenste Musikstile und Sprache die zu erwartenden Qualitätsverluste bei den vorgegebenen Bitraten illustrieren und weiterhin darstellen, welche Instrumente und Signalformen die höchsten Qualitätsverluste durch die Codierung nach sich ziehen. Es sollten von 8kBit/s bis 320 kBit/s alle möglichen Parametrisierungen hörbar gemacht werden. Aufgrund der Qualitätsunterschiede zwischen den Codecs (siehe Abschnitt 4.6.) ist die Wahl eines geeigneten MP3-Codecs elementar. Es wurde ein FraunhoferMP3-Codec ausgewählt, da er einerseits in verschiedensten Hörtests die besten Ergebnisse lieferte, andererseits das Fraunhofer-Institut maßgeblich an der Entwicklung der ersten Codecs und auch weiterer marktführender und standardisierter Codecs beteiligt war. Hörbeispiele für die Qualität verschiedener Codecs bei unterschiedlichen Bitraten Ein Hauptschwerpunkt der Arbeit lag in der Produktion von Hörbeispielen, die sehr schwierig bis unmöglich zu beschaffen sind, sei es aufgrund von technischen Schwierigkeiten (professionelle Aufnahmekriterien für Hörbeispiele) oder der rechtlich diffizilen Rechtslage der legalen Benutzung von Musik-Extrakten. Diesen Hörbeispielen kommt aber durch die Definition einer Schicht der potentiellen Nutzer eine entscheidende Bedeutung zu. Es sind audiotechnisch Interessierte oder audiotechnisch professionell Arbeitende, die das Programm mit dem Ziel nutzen, für Archivierungszwecke 22 oder Transportzwecke23 einen Klangvergleich verschiedenster Codecs zur Verfügung zu haben. Gleichfalls ist es für diese Nutzer höchst interessant, die klanglichen Fehler eines perzeptiven Codecs, die im Vergleich zu den klassischen Qualitätsverlusten (wie 22 Beispielsweise kann hier die Erstellung eines großen Multimedia-Archives, aus Kostengründen (Speicherplatz) mithilfe eines perzeptiven Audiocodec realisiert. 23 Beispielsweise kann hier die Verschickung klangqualitativ kritischer Musik über das Internet genannt werden. 90 erhöhtes Rauschen oder Knack-Signale) einen komplett anderen Klangcharakter haben, also auch eine komplett andere Sensibilisierung und Schulung für diese Fehler erfolgen muss. Aus diesem Grunde wurde der Aufbau einer repräsentativen Klangbibliothek vorgesehen, die einerseits die für einen perzeptiven Audio-Codec schwer zu encodierenden Signalformen und Instrumente nach bestimmten typischen Fehlerkriterien katalogisiert, und andererseits die Klangqualität dieser Instrumente und Signalformen durch verschiedenste kostenlos und kommerziell erhältliche Audio-Codecs als Hörbeispiele zur Verfügung stellt. Die Auswahl sollte dann entsprechend den Nutzergruppen erfolgen. Nach umfangreicher Internet-Recherche und Information auf für dieses Thema relevanten Konferenzen (Forum Acusticum, Sevilla, 2002; Tonmeistertagung 2002, Hannover, 2002; DAGA2003, Aachen, 2002) fanden sich CD-Roms von zwei Instituten, die sich bereits intensiv mit diesem Thema beschäftigten: • die CD-Rom „Perceptual Audio Codecs – What to listen for“ des AES Technical Commitee [AES02] bietet Hörbeispiele für viele typische Artefakte perzeptiver Audiocodecs, daneben sind einige Artikel und HTML-Dokumente enthalten, die eine Erklärung dieser Fehlersignale liefern. Die Aufnahmequalität der Signale und Musikbeispiele ist zum Teil schlecht, Feinheiten im Signal sind aus diesem Grunde oft nicht hörbar, aber die Hauptfehler sind sehr deutlich dargestellt und hörbar. • Die CD-Rom „AIDA: Audio Internet Demonstration Aid“ des IRT (Institut für Rundfunktechnik) [AID02] bietet einen Hörvergleich aller gängigen Codecs in verschiedenen Bitraten. Weiterhin sind Informationen über die Performanz der Codecs (Dauer der Encodierung, Prozessorlast) und die verwendete Encoder-Software enthalten. Ein Hauptproblem der CD-Rom ist die nicht einheitliche Wahl des Formates für die Sound-Dateien, die im Normalfall „*.WAV“ wäre. Die Sounddateien liegen neben den EncoderFormaten (z.B. „*.mp3“) in diversesten, teilweise sehr exotischen Auflösungen (Abtastraten und Bittiefe) als „*.wav“ vor, was eine ungenügende Aufbereitung der Medien für den Nutzer darstellt, da bestimmte Abtastraten von vielen Software-Playern und AudioKarten nicht abgespielt werden können. Da die geplanten Hörbeispiele und Testsignale auf diesen genannten CDs vorlagen, wurde der Plan auf die Erstellung der eigenen Klangbibliothek verworfen und statt dessen eine Übernahme der vorhandenen Hörbeispiele geplant. Eine Verbesserung und Ausweitung der auf den CDRoms vorliegenden Beispiele wurde auf die Phase der Überarbeitung und Verbesserung des Programm-Moduls verschoben. Zu klären wäre der Rechte-Aspekt der Hörbeispiele. Eine Übernahme oder Verlinkung der Programmstruktur der oben genannten CD-Roms ist nicht möglich, da das Format beider CD-Roms HTML-basiert war und damit die Vorgabe der Abspielbarkeit des kompletten Programm-Moduls ohne notwendige Zusatzsoftware (es wäre 91 mindestens eine Browser-Software notwendig) verletzt worden wäre. Somit blieb als einzige Lösung die Portierung der auf den CD-Roms vorhandenen Sound-Files auf die generierte Programm-Struktur. Es wurde ein Interface zum Abspielen der auf der CD-Rom „AIDA“ enthaltenen Soundfiles entworfen, welches dem verwendeten Format von „AIDA“ sehr ähnlich war. Dieses Interface war in Tabellenform strukturiert: die Spalten geben die unterschiedlichen Codecs an, die Zeilen geben die verwendeten Signale (Sprache in Musik eingebettet, Klassik, Jazz...) an. Ein Klicken auf das Abspielsymbol im Schnittpunkt der jeweiligen Zeile und Spalte spielt das ausgewählte Signal encodiert vom ausgewählten Codec ab (siehe Tabelle 10). Codec 1 Signal1 Signal 2 ... Codec 2 Codec 3 ... x Tabelle 9: Entwurf des Interfaces des Codec-Hörvergleichs. Eingetragen ist der Klickpunkt, um das zweite Signal, encodiert von Codec2, zu hören. Weiterhin ist eine Spalte vorhanden, in der die uncodierte Referenz (das Original) angehört werden kann. Eine weitere zusätzliche Spalte gibt Informationen über das verwendete Signal, eine weitere zusätzliche Zeile gibt Informationen über den verwendeten Codec (Encodier-Software, Herstellerverweise usw.). Wird diese beschriebene Tabelle auf mehreren Bildschirm-Seiten für mehrere Bandbreiten erstellt, steht ein umfangreiches Archiv zur Verfügung, mit dem man bei gewünschter Bitrate unmittelbar die Qualität verschiedenster Codecs in verschiedensten Musik- und Sprachkontexten direkt im AB-Vergleich miteinander vergleichen kann. Hörbeispiele für typische Fehlersignale perzeptiver Codecs Auf der CD-ROM „Perceptual Audio Codecs – What to listen for“ der AES war bereits eine große Anzahl typischer Fehlersignale zusammen mit der uncodierten Referenz (dem Original) vorhanden. Da die Struktur des Interfaces nicht in die bestehende Programmstruktur integrierbar ist, wurde auch hier ein neues, einfach strukturiertes Interface entworfen. Neben dem deutschen und englischen Titel des Fehlersignals sollte es einen Button für das Abhören des Fehlersignals und einen Button für das Abhören der Referenz geben. Ein weiterer Button sollte zu einer Bildschirm-Seite führen, auf der das Entstehen und das Prinzip sowie, wenn vorhanden, Möglichkeiten zur Vermeidung des Auftretens dieses Fehlersignals gegeben werden sollten. Deutlich erkennbar sollte ein Hinweis angebracht werden, dass zum Verständnis des Entstehens des Fehlersignals die Kenntnis des Moduls „Funktionsweise des MP3-Encoders“ 92 notwendig sei, um Wiederholungen des Textes zu vermeiden und damit möglichen Verwirrungen der Nutzer vorzubeugen. 9.6.5. Programm-Teil „Weiterführende Literatur“ In diesem Modul-Teil wurden der unter Abschnitt 9.1. beschriebene einfache Entwurf umgesetzt. Da der Bildschirm dieses Moduls nur einen Verweistext auf die in einem Ordner der CD-Rom enthaltenen technischen Publikationen enthalten sollte, wurde neben den Standard-Elementen wie Navigation und Überschrift nur ein Textrahmen entwickelt, der diese textuellen Inhalte in diesem Rahmen darstellt. Weiterhin wurde ein Hintergrundbild aufgrund den in Abschnitt 9.3. entworfenen Farbcodierungen ausgewählt und bearbeitet. 9.7. Zusammenfassung Es wurden entsprechend den Spezifikationen Entwürfe zur Erstellung des multimedialen Lernmoduls erstellt. Im einzelnen wurden Entwürfe für die globale Navigationsstruktur und den strukturellen Aufbau des Programms in Module dargestellt. Im weiteren werden die einzelnen Experimente und Simulationen entsprechend den Spezifikationen entworfen und deren Realisierbarkeit und entstehende Einschränkungen diskutiert. Schließlich werden die einzelnen Module strukturiert und deren genaue inhaltliche Thematik festgelegt sowie die Navigation innerhalb der Module festgelegt. 93 10. Implementierung In diesem Kapitel wird die konkrete Umsetzung und Programmierung der in Kapitel 9 ausführlich erarbeiteten Entwürfe beschrieben. Das wesentliche Vorgehen zur Erstellung der multimedialen ContainerDateien (Sound-, Bild-, Textdateien) wird dokumentiert, sowie eine ausführliche Begründung für die Formatauswahl gegeben. Schließlich wird die genaue Umsetzung der Entwürfe in den einzelnen Programm-Modulen dargestelt, indem die Erstellung der einzelnen Medien und deren Einbindung in Macromedia Director beschrieben wird. Vorausgreifend wird darauf hingewiesen, dass zum besseren Verständnis und zum Begutachten der einzelnen Module im Anhang Screenshots aller Module aufgeführt sind, die das vielleicht an einigen Stellen sehr trockene Positionieren der einzelnen Programmelemente auf einen Blick verdeutlicht, sofern ein Begutachten des beiliegenden Programms nicht möglich ist. Anforderungen an die Implementierung waren: • Robustheit (Minimierung der möglichen Systemprobleme) • Wiederverwendbarkeit (Nutzung der einzelnen Inhalte in einem anderen Rahmen) • Verteilte Implementierung (in der Verbesserungsphase sollte verteiltes Arbeiten, auch durch verschiedene Entwickler möglich sein) • Eine einfache Erweiterbarkeit sollte gewährleistet werden. 10.1. Analyse der Werkzeuge für die Umsetzung 10.1.1. Das Werkzeug zum Komponieren der Multimedia-Inhalte Dieses Werkzeug wurde bereits in Abschnitt 9.1. definiert, da der zeitliche Rahmen der Arbeit ein effektives Erarbeiten und Umsetzen der einzelnen Programmabschnitte forderte. Damit war eine Erarbeitung der Entwürfe ohne Prüfung auf deren tatsächliche technische Realisierbarkeit nicht möglich. Als Software zum Arrangieren wurde aus den unter 9.1. aufgeführten Gründen Macromedia Director festgelegt. 10.1.2. Die Sinustöne und Spektren Die benötigten Sinustöne und ihre Spektren wurden mit der Sprachverarbeitungssoftware PRAAT [PRAwb] erstellt, da diese Software sehr gute und schnelle Synthesemöglichkeiten bietet. Das Programm ist in 94 eine Vielzahl von einzeln parametrisierbaren Analyse- und Synthesemodulen unterteilt, die bereits sehr gut auf oft benötigte Signalverarbeitungs-Aufgaben abgestimmt sind. Damit lassen sich bei vielen Aufgaben bessere und zeiteffizientere Lösungen erzielen als bei der Benutzung von Matlab, wobei die Aufgabenfelder der beiden Programme natürlich unterschiedlich sind. Durch die integrierte Skript-Sprache können häufig wiederkehrende oder komplexe Bearbeitungsschritte sehr vereinfacht werden. Alle Module lassen sich mit der kompletten Parametrisierung durch Skripte steuern. Spektren und Spektrogramme (sowohl FFT- als auch LPC-basiert) lassen sich sehr komfortabel erzeugen und graphisch darstellen. 10.1.3. Die Bilddateien Da in Director nur Bilder im Bitmap-Format (*.BMP) und PhotoshopBildformate importierbar sind, wurden alle für das Programm-Modul notwendigen Spektrogramme und Spektren, die aus anderen Softwarequellen wie PRAAT oder Matlab als PostScript oder Enhanced Metafile vorlagen, mit Hilfe von Adobe Photoshop importiert und in ein Graustufenbild umgewandelt. Diese Bilder wurden dann im *.BMP Format gespeichert und konnten dann problemlos in Director importiert werden. Alle Hintergrundbilder und Fotos wurden nach der Bearbeitung in Photoshop im proprietären Photoshop-Format gespeichert und konnten dann ebenfalls direkt in Director importiert werden. 10.1.4. Die Sounddateien Die Sounddateien wurden nach ihrer Bearbeitung im Wave-Format (*.WAV) gespeichert, mit den Attributen 44.1 kHz und 16 Bit, um Fehler bei der Wiedergabe von bestimmten, sehr kostengünstigen Audio-Karten zu vermeiden. Diese unterstützen meist nur bestimmte, gängige Abtastraten (meist 44.1kHz und 48kHz)24. Speziell bei der Bearbeitung des AIDA-Sound-Pools (Modul: Hörbeispiele, Teilmodule: Hörvergleich unterschiedlicher Codecs) war eine umfangreiche Abtastratenänderung notwendig, da die Sounddateien in sehr vielen verschiedenen Abtastraten vorlagen, deren teilweise sehr exotische Abtastraten sogar auf einer professionellen Audiokarte Wiedergabe-Probleme verursachten. Beim Abspielen der Musikbeispiele wurde ein 0.5s langer Fade-In realisiert, da die Beispiele aus der Mitte der Stücke entnommen wurden, und durch die teilweise hohe Kompression und damit verbundene Lautheit ein 24 Weiterhin wird so eine unproblematische Erstellung einer Audio-CD möglich (festgelegte Abtastrate 44.1kHz), ohne eine Abtastratenkonversion vornehmen zu müssen. 95 unangenehmes Hörempfinden durch den plötzlichen massiven Lautstärkesprung entstand. Alle notwendigen Schnitte, Fades, Abtastraten- und Formatänderungen wurden mit dem Audiobearbeitungsprogramm SoundForge6 der Firma SonicFoundry durchgeführt. 10.1.5. Die Textdateien Die für das Programm-Modul notwendigen Textdateien wurden in Microsoft Word erstellt, formatiert und anschließend als RTF-Format in Director importiert, da dies laut [KHA00] die einzige Möglichkeit ist, größere Mengen Text in Director einzubinden und trotzdem komfortabel bearbeitbar zu halten. Eine Einbindung direkt als Word-Dokument schlug fehl, da Director diese Texte offenbar als Bilddateien einband, und durch Größenänderungen durch die Interpolation der Pixel die Lesbarkeit des Textes litt. 10.2. Beschreibung der Programm-Komponenten Es folgt die genaue Dokumentation der Umsetzung der Entwürfe, sowie die Erstellung der einzelnen Programm-Elemente in den einzelnen Software-Paketen sowie deren Arrangierung in Director. 10.2.1. Anlegen des Director-Projektes Entsprechend den aufgestellten Vorgaben wurde zunächst ein DirectorTemplate erstellt. Die einzelnen Module sollten in einzelnen Filmen realisiert werden, damit beim Ändern eines kleinen Teils an einem Modul nicht das ganze Programm geändert werden musste. Weiterhin war so ein unabhängiges paralleles Arbeiten an den Modulen möglich, was ansonsten aufgrund der Frage nach der jeweils aktuellen Version erschwert worden wäre. Für die spätere Verbesserungsphase des Moduls bedeutete dies, dass unterschiedliche Autoren das Programm gleichzeitig verbessern können, beispielsweise ein 3D-Designer für das Intro, ein Psychoakustiker für die Experimente usw. Die Bühnengröße wurde auf 800x600, die Farbtiefe der Bühne wurde auf 8 Bit (entspricht 256 darstellbaren Farben) festgelegt. Sollte im ProgrammModul ein Bild benötigt werden, das Farben enthält, die im 8Bit-Farbcode nicht zu finden sind, besteht die Möglichkeit, das Bild in Photoshop im Modus „indizierte Farben“ zu speichern. Das Bild liegt dann im 8-BitModus vor, es werden aber nur die im Bild tatsächlich enthaltenen (maximal 256) Farben gespeichert. Die Farbinformationen werden in einer eigenen Farbtabelle gespeichert. 96 Die Deckkraft des in den Entwürfen als passend empfundene Hintergrundbildes wurde mit Photoshop auf rund 20% gesetzt, damit ist das Motiv noch gut erkennbar und eine sehr gute Lesbarkeit der später in der obersten Bühnen-Ebene zu findenden Textpassagen war gewährleistet. Als Bühnen-Hintergrundfarbe wurde schwarz gewählt, bei einem späteren Abspielen des Films in einer höheren Auflösung als 800x600 wird der restliche Teil des Bildschirms mit der schwarzen Hintergrundfarbe gefüllt, und das eigentliche Programm-Modul ist gut abgegrenzt und grafisch ansprechend in der Mitte des Bildschirms zentriert. Es wurde ein dunkelblauer Farbbalken in Director generiert, der als Texthintergrund für die Modulüberschriften und als Abgrenzung zur Navigationsleiste fungieren sollte. Die Modulüberschriften sollten für eine kontrastreichere Darstellung in Weiß, in großem Font und fettgedruckt dargestellt werden, um eine „auf den ersten Blick“-Erkennbarkeit zu gewährleisten. Als Schriftfont wurde für alle Textblöcke (alle Textelemente außer Buttonbeschriftungen) Verdana verwendet. Verdana ist eine serifenlose Schriftart, sie ist nach [PUS01][KRU00][MAN01] eine der Schriftarten, die für das Lesen an Monitoren am besten geeignet ist. Sie ist für das Lesen von längeren Texten am ermüdungsfreiesten und bietet die geringste Verwechselungsgefahr von leicht zu verwechselnden Zeichen wie „i“ und „l“. Das Problem der Nichtexistenz der Schriftart auf einem der Zielrechner stellte sich nicht, da Director beim Kompilieren des Programmcodes die verwendeten Schriftarten mit einbindet. Die Navigationsleiste wurde komplett in Photoshop erstellt und besteht aus dunkelblauen Buttons mit weißer Aufschrift, die beim Überfahren mit dem Cursor hell aufleuchten, um die Existenz eines klickbaren Bereiches zu melden. Dieses helle Aufleuchten wurde durch einen identischen Button realisiert, dessen Farbe allerdings ein sehr helles Blau ist, der Schriftgrad wurde vergrößert, um die Aufmerksamkeit des Nutzers im Augenblick des Überfahrens auch wirklich auf diesen Button zu fokussieren (es entsteht eine plötzliche Bewegung, die immer die Aufmerksamkeit des Betrachters fokussiert). Bei der Erstellung aller Schaltflächen im Director-Projekt wurde ein LingoSkript auf diese Schaltfläche angewandt, welches den Cursor in eine Hand verwandelt, wenn der Cursor über der betreffenden Schaltfläche positioniert wird, und ihn wieder in einen normalen Pfeil verwandelt, wenn sich der Cursor nicht mehr über der Schaltfläche befindet. Damit soll das Erkennen von „klickbaren“ Schaltflächen erleichtert werden. Weiterhin wird die Konvention von Web-Browsern beibehalten, die den Cursor ebenfalls in eine Hand verwandeln, wenn ein Link überfahren wird. Damit ist einem wichtigen Kriterium, dem Einhalten von Konventionen und 97 Standards, Rechnung getragen worden, um die Navigation im Programm zu erleichtern. Im folgenden soll auf die genaue Implementierung der einzelnen Module eingegangen werden. Alle einzelnen Filme wurden mit den beschriebenen Voreinstellungen begonnen. 10.2.2. Erstellen des Moduls „Intro“ Nach den Entwürfen wurde ein Musikstück (Rosana: „Pa´ti no estoy“) ausgewählt, da es einerseits eine sehr eingängige Melodie besitzt, andererseits mit einer Vielzahl von verschiedenen Instrumenten eingespielt wurde. Damit lassen sich möglicherweise auftretende perzeptive Artefakte gut wahrnehmen. Auf das Intro folgend wurde nach einigen Takten ein Takt aus dem Stück herausgeschnitten. Dieser Takt sollte durch einen MP3-Codec in verschiedenen Bitraten encodiert und decodiert werden und dann wieder in das Musikstück eingesetzt werden. Dabei sollte für jeden Takt eine Codierung eingesetzt werden, die eine Bitratenstufe niedriger encodiert wurde. Damit wurde ein kontinuierlicher Audio-Qualitätsverlust erreicht. Am Ende sollte wieder der Originaltakt (mit der Originalqualität) eingesetzt werden, um darzustellen, um welchen Grad sich die Audio-Qualität verschlechtert hatte. Es wurde ein Bild ausgesucht, das einen Verbund mit dem Thema bieten sollte. Ausgewählt wurde eine Fotografie eines Tanztheaters, das sehr viele Details bot, um die später angewendete Verschlechterung der Bildqualität zu demonstrieren. An den Zeitpunkten, an denen sich die Bitrate (und damit die Qualität) des Musikstückes änderte, sollte auch eine Verschlechterung der Bildqualität auftreten. Realisiert wurde diese Verschlechterung durch in Adobe Photoshop integrierte Bildfilter. Im einzelnen wurden Weichzeichnungsfilter, Bewegungsunschärfe, Störungsfilter und Verzerrungsfilter (Ozeanwellen), teilweise auch in Kombinationen und kaskadiert, auf das ausgewählte Bild angewendet. In Director wurde das neu zusammengesetzte Musikstück in eine Tonspur importiert. An jeder Stelle, an der eine neue Bitrate im Musikstück erreicht wurde, ist das ursprüngliche Tanztheater-Bild durch ein Bild schlechterer Qualität des gleichen Tanztheaters ersetzt worden. Damit wurde eine Synchronität der Verschlechterung der Qualität des Bildes und des Tons erreicht. Es wurde ein [Intro überspringen]-Button entwickelt, der bei Klicken sofort das Abspielen des Intros unterbrach und zur Startseite springt. Dieser wurde an einer gut sichtbaren Position angebracht. Der Hintergrund dafür ist ein Usability-Prinzip, das den Benutzer nicht warten und untätig sein lassen sollte. Sollte ein Benutzer das Intro bereits kennen oder uninteressant finden, ist er nicht gezwungen, das komplette Abspielen des Intros abzuwarten, ehe er in die Programmstruktur vordringen kann. 98 10.2.3. Erstellen der Startseite Eine Startseite wird für die Navigation benötigt. Dementsprechend wurde zur Implementierung dieses Programm-Teils in der Mitte des Bildschirms eine Sternstruktur verwirklicht, in deren Mitte sich ein dunkles, den Farben des Hintergrundes angepasstes Oval mit der Aufschrift „Perzeptive Audiocodierung“ befindet. Von diesem gehen strahlenförmig einige Objekte ab, die als Schaltflächen verwirklicht wurden. Diese wurden mit den Modulnamen beschriftet. Beim Klicken auf diese Schaltflächen wird auf diese Module verwiesen (dieses Modul aufgerufen). Bei Erweiterung des Programms um weitere Module ist so eine einfache Aktualisierung durch Hinzufügen weiterer „Strahlen“ gewährleistet. Der Hintergrund der Schaltflächen wurde bewusst weiß belassen. Damit wurden die Spezifikationen nicht verletzt, weil auf der Startseite noch kein Modul aktiviert ist, gleichzeitig wird auf die gleiche Relevanz (gleiche Ebene der hierarchischen Struktur) hingewiesen. Die Startseite wird sich in der Farbe von den restlichen ProgrammModulen, das Intro ausgenommen, unterscheiden. Von dieser sollten alle Module des Programms zu erreichen sein. Als Hintergrundbild wurde wiederum das Tanztheater-Bild verwendet, das auch schon im Intro Verwendung fand. Durch die Benutzung des gleichen Bildes in Intro und Startseite sollte der Einstieg in das Programm vereinfacht werden. 10.2.4. Erstellen des Moduls „Erklärung der Funtionsweise des MP3Codecs“ Das in Kapitel 4.1 in Abbildung 1 dargestellte Blockdiagramm eines MP3Encoders wurde in Director als Navigationsleiste implementiert, indem die Blockelemente als Schaltflächen angelegt wurden. Die Verbindungen wurden durch graphische Elemente (Linien) gelöst. Diese Schaltflächen wurden mit Lingo-Skripten belegt, welche auf die in der ProgrammStruktur vorhandenen Marker springen sollten. Ein Klick auf „Filterbank“beispielsweise sollte beispielsweise auf den Marker „Filter“ im Director-Drehbuch springen, so dass eine Navigation im Modul möglich war. Weiterhin wurden alle nicht aktiven Schaltflächen des Blockdiagramms mit der Fülloption „Hintergrund transparent“ versehen, so dass nur die aktive Schaltfläche einen weißen Hintergrund aufwies. Damit ist auf einen Blick zu erkennen, in welchem Teil des Funktionsweise-Moduls man sich befindet. Die einzelnen Texte zur Erklärung der Funktionsweise wurden in MS Word erstellt und in Director unter dem RTF-Format importiert. Die Grafiken wurden aus [ZWI67] und [ZWI90] gescannt, in Photoshop unter dem 99 BMP-Format gespeichert und ebenfalls in Director importiert. Diese beiden Teile wurden dann in Director auf der verfügbaren Bühnenfläche so angeordnet, dass eine gute und intuitive Erfassung des Textes und der Grafiken möglich ist. 10.2.5. Erstellen des Moduls „Experimente“ Nach dem in Kapitel 9 geschilderten Entwurf einer konstruktivistischen Lernstruktur wurde der Programm-Teil „Experimente“ erstellt. In diesem Modul befinden sich alle psychoakustischen Experimente und Simulationen. In der oberen linken Bildschirmseite wurde eine zusätzliche Navigationsstruktur verwirklicht, die ein Springen zu den einzelnen Teilen ermöglichte. Für alle Teile des Moduls wurde ein Button [Audio Stoppen!] auf dem Bildschirm direkt oberhalb der Spektren implementiert. Der Button ist mit einem Lingo-Skript belegt, der alle abgespielten Signale in allen Audio-Kanälen sofort stoppt. Dieses Element wurde insofern als wichtig erachtet, als bei Fehleinstellung der Abhöreinrichtung ein sofortiges Stoppen aller Audiosignale gewährleistet ist (und damit vielleicht das Gehör retten kann!). Zweitens soll bei Vorführungen das Stillegen des Programm-Audioausgangs gewährleistet sein, wenn beispielsweise ein Teil des Moduls in Vorlesungen erklärt wird. Im folgenden wird die Implementierung der einzelnen Experimente erklärt. Experimente „Maskierung von Sinustönen in Schmalbandrauschen“ Experiment 1 (Oktavsinustöne) Nach den Entwürfen in Abschnitt 9.2. wurden die einzelnen Sinustöne mit PRAAT generiert. Gleichzeitig wurde ein Durchschnittsspektrum dieser Sinustöne generiert. Dieses Spektrum wurde geplottet und als EPS-File zur Weiterbearbeitung in Photoshop exportiert. Die einzelnen Sinustöne wurden dann mit einer A-Bewertung versehen, um einen gleichbleibenden Lautstärkeeindruck speziell bei Frequenzen wie 8kHz und 500 Hz zu gewährleisten (bei diesen Frequenzen weisen die Isophone einen extremeren Pegelunterschied auf, wie in Abbildung 16 in Kapitel 9.3.1. deutlich zu erkennen ist). Diese Korrekturwerte für die A-Bewertung wurden freundlicherweise von Dr.-Ing. André Jakob (Institut für Technische Akustik) zur Verfügung gestellt, der nach der entsprechenden DIN-Norm ein Matlab-Script erstellte, das die Korrekturwerte für eine A-Bewertung bestimmt. Diese Korrekturwerte wurden dann wiederum in Matlab in Verstärkungs- oder Abschwächungsmultiplikatoren umgerechnet. Diese wurden auf die Sinussignale multipliziert, die zuvor in Matlab als WAV-Dateien importiert wurden. Anschließend wurden diese veränderten Signale wieder als WAVDateien exportiert. Der Grund für das vorherige Plotten der Spektren war, dass die Ordinatenachse als unbewertete Pegel-Achse vorlag, das Plotten der bearbeiteten (A-bewerteten) Sinussignale also zu unterschiedlichen 100 Pegeln im Spektrum geführt hätten. Diese Darstellung hätte den Nutzer eher verwirrt. Für die Generierung des Schmalbandrauschens wurde ein weißes Rauschsignal mit sehr steilflankigen linearphasigen Hoch- und Tiefpassfilter bearbeitet (Waves: “Linear Phase EQ“). Die Mittenfrequenz war 1000Hz, die Grenzfrequenzen waren 775Hz und 1202Hz, der Q-Faktor war 6.5. Bei den Frequenzen 700Hz und 1202Hz lag bereits ein Pegelabfall von über 40dB vor, somit waren unerwünschte Frequenzen wirkungsvoll genug unterdrückt. Abbildung 19 zeigt einen Screenshot des Filterinterfaces mit den beschriebenen Parametern: Abbildung 19: Interface des für die Filterung des Schmalbandrauschens verwendeten Audio-Plug-In. Aktiv waren die Bänder mit den Grenzfrequenzen 775Hz und 1205Hz. Abbildung 20 zeigt das Spektrum des mit diesen Parametern aus dem Weißen Rauschen erzeugten Schmalbandrauschens: 101 Abbildung 20: Spektrum (oben linker, unten rechter Kanal) des für die Filterung des Schmalbandrauschens verwendeten Filters. Der notwendige Pegel des Maskierungsrauschens für das Experiment wurde bestimmt, indem in einem mehrspurigen Audio-Editor auf einer Spur die verschiedenen A-bewerteten Sinustöne abgespielt wurden. Auf einer weiteren Spur wurde das generierte Schmalbandrauschen abgespielt. Der Pegel des Schmalbandrauschens wurde dann so eingestellt, dass der Sinuston von 1000Hz gerade nicht mehr zu hören war. Das Schmalbandrauschen wurde dann mit dieser neuen Aussteuerung exportiert. Die einzelnen jetzt unbewerteten Sinustöne wurden im Audio-Editor zusammen mit dem Schmalbandrauschen gemischt und als WAV-Files exportiert (gebounced). Von diesen Wave-Files wurden wiederum in PRAAT die Spektren erstellt. Damit waren für beide Experimentteile alle Spektren vorhanden. In Director wurde für den ersten Teil des Experimentes in jedes Bild ein Oktav-Sinuston in die Tonspur eingefügt. Das zum jeweiligen Sinuston zugehörige Spektrum wurde im linken unteren Teil der Bühne positioniert. Im oberen rechten Teil entstanden 2 Buttons, die zum nächsthöheren und zum nächsttieferen Bild sprangen, in dem sich die Audiodateien und Spektren der nächsthöheren Sinustöne (Oktave höher) oder nächsttieferen Sinustöne (Oktave tiefer) befanden. Damit war dem Nutzer ein Durchschalten der einzelnen Oktavtöne über diese beiden Buttons möglich. Der Button [Oktave tiefer] bei der Frequenz 63Hz und [Okave höher] bei der Frequenz 16kHz wurden nach üblicher Windows-Konvention hellgrau dargestellt25, um dem Nutzer mitzuteilen, dass an diesem Punkt kein weiterer Experimentdurchlauf verfügbar ist. 25 Da unterhalb von 63Hz und oberhalb von 16kHz kein Oktav-Sinuston mehr anwählbar war. 102 Es wurde ein Text auf dem oberen Teil der Bühne platziert, der dem Nutzer die Objekte und die Möglichkeiten des Experimentes erklärt und eine Aufgabe stellt. Diese Aufgabe lautete, dass der Nutzer genau darauf achten sollte, ob die Lautstärke der Oktavsinustöne ungefähr gleich ist. Schließlich wurde in der unteren rechten Ecke des Bildschirms ein Button positioniert, der zum zweiten Teil des Experimentes führen sollte. Im zweiten Teil des ersten Experimentes war der Aufbau ähnlich. Zu den Sinustönen in der Tonspur 1 wurde noch das Schmalbandrauschen auf der Tonspur 2 implementiert. Beide Tonspuren waren zu hören. Die Spektren stellten jetzt natürlich die Sinustöne und das Schmalbandrauschen dar. Der Sinuston von 1000Hz war jetzt nicht mehr wahrnehmbar, da er vollständig vom Schmalbandrauschen maskiert wurde. Als Aufgabe für den Nutzer wurde gestellt, dass eine Bewertung darüber erfolgen sollte, ob trotz des Schmalbandrauschens die Sinustöne ungefähr gleich waren. Um das gehörte Phänomen zu erklären, führte ein Button auf eine Erklärungsseite, auf der die gehörten Phänomene kurz erklärt wurden und eine Grafik aus einem Buch von Zwicker zur besseren Verdeutlichung präsentiert wurde. Experiment 2 (Sinustöne im Frequenzbereich von 700Hz bis 1400Hz im Abstand von 20Hz ) Das zweite Experiment sollte die Erkenntnisse der Psychoakustik darstellen, dass Maskierung nicht nur im Frequenzbereich des Maskers auftritt, sondern auch im höheren Frequenzbereich und schwächer ausgeprägt auch im niedrigeren Frequenzbereich. Die Implementierung war identisch mit der für Experiment 1 beschriebenen Implementierung. Statt der Oktav-Sinustöne wurden Sinustöne von 700Hz bis 1400Hz generiert, im Abstand von jeweils 20 Hz. Das Schmalbandrauschen war mit dem aus Experiment 1 identisch. Der Effekt, dass die Sinustöne nicht nur im Frequenzbereich des Schmalbandrauschens maskiert wurden, sondern auch im höheren Frequenzbereich massiv abgeschwächt wurden, und auch im niedrigeren Frequenzbereich deutlich abgeschwächt wurden, konnte sehr gut verdeutlicht werden. Experiment 3 (Maskierung von Schmalbandrauschen in verschiedenen Musiksignalen) Dieses Experiment ist für das Verständnis perzeptiver Audiocodierung am wichtigsten, da es ein Verständnis für das Maskieren von Rauschsignalen in Musik ermöglicht. 103 Für diesen Teil wurden zuerst 3 Musikstücke ausgewählt, die eine möglichst große Bandbreite an Instrumenten und musikalischen Stilen bieten sollte. Im einzelnen kamen zum Einsatz: • • • Herbert Grönemeyer „Luxus“, von der MTV-Unplugged CD, Grönland Records Brahms „Concerto for violin and orchestra in D-major: Allegro non troppo“, Aufnahme: Anne Sophie Mutter und Berliner Philharmoniker unter der Leitung von H. Karajan, Deutsche Grammophon Virginia Rodrigues „Ilê é impar“, CD „Nós“, Natasha Records Das erste Stück ist ein Rockmusik-Stück und enthält sehr gute Aufnahmen von hochwertigsten akustischen Instrumenten und ist außerdem sehr gut produziert. Das dritte Stück ist ein typische brasilianische SambaAufnahme und enthält neben der sehr gut aufgenommenen Stimme von Virginia Rodrigues viele verschiedene Schlagzeug- und PercussionInstrumente. Das zweite Stück ist eine typische Aufnahme klassischer Musik mit komplettem Orchesterinstrumentarium. Mit diesen drei Stücken sollte ein repräsentativer Querschnitt durch diverseste Instrumente und Signalquellen gewährleistet sein, um die Eigenarten perzeptiver Audiocodierung zu verdeutlichen. Aus den Musikstücken wurden 30 repräsentative Sekunden geschnitten. Diese Musikstücke konnten über Buttons auf dem Bildschirm angehört werden. Dazu wurden 2 Buttons implementiert, die das im vorherigen Experiment beschriebene Schmalbandrauschen mit dem Musiksignal überlagerten. Der Pegel des Schmalbandrauschens war variabel in 3dBSchritten. Dazu wurde verschiedene WAV-Files des Schmalbandrauschens mit Aussteuerungen zwischen –36dBFS und –6dBFS erzeugt. Diese WAVFiles wurden in der beschriebenen Reihenfolge abgerufen, wenn einer der Buttons vom Nutzer betätigt wurde, während das Musiksignal in unveränderter Aussteuerung abgespielt wurde. Auf eine Vollaussteuerung des Rauschsignals wurde verzichtet, da es in diesem Falle zum Clipping durch das Erreichen und Überschreiten der Reserven des Digital-AnalogWandlers gekommen wäre. Das gleiche wäre bei der Aussteuerung des Rauschens bei –6dBFS im dritten Musikstück passiert, weshalb in diesem Musikstück das Rauschsignal nur bis –9dBFS zu regeln ist. Drei weitere Buttons erlaubten das Schalten zwischen den Einstellungen: • • • Musiksignal ohne Rauschen Rauschsignal ohne Musik (mit der gerade gewählten RauschsignalAussteuerung) Das Musiksignal mit Rauschsignal (mit der gerade gewählten Rauschsignal-Aussteuerung) um einen Eindruck von den Maskierungseffekten der einzelnen Musikstücke auf die Wahrnehmbarkeit des Schmalbandrauschens zu bekommen. 104 Dem Nutzer wurde wiederum in einem mit einem Textrahmen unterlegten Instruktionstext die einzelnen Elemente und Möglichkeiten des Experiments erklärt. Es wurde die Aufgabe gestellt, den Pegel des Rauschsignals so einzustellen, dass es gerade hörbar ist. Da das Experiment vorsieht, dass die Lautstärke von maskiertem und nicht maskierten Rauschen verglichen werden sollte, konnte auf das Abhören des Rauschsignals umgeschaltet werden, um einen Lautstärkevergleich der beiden Rauschsignale zu ermöglichen. Dabei sollte festgestellt werden, dass das Rauschsignal, wenn es ohne Musiksignal abgespielt wird, um ein Vielfaches lauter gehört wird als das Rauschsignal, wenn es zusammen mit Musik angehört wird. Das sollte den Nutzer auf den für die perzeptive Audiocodierung entscheidenden Sachverhalt aufmerksam machen, dass ein Rauschsignal bis zu einer gewissen Schwelle (Signal-to-Mask-Ratio, das elementare Element vieler perzeptiver Codecs nach [BRA94],[BRA99],[BRA03],[BRA88] und [BRA00]) nicht hörbar ist, wenn es zusammen mit einem Musiksignal dargeboten wird. 10.2.6. Simulation der MP3-Filterbank Für diese Simulation wurden wiederum die in Abschnitt 10.2.5. beschriebenen Musikstücke (aus den genannten Gründen) verwendet. In PRAAT wurden Spektrogramme der Musikstücke im Frequenzbereich 05000Hz erstellt (siehe Abschnitt 9.5.3. für genaue Erklärungen). Diese Spektrogramme wurden in Director importiert und im linken unteren Teil des Bildschirms positioniert. Die Musikstücke wurden mit einer in Matlab entworfenen Filterbank verwirklicht, der die gleiche Koeffizientenzahl und die gleichen Grenzfrequenzen sowie ungefähr die gleichen Sperrdämpfungen aufweist wie die MP3-Filterbank. Abbildung 21 zeigt den Frequenzgang des zweiten Filters (500Hz1000Hz): 105 Abbildung 21: Frequenzgang und Phasengang des zur Filterung der Musiksignale in der Simulation der MP3-Filterbank benutzten Matlab-Filters. Die Musikstücke wurden über diese Filterbank gefiltert und die einzelnen gefilterten Signale wurden in einzelne WAV-Files exportiert. In Director wurden diese WAV-Files wieder importiert. Die benannten Frequenzbereiche der gefilterten Signale wurden auf dem Spektrogrammbild berührungssensitiv („klickbar“) gestaltet. Weiterhin wurden Schaltflächen mit den Angaben der Filtergrenzfrequenzen in die Frequenzbereiche sowie rote horizontale Trennlinien (ebenfalls bei den Filtergrenzfrequenzen) im Spektrogramm positioniert. Die dazwischenliegenden Frequenzbereiche (entspricht also den Durchlassbereichen der Filterbänder) wurden dann mit Lingo-Skripten belegt, die das zum jeweiligen Frequenzbereich gehörende gefilterte Signal abspielte, wenn vom Nutzer in den Frequenzbereich geklickt wird. Weiterhin wurde ein Button „Original (Ungefiltert)“ positioniert, der beim Klicken das Original-Musikstück abspielte, um einen Vergleich beider Signale herstellen zu können. 10.2.7. Erstellen des Moduls „Hörbeispiele“ In diesem Modul wurden alle Hörbeispiele zusammengefasst, die einen Beitrag zur Verdeutlichung perzeptiver Audiocodierung leisten sollten. Hörbeispiele: „Vergleich unterschiedlicher Bitraten“ Für diesen Programmteil wurden mit der Software MusicMatch 7.1 aus den unter Abschnitt 10.2.5. erwähnten Musikstücken MP3-Encodierungen und die darauffolgende Decodierung unter verschiedenen Bitraten vorgenommen, um einen Eindruck von der Qualität und den Verzerrungen 106 durch MP3 zu vermitteln. Die Decodierung wurde vorgenommen, damit das Soundformat im ganzen Programm konstant bleibt, und nicht durch andere Abspielparameter geändert wird. MusicMatch 7.1 verwendet den Fraunhofer IIS „MPEG Layer 3 Audio Coding Technology“, einen von Fraunhofer lizensierten Codec. Mit dieser Software wurden MP3-Codierungen der 3 Stücke in folgenden Bitraten vorgenommen: • • • • • • 8 kBit/s 16 kBit/s 32 kBit/s 64 kBit/s 128 kBit/s (typische Bandbreite für MP3 über das Internet) 256 kBit/s Diese entstandenen Sound-Dateien (*.WAV) wurden in Director importiert. Es wurde eine einfache Bildschirmstruktur geschaffen, welche in Spalten das zur Encodierung verwendete Musikstück präsentiert und in den Zeilen die einzelnen Bitraten. Die zur Kennzeichnung der TabellenStruktur verwendeten Elemente waren wiederum Director-Schaltflächen, welche beim Anklicken die jeweilige Sound-Datei abspielten. Hörbeispiele „Vergleich unterschiedlicher Codecs“ Für diesen Programmteil wurde ein Großteil der Sound-Beispiele zum Vergleich verschiedener Audio-Codecs der CD-Rom „AIDA: Audio Internet Demonstration Aid“ verwendet. Der Inhalt der CD und die Gründe für die Verwendung dieser externen Hörbeispiele wurden ausführlich in Abschnitt 9.5.4.2. behandelt. Das in diesem Abschnitt dargestellte PräsentationsKonzept für die Sound-Dateien wurde ebenfalls mit Director-Schaltflächen verwirklicht. Das Vorgehen zum Abspielen war identisch mit der im vorigen Abschnitt beschriebenen. Schließlich wurde am Fuß der Bildschirmfläche ein Copyright-Hinweis auf die Herkunft der SoundBeispiele gegeben. Hörbeispiele „Typische Artefakte und Verzerrungen“ Für diesen Programmteil wurden die Sound-Beispiele für Verzerrungen perzeptiver Audio-Codecs der CD-Rom „AIDA“ verwendet. Die Gründe für die Verwendung dieser externen Hörbeispiele wurden in Abschnitt 9.5.4.2. und 9.6.4.3. dargestellt. Zu jedem einzelnen Fehlersignal wurden drei Schaltflächen entwickelt. Die ersten beiden sollten beim Klicken das Soundfile mit dem Fehlersignal und die uncodierte Referenz (das Original-Soundfile) hörbar machen. Ein Klick auf die dritte Schaltfläche definiert einen Sprung zu einem neuen Bildschirm, auf dem Erklärungen zum Entstehen der einzelnen Fehlersignale dargestellt sind. Diese Erklärungen wurden in beschriebener 107 Weise durch Textrahmen eingefasst und mit erläuternden Grafiken versehen. Am Fuß der Seite wurde ein Button platziert, der wieder auf die Seite mit den Hörbeispielen verweist. 10.2.8. Erstellen des Moduls „Weiterführende Literatur“ Wie bereits in den Entwürfen in Abschnitt 9.5.5. erwähnt, sollte dieses Modul sehr knapp gefasst sein. Es sollte nur aus einem Text bestehen, der auf die auf der CD-Rom enthaltenen PDF-Files verweisen sollte. Weiterhin sollte sich die Hintergrundfarbe deutlich von den anderen Modulen unterscheiden, da verdeutlicht werden sollten, dass bei Erreichen dieses Moduls die normale Programm-Struktur verlassen wurde. Zu diesem Zweck wurde als Hintergrundbild eine in Brauntönen gehaltene Fotografie der Neubrandenburger Konzertkirche gewählt. Das Motiv zeigt die leere Konzerthalle, in der sich auf der Bühne ein Flügel befindet. Es weist damit auf die Beenden des Programms hin, bei Befragungen der Nutzer wurde diese Metapher gut verstanden. Der Text wurde größer als der Text zur Erklärung der Funktionsweise gesetzt, um sich deutlich von anderen Text-Teilen abzuheben. Er wurde mit einem hellgrauen Textrahmen versehen und mittig platziert. 108 10.3. Zusammenfassung In den Spezifikationen wurden folgende Module definiert: • • • • • • Intro Erklärung der Funktionsweise eines MP3-Codecs Simulation der MP3-Filterbank Psychoakustische Experimente Hörbeispiele zur Perzeptiven Codierung Weiterführende Literatur In diesem Kapitel wurde beschrieben, wie diese implementiert wurden. Das Hauptaugenmerk lag auf der Entwicklung von Hörbeispielen und der Simulation psychoakustischer Experimente. So wurden diverse am Bildschirm durchzuführende Experimente zu Mithörschwellen und SignalRausch-Abständen entwickelt und implementiert. Weiterhin wurde ein Hörvergleich der Codierungsqualität eines MP3-Encoders unter verschiedenen Bitraten verwirklicht. Ebenso wurde ein Hörvergleich von verschiedensten auf dem Markt erhältlichen perzeptiven Audiocodecs mit unterschiedlichem Musikmaterial realisiert. Demgegenüber wurden beispielsweise zur Erklärung der Funktionsweise eines MP3-Codecs mögliche Animationen und verdeutlichende Filme in den Hintergrund gestellt, obwohl ein Modul implementiert wurde, das die Funktionsweise eines MP3-Encoders in Text und Grafiken ausführlich darstellt. Die Ausarbeitung dieses Moduls müsste in der Verbesserungsphase stattfinden. Da Hörbeispiele und akustische Simulationen zum Verständnis der vom MP3-Codec ausgenutzten Phänomene des menschlichen Hörapparates als elementar betrachtet wurden, wurde dieser Teil des Programms besonders ausführlich gestaltet. Aus vielen Gesprächen mit potentiellen Nutzern wurde deutlich, dass ein deutliches Defizit im Verständnis der grundlegenden Hörphänomene wie beispielsweise dem Verständnis der Maskierung besteht. Ein Verdeutlichen dieser Phänomene wurde als sehr wichtig empfunden und demzufolge als primär zu verwirklichendes Lernmaterial angesehen. Ein technisches Verständnis der Funktionsweise wurde in dieser Hinsicht als zweitrangig empfunden. Dementsprechend wurde eine Vielzahl von Artikeln und Dokumentationen zum Selbststudium zur Verfügung gestellt, während Klangbeispiele entweder sehr verstreut oder gar nicht vorhanden waren. Beim Erstellen des multimedialen Lernmoduls wurden die in Kapitel 6.5.4. dokumentierten Usability-Richtlinien eingehalten. Informelle UsabilityBefragungen nach [MAN01] von Benutzern bescheinigten dem Programm in allen aufgeführten Punkten sehr gute Ergebnisse: 109 Usability-Richtlinien 1. Stelle einen einfachen und natürlichen Dialog her. 2. Sprich die Sprache der Benutzer. 3. Minimiere die Gedächtnislast der Benutzer. 4. Sei konsistent und halte dich an Standards. 5. Liefere Feedback. 6. Stelle klar markierte Ausgänge zur Verfügung. 7. Stelle Abkürzungen zur Verfügung. 8. Liefere gute Fehlermeldungen. 9. Verhüte Fehler. 10. Liefere angemessene Hilfe und Dokumentationen. Laut Umfrage (5 Benutzer) im vorliegenden multimedialen Lernmodul erreicht oder nicht erreicht ja ja keine Angaben ja ja ja ja ja Keine Angaben ja Tabelle 10: Umfrage über die Erfüllung der Usability-Kriterien, ausgeführt bei potentiellen Nutzern des Programms Aufgrund von Restriktionen der Rechte-Inhaber der verwendeten Musikstücke wird es keine über das Internet abzurufende Version der Module geben, in denen diese Musikstücke verwendet wurden. Das ist sehr zu bedauern, aber von den Rechteinhabern wurde mir empfohlen, selbst diese Beispiele, die immer nur 30 Sekunden eines Musikstückes darstellten, auf keinen Fall im Internet zur Verfügung zu stellen. Aus diesem Grunde werden nur die verwirklichten Module ohne Hörbeispiele im Internet verfügbar sein, für eine vollständige Programm-Version wird auf Anfrage eine CD-Rom für nichtkommerzielle, für die Forschung und Lehre bestimmte Version bereitgestellt werden. 110 11. Zusammenfassung und Ausblick Dieses Kapitel gibt eine Zusammenfassung der vorliegenden Arbeit und des erstellten Programms. Weiterhin werden bestehende Einschränkungen im erstellten Programm dargestellt. Daraus resultierend werden Lösungsmöglichkeiten und Wege zur Verbesserung dargestellt. Weiterhin wird ein Ausblick auf weitere mögliche und sinnvolle Module gegeben, welche die Qualität des Programms deutlich erhöhen können. Es werden verschiedene nicht realisierte Programm-Module und Ideen zu Programm-Modulen präsentiert und eine Einschätzung auf den tatsächlichen Qualitätsgewinn im entstehenden Programm in Bezug auf den zu investierenden Aufwand vorgenommen. 11.1. Zusammenfassung In dieser Magisterarbeit wurde die Erstellung einer multimedialen Lernumgebung für das Thema „Perzeptive Audiocodierung“ dargestellt. Zu Beginn wurde ein Überblick sowohl über die wichtigsten klassischen Lerntheorien gegeben als auch die Prinzipien multimedialen Lernens dargestellt und die sinnvollen Einsatzmöglichkeiten der unterschiedlichen Medien diskutiert. Weiterhin wurden Richtlinien über die Erstellung eines Programms mit optimierter Benutzbarkeit dargestellt sowie Hinweise zur Vermeidung häufiger Fehler gegeben. In einem weiteren Teil der Magisterarbeit wurden die für den Inhalt des Programms relevanten Themen dargestellt. Diese umfassten sowohl die ausführliche Darstellung des MP3-Codecs als auch einen Überblick über den aktuellen Stand der Forschung und der Entwicklung in der perzeptiven Audiocodierung. Weiterhin wurden alle wichtigen objektiven Qualitätsmessverfahren und -tests dargestellt. Die Erstellung des Lernmoduls wurde in der klassischen Strukturierung der Informatik dargestellt: (1) In der Anforderungsanalyse wurden die potentiellen Nutzer des Programms analysiert. Es wurde begründet, dass die Schwerpunkte des Programms auf der Darstellung von auditiv verdeutlichenden Aspekten perzeptiver Codierung liegen sollten: im Einzelnen Simulationen und Experimente zu den relevanten zugrundeliegenden psychoakustischen und audiotechnischen Prinzipien sowie eine Vielzahl von verdeutlichenden Hörbeispielen. (2) In den Spezifikationen wurden aufgrund dieser Schwerpunkte die Aufteilung der darzustellenden Inhalte in einzelne Programmteile spezifiziert und begründet. Es wurden die im Programm zu integrierenden theoretischen und praktischen Elemente definiert, woraus sich folgende 111 Strukturierung des Programms ergab: „Intro“, „Erklärung der Funktionsweise eines MP3-Encoders“, „Psychoakustische Experimente“, „Simulation der MP3-Filterbank“ und „Weiterführende Literatur“. Weiterhin wurden die Systemfunktionen des Programms geschildert. (3) In den Entwürfen wurden die in den Spezifikationen definierten Programm-Punkte in eine genaue Struktur umgesetzt. Es wurden mögliche Entwürfe diskutiert und darauf folgend die Auswahl der präferierten Entwürfe begründet. Die Auswahl der psychoakustischen Experimente und der Hörbeispiele wurde ausführlich dargestellt. (4) In der Implementierung wurde die genaue Umsetzung der beschriebenen Entwürfe durch die Programmierung in der gewählten Multimedia-Software dargestellt. Es wurden Angaben zum Umgang potentieller Nutzer mit dem fertiggestellten Programm gemacht. Das Ziel war, ein multimediales Lernmodul zur perzeptiven Audiocodierung zu entwickeln, das eine Ansammlung von relevanten und verdeutlichenden Hörbeispielen und psychoakustischen Phänomenen bietet. Damit ist es sowohl für den Einsatz in der Lehre prädestiniert (zum Thema Audiocodierung und allgemeiner zu Hörphänomenen) als auch für den Einsatz im Tonstudio. In diesem Bereich kommen Programme zur herkömmlichen Schulung des Gehörs (wie beispielsweise „Golden Ear“26) zum Einsatz, Programme zur Schulung des Gehörs auf typische Fehler perzeptiver Codecs, wie sie in der Audio-Aufnahme immer mehr zum Einsatz kommen, sind in diesem Einsatz-Szenario nur marginal vorhanden. In diesen beschriebenen Szenarios soll das Programm bereichernd zur freien Verfügung stehen. Im folgenden werden bestehende Mängel im Programm mit ihren Lösungsansätzen diskutiert und ein Ausblick auf zukünftige Erweiterungen des Programms gegeben. 11.2. Bestehende Einschränkungen und Lösungsansätze Durch die Verwendung einer Ton-Datei im Modul „Intro“ wird, abhängig von der Datenrate des Internet-Zuganges des Nutzers, die Synchronität von Bild und Ton teilweise empfindlich gestört. Dieses Problem sollte sich über die Verwendung von Markern in der Sound-Datei nach [KHA00] sehr gut lösen lassen. Eine Lösung ist allerdings nur für die Verwendung von Macintosh-Computern angegeben. Ein Lösungsversuch mit einer MarkerSetzung unter SoundForge (wird in die verwendete WAV-Datei mit abgespeichert) brachte nicht die erwünschten Resultate. Hier ist ein Testen von anderen Markern in anderen Prgrammen wie CoolEdit oder ProTools für die Verbesserungs-Phase vorgesehen. 26 „Golden Ear“ ist eine Schulungs-CD für Toningenieure und Tonmeister, die eine Vielzahl von wichtigen Audiobeispielen bietet, wie hervorgehobene oder abgesenkte Frequenzbereiche in komplexen Musiksignalen zu erkennen oder minimal zugefügtes Rauschen und Knacken wahrzunehmen. 112 Bei den psychoakustischen Experimenten und bei der Simulation der MP3Filterbank ist es wünschenswert, wenn das Soundfile nicht immer wieder von vorn abgespielt wird, wenn beispielsweise der Signal-Rausch-Abstand verändert wird oder ein anderes Filter-Band abgehört wird. Dieses Problem ist aber nicht ohne erheblichen Programmier-Aufwand zu lösen und verlangt eine äußerst genaue Synchronisierung, um Sprünge im Tonmaterial oder Knackimpulse zu verhindern. In diesem Sinne wird es eine Frage der Kosten-Nutzen-Abschätzung sein, ob dieser Aufwand betrieben wird und ob dieses Problem wirklich so ungemein störend für den Nutzer ist. Bei Befragungen potentieller Nutzer dieses Programms wurde das Problem entgegen der Sicht des Autors als nicht störend empfunden. 11.3. Nächste Schritte – Zukünftige Verbesserungen und Lösungsansätze Ausbau des „Funktionsweise“-Moduls mittels Fabrik-Metapher Da das Hauptaugenmerk bei der Entwicklung des Programms auf der Erstellung von psychoakustischen Experimenten und Simulationen sowie einer Vielzahl von Hörbeispielen lag, kam natürlich eine genaue Ausarbeitung des Moduls „Funktionsweise des MP3-Codecs“ mittels Animationen und Filmen zu kurz. Das könnte darin münden, dass einige Nutzer die theoretische Funktionsweise eines MP3-Encoders nicht verstehen. In der Verbesserungsphase müsste also aktiv und gezielt an Metaphern und Animations-Ideen für die Erklärung der Funktionsweise gearbeitet werden. Denkbar wäre beispielsweise eine Metapher „Fabrik“, in der als Rohstoffe unkomprimiertes Audio angeliefert wird, das in seinem Urzustand eine viel zu hohe Datenrate hat, und aus diesem Grunde in keinen der zur Verfügung stehenden und für den Transport notwendigen Container passt. Es könnten dann alle zur Verfügung stehenden Produktionsprozesse (Algorithmen) und Bearbeitungsschritte (Punkte der MP3-Codierung) in diesem Sinne dargestellt werden. Eine Nutzung von verdeutlichenden Techniken wie Animationen oder ähnliches wäre dann ein sinnvoller Weg. Beispielsweise bietet sich die Erklärung der HuffmanCodierung über eine Animations-Sequenz geradezu an. Weiterhin wäre es möglich, die technologischen Fortschritte, die in neueren Codecs wie beispielsweise AAC oder SBR zu finden sind, in einer vernünftigen Einbettung zu erklären. In einem Produktionsschritt „Qualitätskontrolle“ könnten alle möglichen zur Verfügung stehenden objektiven Qualitätstests dargestellt sowie die Ergebnisse der einzelnen Codecs in diesen Qualitätstests aufgelistet werden. Eine andere Möglichkeit der Implementierung solcher Qualitätstests ist im Abschnitt „Erweiterung des Programms um ein Modul Objektive Qualitätsvergleiche“ geschildert. 113 Verbesserung der Einbindung des Literatur-Moduls Die momentan gewählte Lösung der Integration der technischen Dokumentationen und Veröffentlichungen ist sicherlich verbesserungswürdig. Es ist eine Integration in die bestehende Programm-Struktur wünschenswert. Dieses sollte sich durch ein DirectorPlugIn oder durch eine in Lingo geschriebene Schnittstelle problemlos realisieren lassen. Verbesserung des Intros durch Videosequenzen Obwohl der momentane Stand des Intros die Nutzer überzeugte und die Botschaft in gewünschter Weise transportierte, ist es doch wünschenswert, wenn diese Metapher der gleichzeitigen Verschlechterung der Bild- und Tonqualität über eine Videosequenz realisiert werden würde, beispielsweise wie vorgeschlagen über einen Videomitschnitt eines Orchesters. Diese Option ist im vorliegenden Programm aufgrund von Limitationen des zur Verfügung stehenden Speicherplatzes auf dem Zieldatenträger CD-Rom nicht realisiert worden. In Zukunft stellt dies wohl bei genauer Kenntnis des freien Speicherplatzes und eines geeigneten Video-Codecs kein Problem mehr da. Erweiterung des Experimente-Moduls mit moduliertem Rauschen Eine Erweiterung des Moduls „psychoakustische Experimente“ ist wünschenswert. Statt aber mit Optionen wie für den Nutzer frei einstellbare Sinuston-Oszillatoren zu operieren, ist eher an eine Erweiterung der Experimente im fachlichen Sinne gedacht. Beispielsweise könnte das Experiment „Hörbarkeit von Schmalbandrauschen in Musiksignalen“ mit moduliertem Schmalbandrauschen implementiert werden (wenn das Musiksignal leiser wird, wird auch das Schmalbandrauschen leiser). Eine Realisierung im bestehenden Programm wurde nicht vorgenommen, da aufgrund von Nutzer-Tests im Vorfeld die Version mit nicht moduliertem Rauschen präferiert wurde. Bei Vorführungen durch Herrn Prof. Dr. Brandenburg wird die Maskierung von weißem Rauschen durch Musiksignale in der Regel mit moduliertem Rauschen gezeigt. Das Prinzip der perzeptiven Codierung wird so natürlich deutlicher, allerdings zeigte sich dieses Verständnis auch bei den Tests, dazu wurde der Effekt der Abhängigkeit der Maskierung von der Lautstärke deutlicher erkannt. Ungeachtet dessen wäre natürlich eine Nutzer-Option im Programm vorteilhaft, in der der jeweilige Nutzer auswählen kann, ob er das Maskierungsexperiment mit moduliertem oder nicht moduliertem Rauschen durchführen möchte. 114 Erweiterung des Programms um ein Modul „Objektive Qualitätsvergleiche perzeptiver Codecs“ In diesem Modul könnte die in Abschnitt „4.7. Objektive Vergleichsmöglichkeiten von Codecs“ ausführlich dargestellten Möglichkeiten zum Vergleich der Audio-Qualität verschiedener Codecs dargestellt werden. Denkbar wäre beispielsweise die Verwirklichung einer Simulation eines objektiven Hörtests, beruhend auf den ITUEmpfehlungen, um dem Benutzer das Vorgehen und das Prinzip solcher objektiver Hörtests zu verdeutlichen. Diese Hörtests existieren als eigenständige Software-Lösungen, es müssen nur die zu testenden Codecs definiert und die Stimuli erstellt werden. Eine Einbindung eines solchen Tests in die bestehende Programmstruktur sollte also problemlos zu realisieren sein. 115 12. Glossar AAC: Advanced Audio coding. Vom Fraunhofer-Institut IIS (Institut für Integrierte Schaltungen) entwickelter Encoder, der standardisiert ist. Siehe Abschnitt 4.1. und 5.1. für ausführliche Information. Audio: Als Audio wird alles definiert, was als Tonsignal voliegt, also Sprache und Musik ebenso wie Geräusche und Rauschen. Bouncen: Als Bouncen wird in Multi-Track-Geräten das Zusammenmischen mehrerer Spuren (Tracks) auf eine einzelne Spur bezeichnet. Buttons: Als Buttons werden nach Web-Standards als Grafik gestaltete Schaltflächen bezeichnet, die als Navigationsstruktur dienen und durch das Anklicken mit der Maus auf eine neue Seite bzw. auf einen anderen Seitenabschnitt zu führen. Clipping: Als Clipping wird bei einem digitalen Signal das Überschreiten der absoluten, vom Digital-Analog-Wandler festgelegten Aussteuerungsgrenze bezeichnet. Codec: Als Codec wird eine Verbindung aus Encoder und zugehörigem Decoder verstanden. Decoder: Als Decoder wird ein Algorithmus verstanden, der einen von einem Encoder erzeugten Datenstrom nach genau definierten Kriterien wieder in das Format zurückwandelt, in dem sich das Signal vor der Encodierung befand. Director: Mulitmedia-Software der Firma Macromedia Encoder: Als Encoder wird ein Algorithmus verstanden, der durch spezielle Codierverfahren (verlustbehaftet oder nicht verlustbehaftet) ein Signal bearbeitet, so dass es in einem bestimmten, nicht ohne einen Decoder wieder zu lesenden Format vorliegt. FFT: Fast Fourier Transform. Ein Verfahren, um die Transformation eines Signals vom Zeitbereich in den Frequenzbereich zu bilden. ISO: International Organization für Standardization. Lingo: Eine Programmier- und Skriptsprache, welche die Funktionalität des Programms Director stark erweitert. 116 LPC: Linear Predictive Coding. Ein Verfahren, um die Transformation eines Signals vom Zeitbereich in den Frequenzbereich zu ermöglichen. MP3: Kurzform für MPEG1-Layer 3 Audio. Vom Fraunhofer-Institut IIS (Institut für Integrierte Schaltungen) entwickelter Encoder, der standardisiert ist. Siehe Abschnitt 4.1. für ausführliche Information. MPEG: Moving Picture Expert Group. Siehe Kapitel 4.1. für ausführliche Information. Noise-Shaping: Das entstandene Quantisierungsrauschen wird spektral so geformt, dass es bestimmten Kriterien (wie beispielsweise der Isophonen-Kurve) entspricht und damit möglichst wenig wahrnehmbar sein sollte. Oszillogramm: Zeitrepräsentation eines Signals. Perzeptiv: Perzeptiv soll im Zusammenhang mit Codecs verdeutlichen, dass die Codierung auf wahrnehmungspsychologischer Eingenschaften beruht. Pre-Echoe: Ein Pre-echoe ist ein typisches Kompressions-Fehlersignal von perzeptiven Audio-Codecs. Es handelt sich um ein plötzlich auftretendes, breitbandiges Rauschsignal, das bereits wahrnehmbar ist, bevor stark impulshafte Audiosignale (wie zum Beispiel Händeklatschen oder Kastagnetten) zu hören sind. Programm: Als Programm wird das gesamte multimediale Lernmaterial mit allen Modulen bezeichnet. Programm-Modul: Als Programm-Modul wird ein Teil des Programms bezeichnet, das in sich thematisch abgeschlossen ist und sich durch eben diese Thematik von den anderen Modulen unterscheidet, die in ihrer Gesamtheit ein Programm bilden. Screen-Shot: Als Screen-Shot oder Hard-Copy bezeichnet man den Ausdruck des Inhaltes eines Bildschirms. Signal: Als Signal wird hier immer ein Audio-Signal verstanden. Spektrogramm: An diskreten aufeinanderfolgenden Zeitpunkten im Signal wird jeweils ein Spektrum berechnet. Die Gesamtheit dieser aufeinanderfolgenden Spektren bildet dann das Spektrogramm. Spektrum: Frequenzrepräsentation eines im Zeitbereich vorliegenden Signals. 117 Weißes Rauschen: Weißes Rauschen ist ein Rauschsignal, welches in jedem (gleich breiten) betrachteten Frequenzabschnitt die gleiche Energiedichte besitzt. 118 13. Literatur [AES02] CD-ROM „Perceptual Audio Codecs: What to listen for“, Education CD-ROM des AES-Technical Commitee on Coding of Audio Signals, 2002 [AID02] CD-ROM „AIDA: Audio Internet Demonstration Aid”, Education CD-ROM des Institut für Rundfunktechnik, 2002 [AND01] Anderson, J.R., “Kognitive Psychologie”, Spektrum Akademischer Verlag, Heidelberg, 2001 [BAU99] Baumgartner, P. und Payr, S., „Lernen mit Software“, StudienVerlag, Innsbruck, 1999 [BEA97] Beauchamp, J.W., “Encyclopedia of Acoustics”, chapter “Digital Audio”, John Wiley and Sons, 1997 [BRA00] Brandenburg, K. „An introduction to MPEG Layer 3”, EBU Technical Review, June 2000 [BRD00] http:kgw.tu-berlin.de/~cbradter/nono/index.html [BRA88] Brandenburg, K., „High-Quality Sound Coding at 2.5 Bits/Sample“, presented at the 84th Convention of the Audio Engineering Society, Paris, France, 1988 [BRA03] Brandenburg, K., “Introduction to perceptual coding of audio signals”, presented at the DAGA 2003, Aachen, 2003 [BRA94] Brandenburg, K., “ISO-MPEG-1 Audio: A Generic Standard for Coding of High-Quality Digital Audio”, presented at the 92nd Convention of the Audio Engineering Society, Vienna, Austria, 1992, reprint J. Audio Eng. Soc., vol.42, pp.780-792 (1994 October) [BRA99] Brandenburg, K., “ MP3 AND AAC EXPLAINED”, AES 17th International Conference on High Quality Audio Coding, Florence, Italy, 1999 [DIE97] Dietz, M., “Bridging the gap: Extending MPEG Audio down to 8 kbit/s“, presented at the 102nd Convention of the Audio Engineering Society, Munich, Germany, 1997 [DIE03] Dietz, M., “Enhancing perceptual audio coding through Spectral Band Replication”, presented at the DAGA 2003, Aachen, 2003 119 [ENE98] Enerstam, J. und Peman, J., „Hardware Implementation of MPEG Audio Real-Time-Encoder“, Thesis: Lulea University of Technology, Sweden and Axis Communications AB, 1998 [ERN01] Erne, M., “Perceptual Audio Coders “What to listen for””, presented at the 111th Convention of the Audio Engineering Society, New York, USA, 2001 [FAL03] Faller, C., “Binaural Cue Coding: Rendering of Sources Mixed into a Mono Signal”, presented at the DAGA 2003, Aachen, 2003 [GOL97] Goldstein, E.B., “Wahrnehmungspsychologie: Eine Einführung”, Spektrum Akademischer Verlag, Heidelberg, 1997 [GRI01] Grill, B. (contact), “MPEG-4 Audio: Scalable AAC Coding”, Fraunhofer IIS information paper: 03-01 / IIS-A / mos [GRI02] Grill, B. (contact), “MPEG-4 and ISMA A/V-Streaming Solutions”, Fraunhofer IIS information paper: 09-02 /IIS /ohl [ISO91] ISO/IEC 13818-3: ISO 11172-3: Coding of Moving Pictures and associated audio for digital storage media at up to about 1.5 MBIT/s, Part 3 Audio, 1991 [ISO94] ISO/IEC 13818-3:1994(E): Coding of Moving Pictures and Associated Audio: Audio, 1994 [ISS97] Issing, L.J., “Instruktionsdesign für Multimedia” in Issing/Klimsa (Hrsg.): Information und Lernen mit Multimedia”, Weinheim, 1997 [ITUwb] Internetpräsenz der ITU: http://www.itu.org [KAL02] Kalkbrenner, G., " Lehren und Lernen an der Virtuellen Universität", Habilitationsschrift, Universität Potsdam, 2002 [KEY99] Keyhl, M., “A combined measurement tool for the objective, perceptual based evaluation of compressed speech and audio signals”, presented at the 106th Convention of the Audio Engineering Society, Munich, Germany, 1999 [KHA00] Khazaeli, C. D., „Multimedia mit Director 8 – Projektplanung und Interfacedesign“, rororo-computer, 2000 [KRU00] Krug, S., „Don´t make me think! A common Sense Approach to Web Usability“, Peason Education Inc., 2000 120 [KUM??] Kumar, M. und Zubasir, M., „A high performance software implementation of MPEG Audio Enocder“, IBM T.J. Watson Research Center, Yorktown Hgts. NY, USA, [LAI01] Lai, H.-C., „MPEG-1 Layer 3: Real-Time-Implementation of MPEG1 Layer 3 Audio Decoder on a DSP Chip”, Thesis: Institute of Electrical and Control Engineering National Chiao-Tung-University, 2001 [MAN01] Manhartsberger, M. und Musil, S., „Web Usability - Das Prinzip des Vertrauens“, Galileo Design, 2001 [MPO87] Ordnung für die Magisterprüfung der Technischen Universität Berlin (Magisterprüfungsordnung – MPO) vom 30. November 1987, Berlin: Technische Universität Berlin, 1987 [NOR99] Norman, D. A., „Dinge des Alltags: gutes Design und Psychologie für Gebrauchsgegenstände“, Campus, 1989 [PET98] Petersen, M. G., „Towards Uability Evaluation of Multimedia Applications“, ACM, 1998 [PRAwb] Sprachverarbeitungssoftware PRAAT; kostenloser Download und genaue Dokumentation unter: http://www.praat.org [PUS01] Puscher, F., „Das Usability-Prinzip“, dpunkt-Verlag, 2001 [RAN01] Rangachar, R., „Analysis and Improvement of the MPEG-1 Audio Layer III Algorithm at low bit-rates“, Thesis: Arizona State University, USA, 2001 [ROE93] Roederer, J., „Physikalische und psychoakustische Grundlagen der Musik“, Springer Verlag, 1993 [SCH94] Schnotz, W., „Aufbau von Wissensstrukturen“, Weinheim Beltz, 1994 [SCH99] Schnotz, W. und Vosniadou, S. und Carretero, M. (Hrsg), „New Perspectives on Concept and Change (Advances in Learning and Instruction Series)“, Oxford: Elsevier, 1999 [SCH03] W. Schnotz, “Lernen mit Neuen Medien: Pädagogische Verheißungen und empirische Befunde”, Vortrag auf der Konferenz „GML 2003: Grundfragen multimedialer Lehre”, 2003, Potsdam [SCH03] Schuijers, E. G. P., “Progress on Parametric Coding forHighQuality Audio”, presented at the DAGA 2003, Aachen, 2003 121 [SPA90] Spada, H. (Hrsg.), “Allgemeine Psychologie”, Huber Verlag,Bern, 1990 [TOD94] Craig, C., “AC3: Flexible perceptual coding for audio transmission and storage”, presented at the 96th Convention of the Audio Engineering Society, 1994 [CEB98]Cebrián, J. J., “La red – Cómo cambiaran nuestras vidas los nuevos medios de comunicación“, Santillana, S.A. Taurus, Madrid, 1998 [ZOI03] Zoia, G., “Room Models and Object-Orientated Audio Coding: Advantages and Applications”, presented at the DAGA 2003, Aachen, 2003 [ZOL93] Zollner, M. und Zwicker, E., „Elektroakustik“, Springer Verlag, Stuttgart, 1993 [ZWI67] Zwicker, E. und Feldtkeller, R., „Das Ohr als Nachrichtenempfänger“, S.Hirzel Verlag Stuttgart, 1967 [ZWI90] Zwicker, E., „Psychoacoustics - Facts and Models“, Springer Verlag, 1990 122 14. Anhang und Listing In diesem Kapitel sind die wichtigsten benutzten Scripte und Programme abgedruckt. Für kleinere Lingo-Skripte und die genaue Sktruktur des Director-Programmcodes wird auf die nicht geschützten27 Director-Filme auf der beiliegenden CD-Rom verwiesen, wo bei Bedarf die genaue Struktur im Drehbuch und in den einzelnen Besetzungungslisten nachzuvollziehen ist. Im zweiten Teil des Kapitels werden Screen-Shots der einzelnen Programm-Module präsentiert, um sich auch ohne das multimediale Lernmodul zur perzeptiven Audiocodierung zu kennen ein Bild vom Aufbau und den Möglichkeiten des Programms verschaffen zu können. 14.1. Scripte und Programme 14.1.1. PRAAT-Scripte Generierung der Sinussignale und deren Spektren # # # # # # praat: written daniel pape version 16.01.2002 creates sine signals, writes them to wave-file plots corresponding spectra and writes them to postscript-file (further photoshop-editing required # creates sine wave Create Sound... sine_63 0 2 44100 1/8 * sin(2*pi*63*x) Write to WAV file... D:\magister\filterbank\wavs\si63.wav # creates spectra To Spectrum Erase all #Viewport... 0.5 6 0.5 4 # plots spectra Draw (log freq)... 10 10000 40 100 yes #Viewport... 0 6 0 4 pause 63 #Viewport... 0 6 0 4 Write to EPS file... D:\magister\filterbank\pics\si63.eps 14.1.2. Matlab-Skripte 27 Nicht geschützte Director-Dateien können mit Director eingesehen und bearbeitet werden, während bei geschützten Director-Dateien dies nicht möglich ist. 123 Generierung der einzelnen Bandpass-Filter zur Simulierung der MP3-Filterbank % % % % written daniel pape 02.2002 matlab-script: generates 32 filtered signals from an input wav-file simulating the polyphase filter implementation of the MPEG1-Layer3 filter bank %read signal has to be resampled at 32 kHz to match the %bandlimited signal character of the fraunhofer coder y = wavread('D:\magister\temp\rodrim.wav'); b1 = fir1(512,[20/22050 500/22050]); b2 = fir1(512,[500/22050 1000/22050]); b3 = fir1(512,[1000/22050 1500/22050]); b4 = fir1(512,[1500/22050 2000/22050]); b5 = fir1(512,[2500/22050 3000/22050]); b6 = fir1(512,[3000/22050 3500/22050]); b7 = fir1(512,[3500/22050 4000/22050]); b8 = fir1(512,[4000/22050 4500/22050]); b9 = fir1(512,[4500/22050 5000/22050]); b10 = fir1(512,[5000/22050 5500/22050]); b11 = fir1(512,[5500/22050 6000/22050]); b12 = fir1(512,[6000/22050 6500/22050]); b13 = fir1(512,[6500/22050 7000/22050]); b14 = fir1(512,[7000/22050 7500/22050]); b15 = fir1(512,[7500/22050 8000/22050]); b16 = fir1(512,[8000/22050 8500/22050]); b17 = fir1(512,[8500/22050 9000/22050]); b18 = fir1(512,[9000/22050 9500/22050]); b19 = fir1(512,[9500/22050 10000/22050]); b20 = fir1(512,[10000/22050 10500/22050]); b21 = fir1(512,[10500/22050 11000/22050]); b22 = fir1(512,[11000/22050 11500/22050]); b23 = fir1(512,[11500/22050 12000/22050]); b24 = fir1(512,[12000/22050 12500/22050]); b25 = fir1(512,[12500/22050 13000/22050]); b26 = fir1(512,[13000/22050 13500/22050]); b27 = fir1(512,[13500/22050 14000/22050]); b28 = fir1(512,[14000/22050 14500/22050]); b29 = fir1(512,[14500/22050 15000/22050]); b30 = fir1(512,[15000/22050 15500/22050]); b31 = fir1(512,[15500/22050 22050/22050]); sig1 = filtfilt(b1,1,y); sig2 = filtfilt(b2,1,y); sig3 = filtfilt(b3,1,y); sig4 = filtfilt(b4,1,y); sig5 = filtfilt(b5,1,y); sig6 = filtfilt(b6,1,y); sig7 = filtfilt(b7,1,y); sig8 = filtfilt(b8,1,y); sig9 = filtfilt(b9,1,y); sig10 = filtfilt(b10,1,y); sig11 = filtfilt(b11,1,y); sig12 = filtfilt(b12,1,y); sig13 = filtfilt(b13,1,y); sig14 = filtfilt(b14,1,y); sig15 = filtfilt(b15,1,y); sig16 = filtfilt(b16,1,y); sig17 = filtfilt(b17,1,y); sig18 = filtfilt(b18,1,y); 124 sig19 sig20 sig21 sig22 sig23 sig24 sig25 sig26 sig27 sig28 sig29 sig30 sig31 = = = = = = = = = = = = = filtfilt(b19,1,y); filtfilt(b20,1,y); filtfilt(b21,1,y); filtfilt(b22,1,y); filtfilt(b23,1,y); filtfilt(b24,1,y); filtfilt(b25,1,y); filtfilt(b26,1,y); filtfilt(b27,1,y); filtfilt(b28,1,y); filtfilt(b29,1,y); filtfilt(b30,1,y); filtfilt(b31,1,y); wavwrite(sig1,44100,'D:\magister\temp\rodr_01.wav'); wavwrite(sig2,44100,'D:\magister\temp\rodr_02.wav'); wavwrite(sig3,44100,'D:\magister\temp\rodr_03.wav'); wavwrite(sig4,44100,'D:\magister\temp\rodr_04.wav'); wavwrite(sig5,44100,'D:\magister\temp\rodr_05.wav'); wavwrite(sig6,44100,'D:\magister\temp\rodr_06.wav'); wavwrite(sig7,44100,'D:\magister\temp\rodr_07.wav'); wavwrite(sig8,44100,'D:\magister\temp\rodr_08.wav'); wavwrite(sig9,44100,'D:\magister\temp\rodr_09.wav'); wavwrite(sig10,44100,'D:\magister\temp\rodr_10.wav'); wavwrite(sig11,44100,'D:\magister\temp\gros_11.wav'); wavwrite(sig12,44100,'D:\magister\temp\gros_12.wav'); wavwrite(sig13,44100,'D:\magister\temp\gros_13.wav'); wavwrite(sig14,44100,'D:\magister\temp\gros_14.wav'); wavwrite(sig15,44100,'D:\magister\temp\gros_15.wav'); wavwrite(sig16,44100,'D:\magister\temp\gros_16.wav'); wavwrite(sig17,44100,'D:\magister\temp\gros_17.wav'); wavwrite(sig18,44100,'D:\magister\temp\gros_18.wav'); wavwrite(sig19,44100,'D:\magister\temp\gros_19.wav'); wavwrite(sig20,44100,'D:\magister\temp\gros_20.wav'); wavwrite(sig21,44100,'D:\magister\temp\gros_21.wav'); wavwrite(sig22,44100,'D:\magister\temp\gros_22.wav'); wavwrite(sig23,44100,'D:\magister\temp\gros_23.wav'); wavwrite(sig24,44100,'D:\magister\temp\gros_24.wav'); wavwrite(sig25,44100,'D:\magister\temp\gros_25.wav'); wavwrite(sig26,44100,'D:\magister\temp\gros_26.wav'); wavwrite(sig27,44100,'D:\magister\temp\gros_27.wav'); wavwrite(sig28,44100,'D:\magister\temp\gros_28.wav'); wavwrite(sig29,44100,'D:\magister\temp\gros_29.wav'); wavwrite(sig30,44100,'D:\magister\temp\gros_30.wav'); wavwrite(sig31,44100,'D:\magister\temp\gros_31.wav'); A-Bewertung: Generierung der Korrekturfaktoren für die A-Bewertung der Sinustöne, geschrieben von André Jakob (Institut für Technische Akustik, TU Berlin) function a=abewert(f); % function a=abewert(f); % % A-Bewertung : Die Funktion gibt den A-Bewertungs-Korrekturfaktor (nicht in db!) zur Frequenz f zurück. % Funktioniert auch mit f als Vektor (nicht als Matrix!). % % André Jakob, 1998 125 % Das ganze kann als Filter realisiert werden. % Pol- und Nullstellen aus der entsprechenden DIN herausgesucht. Cpole=[20.6 20.6 12200 12200]; Apole=[Cpole 107.7 737.9]; Cnullen=[0 0]; Anullen=[Cnullen 0 0]; % Und nu wird schlichtweg der Frequenzgang dieses Filters an der/den entsprecheden Frequenz(en) ausgewertet: s0=j*1000*2*pi; a0 = 1/abs(s0^4/prod(s0+2*pi*Apole)); % Vorfaktor, damit bei 1kHz 0dB herauskommen a=zeros(size(f)); for n=1:length(f) s=j*2*pi*f(n); a(n) = a0 * abs( s^4 / prod(s+2*pi*Apole) ); % Übertragungsfunktion in Produktdarstellung end A-Bewertung: Anpassung des Pegels für Signale (Sinustöne) aufgrund der Korrekturfaktoren für die A-Bewertung % written daniel pape 02.2003 % % corrects sound level of an intput sound due to the a-weighting curve ordner= dir('C:\Magister\WAVS\'); item = size('ordner.name'); [y,FS,NBITS] = wavread('C:\Neuer Ordner\8000.wav'); a = abewert(8000) %keyboard b = (1/a) y=y.*b; wavwrite(y,FS,NBITS,'C:\Neuer Ordner\s2_a8000.wav'); 126 14.2. Screenshots der einzelnen Programmteile 14.2.1. Programm-Teil „Intro“ 14.2.2. Programm-Teil „Startseite“ 127 14.2.3. Programm-Teil „Funktionsweise eines MP3-Codecs“ 14.2.4. Programm-Teil „Simulation der MP3-Filterbank“ 128 14.2.5. Programm-Teil „Experimente: Mithörschwellle - Sinus und Schmalbandrauschen“ 14.2.6. Programm-Teil „Experimente: Mithörschwelle – Schmalbandrauschen und Musik“ 129 14.2.7. Programm-Teil „Hörbeispiele: MP3 – verschiedene Bitraten“ 14.2.8. Programm-Teil „Hörbeispiele: verschiedene Codecs bei gleichen Bitraten“ 130 14.2.9. Programm-Teil „Weiterführende Literatur“ 131 Die selbständige Anfertigung versichere ich an Eides Statt. Berlin, den 05.05.2003 ................................................... Daniel Pape 132