Grundlagen der gehörangepassten Audiocodierung
Transcription
Grundlagen der gehörangepassten Audiocodierung
Grundlagen der gehörangepassten Audiocodierung Grundlagen der gehörangepassten Audiocodierung Johannes Hilpert Fraunhofer IIS, Erlangen http://www.iis.fraunhofer.de/amm Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 1 Grundlagen der gehörangepassten Audiocodierung Themen – Wie fing es an? – Redundanz + Irrelevanz – Maskierungseffekte – Struktur eines Codecs – Erhöhung der Codiereffizienz Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 2 Grundlagen der gehörangepassten Audiocodierung Wie fing es an? – Codierung von Sprachsignalen –Anwendung bereits seit den 1960er Jahren –Grundlegende Idee: Eigenschaften der Signalquelle ausnutzen (z.B. Modellierung des Sprachtraktes) –Daher eher schlecht geeignet für allgemeine Signale (Musik) – Codierung von Audiosignalen –Etwa seit der Einführung der Compact Disc Anfang der 1980er –Grundlegende Idee: Eigenschaften des Signalempfängers ausnutzen (Psychoakustik) –Soll sich für alle Arten von Audiosignalen eignen (Sprache + Musik) Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 3 Grundlagen der gehörangepassten Audiocodierung Motivation – Ausgangsdatenrate der CD: 44100 ATW/sec * 16 bit/ATW * 2 Kanäle = 1400 kbit/s – Wunschtraum damals (1985): –Transparente Übertragung der CD über zwei ISDN B-Kanäle (128 kbit/s). Dies erfordert Datenreduktion um den Faktor 11! Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 4 Grundlagen der gehörangepassten Audiocodierung Lösungsansatz – Verringerung der Redundanz im Audiosignal –Verlustfreie Kompression, benutzt Eigenschaften des Signals –Mögliche Reduktion < Faktor 3 –Kompressionsfaktor abhängig vom Signal – Verringerung der Irrelevanz im Audiosignal –Was wird vom Signalempfänger wahrgenommen? –Kenntnis über die menschliche Wahrnehmung von Ohr + Gehirn notwendig –Eine Beschreibung liefert die Psychoakustik Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 5 Grundlagen der gehörangepassten Audiocodierung Verbreitete Halbwahrheit – Ein Audiocoder lässt unhörbare Teile des Signals weg –Stimmt und stimmt nicht –Daten wegzulassen heißt immer eine Vergröberung (Quantisierung) der vorher fein aufgelösten Zahlenwerte auf eine geringere Auflösung (weniger Quantisierungsstufen) –Dies führt zunächst immer zu einer Erhöhung des Störgeräuschs –Hörbeispiel: Lineare Quantisierung eines CD Signals –Problem: Rauschen wird bereits deutlich hörbar bei Kompressionsraten ab Faktor 2 Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 6 Grundlagen der gehörangepassten Audiocodierung Das 13 dB Wunder – Wenn sich das Störgeräusch schon nicht vermeiden läßt, kann man es dann besser verstecken? –Bei gleichem Verhältnis von Signalenergie zu Störenergie (SNR) kann die Störung unterschiedlich hörbar sein. –Hörbeispiel: –Originalsignal –Original + weißes Rauschen mit –13 dB SNR (ca.1/16) –Original + geformtes Rauschen mit –13 dB SNR –Differenzsignal: weißes Rauschen mit –13 dB SNR –Differenzsignal: geformtes Rauschen mit –13 dB SNR –Informationen über die geeignete Formung liefert die Psychoakustik Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 7 Grundlagen der gehörangepassten Audiocodierung Das 13 dB Wunder (2) Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 8 Grundlagen der gehörangepassten Audiocodierung Maskierungseffekte des menschlichen Gehörs – Zeitliche Maskierung –Verdeckung von zeitlich aufeinanderfolgenden Schallen – Ruhehörschwelle –Dinge, die man sowieso nicht hört ;-) – Frequenz Maskierung –Verdeckung von gleichzeitigen frequenzmäßig benachbarten Schallen Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 9 Grundlagen der gehörangepassten Audiocodierung Zeitliche Maskierung Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 10 Grundlagen der gehörangepassten Audiocodierung Ruhehörschwelle Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 11 Grundlagen der gehörangepassten Audiocodierung Frequenz Maskierung Ruhehörschwelle + Maskierung = Mithörschwelle Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 12 Grundlagen der gehörangepassten Audiocodierung Frequenz Maskierung (2) – Stärke der Maskierung hängt auch von der Art des Maskierers ab: –Rauschartige Maskierer verdecken stärker als tonale Maskierer (bis zu 14 dB) – Breite der Verdeckungsfunktion hängt zusätzlich ab von: –Frequenz des Maskierers –Pegel des Maskierers Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 13 Grundlagen der gehörangepassten Audiocodierung Hörbeispiel Frequenzmaskierung Lautstärke [dB] Serie von Sinustönen gleicher Frequenz mit ansteigender Lautstärke 160 Hz 0 -10 -20 -30 -40 -50 -60 -70 -80 7 6 5 4 3 2 1 Schmalbandrauschen (Maskierer) 1000 Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 1200 Mithörschwelle Frequenz [Hz] 14 Grundlagen der gehörangepassten Audiocodierung Codierung im Frequenzbereich – Frequenzbereichsdarstellung ermöglicht: –Gute Beobachtbarkeit/Berechenbarkeit der Verdeckungseffekte im psychoakustischen Modell –Einfache frequenzabhängige Formung des Quantisierungsgeräuschs (siehe 13 dB Wunder) –Transformationsgewinn für die Codierung durch die Konzentration von tonalen Signalanteilen auf wenige Werte im Spektrum Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 15 Grundlagen der gehörangepassten Audiocodierung Struktur eines Transformationscoders Audio Zeit/Frequenz Transformation psychoakustisches Modell Bitstrom Bitstromentpacker Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 Encoder Quantisierer und Redundanzencoder Bitstromformatierer Bitstrom Frequenz/Zeit Transformation Audio Decoder Redundanzdecoder und Requantisierer 16 Grundlagen der gehörangepassten Audiocodierung Struktur eines Transformationscoders (2) – Die asymmetrische Struktur von En- und Decoder ermöglicht: –Das MPEG-Prinzip –Geringere Komplexität des Decoders –Kompatibilität bereits, wenn nur das Bitstromformat und der Decoder, nicht aber der Encoder festgeschrieben sind. –Verbesserungen am Encoder unter Beibehaltung der Kompatibilität möglich Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 17 Grundlagen der gehörangepassten Audiocodierung Weitere Erhöhung der Codiereffizienz – Ausnutzung von Redundanz und Irrelevanz zwischen den Audiokanälen (seit mp2) –Mitte-Seite (MS) Codierung: für korrelierte Signale ist das Differenzsignal (Links-Rechts) klein –Intensitäts-Stereo-Codierung: Übertragung eines Summenkanals plus Positions/Hüllkurveninformationen zur Generierung der anderen Kanäle – Entropiekodierung (seit mp3) –Redundanzreduktion durch Huffmancodierung – Bit-‘Sparkasse‘ (seit mp3) –Kurzzeitpuffer ermöglicht Anpassung der Momentandatenrate an unterschiedlich anspruchsvolle Signalabschnitte. –Dennoch bleibt die Gesamtdatenrate konstant! Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 18 Grundlagen der gehörangepassten Audiocodierung Weitere Erhöhung der Codiereffizienz (2) – Dynamische Umschaltung der Transformationslänge (seit mp3) –Das Quantisierungsgeräusch ist über die Länge eines Transformationsblockes zeitlich konstant. –Optimale Anpassung der Transformationslänge an die Signaleigenschaften erwünscht. –Für transiente Signale (Kastagnetten) kann die Transformationslänge verkürzt werden um ‚Vorechos‘ zu vermeiden (siehe zeitliche Maskierung) – Temporal Noise Shaping (TNS) (seit AAC) –Ermöglicht die zeitliche Formung des Quantisierungsgeräuschs innerhalb eines Transformationsblocks durch Filterung der Spektralwerte. Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 –Hörbeispiel Vorechos/TNS 19 Grundlagen der gehörangepassten Audiocodierung Weitere Erhöhung der Codiereffizienz (3) – Prädiktion (seit AAC) –Redundanzverringerung durch Ausnutzung der Korrelation zeitlich und in der Frequenz aufeinanderfolgender Spektralwerte. (Hörbeispiel) – Perceptual Noise Substitution (PNS) (seit AAC) –Rauschartige Frequenzanteile werden im Decoder synthetisiert, lediglich die Energieinformation wird übertragen. (Hörbeispiel) – Spectral Band Replication (SBR) (mp3Pro, AAC+SBR) –Gewinnung des oberen Frequenzspektrums aus dem niederfrequenten Teilen im Decoder. Übertragung von Hüllkurveninformation genügt für die hohen Frequenzen. Johannes Hilpert (hlp@iis.fraunhofer.de), 2003 20