Grundlagen der gehörangepassten Audiocodierung

Transcription

Grundlagen der gehörangepassten Audiocodierung
Grundlagen der gehörangepassten Audiocodierung
Grundlagen der
gehörangepassten
Audiocodierung
Johannes Hilpert
Fraunhofer IIS, Erlangen
http://www.iis.fraunhofer.de/amm
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
1
Grundlagen der gehörangepassten Audiocodierung
Themen
– Wie fing es an?
– Redundanz + Irrelevanz
– Maskierungseffekte
– Struktur eines Codecs
– Erhöhung der Codiereffizienz
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
2
Grundlagen der gehörangepassten Audiocodierung
Wie fing es
an?
– Codierung von Sprachsignalen
–Anwendung bereits seit den 1960er Jahren
–Grundlegende Idee: Eigenschaften der Signalquelle
ausnutzen (z.B. Modellierung des Sprachtraktes)
–Daher eher schlecht geeignet für allgemeine Signale
(Musik)
– Codierung von Audiosignalen
–Etwa seit der Einführung der Compact Disc Anfang
der 1980er
–Grundlegende Idee: Eigenschaften des
Signalempfängers ausnutzen (Psychoakustik)
–Soll sich für alle Arten von Audiosignalen eignen
(Sprache + Musik)
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
3
Grundlagen der gehörangepassten Audiocodierung
Motivation
– Ausgangsdatenrate der CD:
44100 ATW/sec * 16 bit/ATW * 2 Kanäle
= 1400 kbit/s
– Wunschtraum damals (1985):
–Transparente Übertragung der CD über zwei
ISDN B-Kanäle (128 kbit/s). Dies erfordert
Datenreduktion um den Faktor 11!
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
4
Grundlagen der gehörangepassten Audiocodierung
Lösungsansatz
– Verringerung der Redundanz im Audiosignal
–Verlustfreie Kompression, benutzt
Eigenschaften des Signals
–Mögliche Reduktion < Faktor 3
–Kompressionsfaktor abhängig vom Signal
– Verringerung der Irrelevanz im Audiosignal
–Was wird vom Signalempfänger
wahrgenommen?
–Kenntnis über die menschliche Wahrnehmung
von Ohr + Gehirn notwendig
–Eine Beschreibung liefert die Psychoakustik
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
5
Grundlagen der gehörangepassten Audiocodierung
Verbreitete
Halbwahrheit
– Ein Audiocoder lässt unhörbare Teile des Signals
weg
–Stimmt und stimmt nicht
–Daten wegzulassen heißt immer eine
Vergröberung (Quantisierung) der vorher fein
aufgelösten Zahlenwerte auf eine geringere
Auflösung (weniger Quantisierungsstufen)
–Dies führt zunächst immer zu einer Erhöhung
des Störgeräuschs
–Hörbeispiel: Lineare Quantisierung eines CD
Signals
–Problem: Rauschen wird bereits deutlich
hörbar bei Kompressionsraten ab Faktor 2
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
6
Grundlagen der gehörangepassten Audiocodierung
Das 13 dB
Wunder
– Wenn sich das Störgeräusch schon nicht vermeiden
läßt, kann man es dann besser verstecken?
–Bei gleichem Verhältnis von Signalenergie zu
Störenergie (SNR) kann die Störung unterschiedlich
hörbar sein.
–Hörbeispiel:
–Originalsignal
–Original + weißes Rauschen mit –13 dB SNR (ca.1/16)
–Original + geformtes Rauschen mit –13 dB SNR
–Differenzsignal: weißes Rauschen mit –13 dB SNR
–Differenzsignal: geformtes Rauschen mit –13 dB SNR
–Informationen über die geeignete Formung liefert
die Psychoakustik
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
7
Grundlagen der gehörangepassten Audiocodierung
Das 13 dB
Wunder
(2)
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
8
Grundlagen der gehörangepassten Audiocodierung
Maskierungseffekte des
menschlichen
Gehörs
– Zeitliche Maskierung
–Verdeckung von zeitlich aufeinanderfolgenden
Schallen
– Ruhehörschwelle
–Dinge, die man sowieso nicht hört ;-)
– Frequenz Maskierung
–Verdeckung von gleichzeitigen frequenzmäßig
benachbarten Schallen
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
9
Grundlagen der gehörangepassten Audiocodierung
Zeitliche
Maskierung
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
10
Grundlagen der gehörangepassten Audiocodierung
Ruhehörschwelle
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
11
Grundlagen der gehörangepassten Audiocodierung
Frequenz
Maskierung
Ruhehörschwelle
+ Maskierung =
Mithörschwelle
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
12
Grundlagen der gehörangepassten Audiocodierung
Frequenz
Maskierung (2)
– Stärke der Maskierung hängt auch von der Art
des Maskierers ab:
–Rauschartige Maskierer verdecken stärker als
tonale Maskierer (bis zu 14 dB)
– Breite der Verdeckungsfunktion hängt
zusätzlich ab von:
–Frequenz des Maskierers
–Pegel des Maskierers
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
13
Grundlagen der gehörangepassten Audiocodierung
Hörbeispiel
Frequenzmaskierung Lautstärke [dB]
Serie von Sinustönen
gleicher Frequenz
mit ansteigender
Lautstärke
160 Hz
0
-10
-20
-30
-40
-50
-60
-70
-80
7
6
5
4
3
2
1
Schmalbandrauschen
(Maskierer)
1000
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
1200
Mithörschwelle
Frequenz [Hz]
14
Grundlagen der gehörangepassten Audiocodierung
Codierung im
Frequenzbereich
– Frequenzbereichsdarstellung ermöglicht:
–Gute Beobachtbarkeit/Berechenbarkeit der
Verdeckungseffekte im psychoakustischen
Modell
–Einfache frequenzabhängige Formung des
Quantisierungsgeräuschs (siehe 13 dB Wunder)
–Transformationsgewinn für die Codierung
durch die Konzentration von tonalen
Signalanteilen auf wenige Werte im Spektrum
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
15
Grundlagen der gehörangepassten Audiocodierung
Struktur eines
Transformationscoders
Audio
Zeit/Frequenz
Transformation
psychoakustisches
Modell
Bitstrom
Bitstromentpacker
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
Encoder
Quantisierer und
Redundanzencoder
Bitstromformatierer
Bitstrom
Frequenz/Zeit
Transformation
Audio
Decoder
Redundanzdecoder
und Requantisierer
16
Grundlagen der gehörangepassten Audiocodierung
Struktur eines
Transformationscoders (2)
– Die asymmetrische Struktur von En- und
Decoder ermöglicht:
–Das MPEG-Prinzip
–Geringere Komplexität des Decoders
–Kompatibilität bereits, wenn nur das
Bitstromformat und der Decoder, nicht aber
der Encoder festgeschrieben sind.
–Verbesserungen am Encoder unter
Beibehaltung der Kompatibilität möglich
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
17
Grundlagen der gehörangepassten Audiocodierung
Weitere
Erhöhung der
Codiereffizienz
– Ausnutzung von Redundanz und Irrelevanz zwischen
den Audiokanälen (seit mp2)
–Mitte-Seite (MS) Codierung: für korrelierte Signale ist
das Differenzsignal (Links-Rechts) klein
–Intensitäts-Stereo-Codierung: Übertragung eines
Summenkanals plus Positions/Hüllkurveninformationen zur Generierung der anderen Kanäle
– Entropiekodierung (seit mp3)
–Redundanzreduktion durch Huffmancodierung
– Bit-‘Sparkasse‘ (seit mp3)
–Kurzzeitpuffer ermöglicht Anpassung der
Momentandatenrate an unterschiedlich
anspruchsvolle Signalabschnitte.
–Dennoch bleibt die Gesamtdatenrate konstant!
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
18
Grundlagen der gehörangepassten Audiocodierung
Weitere
Erhöhung der
Codiereffizienz
(2)
– Dynamische Umschaltung der Transformationslänge
(seit mp3)
–Das Quantisierungsgeräusch ist über die Länge eines
Transformationsblockes zeitlich konstant.
–Optimale Anpassung der Transformationslänge an
die Signaleigenschaften erwünscht.
–Für transiente Signale (Kastagnetten) kann die
Transformationslänge verkürzt werden um
‚Vorechos‘ zu vermeiden (siehe zeitliche Maskierung)
– Temporal Noise Shaping (TNS) (seit AAC)
–Ermöglicht die zeitliche Formung des
Quantisierungsgeräuschs innerhalb eines
Transformationsblocks durch Filterung der
Spektralwerte.
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
–Hörbeispiel Vorechos/TNS
19
Grundlagen der gehörangepassten Audiocodierung
Weitere
Erhöhung der
Codiereffizienz
(3)
– Prädiktion (seit AAC)
–Redundanzverringerung durch Ausnutzung der
Korrelation zeitlich und in der Frequenz
aufeinanderfolgender Spektralwerte. (Hörbeispiel)
– Perceptual Noise Substitution (PNS) (seit AAC)
–Rauschartige Frequenzanteile werden im Decoder
synthetisiert, lediglich die Energieinformation wird
übertragen. (Hörbeispiel)
– Spectral Band Replication (SBR) (mp3Pro, AAC+SBR)
–Gewinnung des oberen Frequenzspektrums aus dem
niederfrequenten Teilen im Decoder. Übertragung
von Hüllkurveninformation genügt für die hohen
Frequenzen.
Johannes Hilpert (hlp@iis.fraunhofer.de), 2003
20