Audio-via-IP - MAYAH Communications
Transcription
Audio-via-IP - MAYAH Communications
Audio-via-IP Kompendium Audio-via-IP Grundlagen, Praxis und Anwendungen The MAYAH range – Professional Audio & Video Encoding/Decoding, Recording, Mixing and Transmission Products CENTAURI®II Multichannel Audio Gateway Codec Sporty Portable Reporter Codec MERK II Portable Audio Codec Mixer IO [io] Audio Video Encoder/Decoder ganymed IP Audio Encoder/Decoder Flashman II Portable Audio Recorder/Codec MAYAH Communications Am Soeldnermoos 17 85399 Hallbergmoos, Germany Tel.: +49 8115517-0, Fax: -55 E-Mail: info@mayah.com www.mayah.com AUDIOVIAIPEXPERTS AUDIOVIAIPEXPERTSGROUP GROUP Impressum Herausgeber: MAYAH Communications GmbH, Copyright 2007, Redaktion: Daniel Adasinsky Autoren: Hans-Heinrich Hansen, Christian Diehl, Uwe Andersen, Jan Simon, Werner Ludwig, Jörg Rimkus, Detlef Wiese 1. Auflage Flashman, Centauri, Mayah sind eingetragene Warenzeichen Layer 2 licensed from Audio MPEG, Coding Technologies Layer 3/mp3Pro licensed from Thomson/Fraunhofer Institute AAC / AAC HE licensed from VIA, Coding Technologies *working name of MPEG 4, implementation from Coding Technologies © Copyright MAYAH Communications GmbH, 2007. All rights reserved. CENTAURI®, FLASHMAN® and MAYAH are registered trademarks. Patents pending. Product information and technical specifications are subject to change without notice. Audio-via-IP Kompendium Audio-via-IP Grundlagen, Praxis und Anwendungen Professionell aber einfach Zusammenfassung Audio-over-IP nimmt einen wachsenden Stellenwert im Bereich des Rundfunkleitungsnetzwerks ein. Die Verfügbarkeit und Bandbreite von IP-Netzwerken steigen während gleichzeitig die Kosten nahezu kontinuierlich sinken. Das Angebot an Festverbindungen und ISDN ist weltweit rückläufig und damit zu rechnen, dass es bestimmte Angebote der Telekommunikationskonzerne früher oder später nicht mehr geben wird. Zum Beispiel werden schon heute ISDN Übertragungen in Europa teilweise über den IP Backbone geführt. Dieses Kompendium nimmt sich dieser wichtigen Thematik an, und zwar von den Grundlagen bis zu den Anwendungen ohne Anspruch auf Vollständigkeit. Vielmehr sollen dem Neueinsteiger, Quereinsteiger und Fortgeschrittenen Anregungen gegeben werden. Bevor auf alle Punkte sehr detailliert eingegangen wird soll das Kapitel „IP Audio Kompakt“ die wesentlichen Punkte in kurzer Form übersichtlich darstellen. 1 IP Audio Kompakt UDP, RTP, SIP… – IP Protokolle, welches wofür? HE AACv2 usw. - Audio Codier Formate, wann brauche ich welches? Das gewählte IP Protokoll bestimmt maßgeblich die Art und Weise wie das Audiosignal über ein Netzwerk transportiert wird. Da an ein Rundfunksignal höchste Anforderungen bezüglich Qualität und Sicherheit gestellt werden, muß das Protokoll entsprechend ausgewählt sein. Während RTP/UDP in Corporate Networks mit VPNs und festen Kommunikationspartnern verwendet wird, kommt zusätzlich SIP im öffentlichen Internet zum Zug und ist insbesondere durch VoIP-Anwendungen bekannt geworden. Die Vielzahl an Audio Codier Formaten kann durchaus manchmal Verwirrung stiften. Die Auswahl geschieht nach Kriterien wie Kompatibilität, Qualität und Verzögerungszeit. Während HE AACv2 aufgrund der hohen Qualität und niedrigen Bitrate von deutlich unter 48kbps stereo immer mehr zur Anwendung kommt, wird bei Netzen mit größerer Bandbreite auch gerne die verlustfreie transparente AES/EBU Übertragung mit bis zu 3 MBit/s verwendet. SIP Session Initiation Protocol Für den Übergang der bestehenden ISDN- in die neue IP-Infrastruktur wird eine Migrationszeit benötigt. Es muß Gerätetechnik mit beiden Schnittstellen geben, sowie Transcodiermöglichkeiten, sogenannte Gateways geschaffen werden. SIP ist ein textbasiertes Verhandlungsprotokoll, mit dem Verbindungen auf Basis des Internet Protokolls (IP) verhandelt werden können. SIP wird lediglich genutzt, um die Signalisierung zwischen den Partnern abzuwickeln. Der Transport der Mediendaten erfolgt - wie im klassischen ISDN auch – getrennt von der Verhandlung. Meist werden die Nutzdaten über eine andere Route und mit einem anderen Transportprotokoll übermittelt. Während für die Verhandlung TCP oder UDP zur Wahl stehen, geschieht der Transport der Nutzdaten meist mit RTP. SIP-Wählverbindungen als ISDN Ersatz Die neuen SIP Wählverbindugnen im öffentlichen Internet sind dann als gleichwertig zu den bekannten ISDN Verbindugnen zu betrachten, wenn eine verlustfreie Übertragung der Daten möglich und eine kurze Verzögerungszeit zu erreichen ist. Dies funktioniert mit garantierter Bandbreite, z.B. durch Verwendung von RSVP und FEC. Mehr in Kapitel VPNs mit garantierter Bandbreite als Ersatz für E1 und X.21 Verbindungen Virtual Private Networks, die sogennanten VPNs können die heute genutzten E1 oder X.21 Strecken dann ersetzen, wenn für eine entsprechende stabile Bandbreite gesorgt wird. Verwendung von IP über vorhandene E1 oder ATM Netze Über bestehende E1- oder ATM-Strecken kann ein IP-Protokoll gelegt werden. Damit ist z.B. die gleichzeitige Nutzung für Audio/Video- und Datensignale möglich. Bei den verwendeten Router wird eine Bandbreitenreservierung entsprechend eingerichtet. 2 Der Übergang von ISDN zu IP und umgekehrt FEC – Fehlerschutz wie eingesetzt Vorwärtsfehlerkorrektur oder Forward Error Correction (FEC) bietet die Möglichkeit, durch das Hinzufügen redundanter Daten, Übertragungsfehler aufzuspüren und/oder zu korrigieren. So können in der Regel erneute Übertragungen oder Datenverluste, die entsprechend höhere Kosten der Verbindung oder höhere Verzögerungszeiten verursachen, vermieden werden. IP Overhead Bei IP-Übertragungen besteht der Datenstrom grundsätzlich aus zwei Teilen: Nutzdaten (english Payload), z.B. ein oder mehrere MPEG-Frames, und Zusatzdaten (english Overhead). Beim UDP-Protokoll ist der absolute IP-Overhead 46 Bytes lang, und er setzt sich folgendermaßen zusammen: 8 Bytes UDP-Header, 20 Bytes IP-Header, 18 Bytes IEEE802.3 (Ethernet). Der relative IP Overhead wird prozentual von dem Original-Payload berechnet. MPEG TS über ASI, MPEG TS über IP Der MPEG Transportstream, kurz MPEG TS wird überwiegend in DVB und ipTV Umgebungen eingesetzt. Es handelt sich um eine Formatierung von einem oder mehreren Audio- und/oder Videosignalen mit typischerweise Setop-Boxen als Empfänger. 3 Gibt es schon Standards? Um einheitliche Implementierungen voranzutreiben und zu unterstützen, wurde die N/ACIP Arbeitsgruppe der EBU gegründet. Im September 2007 soll der erste Entwurf einer Empfehlung offiziell herausgegeben werden. RTP (Realtime Transport Protocol) ist ein Protokoll zur kontinuierlichen Übertragung von audiovisuellen Daten über IP-basierte Netzwerke. Es benutzt UDP (User Datagram Protocol), aber im Gegensatz zur reinen UDP-Implementation garantiert RTP die richtige Reihenfolge der Pakete auf der Empfängerseite. RTCP (RTP Control Protocol) basiert auf dem periodischen Austausch von Kontrollpaketen unter den Sitzungsteilnehmern. Durch RTCP wird der Multimedia Datenstrom nicht gestört. Informationen wie die Zahl der gesendeten und verlorenen Pakete, Round Trip Delay, Jitter usw. dienen dazu, das Streaming an die aktuellen Netzwerkbedingungen anzupassen. SDP (Session Description Protocol) dient dazu, Multimedia-Sitzungen zu beschreiben. Diese Beschreibung kann verwendet werden, die Sitzung anzukündigen, Teilnehmer zu dieser Sitzung einzuladen oder auf andere Weise eine Verbindung zu initiieren. SAP (Session Announcement Protocol) dient dazu, eine SDP Information an einer Multicast-Adresse bekannt zu machen. Somit kann ein potentieller Empfänger sich einen Gesamtüberblick aller im (Sub-) Netz angebotenen Inhalte verschaffen und sich dann den gewünschten auswählen. MAYAH unterstützt, entgegen der Norm, auch SAP-Unicast. RTSP (Real Time Streaming Protocol) ist ein Anwendungsprotokoll, das die Auslieferung, Kontrolle und Steuerung von Multimedia-Daten auf Basis von Unicast und Multicast unterstützt. Damit kann man einen Streaming Server mit den typischen Befehlen wie zum Beispiel „Wiedergabe“ oder „Pause“ steuern. 4 5 Inhaltsverzeichnis 1 Audio und der Einstieg in IP Praktische Voraussetzungen für SIP und Audio-via-IP 1.1 IP Grundlagen 1.2 Packet Switching versus digitaler Festverbindung 5.1 Voraussetzungen für SIP-basierte Verbindungen über öffentliches Internet Audio Codierung für IP: Verzögerungszeit versus Bitrate 5.2 Voraussetzungen für sonstige IP-basierte Verbindungen – Unicast vs. Multicast 2 2.1 G.711 2.2 G.722 2.3 MPEG Layer 2 2.4 MPEG Layer 3 2.5 MPEG 4 HE AAC 2.6 apt-X und Enhanced apt-X 2.7 Lineares Audio und AES/EBU transparent 3 3.1 4 6 5 6 Typische IP oder gemischte IP/ISDN Anwendungen 7 Referenzen 7.1 R. Wagner, „Das neue Verteilnetz von Telekom Austria und ORF“, FKT, Nr. 56, 7 / 2002, S. 387 – 390 7.2 G. Stoll, F. Kozamernik, „EBU subjective listening tests on low-bitrate audio codecs“, EBU, 2003 7.3 IP als Plattform moderner Media- und Telekom Netze “Too many audio codecs“, Detlef Wiese, Tonmeistertagung, 2002 7.4 Voraussetzungen für Mediatransport / Echtzeit Fähigkeiten nachgerüstet White Paper „Diskussion von Codierverfahren“, Detlef Wiese, 2002 7.5 White Paper „NAT Traversal for Multimedia over IP“, Newport Networks, 2005 Wählverbindungen im Public Internet 7.6 White Paper „Understanding SIP“, D. Sisale, J. Kutan, GMD Fokus, 2000 7.7 CENTAURI II Handbuch, Werner Ludwig, 2006 4.1 ISDN – SIP ein Vergleich 4.2 SIP – und wie es funktioniert 4.3 Betriebssicherheit 4.4 SIP für hochqualitative Medialinks 4.5 Ausblick 7 1 Audio und der Einstieg in IP 1.1 IP Grundlagen In Anlehnung an OSI Schichtenmodell wurde für das Internet Protokoll auch ein Referenzmodell definiert. Es beschreibt den Aufbau und die Wechselwirkung der verschiedenen Netzwerkprotokolle in vier Schichten: Netzwerkschicht, Vermittlungsschicht, Transportschicht und Anwendungsschicht. Die Anwendungsschicht enthält aufgabenbezogene Protokolle, wie z.B. Telnet oder FTP, s. Abbildung 1. Abb. 1 )3//3)REFERENCEMODEL Layer 7 Application Layer Defining application protocols (e.g. FTP, TELNET, mail...) Layer 6 Presentation Layer Describing the data presentation (e.g. ASCII, Unicode) Layer 5 Session Layer Connecting and disconnecting interlinks, login, logout, handshake for non duplex connects ... Layer 4 Transport Layer Data transport between communication partners or applications (e.g. TCP, UDP) Layer 3 Network Layer Interconnecting network stations or segments (IP) Layer 2 Datalink Layer Transfer protocol for data framing and secure transfer (e.g. HDLC, SLIP, PPP) Layer 1 Physical Layer Specifying the bit transportation on the link media (e.g. modulation, pin assignment of the connector...) )3//3)REFERENCEMODELTO4#0)0REFERENCEMODEL Application Layer &40(440 Transport Layer Transport Layer 2405$0FOR -EDIA4RANSPORT Network Layer Internet Layer )NTERNET0ROTOCOL Network Layer )%%%ON%THERNET OR)%%%ONW,AN Application Layer Presentation Layer Session Layer Datalink Layer Physical Layer 9 Um Informationen von Anwendung zu Anwendung zwischen verschiedenen Netzteilnehmern zu übertragen, sind mindestens drei Adressen erforderlich. Die einzelnen Teilnehmer eines physikalischen Netzsegments (Ethernet IEEE802.3) werden über ihre 6 Byte lange MAC Adresse (Media Access Control) identifiziert. Diese Adresse muss innerhalb eines Segments eindeutig sein. MAC Adressen werden vielfach bereits von den Herstellern vergeben, wobei die ersten drei Byte den Hersteller identifizieren. Um im Internet einen Teilnehmer eindeutig erkennen zu können, wird die vier (IPv4) bzw. 16 (IPv6) Byte lange Internetadresse verwendet. Der Bezug zwischen physikalischer MAC und logischer IP Adresse wird über das Address Resolution Protocol (ARP), ein Protokoll der Vermittlungsschicht, hergestellt. Die IP Adressen des Senders als auch des Empfängers werden im IP Protocol Header beschrieben. Die dritte Adresse ist die so genannte Port- oder Socket-Nummer. Sie identifiziert eine bestimmte Anwendung des Teilnehmers. Die Portnummer (16 Bit) befindet sich innerhalb der Transportschicht, wobei eine Reihe an Portnummern bereits bestimmten Anwendungen fest zugeordnet sind, so verwendet z.B. FTP grundsätzlich den Port 20/TCP für Daten und 21/TCP für Steuerinformationen. Telnet verwendet Port 23 und für SMTP wird immer Port 25 genutzt. Die vollständige Liste der Portdefinitionen ist unter www.iana.org/assignments/port-numbers zu finden. Die IANA (Internet Assigned Numbers Authority) ist auch zuständig für die Vergabe registrierter Portnummern. 1.2 Packet Switching versus digitaler Festverbindung Heute werden für den Weitverkehrtransport von Mediadaten im Rundfunk meistens digitale Festverbindungen, Frame Relay oder Satellitenverbindungen verwendet: Leitungsarten mit in der Regel hoher Verfügbarkeit, konstanter Laufzeit und vernachlässigbarem Jitter. Sequenzfehler oder Paketverluste treten artbedingt gar nicht auf. Für den Dateitransfer und zunehmend auch für die Echtzeitübertragung im Bereich der Distribution und Contribution werden Internet-Dienste herangezogen. Der ORF begann mit der Realisierung des L-NETs bereits im Jahr 2001, also vor über sechs Jahren. Während auch danach der Schwerpunkt für die Echtzeit- 10 übertragung so genannte Corporate Networks waren, die vollständig kontrolliert werden konnten, soll heute mehr und mehr auch das öffentliche Internet genutzt werden. Insbesondere durch die abnehmende Verfügbarkeit von ISDN müssen im Audiobereich vermehrt paketvermittelte Verbindungen genutzt werden, obwohl dies ursprünglich so nicht geplant war. Die Väter des Internet haben mit dem 1981 festgeschriebenen Internet Protocol einige Möglichkeiten hinzugefügt, die eine eingeschränkte Nutzung in Echtzeit ermöglichen, allerdings werden diese Eigenschaften heute auf Standardanschlüssen nicht unterstützt. So verfügt der IP Header über ein Type-of-Service Flag, welches zur Kennzeichnung der Priorität der enthaltenen Daten dient, allerdings werden diese Flags entweder von den Routern im Internet ignoriert oder gar zurückgesetzt. Der Grund dafür ist klar, würde das Type-of-Service Flag tatsächlich Wirkung zeigen, kann man sicher davon ausgehen, dass z.B. die „Internet Gamer Community“ dies sehr schnell herausgefunden hätte und dann alle Internet Spiele mit priorisierten Datagrammen arbeiten würden. Um Mediadaten zuverlässig über ein paketvermitteltes Netz übertragen zu können, sind bestimmte Voraussetzungen zu erfüllen: Latenz, Jitter und Verfügbarkeit des Netzes müssen sich in einem bekannten und der Anwendung entsprechenden Rahmen bewegen. Die für die Signalübertragung erforderliche Bandbreite muss zu jedem Zeitpunkt zur Verfügung stehen, außerdem muss bekannt sein, ob Sequenzfehler, also Fehler in der Reihenfolge der eintreffenden Datagramme auftreten können. Es sind für einen gesicherten Betrieb geeignete Hilfsmittel einzusetzen; der maximale Jitter legt die Größe eines Kompensationspuffers auf der Empfangsseite fest. Mögliche Paketverluste können durch den Einsatz eines Forward Error Correction Verfahrens (FEC) ausgeglichen werden. Sequenzfehlern wird durch den Einsatz eines geeigneten Protokolls auf der Transportschicht entgegengewirkt (RTP, Realtime Transport Protocol), s. Abbildung 2. Der Einsatz all dieser Massnahmen hat allerdings eine teilweise erhebliche Auswirkung auf die Latenz der Übertragungsstrecke. Ein weiterer wesentlicher Unterschied zu digitalen Direktverbindungen stellt der durch die verschiedenen Protokoll-Header bedingte Overhead einer paketvermittelten Verbindung dar. 11 So werden pro Datagramm in einem Ethernet 18 Byte für den IEEE802.3 Header plus 8 Byte für dessen Präambel benötigt. Ethernet IP TCP/UPD Application Der IP Header belegt 20 Byte, RTP Application Layer der UDP Header weitere 8 Byte Data Transport und ein ggfs. verwendeter RTP $ATA Layer Header Header nochmals 12 Byte. Internet $ATA Header Header Layer Insgesamt werden 66 Byte Network Header Daten pro RTP Data$ATA Header Header (EADER Layer gramm übertragen. Wird nun z.B. in einem RTP Datagramm jeweils genau ein MPEG 2 Layer 3 Audioframe mit 16 kHz Samplerate und einer Bitrate von 24 kBit/sec transportiert (48 Byte), wird für den Transport eines 24 kBit/s Signals eine Bandbreite von 57 kBit/s benötigt. Wird statt des MPEG2 Layer 3 jetzt MPEG4 AAC verwendet ist eine genaue Berechnung der tatsächlich benötigten Transport Bandbreite aufgrund der signalbedingt wechselnden Länge der Audioframes nicht mehr möglich, da nicht vorherzusehen ist, in welchem Verhältnis Nutzdaten zu Header Overhead stehen. Segments hinaus, z.B. über ein Gateway ist nicht möglich, da keine logische Adresse vorhanden ist. Auch, wenn die MAC-Adresse des anderen Teilnehmers in einem anderen Netzwerk Segment bekannt wäre, so können die Router keinen Pfad dorthin ermitteln, da zumindest die logische Adresse des fernen Netzwerksegments fehlt. 0ROTOCOLSTRUCTURES Data Encapsulation Abb. 3 IP Overhead in % 25% 12 19,7% 19,17% 15,97% 15% 15,97% 13,69% 11,98% 9,58% 7,99% MPEG L3 UDP 6,85% fs=48 kHz 5,99% Bit rate = 256 Kbit/s 4,79% Frame length = 256 (bit rate) /48 (sample rate) * 144 (Byte) = 768 Byte IP Overhead = ((768 Byte + 46 Byte)/768 Byte –1) * 100 % = approx. 6 % 13,69% 10% 5% Bitrate in Kbit/s Um die Auswirkungen des Protokoll Overheads zu verringern, können ggfs. mehrere Audioframes pro Datagramm zu Lasten der Latenz übertragen werden, da auf der Senderseite die notwendige Menge an Audioframes zuerst gesammelt werden muss. 32 40 48 IP Overhead in % 25% 23,96% 56 64 80 96 112 128 160 192 224 256 320 e.g. apt-X (16 bit only) / Eapt-X, UDP 23,96% 23,96% 23,00% 23,96% 19,17% 20% IP Overhead Eine andere Möglichkeit, den Protokoll Overhead zu reduzieren, ist es, IP, UDP und RTP Header einfach wegzulassen, ein Verfahren, dass sich Techniken wie Ethersound und Cobranet zu Nutze machen. Hier werden die Mediadaten als Payload der IEEE802.3 Pakete übermittelt. Da aber die IP-Adressen fehlen, können nur Netzteilnehmer innerhalb des eigenen Netzwerksegments über die MAC-Adressen identifiziert werden. Eine Übertragung über die Grenzen des 23,96% 23,7% 20% 0% Für das oben erwähnte MPEG 2 Layer 3 Signal würde dies bedeuten, dass bei optimal genutzter Payload insgesamt 30 komplette Audioframes pro Datagramm transportiert werden würden. Jeder Audioframe enthält 576 Sample und damit bei einer Abtastrate von 16 kHz 36 mSec Audio. Somit entsteht eine zusätzliche Latenz 1044 mSec, s. Abbildung 3. e.g. (MPEG Layer3, 48 KHz. packet size = 180 Bytes) 30% IP Overhead Abb. 2 15% 11,06% 10,27% 11,50% 11,50% 10,65% 10% 5% 0% 4,49% 16 bit Mono 4,49% 16 bit Stereo 4,42% 20 bit Mono 4,42% 20 bit Stereo 4,36% 24 bit Mono 9,58% 4,36% 24 bit Stereo at packet size 180 at packet size 390 at packet size 1024 apt-X /Eapt-X,fixed block size, Resolution = 20 Bit Stereo Payload = (180 [packet size] / 80 [block size] rounded up to the next integer) * 80 = 240 Byte IP Overhead = ((240 Byte + 46 Byte)/240 Byte –1) * 100 % = approx. 19,7 % 13 2 Audio Codierung für IP: Verzögerungszeit versus Bitrate Im Rundfunk wurden während der letzten fünfundzwanzig Jahre verschiedene Codierverfahren eingeführt, wie z.B. J.41, J.57, MPEG Layer 2 und 3, sowie auch nicht standardisierte Verfahren wie z.B. apt-X, Eapt-X oder ADPCM4SB (Micda). Aufgrund unterschiedlicher Anforderungen wird dem Betreiber die Wahl der korrekten Bitrate, Betriebsart und Abtastrate nicht leicht gemacht wird. Erschwerend ist, dass viele weitere Verfahren in den letzten Jahren hinzugekommen sind. Neben den oben genannten Formaten werden die aus der Telefonie bekannten G.711 und G.722 im Rundfunk ebenso eingesetzt wie die sich seit ca. 5 Jahren sehr erfolgreich verbreitenden AAC Varianten, wie MPEG 2 und 4 AAC, HE AAC (früher aacPlus), HE AACv2, AAC ELD*, sowie auch lineares Audio oder AES/ EBU transparent zur Anwendung; alles Formate mit vielen möglichen Abtastund Bitraten, manche nur mono und stereo, manche per Definition auch in dual mono, joint stereo oder in 5.1/7.1 Technik. Im Rahmen der Entwicklung von Codierverfahren wird auf die Optimierung der Parameter Bitrate, Qualität, auch nach mehrfacher En-/Decodierung (Kaskadierbarkeit), Verzögerungszeit und Kompatibilität Wert gelegt. Die hier beschriebenen Verfahren lassen sich auch dahingehend klassifizieren. Während zum Beispiel HE AACv2 ausschließlich zur Reduktion der Bitrate bei gleichzeitiger sehr guter Tonqualität entwickelt wurde, so stand bei apt‑X die möglichst geringe Verzögerungszeit im Vordergrund. Zunehmend kommen aufgrund der mehr und mehr zur Verfügung stehenden Bandbreite auch lineare Übertragungsverfahren, wie 16, 20 oder 24 Bit lineares Audio oder sogar gleich die transparente Übertragung des gesamten 3,072 MBit/s AES/EBU Signals in Betracht. Hier steht die Qualität und die Verzögerungszeit im Vordergrund, was natürlich zu Lasten der Bandbreite geht. Genaue Untersuchungen zum Marktanteil der verschiedenen Codierverfahren im Rundfunk gibt es nicht. Man geht jedoch allgemein immer noch von einer Dominanz des MPEG Layer 2 und G.722 aus, wobei Verfahren, wie lineares Audio, das 4SB ADPCM Verfahren, apt-X und Enhanced apt-X, sowie der MPEG 4 Standard HE AAC und HE AACv2 bei entsprechenden Anwendungen zunehmen, letzterer sehr deutlich. 14 *work item of MPEG 15 Eine ausführliche Diskussion muss eine Darstellung der Verfahren hinsichtlich Qualität, Flexibilität, Bandbreite, Verzögerungszeiten, Kompatibilität, Standardisierung, Marktanteil und –aussichten beinhalten. Tatsächlich gibt es für nahezu jedes Verfahren eine optimale Anwendung. 2.1 Es gibt zwei verschiedenen Methoden, um Audiocodecs mit G.722 zu synchronisieren. G.722 mit H.221 Inband-Signalisierung (G.722/H.221): Bei G.722/H.221 werden 1,6 kbit/s des 64 kbit/s B-Kanals für das Versenden von Inbandinformation verwendet. Diese Inbandinformation wird zur Synchronisation des Audiodatenstroms verwendet. G.722 mit statistischer Synchronisation (G.722/SRT): Bei G.722/SRT (SRT = Statistical Recovery Timing) wird durch statische Untersuchung der Byteanfang gefunden. Hierbei ist zu beachten, dass dies nur bei wirklichen statistische Signalen wie Musik oder Sprache funktioniert, nicht aber bei Sinustönen. 16 MPEG Layer 2 erlaubt die Datenraten von 8 bis 384 Kbit/s, Zielbitrate für Stereo ist 256 Kbit/s 2.4 MPEG Layer 3 Viel mehr als mp3 bekannt, wird dieses Format auch verwendet. Zum Beispiel wenn kleinere Datenraten gefordert sind, als die, die mit MPEG Layer 2 bei einer gewünschten Audioqualität erreichbar sind. G.722 Ein weiterer Standard der ITU-T. Im Vergleich zu G.711 bietet G.722 eine höhere Audioqualität, indem das Signal mit 16 kHz abgetastet wird. Dennoch wird es mit 64 Kbit/s (z.B. über ein ISDN B-Kanal) übertragen. Ähnlich wie bei G.711 entsteht bei der G.722 Codierung keine bedeutende Verzögerung. MPEG Layer 2 Bis jetzt bleibt der Anfang 1990-er Jahre standardisierte Algorithmus ein sehr verbreitetes Codierverfahren für qualitative Audioübertragung über verschiedene Netzwerke im Rundfunkbereich. Im wesentlichen tragen zur Popularität des Formats seine für ein verlustbehaftetes (psychoakustisches) Codierverfahren relativ hohe Kaskadierbarkeit und die breite Unterstützung in diversen Soft- und Hardware Audiocodecs der früheren Generationen bei. G.711 Ein der grundlegenden Standards der ITU-T. G.711 erlaubt Digitalisierung von Audio in Mono mit einer Abtastrate von 8 kHz. Damit wird der Bereich zwischen 300 und 3400 Hz codiert. Übertragen wird mit 64 Kbit/s in Europa und mit 56 Kbit/s in Nordamerika. G.711 wird vor allem in der klassischen Telefonie verwendet. Bei IP-Übertragungen kann das Format, dann zum Einsatz kommen, wenn ein herkömmliches Telefon über VoIP erreicht werden muss. Bei der Codierung ins G.711 entsteht keine bemerkbare Verzögerungszeit. 2.2 2.3 MPEG Layer 3 erlaubt die Datenraten von 8 bis 320 Kbit/s. Zielbitrate für Stereo liegt zwischen 128 und 192 Kbit/s 2.5 MPEG 4 HE AAC HE AAC ist eine Weiterentwicklung von AAC unter Verwendung der SBR-Technologie von Coding Technologies ( www.codingtechnologies.com ). AAC, das innerhalb MPEG2 und 4 standardisierte Verfahren zählt zu den qualitativ hochwertigsten Codieralgorithmen mit der Zieldatenrate von 128kBit/s. Viele Anwendungen benötigen so geringe Bitraten, die von AAC nicht mehr mit hoher Qualität encodiert werden können. Deshalb hat man bei Coding Technologies, einer schwedisch-deutschen Kooperation, eine Technologie namens SBR, der so genannten Spectral Band Replication entwickelt, die genau hier entgegenwirkt und nun erlaubt, AAC auch bei niedrigen Bitraten, z.B. 32, oder 48kBit/s joint stereo zu verwenden. Dabei werden über 90% der verwendeten Bitrate weiterhin für die klassische AAC-Codierung und nur ein sehr kleiner Teil (<4kBit/s) für die SBR-Information verwendet. Der konventionell codierte AAC-Teil der Codierung wird mit halber Abtastrate, also 16, 22.05 oder 24kHZ durchgeführt. Dies resultiert in einer Erhöhung der Codiereffizienz, 17 Schlüsselfunktionen sind: Die Verbindung von SBR und AAC ist ein qualitativ hochwertiges Format. Man verabschiedet sich zwar vom Anspruch der Transparenz, da die Frequenzen oberhalb 7, bzw. 8 kHz nicht mehr transparent übertragen werden, man erreicht jedoch mit wesentlich niedrigeren Bitraten eine CD-ähnliche Qualität. CD-ähnlich heißt im Fall von HE AAC sehr gut, was sich insbesondere durch die mittlerweile sehr weite Verbreitung dieses Formats im Rundfunk, aber auch bei Übertragungssystemen zeigt. Da SBR die Bitrate generell um ca. 30-50% optimiert hat HE AAC eine Zieldatenrate von 48 kBit/s für Stereosignale. In Verbindung mit einer sogenannten „parametric stereo“ Codierung heißt das Verfahren HE AACv2 und es werden auch die für das stereofone Bild notwendigen Daten parametrisiert übertragen. Die Zieldatenraten gehen damit sogar auf 16, 20 und 24 kBit/s. 2.6 2.7 4:1:4 Datenreduktion ■■ Mono/stereo audio encoder/decoder ■■ Flexible Abtastrate bis zu 96kHz ■■ Zusatzdaten bis zu 12kbit/s Lineares Audio und AES/EBU transparent Mit zunehmender Verfügbarkeit an Bandbreite kommen auch die Übertragung von linearem Audio und „AES/EBU Transparent“ in Betracht. Unter linearem Audio versteht man ein PCM Signal mit einer bestimmten Wortbreite von 16, 20 oder 24 Bit sowie einer festgelegten Abtastrate von im Rundfunk stets 48 oder 96kHz. Die resultierende Bitrate beträgt bei einem Stereosignal demnach zwischen 1,5 bis 4,5 MBit/s. apt-X und Enhanced apt-X Bei der Übertragung von AES/EBU Transparent geht es darum, dass im AES/ EBU Signal auch encodierte Datensignale wie Dolby E oder DTS, etc. enthalten sein können und dieses Signal keiner Abtastratenkonvertierung unterzogen wird, da ansonsten die encodierte Datensignale irreversible manipuliert wären. Die Datenrate des AES/EBU Signals beträgt 3,072 MBit/s. Apt-X wurde erstmalig 1990 als Tonübertragungsverfahren mit sehr kurzer Verzögerungszeit bekannt und hat sich seit dem als de-facto Industriestandard insbesondere in privaten Produktionsstudios hervorgetan. Die Stärken liegen in der hohen Tonqualität verbunden mit sehr kurzen Verzögerungszeiten. Es kommt die ADPCM (Adaptive Differential Pulse Code Modulation) zum Einsatz, die bei den verwendeten Datenraten selbst bei mehreren En-/DecodierProzessen, der so genannten Kaskadierung noch eine sehr gute Qualität hat. Die theoretische Verzögerungszeit liegt bei 3ms mit eine Abtastrate von 48kHz. Der Algorithmus ist bei vielen Abtastraten einsetzbar und wurde erst kürzlich um den sogenannten Enhanced apt-X Algorithmus erweitert. Enhanced apt-X™ bringt eine signifikante Verbesserung, speziell bei der Verzögerungszeit und dem Dynamikumfang, da hier Abtastwerte mit einer Wortbreite von bis zu 24 Bit verarbeitet werden. ■■ Sollen Mehrkanalsignale, z.B. 5.1 oder 7.1 übertragen werden erhöhen sich die Bitraten entsprechend. 2.8 Mehrkanalton Die Encodierung von 5.1 oder 7.1 Mehrkanalsignalen wird von vielen Audioformaten unterstützt. Hervorzuheben sind HE AAC mit sehr effizienter Codierung und geringen Bitraten bis 128 kbps, Eapt-X mit diskret encodierten Signalen und Bitraten von 1-2 Mbit/s sowie linearen Formaten mit Bitraten bis zu 18 MBit/s. apt-X ist heute eines der weltweit verbreitetsten Systeme für kurze Verzögerungszeiten. 18 19 !UDIO#ODIER&ORMATE!BTASTRATENINK(Z !UDIO#ODIER&ORMATE1UALITÊTUND,ATENZ ' ' SG ' ' SEHRGERING -0%',AYER -0%',AYER -0%',AYER -0%',AYER -0%',AYER -0%',AYER -0%',AYER -0%',AYER -0%' ,AYER -0%' ,AYER MS VARIABELBISK(Z MP02/ MP02/ MS VARIABELBISK(Z -0%'!!# -0%'!!# -0%'!!#,$ -0%'!!#,$ -0%'!!#(%V -0%'!!#(%V * * SEHRGERING K(Z !$0#-3"-)#$! !$0#-3"-)#$! SEHRGERING K(Z %APT8APT8 %APT8APT8 SEHRGERING * * SEHRGERING ,INEAR!UDIO ,INEAR!UDIO SEHRGERING !%3%"54RANSPARENT !%3%"54RANSPARENT !!#UND!!#(%V !!#UND!!#(%V +ANALLINEAR!UDIO +ANALLINEAR!UDIO SEHRGERING VARIABELK(ZMÚGLICH +ANALAPT8%APT8 +ANALAPT8%APT8 SEHRGERING VARIABELK(ZMÚGLICH PROPRIETÊRE%RWEITERUNGVON&RAUNHOFER K(Z K(Z MS VARIABELBISK(Z MS VARIABELBISK(Z MS VARIABELBISK(Z MS VARIABELBISK(Z MS VARIABELBISK(Z MS VARIABELBISK(Z MS VARIABELBISK(Z VARIABELK(ZMÚGLICH K(Z VARIABELK(ZMÚGLICH MS VARIABELBISK(Z PROPRIETÊRE%RWEITERUNGVON&RAUNHOFER Audio Codier Formate: Bitraten in kBit/s *proprietäre Erweiterung von Fraunhofer 20 21 3 IP als Plattform moderner Media- und Telekom Netze 3.1 Voraussetzungen für Mediatransport / Echtzeit Fähigkeiten nachgerüstet Während klassische Broadcasting-Angebote aus ökonomischer Sicht eine möglichst große Reichweite anstreben, werden Streaming-Media-Angebote mit wachsender Teilnehmerzahl teurer, denn die Daten müssen an jeden Empfänger einzeln versendet werden. In der Netzwerktechnik ist zwar der Multicast-Modus bekannt, bei dem ein vom Streaming-Server ausgehender Datenstrom bei geringer Netzbelastung gleichzeitig an verschiedene Empfänger gesendet werden kann; dieser wird jedoch bis heute praktisch nicht benutzt, weil ihn viele Router im Internet nicht unterstützen. Statt dessen werden für Streaming-Angebote mit einem Massenpublikum (z. B. Übertragungen der Fußballbundesliga, grosse Events, etc.), so genannte OverlayNetze genutzt, welche die zu übertragenden Daten netztopologisch betrachtet an vielen Orten gleichzeitig zur Verfügung stellen. Hochqualitatives Streaming setzt als Transportprotokoll das RTP/RTCP- Protokoll voraus. Dieses Protokoll ist die Grundlage für alle echtzeitfähige Übertragungen. Zur Steuerung von Streaming- Inhalten existieren die Protokolle SIP, SAP, RTSP, HTTP. Diese Protokolle werden über unterschiedliche Ports angesprochen und stellen entsprechende Steuerungsfunktionen zur Verfügung, greifen aber wiederum gemeinsam auf das RTP-Protokoll zum Austausch von Informationsinhalten zurück. Abb. 5 RTP/TCP: Protokoll-Architektur Applikation (Sender) RTCP Encoder 22 RTP Applikation (Empfänger) Feedback RTCP Data RTP Decoder 23 4 Wählverbindungen im Public Internet 4.1 ISDN – SIP ein Vergleich Beim Verbindungsaufbau in einem verbindungsorientierten Netz (z.B. ISDN) wählt der Initiator seinen Kommunikationspartner an, woraufhin dem Netz der Verbindungswunsch angezeigt wird. Das Netz akzeptiert diesen Wunsch, falls es über genügend Kanäle oder entsprechende Bandbreite verfügt, indem es eine Belegungsquittung zurücksendet und reserviert den Kanal bzw. die Bandbreite. Da ein solches Netz klassischerweise in mehrere Netzabschnitte unterteilt ist, wird ein Belegungswunsch und die Quittung zwischen jedem Netzabschnitt mit dem darauffolgenden ausgetauscht. So kann der Verbindungswunsch aus einem Lokalnetz in Regionalnetze und das Weitverkehrsnetz gelangen oder wird sogar zwischen nationalen Weitverkehrsnetzen ausgetauscht. Wird der angerufene Kommunikationspartner gefunden und ist er in der Lage die Verbindung anzunehmen, so werden die Kommunikationspartner direkt über die reservierten Kanäle verbunden. Das Telekommunikationsnetz ist, um diesen Mechanismus effizient umzusetzen, in zwei Netze unterteilt: das Zeichengabe- (Signalisierungs-)Netz und das Nutzkanalnetz. Während über das Signalisierungsnetz alle zum Kommunikationsaufbau notwendigen Nachrichten geschickt werden, besteht das Nutzkanalnetz aus frei schaltbaren (Nutz-) Datenkanälen, die bei ISDN eine Übertragungsgeschwindigkeit von 64 kbit/s haben. Mit der flächendeckenden Verbreitung von paketbasierten Netzen in höherer Bandbreite entstehen nun für viele Dienste Möglichkeiten auf diese Netze überzusiedeln. Ein Netz, das mit reiner Datenübertragung und Nachrichtenaustausch wie z.B. über Email angefangen hat, ermöglicht jetzt dank hinreichender Kapazitäten auch Dienstleistungen wie Fernsehen, Radio und Telefonie. „Voice over IP“ ist der designierte Nachfolger des heutigen Telefonnetzes. Im Gegensatz zu ISDN werden in paketorientierten Netzen Datenpakete von den Endstellen mit Ursprungs- und Zieladresse versehen und spontan, d.h. ohne vorherigen Verbindungsaufbau versendet. Um in einem solchen nicht verbindungsorientierten Netzwerk ein Wählverbindungen zu ermöglichen, wurde das Session Initiation Protocol (IP) entwickelt. Obwohl die Verbindungssteuerung von SIP sehr an das D-Kanal Protokoll bei ISDN erinnert, wurde es nicht von einer Telekommunikationsbehörde, sondern von der Internet Engineering Task Force 24 25 (IETF) erarbeitet und in einem Request For Comments (RFC 3261) festgehalten. Die Arbeitsgruppe der IETF hat hierbei auf bewährte Protokollbausteine zurückgegriffen, so ist es nicht verwunderlich, dass viele Elemente des SIP an HTTP oder SMTP erinnern. Abb. 6 SIP - simple session establishment 1: INVITE fritz 2: 100 / Trying 4.2 SIP – und wie es funktioniert 2: 180 / Ringing Das Session Initiation Protocol (SIP) ist also ein textbasiertes Verhandlungsprotokoll, mit dem Verbindungen auf Basis des Internet Protokolls (IP) verhandelt werden können. Das SIP wird hierbei lediglich genutzt, um die Signalisierung zwischen den einzelnen Verhandlungsstellen abzuwickeln. Der Transport der Mediendaten erfolgt - wie bei ISDN auch – getrennt von der Verhandlung. Meist werden die Nutzdaten über eine andere Route und mit einem anderen Transportprotokoll übermittelt. Während für die Verhandlung TCP oder UDP zur Wahl stehen, geschieht der Transport der Nutzdaten meist mit RTP. 3: 200 / OK SIP ist ein sogenanntes Peer-to–Peer Protokoll, mit dem einzelne Komponenten im einfachsten Fall direkt miteinander verbunden werden können ohne eine zentrale Einheit. Die Instanzen eines Peers innerhalb einer Session werden UserAgents (UAs) genannt. Ein UA kann zwei unterschiedliche Rollen übernehmen: ■■ Der User-Agent-Client (UAC) initiiert eine Session, und ■■ Der User-Agent-Server (UAS) beantwortet die Anfragen eines Clients. Ein SIP-Gerät kann beide Rollen übernehmen. Im einfachsten Fall können also zwei Endgeräte direkt miteinander kommunizieren. Um eine solche Verhandlung zu starten wird vom Anrufer eine INVITE-Nachricht an die SIP-Adresse des Empfängers geschickt. Das Schlüsselwort INVITE ist eine der sogenannten Methoden, die ein UA beherrschen muss. Andere Methoden sind z.B. ACK, BYE oder REGISTER. Möchte der Angerufene das Gespräch entgegennehmen, so kann er im einfachsten Falle direkt mit einer „OK“-Nachricht antworten, die dann vom Anrufer mit einer „ACK“-Nachricht quittiert wird. Diese drei Nachrichten reichen im einfachsten Fall aus, um eine Nutzdatenverbindung aufbauen zu können. Die Besonderheit der drei oben beschriebenen Nachrichten ist, dass sie meist einen speziellen, zusätzlichen Inhalt im sogenannten Body haben. Dieser Body enthält die Beschreibung der aufzubauenden Nutzdatenverbindung. Hier wird u.a. festgelegt, welche Audio- und Video-Codecs zum Einsatz 26 User Agent 1 4: ACK Media Connection (RTP) User Agent 2 1: BYE 2: 200 / OK kommen, welche Parameter diese benutzen sollen und welche IP-Adressen und Ports die Endpunkte der Nutzdatenverbindung haben. Zur Beschreibung der Mediendatenverbindung nutzt man das Session Description Protocol (SDP); ein Protokoll, das in vielen anderen Verhandlungs- und Übertragungsmechanismen bereits erfolgreich eingesetzt wird und sich seit langem etabliert hat. Eine der Stärken von SIP liegt darin, dass durch den oben beschriebenen Nachrichtenaustausch auch Eigenschaften der Nutzdatenverbindung verhandelt und nicht etwa nur von der Anruferseite festgelegt werden können. Es ist durchaus erlaubt, anstelle eines einzelnen gewünschten Audiocodecs eine Prioritätsliste auszutauschen, die von der Gegenstelle verändert oder gar ersetzt werden darf. Da der Nachrichtenaustausch beim Verbindungsaufbau aus mindestens drei Nachrichten besteht, hat der Anrufer das letzte Wort und kann über den wirklich zu nutzenden Audiocodec bestimmen. Ein weiterer Vorteil von SIP offenbart sich, wenn man den Verbindungsaufbau unter Zuhilfenahme von SIP-Servern genauer betrachtet. Die Adressen der SIP-Teilnehmer sind durch ein vorgestelltes „sip:“ gekennzeichnet und meist in der Form „sip:user@host“, „sip:user@domain“ oder „sip:<user>@<ip_address>“. Im einfachsten Fall, also bei einer direkten Verbin27 dung zwischen zwei Endgeräten, ist hier Host und Domain (bzw. IP-Adresse) des Endgerätes gemeint, d.h. die IP-Adresse des Empfangsgerätes muss bekannt sein, bzw. der Host- oder Domainname muss über übliche Mechanismen (z.B. Domain Name Service DNS) auflösbar sein. Da dies in der Praxis jedoch selten der Fall sein wird, gibt es die Möglichkeit ein Endgerät mit Hilfe von SIP-Servern zu ermitteln. Wie aus der Illustration ersichtlich wird, verhandeln die Endgeräte mit Ausnahme der „ACK“ Nachricht nie direkt miteinander, sondern kommunizieren stets nur mit dem SIP-Proxy. Trotzdem läuft die Verhandlung aus Sicht der Endgeräte exakt so ab, wie eine direkte Verhandlung ohne Proxy – der SIP-Proxy ist also transparent. Abb. 7 SIP - Call Flow 1: INVITE Location Service 3: fritz@mayah.com? 4: fritz@lab.mayah.com fritz@mayah.com 5: INVITE 2: 100 / Trying User Agent 1 fritz@lab.mayah.com SIP Proxy 6: 100 / Trying 8: 100/ Ringing 7: 100/ Ringing 10: 200/ OK 9: 200/ OK User Agent 2 11: ACK fritz@lab.mayah.com Betrachten wir ein Beispielszenario, in dem Endgerät 1 eine Verbindung zu einem mobilen Endgerät 2 aufbauen möchte. Die IP-Adresse der Geräte sei hierbei der jeweiligen Gegenstelle unbekannt. Es könnte sich z.B. um mobile Geräte handeln, die sich über UMTS oder ADSL in ein Netz einwählen. Um dennoch eine Verbindung aufbauen zu können, melden sich beide Endgeräte bei einem SIP-Server mittels spezieller SIP-Nachrichten an. Hierzu identifiziert sich der Benutzer anhand einer zuvor zugeteilten SIP-Adresse der Form user@ service-provider und meist auch einem Passwort. Der SIP-Server legt die Information unter welcher IP-Adresse der angemeldete Benutzer zu erreichen ist bei einem Location-Server ab. Bei einem Verbindungswunsch von Endgerät 1 wird als Ziel die registrierte Adresse des Endgerätes 2, also beispielsweise geraet2@ service-provider, angegeben. Die „INVITE” SIP-Nachricht wird deshalb an einen SIP-Proxy geschickt, der seinerseits beim Location-Server die IP-Adresse des angerufenen Endgerätes erfragt und dann die Nachricht in leicht veränderter 28 Form an Endgerät 2 weiterleitet. Endgerät 2 antwortet mit SIP-Nachrichten an den SIP-Proxy, der diese wieder an Endgerät 1 weiterleitet. Die in Abbildung gezeigten Nachrichten „100/Trying“ sind optional und dienen der Quittierung einer Anfrage. Ebenfalls optional sind die gezeigten „180/Ringing“ Nachrichten, die in der klassischen Telefonie das Ertönen eines Wecksignales beim Empfänger an den Anrufer signalisieren. Der Einfachheit halber wird in diesem Beispiel darauf verzichtet die Teilnehmer an verschiedenen SIP-Servern anzumelden. Dies ist jedoch durchaus üblich und natürlich problemlos möglich, da Verbindungsanfragen einfach von einem an andere SIP-Proxies weitergeleitet werden können. Somit kann statt eines einzigen Proxies auch eine Kette mehrerer Proxy-Server zwischen den Endgeräten liegen. Proxy-Server müssen auch nicht gezwungenermaßen bei einem Provider stehen. Dank Open-Source-Lösungen wie Asterisk oder Routern mit eingebauter SIPServer Funktionalität ist es einfach, eine solche Netzstruktur selbst aufzubauen. Natürlich bringt ein neues Protokoll auch neue potentielle Probleme mit sich. Wie bei jedem Peer-to-Peer Protokoll können Firewalls auch bei SIP-Verbindungen eine gewünschte Kommunikation unterbinden. Eine Firewall definiert alle Pakete, die zu einer Verbindung, die von außerhalb (d.h. meistens aus dem Internet) initiiert wird, gehören, als nicht erwünscht und verwirft diese. Sind also beide Endgeräte hinter einer Firewall, so kann von keiner Seite eine Verbindung aufgebaut werden, da die Firewall der Gegenseite eingehende Verbindungsversuche immer als unerwünscht interpretiert und somit unterbindet. 29 ressen im Header geändert; der Inhalt eines Paketes (also z.B. die Beschreibung der Nutzdatenverbindung im SDP-Teil bei SIP) bleibt unverändert. Es existieren unterschiedliche Möglichkeiten, wie diese Adressübersetzung geschieht. Diese verschiedenen Mechanismen können zu unterschiedlichen Adressen oder Ports im Absender eines übersetzten Paketes führen. Je nach Art der NAT scheinen die übersetzten Pakete (also die Pakete, die in das öffentliche Netz gelangen) von unterschiedlichen Adressen oder Ports zu kommen und sind nicht eindeutig vorhersehbar. Es ist also schwierig, im Inhalt (Body) einer SIP-Nachricht die richtige IP-Adresse und den richtigen Port anzugeben, da diese je nach eingesetztem NAT-Mechanismus unterschiedlich sein können. Abb. 8 3)0.!4&IREWALLS 4HEh&IREWALL0ROBLEMv 1. 1. 2. 4. 3. Dieses Problem läßt sich jedoch durch entsprechende Firewalleinstellungen (z.B. Port-Forwarding) umgehen. Ein weiteres Problem entsteht dadurch, dass im Inhalt (Body) einer Nachricht, genauer gesagt im SDP-Teil, eine IP-Adresse für die Nutzdatenverbindung angegeben werden muss. Das ist im Normalfall die IP-Adresse des Endgerätes. Sollte im Netzwerk zwischen den Endgeräten jedoch Network Address Translation (NAT) eingesetzt werden, wie es häufig in nichtöffentlichen Netzen der Fall ist, so kann die in der Nachricht angegeben Adresse nicht von einem anderen Netz erreicht werden und ist somit falsch. Nichtöffentliche Netze nutzen nämlich meist IP-Adressen aus einem speziellen Adressraum, der nur in privaten Netzen genutzt werden darf. Beispiele hierfür sind Adressen, nach dem Schema 192.168.X.X oder 10.X.X.X. Gelangt ein solches Paket in ein öffentliches Netz wie das Internet, so wird es sofort verworfen. NAT sorgt deshalb dafür, dass beim Übergang zwischen einem nichtöffentlichen und dem öffentlichen Netz die Absenderadresse eines IP-Paketes aus dem privaten Netz in eine des öffentlichen Netzes umgeschrieben wird. Bei einem hereinkommenden Paket wird entsprechend die Zieladresse von der öffentlichen in die private Adresse umgeschrieben. Wohlgemerkt werden hier nur die IP-Ad- 30 Lösung bietet hier das STUN (Simple Traversal of UDP over NATs) Protokoll, das ermöglicht herauszufinden, welche Art von NAT vom Netzwerk verwendet wird und wie die zu verwendende IP-Adresse und der zu verwendende Port lautet. Hierzu werden einige Testpakete mit einem STUN-Server (z.B. stunserver.org) gewechselt, anhand derer die gewünschte Information ermittelt wird. 2. 4.3 Betriebssicherheit Grundsätzlich gibt es zwei Aspekte der Sicherheit bei solchen Verbindungen: ■■ Die Sicherheit der Übermittlung von Informationen ■■ Die Sicherheit gegenüber Angriffen von außen Bei einer SIP-gestützten Verbindung werden über zwei Kanäle Informationen ausgetauscht. Zum einen werden Registrierungs- und Signalisierungsdaten über das SIP ausgetauscht und zum anderen Nutzdaten (z.B. über RTP). Beide Verbindungen könnten geheime, schützenswerte Informationen preisgeben. Um die SIP Signalisierung zu schützen, definiert der SIP-Standard (RFC 3261) das SIPS Protokoll, bei dem anhand von Schlüsselwörtern signalisiert wird, dass eine Verschlüsselung der SIP Verhandlung gewünscht ist. Eine solche Verschlüsselung wird mit dem TLS Verfahren, das z.B. auch bei HTTPS eingesetzt wird, vorgenommen. Um eine Transparenz der Nachrichten zu gewährleisten, wird hier jedoch nur der Inhalt (Body) einer Nachricht, also im Regelfall die Information über verwendete Audio- und Video-Codecs etc., geschützt. Gerade bei der Übertragung von Mediendaten in hoher Qualität ist der Inhalt der Nutzdaten meist besonders schützenswert. Einen Mechanismus für einen 31 darauffolgender Übertragung ermöglicht es auf einfache Weise die Nutzung von beliebigen Audio- und Video-Codecs auszuhandeln – sofern sie von allen Endteilnehmern unterstützt werden. solchen Schutz bietet der SIP Standard jedoch nicht, da hier Mechanismen eingesetzt werden können, die auch bei anderen IP-Verbindungen genutzt werden. Beispiele hierfür sind: ■■ ■■ ■■ ATM oder MPLS: Dienste im darunter liegenden Transportnetz, basierend auf Adressierungsmechanismen IPSec: Tunnel basierend auf dem Internetprotokoll Ein nicht zu unterschätzendes Sicherheitsrisiko stellen Angriffe von außen dar. Solche aus Fremdnetzen initiierte Angriffe haben meist zum Ziel, den angegriffenen Dienst zu stören oder ganz zu blockieren (Denial of Service / DoS). Es wäre z.B. denkbar, dass ein Angreifer versucht, einen RTP-Nutzdatenstrom auf ein neues Ziel umzulenken und sich so Zugang zu enthaltenen Informationen schafft und/oder den Dienst blockiert. Umgekehrt könnte ein Angreifer auch RTPNutzdatenströme durch eigene ersetzen und somit falsche oder unerwünschte Information verbreiten. Solche Attacken lassen sich nicht allein mit den oben beschriebenen Mitteln vereiteln, sondern erfordern vielmehr Netzstrukturen und Sicherheitsanwendungen, wie Firewalls und Application Layer Gateways (ALG). Jedoch ist das Erstellen solcher Netzwerkstrukturen alleine wirkungslos, solange das Netz nicht kontinuierlich und fachgerecht überwacht und gewartet wird. 4.4 SIP für hochqualitative Medialinks SIP hat bis dato hauptsächlich in Telefonieanwendungen Verbreitung gefunden. In solchen VoIP Anwendungen hat es heute seinen festen Platz und ist als Standard für das kommende Next Generation Network (NGN) fest eingeplant. Man kann also fest damit rechnen, dass die für einen problemlosen Betrieb notwendigen Netzstrukturen und -ressourcen durch die weite Verbreitung von SIP als VoIP-Lösung von allen wichtigen Netzbetreibern zur Verfügung stehen. Wie bereits erwähnt ist SIP auch eine sehr gute Grundlage für Medialinks in professioneller Qualität. Vor allem die saubere Trennung von Verhandlung und 32 Das hierzu benutzte SDP wird ohnehin bereits in anderen Übertragungsmechanismen eingesetzt und wird von Codec-Herstellern die Audio-Over-IP ernsthaft betreiben, bereits verwendet. Es handelt sich bei SIP also lediglich um eine neue Art der Signalisierung. VPN: Teilnehmer eines VPN können Daten wie in einem internen LAN austauschen. Die einzelnen Teilnehmer selbst müssen hierzu nicht direkt verbunden sein. Die Verbindung über das öffentliche Netz wird üblicherweise verschlüsselt. 4.5 SIP Ausblick Um SIP für einen reibungslosen Ablauf der Kommunikation zwischen Audio- und Video-Codecs nutzen zu können, sind jedoch einige Festlegungen und Erweiterungen wünschenswert. Bei einem normalen SIP Verbindungsaufbau kann höchstens dreimal eine Beschreibung der aufzubauenden Verbindung gesendet werden – zweimal vom Anrufer und einmal vom Angerufenen. Für die klassische Telefonieanwendung, für die SIP geschaffen wurde, ist dies sicher ausreichend, denn hier kommen vorwiegend Algorithmen mit wenigen oder gar keinen Parametern (G.711, G.722, G.723, G.728, G.729a,...) zum Einsatz. In dieser sehr knappen Verhandlung müssen die Kommunikationspartner für hochqualitative Medialinks sich jedoch nicht nur auf den zu verwendenden Algorithmus einigen, sondern auch unter anderem auf die Anzahl der Kanäle, die Sample- und Datenraten und ob die Verbindungen bi- oder unidirektional aufgebaut werden sollen. Abhilfe könnte man hier beispielweise schaffen, indem man die Anzahl und Parameter der über SIP verhandelbaren Audio- und Video-Codecs limitiert und festlegt. Eine andere Möglichkeit wäre die Ausdehnung der Verhandlungsphase auf mehr als drei Schritte. Hier wird sicher die von der EBU ins Leben gerufene Arbeitsgruppe N/ACIP eine normative Rolle spielen. Das große Interesse an SIP als Verhandlungsprotokoll für hochqualitative Medialinks haben wir den zuletzt in verschiedenen Ländern und durch verschiedene Telekommunikationsanbieter verbreiteten Meldungen ISDN demnächst abschalten zu wollen, zu verdanken. Deutschland wird sicher für diese Umstellung noch einige Jahre Zeit haben, da hier ISDN auch bei Privatanwendern weit verbreitet ist. Dass eine innerdeutsche ISDN-Verbindung jedoch ab der Vermittlungsstelle über eine IP-Strecke läuft, ist jedoch bereits heute durchaus üblich. Die bei der Umsetzung entstehende Latenz und der Verlust eventuell mitgesendeter Zu33 Beim erstmaligen Arbeiten mit SIP, sollte man sich als SIP-user registrieren. Alle anderen Einstellungen werden direkt beim Client (z.B. CENTAURI II) vorgenommen. Es ist ferner zu berücksichtigen, daß man an Stelle des eigenen auch öffentliche SIP-registrars verwenden kann. Dabei ist zu berücksichtigen, daß alle notwendigen Features unterstützt werden. satzinformationen wäre durch eine Umstellung auf IP-basierte Übertragungen vermeidbar. Natürlich ist auch eine IP-Strecke - teils mit erheblicher – Latenz behaftet, die stark von der Qualität des darunterliegenden Netzes abhängt. Die von der EBU eingesetzte Arbeitsgruppe N/ACIP beschäftigt sich mit dem Thema Audio-Over-IP und versucht zusammen mit Herstellern, Netzbetreibern und Anwendern Empfehlungen für die Kompatibilität zwischen Audio Codecs bei IP Verbindungen auszusprechen. Auch hier wird SIP als ein obligatorisch zu unterstützendes Protokoll aufgeführt. Bei der Anpassung von SIP an die Anforderungen hochqualitativer Mediaverbindungen wird diese Arbeitsgruppe sicher das wichtigste Forum sein. Glücklicherweise sind sich alle an dieser Arbeitsgruppe Beteiligten einig darüber, dass ein langwieriger und hindernisreicher Weg wie er bei der Einführung von ISDN gegangen wurde, bei der Einführung von SIP verhindert werden muss. 5 Praktische Voraussetzungen für SIP und Audio-via-IP 5.1 Voraussetzungen für SIP-basierte Verbindungen über öffentliches Internet Die erste Maßnahme für eine erfolgreiche SIP Verbindung ist die Auswahl einer geeigneten IP-Verbindung. Z.B. gibt es in Deutschland viele verschiedene regionale und recht große Service Provider, die S-DSL Angebot mit 2 MBit/s und mehr anbieten. Bei Kontaktaufnahme zu einem solchen Provider müssen folgende Punkte abgeklärt werden: ■■ Kosten für die S-DSL Verbindung ■■ Minimum an Kapazität von 2 Mbit/s ■■ mindestens 3, besser 16 öffentliche IP-Adressen ■■ Auskunft über möglichen Quality-of-Service erhalten Alle SIP-clients müssen sich bei einem speziellen SIP-registrar registrieren. Dies kann im selben Netzwerk oder auch irgendeine IP-Adresse im öffentlichen Internet sein. Der SIP-registrar ist der Schlüssel für SIP-Verbindungen, da er wie eine Art Telefonbuch oder Datenback mit allenverfügbaren SIP-clients funktioniert. Es wird für SIP-Verbindungstests empfohlen sich seinen eigenen SIP registrar zu besorgen. Dafür gibt es verschiedene Modelle, z.B. von LANCOM den 1722 VoIP, mit dem bereits viele erfolgreiche Tests durchgeführt wurden. 34 5.2 Voraussetzungen für sonstige IP-basierte Verbindungen – Unicast versus Multicast Die IP Punkt-zu-Punktverbindungen werden Unicast genannt während man Multicast als Begriff für Punkt-zu-Mehrpunkt-Verbindungen verwendet. Unicast nutzt UDP und TCP Als Transportprotokoll. Bei der Verwendung von Audio Codecs, z.B. CENTAURI II können diese UDP Unicast Verbindungen uni- oder auch bidirektional sein. CENTAURI II TCP Verbindungen sind stets bi-direktional. Multicast verwendet UDP als Transportprotokoll. Multicast Übertragungen sind stets uni-direktional. Multicasting ist der richtige Weg zur Verbreitung von Multimediadaten zu den Empfängern, da diese sich jederzeit zu- oder abschalten können. Während Unicast für ein Kommunikationsmuster steht, welches Daten von einem zum anderen Teilnehmer schickt, bedeutet Broadcast der Versand von einem zu allen anderen innerhalb eines Netzwerks. Multicast hingegen bedeutet die Bereitstellung von Daten für eine sich ändernde Zahl an Teilnehmern, wobei diese Teilnehmer die Möglichkeit haben sich durch Versand einer speziellen Multicastadresse in eine bestehende Multicastverbindung zu schalten. Die Probleme mit Multicast entstehen bei der Wahl der Route vom Sender zum Empfänger. Während normales Radio oder Fernsehen einfach Signale ausstrahlt und diese abhängig von der Reichweite überall im Versorgungsgebiet empfangen werden können, gibt es im Internet einige Restriktionen, wie Bandbreite und Netzwerkauslastung. Ein richtiger Broadcast würde das Internet lahmlegen. Ein anderes Problem ist es, die Router entsprechend richtig über die Teilnehmer an einer Multicastverbindung zu informieren. Die Idee des Multicast ist es möglichst wenig Bandbreite zu verwenden und somit die Netzbelastung so gering als möglich zu halten. Anstelle Bandbreite 35 zu verbrauchen, wird das Signal nur an die Teilnehmer geschickt, die es auch tatsächlich hören bzw. sehen wollen, diese Teilnehmer dann auf dem effizientesten und kürzesten Weg zu erreichen. Der Sender verschickt das Signal nur einmal und es wird erst bei einem dem Empfänger nahen Router dupliziert. Das dafür verantwortliche Protokoll nennt sich IGMP (Internet Group Management Protocol), mit dem ein Teilnehmer mitteilt Mitglied einer Multicastgruppe werden zu wollen. Die Multicastgruppe ist eine Anzahl an Sendern/Empfängern, die bei deren Router für eine bestimmte Multicast-IP registriert sind. Es gibt einen bestimmten Adressbereich der sogenannten Class-D Adressen für Multicast. Die vier wichtigsten Bits der Class-D Adressen werden auf 1 1 1 0 gesetzt. Die folgenden 28-bit werden „multicast group ID“ genannt und gehen von 224.0.0.0 bis 239.255.255.255. 6 Typische IP oder gemischte IP/ISDN Anwendungen UMTS/3G/3.5G 2x Head2x phones Line Out MPEG-4 HE AACv2, 48 kbps */5&3/&5 SPORTY stereo analogue or digital AES/EBU CENTAURI II CENTAURI II 2x Mic 2x Line In CENTAURI II Request for Multicast Receiving Multicast Abb. 10 Sender Sender Sender Sender Sender Sender Sender Sender Sender Sender Sender Sender Sender Sender Sender Receiver Receiver Head- Line phones Out Sender Sender Sender Übertragung vom Reporter zu mehreren Studios mit IP Multicast über UMTS/3G Receiver Receiver Receiver WLAN Hotspot Receiver Eapt-X 192 kbps stereo analogue or digital AES/EBU */5&3/&5 CENTAURI II CENTAURI II FLASHMAN II Abb. 9 Jedes Multicast Datensignal wird durch eine Multicast group ID definiert. Falls ein Teilnehmer zum Senden/Empfangen bestimmter Daten einer bestimmten Multicastgruppe beitreten möchte, muß er den nächsten Router darüber informieren, und zwar durch Versant der bestimmten Multicast ID über ein IGMP-Telegramm. Diese ID wird dann von Router zu Router weitergereicht, um festzustellen, ob noch andere Multicastgruppenteilnehmer(s. Abb. 9: Request for Multicast) existieren. Natürlich kann derselbe Teilnehmer auch als Sender agieren. In diesem Fall wird der nächte Router die Daten an alle Teilnehmer der Multicastgruppe verschicken. 36 CENTAURI II 2x Mic Line In Abb. 11 Übertragung vom Reporter zu mehreren Studios mit IP Multicast über einen Hotspot/ WLAN Zugang 37 stereo digital AES/EBU IP MPEG 1/2, Layer 2 384 kbps CENTAURI II Backup Line Abb. 12 ganymed 1002 DAB/DRM FM/AM stereo digital AES/EBU ganymed 1002 Abb. 15 *1 stereo digital AES/EBU CENTAURI II CENTAURI II *4%/ #1 CENTAURI II SPORTY #2 *1 */5&3/&5 e.g. MPEG Layer 2 192 kbps SIP SIP SIP<->ISDN Gateway 2250 up to 8x 64 kbps e.g. MPEG-4 HE AACv2 64 kbps *4%/ CENTAURI II CENTAURI II Audio Codec #8 Audio CENTAURI II Abb. 16 5.1/7.1 Multichannel 4x AES/EBU Audio e.g. Layer 3, 128 kbps Audio Codec *4%/ 8 Audiokanäle werden im AES/EBU Transparent Modus über IP übertragen. Bitrate netto 12 Bit/s. 2 8 SIP<->ISDN Gateway 2250 SIP CENTAURI II 1 Multipoint SIP/ISDN Gateway Anwendung mit Audio kodierung Konvertierung e.g. Eapt-X 192 kbps 5.1/7.1 Multichannel 4x AES/EBU 38 CENTAURI II SIP *1 Abb. 14 #n Audio CENTAURI II Point-to-Multipoint Backup an bis zu 8 Gegenstellen mit einem CENTAURI mit integrierten 4 BRI Schnittstellen und HE AACv2 mit 64kbps stereo AES Transparent 12,288 mbps #2 SIP MPEG-4 HE AACv2, 64 kbps Backup Line #1 Multicast Anwendung, Senderzuführung an viele IP Decoder FLASHMAN II Abb. 13 ganymed 1002 *4%/ apt-X / Eapt-X up to 24 Bit/96 kHz, 448 kbps stereo digital AES/EBU *1 CENTAURI II Backup einer IP-via-Satellite-Strecke über ISDN mit automatischer Rückkehr zu IP CENTAURI II stereo digital AES/EBU CENTAURI II MPEG-4 HE AACv2 64 kbps stereo digital AES/EBU MPEG 2 AAC 128 kbps CENTAURI II Audio analogue or digital AES/EBU Abb. 17 ISDN/SIP Gateway Anwendung mit Audio Format Konvertierung 39 40 7 Referenzen 7.1 R. Wagner, „Das neue Verteilnetz von Telekom Austria und ORF“, FKT, Nr. 56, 7 / 2002, S. 387 – 390 7.2 G. Stoll, F. Kozamernik, “EBU subjective listening tests on low-bitrate audio codecs”, EBU, 2003 7.3 “Too many audio codecs”, Detlef Wiese, Tonmeistertagung, 2002 7.4 White Paper „Diskussion von Codierverfahren“, Detlef Wiese, 2002 7.5 White Paper “NAT Traversal for Multimedia over IP”, Newport Networks, 2005 7.6 White Paper „Understanding SIP“, D. Sisale, J. Kutan, GMD Fokus, 2000 7.7 CENTAURI II Handbuch, Werner Ludwig, 2006 Impressum Herausgeber: MAYAH Communications GmbH, Copyright 2007, Redaktion: Daniel Adasinsky Autoren: Hans-Heinrich Hansen, Christian Diehl, Uwe Andersen, Jan Simon, Werner Ludwig, Jörg Rimkus, Detlef Wiese 1. Auflage Flashman, Centauri, Mayah sind eingetragene Warenzeichen Layer 2 licensed from Audio MPEG, Coding Technologies Layer 3/mp3Pro licensed from Thomson/Fraunhofer Institute AAC / AAC HE licensed from VIA, Coding Technologies *working name of MPEG 4, implementation from Coding Technologies © Copyright MAYAH Communications GmbH, 2007. All rights reserved. CENTAURI®, FLASHMAN® and MAYAH are registered trademarks. Patents pending. Product information and technical specifications are subject to change without notice. Audio-via-IP Kompendium Audio-via-IP Grundlagen, Praxis und Anwendungen The MAYAH range – Professional Audio & Video Encoding/Decoding, Recording, Mixing and Transmission Products CENTAURI®II Multichannel Audio Gateway Codec Sporty Portable Reporter Codec MERK II Portable Audio Codec Mixer IO [io] Audio Video Encoder/Decoder ganymed IP Audio Encoder/Decoder Flashman II Portable Audio Recorder/Codec MAYAH Communications Am Soeldnermoos 17 85399 Hallbergmoos, Germany Tel.: +49 8115517-0, Fax: -55 E-Mail: info@mayah.com www.mayah.com AUDIOVIAIPEXPERTS AUDIOVIAIPEXPERTSGROUP GROUP