PDF-Version - Universität Osnabrück

Transcription

PDF-Version - Universität Osnabrück
Multimedia-Praktikum
Oliver Vornberger
Fachbereich Mathematik/Informatik
Universität Osnabrück
49069 Osnabrück
oliver@uos.de
In dieser Veranstaltung werden die grundlegenden Techniken zur Digitalisierung, Komprimierung und Manipulation von audiovisuellen Medien behandelt. Darauf aufbauend
werden Web-Publishing-Konzepte vorgestellt, mit denen diese Medien auf Webseiten
veröffentlicht werden können.
Die zum Betrachten der multimedialen Effekte erforderliche Software gibt es bei den
jeweiligen Herstellern und auch im Plugin-Verzeichnis der HTML-Version.
FlashPix
Flash
Midi
RealVideo
Quicktime
VRML
PDF
http://www.mgisoft.com
http://www.macromedia.com
http://www.liveupdate.com
http://www.real.com
http://www.apple.com
http://www.cai.com/cosmo
http://www.adobe.com
Downloadadressen der Hersteller
1 Zielsetzung
In dieser Veranstaltung sollen die Grundkenntnisse zu folgenden drei Bereichen vermittelt werden:
Digitalisierung und Komprimierung von audiovisuellen Medien
• Text
• Pixelgrafik
• 2D-Vektorgrafik
• 3D-Vektorgrafik
• Audio
• Video
Bearbeitung der Medien mit Software-Werkzeugen
• Adobe Photoshop (Pixeleditor)
• Macromedia Flash (2D-Vektorgrafik)
• Micrografx Simply 3D (3D-Vektorgrafik)
• Creative Wavestudio (Audiobearbeitung)
• Adobe Premiere (Videoschnitt)
• RealNetworks Realproducer (Streaming-Media-Konverter)
Publizieren der Medien im Internet
• Web-Server
• Web-Browser
• Hypertext Transfer Protokoll
• Hypertext Markup Language
2
2 Internet
2.1 Geschichte
Das Internet ist ein weltweiter Zusammenschluß von Computernetzen:
• 100 Länder sind beteiligt.
• 100.000 Netzwerke sind miteinander verbunden.
• 100.000.000 Nutzer wurden für 1998 geschätzt.
• 100 neue Nutzer kommen pro Minute hinzu.
Der Ursprung liegt in einem Ende der 60-er Jahre von der Advanced Research Projects Agency
geförderten Forschungsnetz des US-Verteidigungsministeriums. Ziel war es,nach einem Atomschlag
die Kommunikationsfähigkeit zwischen den amerikanischen Regierungsbehörden aufrechtzuhalten.
Daraus entstand das ARPANET, ein Netzwerk mit autonomen Knoten, Paketvermittlungen, Fehlertoleranz und alternativen Übertragungswegen.
Vernetzungsstruktur
2.2 Internetdienste
Unter Verwendung von TCP/IP (Transmission Control Protocol /Internet Protocol) stehen auf den im
Internet beteiligten Hosts verschiedene Dienste zur Verfügung, mit denen Klienten vom Server Daten
abrufen können. Zur eindeutigen Kennzeichnung verwendet man einen Uniform Resource Locator
(URL) mit folgendem Aufbau:
<Protokoll>://<Computername>:<Port>/<Verzeichnis>/<Dokument>.
Dienst
EMAIL
NEWS
FTP
TELNET
HTTP
Zweck
Nachricht verschicken
mit Newsgroup diskutieren
Dateien transferieren
mit Rechner verbinden
durch Hypertext navigieren
Beispiel-URL
mailto:oliver@uos.de
news://news.rrzn.uni-hannover.de
ftp://ftp.rz.uni-osnabrueck.de
telnet://draco.informatik.uni-osnabrueck.de
http://www-lehre.inf.uos.de/mmii/seite.html
Internetdienste
3
2.3 HTTP
Neben den rein textbasierten Protokollen email, news, ftp und telnet avancierte schließlich zum populärsten Dienst das Hypertext Transfer Protokoll (HTTP). Es wurde 1989 am CERN - European Laboratory for particle physics entwickelt und ist ein zustandsloses, verbindungsorientiertes Protokoll
für ein verteiltes Hypermedia-Informationssystem basierend auf dem Client/Server-Prinzip.
Nach Kontaktaufnahme mit dem Server verlangt der Klient mit der Methode GET eine bestimmte
Seite und teilt gleichzeitig mittels ACCEPT mit, welche Dateiformate er bereit ist, anzunehmen. Der
Inhalt der Seite wird mit der Hypertext Markup Language (HTML) formuliert.
2.4 HTML
Eine HTML-Seite besteht aus Content und Formatierungsanweisungen. Der Content besteht aus Text
und Verweisen auf Dateien mit multimedialen Komponenten wie Bild-, Audio- und Videodateien. Die
Formatierungsanweisungen sind in der Hypertext Markup Language formuliert.
<HTML>
<HEAD>
<TITLE>Beispiel fr eine einfache HTML-Seite</TITLE>
</HEAD>
<BODY BGCOLOR="silver">
<H1>Dies ist die berschrift </H1>
<P>Es gibt <B>Fettdruck</B> und <I>Kursivdruck</I>.
<P>Hier kommt eine Tabelle:
<TABLE CELLPADDING=5 BORDER=1>
<TR><TD>Autor</TD><TD>Titel</TD></TR>
<TR><TD>Karl May</TD><TD>Durch die Wste</TD></TR>
<TR><TD>Erika Mustermann</TD><TD>Tpfern in der Toskana</TD></TR>
<TR><TD>Willi Wacker</TD><TD>Selber Atmen</TD></TR>
</TABLE>
<CENTER> Dieser Satz wird zentriert.</CENTER>
<P>Hier geht’s zur <A HREF="http://www.uos.de">Homepage</A>der Uni.
</BODY>
</HTML>
Quelltext einer HTML-Seite
Die multimedialen Daten werden vom Server dem Klienten unter Nennung ihres MIME-Typen (MultiPurpose Internet Mail Extension) ankündigt. Verfügt der Browser über die geeigneten Plugins, so ist
er in der Lage, diese Inhalte zu visualisieren. In den folgenden Kapiteln sollen nun die wichtigsten
Formate zur Darstellung multimedialer Inhalte vorgestellt werden.
4
3 Text
3.1 Kodierung von Text
When in the Course of human events, it becomes necessary for one people to
dissolve the political bands which have connected them with another, and to
assume among the powers of the earth, the separate and equal station to
which the Laws of Nature and of Nature’s God entitle them, a decent respect
to the opinions of mankind requires that they should declare the causes
which impel them to the separation. We hold these truths to be self-evident,
that all men are created equal, that they are endowed by their Creator with
certain unalienable Rights, that among these are Life, Liberty and the
pursuit of Happiness. That to secure these rights, Governments are
instituted among Men, deriving their just powers from the consent of the
governed. That whenever any Form of Government becomes destructive of these
ends, it is the Right of the People to alter or to abolish it, and to
institute new Government, laying its foundation on such principles and
organizing its powers in such form, as to ...
Amerikanische Unabhängigkeitserklärung: 181 Worte, 1084 Zeichen, 1 KB
01010111 01101000 01100101 01101110 00100000 01101001 01101110 00100000
01110100 01101000 01100101 00100000 01000011 01101111 01110101 01110010
01110011 01100101
Binärdarstellung der Worte ’When in the Course’
3.2 Kompression von Text
Die wichtigsten Verfahren zur (verlustfreien) Kompression von Text lauten
• Run Length Encoding: mehrfaches Vorkommen desselben Zeichens wird durch Angabe der
Anzahl und des Zeichens kodiert.
• Huffman-Encoding: Selten vorkommene Zeichen werden mit viel Bits kodiert, häufig vorkommene Zeichen werden mit wenig Bits kodiert.
• LZW-Komprimierung: Mehrfach auftretende Teilstrings werden in einem Wörterbuch gespeichert und über einen Index referiert.
5
4 Pixelbilder
4.1 Grundlagen
- Millimeter ¾
- Mikrometer ¾
- Nanometer ¾
Hertz
108
109
1010
1011
1012
1013
1014
1015
1016
1017
1018
nm
109
UKW
108
107
106
104
105
Mikrowelle
103
Infrarot
102
101
100
Röntgen
ultraviolett
sichtbares Licht
3.8 · 1014
780
rot
cyan
grün
gelb
7.8 · 1014 Hertz
380 nm
magenta
blau
Farbspektrum
Wellenlänge · Frequenz = Lichtgeschwindigkeit (= 2.998 · 108 m/sec).
Farbspektrum := Verteilung der Wellenlängen
400
700
schwarz
400
700
weiß
Beispiele für Farbspektren
6
400
700
grün
RGB-Modell (additiv)
Jeder Farbpunkt wird durch ein RGB-Tripel beschrieben, welches den Rot-, Grün- und Blauanteil ausdrückt.
grün
(0, 1, 0)
gelb
(1, 1, 0)
cyan
weiß
(0, 1, 1)
(1, 1, 1)
schwarz
rot
(0, 0, 0)
(1, 0, 0)
blau
magenta
(0, 0, 1)
(1, 0, 1)
RGB-Würfel
Es gilt:
0, 0, 0
1, 0, 0
0, 1, 0
0, 0, 1
1, 1, 0
0, 1, 1
1, 0, 1
1, 1, 1
nichts
nur rot
nur grün
nur blau
rot und grün
grün und blau
rot und blau
rot und grün und blau
ergibt schwarz
ergibt rot
ergibt grün
ergibt blau
ergibt gelb
ergibt cyan
ergibt magenta
ergibt weiß
CMY-Modell (subtraktiv)
Bei Farbdrucken empfängt das Auge nur solche Anteile des weißen Lichts, die reflektiert
werden.
Die gedruckten Farben entziehen also dem weißen Licht gewisse Bestandteile. Es bietet sich
daher ein subtraktives Farbmodell an.
Ein CMY-Tripel beschreibt, wieviel von den Grundfarben Cyan, Magenta, Yellow reflektiert
bzw. von den Grundfarben Rot, Grün, Blau absorbiert wird.
Jeder Farbpunkt wird durch ein CMY-Tripel beschrieben, welches angibt, wieviel von den
Rot-, Grün- und Blau-Anteilen absorbiert wird (=wieviel von den Cyan-, Magenta- und
Yellow-Anteilen reflekiert wird).
7
magenta
(0, 1, 0)
blau
(1, 1, 0)
rot
(0, 1, 1)
schwarz
(1, 1, 1)
weiß
(0, 0, 0)
cyan
(1, 0, 0)
gelb
(0, 0, 1)
grün
(1, 0, 1)
CMY-Würfel
Es gilt
0, 0, 0
0, 0, 1
0, 1, 0
1, 0, 0
0, 1, 1
1, 0, 1
1, 1, 0
1, 1, 1
absorbiert nichts
absorbiert blau
absorbiert grün
absorbiert rot
absorbiert cyan
absorbiert violett
absorbiert gelb
absorbiert alles
(0, 1, 0) Magenta gemischt mit
(1, 0, 0) Cyan
gemischt mit
(1, 0, 0) Cyan
gemischt mit
bleibt weiß
bleibt gelb
bleibt magenta
bleibt cyan
bleibt rot
bleibt grün
bleibt blau
bleibt schwarz
(0, 0, 1) Gelb
ergibt (0, 1, 1) Rot
(0, 0, 1) Gelb
ergibt (1, 0, 1) Grün
(0, 1, 0) Magenta ergibt (1, 1, 0) Blau
Es gilt (R, G, B) = (1, 1, 1) − (C, M,Y ).
Speicherbedarf und Zahl der Farben Typischerweise wird zur Speicherung eines Farbanteils ein Byte (= 8 Bits) verwendet, für ein RGB-Tripel werden daher 3 Byte benötigt. Pro
Farbanteil gibt es 256 Helligkeitsstufen. Insgesamt gibt es 256 × 256 × 256 ≈ 16 Millionen
erschiedene Farbmöglichkeiten.
Auflösung
Die Auflösung gibt die Zahl der Pixel pro Längeneinheit an und wird gemessen in Dots per
Inch (dpi).
Scanner-Auflösung: Zahl der CCD-Elemente in einer Sensorzeile (z.B. 300 dpi)
Scan-Auflösung: Gewählte Auflösung beim Scanner
Bildauflösung: Zunächst Scan-Auflösung, später Mittelung oder Interpolation
Bildschirmauflösung: Pixel pro Zoll. Ein Computermonitor hat etwa 75 dpi.
Druckerauflösung: Zahl der Druckerpunkte, die der Druckkopf setzen kann. Bei 3 Grundfarben wird jedes Farbpixel durch eine Rasterzelle mit 16 x 16 Druckerpunkten dargestellt.
Druckauflösung: Druckerauflösung/Rasterzellengröße. 300 dpi-Inkjet liefert 300/16 =
18.75 dpi. 300 dpi Laserdrucker liefert 300 dpi.
8
Auflösung Kleinbild-Dia: Das Einscannen eines 36 x 24 mm Dias mit 2.500 dpi ergibt eine
Datei
mit Breite
3,6 cm / 2,54 cm * 2.500 = 3.543 Pixeln
mit Höhe
2,4 cm / 2,54 cm * 2.500 = 2.363 Pixeln
mit Platzbedarf 3.543 × 2.363 ≈ 25 MB
Mit einem 300 dpi-Laserdrucker entsteht daraus ein Abzug ...
... mit Breite 2.54 cm × 3.543/300 ≈ 30 cm
... mit Höhe 2.54 cm × 2.363/300 ≈ 20 cm
9
4.2 Adobe Photoshop
Programm zur Bearbeitung von Pixel-Dateien (Pixel-Editor)
• Erzeugen und Manipulieren von Liniengrafiken mit Malwerkzeugen
• Erzeugen und Manipulieren von Schrifteinblendungen
• Importieren von Pixel-Dateien verschiedener Formate
• Exportieren von Pixel-Dateien in verschiedene Formate
• vielfältige Selektionsmöglichkeiten der zu bearbeitenden Bildteile
• geometrische Transformationen und Verzerrungen
• Verpflanzung von Bildteilen durch Stempelwerkzeug
• Filteroperationen
• Kantendetektion
• Weich- und Scharfzeichner
• Farb-, Helligkeit- und Kontrastmanipulation
• Retusche durch Aufhellen, Abdunkeln, “Verschmieren”
• Wechsel der Farbtiefe
• Dithering
• Strukturierung des Bildes in Ebenen
• Strukturierung der Ebene in Kanäle
• Definition einer Auswahl durch eine Maske
• Definition einer Auswahl durch einen Pfad
10
Screenshot vom Bildbearbeitungswerkzeug Adobe Photoshop
11
4.3 GIF
Bei den auf WWW-Seiten verwendeten Grafikformaten nimmt GIF den Spitzenplatz in punkto
Häufigkeit ein. Insbesondere bei künstlich erzeugten Bildern mit einheitlich gefärbten Farbflächen
ist es an Kompaktheit nicht zu schlagen.
bauarbeiter.gif, Dateigröße: 2K
Die Einbettung des Bildes in eine Web-Seite geschieht unter Nennung des Dateinamens mit dem
sogenannten Image-Tag, wobei optional weitere Parameter angegeben werden können.
<HTML>
<HEAD>
<TITLE>Einbettung eines Bildes</TITLE>
</HEAD>
<BODY BGCOLOR="DDDDDD">
<CENTER>
<H1> Einbettung eines Bildes </H1>
<IMG SRC="bauarbeiter.gif"
WIDHT=100
HEIGHT=113
>
<P>Datei: bauarbeiter.gif, Gre: 13 K
</CENTER>
</BODY>
</HTML>
HTML-Seite mit Bild-Einbettung
Zwei Kompressionsideen tragen zur Datenreduktion bei:
Farbpalette: Statt in jedem Pixel das komplette RGB-Tripel mit 3 Byte = 24 Bit Farbinformation zu
speichern, werden für geeignetes p die 2 p wichtigsten Farben in einer Tabelle, genannt Farbpalette, gehalten und über einen p-Bit langen Index referiert. Für p = 8 schrumpft der Platzbedarf
daher auf ein Drittel.
LZW: Das von Lempel, Ziv und Welch entwickelte und als Patent geschützte Verfahren zur Kompression beliebiger Zeichenfolgen basiert auf der Idee, in einer sogenannten Präfix-Tabelle die
Anfangsstücke bereits gelesener Strings zu speichern und wiederholtes Auftauchen derselben
Strings durch Verweise in die Tabelle zu kodieren.
12
000
001
002
003
R
127
086
235
117
G
213
194
003
126
B
056
152
241
089
251
252
253
254
255
018
130
219
208
029
020
212
007
178
120
110
144
254
094
212
Color Table
Beide Ansätze zahlen sich insbesondere dann aus, wenn die Vorlage weite Bereiche mit identischer
Information enthält, wie es bei computergenerierten Grafiken, wie z.B. Logos, der Fall ist. Zum einen
enthält das Bild dann gar nicht die theoretisch verfügbare Zahl von 2563 ≈ 16 Millionen Farben,
sondern nur wenige Dutzend, und kann daher völlig verlustfrei durch eine Palette mit 256 Einträgen
dargestellt werden. Zum anderen führen Folgen von identischen Pixelindizes zu kompakten Einträgen
in der Präfixtabelle.
Bei der Umwandlung eines True-Color-Bildes in ein Palettenbild mit Hilfe eines Bildbearbeitungsprogramms gibt es zwei Ansätze: Standard oder individuell. Standard bedeutet die Verwendung einer
mit 216 repräsentativ gewählten Farben vorbesetzten Farbtabelle (z.B. vom Netscape-Browser). Diese
wird eventuell dem gegebenen Bild nicht optimal gerecht, aber die Auswirkungen bei der Präsentation
sind vorhersehbar. Individuell bedeutet, eine für die jeweilige Bildvorlage maßgeschneiderte Farbpalette zu vorgegebener Farbzahl 2 p zu konstruieren. Hierzu werden im Median-Cut-Algorithmus die
beobachteten Farbhäufigkeiten im RGB-Würfel angeordnet und dieser dann längs eines orthogonal
verlaufenden Schnittes (Median) in zwei Subwürfel geteilt (Cut), mit etwa gleichmächtiger Pixelzahl.
Diese Partitionierung wird solange fortgeführt, bis 2 p Würfel entstanden sind, die dann jeweils durch
einen Index der Farbpalette repräsentiert werden.
Durch ein sogenanntes Floyd-Steinberg-Dithering kann die ohnehin kaum wahrnehmbare Differenz
zum Originalbild weiter reduziert werden. Hierzu wird der beim Quantisieren längs einer Scanline
verursachte Fehler (d.h. die Differenz zwischen wahrem und approximiertem Farbwert) den nachfolgenden Pixeln vor ihrer Quantisierung zugeschlagen, so daß auf größere Flächen bezogen die Summe
der konstruierten Farbwerte mit dem Ausgangsmaterial übereinstimmt. GIF ist streamingfähig; durch
ein sogenanntes Interlacing wird zunächst nur jede 8. Zeile übertragen und danach jeweils die mittlere
Zeile der verbleibenden Lücken.
13
Folgende Bilder zeigen Original und quantisierte Versionen einer 14×14 Ausschnittvergrößerung, erstellt von einem 814×517 True-Color-Bild. Die Zahl der Farben bezieht sich jeweils auf das Gesamtbild. Verwendet wurde der Median-Cut-Algorithmus mit anschließendem Floyd-Steinberg-Dithering.
24 Bit pro Pixel,
16 Mill. Farben
8 Bit pro Pixel,
256 Farben
4 Bit pro Pixel,
16 Farben
2 Bit pro Pixel,
4 Farben
Das GIF-Format erlaubt auch die Abspeicherung mehrerer Bilder in einer Datei, welche zudem mit
Timing-Information versehen werden können (animated GIF). Hierdurch ist die Erstellung einfacher
Animationen möglich, bei denen wenige kleine Grafiken in schneller Abfolge die Illusion eines Films
verursachen.
14
4.4 JPG
Wie soeben erläutert, liegen die Stärken von GIF in der Wiedergabe von computergenerierten gleichfarbigen Flächen. Geht es dagegen um die Reproduktion einer fotorealistischen Vorlage, reichen 256
Tabelleneinträge oft nicht aus, sanfte Farbverläufe zu beschreiben. Hier kommt JPEG zu Hilfe, ein
Verfahren benannt nach der Gruppe, die es entwickelt hat, der Joint Photographic Expert Group,
Mitglieder der Standardisierungsgremien CCITT und ISO.
Zunächst wird das RGB-Bild in den YUV-Raum transformiert, d.h. die Farbinformation wird verlustfrei durch einen Helligkeitsanteil Y und zwei Farbdifferenzen U und V kodiert. Da das Auge für
Helligkeitssprünge sensitiver ist als für Farbdifferenzen, kann man nun die Y -Matrix in der vollen
Auflösung belassen und in den U, V -Matrizen jeweils 4 Pixel mitteln (4:1:1 Subsampling).
Für je 4 Originalpixel mit insgesamt 12 Bytes werden nun 4 + 1 + 1 = 6 Bytes benötigt (pro Bildpunkt
also 6 · 8/4 = 12 Bit). Die Reduktion beträgt 50 %.
Nun werden die drei Matrizen in Blöcke mit 8×8 Abtastwerten aufgeteilt. Anschließend durchlaufen
die Blöcke folgende Schritte:
Diskrete Cosinus Transformation: Hierdurch wird die 8×8 Ortsmatrix verlustfrei in eine 8×8 Frequenzmatrix umgewandelt. Die Helligkeitsinformation einer Fläche ist nun kodiert als Überlagerung von 64 zweidimensionalen Schwingungen.
Quantisierung: Die errechnete Matrix hat längs einer im Zickzack laufenden Scanline von links
oben nach rechts unten Werte abnehmender Größe. Da die Werte rechts unten den hohen, für
das menschliche Auge eher unwichtigen Frequenzen entsprechen, werden alle Einträge längs
dieser Scanline durch Faktoren zunehmender Größe dividiert.
Komprimierung: Die Folge der quantisierten Koeffizienten wird einer Lauflängenkomprimierung
unterzogen und anschließend durch eine empirisch ermittelte Huffman-Tabelle kodiert.
Um aus dem komprimierten Bild das Original zu rekonstruieren, werden die Schritte in umgekehrter
Reihenfolge und inverser Funktionalität durchlaufen. Die nächsten beiden Bilder zeigen die Auswirkungen der drei Phasen angewendet auf eine 8×8 Grauwertmatrix.
Ausgangsbildmatrix
rekonstruierte Bildmatrix
Durch die Wahl der Rundungstabelle läßt sich der Tradeoff zwischen Qualität und Kompression beliebig steuern. Ein typisches Farbbild läßt sich auf etwa 5% seiner Originalgröße reduzieren, ohne
15
daß ein menschlicher Betrachter die Detailfehler bemerken könnte. Bei 2% und weniger entstehen
deutlich sichtbare Artefakte in Form von einfarbig gefärbten Klötzchen.
Dateigröße: 7,3 KB
Kompression 22:1
Dateigröße 2,5 KB
Kompression 65:1
JPEG-Kompression eines 200 × 279 True-Color-Bildes,
unkomprimierter Speicherbedarf: 163 KB
16
4.5 FlashPix
Gesamtansicht
JPEG-Ausschnitt
FlashPix-Ausschnitt
Auswirkung der FlashPix-Technologie in einem Online-Shop
Um beim Web-Browser eine gewisse Zoomfähigkeit bei Pixelbildern zu erreichen, wurde das Format
FlashPix entworfen. Die Idee geht zurück auf eine gemeinsame Anstrengung der Firmen Kodak, Microsoft und Hewlett Packard bei der Suche nach einem neuen Bildformat und ist recht einfach: Das
im Web-Browser zu präsentierende Bild wird in mehrfachen Versionen unterschiedlicher Auflösung
auf dem Server gehalten und jeweils der vom Klienten angeforderte Teil in passender Größe übertragen. Typischer Einsatzbereich sind Online Shops, die ihr Warenangebot auf Web-Seiten in einer
Weise präsentieren wollen, daß der Kunde ausgehend von einer Totalansicht des Objekts fast beliebig
nah heranzoomen und somit alle Details inspizieren kann. Wegen der Verfügbarkeit der abzubildenden Waren für den Shop-Anbieter ist auch die Gelegenheit für die Erstellung hochauflösender Bilder
durch die Verwendung einer professioneller Kameraausrüstung gegeben.
In der einfachsten Form erfordert dies beim Klienten keine weiteren Vorkehrungen, da der LivePicture
Image Server den angeforderten Bildteil als JPEG-Bild liefert. Welcher Teil eines bereits im Browser
geladenen Bildes in erhöhter Auflösung angefordert wird, kann durch die Koordinaten des Mausklicks
bestimmt werden. Auf diese Weise führt der Betrachter einen Zoomvorgang aus, der ohne die übliche Rasterung abläuft. Daß auf dem Server ggf. große Datenmengen vorgehalten werden müssen,
kümmert den Klienten wenig; er profitiert vielmehr von kurzen Kommunikationszeiten, da immer nur
der Teil übertragen wird, den er benötigt.
Die komfortablere Version von FlashPix verwendet ein Plugin oder setzt einen Java-fähigen Browser
voraus, der ein leichtgewichtiges Applet vorweggeschickt bekommt. Vorteil dieser beiden Ansätze
ist eine höhere Funktionalität beim Betrachten der Bilder wie z.B. Vor- und Zurückzoomen sowie
Verschieben des Betrachterausschnitts.
Neben der multiplen Auflösung, die ja bereits auf der Kodak Foto CD Verwendung fand, gehören
folgende Features zum FlashPix-Format:
Kompression: Für jede Auflösungsstufe wird das Bild nach dem JPEG-Verfahren kodiert. Es besteht
auch die Möglichkeit, ohne Kompression zu speichern.
Text: Textuelle Zusatzinformation kann gespeichert werden. Diese Daten sind strukturiert anhand der
Schlüssel, wie z.B: Quelle, Urheber, Inhalt, Kameraeinstellungen, Filmcharakteristika, Scancharakteristika.
17
Farbräume: Neben unkalibrierten RGB-Werten gibt es monochrom und Photo YCC
Transformation: FlashPix-Bilder halten neben den Rohdaten einige wenige Filter- und Transformationsmatritzen vor, die jeweils nur auf den zur Zeit sichtbaren Teil angewendet werden müssen.
Beispiele sind Translation, Rotation, Skalierung, Schärfe, Kontrast, Helligkeit und Farbbalance. Hierdurch reduziert sich der Hauptspeicherbedarf eines Bildverarbeitungsprogramms und
gleichzeitig erhöht sich seine Bearbeitungsgeschwindigkeit, da die Masse der Bilddaten unbearbeitet auf der Platte verbleiben können.
Vorlage für 360-Grad-Projektion (Kreißsaal des Marienhospitals Osnabrück)
LivePicture eröffnet mit seinem FlashPix-Plugin auch die Möglichkeit zum interaktiven Betrachten
von 360-Grad Panoramen. Bei der Herstellung solcher Bilder ist der Ausgangspunkt eine Folge von
Einzelschnappschüssen, die mit einer konventionellen Kamera im Kreis erstellt wurden. Nach dem
Digitalisieren werden mit dem Werkzeug LivePicture PhotoVista die Aufnahmen, unter automatischer Berücksichtigung der überlappenden Bereiche, zu einem länglichen Schlauch im JPEG-Format
zusammengeschweißt. Vorteil der Verwendung dieses gängigen Bildformats ist natürlich die Möglichkeit, mit jeder Bildverarbeitungssoftware weitere Manipulationen an dem Rundblick durchführen zu
können.
PhotoVista erzeugt neben dem JPEG-Bild noch eine gleichnamige Datei mit der Endung ivr. Die
dort gespeicherte Information benutzt das Plugin zur perspektivisch richtigen Umrechnung des JPEGBildes in ein interaktiv drehbares Panorama. Als multimediale Zugabe können der Datei noch Klanginformation und Animationen beigefügt werden.
18
4.6 Morphing
• gleichförmige Transformation eines Quell-Bildes in ein Ziel-Bild.
• Definition von korrespondierenden Punkten in Quelle und Ziel.
• Quell-Pixel wandern zu Ziel-Pixel unter gleichzeitiger Farbanpassung.
Screenshot vom Morph-Editor Ulead Morph Studio
Morphresultat: Professor Treiffen
19
4.7 Java-Applets
Bildmanipulationen durch Java-Applets bietet die Seite http://www.anfyteam.com
20
5 2D-Vektor-Grafik
5.1 Grundlagen
Dateien mit 2D-Vektor-Grafiken beschreiben ein 2-dimensionales Bild durch Angabe von x/yKoordinaten und geometrischen Attributen (Strichstärke, Farbe, Füllmodus, Transparenz). Der zugehörige Player rendert aus diesen Angaben ein Pixelbild.
Algorithmus zum Zeichnen einer Linie:
void bresenham_linie(Point p, Point q)
/* zeichnet Linie von Punkt p zu Punkt q im 1. Oktanden */
{
int dx, dy, error, delta, schwelle;
dx
= q.x - p.x;
dy
= q.y - p.y;
error
= -dx;
delta
= 2*dy;
schwelle = -2*dx;
while (p.x <= q.x) {
set_pixel(p);
p.x++;
error += delta;
if (error > 0) { p.y++; error += schwelle; }
}
}
Vom Bresenham-Algorithmus erzeugte Linien
Durch Antialiasing (angepasste Grauwerte in der Umgebung) kann der Pixelverlauf geglättet werden.
21
Algorithmus zum Zeichnen eines Kreises
void bresenham_kreis (int r)
/* zeichnet Kreis um Punkt 0,0 mit Radius r */
{
int x, y, d, dx, dxy;
x=0; y=r; d=1-r;
dx=3; dxy=-2*r+5;
while (y>=x) {
set_pixel (new Point(x,y));
if (d < 0) { d += dx; dx += 2; dxy += 2; x++;
}
else { d += dxy; dx += 2; dxy += 4; x++; y--; }
}
}
Vom Bresenham-Algorithmus erzeugte Kreise
22
5.2 Macromedia Flash
• Werkzeug zum Editieren und Animieren von zweidimensionalen Vektorgrafiken.
• Durch kompaktes Speicherformat geeignet für plakative, animierte Grafiken im Internet.
Screenshot vom Vektorgrafikwerkzeug Macromedia Flash
23
Gesamtansicht des Stadtplans
Teilansicht des Stadtplans
Rasterfreies Zoomen bei Dateien im Flash-Format durch Vektorgrafik
<HTML>
<HEAD>
<TITLE>Macromedia Flash</TITLE>
</HEAD>
<BODY BGCOLOR="f9d1a1">
<CENTER>
<H1>Eingebetteter Flash-Film</H1>
<EMBED
src="vogel.swf"
width=700
height=200
Loop="True"
Play="True"
BGColor="f9d1a1"
Quality="Autohigh"
Scale="showall"
SAlign=""
>
<P>Dateiname: vogel.swf, Gre: 6 K
</CENTER>
</BODY>
</HTML>
HTML-Seite mit Flash-Einbettung
24
6 3D-Vektor-Grafik
6.1 Grundlagen
Dateien mit 3D-Vektor-Grafiken enthalten Angaben zu 3-dimensionalen Szenen inkl. synthetischer
Kamera und Beleuchtung. Der zugehörige Player rendert daraus eine photorealistische Darstellung.
Typische Einsatzgebiete:
• CAD (Architektur & Maschinenbau)
• Visualisierung (von Messergebnissen)
• Simulation (Physik/Chemie/Biologie)
• Unterhaltung (Virtual Reality)
Repräsentation
• Approximiere Körper durch Polyeder
• Speichere Polyeder als Liste von Polygonen
P4
h12
h11
F3
h10
P2
P3
h2
F1
h9
h7
h1
h3
F4
P4
h8
h5
h4
F2
P1
h6
Tetraeder mit 4 Knoten, 12 Halbknoten, 4 Flächen
25
P4
Die synthetische Kamera wird beschrieben
• Bildebene (Vektoren U,V )
• Eckpunkte des Fensters (xmin , ymin , xmax , ymax )
• Blickrichtung (Vektor N)
• Entfernung des Augenpunktes (d)
(xmax , ymax )
V
U
d
Auge
(xmin , ymin )
26
N
6.2 Projektion
Gegeben sind
• das zu projizierende Objekt mit den Koordinaten (x, y, z)
• die Bildebene = x − −y - Ebene
• das Projektionszentrum (Augenpunkt) bei (0, 0, −a)
P = (x, y, z)
y
x
z
P’
}y’
x’
(0, 0, 0)
(0, 0, −a)
z
z
x
P
y
z
P
z
−x
x’
P’
x
−y
a
y’
y
P’
a
−z
−z
x0 :=
x
1 + z/a
y0 :=
y
1 + z/a
Jedes Objekt ist beschrieben durch seine Modellkoordinaten.
Seine Orientierung in der Szene wird beschrieben durch eine Transformationsmatrix mit akkumulierten Schiebe-, Dreh- und Skalier-Anteilen.
27
6.3 Caligary trueSpace
Werkzeug zum Modellieren, Rendern und Animieren von 3D-Objekten.
3D-Editor unter Verwendung von
• hierarchischer Objektstruktur,
• Polygonvereinigung, -schnitt, -komplement,
• Translation, Skalierung, Rotation,
• Extrusion,
• Verformung,
• Drehkörpern,
• Kurven.
Projektion und Rendern unter Berücksichtigung von
• Lichtquellen,
• Kamerastandpunkten,
• Spiegelung, Transparenz, Lichtbrechung,
• Texture Mapping, Bump Mapping.
Animation durch
• Keyframes,
• Pfade.
Ausgabe als
• Bitmapdateien,
• VRML-Welten,
• AVI-Files.
28
Szene mit 5 Objekten, berechnet mit Raytracer unter Verwendung von
Reflektion, Transparenz, Texture-Mapping, Bump-Mapping, Hintergrund-Mapping
Screenshot vom 3D-Werkzeug Caligary trueSpace
29
6.4 VRML
VRML, sprich Wörmel, ist eine für das WWW entworfene Virtual Reality Modelling Language zur
Beschreibung von 3-dimensionalen Szenen mit multimedialen Komponenten und Animation. Analog zum 2D-Vektorformat Flash gelangen Szenen nicht durch Einscannen in den Rechner, sondern
durch eine geometrische Beschreibung aller räumlichen 3D-Koordinaten. Die gerenderte Projektion
der Szene kann von jedem Web-Browser geliefert werden, der über ein passendes Plugin verfügt.
VRML-Szenen werden beschrieben in ASCII-Dateien mit der Endung *.wrl, welche innerhalb einer
HTML-Seite mit dem EMBED-Kommando referiert werden, z.B.
<EMBED SRC=quader.wrl WIDTH=400 HEIGTH=300>
Ein entsprechend konfigurierter Web-Server schickt dem anfordernden Klienten als Vorspann dieser
Daten den Mime-Typ VRML, worauf das zur Betrachtung installierte Plugin, z.B. Cosmo Player 2.0
von Silicon Graphics, die eingehenden Daten in eine interne Datenstruktur einliest, von wo sie zur
Berechnung einer fotorealistischen Projektion verwendet werden. In welcher Weise Blickwinkel und
Orientierung in der Szene modifiziert werden können, bleibt dem Plugin überlassen: Mit Mauszeiger
und Keyboard Shortcuts wandert der Benutzer durch eine virtuelle Welt, verkörpert im wahrsten Sinne
des Wortes durch einen Avatar, seiner geometrischen Repräsentation, beschränkt in seiner Beweglichkeit durch physikalische Restriktionen und durch eine simulierte Schwerkraft.
Wichtigster Bestandteil von VRML-Szenen ist der sogenannte Knoten, der wie ein Programmiersprachenrecord aus Feldern verschiedenen Typs besteht. Diese Felder verweisen entweder auf nicht weiter
strukturierte Objektknoten oder andere Gruppenknoten, die wiederum mittels ihrer Felder verzweigen
können.
Es folgt eine einfache VRML-Szene, in der ein Quader mit Kantenlänge 2 im Ursprung des Weltkoordinatensystems plaziert wird. Die x-Richtung entspricht der horizontalen Bewegung, y beschreibt die
vertikale Richtung und z wächst auf den Betrachter zu. Der Box-Knoten hat dabei als einziges (optionales) Feld die Kantenlänge. Dieser Quader wird referiert über das geometry-Feld des Shape-Knotens,
zuständig für die Gestaltung eines Objekts. Über das appearance-Feld wird die Materialbeschaffenheit in Form einer RGB-Farbe und eines Transparenz-Koeffizienten spezifiziert. Der Shape-Knoten
wiederum ist als eins der Kinder im Transform-Knoten eingetragen, der über ein translation-Feld für
die Verschiebung des Quaders sorgt.
Screenshot vom VRML-Würfel
30
7 Audio
7.1 Grundlagen
Amplitude
Zeit
Periodische Luftdruckschwankung erzeugt Ton:
• Frequenz bestimmt die Höhe.
• Amplitude bestimmt die Lautstärke.
• Schwingungsform bestimmt den Klang.
Der hörbare Bereich liegt zwischen 20 Hz und 20 KHz.
Der ertragbare Bereich liegt zwischen 0 und 130 dB.
31
Schallintensität
=
Leistung pro Fläche
notiert in (Watt/m2 ).
Schallpegel
=
10facher dekadischer Logarithmus
vom Verhältnis zweier Schallintensitäten
notiert in db, dezibel.
10−12
0
Hörschwelle
10−11
10
ruhiges Aufnahmestudio
10−10
20
ruhiger Wohnraum
10−9
30
ruhiges Büro
10−8
40
10−7
50
10−6
60
10−5
70
10−4
80
10−3
90
10−2
100
10−1
110
100
120
101
130
102
140
103
150
104
160
gedämpfte Unterhaltung
normales Büro
normale Unterhaltung
kleines Orchester
Geschäftsstraße
normale Fabrik
Schwerlasttransport
U-Bahn
laute Rockmusik
Donner
Flugzeug, Stadtbahn
Dampfhammer
Schmerzgrenze
Flugzeugturbine in
abgeschlossenen Räumen
Typische Lautstärkepegel, angegeben in Watt pro m2 und in dezibel
32
Digitalisierung
PCM = Pulse Code Modulation:
kontinuierlich analoges
Signal
Abtastung
diskontinuierliche Folge
analoger Werte
Quantisierung
diskontinuierliche Folge
diskreter Werte
digitale Darstellung
11110
01000 00110 00000
11111
00010 00101
00001 11110
33
Folge digitaler Werte
als Ergebnis der Digitalisierung
(in Zweierkomplement−Darstellung)
Anforderungen an die Digitalisierung:
• Abtastfrequenz muss mindestens doppelt so groß sein wie die höchste vorkommende Frequenz.
Aliasing-Effekt bei Verwendung von 8/7 der Originalfrequenz
• Da der hörbare Bereich sich bis 20 KHz erstreckt, ist eine Abtastfrequenz von mind. 40 KHz
erforderlich.
• Etwa 6 dB entsprechen einem Verdoppeln der Amplitude
16 Bit können 16 · 6 = 96 dB abdecken.
Eine Single-Speed Audio-CD verwendet 44.100 Hz in Stereo
⇒ 2 × 16 × 44.100 = 1.34 MBit/sec
Telefon (Frequenzbereich 200 - 3200 Hz) verwendet 8.000 Hz in Mono
⇒ 8 × 8.000 = 62.5 KBit/sec
34
7.2 Creative WaveStudio
Werkzeug zur Aufnahme, Manipulation und Wiedergabe von Audiodaten.
• Digitalisierung eines analogen Audiosignals,
• verschiedene Samplingfrequenzen,
• verschiedene Quantisierungsauflösungen,
• Mono/Stereo-Wahl,
• Ein- und Ausblenden,
• Invertieren,
• Echoeffekte,
• Mischen von Audioquellen.
Windows Audiorecorder
<HTML>
<HEAD>
<TITLE>Wave-Datei</TITLE>
</HEAD>
<BODY BGCOLOR="DDDDDD">
<CENTER>
<H1>Eingebettete Wave-Datei</H1>
<EMBED
SRC="toccata.wav"
WIDTH=150
HEIGHT=40
AUTOSTART=FALSE
>
<P>
Dateiname: toccata.wav, Dauer: 4 Sekunden, Gre: 625 KByte
</CENTER>
</BODY>
</HTML>
HTML-Datei mit Wave-Einbettung
35
7.3 mp3
Ziel: CD-Tonqualität bei Datenrate von 2 × 64 KBit/sec.
Dies entspricht einer Reduktion um den Faktor 1.378/128 ≈10.
Konzepte von mp3 (Audio Layer III von mpeg-2):
• Fouriertransformation der PCM-Abtastwerte
• Spektralanalyse der Frequenzverteilung
• Partitionierung in 32 Subbänder à 20000/32 = 625 Hertz.
• Berücksichtigung eines psychoakustischen Modells
• Ausnutzung eines Maskierungseffekts durch gegenseitige Überlagerung
• Lauflängenkodierung und Huffman-Kodierung
Streaming Audio vom Server gabriel.informatik.uni-osmanrueck.de (40 KBit/sec)
WinAmp-Player zum Abspielen von mp3-Dateien
36
7.4 RealAudio
<HTML>
<HEAD>
<TITLE>RealAudio</TITLE>
</HEAD>
<BODY BGCOLOR="silver">
<center>
<H1>Audio on Demand mit 40 KBit-Verbindung</H1>
<EMBED
SRC="rtsp://vs1.rz.uni-osnabrueck.de/public/mmp/mmp2004/oliver/geh-du-mal-ran-40.rm"
type="audio/x-pn-realaudio-plugin"
CONSOLE="Clip1"
CONTROLS="All"
HEIGHT=120
WIDTH=320
AUTOSTART=false
>
</center>
</BODY>
</HTML>
HTML-Seite mit RealAudio-Einbettung über EMBED-Tag
37
<HTML>
<HEAD>
<TITLE>RealAudio</TITLE>
</HEAD>
<BODY BGCOLOR="silver">
<center>
<H1>Audio on Demand mit 40 KBit-Verbindung</H1>
<OBJECT
CLASSID="clsid:CFCDAA03-8BE4-11cf-B84B-0020AFBBCCFA"
WIDTH ="320"
HEIGHT ="120">
<PARAM NAME="controls" VALUE="All">
<PARAM NAME="console"
VALUE="lied">
<PARAM NAME="autostart" VALUE="false">
<PARAM NAME="src" VALUE="rtsp://vs1.rz.uni-osnabrueck.de/public/mmp/mmp2004/oliver/geh-du-mal
<EMBED
SRC
= "rtsp://vs1.rz.uni-osnabrueck.de/public/mmp/mmp2004/oliver/geh-du-mal-ran-40.rm
TYPE
= "audio/x-pn-realaudio-plugin"
CONSOLE
= "lied"
CONTROLS = "ALL"
WIDTH
= "320"
HEIGHT
= "120"
AUTOSTART = "false">
</EMBED>
</OBJECT>
</center>
</BODY>
</HTML>
HTML-Seite mit RealAudio-Einbettung über OBJECT-EMBED-Tag
URL für eingebetteten RealPlayer: rtsp://vs1.rz.uni-osnabrueck.de/public/mmp/mmp2004/olive
URL für Popup-Player:
http://vs1.rz.uni-osnabrueck.de:554/ramgen/public/mmp/mmp2004/oliver/stenkelfel
Streaming Audio vom RealServer gabriel.informatik.uni-osnabrueck.de
38
7.5 Midi
Durch die Digitalisierung von Klanginformationen entstehen sehr umfangreiche Dateien, wenn die
für HiFi-Qualität erforderlichen Abtastfrequenzen von 44 Kilohertz bei 16-Bit Auflösung verwendet
werden: Pro Minute werden etwa 10 MByte benötigt. Dieser Vorgang entspricht dem Einscannen
einer Bildvorlage. Analog zur Vektorgraphik läßt sich die Klanginformation wesentlich kompakter
speichern, wenn die Soundinformation nicht gesampelt werden muß, sondern im Computer entstehen kann. Hierzu ist eine Notation erforderlich, welche im wesentlichen den Verlauf jeder einzelnen
Melodiestimme durch eine Sequenz von Ereignissen kodiert.
Die beiden nächsten Bilder zeigen beispielhaft, wie aus einer konventionellen Notenschrift eine Befehlsfolge entstanden ist, welche für jeden Schlag eines jeden Taktes unter Angabe des Zeitpunktes in
Millisekunden die Notendauer, die Notenhöhe und die Anschlagstärke angibt.
Kodierung von Musik durch Notenhöhe, Notendauer und Anschlagstärke
Die zu diesem Zweck entworfene Sprache MIDI (Musical Instrument Digital Interface) entstand 1982
als Ergebnis einer Kooperation der Gerätehersteller Sequential Circuits, Roland, Yamaha, Kory und
Kawaii und war ursprünglich konzipiert als Kommunikationssystem zur Ansteuerung elektronischer
Musikinstrumente. Mit der Verbreitung von Personal-Computern kamen weitere Komponenten hinzu
(1987 Midi Time Code, 1988 Midi Files). Inzwischen ist General Midi ein weitverbreiteter Standard
zur Spezifikation, Manipulation, Übertragung und Speicherung von elektronisch erzeugter Musik. In
Kombination mit einem PC reicht ein sogenanntes Masterkeyboard, welches über ein 5-poliges Kabel
die Beschreibung des Musikstückes an die Soundkarte schickt, wo sie dann von einem Synthesizer,
ggf. mit Unterstützung von digital abgelegten Klangsamples, in Töne umgesetzt wird.
Midinachrichten sind Byte-orientiert und werden über eine serielle Schnittstelle mit 31250 Baud übertragen.
Es wird unterschieden zwischen Status-Bytes und Datenbytes.
Status-Bytes beginnen mit einer 1, und enthalten vier Kanalbits, mit denen 16 angeschlossene Instrumente assoziert werden sowie drei Befehlbits, mit denen die in folgender Tabelle gezeigten acht
Aktionen angekündigt werden können.
39
000
001
010
011
100
101
110
111
Note off
Note on
Polyphonic Aftertouch
Control Change
Program Change
Channel Aftertouch
Pitch Bend
Systembefehl
schaltet Ton aus
schaltet Ton an
Anschlagdruck für eine Taste
Realzeitmeldung, z.B. Lautstärke
Instrument/Klangfarbe
Anschlagdruck für alle Tasten
Auslenkung Tonhöhenrad
z.B. zur Synchronisation
Befehle im Statusbyte
Einem Statusbyte folgen ggf. mehrere Datenbytes. Z.B. gehören zum Note-On -Befehl zwei Parameter: Notennummer und Anschlaggeschwindigkeit. Mit 128 Werten können mehr als 10 Oktaven
abgedeckt werden, eine Klaviertastatur mit 88 Tasten von Subkontra A bis zum fünfgestrichenen C
belegt das Intervall 33 bis 120. Zum Note-Off -Befehl gehören wiederum Notennummer und Loslaßgeschwindigkeit.
Um den zeitlichen Aspekt beim Abspielen einer Midi-Datei zu rekonstruieren, wird die Zeitachse zu
sogenannten Tics diskretisiert. Z.B. beträgt beim Sequenzer Cubasis die zeitliche Auflösung 384 Tics
pro Viertelnote. Beim Abspeichern einer Notensequenz werden die Intervalle zwischen den Events
als sogenannte Delta Times abgespeichert. Hierzu werden bis zu 4 Bytes verwendet.
<HTML>
<HEAD> <TITLE>Midi</TITLE> </HEAD>
<BODY BGCOLOR="#DDDDDD">
<CENTER>
<H1>Midi</H1>
<EMBED
SRC="i-left-my-heart-in-san-francisco.mid"
HEIGHT=45
WIDTH=300
AUTOSTART=FALSE
>
<P> Dateiname: i-left-my-heart-in-san-francisco.mid, <BR>
Gre: 29 KB, Dauer: 2:47 min
</CENTER>
</BODY>
</HTML>
HTML-Seite mit eingebetter Midi-Datei
40
8 Video
8.1 Grundlagen
Aufnahme
• CCD-Kamera (Charge Coupled Device)
• Linsensystem
• Speicherzellen mit Photodiode und Kondensator
• zyklisches Auslesen der Zellen
Wiedergabe
• luftleer gepumpter Glaskolben (Bildröhre)
• Phosphorschicht
• durch Magnetspule abgelenkter Elektronenstrahl
Formate
PAL
NTSC
HDTV
Kino
Super-8
768
640
2000
36
6
× 576
× 480
× 1250
× 24 mm Zelluloid
× 4 mm Zelluloid
25.00 Hz (Halbbilder)
29.97 Hz (Halbbilder)
50.00 Hz (Halbbilder)
24 Hz
18 Hz
Aufnahmesignal
Spule
Magnetkern
Magnetschicht
magnetisches Moment
Prinzip der magnetischen Speicherung eines Signals
41
VHS (Video Home System)
• analoge Speicherung auf Magnetband
• Breite: 1/2 Zoll
• Geschwindigkeit: 2.4 cm/sec
• rotierende Videoköpfe
• Bild- und Toninformation in Schrägspur
• 250 Linien
• zusätzlich Ton in Randspur
L"angsspur: Ton
Schr"agspur: Bild + Ton
VHS-Aufzeichnung
Mini-DV
• Digitale Speicherung auf Magnetband
• 500 Zeilen
• 16-Bit-PCM-Ton
• Firewire-Kabel für Bild, Ton & Steuerung
42
Synchronspur
12.7 mm
8.2 AVI & Quicktime
Microsoft AVI (Audio/Video-Interleaved) und Apple Quicktime sind Dateiformate zum Speichern
und Synchronisieren von Video- und Audioinformationen.
Gängiges Format zum Abspielen von CD-ROM:
• 240 × 180 Pixel
• 15 Bilder/sec
• software-komprimiert
<HTML>
<HEAD>
<TITLE>Quicktime</TITLE>
</HEAD>
<BODY BGCOLOR="DDDDDD">
<CENTER>
<H1>Eingebetteter Quicktime-Film</H1>
<EMBED
SRC="morphing.mov"
WIDTH=240
HEIGHT=196
AUTOSTART=FALSE
LOOP=TRUE
>
<P>Dateiname: morphing.mov, Dauer: 8 Sekunden, Gre: 1 MB
</CENTER>
</BODY>
</HTML>
HTML-Seite mit eingebettetem Quicktime-Film
Quicktime-Film
8 sec, 240 x 180 Pixel, 1.0 MB
43
8.3 Fast AV Master
Videodigitalisierungskarte zur Kompression und Dekompression von Live-Video auf bzw. von der
Festplatte in FBAS- und S-Video-Qualität.
• Eingabe vom Camcorder und Analog/Digital-Wandlung
• Zielformat = MJPEG (Motion JPEG) als AVI-Datei
• Kompressionsrate einstellbar
• Overlay zeigt Video in Echtzeit auf dem Monitor
• Eine Minute Video in VHS-Qualität belegt etwa 120 MByte
• Video-Ausgabe
• Digital/Analog-Wandlung und Ausgabe auf Videorecorder
Screenshot vom Video-Capture-Werkzeug Fast AV-Master
44
8.4 Adobe Premiere
Schnittsoftware Adobe Premiere
Editor zum Bearbeiten von Video-Clips:
• verwendete Dateitypen: AVI, MOV, BMP, WAV, PTL
• Zeitleiste mit mehreren Spuren
• Überblendungen
• Titeleinblendungen
• Bluescreen-Effekte
• Geometrische Transformationen
• Bild- und Audio-Filter
Screenshot vom Videoschneidewerkzeug Adobe Premiere
45
8.5 MPEG
• 25 PAL-Fernseh-Bilder pro Sekunde im Format 768 × 576 bei 24 Bit Farbtiefe ergeben einen
Datenstrom von 32 MBytes/sec.
• Auf eine CD mit 660 MByte Speicherkapazität würde demnach ein 20-Sekunden-Film passen.
• Single-Speed-CD-ROM-Laufwerk mit 1.34 MBit/sec wäre um den Faktor 180 zu langsam.
Drei Komponenten tragen zur Datenreduktion bei:
1. Vereinfachung des Video-Signals (Subsampling, Faktor 4),
2. Ausnutzung räumlicher Redundanz (JPEG, Faktor 15),
3. Ausnutzung zeitlicher Redundanz (MPEG, Faktor 3).
Vorher
Nachher
Motion Vektor kodiert verschobene Macroblöcke
46
8.6 DVD
• MPEG-1 erlaubt maximal 1.5 MBit/sec für Video- & Audio-Information.
Zielmedium: CD-ROM mit 240 × 180 Auflösung.
• MPEG-2 erlaubt 2-10 MBit/sec für Video- & Audio-Information.
Zielmedium: DVD mit voller PAL-Auflösung.
Digital Versatile Disc gibt es in mehreren Standards:
• DVD-ROM (Read Only, für Daten)
• DVD-Video (für Video)
• DVD-Audio (für Audio)
• DVD-R (Recordable, für einmalige Aufzeichnung)
• DVD-RW (Rewritable, mehrfache Aufzeichnung)
Die Speicherkapazitäten werden beeinflusst durch
• SS Single Side
• DS Double Side
• SL Single Layer
• DL Double Layer
Bezeichnung
DVD-5
DVD-9
DVD-10
DVD-18
Seiten
SS
SS
DS
DS
Schichten
SL
DL
SL
DL
Kapazität
4,38 GB
7,95 GB
8,75 GB
15,90 GB
Spieldauer
> 2 Std. Video
≈ 4 Std. Video
4,5 Std. Video
> 8 Std. Video
• 720 × 576 à 25.00 Hz in Europa
• 720 × 480 à 29,97 Hz in USA und Japan
Obacht: Keine quadratischen Pixel !
47
8.7 RealVideo
Client beginnt mit Abspielen, bevor das komplette Video vom Server eingetroffen ist.
Streaming Video vom RealServer vs1.uni-osnabrueck.de
<HTML>
<HEAD> <TITLE>RealVideo</TITLE> </HEAD>
<BODY BGCOLOR="silver">
<center>
<H1>Video on Demand mit 200 KBit/sec Verbindung </H1>
<!-- Videofenster -->
<EMBED
type
= "audio/x-pn-realaudio-plugin"
CONSOLE = "rudolf"
CONTROLS = "ImageWindow"
WIDTH
= "280"
HEIGHT
= "210"
AUTOSTART= "false"
>
<BR>
<!-- Kontrollfenster -->
<EMBED
SRC
= "rtsp://vs1.rz.uni-osnabrueck.de/public/mmp/mmp2004/oliver/rudolf-280-200.rm"
type
= "audio/x-pn-realaudio-plugin"
CONSOLE = "rudolf"
CONTROLS = "All"
WIDTH
= "280"
HEIGHT
= "120"
>
</center>
</BODY>
</HTML>
48
HTML-Seite mit RealVideo-Einbettung über EMBED-Tag
<HTML>
<HEAD> <TITLE>Real Video</TITLE> </HEAD>
<BODY BGCOLOR="silver">
<CENTER>
<H1>Video on Demand mit 200 KBit/sec Verbindung </H1>
<!-- Videofenster -->
<OBJECT
CLASSID = "clsid:CFCDAA03-8BE4-11cf-B84B-0020AFBBCCFA"
WIDTH
= "280"
HEIGHT = "210"
>
<PARAM NAME="controls" VALUE = "ImageWindow">
<PARAM NAME="console"
VALUE = "rudolf">
<PARAM NAME="autostart" VALUE = "false">
<EMBED
TYPE="audio/x-pn-realaudio-plugin"
CONSOLE
= "rudolf"
CONTROLS = "ImageWindow"
WIDTH
= "280"
HEIGHT
= "210"
AUTOSTART = "false">
</EMBED>
</OBJECT>
<BR>
<!-- Kontrollfenster -->
<OBJECT
CLASSID="clsid:CFCDAA03-8BE4-11cf-B84B-0020AFBBCCFA"
WIDTH ="280"
HEIGHT ="110">
<PARAM NAME="controls" VALUE="All">
<PARAM NAME="console"
VALUE="rudolf">
<PARAM NAME="autostart" VALUE="false">
<PARAM NAME="src" VALUE="rtsp://vs1.rz.uni-osnabrueck.de/public/mmp/mmp2004/oliver/rudolf-280
<EMBED
SRC
= "rtsp://vs1.rz.uni-osnabrueck.de/public/mmp/mmp2004/oliver/rudolf-280-200.rm"
TYPE
= "audio/x-pn-realaudio-plugin"
CONSOLE
= "rudolf"
CONTROLS = "ALL"
WIDTH
= "280"
HEIGHT
= "110"
AUTOSTART = "false">
</EMBED>
</OBJECT>
</CENTER>
</BODY>
</HTML>
HTML-Seite mit RealVideo-Einbettung über OBJECT-EMBED-Tag
49
URL für die eingebettete RealVideo-Datei: rtsp://vs1.rz.uni-osnabrueck.de/public/mmp/mmp2004
URL für Popup-Player:
http://vs1.rz.uni-osnabrueck.de:554/ramgen/public/mmp/mmp2004/oliver/rudolf-512
50
8.8 RealProducer
Werkzeug zum Erzeugen von Streaming-Video-Dateien aus AVI-Dateien oder aus Webcam:
• Input-Format = AVI-Datei (*.avi)
• Output-Format = RealVideo-Datei (*.rm)
• Bitrate einstellbar
• Single Rate für Web-Server (enthält nur eine Bitrate)
• Sure-Stream für RealServer (enthält mehrere Bitraten)
• Vorrang für Schärfe bzw. fließende Bewegung einstellbar
Screenshot vom RealProducer
51
8.9 Netmeeting
Microsoft Netmeeting
• überträgt Videodaten einer Webcam
• überträgt Audiodaten vom Mikrophon
• organisiert Tastatur-Dialog mit Chat-Tool
• erlaubt gemeinsames Zeichnen mit Maus auf Whiteboard
• erlaubt Filetransfer
Screenshot vom Videokonferenzwerkzeug Microsoft Netmeeting
52
9 Multimedia
9.1 SMIL
Mit Hilfe von SMIL (Synchronized Multimedia Integration Language) läßt sich in einer Textdatei
(Endung *.smi) das Zusammenspiel von mehreren streaming-fähigen Medien (RealText, RealPix,
RealAudio, RealVideo) beschreiben. Der RealServer von RealNetworks überträgt die Medien separat;
der RealPlayer mischt sie beim Abspielen gemäß SMIL-Datei.
Streaming Media, synchronisiert mit SMIL
(Synchronized Multimedia Inegration Language)
<smil>
<head>
<meta name="title"
content="Goldene Hochzeit"/>
<meta name="author"
content="Oliver Vornberger"/>
<meta name="copyright" content="(c) 2000"/>
<layout>
<root-layout width="384"
height="288"
background-color="black"
<region id="text_region"
left="150" top="30" width="50" height="20"
z-index="2"
< region id="image_region" left="0" top="0"
width="384"height="288"
</layout>
</head>
<body>
<par>
<text src="zahlen.rt" region="text_region" begin="3s" fill="freeze"
<img
src="paar.rp"
region="image_region" fill="freeze" />
<audio src="glen-miller.rm" clip-end="17s"/>
</par>
</body>
</smil>
53
/>
/>
/>
/>
Synchronistation mehrerer Medien durch SMIL
9.2 Pulse3D
Die Firma Pulse3D liefert eine Character-Animation kombiniert mit Text-To-Speech-Konvertierung.
Ausgehend von einem 3D-Modell für den Sprecher wird aufgrund einer Texteingabe eine Gesichtsmuskelanimation berechnet, welche von einer synthetisierten Stimme begleitet wird.
Real Time Text-to-Speech von www.pulse3d.com
54