Metadatenformate - Labor für Business Information Systems
Transcription
Metadatenformate - Labor für Business Information Systems
University of Applied Sciences Fachbereich Angewandte Informatik Department of Computer Science Seminararbeit im Studiengang Master of Science in Computer Science Metadatenformate von B.Sc. Kai Wiemer Erstgutachter und Betreuer Prof. Dr. Andreas Hense Wirtschaftsinformatik Zweitgutachter Prof. Dr. Karl W. Neunast Verteilte Systeme und deren Akzeptanz Eingereicht am: 15.06.2008 Inhaltsverzeichnis Abbildungen 4 Tabellen 5 Quellcode-Listings 6 Abkürzungsverzeichnis 8 1 Einleitung 9 2 Grundlagen 2.1 Typen von Metadaten . . . . . . . . . . . 2.1.1 Beschreibende Metadaten . . . . . 2.1.2 Strukturelle Metadaten . . . . . . . 2.1.3 Administrative Metadaten . . . . . 2.2 Verfahren zur Speicherung von Metadaten 2.2.1 Interne Metadaten . . . . . . . . . 2.2.2 Externe Metadaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 11 12 12 12 12 13 3 Metadatenformate 3.1 Metadaten in der Multimedia . . . . . . . . . . . . . . . . . . . . 3.1.1 MPEG-7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Information Interchange Model . . . . . . . . . . . . . . . 3.1.3 VRA Core . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Exchange Binary Broadcast and Metadata Format . . . . . 3.1.5 ID3-Tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.6 Exchangeable Image File Format . . . . . . . . . . . . . . 3.1.7 NISO Metadata for Images in XML . . . . . . . . . . . . . 3.1.8 Extensible Metadata Platform . . . . . . . . . . . . . . . . 3.2 Metadaten im World Wide Web . . . . . . . . . . . . . . . . . . . 3.2.1 Resource Description Framework . . . . . . . . . . . . . . 3.2.2 Dublin Core . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Online Information eXchange . . . . . . . . . . . . . . . . 3.2.4 Open Archives Initiative Protocol for Metadata Harvesting 3.3 Metadaten in (digitalen) Bibliotheken . . . . . . . . . . . . . . . . 3.3.1 Machine-Readable Cataloging . . . . . . . . . . . . . . . . 3.3.2 Metadata Encoding and Transmission Standard . . . . . . 3.3.3 Maschinelles Austauschformat für Bibliotheken . . . . . . . 3.3.4 Metadata Object Description Schema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 14 16 17 19 20 21 22 23 25 25 27 28 28 29 29 31 32 33 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inhaltsverzeichnis 3.3.5 BibTex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4 Metadaten und Dateiformate 4.1 Portable Document Format (.pdf) . . . . . . . . . . . . . . . . . . . . . 4.2 Joint Photographic Experts Group (.jpg, .jpeg) . . . . . . . . . . . . . 4.3 Microsoft Office Standard (.doc, .xls, .ppt) . . . . . . . . . . . . . . . . 4.4 OpenOffice.org (.odt, .ods, .odp) . . . . . . . . . . . . . . . . . . . . . . 4.5 Tagged Image File Format (.tiff) . . . . . . . . . . . . . . . . . . . . . . 4.6 Compuserve Graphics Interchange Format (.gif) und Portable Network Graphics (.png) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 Moving Picture Experts Group (.mpg, .mpeg) . . . . . . . . . . . . . . 4.8 Moving Picture Experts Group 1 Audio Layer 3 (.mp3) . . . . . . . . . 4.9 Hypertext Markup Language (.html, .htm) . . . . . . . . . . . . . . . . 4.10 Komprimiertes ZIP-Archiv (.zip) . . . . . . . . . . . . . . . . . . . . . 36 36 36 37 37 38 5 Metadaten Mapping 41 6 Bewertung 44 Literaturverzeichnis 46 3 38 38 39 39 40 Abbildungsverzeichnis 3.1 3.2 EXIF Metadaten in einer JPEG-Datei . . . . . . . . . . . . . . . . . . Metadaten mit XMP ausgelesen . . . . . . . . . . . . . . . . . . . . . . 22 25 4.1 Screenshot aus dem Programm ID3-TagIT . . . . . . . . . . . . . . . . 39 4 Tabellenverzeichnis 3.1 Überblick über einige Metadaten des Information Interchange Models . 5 16 Listings 3.1 3.2 3.3 3.4 3.5 3.6 3.7 XML Code des Elements agent des VRA Cores . . . . . . . . Ausschnitt aus dem MIX-Schema . . . . . . . . . . . . . . . . Ausschnitt eines MIX XML-Beispiels . . . . . . . . . . . . . . Ausschnitt eines RDF XML-Beispiels . . . . . . . . . . . . . . MARC Beispiel für den Personennamen (Autor) . . . . . . . . Reduziertes MODS Beispiel für die vorliegende Seminararbeit Beispiel für den BibTex Literaturtyp manual . . . . . . . . . 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 23 23 26 30 34 35 Abkürzungsverzeichnis CMS Content Management System DC Dublin Core DCMI Dublin Core Metadata Initiative DDL Description Definition Language DI Digital Item DNB Deutsche Nationalbibliothek DRM Digital Rights Management DTD Dokumenttypdefinition EXIF Exchangeable Image File Format GIF Compuserve Graphics Interchange Format GNU General Public Licence ID3 Identify an MP3 IDE Integrated Development Environment IIM Information Interchange Model IPTC International Press Telecommunications Council JEIDA Japan Electronics Industry Development Association JPEG Joint Photographic Experts Group LOC Library of Congress MAB Maschinelles Austauschformat für Bibliotheken MARC Machine-Readable Cataloging METS Metadata Encoding and Transmission Standard 7 Listings MIX NISO Metadata for Images in XML MODS Metadata Object Description Schema MOS Multiple Object Standard MP3 MPEG-1 Audio Layer 3 MPEG Moving Picture Experts Group NAA Newspaper Association of America NISO National Information Standards Organization OAI Open Archives Initiative ONIX Online Information eXchange PMH Protocol for Metadata Harvesting PNG Portable Network Graphics RDF Resource Description Framework SDK Software Development Kit SOS Single Object Standard TIFF Tagged Image File Format URI Uniform Resource Identifier VRA Visual Resources Association W3C World Wide Web Consortium XBMF Exchange Binary Broadcast and Metadata Format XML Extensible Markup Language XMP Extensible Metadata Platform 8 1 Einleitung Das Wort Meta stammt aus dem Griechischen und bedeutet frei übersetzt so viel wie mit, mitten, neben. Metadaten sind demnach Daten über Daten und haben eine beschreibende Funktion. Dass Metadaten ihrerseits auch wieder Daten sind, lässt die Schlussfolgerung zu, dass Metadaten selbst auch Metadaten besitzen können. Ein Metadatum ist also per se ein Datum. Umgekehrt kommt es aber auf den Standpunkt an. Das folgende Beispiel verdeutlicht dies: Dem Musikliebhaber geht es primär um die Musik auf einer CD. Unter der Voraussetzung, dass die CDs nicht nach einem System, zum Beispiel alphabetisch, im Regal sortiert werden, haben der Name des Interpreten und der Titel der CD nur einen beschreibenden Charakter. Es handelt sich aus Sicht des Hörers also um Metadaten. In einem Online Musik-Shop haben diese beiden Eigenschaften einen wesentlich höheren Informationsgehalt, da die Informationen über den Interpreten und den Titel unabdingbar für ein Warenwirtschaftssystem sind, das mit Medien dieser Art handelt. In diesem Kontext ist der Inhalt der CD nur zweitrangig. Das Beispiel verdeutlicht auch, dass das Prinzip, welches hinter den Metadaten steckt, kein neues ist, auch wenn der Name als solcher relativ jung ist. Schon im Mittelalter wurde in großen Bibliotheken über den aktuellen Bestand anhand von Katalogen Buch geführt, um die Masse an Informationen gezielt auffindbar zu machen und sinnvoll einsetzen zu können. Auch im Alltag trifft man regelmäßig auf Metadaten, oftmals ohne sich dessen bewusst zu sein. Ein Betriebssystem speichert zu einer Datei immer auch die Informationen, wann sie zuletzt verändert wurde, welche Zugriffsrechte sie besitzt und indirekt über die Dateiendung auch das Dateiformat1 . Wer hat noch nicht ein Telefonbuch in den Händen gehalten oder in einem Branchenheft nach dem nächsten Klempner gesucht? Auch hierbei handelt es sich um eine Sammlung von Metadaten, fein säuberlich sortiert nach Branche und Name. Die Fülle an Informationen, die durch Metadaten darstellbar ist, ist nahezu unerschöpflich. Umso wichtiger ist es, Ordnung hineinzubringen. Viele Initiativen, Konsortien und Gremien, aber auch Einzelpersonen haben sich dieses Problem zur Aufgabe gemacht und Parameter und Eigenschaften bestimmt, um mit einem Satz von Informationen ein Objekt zu beschreiben, es verwaltund wartbar zu machen und es in Beziehungen zu anderen Objekten zu setzen. Ziel dieser Arbeit ist es, dem Leser einen Überblick über die gängigsten Metadatenformate und Frameworks für Metadaten und deren Anwendungsgebiete zu schaffen. Hierzu werden im folgenden Kapitel zunächst einige Grundlagen erläutert, um in den Kapiteln 3, 4 und 5 darauf aufzubauen. Das Kapitel Metadatenformate nennt und beschreibt eine Auswahl von siebzehn Metadatenformaten und erläutert deren aktuellen Stand. Das Kapitel Metadaten und Dateiformate soll dem Leser verdeutlichen, wie 1 Hierbei ist zu beachten, dass eine Dateiendung durch einen Benutzer verändert werden kann und sie somit keinen sicheren Rückschluss über das Dateiformat zulässt. 9 1 Einleitung weit verbreitet Metadatenformate sind, indem einige Dateiformate auf die Möglichkeit untersucht werden, sie mit Metadaten zu versehen. Das Kapitel Metadaten Mapping beschäftigt sich mit dem Problem, Metadaten des einen Formats möglichst verlustunbehaftet in ein anderes zu überführen. In der Bewertung wird das Thema Metadaten von einem kritischen Standpunkt betrachtet und Vor- und Nachteile der verwendeten Techniken herausgearbeitet. Abschließend erfolgt eine Zusammenfassung. 10 2 Grundlagen In diesem Kapitel werden einige Grundlagen bezüglich Metadaten geschaffen, um das Verständnis in den hierauf folgenden Kapiteln zu erhöhen. Zunächst wird auf Typen von Metadaten und anschließend auf Verfahren zur Speicherung von Metadaten eingegangen. In dieser Arbeit werden primär digitale Objekte1 (DO) und die digitale Verwaltung von nicht digitalen Objekten2 behandelt. In der Vergangenheit war es üblich, Metadaten in Papierform (Karteikarten, manuelle Katalogisierung, Datensätze) zu speichern. Da diese Art der Speicherung bedingt durch die fortschreitende Digitalisierung des Verwaltungswesens und durch die Globalisierung - und dem damit verbundenen höheren Anspruch an Informationsbeschaffung - zunehmend an Bedeutung verliert, wird in dieser Arbeit nur der Aspekt der digital erfassbaren Metadaten berücksichtigt. 2.1 Typen von Metadaten Man unterscheidet zwischen beschreibenden, strukturellen und administrativen Metadaten, deren Grenzen jedoch fließend sind. Diese Typen werden in diesem Abschnitt erläutert. 2.1.1 Beschreibende Metadaten Beschreibende Metadaten (descriptive metadata) werden dazu verwendet, Quellen und Objekte zu charakterisieren, zu verwalten und zu identifizieren. Typischerweise bestehen beschreibende Metadaten aus bibliografischen Informationen, wie beispielsweise dem Autor, dem Titel und dem Datum der Erstellung des DOs. Daneben existieren aber auch deskriptive Metadaten für den eindeutigen Identifikator, für zusätzliche Informationen und für so genannte Schlagworte, die mitunter sogar etwas über den Inhalt des DOs aussagen können. Beschreibende Metadaten helfen dabei das digitale Objekt besser zu verstehen und zu kategorisieren. Viele Suchmaschinen durchsuchen Webressourcen nach ihren Metadaten und beziehen diese in das Suchergebnis mit ein. So zum Beispiel können HTML-Dokumente <meta>-Felder aufnehmen. Der bekannteste Vertreter der rein beschreibenden Metadaten ist der Dublin Core-Metadatensatz, der in Abschnitt 3.2.2 erläutert wird. 1 2 Video-, Audio- und Textdateien, Webressourcen, usw. Bücher, Gemälde, Texte, Tonträger, usw. 11 2 Grundlagen 2.1.2 Strukturelle Metadaten Mit Hilfe von strukturellen Metadaten (structual metadata) drückt man Beziehungen zwischen Objekten und ihren Komponenten aus und hat so die Möglichkeit Objektmodelle zu erzeugen. Ähnlich der objektorientierten Programmierung können mit strukturellen Metadaten Hierarchien und Typisierungen aufgebaut und diese dann zum Beispiel visualisiert werden. Strukturelle Metadaten beschreiben aber auch den strukturellen internen Aufbau eines DOs. So ist es mit ihnen bei komplexen Dokumenten möglich, durch einzelne Kapitel zu navigieren oder per Shortcut an eine andere Stelle zu springen. Ein bekannter Vertreter, der strukturelle Metadaten für genau diesen Zweck einsetzt, ist der so genannte MET-Standard, auf den ab Seite 31 näher eingegangen wird. Ein METS-Dokument besteht unter anderem aus strukturellen Verknüpfungen, um den korrekten Aufbau eines Dokuments zu garantieren. 2.1.3 Administrative Metadaten Je größer die Anzahl der verwalteten Objekte ist, desto kleiner ist der Anteil, den ein individueller Nutzer versteht. Diesem Problem kann mit administrativen Metadaten entgegengewirkt werden. Da Metadaten oft in Datenbanken persistiert und verwaltet werden, findet man auch administrative Metadaten primär in diesem Umfeld. Anfragen auf digitale Objekte können z.B. die administrativen Metadaten Standort und Signatur des Objekts liefern und im Kontext eines Bibliothekensystems, an wievielter Stelle eine Vormerkung platziert werden würde. Wie eingangs erwähnt sind Metadaten ihrerseits auch wieder Daten, die durch weitere Metadaten beschrieben werden können. Administrative Metadaten können in diesem Zusammenhang auch eine beschreibende (siehe oben) Funktion haben, indem sie dem Anwender vermitteln, was das beschreibende Metadatum ISBN oder Urheber bedeutet. Auf Basis administrativer Metadaten lassen sich in Data Warehouse Systemen zudem Nutzungsstatistiken erstellen, indem Zugriffe, Anzahl der Ausleihen, Reservierungen und Zitierungen usw. erfasst und anschließend grafisch aufbereitet werden. 2.2 Verfahren zur Speicherung von Metadaten Metadaten können intern in einem DO3 oder separat in einer eigenen Datei gespeichert werden. 2.2.1 Interne Metadaten Interne Metadaten werden in einem speziell für diesen Zweck reservierten Bereich in der Datei gespeichert. Oftmals befinden sich interne Metadaten im Kopf der Datei 3 Interne Metadaten müssen durch das jeweilige Dateiformat oder durch eine entsprechende Anwendung unterstützt werden. 12 2 Grundlagen oder am Ende des Dateistroms und werden durch ein bestimmtes Flag gekennzeichnet bzw. eingeleitet. So wird verhindert, dass Programme Metadaten als Dateiinhalt - zum Beispiel als Audiosignal - interpretieren und es zu Fehlern kommt. Für das Auslesen interner Metadaten unterstützen die Programme, die die Datei lesen können, in der Regel auch die Funktion, die eingepflegten Metadaten zu lesen und zu manipulieren. So zum Beispiel verfügen alle gängigen Multimedia-Abspieler über die Möglichkeit, die so genannten ID3-Tags (siehe Abschnitt 3.1.5) aus MP3-Dateien zu lesen und zum Teil auch zu schreiben. Einfache Texteditoren, wie man sie bei externen Metadaten (siehe unten) einsetzen kann, erfüllen diese Anforderung jedoch nicht, da die Daten meist binär vorliegen. Darüber hinaus existieren spezielle interne Metadatenformate, die nur durch proprietäre Anwendungen überhaupt lesbar sind. Auf diese soll in dieser Arbeit jedoch nicht eingegangen werden. 2.2.2 Externe Metadaten Im Gegensatz zu internen Metadaten wird das externe Pendant in einer separaten Datei neben dem zu beschreibenden Objekt gespeichert. Damit die Zusammengehörigkeit auch dann gewährleistet werden kann, wenn die externe Metadaten-Datei und digitales Objekt physikalisch voneinander getrennt liegen, verfügt die Metadaten-Datei über einen Identifizierer in Form eines so genannten Uniform Resource Identifier (URI). Dieser ist eindeutig und referenziert das zu beschreibende Objekt. Einige Ansätze, die Metadaten extern speichern4 , gehen noch einen Schritt weiter und speichern die beiden Dateien zusammen in einem gepackten Archiv. Viele Ansätze nutzen als Dateiformat für die externen Metadaten die durch das World Wide Web Consortium (W3C) entwickelte Markup Sprache XML5 . Der Vorteil von XML liegt auf der Hand: zum einen ist XML menschenlesbar und damit -verständlich und zum anderen lassen sich XMLDateien mit einem gewöhnlichen Texteditor öffnen und modifizieren. 4 So zum Beispiel das Exchange Binary Broadcast and Metadata Format, welches ab Seite 19, erläutert wird. 5 In dieser Arbeit werden Grundkenntnisse über XML vorausgesetzt. Sollten diese nicht vorhanden sein, so bilden [Wor08] und [Wik08] zusammen einen guten Einstieg. 13 3 Metadatenformate Um Ressourcen und digitale Objekte angemessen zu beschreiben, muss bestimmt werden, welche Informationen Relevanz haben und wie man diese Informationen in einem Vokabular festlegen kann. Die Wahl des Vokabulars und des Satzes an Informationen hängt stark von der Klassifizierung des zu beschreibenden Objektes ab. So zum Beispiel könnten bestimmte Zusatzinformationen bei Videodateien von großem Nutzen, bei Büchern oder Webressourcen aber unvollständig und sogar unsinnig sein. Aus diesem Grund existieren verschiedene Ansätze in Form von Metadatenformaten, um digitale Objekte - auch des gleichen Typs - zu charakterisieren. In diesem Abschnitt wird nun eine Auswahl an Metadatenformate vorgestellt, deren Funktionsweise erläutert und Einsatzgebiete genannt. Zum Zeitpunkt der Erstellung dieser Arbeit war es ohne großen Aufwand möglich, mehr als dreißig zum Teil exotische Metadatenformate zu recherchieren. Hier soll deswegen nur eine Auswahl der gängigsten Formate vorgestellt werden. Zugunsten der Übersicht - und damit der Verständlichkeit - wird eine Klassifizierung in Metadaten in der Multimedia, im World Wide Web und in (digitalen) Bibliotheken vorgenommen. Ist eine klare Trennung nicht möglich, wird explizit darauf hingewiesen. 3.1 Metadaten in der Multimedia In diesem Abschnitt werden Metadatenformate vorgestellt, die im Bereich der Multimedia Einsatz finden. 3.1.1 MPEG-7 Die Motion Picture Expert Group entwickelte mit MPEG-1, MPEG-2 und MPEG4 Standards, um Multimediadaten kodiert zu repräsentieren und verabschiedete diese durch ISO/IEC. Im Jahre 2002 wurden diese Standards um eine Schnittstelle zur Objektbeschreibung erweitert, die auch den Beinamen Multimedia Content Description Interface (kurz MPEG-7) trägt. Mit ihr es ist möglich, audiovisuellen Inhalt in Multimediaumgebungen und -anwendungen zu beschreiben. MPEG-7 kann in diesem Zusammenhang von den anderen Standards der MPEG dazu verwendet werden, die Interoperabilität durch zusätzliche Informationen zu vereinfachen und die Flexibilität des Datenmanagements zu erhöhen [NL99]. Nicht nur bewegte Bilder lassen sich mittels MPEG-7 beschreiben. Zu den unterstützen Typen gehören auch Bilder, Grafiken, Ton, 14 3 Metadatenformate 3D-Modelle, Sprache und vor allem Informationen darüber, wie diese Elemente miteinander verknüpft sind. So zum Beispiel lassen sich einzelne Objekte in einem MPEG-4kodierten Objekt, welches bewegtes Bildmaterial und Ton beinhaltet, mittels MPEG-7 beschreiben. Unterschieden wird hier zwischen verschiedenen Abstraktionsebenen der Beschreibung. Auf der untersten Ebene könnten so zum Beispiel Form, Farbe, Größe, Position (sowohl Ton als auch Bild) und Lautstärke eines Objektes beschrieben werden und auf der höchsten Abstraktionsebene das Objekt selber als ein sich mit 744 km/h bewegendes, weißes, in Richtung Südwest fliegendes, düsenbetriebenes Flugzeug, dessen Triebwerke eine Lautstärke von 120 dB(A) haben. Die Möglichkeit der Abstraktion hängt natürlich in hohem Maße davon ab, wie gut sich einzelne Objekte, beispielsweise aus einer Szene, extrahieren lassen. Der MPEG-7 Standard besteht im wesentlichen aus den folgenden Elementen: • Deskriptor: Definiert die Syntax und Semantik einer jeden Eigenschaft (Metadatum). Ein Deskriptor hat eine eindeutige Id, einen festen Datentyp und legt dessen Wertebereich fest. Ein Beispiel hierfür wäre die Brennweite einer Kamera in einer Szene eines Films. Der Deskriptor könnte dann die Id focallength haben, vom Typ Integer sein und als Wertebereich 10-800 mm haben. • Deskriptionsschema: Beschreibt die Struktur und die Semantik der Zusammenhänge zwischen Deskriptoren und Deskriptionsschemata in einer Baumstruktur. Ein Deskriptionsschema wird durch die Description Definition Language (DDL) ausgedrückt. Bei unserem Beispiel der Filmszene sähe ein Deskriptionsschema folgendermaßen aus: das Deskriptionsschema scene beinhaltet die Deskriptoren camera, duration, place und daytime und das Deskriptionsschema actor, welches wiederum die Deskriptoren name, gender und text beinhaltet. • Description Definition Language: Definiert eine Syntax für Deskriptoren und Deskriptionsschemata und erlaubt es Deskriptionsschemata zu verändert und zu erweitern. Im Evaluierungsprozess zur Konzipierung der DDL hat sich die Extensible Markup Language (XML) als Beschreibungssprache durchgesetzt. • Tools: Diese werden dazu verwendet, das Konzept umzusetzen. Sie sollten effizientes Speichern und Übertragen unterstützen. Außerdem die Synchronisierung von Inhalt und Beschreibung, das Schützen von geistigem Eigentum, usw. Nach [SS06] unterstützt MPEG-7 rund 450 verschiedene Metadaten, die, wenn es das Dateiformat unterstützt, intern oder extern gespeichert werden können. Wird die Schnittstelle nicht intern unterstützt, wird die Zusammengehörigkeit eines digitalen Objektes zu seinen Metadaten (und umgekehrt) sichergestellt, indem beide über einen einheitlichen Bezeichner für Ressourcen (URI) miteinander verknüpft werden. Im Zusammenhang der MPEG soll an dieser Stelle auch kurz auf den Standard MPEG21 eingegangen werden, welcher sich des Konzepts der Metadaten bedient. MPEG-21 ist ein auf offenen Standards basierendes Framework, um multimediale Inhalte zu verwalten und Benutzern zugänglich zu machen. Hierzu werden diese Inhalte, auch Digital Items (DI) genannt, in einem Prozess, der unter anderem die Produktion, Rechteverwaltung und sogar die Vermarktung umfasst, mit Metadaten versehen und miteinander 15 3 Metadatenformate verknüpft. Der Standard besteht aus 12 Kernkomponenten, die unter anderem eine Spezifikation zur Deklaration und Identifikation eines DIs festlegen, ihre Rechteverwaltung definieren und Software bestimmen, die Tools zur Umsetzung der Kernkomponenten bereitstellen. Der Standard ist besonders für Content Provider interessant, da MPEG-21 als eine Kernkomponente1 eine einheitliche Digital Rights Management (DRM) Funktionalität unterstützt. 3.1.2 Information Interchange Model Ausgehend von der Idee digitale Bilddaten, Texte, Ton usw. über ein Netzwerk oder auf einem lokalen Datenträger effektiv auffindbar zu machen, entwickelte der International Press Telecommunications Council (IPTC) ab 1990 zusammen mit der Newspaper Association of America (NAA) den einheitlichen Metadatensatz Information Interchange Model (IIM), der in einem Segment der zu beschreibenden Datei gespeichert wird. Vor allem Bildagenturen mit großen Bildatenbanken setzen dieses Format ein, da es unter anderem die Möglichkeit bietet, die Dateien zu taggen, also mit Schlagworten zu versehen. Gewissenhaft eingesetzt sagen diese Schlagworte etwas über den Bildaufbau und den Inhalt der Szene aus. So ist es möglich Suchanfragen zu starten, die über klassische Metadaten, wie Autor und Titel, hinausgehen und eine inhaltsbezogene Suche erlauben. In der folgenden Tabelle werden einige Felder des Datensatzes genannt und deren Funktion erläutert. Bezeichnung Headline Keywords Copyright City Originating Program Writer/ Editor Beschreibung Titel des digitalen Objekts, z.B. Name des Motivs eines Bildes. Schlagworte, die den Inhalt des Objekts beschreiben, z.B. Auto, Berg, Straße, usw. Rechte, die das digitale Objekt betreffen. Erstellungsort (Stadt) Software, mit der das digitale Objekt erstellt/bearbeitet wurde. Autor der IPTC-Daten. Tabelle 3.1: Überblick über einige Metadaten des Information Interchange Models In der aktuellen Version umfasst das IIM rund 75 Felder. Die vollständige Liste kann der technischen Spezifikation [Int99b] entnommen werden. Das IIM wurde weitestgehend von Adobes XMP (siehe Abschnitt 3.1.8) verdrängt, obwohl der Datensatz der IIM die Basis von XMP darstellt. Da die Adobe Produktreihe den Standard der IPTC-NAA offiziell weder unterstützt noch aus digitalen Daten ausliest, ist es nur noch eine Frage der Zeit, bis das IIM vollständig verdrängt wird. Auch wird das IIM zum großen Teil durch das Metadatenformat EXIF (siehe Abschnitt 1 MPEG-21 Teil 4, 5 und 6. Siehe hierzu auch [Org02]. 16 3 Metadatenformate 3.1.6) abgedeckt, welches zumindest im Bereich der Bilddaten eine höhere Akzeptanz genießt2 . 3.1.3 VRA Core Das Data Standards Committee der Visual Resources Association (VRA) entwarf mit dem VRA Core im Jahre 1997 einen Satz aus Kernelementen, um ein Datenmodell für die folgenden drei Klassifizierungen zu entwerfen und somit Informationen über das Kulturerbe zu wahren. • Werk (Work): Ein Werk stellt im vorliegenden Zusammenhang eine kulturelle Entität dar. Beispiele hierfür sind Skulpturen, Gemälde, Fotografien, Manuskripte oder auch eine Aufführung. • Bilder (Images): Bilder sind als visuelle Repräsentationen der oben genannten Werke zu verstehen. Hierzu gehören Dias, fotografische Abzüge und digitale Bilder. • Sammlungen (Collections): Eine Sammlung aus Werken und/oder Bildern, die konzeptuell oder physikalisch arrangiert wurden. Hierzu gehören unter anderem Ausstellungen, Sammlungen von gleichen Objekten, die aus verschiedenen Materialien bestehen, oder die Fotoserie eines Shootings. XML hat, wie Metadaten auch, eine beschreibende Funktion und wird deswegen im VRA Core eingesetzt. Die Metadaten sind in einer drei-schichtigen Hierarchie sortiert. Auf oberster Ebene stehen die Elemente, gefolgt von den Unterelementen und zuletzt die Attribute. Das entspricht exakt der Syntax, die auch XML verwendet. Der VRA Core beinhaltet die folgenden Felder3 : • work, collection, or image (id) • agent – attribution – culture – dates (type) ∗ earliestDate (circa) ∗ latestDate (circa) – name (type) – role • culturalContext • date (type) 2 3 Gemessen an der Quantität der Anwendungen, die die besagten Metadatenformate unterstützen. Elemente sind rot dargestellt, Unterelemente grün und Attribute blau. 17 3 Metadatenformate – earliestDate (circa) – latestDate (circa) • description • inscription – author – position – text (type) • location (type) – name (type) – refid (type) • material (type) • measurements (type, unit) • relation (type, relids) • rights (type) – rightsHolder – text • source – name (type) – refid (type) • stateEdition (count, num, type) – description – name • stylePeriod • subject – term (type) • technique • textref – name (type) – refid (type) • title (type) • worktype 18 3 Metadatenformate Darüber hinaus beinhaltet der Kern der VRA neun globale Attribute (Datum der Aufnahme, Hypertext Links, eindeutiger Bezeichner, usw.), die bei allen Elementen und Unterelementen angewendet werden können. Listing 3.1 zeigt einen XML-Ausschnitt, der das Element agent vollständig beinhaltet: Listing 3.1: XML Code des Elements agent des VRA Cores 1 2 3 4 5 6 7 8 9 10 11 12 <agentSet> <display>Claude Monet (1840-1926), französischer Maler</display> <agent> <culture>Französisch</culture> <dates type="life"> <earliestDate circa="true">1840</earliestDate> <latestDate circa="true">1926</latestDate> </dates> <name type="personal">Claude Monet</name> <role>Maler</role> </agent> </agentSet> Das METS Editorial Board hat die offizielle Unterstützung des VRA Cores durch METS bekanntgegeben. Das bedeutet, dass sich der VRA Core aufgrund seiner Darstellung in XML mittels METS (siehe Abschnitt 3.3.2 und [Dig08a]) in andere Objekte einer Bibliothek integrieren lässt. 3.1.4 Exchange Binary Broadcast and Metadata Format Das Exchange Binary Broadcast and Metadata Format (XBMF) ist ein auf Dublin Core (siehe Abschnitt 3.2.2), SOMA 0.54 und EBU Tech 32735 basierendes Metadatenformat, welches sich von anderen Austauschformaten dadurch unterscheidet, dass es explizit für das Broadcasting von Multimediainhalten konzipiert wurde. Die Entwickler vertreten den Standpunkt, dass schon der Dublin Core hinreichend viele Metadaten liefert, um auch in komplexeren Anwendungsgebieten zu funktionieren. XBMF deckt daher genau diesen Kern ab. Die Metadaten zu den multimedialen Objekten6 werden im XML-Format hinterlegt. Hierzu werden die durch die Metadaten beschriebenen Objekte nach der folgenden vordefinierten Verzeichnisstruktur im Dateisystem abgelegt: 4 SOMA steht für Shared Online Media Archive und ist ein unter der General Public Licence (GPL) stehendes Metadatenformat für den Austausch von Multimediadaten. Es baut auf Dublin Core und EBU Tech 3273 auf und wird zur Zeit zusammen mit eZ publish, einem Content Management System (CMS), in OneWorldTV ([One08]) eingesetzt. Für weitere Informationen, siehe [SOM02]. 5 EBU Tech 3273 ist eine Methodensammlung zur Messung der farbmetrischen Güte professioneller Studiomonitore ([Eur93]). 6 In erster Linie werden Audiodateien, aber auch Videos, ganze Websites und eLearning-Objekte unterstützt. 19 3 Metadatenformate XBMF metadata.xml audio audiodatei01 audiodatei02 ... dateien pdf video text ... Das Symbol auf der höchsten Hierarchieebene lässt bereits vermuten, dass der so entstandene Container anschließend archiviert und dabei komprimiert wird. Das geschieht entweder mit dem Tool tar oder gzip. Das hat zum einen den Vorteil, dass sich die Datenmenge bei der Übertragung reduziert, zum anderen muss lediglich eine einzelne Datei versendet werden. Auch der Verbreitungsgrad der Kompressionswerkzeuge und deren Integrierbarkeit in andere Programme spricht für dieses Vorgehen. Ein ausführliches Beispiel für eine XBMF XML-Datei findet sich in [DSD03]. 3.1.5 ID3-Tags ID37 ist ein Metadatenformat speziell für MP3 Dateien und steht für Identify an MP3. Es handelt sich um ein internes Metadatenformat, jedoch wurde es nie offiziell in den Standard MPEG-1 Audio Layer 3 (MP3) aufgenommen. Die ursprüngliche Idee bestand darin, die Metadaten an das Ende des Datenstroms zu setzen, da der besagte Standard der MPEG eine eindeutige Endmarkierung nach den Audiosignalen vorsieht. Eine Fehlinterpretation durch einen Software-Abspieler wird so verhindert, denn nur die Informationen nach der Endmarkierung werden als Metadaten verstanden und ausgelesen. Die erste Version wurde 1996 von Eric Kemp eingeführt und trug die Bezeichnung ID3v1. Insgesamt besitzt diese Version der Etikette 8 sieben Metadaten (TAGKennung, Songtitel, Interpret, Albumtitel, Erscheinungsjahr, Kommentar, Genre), wobei die TAG-Kennung nur dazu dient den Beginn des Metadatensatzes zu markieren. Jedes Metadatum hat eine vordefinierte Größe und insgesamt ist der Datenblock auf 7 Der Name ID3 sollte nicht mit dem Entscheidungsalgorithmus des australischen Forschers J. Ross Quinlan verwechselt werden. 8 Ein Tag ist im Deutschen ein Etikett, Anhängeschildchen, eine Marke. Entsprechend bezeichnet man das Versehen von MP3-Dateien mit ID3 Informationen als tagging, also etikettieren, markieren. 20 3 Metadatenformate 128 Byte beschränkt. Das Metadatum Genre wird nicht als zusammenhängende Zeichenkette gespeichert, sondern als eine 1 Byte große Zahl kodiert, um Platz zu sparen. Jede Zahl entspricht hierbei einem von 125 Genres. Die vollständige Liste ist dem Anhang des informellen Standards der Version 2.3 [Nil99] zu entnehmen. Aufgrund der geringen Anzahl an Metadaten, der Beschränkung einzelner Felder auf maximal 30 Zeichen und fehlender Information über die Zeichenkodierung9 wurde 1998 die Version ID3v2 ([Nil98]) eingeführt und im Jahre 2000 Version ID3v2.4 ([Nil00a] und [Nil00b]), wobei noch heute dessen Vorgängerversion ID3v2.3 am weitesten verbreitet ist. Mit dem Sprung auf Version v2 wurde der Datenblock mit den Metadaten an den Anfang der Datei verschoben und fortan mit der Markierung ID3 identifiziert. Es fanden insgesamt über 70 Metadaten Einzug in den aktuellen Standard, die sich mit der entsprechenden Software modifizieren lassen. Ein Großteil der heute verfügbaren Mediaplayer (Winamp, iTunes, Mediamonkey, usw.) unterstützen ID3. Es existieren aber auch Programme, die speziell für das Hinzufügen, Erweitern und Ändern (vor allem Stapelverarbeitungen) von ID3-Tags entwickelt wurden. Sie unterstützen zum Teil sogar das Hinzufügen von Bildmaterial, wie etwa das Plattencover oder Fotos des Interpreten. 3.1.6 Exchangeable Image File Format Das Exchangeable Image File Format (EXIF) wurde von der Japan Electronics Industry Development Association (JEIDA) zum automatischen Speichern von Metadaten durch Digitalkameras konzipiert. Der Standard sieht neben digitalen Bilddateien auch das taggen von Audiosignalen vor. Diese Arbeit legt den Schwerpunkt aber auf den ersten Teil der Spezifikation, die Exif Image File Specification. Die erste Version wurde 1995 vorgestellt, eine Reihe von Erweiterungen folgten10 , bis im April 2002 die bis heute aktuelle Version 2.2 veröffentlicht wurde. Die Metadaten umfassen einen Satz von Informationen und definieren eine Syntax, die primär fototechnische Aspekte abdecken. Grob lassen sich diese den folgenden Kategorien zuordnen: • Datei: Name, Kommentar, usw. • Kamera: Hersteller, Modell, Firmwareversion, horizontale und vertikale Auflösung, Auslösungszähler, usw. • Bild: Beschreibung, Künstler, Copyright, Belichtungszeit, Blende, eingestelltes Programm, ISO-Wert, Datum, Uhrzeit, Brennweite des Objektivs, Farbraum, Blitz (ausgelöst?), Pixel in x- und y-Richtung, Messung des Weißabgleichs, usw. • Kamera und Bild: Makromodus, Einzelauslösung oder Serienaufnahme, Bildgröße, Stärke der Komprimierung (wenn nicht im RAW-Format fotografiert), Kontrast, Sättigung, Schärfe, selektierter Autofokuspunkt, GPS-Koordinaten, usw. 9 Das führte dazu, dass Zeichensätze falsch interpretiert und Umlaute mitunter nicht korrekt dargestellt wurden. 10 Zum Beispiel das Hinzufügen des sRGB Farbraums, komprimierter Kleinansichten und eben Audiodateien. 21 3 Metadatenformate • Sonstiges: EXIF-Version, usw. Diese Liste ist nicht vollständig, zeigt aber einen wesentlichen Teil der Menge an verfügbaren Feldern11 . Abbildung 3.1 zeigt ein selbst erstelltes Foto (links) und einen Teil der dazugehörigen Metadaten (rechts). Zum großen Teil wurden diese automatisch durch die Kamera gespeichert, Dateiname und Autor wurden jedoch nachträglich hinzugefügt. Abbildung 3.1: EXIF Metadaten in einer JPEG-Datei Diese zusätzlichen Informationen alleine lassen es nur bedingt zu, Aussagen über den Bildinhalt zu treffen. Der Photograph erinnert sich möglicherweise anhand des Datums und der Uhrzeit der Aufnahme, was er fotografiert hat. Schwieriger wird es jedoch, wenn der Prozess der Erkennung automatisiert stattfinden soll. Daher lassen sich semantische Informationen, beispielsweise über den Inhalt des Bildes, in freien Kommentarfeldern eintragen oder als Stichworte speichern. Einen Versuch, eine Klassifikation anhand eines Bayes’schen Klassifizierers mithilfe der gespeicherten Metadaten durchzuführen, wagt der Artikel [BL04], der 2004 auf der 17. internationalen Konferenz der Mustererkennung vorgelegt wurde. Dieser Ansatz geht über das klassische taggen hinaus und versucht anhand Auslösungszeit, Blendenzahl, ISO-Wert, usw. Rückschlüsse auf das fotografierte Motiv zu ziehen. 3.1.7 NISO Metadata for Images in XML Metadata for Images in XML (MIX) ist ein XML-Schema, welches Entwickler implementieren können, um digitale Bildersammlungen zu verwalten. Es stellt, wie die bereits vorgestellten Metadatenformate auch, einen Satz technischer beschreibender Daten zur Verfügung. Das Schema baut auf dem Standard Z39.87 der National Information Standards Organization (NISO, siehe [Nat06]) auf und setzt die darin definierten Metadaten 11 Die vollständige Spezifikation, einschließlich aller Metadatenfelder, kann unter [Tec02] eingesehen werden. 22 3 Metadatenformate für den Austausch und das persistente Speichern von digitalem Bildmaterial um. Entwickelt wird es vom Network Development and MARC Standards Office der Library of Congress und liegt zur Zeit in der Version 2.0 vom 12. Mai 2008 vor ([Cun08]). Listing 3.2 zeigt einen kleinen Ausschnitt aus dem XML-Schema von MIX. Das nachfolgende Beispiel in Listing 3.3 zeigt den entsprechenden XML-Code. Das Beispiel wurde der offiziellen Webseite [Con08] entnommen. Listing 3.2: Ausschnitt aus dem MIX-Schema 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 <xsd:complexType name="BasicImageInformationType"> <xsd:sequence> <xsd:element name="BasicImageCharacteristics" minOccurs="0" maxOccurs="1"> ... <xsd:complexType> <xsd:sequence> <xsd:element name="imageWidth" type="positiveIntegerType" minOccurs="0" maxOccurs ="1"> ... </xsd:element> <xsd:element name="imageHeight" type="positiveIntegerType" minOccurs="0" maxOccurs="1"> ... </xsd:element> ... </xsd:sequence> </xsd:complexType> </xsd:element> ... </xsd:sequence> </xsd:complexType> Listing 3.3: Ausschnitt eines MIX XML-Beispiels 1 2 3 4 5 6 7 8 <BasicImageInformationType> <BasicImageCharacteristics> <imageWidth>400</imageWidth> <imageHeight>200</imageHeight> ... </BasicImageCharacteristics> ... </BasicImageInformationType> 3.1.8 Extensible Metadata Platform Die Extensible Metadata Platform (XMP) ist kein Metadatenformat. Es handelt sich vielmehr um ein Framework, um Metadaten in Binärdateien einzubetten, ohne jedoch die Lesbarkeit der Daten durch andere Programme, die die XMP nicht unterstützen, zu gefährden. Adobe entwickelte und veröffentlichte die XMP im Jahre 2001, heute steht es unter der BSD Lizenz. Zudem hat Adobe ein Software Development Kit (SDK) frei zur Verfügung gestellt, um Entwicklern die Möglichkeit zu geben, die XMP in eigene 23 3 Metadatenformate Anwendungen zu integrieren. Es beinhaltet auch Java Quelldateien und die entsprechende API, um Java Programme mit XMP-Unterstützung in Eclipse12 zu entwickeln. Die XMP liefert die folgenden drei XMP-Kernkomponenten: • Datenmodell: Das Datenmodell beschreibt theoretisch, wie Metadaten gespeichert werden sollen. Zur Verfügung stehen drei Datenstrukturen. Einfache Typen beschreiben ein digitales Objekt durch beliebig viele Attribut-Wert Tupel. Eine CD hat das Attribut Komponist und z.B. den Wert Ludwig van Beethoven (artist="Ludwig van Beethoven"). Strukturen führen eine Sammlung von AttributWert Tupeln ein. Ein Song einer CD kann z.B. durch die Struktur ({artist="xyz"}, {title="abc"}, {duration="00:11:12"}) beschrieben werden. Eine solche Struktur kann selbst wieder Strukturen oder die folgende Datenstruktur enthalten. Ein Array hat ähnlich der Datenstruktur in Programmiersprachen einen Namen und eine Menge von Elementen. Möchte man eine CD mit beliebigen Schlagwörtern beschreiben, so werden diese in einem Array gespeichert, z.B. cdtags="Ludwig van Beethoven", "Greatest Song", "Piano". Array-Elemente können Strukturen oder wieder Arrays sein. • Speichermodell: Das Speichermodell spezifiziert, wie das Datenmodell implementiert ist. XMP-Eigenschaften werden in einer XML-Struktur gespeichert, wobei hierfür auf das Resource Description Framework (siehe 3.2.1) zurückgegriffen wird. Die XMP bietet die Möglichkeit, Metadaten intern oder extern zu speichern. Für die detaillierten technischen Informationen sei an dieser Stelle auf die Spezifikation [Ado05] verwiesen. • Schemata: Die XMP bietet dem Anwender die Möglichkeit aus einem Fundus von Metadatensätzen (Schemata) ein passendes auszuwählen und so zumindest ein Grundgerüst für das zu beschreibende Objekt zu erhalten. Zur Auswahl stehen unter anderem der Dublin Core (siehe Seite 27), ein Basisschema von XMP, ein Schema für die digitale Rechteverwaltung und ein EXIF-Schema. Abbildung 3.2 zeigt einen Screenshot, der die Metadaten der Spezifikation der XMP zeigt. Interessant ist vor allem der Zusammenhang zwischen den einzelnen Feldern (z.B. Titel) verschiedener Metadatenformate (Dublin Core und XMP Core). Dieser Aspekt wird in Kapitel 5 diskutiert. 12 Eclipse, aktuell in der Version 3.3 verfügbar, ist eine auf Plug-Ins basierende integrierte Entwicklungsumgebung (IDE). Eclipse ist als Open-Source-Software und somit kostenlos erhältlich. 24 3 Metadatenformate Abbildung 3.2: Metadaten mit XMP ausgelesen Die XMP unterstützt die Einbettung von Metadaten in eine Vielzahl von Dateiformaten. Hierzu zählen unter anderem TIFF, JPEG, JPEG 2000, GIF, PNG, HTML und PDF. 3.2 Metadaten im World Wide Web Nachdem im vorangegangenen Teil Metadatenformate vorgestellt wurden, die sich primär im Bereich der Multimedia positioniert haben, wird im nun folgenden Teil auf Ansätze eingegangen, die sich mit der Beschreibung von digitalen Objekten und Ressourcen im World Wide Web beschäftigen. 3.2.1 Resource Description Framework Die Grundidee, die hinter dem Resource Description Framework (RDF) steckt, ist die, Webressourcen mit zusätzlichen Informationen zu versehen, die dem Betrachter sonst verborgen blieben. Mit den beigefügten Metadaten sollen Inhalte des WWW maschinell 25 3 Metadatenformate interpretierbar und zusammen mit dem RDF-Schema13 Zusammenhänge automatisch erkennbar werden. Es soll außerdem dazu beisteuern, die Kompatibilität zwischen Anwendungen zu gewährleisten, die sich diese maschinenlesbaren Informationen teilen oder gemeinsam über das WWW darauf zugreifen. Das RDF ist eine Empfehlung des W3Cs, die das RDF-Modell und deren Syntax 1999 vorstellte. Das RDF-Modell besteht im Wesentlichen aus dem Tripel Ressource (auch Subjekt genannt), Eigenschaft (oder auch Prädikat) und Objekt (Wert). Eine Ressource ist das Subjekt, welches beschrieben werden soll. Vorstellbar im Kontext des WWW sind Websites, streambare Videos oder auch elektronische Bücher. Eine Ressource ist definiert durch ihre Eigenschaften. Eine Webseite hat zum Beispiel einen Urheber und einen Titel, streambare Videos zudem vielleicht einen Vermerk über das Urheberrecht und eBooks neben dem Titel auch einen Abstract oder eine Angabe über die Anzahl der Seiten. Diese Eigenschaften haben einen konkreten Wert, der durch das Objekt repräsentiert wird. Die Webseite könnte den Autor W3C und den Titel RDF/XML Syntax Specification (Revised) haben, der Vermerk über das Urheberrecht jegliche Verbreitung verbieten und die Seitenanzahl 615 betragen. Das RDF ist grundsätzlich nicht an eine Darstellungsform gebunden. Das W3C empfiehlt im Vorschlag [Bec04] aber die Nutzung von XML, welches sich letztendlich auch durchgesetzt hat14 . Das folgende nach [Bec04] erzeugte Beispiel zeigt einen XML-Ausschnitt, der den Autor sowie den Titel dieser Seminararbeit beinhaltet. Listing 3.4: Ausschnitt eines RDF XML-Beispiels 1 2 3 4 5 6 7 8 <rdf:Description rdf:about="www.inf.fh-brs.de"> <ex:editor> <rdf:Description> <ex:fullName>Kai Wiemer</ex:fullName> </rdf:Description> </ex:editor> <dc:title>Metadatenformate</dc:title> </rdf:Description> Dem Code-Listing ist zu entnehmen, dass das RDF selbst keine Vorgaben für Metadaten liefert. Vielmehr hat der Anwender die Möglichkeit auf Vorschläge (hier Dublin Core, siehe Abschnitt 3.2.2) anderer Initiativen zurückzugreifen. Das macht diesen Ansatz zwar flexibel, aber bedingt durch das Tripel aus Subjekt, Prädikat, Objekt nicht mächtig genug, um komplexe Inhalte, wie Klassendefinitionen und Hierarchien zu definieren bzw. automatisch erzeugen zu lassen. Im Jahre 2000 folgte deswegen durch das W3C der Vorschlag des RDF-Schemas ([BG00]). Ähnlich einer Dokumenttypdefinition (DTD) werden hier durch Klassen und Eigenschaften einfache Ontologien erzeugt. An dieser Stelle sei auf den genannten Vorschlag des W3C verwiesen. Eine nähere Erläuterung würde den Rahmen dieser Arbeit sprengen. 13 Das RDF-Schema kann als Erweiterung für das RDF gesehen werden. Das RDF alleine ist nicht in der Lage komplexe Zusammenhänge, wie etwa Relationen zwischen den Eigenschaften einer Ressource und anderen Ressourcen darzustellen. Diese Funktionalität steht erst mit dem RDFSchema zur Verfügung. 14 Eine weitere, nicht so verbreitete Methode ist es, die drei Kernkomponenten in einem Graphen darzustellen. Ressourcen werden als Ellipsen, Eigenschaften als Kanten und deren Werte als runde Knoten dargestellt. Beispiele hierfür können [Bec04] entnommen werden. 26 3 Metadatenformate 3.2.2 Dublin Core Der Dublin Core (DC) ist ein standardisierter Satz von Kernelementen, der als Metadaten in Dokumente, Mediadateien oder andere Objekte im Internet eingebettet werden kann. Hierbei hängt es vom Dokumenten- bzw. Dateityp ab, ob die Metadaten intern oder extern gespeichert werden. Der DC wurde von der Dublin Core Metadata Initiative (DCMI) im März 1995 in Dublin, Ohio im Rahmen einer Konferenz mit dem Ziel definiert, Ressourcen im Web einheitlich zu beschreiben, zu kategorisieren und aufzufinden. Das Dublin Core Metadata Element Set (kurz Dublin Core) liegt aktuell in der Version 1.1 ([Dub08]) vor und beinhaltet das Vokabular von 15 Eigenschaften (siehe unten). Der Name Dublin Core setzt sich aus dem Gründungsort der DCMI und dem Zusatz Core, im Deutschen Kern, zusammen. Die Begrifflichkeit wurde gewählt, weil sich die DCMI sicher ist, dass die 15 Elemente ein weitreichendes und generisches Mittel darstellen, um Ressourcen adäquat zu beschreiben und zu lokalisieren. Der DC ist nur eine Untermenge der so genannten DCMI Metadata Terms, die alle Begrifflichkeiten der durch die DCMI gepflegten Metadaten beinhalten. Hierzu gehören Eigenschaften (z.B. Zielgruppe, Verfügbarkeit, usw.), Kodierungsschemata für das notwendige Vokabular (z.B. Ländercode, Zahlendarstellung, usw.), Kodierungsschemata für die Syntax (vor allem ISO Normen, z.B. ISO 639-3 zur Darstellung von Sprachen in Form von 3-stelligen Zeichenketten) und Klassen (z.B. Dateiformat von Mediadateien im Internet, Anzahl der Zugriffe auf ein bestimmtes Objekt, usw.). Dieser erweiterte Satz von Elementen gibt Anwendern die Möglichkeit ein Objekt genauer bzw. umfassender zu beschreiben als dies mit dem DC alleine möglich wäre. Der Dublin Core umfasst die folgenden 15 Elemente15 : 1. contributor (Mitwirkende/Mitwirkender) 2. coverage (Geltungsbereich, z.B. räumliches oder zeitliches Thema) 3. creator (Urheberin/Urheber) 4. date (Zeitangabe) 5. description (Beschreibung) 6. format (Format, z.B. Dateiformat) 7. identifier (Identifikator, eindeutige Referenz) 8. language (Sprache) 9. publisher (Verlegerin/Verleger) 10. relation (Beziehung, z.B. zu anderen Ressourcen) 11. rights (Rechte) 12. source (Quelle) 15 Diese Aufzählung ist alphabetisch sortiert, gibt also nicht an, in welcher Reihenfolge die Elemente bei einem Objekt angegeben werden. Die DCMI schreibt keine solche Reihenfolge vor. 27 3 Metadatenformate 13. subject (Thema) 14. title (Titel) 15. type (Typ, z.B. Art oder Gattung) Der Dublin Core ist ein anerkannter und weit verbreiteter Standard. Es handelt sich um eine der ersten Entwicklungen im Bereich der Metadaten im Umfeld des WWW und er wird heute unter anderem in der XMP (siehe Abschnitt 3.1.8) und im RDF (siehe Abschnitt 3.2.1) eingesetzt. Es ist jedoch leicht ersichtlich, dass der DC aufgrund wachsender Informationsbedürfnisse, steigender Anzahl an Dateiformaten und komplexerer Zusammenhänge zwischen Webressourcen auf lange Sicht nur unzureichende Möglichkeiten bieten kann, digitale Objekte exakt zu beschreiben und so effektiv auffindbar zu machen. Daher ist es empfehlenswert, bei fehlenden Feldern auch die DCMI Metadata Terms mit einzubeziehen. 3.2.3 Online Information eXchange Das Metadatenformat Online Information eXchange (ONIX) wurde von der Book Industry Study Group entwickelt und liegt zur Zeit in der Version 2.1 vom Juli 2004 vor. ONIX dient dem Austausch von Informationen über das WWW, wurde speziell auf die Bedürfnisse von Verlegern abgestimmt und wird daher auch ONIX for Books genannt. Ein Problem, das bis heute nicht vollständig gelöst werden konnte, ist der Medienbruch, der mit der Logistik des Buchhandels einhergeht. Ein Beispiel verdeutlicht diesen Sachverhalt: Ein Großteil der Rechnungen im Buchhandel wird zwar computergesteuert erzeugt, dann aber ausgedruckt und auf klassischem Weg per Briefpost an den Kunden geschickt, nur um im Anschluss auf Seiten des Rechnungsempfängers von Hand wieder digitalisiert zu werden. ONIX soll diesen zeit- und kostenintensiven Umweg verhindern, indem es für den Buchhandel relevante Daten einheitlich speichert, digital verfügbar und zentral zugänglich macht. Die ONIX-Metadaten werden im XML-Format gespeichert und sind in einer DTD mit mehr als 400 Elementen definiert. Zu diesen Elementen zählen neben dem Titel und dem Autor unter anderem auch die ISBN- und EAN13-Nummer, die Anzahl der verkauften Exemplare und der Preis. Die Dokumente der Spezifikation können unter [Boo06] eingesehen werden. 3.2.4 Open Archives Initiative Protocol for Metadata Harvesting Aufgrund der Vision, Zugang zu noch nicht in Druck gegangener Forschungsergebnisse und anderer Publikationen zu schaffen und der Verdrossenheit einiger Wissenschaftler 28 3 Metadatenformate und Autoren gegenüber ihren Verlegern16 , wurde im Jahre 1999 die Open Archives Initiative gegründet. Ziel war es, ein Protokoll zu entwickeln, das auf der Basis so genannter Preprint Dokumenten-Server aufbaut. Diese Server sollten zum einen die zentrale Ablage aktueller wissenschaftlicher Veröffentlichungen erlauben und, was noch viel wichtiger war, das effektive Recherchieren nach diesen Dokumenten erlauben. Nach etwa einjähriger Entwicklung wurde im Jahre 2001 die erste (offizielle) Version des OAI Protocol for Metadata Harvesting (PMH) vorgestellt, das genau diese Idee umsetzt. Beim PMH handelt es sich also nicht um Vorgaben über einen Satz von Metadaten, sondern um ein Protokoll, das webbasiert einen einheitlichen Zugang zu mit Metadaten versehenen Dokumenten schafft. Voraussetzung hierfür ist es, dass die Diensteanbieter ihre Dokumente so mit Metadaten aufbereiten, dass sie vom PMH erfasst werden können. Die Beschreibung der digitalen Dokumente erfolgt im XML-Format und muss der Definition eines durch die OAI erzeugten XML-Schemas genügen. Hierzu zählen der header, der unter anderem einen einheitlichen Bezeichner, sowie das Datum der Erzeugung oder der letzten Änderung enthält, das Element metadata, das die Metadaten17 enthält und das Element about, das die Erfassung zusätzlicher Informationen über die Metadaten erlaubt. Das Protokoll ist nicht an ein bestimmtes Metadatenformat gebunden. Es erlaubt unterschiedliche Formate, verlangt jedoch, dass ein Metadatum mit einem Präfix entsprechend gekennzeichnet wird. Ein Beispiel für eine erfolgreiche Implementierung ist die Suchmaschine OAIster ([Dig08b]), die heute als die wichtigste Suchmaschine für öffentliche Inhalte gilt. Zum Zeitpunkt der Erstellung dieser Arbeit, umfasste die Datenbank Einträge zu mehr als 16 Millionen Dokumenten von mehr als 950 Institutionen. 3.3 Metadaten in (digitalen) Bibliotheken Im letzten Teil des Kapitels werden Metadatenformate vorgestellt, die im Bereich der Verwaltung von (digitalen) Bibliotheken eingesetzt werden. 3.3.1 Machine-Readable Cataloging Machine-Readable Cataloging (MARC) ist kein einzelnes Metadatenformat, sondern eine Sammlung von Standards, um zum Beispiel bibliographische Informationen in 16 Steigende Preise für Abonnements wissenschaftlicher Fachzeitschriften und der damit verbundene Absatzrückgang, sowie größere zeitliche Abstände zwischen Einreichung und Veröffentlichung eines Artikels und nicht zuletzt die rechtliche Abhängigkeit der Autoren von Verlagen, führte in der Vergangenheit zu steigender Unzufriedenheit der Autoren und Forscher. 17 Laut der Spezifikation [LS02] der OAI muss dieser Metadatensatz mindestens die Felder des Dublin Cores beinhalten. 29 3 Metadatenformate maschinenlesbarer Form darzustellen und zu kommunizieren18 . Die Entwicklung von MARC durch die Library of Congress (LOC), der weltweit zweitgrößten Bibliothek, begann parallel mit den ersten Schritten computergesteuerter Erfassungssysteme in den siebziger Jahren. Die Idee war, einen einheitlichen maschinenlesbaren Satz von Informationen über bibliothekarische Inhalte (Bücher, Schriften, Fotografien, Karten, usw.) bereitzustellen und damit die veralteten und schwer wartbaren KarteikartenKataloge zu ersetzen. Ein MARC Datensatz besteht aus mehreren Feldern, die ihrerseits wieder aus Unterfeldern bestehen können. Es existieren Felder für den Autor, den Titel, für die Zugehörigkeit zu einem Satz usw. Diese Felder werden nicht textuell gespeichert, sondern kodiert als dreistellige Zahl (Tag). Das hat den Vorteil, dass sie weniger Platz in Anspruch nehmen und dass rechnergestützte Anwendungen effektiver auf einzelne Felder zugreifen können. Der Name (Autor) eines Feldes (Tag: 100) kann dann, wenn die Metadaten zum Beispiel in einer Anwendung menschenlesbar visualisiert werden sollen, über ein Mapping bezogen werden. Viel verwendete Tags sind 010 (LOC-Kontroll-Nummer), 020 (ISBN-Nummer), 100 (Autor), 245 (Titel) und 250 (Edition). Die komplette und sehr umfangreiche Liste kann unter [Lib07] eingesehen werden. Folgendes Beispiel zeigt zunächst die Spezifikation und dann ein Beispiel für den MARC-Eintrag Personenname: Listing 3.5: MARC Beispiel für den Personennamen (Autor) 1 Spezifikation 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 100 Haupteintrag -- Personenname -- (Primärer Autor) Indikator 1: Art des Eintrags 0 -- Vorname 1 -- Nachname 3 -- Familienname Indikator 2: undefiniert Wurde 1990 obsolet. Ältere Einträge können 0 oder 1 anzeigen. Unterfelder: $a -- Personenname $b -- Nummerierung $c -- Titel, die mit dem Namen im Zusammenhang stehen $q -- Ausgeschriebene Version des Namens $d -- Datum, der mit dem Namen im Zusammenhang steht, meist Geburtstag 18 19 Beispiel 20 21 22 23 100 1# $a Goethe, Johann W. $q (Johann Wolfgang) $d 1749-1832 18 Neben dem Standard MARC 21 Format for Bibliographic Data, der hier vorgestellt wird, existieren MARC 21 Format for Authority Data, MARC 21 Format for Holdings Data, MARC 21 Format for Classification Data, MARC 21 Format for Community Information und Code Listen für Länder, Sprachen, geographische Bereiche und Organisationen. Weiterführende Informationen hierzu finden sich auf der Homepage der LOC zu MARC [Lib08a]. 30 3 Metadatenformate MARC wurde zuletzt im Oktober 2007 aktualisiert. Die deutsche und die österreichische Nationalbibliothek befinden sich zur Zeit in der Umstellung vom nationalen MAB-Format (siehe Abschnitt 3.3.3) auf das internationale MARC. 3.3.2 Metadata Encoding and Transmission Standard Der Metadata Encoding and Transmission Standard (METS) wird von der Digital Library Federation entwickelt und - wie MARC auch - von der LOC beaufsichtigt und gepflegt. Im Gegensatz zu MARC handelt es sich bei METS aber nicht um ein Metadatenformat, sondern um ein offenes, nicht proprietäres XML-Schema zur Erzeugung von XML-Dokumenten. Diese speichern Erschließungsangaben, Verwaltungsdaten und Metadaten für die Struktur eines DOs und beinhalten Informationen darüber, in welchem Zusammenhang das beschriebene Objekt mit anderen DOs steht. METS schreibt den Inhalt der Metadaten nicht vor, empfiehlt aber vordefinierte Sätze. So zum Beispiel lässt sich der in Abschnitt 3.1.3 vorgestellte VRA Core aufgrund seiner XML-Struktur unkompliziert in das METS-Schema einbinden. Ein METS-Dokument beinhaltet alle Typen von Metadaten (beschreibende, strukturelle und administrative). Diese können in unterschiedlichen Sektionen gespeichert und über Identifikatoren referenziert werden. Die Metadaten und das beschriebene digitale Objekt liegen entweder getrennt vor, oder zusammen im METS-Dokument. Ein solches Dokument besteht aus sieben Teilen, die im Folgenden genannt und kurz erläutert werden sollen. • METS Header: Beschreibungen, die das METS-Dokument selber betreffen, werden in das Element <metsHdr> des Kopfteils geschrieben. Zu diesen Beschreibungen gehören der Name der Autoren, das Datum der Erzeugung bzw. der letzten Änderung oder auch der Stand des Dokuments. • Descriptive Metadata: Beschreibende Metadaten (Erschließungsangaben) liegen im Element <dmdSec> und können intern oder extern vorliegen. Liegen sie außerhalb des METS-Dokuments vor19 , so werden sie über einen URI in dem XMLElement <mdRef> referenziert. Interne beschreibende Metadaten werden über das Element <mdWrap> angesprochen, das entweder binäre Daten (<binData>) oder - entsprechend des Namensraumes des METS-Schemas - Daten in XML-Form (<xmlData>) beinhaltet. Die LOC hat als deskriptive Metadatenformate den DC, das MODS, MARC und den VRA Core für den MET-Standard indossiert ([Dig08a]). • Administrative Metadata: Metadaten zur Verwaltung werden durch das Element <amdSec> beschrieben und beinhalten technische Metadaten, Urheberrechte und Lizenzinformationen, Angaben zur Quelle und digitale Herkunftsangaben. Auch diese Informationen liegen, wie die Erschließungsangaben, entweder intern oder extern vor. Bei Bildern ist hier eine Implementierung der in Abschnitt 3.1.7 vorgestellten NISO Metadata for Images in XML denkbar ([Dig08a]). 19 Zum Beispiel in anderen Dokumenten oder in einer Webressource. 31 3 Metadatenformate • File Section: Wenn das DO aus mehreren Dateien besteht, kann in diesem Abschnitt sichergestellt werden, dass zusammengehörige Dateien auch zusammengehalten werden. Über das Element <fileGrp> können verschiedene (externe) Quellen z.B. über URLs oder URIs referenziert werden. • Structural Map: Die Struktur in einem Buch ist dadurch sichergestellt, dass das Buch gebunden ist und über Seitenzahlen verfügt. Bei DOs ist die Struktur nicht selbstverständlich. In den Strukturbeschreibungen werden daher genau diese Informationen hinterlegt. So kann gewährleistet werden, dass nach dem Vorwort Kapitel 1, danach Kapitel 2, usw. folgt. Im Element <structMap> wird mit Hilfe von <div>-Elementen die Struktur festgelegt. • Structural Links: Sollen die oben genannten Strukturbeschreibungen miteinander verknüpft werden, erfolgt dies über die Strukturverknüpfungen. Anschaulich bedeutet dies nichts anderes als beispielsweise im Inhaltsverzeichnis eines PDFDokument auf einen Eintrag zu klicken und direkt auf die gewünschte Seite zu gelangen.20 • Behavior: Soll das digitale Objekt über die vorangegangenen Elemente hinaus Programmlogik unterstützen, so wird im Element <behavior> eine Schnittstellendefinition angegeben, die zumindest eine abstrakte Definition der später unterstützten Funktionen enthält. Das Unterelement <mechanism> verweist dann auf den Programmcode, der die in der Schnittstelle definierten Funktionen implementiert. Das METS-Schema liegt aktuell in der Version 1.7 vom Oktober 2007 vor und kann unter [Dig07] eingesehen werden. Das METS-Schema lässt sich aufgrund der unterstützen beschreibenden und administrativen Metadatenformate nicht eindeutig den Metadatenformaten für (digitale) Bibliotheken zuordnen. Die Kategorisierung erfolgte aber aufgrund der Betreuung durch die LOC und aufgrund dessen, dass viele Nationalbibliotheken das METS-Schema einsetzen. 3.3.3 Maschinelles Austauschformat für Bibliotheken Das Maschinelle Austauschformat für Bibliotheken (MAB) ist in seiner aktuellen Version MAB2 (1995), ähnlich MARC, eine Sammlung von Standards. Die Sammlung umfasst die Formate MAB-Format für bibliographische Daten, MAB-Format für Personennamen, MAB-Format für Körperschaftsnamen, MAB-Format für Schlagwörter und MAB-Format für Lokaldaten, sowie die beiden provisorischen Formate MAB-Format für Adress- und Bibliotheksdaten und MAB-Format für Klassifikations- und Notationsdaten. Dieser Abschnitt befasst sich jedoch nur mit dem Teil der bibliographischen Daten. Auch wenn sich in den Spezifikationen auf Anhieb Parallelen zwischen MAB2 ([Die07]) und MARC ([Lib07]) finden lassen, so unterscheiden sie sich doch durch ein wesentliches Merkmal. MAB2 zeichnet sich durch eine wesentlich höhere Granularität aus. Jedes Element (Feld) kann als solches verwendet werden. MARC auf der anderen 20 In ihrer digitalen Version unterstützt die vorliegende Seminararbeit diese Funktion. Gekennzeichnet werden die Verknüpfungen durch diese Farbe. 32 3 Metadatenformate Seite schreibt bei einigen Feldern auch Unterfelder vor. Dem Listing 3.5 kann man entnehmen, dass der Personenname unter anderem die Unterfelder Nummerierung und Datum vorsieht. Bei MAB2 wird dieser Zusammenhang dadurch hergestellt, dass die atomaren Felder Nummerierung und Datum als Unterelemente von Personenname in einer Baumstruktur gruppiert werden. Um MAB2 Felder und Datensätze zu transportieren und durch das in Abschnitt 3.2.4 vorgestellte Protokoll lesbar zu machen, wurde im Jahre 2003 das MABxml-Format vorgestellt. Die Schemadefinition zur Darstellung der MAB-Felder in XML-Struktur wurde im Mai 2005 zuletzt aktualisiert und liegt in der Version 1.2 ([Ket04]) vor. Um die korrekte Darstellung und Umwandlung von MAB2 in MABxml zu garantieren, wurde zudem ein Satz von Übertragungsregeln definiert (siehe [Ket03]). MAB2 wurde unter der Führung der Deutschen Nationalbibliothek (DNB) von der Expertengruppe Datenformate entwickelt und auch gepflegt. Zur Zeit befindet sich die DNB jedoch in der Umstellung von MAB2 auf MARC. Eine Verbesserung der Übernahme und des Tausches von Fremddaten sowie eine freiere Systemwahl ([Die08]) sollen diesen Schritt rechtfertigen. MAB2 wurde zunächst nur noch in international kompatibler Weise gepflegt. Anfang 2007 wurde die Weiterentwicklung vollständig eingestellt. 3.3.4 Metadata Object Description Schema Aufgrund der Tatsache, dass METS für viele Anwender zu viele Felder bietet und es damit schwieriger wird, genau die Metadaten zu extrahieren, die benötigt werden, wurde das Metadata Object Description Schema (MODS) vom Network Development and MARC Standards Office der LOC entwickelt. MODS wurde vor allem für die Nutzung durch Bibliothekenanwendungen entworfen und stellt eine Teilmenge des MARC 21 Format for Bibliographic Data dar21 . Dabei ist es mächtiger als der Dublin Core, aber nicht so komplex wie METS. Es enthält die vermeintlich wichtigsten Felder von MARC, was aber mit dem Verlust der speziellen Metadaten bei einer Konvertierung von MARC nach MODS verbunden ist. Durch diesen Datenverlust ist es anschließend nicht mehr möglich den originalen MARC Datensatz wiederherzustellen. Ein weiterer Unterschied ist der, dass Feldnamen im MODS nicht mit einer dreistelligen Zahl (Tag), sondern mit einem englischen Bezeichner (titleInfo, name, typeOfResource, usw.) benannt sind. Auch MODS wurde in einem XML-Schema definiert und liegt aktuell in der Version 3.3 vom 15. Januar 2008 vor (siehe [Lib08c]). Insgesamt beinhaltet das Schema 20 so genannte Top Level Elemente, zu denen neben den bereits genannten auch genre, language, abstract und location gehören. Listing 3.7 zeigt ein kleines Beispiel einer MODS-XML-Datei. 21 MODS ist keine echte Teilmenge von MARC. Mit der Entwicklung von MODS wurden einige Felder vom MARC reorganisiert und dort, wo es sinnvoll war, wurden mehrere Felder zu einem gebündelt. 33 3 Metadatenformate Listing 3.6: Reduziertes MODS Beispiel für die vorliegende Seminararbeit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 <?xml version=’1.0’ encoding=’UTF-8’ ?> <mods version="3.3" ... <titleInfo> <title>Metadaten</title> </titleInfo> <name type="personal"> <namePart>Wiemer, Kai</namePart> <role> <roleTerm type="text">creator</roleTerm> </role> </name> <originInfo> <place> <placeTerm type="text">Sankt Augustin</placeTerm> </place> <dateIssued>15.06.2008</dateIssued> </originInfo> <language> <languageTerm authority="iso639-2b" type="code">ger</languageTerm> </language> </mods> 3.3.5 BibTex Diese Seminararbeit wurde mit dem Textsatzprogramm LATEXgeschrieben. LATEXsetzt das WYGIWYM -Konzept22 um und zeichnet sich vor allem dadurch aus, dass externe Software-Bibliotheken eingebunden und erstellte Dokumente so um nützliche Funktionen erweitert werden können. BibTex ist eine dieser Bibliotheken und wurde entwickelt, um Literaturangaben einheitlich zu gestalten und Zitationen korrekt durchzuführen. Eine BibTex-Datei enthält für jede Literaturangabe einen Datensatz. Da nicht alle Quellen die gleichen Felder erfordern, existieren vordefinierte Literaturtypen, zum Beispiel für ein Buch (@book), einen Artikel (@article) oder für technische Reporte (@techreport). Ein Literaturtyp hat obligatorische Felder, die zwingend angegeben werden müssen und optionale Felder, deren Nutzung dem Anwender freistehen. Der Literaturtyp book hat die Pflichtfelder author, title, journal und year und die optionalen Felder volume, number, pages, month und note. Folgendes Beispiel zeigt einen manual-Literatureintrag aus der BibTex-Datei dieser Seminararbeit, der auf die BibTex-Dokumentation verweist. 22 WYGIWYM ist ein Akronym und steht für what you see is what you mean. Im Gegensatz zu what you see is what you get-Ansätzen, wie das frei verfügbare Open Office Writer, muss der Anwender Textdateien erstellen und entsprechende Formatierungen mit speziellen Befehlen und Markierungen kennzeichnen. Die Textdateien werden kompiliert (Satz, Einbinden von Bildern, automatisches Erstellen von Verzeichnissen, usw.) und das Ergebnis zum Beispiel als PDF exportiert. 34 3 Metadatenformate Listing 3.7: Beispiel für den BibTex Literaturtyp manual 1 2 3 4 5 6 7 @manual{bibtex01, author = "Oren Patashnik", title = "BIBTEXing", year = "1988", month = feb, note = "\url{http://dante.ctan.org/CTAN/biblio/bibtex/contrib/doc/btxdoc.pdf}. online am 20.04.2008" } Angegeben sind die Metadaten Autor, Titel, Erscheinungsjahr und -monat und ein zusätzlicher Kommentar, der den URL zu dem extern verfügbaren Dokument und das Datum der letzten Sichtung beinhaltet. Zu beachten ist, dass nur der Titel ein Pflichtfeld darstellt. BibTex ist ein verbreitetes Format, das unter anderen bei der Literatur-Suchmaschine CiteSeer ([NEC08]) verwendet wird. Ein Suchergebnis liefert neben Statistiken über die Zitation auch den exakten BibTex-Eintrag. 35 4 Metadaten und Dateiformate In diesem Kapitel soll untersucht werden, inwieweit ausgewählte Dateiformate über die Möglichkeit verfügen, sie mit Metadaten zu versehen. Hierbei ist zu beachten, dass es beispielsweise mit dem XBMF grundsätzlich möglich ist, jede Datei mit Metadaten zu versehen. Wie in Abschnitt 3.1.4 erläutert, wird das Archiv bestehend aus Audiound anderen Dateien komprimiert und über die beigefügte XML-Datei mit Metadaten angereichert1 . Dieses Kapitel legt den Schwerpunkt der Untersuchung daher auf interne Metadaten. 4.1 Portable Document Format (.pdf) Das durch Adobe entwickelte und 1993 mit Acrobat veröffentlichte Portable Document Format wird heute, wie alle Ausgabeformate der Adobe-Produktreihe (.psd, .ai, .indd, usw.), durch die Extensible Metadata Platform unterstützt. Aus diesem Grund können alle durch die XMP unterstützen Metadatenformate in PDF-Dateien eingebettet werden. Die XMP unterstützt durch vordefinierte Schemata unter anderem den Dublin Core und das Exchangeable Image File Format. Beide Formate und deren Felder wurden im Abschnitt 3.1 vorgestellt. Die steigende Anzahl der Benutzer unter den Industriestandard-Gruppen - unter anderem das W3C, die DCMI und das IPTC spricht für die steigende Anzahl an unterstützten Formaten in der Zukunft. 4.2 Joint Photographic Experts Group (.jpg, .jpeg) Das verlustbehaftete Bildformat der Joint Photographic Experts Group (JPEG) unterstützt die Möglichkeit sowohl Metadaten des EXIFs als auch des IPTCs (Information Interchange Model) einzubetten. Zu den Metadatenfelder gehören demnach Headline, Titel des Bildes, Name des Motivs, Keywords, Copyright, verschiedene Ortsangaben, Writer/ Editor, kameraspezifische Metadaten und weitere Informationen über den Zusammenhang zwischen Bild und Kamera. Das Information Interchange Model wurde auf Seite 16 und das Exchangeable Image File Format auf Seite 21 vorgestellt. 1 Zu beachten ist, dass das XBMF ein Metadatenformat ist, welches primär für Audiodateien entwickelt wurde. Zwar lassen sich beliebige Dateien im Dateicontainer unterbringen, jedoch stellt sich die Frage, inwieweit der durch das XBMF zur Verfügung gestellte Satz von Metadaten genügt, um alle Objekte adäquat zu beschreiben. 36 4 Metadaten und Dateiformate 4.3 Microsoft Office Standard (.doc, .xls, .ppt) In diesem Abschnitt soll auf die Dateiformate .doc, .xls und .ppt der Programme Word, Excel und PowerPoint des Microsoft Office Standard-Pakets als Gesamtes eingegangen werden. In den Dateieigenschaften dieser Dateiformate lassen sich neben den Betriebssystem-spezifischen Metadaten Pfad, Datum der Erzeugung, Letzte Änderung, Letzter Zugriff, Besitzer, Dateigröße und verschiedenen Prüfsummen, auch die Metadaten Titel, Autor, Thema, Kommentare, Revisionsnummer, Programmname (z.B. Microsoft Word 9.0), Status, Seitenanzahl, Wortanzahl, Zeichenanzahl, Zeilenanzahl, Absatzanzahl, Art der Vorlage, und die Sprache ablesen. Microsoft selber nennt im Artikel [Mic08] neben den hier genannten außerdem die Metadatenfelder Name des Computers/Netzwerkservers, Namen aller Autoren, Versionsnummern, und weitere versteckte Felder an. Den Regeln eines bestimmten Metadatenformats scheint dieser Ansatz jedoch nicht zu folgen. Hierfür werden zu wenige allgemeine und zu viele programmspezifische Metadaten gespeichert. Nicht einmal der DC wird abgedeckt. Um diese Metadaten vor Dritten zu verbergen, hat Microsoft das Add-In Remove Hidden Data für das Office Paket bereitgestellt. An dieser Stelle sollte auch das frei verfügbare Tool MetaViewer der Firma Pinpoint erwähnt werden, welches die Metadaten der besagten Formate ausliest. Der MetaViewer findet auch in der Forensik Anwendung, beispielsweise, um den exakten Verlauf von Dokumentenversionen nachzuvollziehen. 4.4 OpenOffice.org (.odt, .ods, .odp) Ähnlich dem Office Paket der Microsoft Corporation unterstützt das freie OpenOffice.org das Einbetten von Metadaten in das Dokument und liefert im Paket einen Dialog2 zum Editieren dieser Daten. Die vorhandenen Felder wurden in die folgenden Kategorien eingeteilt: • Allgemein: Dateityp, Ort im Dateisystem, Größe, Erstellungsdatum, Änderungsdatum, digitale Signatur, Letzter Druck, Gesamtbearbeitungszeit, Version und Vorlage. • Beschreibung: Titel, Thema, Schlüsselwörter und Kommentar. • Benutzer: In dieser Kategorie lassen sich Informationen zu vier Benutzern als Freitext angeben. • Statistik: Dieser Bereich ist abhängig vom Dateityp. In .odt-Dokumenten findet man hier die Anzahl der Seiten, Tabellen, Grafiken, OLE-Objekte, Absätze, Wörter, Zeichen und der Zeilen, in .ods-Dokumenten die Anzahl der Tabellen, der Zellen und der Seiten. In .odp-Dateien fehlt diese Kategorie vollständig. 2 Im geöffneten Dokument zu finden unter Datei → Eigenschaften.... Getestet mit der WindowsVersion 2.3.1. 37 4 Metadaten und Dateiformate Der Dialog bietet dem Anwender zumindest die Möglichkeit die Metadaten der Kategorie Allgemein zu löschen und so zum Teil kritische Informationen vor Dritten zu verbergen. Auch der Ansatz im OpenOffice.org Paket zielt nicht darauf, ab einen bestimmten Metadatensatz abzudecken. 4.5 Tagged Image File Format (.tiff) Das Tagged Image File Format (TIFF) ist ein Format zur Speicherung von Bilddaten, die intern komprimiert (ohne Verlust mit zlib oder verlustbehaftet mit JPEG) werden können. Eingesetzt wird das Format aufgrund des unterstützten Farbraums und der Möglichkeit, verlustunbehaftet zu Speichern, vor allem in der Druckvorstufe. Auch das Tagged Image File Format wird durch das XMP unterstützt und verfügt daher über die gleichen Möglichkeiten Metadaten aufzunehmen, wie auch JPEG und das im Anschluss erläuterte Graphics Interchange Format(GIF). Eine TIFF-Bilddatei verfügt über ein so genanntes Image File Directory (IFD), welches Informationen über das Bild und Referenzen auf das eigentliche Bild bereithält. Eine dieser Referenzen nutzt das XMP, um auf das XMP-Datenpaket zu verweisen ([Ado05]). 4.6 Compuserve Graphics Interchange Format (.gif) und Portable Network Graphics (.png) Eine GIF-Bilddatei erfüllt genau die Anforderungen, um es im Bereich des WWW einzusetzen. Es ist verlustunbehaftet und die Dateigröße dabei verhältnismäßig klein, was einer schnellen Übertragung zu Gute kommt. Der wesentliche Nachteil von GIF ist der, dass das Bild mit maximal 256 Farben kodiert werden kann. Aus diesem Grund wurde das Portable Network Graphics Format (PNG) entwickelt. Es komprimiert in der Regel noch besser als das GIF und unterstützt eine Farbtiefe von bis zu 48 Bit. Beide Formate können mittels XMP mit Metadaten versehen werden. 4.7 Moving Picture Experts Group (.mpg, .mpeg) Wenn man von MPEG Dateien spricht, meint man in der Regel verlustbehaftet-komprimierte Videos im MPEG-2 Format. Da dieser Standard nur strukturelle Metadaten (Aufbau der Videodatei) bereithält, veröffentlichte die Motion Picture Expert Group 2002 die Multimedia Content Description Interface (MPEG-7). Mit ihr es ist möglich, audiovisuellen Inhalt, also auch MPEG-2 Dateien, zu beschreiben. Das in Abschnitt 3.1.1 beschriebene Verfahren nutzt jedoch eine extern liegende XML-Datei, um das Objekt (hier das Video) mit Metadaten zu versehen. Eine Einbettung in die binäre Datei ist somit nicht möglich. 38 4 Metadaten und Dateiformate 4.8 Moving Picture Experts Group 1 Audio Layer 3 (.mp3) Der MP3-Standard selbst sieht keine Möglichkeit vor, Metadaten in die Binärdaten einzubetten. Mit dem auf Seite 20 vorgestellten ID3-Verfahren ist es jedoch möglich Metadaten intern in MP3-Dateien zu speichern. Da dieser Ansatz speziell für das MP3Format entwickelt wurde, unterstützt es in seiner aktuellen Version alle erdenklichen Felder, um Musikstücke in diesem Format mit Zusatzinformationen zu versehen. Insgesamt über 70 Felder lassen sich mit aktuellen Mediaplayern oder speziellen Tools befüllen und das Musikstück somit taggen. Abbildung 4.1 zeigt einen Screenshot aus dem mächtigen und gleichermaßen komfortablen Tool ID3-TagIT, mit dem man alle durch ID3 definierten Felder befüllen und eine MP3-Datei zudem mit einem Bild (z.B. das Plattencover) versehen kann. Abbildung 4.1: Screenshot aus dem Programm ID3-TagIT 4.9 Hypertext Markup Language (.html, .htm) HTML-Dateien speichern Metadaten im Header in den so genannten <meta>-Tags. Diese werden vom Browser nicht angezeigt, können jedoch wichtige zusätzliche Informationen über das Objekt beinhalten. Suchmaschinen durchsuchen mitunter diese Tags 39 4 Metadaten und Dateiformate und beziehen sie in die Suche mit ein. Seit der Version 4.0 des HTML-Standards werden keine konkreten Metadaten mehr vorgeschrieben, es wird lediglich der syntaktisch korrekte Aufbau erläutert. Die Standardisierung der Metadaten erfolgt seitdem durch das W3C in Form des Resource Description Frameworks, welches in Abschnitt 3.2.1 erläutert wurde. Mit dem RDF lassen sich zum Beispiel alle Elemente des Dublin Cores in HTML-Dateien einbetten. 4.10 Komprimiertes ZIP-Archiv (.zip) Zum Schluss soll exemplarisch ein komprimierbares Archiv-Dateiformat untersucht werden. Das ZIP-Format unterstützt keine Metadaten, wie sie in dieser Arbeit genannt wurden. Angaben über den Autor oder den Titel fehlen, machen im verwendeten Kontext aber auch nur bedingt Sinn. Ein Archiv kann aus mehreren Dateien bestehen, die von unterschiedlichen Quellen stammen und unterschiedliche Namen haben können. Aufgrund der Archivierung und Kompression müssen die archivierenden Programme aber Metadaten über das Objekt in irgendeiner Form speichern, da sonst nicht gewährleistet werden kann, dass die Datei verlustunbehaftet wieder hergestellt werden kann. Denkbar sind Metainformationen in Form von Lookup Tabellen oder Flags, die im gepackten Dateistrom einen Dateianfang markieren. Es konnten jedoch keine Informationen über Metadaten, die darüber hinausgehen, recherchiert werden. Weder beim ZIP-Format, noch bei anderen gängigen Archivformaten (.rar, .ace, .gzip, .tar). 40 5 Metadaten Mapping Das Beispiel der Deutschen Nationalbibliothek macht deutlich, dass es notwendig sein kann, Metadaten des einen Formats in ein anderes zu überführen. Im konkreten Beispiel stellt die DNB vom zur Zeit verwendeten maschinellen Austauschformat für Bibliotheken auf das internationale Machine-Readable Cataloging um. Dieser Prozess der Überführung wird Metadatenmapping oder auch Crosswalking genannt. Die besondere Herausforderung liegt darin, die Informationen über das digitale Objekt ohne Informationsverlust, ohne Verletzung der Bedingungen des Zielformats und korrekt, das heißt in die entsprechenden Felder, zu überführen. In diesem Kapitel sollen Probleme genannt werden, auf die man beim Crosswalking stoßen kann. Hierfür sollen jedoch weitestgehend keine Lösungsansansätze präsentiert werden. Zum einen könnte nur ein kleiner Teil der vorgestellten Metadatenformate abgedeckt werden1 . Zum anderen sind die Konvertierungen - wie sich im Verlauf dieses Kapitels herausstellen wird - zum Teil sehr komplex und beinhalten viele Ausnahmebehandlungen, deren Nennung den Umfang einer separaten Ausarbeitung hätte. Zudem präsentieren einige Entwickler bereits Ansätze, um das eigene in ein anderes Format, respektive ein anderes Format in das eigene zu konvertieren. Einige Beispiele werden am Ende des Kapitels genannt. Der Prozess des (automatischen2 ) Crosswalks ist also nicht trivial. Die steigende Anzahl der Metadatenformate und deren unterschiedliche Organisation (XML und andere Formate), machen es zunehmend schwierig, die relevanten Informationen zu extrahieren und ein korrektes Mapping durchzuführen. Die folgende Aufzählung nennt die Hauptprobleme eines Crosswalks. • Mapping zwischen zwei unterschiedlich mächtigen Formaten (Fehlende Felder im Zielstandard): Ein Metadatensatz A, der nur wenige Kernelemente umfasst, bietet nicht die gleiche Fülle an Feldern wie ein verhältnismäßig mächtigeres Format B. Für nicht vorhandene Felder im Format A hat das zur Konsequenz, dass Informationen verloren gehen. Ziel des Crosswalks kann es daher nur sein, zumindest alle Kernelemente des Formats A durch entsprechende Felder des Formats B abzudecken, um den Informationsverlust zu minimieren. Abhilfe für dieses Problem könnte ein Feld für additional information schaffen, das speziell für einen solchen Fall reserviert ist. Ist dem nicht so und existieren keine anderen Ansätze, müssen die Daten verworfen und damit ein Informationsverlust in Kauf genommen werden. 1 Alleine für die in dieser Seminararbeit vorgestellten Metadatenformate existieren rein theoretisch mehrere hundert Kombinationsmöglichkeiten, was der Anzahl der möglichen Mappings entspricht. 2 Aufgrund der hohen Anzahl zu verwaltender DOs, muss es das Ziel eines jeden Mappings sein, ein Format computergesteuert und voll automatisiert in ein anderes zu konvertieren. 41 5 Metadaten Mapping • Mapping zwischen Formaten unterschiedlicher „Gattung“: Zu Problemen kann es auch dann kommen, wenn ein Format A, welches speziell für audiovisuelle Inhalte entwickelt wurde, in ein Format B überführt werden soll, welches für den Austausch von Informationen elektronischer Bücher dient. Es fehlen adäquate Felder, um das Mapping korrekt durchzuführen. Dieses konkrete Beispiel lässt sich auch auf andere digitale Objekte übertragen. • Doppelter Crosswalk: Mitunter ist es notwendig ein Objekt, welches durch ein komplexes und vollständiges Metadatenformat B beschrieben ist, durch ein weniger komplexes Format A zu beschreiben und diesen Prozess anschließend wieder umzukehren3 . Im Kern entspricht der erste Schritt dem erstgenannten Problem, denn wichtige Informationen des Formats B gehen möglicherweise verloren. Unter der Voraussetzung, dass alle Felder abgedeckt sind, stellt dieser Crosswalk aus Sicht des Formats A kein Problem dar. Werden die Felder des Formats A nun jedoch wieder in das mächtigere Format B überführt, kann nicht sichergestellt werden, dass unter den Informationen, die verloren gegangen sind, nicht genau die enthalten sind, die für eine zuverlässige Funktion der dahinterstehenden Anwendung unabdingbar wären. Dieses Problem ist von eher theoretischer Natur, da es bereits durch eine Sicherung des Satzes B vor der ersten Konvertierung zu umgehen ist. • Schnittmenge: Schon der Schritt eine geeignete Schnittmenge zwischen Quellund Zielformat zu finden, kann sich schwierig gestalten, da die Terminologien der Ansätze mitunter sehr verschieden sind. Der Dublin Core verwendet zum Beispiel die Terminologie <dc:attribut>wert</dc:attribut> (XML) oder auch <meta name="DC.attribut"content="wert"/> (HTML). Der MIX-Standard hingegen nutzt trotz der Verwendung von XML die Terminologie <attribut>wert<attribut>, wobei die Attribute hierbei zudem über mehrere Ebenen geschachtelt sein können. Die Schwierigkeit liegt darin, auf Basis dieser unterschiedlichen Terminologien Mechanismen zu entwickeln, die die relevanten Daten extrahieren (wert) und diese dann in die entsprechenden Felder mappen. • Unterschiedliche Eigenschaften: Einige Standards definieren über den Inhalt der Felder hinaus auch gewisse Eigenschaften. So zum Beispiel werden einige Felder als obligatorisch und andere als optional deklariert. Weiterhin kann die Spezifikation das wiederholte Vorkommen eines Elements erlauben oder verbieten. Einige Ansätze geben sogar explizite Grenzen an. Unterscheiden sich Quellund Zielstandard in den Eigenschaften ihrer Elemente, müssen Sonderregelungen geschaffen werden. • Obligatorische Felder im Zielstandard: Aus der letzt genannten Gruppe von Problemen ergibt sich unmittelbar ein weiteres. Wenn kein entsprechendes Feld für ein Element im Ziel vorhanden ist, dieses aber obligatorisch ist, muss geklärt werden, wie damit verfahren wird. 3 Ein Beispiel: Nicht alle Formate können durch das OAI Protocol for Metadata Harvesting (siehe Seite 28) erfasst werden. Daher kann es notwendig sein, ein sehr spezielles Metadatenformat in ein durch das Protokoll erfassbares Format zu konvertieren. Anschließend soll aber wieder das ursprüngliche Format hergestellt werden. 42 5 Metadaten Mapping • Unterschiedliches Handling bei Schlagworten: Bei einigen Formaten besteht die Möglichkeit, ein bestimmtes nicht wiederholt vorkommendes Feld mit Schlagwörtern, getrennt durch einen Delimiter, zu befüllen. Erlaubt der Zielstandard dies jedoch nicht, sondern sieht für jedes Schlagwort ein sich wiederholendes Feld vor, setzt dies zusätzliches Wissen über das korrekte Mapping voraus und macht es überdies komplexer. • Unterschiedliche Kodierung der Felder: In einigen Fällen müssen Felder zusammengefasst werden, bevor sie gemapped werden. Sieht der Quellstandard beispielsweise für den Vor- und den Nachnamen jeweils ein eigenes Feld vor, der Zielstandard jedoch nur ein einziges, muss zusätzlich vor dem Zusammenfassen festgestellt werden, wie der Name im Zielstandard definiert ist4 . • SOS vs. MOS: Das in 3.1.4 vorgestellte Exchange Binary Broadcast and Metadata Format beschreibt in seiner im Archiv befindlichen XML-Datei nicht nur die Audio-Datei, sondern auch alle im Verzeichnis dateien liegenden Dateien. Das XBMF ist ein so genannter Multiple Object Standard (MOS), der im Gegensatz zu Single Object Standards (SOS) das simultane Einbetten von Metadaten für mehrere Objekte erlaubt. Bei der Konvertierung eines MOSs in einen SOS muss das berücksichtigt werden. Denkbar wäre es, jedes Objekt des Quellstandards für sich mit Metadaten des Zielstandards zu versehen und die Zusammengehörigkeit über URIs wiederherzustellen. Der Dublin Core und das Exchangeable Image File Format sind typische Vertreter der SOSs. Anhand der vorangegangenen Schilderungen ist leicht ersichtlich, dass ein Mapping ein gewisses Maß an Planung und große Sorgfalt voraussetzt. Einige Entwickler der im 3. Kapitel vorgestellten Formate sind sich dieser Problematik bewusst und stellen für ihre Standards die passenden Übertragungsregeln für (zumindest einige) Crosswalks zur Verfügung. Besonders hervorzuheben sind hier die Konvertierungsschemata der LOC im Zusammenhang mit dem Metadata Object Description Schema ([Lib08b]) und das Kapitel Metadata Mappings (Crosswalks) im Metadata Reference Guide der MIT Libraries ([Met06]). 4 Vorname Nachname oder Nachname, Vorname. 43 6 Bewertung Im 3. Kapitel wurde bereits mit einer kleinen Auswahl gezeigt, wie viele verschiedene Metadatenformate existieren und es wurde zudem verdeutlicht, wie unterschiedlich diese Ansätze umgesetzt wurden. Die Unterscheidung in Metadaten in der Multimedia, im World Wide Web und in (digitalen) Bibliotheken wurde zu Gunsten der Übersicht gewählt. Natürlich hätte die Kategorisierung auch auf Basis des Verfahrens ihrer Speicherung erfolgen können. Metadaten werden entweder separat in einer Datei oder, wenn es das Dateiformat zulässt, in der Datei gespeichert. Beide Verfahren zeichnen sich durch Vor- und Nachteile aus. Werden digitale Objekte mit internen Metadaten transferiert, besteht nicht die Gefahr, dass die Metadaten verloren gehen. Auf der anderen Seite muss zusätzlicher Aufwand betrieben werden um die Zusammengehörigkeit von DOs und deren Metadaten zu sichern. Im Verlaufe dieser Arbeit wurden zwei Ansätze für das externe Speichern genannt. Zum einen kann die externe Metadatendatei über einen URI mit dem DO verknüpft werden und zum anderen vor der Übertragung in einem Archiv zusammen mit dem zu beschreibenden Objekt gespeichert werden. Ein Vorteil, der sich durch die externe Speicherung ergibt, ist die komfortablere Manipulation der Metadatenfelder. Die meisten externen Ansätze schreiben die Metadaten in eine XML-Datei, die mit einem herkömmlichen Editor manipuliert werden kann. Es ist keine spezielle Software notwendig, die den Dateistrom von den internen Metadaten trennt, um die Informationen menschenlesbar zu machen. Externe Metadaten ermöglichen es zudem, Redundanz zu vermeiden. So könnte zum Beispiel eine externe Metadatendatei mehrere digitale Objekte oder zumindest deren Gemeinsamkeiten1 einmalig beschreiben. Nur die Unterschiede würden in einer separaten Metadatendatei pro DO gespeichert. Dieses Verfahren ist bei der Verwendung interner Metadaten nicht möglich. Metadaten sollen dabei helfen, Ressourcen vor allem effektiv auffindbar zu machen. Auch hierbei ergibt sich ein Unterschied zwischen internen und externen Metadaten. Metadaten werden oft in Datenbanken verwaltet und ermöglichen es so, Anfragen zu bestimmten Objekten abzusetzen. Da es wesentlich effizienter und ressourcenschonender ist, eine - im Verhältnis zum beschriebenen Objekt - kleine Metadatendatei zu durchsuchen, als die Metadaten zunächst aus dem DO zu extrahieren und dann nach 1 Sollen alle Werke eines bestimmten Autors durch Metadaten beschrieben werden, ist es nicht notwendig, den Namen des Autors jedes Mal zu speichern. Sinnvoller ist es, eine Hierarchie aufzubauen, wobei alle Elemente (hier Werke) auf einer unteren Ebene, die Eigenschaften der darüber liegenden erben. Ein DO, bzw. eine Referenz darauf, läge dann in einem der Blätter des entstandenen Baumes. 44 6 Bewertung dem gewählten Kriterium zu durchsuchen, ist der Ansatz der externen Metadaten hier zu bevorzugen. Das Thema Metadaten rief in der Vergangenheit zunehmend Datenschützer auf den Plan. Oft schreiben Anwendungen mitunter sensible Metadaten in die exportierten Dateien, ohne dass es der Anwender merkt. So kann es passieren, dass mit einem .docDokument der Name der Autoren und die Überarbeitungshistorie übertragen wird. Dieser Aspekt mag für die meisten Privatanwender unproblematisch erscheinen. Im geschäftlichen Bereich, wo es vor allem um vertragliche und rechtliche Fragen geht, kann dieser Umstand nicht einkalkulierbare Risiken bergen. Mitarbeiter in Unternehmen sollten dahingehend aufgeklärt und sensibilisiert werden. Einige Entwickler bieten zusätzliche Tools an, um Metadaten aus Ihren Dateien zu löschen. In Abschnitt 4.3 wurde ein solches Tool vorgestellt. Andere Anbieter gehen konsequenter an die Sache heran. Sie bieten dem Anwender bereits beim Export die Möglichkeit, Metadaten zu schreiben oder bestimmte Felder auszulassen. Die hohe Anzahl verschiedener Metadatenformate hat zwar den Vorteil, dass sich ein Anwender das passende heraussuchen kann, birgt aber eine zunehmende Inkompatibilität und damit ein Wartbarkeitsproblem. Das Konzept des Metadaten Mappings wurde in Kapitel 5 vorgestellt. Mit dem auch Crosswalking genannten Verfahren lassen sich diese Probleme von der Idee her zwar beheben oder zumindest umgehen, jedoch bringt das Mapping viele neue Probleme mit sich. Die Deutsche Nationalbibliothek setzt sich zurzeit genau mit diesen Problemen auseinander, wobei die Umstellung von MAB auf das internationale MARC-Format aufgrund der Parallelen zwischen den beiden Formaten zwar Sorgfalt erfordert, nicht jedoch als unlösbar einzustufen ist. Zu berücksichtigende Schwierigkeiten wurden in Kapitel 5 ausführlich erläutert. Weitere Probleme können sich schon bei der Auswahl des passenden Metadatenformats ergeben. Zum einen sollte das Format alle notwendigen Felder besitzen, dabei unkompliziert in der Handhabung sein und nicht zuletzt einen hohen Verbreitungsgrad aufweisen. Nimmt man als Beispiel das in Abschnitt 3.1.1 vorgestellte MPEG-7-Format, so weist dies zwar alle erdenklichen Felder zum Beschreiben von Multimedia-Dateien auf, jedoch konnte es sich bis heute nicht durchsetzen. Es versucht allumfassend zu sein und wird deswegen als zu kompliziert eingeschätzt. Auf der anderen Seite findet man den Dublin Core, der als einer der gängigsten Sätze gilt und mit seinen 15 Feldern als unkompliziert einzustufen ist. Mit 15 Feldern stößt man jedoch schnell an gewisse Grenzen, vor allem, wenn es darum geht, DOs sehr detailliert zu beschreiben. Einen guten Ansatz verfolgt die Extensible Metadata Platform, die verschiedene Metadatenformate unterstützt und somit vereint, ohne jedoch die Lesbarkeit dieser Daten durch andere Programme, die die XMP nicht unterstützen, zu gefährden. Ein entscheidender Nachteil ist der, dass, gemessen an der Dateiformat-Vielfalt, relativ wenige Formate unterstützt werden und diese alle aus dem Umfeld der Multimedia stammen. Es bleibt abzuwarten, ob vergleichbare Ansätze in anderen Bereichen entwickelt werden und zukünftig eine ähnlich hohe Akzeptanz aufweisen. 45 Literaturverzeichnis [Ado05] Adobe Systems Incorporated: XMP — Adding Intelligence to Media, September 2005. – http://www.adobe.com/devnet/xmp/pdfs/xmp_ specification.pdf. - online am 20. April 2008 [Bec04] Beckett, Dave: RDF/XML Syntax Specification (Revised). http://www. online am 18. Mai 2008 w3.org/TR/rdf-syntax-grammar/, Februar 2004. – [BG00] Brickley, Dan ; Guha, R.V.: Resource Description Framework (RDF) Schema Specification 1.0. http://www.w3.org/TR/2000/ CR-rdf-schema-20000327/, März 2000. – online am 18. Mai 2008 [BGP03] Bormans, Jan ; Gelissen, Jean ; Perkis, Andrew: MPEG-21: The 21st Century Multimedia Framework. In: IEEE Signal Processing Magazine 20 (2003), March, Nr. 2, S. 53–62 [BL04] Boutell, Matthew ; Luo, Jiebo: Photo Classification by Integrating Image Content and Camera Metadata. In: Proceedings of the 17th International Conference on Pattern Recognition (IEEE) 4 (2004), August, S. 901–904 [Boo06] Book Industry Study Group, Inc.: ONIX for Books. http://www. editeur.org/onix.html, Februar 2006. – online am 20. Mai 2008 [BWH+ 03] Burnett, Ian ; Walle, Rik V. ; Hill, Keith ; Bormans, Jan ; Pereira, Fernando: MPEG-21: Goals and Achievements. In: IEEE MultiMedia 10 (2003), October-December, Nr. 4, S. 60–70 [Con08] Congress, Library of: NISO Metadata for Images in XML Schema — Official Website. http://www.loc.gov/standards/mix/, Mai 2008. – online am 16. Mai 2008 [Cun08] Cundiff, Morgan: MIX Version 2.0, Mai 2008. – http://www.loc.gov/ standards/mix/mix20/mix20.xsd. - online am 16. Mai 2008 [Day02] Day, Michael: Metadata — Mapping between metadata formats. http: //www.ukoln.ac.uk/metadata/interoperability/, Mai 2002. – online am 20. April 2008 [Die06] Die Deutsche Nationalbibliothek: MAB — Maschinelles Austauschformat für Bibliotheken. http://www.d-nb.de/standardisierung/ formate/mab.htm, Juni 2006. – online am 20. April 2008 46 Literaturverzeichnis [Die07] Die Deutsche Nationalbibliothek: MAB2-Titel: OnlineKurzreferenz-Version. http://www.d-nb.de/standardisierung/txt/ titelmab.txt, November 2007. – online am 23. Mai 2008 [Die08] Die Deutsche Nationalbibliothek: Datenaustauschprozesse zwischen Bibliotheken im deutschsprachigen Raum vor dem Umstieg auf MARC 21 mit besonderer Berücksichtigung von MARCXML. http://www.d-nb.de/ standardisierung/pdf/expertise_marcxml.pdf, Februar 2008. – online am 23. Mai 2008 [Dig07] Digital Library Federation: METS — Metadata Encoding and Transmission Standard. http://www.loc.gov/standards/mets/mets.xsd, Oktober 2007. – online am 23. Mai 2008 [Dig08a] Digital Library Federation: Metadata Encoding and Transmission Standard: Extension Schemas, Mai 2008. – http://www.loc.gov/ standards/mets/mets-extenders.html. - online am 12. Mai 2008 [Dig08b] Digital Library Production Service: OAIster — ...find the pearls. http://www.oaister.org/, 2008. – online am 20. Mai 2008 [DSD03] DSD Sztaki, Team Teichenberg, Public Voice Labor: Exchange Broadcast Binary and Metadata Format, Dezember 2003. – http://sotf. berlios.de/documents/XBMF_V0-31.pdf. - online am 20. April 2008 [Dub08] Dublin Core Metadata Initiative: Dublin Core Metadata Element Set — Version 1.1. http://dublincore.org/documents/dces/, Januar 2008. – online am 18. Mai 2008 [Eur93] European Broadcasting Union: Methods of measurement of the colorimetric performance of studio monitors. http://www.ebu.ch/CMSimages/ en/tec_doc_t3273_tcm6-10531.pdf, Oktober 1993. – online am 13. Mai 2008 [Ins02] Institute of Electrical and Electronics Engineers, Inc.: Draft Standard for Learning Object Metadata, 2002. – http://ltsc.ieee.org/ wg12/files/LOM_1484_12_1_v1_Final_Draft.pdf. - online am 20. April 2008 [Ins04] Institute for Advanced Technology in the Humanities: Encoded Archival Context (Beta). http://www.iath.virginia.edu/eac/, November 2004. – online am 20. April 2008 [Int99a] International Press Telecommunications Council and Newspaper Association of America: Information Interchange Model IIM: the first multi-media news exchange format. http://www.iptc.org/IIM/, Juli 1999. – online am 20. April 2008 [Int99b] International Press Telecommunications Council and Newspaper Association of America: Information Interchange Model Version 4. http://www.iptc.org/std/IIM/4.1/specification/IIMV4.1.pdf, Juli 1999. – online am 12. Mai 2008 47 Literaturverzeichnis [Ket03] Kett, Jürgen: Regeln zur Übertragung von MAB2-Datensätzen nach MABxml-1 — Version 1.0. http://www.d-nb.de/standardisierung/ pdf/mabxml_1_uebertr.pdf, Dezember 2003. – online am 23. Mai 2008 [Ket04] Kett, Jürgen: [Lib02] Library of Congress: Encoded Archival Description. http://www.loc. gov/ead/, 2002. – online am 20. April 2008 [Lib06] Library of Congress: Metadata Object Description Scheme. http: //www.loc.gov/standards/mods/, Juni 2006. – online am 20. April 2008 [Lib07] Library of Congress: MARC 21 Format for Bibliographic Data — Field List. http://www.loc.gov/marc/bibliographic/ecbdlist.html, Oktober 2007. – online am 22. Mai 2008 [Lib08a] Library of Congress: MARC Standards. http://www.loc.gov/marc/, März 2008. – online am 20. April 2008 [Lib08b] Library of Congress: Metadata Object Description Schema (MODS) — Conversions. http://www.loc.gov/standards/mods/ mods-conversions.html, Mai 2008. – online am 03. Juni 2008 [Lib08c] Library of Congress: Metadata Object Description Scheme 3.3. http: //www.loc.gov/standards/mods//v3/mods-3-3.xsd, Januar 2008. – online am 23. Mai 2008 [LS02] Lagoze, Carl ; Sompel, Herbert V.: The Open Archives Initiative Protocol for Metadata Harvesting — Protocol Version 2.0, Juni 2002. – http://www.openarchives.org/OAI/openarchivesprotocol.html. - online am 20. April 2008 [Met06] Metadata Advisory Group of the MIT Libraries: Metadata Mappings (Crosswalks). http://libraries.mit.edu/guides/subjects/ metadata/mappings.html, Juni 2006. – online am 20. April 2008 [Mic08] Microsoft Corporation: Find and remove metadata (hidden information) in your legal documents. http://office.microsoft.com/en-us/ help/HA010776461033.aspx, 2008. – online am 28. Mai 2008 [MM04] Manola, Frank ; Miller, Eric: Resource Description Framework (RDF) Primer, Februar 2004. – http://www.w3.org/TR/rdf-primer/. - online am 20. April 2008 [Nat06] National Information Standards Organization: Data Dictionary — Technical Metadata for Digital Still Images. http: MABxml — Level 1. http://www.d-nb.de/ standardisierung/formate/mabxml-1.xsd, Mai 2004. – online am 23. Mai 2008 //www.niso.org/kst/reports/standards?step=2&gid=None&project_ key=b897b0cf3e2ee526252d9f830207b3cc9f3b6c2c, Dezember 2006. – online am 20. April 2008 48 Literaturverzeichnis [NEC08] NEC Research Institute: SiteSeer.IST — Scientific Literature Digital Library. http://citeseer.ist.psu.edu/, 2008. – online am 23. Mai 2008 [Nil98] Nilsson, Martin: ID3 tag version 2, März 1998. – http://www.id3.org/ id3v2-00. - online am 14. Mai 2008 [Nil99] Nilsson, Martin: ID3 tag version 2.3.0, Februar 1999. – http://www. id3.org/id3v2.3.0. - online am 14. Mai 2008 [Nil00a] Nilsson, Martin: ID3 tag version 2.4.0 — Main Structure, November 2000. – http://www.id3.org/id3v2.4.0-structure. - online am 20. April 2008 [Nil00b] Nilsson, Martin: ID3 tag version 2.4.0 — Native Frames, November 2000. – http://www.id3.org/id3v2.4.0-frames. - online am 20. April 2008 [NL99] Nack, Frank ; Lindsay, Adam T.: Everything You Wanted to Know About MPEG-7: Part 1. In: IEEE MultiMedia 6 (1999), –, Nr. 3, S. 65–77 [One08] OneClimate: OneWorldTv. http://tv.oneworld.net/, 2008. – online am 13. Mai 2008 [Org02] Organisation Internationale De Normalisation: MPEG-21 Overview v.5. http://www.chiariglione.org/mpeg/standards/mpeg-21/ mpeg-21.htm, Oktober 2002. – online am 12. Mai 2008 [Pat88] Patashnik, Oren: BIBTEXing, Februar 1988. – http://dante.ctan.org/ CTAN/biblio/bibtex/contrib/doc/btxdoc.pdf. - online am 20. April 2008 [RF] Rusch-Feja, Diann: Die Open Archives Initiative (OAI) — Neue Zugangsform zu wissenschaftlichen Arbeiten? In: Bibliothek - Forschung und Praxis, Jahrgang 25, Nr. 3 [SOM02] SOMA Group: Shared Online Media Archive Metadata version 1. http: //soma-dev.sourceforge.net/, September 2002. – online am 13. Mai 2008 [SS06] Smith, John R. ; Schirling, Peter: Metadata Standards Roundup. In: IEEE MultiMedia 13 (2006), April-June, Nr. 2, S. 84–88 [Tec02] Technical Standardization Committee on AV & IT Storage Systems and Equipment: Exchangeable image file format for digital still cameras: Exif Version 2.2, April 2002. – http://www.exif.org/Exif2-2. PDF. - online am 20. April 2008 [Wik08] Xml — Wikipedia, Die freie Enzyklopädie. http://de. wikipedia.org/w/index.php?title=Xml&oldid=32654667, Mai 2008. – online am 27. Mai 2008 [Wor08] World Wide Web Consortium: Extensible Markup Language (XML). http://www.w3.org/XML/, Mai 2008. – online am 27. Mai 2008 Wikipedia: 49