3D-Beschriftung im Objektraum für die videobasierte

Transcription

3D-Beschriftung im Objektraum für die videobasierte
RHEINISCHE FRIEDRICH-WILHELMS-UNIVERSITÄT BONN
Institut für Kartographie und Geoinformation
3D-Beschriftung im Objektraum
für die
videobasierte Fußgängernavigation
Diplomarbeit von
Daniela Schulz
Juli 2004
Betreuer:
Prof. Dr. Lutz Plümer
Dr. Thomas H. Kolbe
Inhaltsverzeichnis
Inhaltsverzeichnis
I
1
Einleitung und Motivation
1
2
Fußgängernavigation in Innenstädten
3
3
2.1
Mobile Navigationssysteme ________________________________________________3
2.2
Konzept ________________________________________________________________7
Verfahren zur Beschriftung von Videos im Objektraum
3.1
9
Rekonstruktion der Kamerabewegung _______________________________________10
3.1.1 Kameratracking-Prozess ___________________________________________________ 10
3.1.2 Überblick über Matchmover ________________________________________________ 17
3.2
Georeferenzierung _______________________________________________________19
3.3
Praxis mit Boujou _______________________________________________________19
3.4
Überlagerung der Videos mit Beschriftung____________________________________30
3.5
Rekonstruktionsgenauigkeit _______________________________________________32
3.5.1 Vergleich der Kamerapfade_________________________________________________ 32
3.5.2 Vergleich von Bildkoordinaten ______________________________________________ 41
4
Bonner Wegevideos
4.1
55
Erstellung der Wegevideos ________________________________________________55
4.1.1 Testgebiet ______________________________________________________________ 55
4.1.2 Erfassung der Videos______________________________________________________ 56
4.1.3 Aufbereitung der Videos ___________________________________________________ 59
4.2
Bonner Wegevideos im Objektraum _________________________________________69
4.2.1 Fehlerquellen und Probleme ________________________________________________ 69
4.2.2 Beispiele und Ergebnisse___________________________________________________ 80
4.3
Beurteilung ____________________________________________________________95
4.3.1 Qualität ________________________________________________________________ 95
4.3.2 Zeitaufwand _____________________________________________________________ 99
5
3D-Beschriftung im Objektraum
101
5.1
Related Work__________________________________________________________101
5.2
Objektinformationen im Straßenraum _______________________________________105
5.2.1 Was soll beschriftet werden? _______________________________________________ 105
5.2.2 Gestaltung _____________________________________________________________ 105
5.2.3 Platzierung_____________________________________________________________ 108
6
3D-Beschriftung ausgewählter Wegevideos
117
7
Zusammenfassung und Ausblick
121
Literaturverzeichnis
123
I
1 Einleitung und Motivation
Auf dem Gebiet des GPS (Global Positioning System) macht die Forschung große Fortschritte. Durch dieses System wurde überhaupt erst die OnBoardFahrzeugnavigation
möglich. Immer mehr Autofahrer nutzen die Navigationsunterstützung bei ihrer Wegsuche, so dass Navigationscomputer mittlerweile als Serienausstattung in vielen Fahrzeugen angeboten werden.
Im Bereich der Fußgängernavigation hat sich die Nutzung des GPS noch nicht durchgesetzt. Dabei steht einer Entwicklung, die mit der der Kfz-Navigation vergleichbar wäre,
nichts mehr im Wege. Der Markt bietet inzwischen Handys und PDAs (Personal Digital
Assistants) mit integriertem GPS-Empfänger an, die kleiner und leistungsfähiger denn
je sind. So wird es dem mobilen Nutzer ermöglicht, im Innenstadtbereich seinen aktuellen Standort auf wenige Meter genau zu bestimmen. Im Gegensatz zur Benutzung eines
herkömmlichen analogen Stadtplans besteht bei einer GPS-basierten Fußgängernavigation die Möglichkeit einer Routenführung in Echtzeit.
Der weit überwiegende Teil der heute genutzten Navigationssysteme arbeitet mit „digital aufbereiteten“ Karten. Diese geben einen guten Überblick über die räumlichen Zusammenhänge und ermöglichen somit die Einordnung des eigenen Standpunktes in die
Umgebung. Viele Wegsuchende sind jedoch im Kartenlesen ungeübt, so dass ihnen die
Orientierung anhand einer Karte oft schwer fällt. Hinzu kommt, dass wegen der begrenzten Bildschirmauflösung der tragbaren Benutzerendgeräte die dort verwendeten
Karten – im Gegensatz zu herkömmlichen „Papierkarten“ – stark abstrahiert dargestellt
werden. Dadurch gehen hilfreiche Informationen verloren, was eine Orientierung zusätzlich erschwert.
In der digitalen Kartographie bietet sich neben der zweidimensionalen Darstellung in
Form von Karten die Möglichkeit, reale Ansichten zu verwenden, d.h. dem Betrachter
wird seine aktuelle Umgebung ohne Abstraktionen gezeigt. So lassen sich komplexe
Szenen darstellen, ohne dass Detailinformationen verloren gehen. Im Bereich der Augmented Reality (AR) werden reale Ansichten verwendet, die durch ortsspezifische Informationen angereichert werden. Mittels beispielsweise eines Head-Mounted-Displays
können zusätzliche Informationen in Form von virtueller Beschriftung auf die reale Ansicht des Betrachters überlagert werden. Das System des Head-Mounted-Displays reagiert allerdings sehr empfindlich auf Orientierungs- und Positionierungsfehler. Schon
geringe Abweichungen können zu einer derart großen Passungenauigkeit der künstlichen Objekte gegenüber der realen Ansicht führen, dass eine einfache Orientierung für
den Anwender nicht mehr möglich ist. Zudem ist zweifelhaft, ob das Tragen der benötigten Hardware-Ausrüstung auf soziale Akzeptanz trifft und somit wie ein Mobiltelefon oder ein PDA zu einem annehmbaren Teil unseres alltäglichen Lebens werden kann.
In dieser Arbeit wird ein neuartiges Konzept zur Fußgängernavigation und Routenplanung vorgestellt. Es basiert auf der Visualisierung georeferenzierter Wegevideos mit
zusätzlicher Einfügung ortsspezifischer Informationen. Mit Hilfe von Videos und 3DModellen wird die Beschriftung im 3D-Raum untersucht.
Zunächst wird ein Überblick über einige bereits bestehende mobile Navigationssysteme
gegeben und deren wesentliche Komponenten werden angesprochen. Daran schließt
1
1 Einleitung und Motivation
sich der detaillierte Entwurf eines Fußgängernavigationskonzeptes für Innenstädte an.
Im dritten Kapitel werden die Verfahrensschritte untersucht, die für die Beschriftung
der realen Ansichten im Objektraum erforderlich sind. Kapitel vier befasst sich mit der
konkreten Anwendung dieser Verfahren auf Wegevideos der Bonner Innenstadt. Kapitel
fünf widmet sich der kartographischen Gestaltung der ortsspezifischen Informationen.
Im sechsten Kapitel werden dann Beschriftungsbeispiele für ausgewählte Videos erstellt. Kapitel sieben gibt abschließend eine Zusammenfassung sowie einen Ausblick
auf zukünftige Forschungsarbeiten.
2
2 Fußgängernavigation in Innenstädten
Weil die Leistung der Computer ständig steigt und ihre Größe dabei jedoch abnimmt,
werden immer schneller neue mobile Anwendungssysteme entwickelt, die zu jeder Zeit
und an jedem Ort einen Benutzerzugang zu Onlineressourcen versprechen. In den vergangenen Jahren sind zahlreiche Arbeiten erschienen, die sich mit der Entwicklung von
mobilen Fußgängernavigationssystemen befassen. Es sind dabei meist Touristen, denen
durch diese Navigationshilfen die Orientierung in einer fremden Umgebung erleichtert
werden soll. Für die eigentliche Navigation werden in der Literatur unterschiedliche
Lösungsansätze präsentiert. In diesem Kapitel werden zunächst wesentlichen Kriterien
eines Führungssystems dargelegt und anhand von Beispielen aktueller Führungssysteme
erläutert. Anschließend wird das dieser Arbeit zugrunde liegende Konzept zur Fußgängernavigation vorgestellt.
2.1 Mobile Navigationssysteme
Die rasante Entwicklung technischer Geräte wie PDAs, Notebooks und Handys sowie
von Diensten wie GPS, GPRS und Wireless-LAN bildet die Grundlage dafür, dass in
jüngster Vergangenheit eine Vielzahl mobiler Navigationssysteme entwickelt wurde.
Dieses Kapitel verfolgt das Ziel, neben einer kurzen Darstellung des aktuellen Entwicklungsstandes bereits vorhandener mobiler Navigationssysteme, Einschränkungen, Funktionen und Anforderungen mobiler Systeme vorzustellen. In einer Bestandsaufnahme
[Kra03] haben die Autoren Kray und Baus neun besonders innovative und richtungweisende mobile Führungssysteme (Cyberguide, Hippie HIPS, GUIDE, CyberAssist, TellMaris, LOL@, REAL, SmartKom und Deep Map) untersucht und anhand ihrer Eigenschaften dargestellt, welche Kriterien für mobile Führungssysteme und somit auch für
die Fußgängernavigation eine maßgebliche Rolle spielen. Diese Kriterien lassen sich in
fünf wesentliche Punkte unterteilen:
Grundfunktionen
Die untersuchten Systeme unterscheiden sich bereits erheblich in ihren Grundfunktionen. Während sich der überwiegende Teil der mobilen Systeme allein auf die Führung
bzw. die Navigation des Benutzers beschränkt, bieten einige Systeme dem Benutzer
zusätzliche Serviceleistungen wie beispielsweise Tour-Tagebücher, Hotelreservierungen oder andere führungsübergreifende Informationen.
Auch bei der Kernfunktion eines mobilen Navigationssystems, der Bestimmung der
Benutzerposition, gibt es bei den Systemen verschiedene Ansätze. So greift ca. die Hälfte aller von Kraus und Baus untersuchten Systeme bei der Positionierung auf GPS zurück. Die restlichen Systeme verwenden entweder Lichtinformationen – wie beispielsweise Infrarotsender –, elektronische Kompasse oder Beschleunigungsmesser oder
funktionieren manuell durch Interaktionen zwischen dem Benutzer und dem mobilen
System. Diese ganz unterschiedlichen Ansätze bei den Systemen zeigen, dass es derzeit
noch keine technische Möglichkeit gibt, die zu jeder Zeit eine präzise Positionsbestimmung gewährleistet: GPS arbeitet innerhalb von Gebäuden, in schmalen Straßen oder
im Wald nur sehr unzuverlässig oder gar nicht. Lichtbasierte Systeme, wie beispielswei3
2 Fußgängernavigation in Innenstädten
se die Infrarotsender, benötigen zur Funktion eine dichte Infrastruktur. Elektronische
Kompasse und Beschleunigungsmesser werden von elektromagnetischen Feldern negativ beeinflusst.
Um diese Probleme zu umgehen, sollten mobile Führungssysteme bei der Positionierung idealerweise auf mehrere positionsbestimmende Quellen zurückgreifen sollten.
Einige der untersuchten Systeme wurden daher von Anfang an so konzipiert, dass sie
verschiedene Sensoren unterstützen bzw. sich an zukünftige Technologien hinsichtlich
der Positionsbestimmung anpassen können. Die Systeme GUIDE, LOL@, REAL und
Deep Map können anhand einer Interaktion mit dem Benutzer dessen aktuelle Position
ermitteln. Diese Fähigkeit reicht vom einfachen „Klicken“ in eine Karte (GUIDE) bis
zu dynamischen Listen, die auf der letzten bekannten Position des Benutzers basieren
(LOL@). Deep Map ist das einzige System, das ein anspruchsvolles Interaktionsmodell
beinhaltet, das auf einer Positionshistorie und Benutzerwissen basiert.
Situative Faktoren
Der Umgang mit den situativen Faktoren während einer Führung bzw. Navigation geht
über die dargestellten Grundfunktionen der mobilen Systeme hinaus. Ein Benutzer führt
bei einer mobilen Navigation - im Unterschied zu einem Benutzer, der vor einem stationären PC sitzt - mehrere Aufgaben zeitgleich durch. Der mobile Benutzer bewegt sich
durch den Raum und seine Situation ändert sich dabei ständig. Dementsprechend ist u.
a. auch zwischen einer Navigation für Fußgänger und Autofahrer, die sich mit einer
höheren Geschwindigkeit als Fußgänger fortbewegen, zu unterscheiden.
Folglich wird es von den Autoren als notwendig dargestellt, dass Informationen über
den Benutzer, den Kontext und die von dem Benutzer ausgeführte Tätigkeit durch das
mobile System berücksichtigt werden. Die in der Studie untersuchten mobilen Führungssysteme beziehen allerdings nur knapp zur Hälfte Benutzerinformationen mit ein
und unterscheiden sich zudem auch erheblich dahingehend, wie diese Informationen
tatsächlich vom System umgesetzt werden. Deep Map ist dabei das einzige System, das
die vom Benutzer ausgeführte Tätigkeit berücksichtigt.
Anpassungsfähigkeit
Ein weiterer Unterschied eines mobilen Systems zu einem stationären PC liegt in den
erheblich eingeschränkten Ressourcen, wie beispielsweise der Bandbreite, dem Speicher, der Schnelligkeit und dem Display. Eine damit verbundene Funktion, die für mobile Systeme von großer Relevanz ist, ist die Fähigkeit, sich an die ständig ändernde
physische und virtuelle Umgebung anzupassen. Das von Baus und anderen entwickelte
mobile Führungssystem Real ist dabei das einzige System, welches sich dynamisch an
variierende Ressourcen anpassen kann.
Eine weitere Problematik ist das Fehlen von relevanten Informationen, wie beispielsweise situativen Faktoren oder Objekteintragungen in Datenbanken. Oft kann es passieren, dass Informationen nur teilweise oder gar nicht vorhanden sind. Die Autoren akzeptieren, dass in einem solchen Fall ein System seine Leistung vermindert, fordern
aber, dass es nicht plötzlich ausfallen darf.
4
2.1 Mobile Navigationssysteme
Das Wissen um die aktuelle Position des Benutzers ist ein zentraler Punkt in der Bestimmung der Situation des Benutzers. Daher sollte es für ein mobiles System unabdingbar sein, sich der veränderbaren Qualität von Positionsinformationen anzupassen.
Bis auf drei der untersuchten Systeme (Cyberguide, CyberAssist und SmartKom) verfügen alle über einen solchen wichtigen Mechanismus; dies allerdings – wie bei den
Grundfunktionen dargestellt – auf unterschiedlichste Art und Weise. Dabei treten solche
Systeme besonders hervor, die diese Möglichkeit durch Interaktion zwischen dem Benutzer und dem System erlauben.
Schnittstelle zum Benutzer und Interaktionen
Für den Benutzer sind im Umgang mit einem mobilen System das Interface und die
vorhandenen Mittel der Interaktion die offensichtlichsten Merkmale und daher entscheidend in der Wahrnehmung und Auffassung eines Systems. Krey und Baus untersuchten hierbei die Sprachen und die Multi-Modalität der Systeme.
Bei mehr als der Hälfte der Systeme fand sich ausschließlich die Verwendung von Sprache (meist Englisch). Zwei weitere Systeme benutzen zwar mehrere Sprachen, tun dies
allerdings eher auf einer statisch Weise. Lediglich die Systeme Deep Map und SmartKom unterstützen eine dynamische multilinguale Interaktion. SmartKom ist zudem das
einzige System, welches über Sprache, Text und Pointing hinaus auch mit Mimik und
Gestik arbeitet.
Aufgrund der Tatsache, dass viele Systeme sich immer noch hauptsächlich mit den
technischen Fragen beschäftigen, ist die empirische Evaluation der meisten Systeme
noch keine primäre Aufgabe. Der größte Teil der untersuchten Systeme wurde, wenn
überhaupt, lediglich testweise analysiert. Das GUIDE System wurde mit „richtigen“
Touristen getestet. Die Mehrheit der Anwender empfand die Möglichkeit, das GUIDE
System als Reiseführer oder Karte zu nutzen, als hilfreich. Ihrer Meinung nach sei eine
positionsabhängige Navigation und eine Möglichkeit der Informationsabfrage nützlich
und beruhigend und sie vertrauten den Informationen und Navigationsanweisungen, die
das System für sie bereitgestellt hatte. Das TellMaris Projekt wurde von einer begrenzten Anzahl von Probanden auf die Nützlichkeit einer kombinierten 3D/2D-Präsentation
getestet. Dabei wurden von ihnen 3D-Karten als hilfreich empfunden. Einzelne Probanden hatten jedoch Schwierigkeiten, die 2D-Karten mit den 3D-Karten in Verbindung zu
bringen. Dies war jedoch auf eine fehlende Übereinstimmung zwischen den Karten zurückzuführen.
Bauweise
Für den Benutzer hat die Bauweise eines Systems große Auswirkungen auf seine praktische Bedeutung. Krey und Baus untersuchten, welche Art von „Architektur“ benutzt
wird, und wie die Interaktion verschiedener Komponenten realisiert wurde.
Alle Systeme der Untersuchung basieren auf einer modularen doch dabei sehr unterschiedlichen Bauweise. So gibt es zum einen die Systeme wie Hippie HIPS, GUIDE
und LOL@, die auf der „Client-Server“-Methode basieren. Sie bieten den Vorteil, dass
viele Clients (Webbrowser) ohne weiteres hinzugefügt werden können. Jedoch sind sie
5
2 Fußgängernavigation in Innenstädten
auch von einer verlässlichen Verbindung zwischen Client und Server (Webserver) abhängig, die beispielsweise in einem drahtlosen Netzwerk nicht immer gegeben ist. Cyberguide und TellMaris verwenden interagierende Applikationen. Diese Methode ist
verglichen mit der „Client-Server“-Variante eher dezentral, hat aber auch den Nachteil,
dass die Anwendung nur für bestimmte Geräte konstruiert und daher nicht flexibel einsetzbar ist. Außerdem kann eine Interaktion durchaus problematisch werden, weil verschiedene Programmiersprachen aufeinander treffen. REAL ist als hybrides System mit
beiden Varianten ausgestattet. Somit beinhaltet es auch all ihre Vor- und Nachteile.
Schließlich gibt es noch die multi-agend Systeme, wie beispielsweise Deep Map. Diese
ermöglichen, dass ein Fehlen bzw. Ausfallen von bestimmten Komponenten kompensiert wird, Komponenten dynamisch hinzugefügt und weggelassen und transparent zu
anderen Plattformen umgeleitet werden können.
In der von Kray und Baus durchgeführten Studie wurden mobile Systeme untersucht,
die meist auf eine abstrakte Kartendarstellung mit hervorgehobener Route des Benutzers zurückgreifen. Viele Menschen haben jedoch Schwierigkeiten, sich mit Hilfe einer
abstrakten Karte zu orientieren. Auf Grund der Entwicklung leistungsfähiger mobiler
Endgeräte ergeben sich neue multimediale Visualisierungsmöglichkeiten für die mobile
digitale Kartographie. LOL@ zum Beispiel integriert zusätzlich multimediale Komponenten in Form von Panoramen und Fotos.
Im nächsten Kapitel wird ein Konzept zur Fußgängernavigation vorgestellt, das im Gegensatz zu einer abstrakten kartenbasierten Darstellung eine realitätsnahe Navigationsund Orientierungshilfe wählt. Sie soll dem Betrachter einen realitätsgetreuen Eindruck
seiner Umgebung vermitteln und so eine intuitive Orientierungshilfe in unbekannter
Umgebung bieten. Dieses Konzept eignet sich gleichermaßen für Innenstädte wie für
Innenräume komplexer Gebäude, z.B. Stadthäuser, Einkaufsparks, Flughäfen oder Universitätsgebäude [Kol02].
6
2.2 Konzept
2.2 Konzept
Das diesem Projekt zu Grunde liegende Konzept ist in [Kol02] beschrieben. Um den
Visualisierungsanforderungen der mobilen digitalen Kartographie gerecht zu werden,
schlägt der Autor vor, reale Ansichten in Form von Videos und Panoramen zu verwenden. Videoclips entlang der Fußgängerwege und 360°-Panoramen an den Wegkreuzungen sollen dem Wegsuchenden eine wirklichkeitsgetreue und lückenlose Darstellung
der realen Umgebung bieten.
In dieser Arbeit soll nicht auf die Hardwarekomponenten und ihre Eigenschaften eingegangen werden, die erforderlich sind, um das vorliegende Projekt umzusetzen, sondern
es wird lediglich ein kurzer Abriss eines möglichen Realisierungsbeispiels gegeben. Das
Konzept stellt geringe Anforderungen an die Rechenleistung mobiler Benutzerendgeräte; es muss nur das Abspielen von Videos möglich sein. Bietet das Endgerät des Weiteren die Möglichkeit der Positions- und Orientierungsbestimmung, dann kann der Benutzer neben dem freien Navigieren und dem Abspielen kompletter Routen die Videoclips
als Orientierungshilfe nutzen. Mit Hilfe eines GPS-Empfängers und eines Sensors zur
kontinuierlichen Richtungsbestimmung kann die Stelle des Videoclips dargestellt werden, die der geographischen Position und Blickrichtung des Wegsuchenden entspricht.
Die ortssynchronisierte Darstellung eignet sich zudem zur Nutzung von Location Based
Services (LBS). Diese ermöglichen – mittels einer Verbindung zu GIS-Datenservern –
die Übermittlung von Informationen über den aktuellen Aufenthaltsort des Benutzers in
Form von multimedialen Inhalten wie zum Beispiel Sprache, Texte und Filme.
Die Panoramen sollen die Videodarstellung an Entscheidungspunkten ergänzen. Dazu
werden die Panoramen mit den Koordinaten ihres Aufnahmestandortes assoziiert und
durch Festlegung der Nordrichtung im Bild orientiert. Als Hardwarekomponente wird
dann ein Sensor zur kontinuierlichen Richtungsbestimmung unerlässlich, damit die Ansicht im PDA-Display stets mit der Orientierung des mobilen Benutzers synchronisiert
werden kann. Für weitere Details wird auf [Mid03] verwiesen.
Für die dynamische Routenausgabe wird permanent der kürzeste Weg vom aktuellen
Standort des Benutzers zu seinem gewünschten Ziel berechnet. Auf diese Weise wird
dann die Route generiert, die anhand der gezeigten Videobilder den Fußgänger zum Ziel
führen soll. Die Adressierung der Videoclips an die korrespondierenden Stellen in der
Realität erfolgt auf der Basis eines Wegenetzgraphen.
Kolbe schlägt für die Fußgängernavigation in Stadtgebieten die Modellierung eines Wegenetzes vor, die
sich nach dem für Fahrzeugnavigationssysteme geschaffenen ISO-Standard GDF 4.0 richtet [Kol02].
Das Wegenetz besteht aus einer Vielzahl von Knoten
und Kanten. Diese topologische Struktur ist auch für
die Fußgängernavigation sinnvoll. Zwar sind Fußgänger – anders als Autofahrer – nicht an vorgegebene
Fahrbahnen gebunden, doch bewegen sie sich in
Stadtbereichen meist auf direktem Wege von ihrem
Startpunkt zum Zielpunkt. Auch auf Plätzen wird man Bild 2.1.: Ausschnitt eines Wegegraphen
hier in der Regel den kürzesten Weg über den Platz
7
2 Fußgängernavigation in Innenstädten
von einer Wegmündung zur nächsten wählen. Deshalb werden die Wege über Plätze
sowie um Plätze herum ebenfalls durch Graphkanten abstrahiert. Bei besonders großen
Plätzen werden zusätzliche Knotenpunkte eingefügt, die ebenfalls durch jeweils eine
Panoramaansicht repräsentiert werden. Alle Knoten werden mit ihren benachbarten Panoramapunkten durch Kanten verbunden. Weitere Knotenpunkte werden an den Stellen
des Wegenetzgraphen eingefügt, an denen keine lineare Straßenführung besteht (in Bild
2.1 nicht dargestellt). Diesen Knotenpunkten werden jedoch keine Panoramen zugeordnet, da es sich hierbei nicht um Entscheidungspunkte handelt. Neben der Fußgängerzone und dem Platz kann sich der Fußgänger zusätzlich auf Gehwegen entlang befahrener
Straßen bewegen. In dieser speziellen Situation wird für jeden Gehweg eine Kante modelliert. Da sich ein Fußgänger in einer Einbahnstraße nicht an eine bestimmte Richtung
halten muss, also zu jeder Zeit seine Wegrichtung ändern kann, sind alle Kanten des
Wegegraphen ungerichtet.
Die Videoclips werden entlang der möglichen Fußgängerwege, die durch das Wegenetz
repräsentiert werden, in beiden Richtungen aufgenommen und anschließend mit den
jeweiligen Wegkanten des Wegenetzes assoziiert. Eine gewisse Diskrepanz zwischen
dem dargestellten Videobild und der tatsächlichen Ansicht des Benutzers wird dabei
jedoch nie ganz auszuschließen sein. Zum einen wird sie dadurch hervorgerufen, dass
sich der Fußgänger nicht punktgenau entlang des Wegenetzes bewegt. Zum anderen
wird wegen der begrenzten Genauigkeit der Positionsbestimmung für einen gewissen
Wegeabschnitt immer nur jeweils ein Videobild geliefert, welches der ermittelten
Standortposition geographisch am nächsten kommt. Informationen über die Genauigkeit
von Messsensoren in Stadtbereichen werden in [Ret03] gegeben. Befinden sich die Abweichungen im Bereich weniger Meter, dann sollte der Anwender aufgrund seines
menschlichen Orientierungssinnes dennoch ohne weiteres in der Lage sein, das dargestellte Videobild dem zugehörigen Bereich seiner Umgebung zuzuordnen.
Die Videos werden mit ortsspezifischen Informationen in virtueller Form ergänzt, um
dem Benutzer Auskunft über seine Umgebung geben zu können. Man kann hier von
Augmented Videos sprechen. Kolbe schlägt für die Beschriftung in [Kol02] die Mediensynchronisationssprache SMIL vor, bei der die Ergänzung der Videobilder in 2D
erfolgt. In der vorliegenden Arbeit soll hingegen die Videobeschriftung im 3DObjektraum untersuchen werden.
Für diese Arbeit ergeben sich zwei zentrale Problembereiche. Zum einen muss geklärt
werden, ob die Zuordnung der Videos in den Objektraum mit der Genauigkeit erreicht
werden kann, die erforderlich ist, um die virtuellen Objekte mit der notwendigen Exaktheit in das Videobild integrieren zu können. Zum anderen muss, da das Konzept über
die herkömmliche Kartendarstellung hinausgeht, die kartographische Gestaltung von
3D-Beschriftung selbst untersucht werden. Denn in der einschlägigen Literatur ist bisher noch nicht über Erfahrungen mit der Beschriftung in Videos berichtet worden.
8
3 Verfahren zur Beschriftung von Videos im Objektraum
Um Videos im Objektraum beschriften zu können, müssen den 2D-Punkten im Videobild 3D-Koordinaten im Objektraum zugeordnet werden. Um diese Zuordnung zu realisieren, sind mehrere Arbeitsschritte notwendig. Die Abfolge dieser Arbeitsschritte wird
in Bild 3.1 dargestellt.
Videoaufnahme
Kap. 4.1
Kap. 3.1
Kamerarekonstruktion
Georeferenzierung Kap. 3.2
Kap. 3.4 Virtuelle
Beschriftung
Augmented Video
Bild 3.1
Ablaufschema: Beschriftungsrealisierung von Videos im Objektraum
9
3 Verfahren zur Beschriftung von Videos im Objektraum
In diesem Kapitel werden die einzelnen Schritte des Verfahrens näher erläutert. Zunächst wird der automatische Prozess dargestellt, der die Rekonstruktion der Kamerabewegung ermöglicht. Danach wird ein kurzer Überblick über Software-Produkte gegeben, die diesen Prozess durchführen können, sowie der Begriff Georeferenzierung erläutert. Anschließend folgt die Darstellung einer praktischen Durchführung der bisher
genannten Arbeitsschritte. Um das Verfahrens zu vervollständigen, wird des Weiteren
das Prinzip der Videoüberlagerung erläutert. Abschließend wird die Genauigkeit der
Kamerarekonstruktion anhand des zuvor gezeigten Beispiels beschrieben.
3.1 Rekonstruktion der Kamerabewegung
Möchte man ein Live-Video mit virtuellen Objekten anreichern, sollte in dem Ergebnisvideo sichergestellt sein, dass diese Objekte sich überzeugend in die Videoszene einfügen und keine abweichenden Bewegungen relativ zu den realen Objekten ausführen.
Kameramatching ist der Prozess, bei dem die Bewegung einer Kamera anhand des mit
dieser Kamera aufgenommenen Filmes berechnet wird. Mit Hilfe dieser Berechnung
kann anschließend eine virtuelle Kamera beschrieben werden, die die reale Kamera repräsentiert. Wird die virtuelle Kamera dann in ein 3D-Graphikprogramm importiert,
können virtuelle Objekte in den 3D-Raum eingefügt und anschließend durch Filmen mit
Hilfe der virtuellen Kamera dem Videofilm überlagert werden.
Lange Zeit war nur der umgekehrte Weg möglich. Die reale Kamera wurde bei der
Aufnahme des endgültigen Filmes mittels computergesteuerter Geräte an die zuvor
festgelegten Zielbewegungen angepasst. Diese Vorgehensweise erforderte eine aufwändige und zudem sehr teure Ausrüstung und wurde deshalb in der Fernsehbranche nur bei
wirklich wichtigen Szenen mit Spezialeffekten von kurzer Dauer angewendet. [Dan01]
Aufgrund der Tatsache, dass sich Objekte, die sich nah an der Kamera befinden, bei der
Kamerabewegung durch den Raum schneller durch das Videobild bewegen als Objekte,
die weiter entfernt liegen, konnte das Verfahren des Kameramatchings entwickelt werden, mit dem die Bewegung der Kamera nachgebildet werden kann. [Nic02]
3.1.1 Kameratracking-Prozess
Die Fähigkeit, künstlich generierte Objekte mit Bildern einer realen Umgebung zu vermischen, ist eine grundlegende Komponente eines jeden Augmented Reality Systems.
Kameramatching, oder auch Kameratracking genannt, ist ein wesentlicher Schritt auf
dem Weg der Objektplatzierung im 3D-Raum. Dabei kann die Genauigkeit des Tracking-Algorithmus die wahrnehmbare Präzision der eingefügten Objekte signifikant
beeinflussen. [Gib02]
Das Kameratracking führt für jeden Frame eines Videos eine Schätzung der inneren und
äußeren Kameraparameter zu dem Zeitpunkt aus, an dem der jeweilige Frame erfasst
wird. Die äußeren Kameraparameter beschreiben die Position und Orientierung der
Kamera, die inneren Kameraparameter umfassen die Brennweite (Kamerakonstante),
10
3.1 Rekonstruktion der Kamerabewegung
Hauptpunkt, Pixelformfaktor (Maßstab der Achsen) und Schrägverlauf (Scherung der
Achsen).
Für einige Anwendungen des Augmented Reality wie zum Beispiel der Darstellung
künstlicher Objekte auf einem see-through-Head-Mounted Display muss die Berechnung der vorgenannten Parameter in Echtzeit erfolgen. In solchen Fällen werden typischerweise Algorithmen verwendet, die Annahmen hinsichtlich der Eigenart der Kamerabewegung oder des Aufbaus der Szene treffen, und so die Schätzung der Kamerabewegung von einem zum nächsten Bildframe sequentiell zu verbessern. Diese Kalibrierungsverfahren sind für Abweichungen anfällig und erfordern einen hohen Grad an Genauigkeit, folglich ist ihre Anwendbarkeit begrenzt.
Für Anwendungen im Bereich der offline Augmented Reality besteht kein Bedürfnis
nach Kalibrierung in Echtzeit. Durch projektive Rekonstruktionen werden kleine Abschnitte der Bildersequenz nacheinander kalibriert und anschließend zusammengefügt.
Dieser Vorgang des Zusammenfügens wird als Merging bezeichnet. Dabei wird versucht, jeden Fehler so gleichmäßig wie möglich auf die gesamte Bildersequenz zu verteilen, um Abweichungen zu reduzieren.
In den drei folgenden Unterkapiteln wird der Kameraverfolgungsprozess detailliert dargestellt. Die Darstellung basiert auf dem von Icarus (s. Kap. 3.1.2) verwendeten Matchingverfahrens, da hierfür entsprechende Literatur [Gib02] zur Verfügung steht.
Als erstes wird das Verfahren des Featuretrackings beschrieben, das auf dem weit verbreiteten Kanade-Lucas-Tomasi (KLT) Algorithmus basiert. Es werden Schätzungen für
die Kamerabewegung zwischen den einzelnen Frames verwendet, um das Featuretracking zu führen und dabei die Anzahl der nicht korrekt detektierten Merkmalspunkte zu
vermindern. Anschließend wird eine zuverlässige Methode der projektiven Rekonstruktion vorgestellt. Dabei werden sorgfältig ausgewählte Teilsequenzen der Videodaten
durch hierarchische Algorithmen zu einer vollständigen Rekonstruktion zusammengefügt. Zum Schluss wird gezeigt, wie RANSAC-basierte Stichproben unter Berücksichtigung einer zuverlässigen Verbesserung von der projektiven zur metrischen Geometrie
auf das Problem der Selbstkalibrierung angewendet werden können.
Kamerakalibrierung
Featuretracking
Bild 3.2
Projektive
Rekonstruktion
Selbstkalibrierung
Kamerakalibrierung mit den logischen Beziehungen ihrer einzelnen Komponenten: Featuretracking, projektive Rekonstruktion und Selbstkalibrierung.
11
3 Verfahren zur Beschriftung von Videos im Objektraum
3.1.1.1 Featuretracking
Der Kalibrierungsprozess beginnt mit einer automatischen Erkennung und Verfolgung
(Tracking) einer großen Anzahl von Merkmalspunkten durch die gesamte Sequenz hinweg. Der hierbei verwendete Algorithmus basiert auf dem iterativen KLT Algorithmus
([Tom91], [Shi94]). Die markanten Punkte (Features) werden mittels des Harris-CornerDetektors [Harr88] so gewählt, dass sie sich so gleichmäßig wie möglich über das gesamte Bild verteilen.
Einmal gefundene Features können aufgrund schlechter Lokalisation durch den Tracking-Algorithmus oder aufgrund von Verlassen des Bildbereiches wieder verloren gehen. Sobald ein solcher Fall eintritt, werden neue Features ausgewählt, um die fehlenden Features zu ersetzen. Somit wird das FeatureTracking immer mit einer konstanten
Anzahl an Features im jeweiligen Frame durchgeführt. Nachdem die Trackingphase
abgeschlossen ist, wird ein zweiter Durchlauf durchgeführt, der nun aber beim Endframe beginnt und beim Startframe endet. Dieses Backtracking hat die Aufgabe, die neuen
Features, die als Ersatz der verloren gegangenen Features eingefügt worden sind, zu
tracken. Dieses Verfahren erhöht zwar für jedes Ersatzfeature die Laufzeit des Trackings, doch wird damit auch die Gesamtrobustheit der Kalibrierung verbessert.
Der KLT Tracking-Algorithmus wird durch die Verwendung einer Schätzung der Kamerabewegung zwischen den einzelnen Frames ergänzt. Dadurch soll das Tracken der
Features vom jeweiligen Frame zum nachfolgenden unterstützt werden. Dieses so genannte Guidedtracking hat sich zur signifikanten Reduzierung der Ausreißer unter den
Features als nützlich erwiesen. Die Reduzierung solcher Ausreißer ist wichtig, wenn der
Algorithmus der Bewegungsrekonstruktion, der im nächsten Abschnitt beschrieben
wird, zuverlässig angewendet werden soll.
Grundsätzlich werden Features durch die Sequenz getrackt, bis eine zuverlässige Fundamentalmatrix [Hart02] geschätzt werden kann. Diese wird dann dazu verwendet, die
optimalen Featuretracks zu ermitteln und so die Kamerabewegung relativ zum Startframe zu bestimmen. Falls eine Fundamentalmatrix nicht zuverlässig bestimmt werden
kann, wird stattdessen eine planare projektive Homographie [Hart02] genutzt, um das
Tracken der Features dennoch unterstützen zu können. Beim Backtracking wird die
Schätzung der Kamerabewegung zur Identifizierung der Tracks genutzt, deren Featureposition signifikant von ihrer geschätzten Bewegung abweicht. Dieses Vorgehen soll
nun näher erläutert werden:
Das Guidedtracking beginnt mit einer Auswahl möglicher Featurepunkte im Frame
i = 0. Diese Features werden dann in den Frames j = i + 1, j = i + 2, usw. getrackt, bis
einer der folgenden Fälle eintritt:
• Das Ende der Sequenz ist erreicht oder 10 Frames wurden abgearbeitet.
• Mehr als 50% der möglichen Features sind verloren gegangen.
• Eine planare Homographie kann aufgrund der Featurebewegung zwischen den Frames
i und j robust geschätzt werden, und der gesamte mittlere quadratische (RMS-) Fehler
übersteigt einen vom Anwender festgelegten Grenzwert.
12
3.1 Rekonstruktion der Kamerabewegung
Der letzte der drei Fälle ist der wichtigste: Es wird angenommen, dass, wenn die Berechnung einer planaren Homographie große Widersprüche in den Daten beinhaltet, die
Fundamentalmatrix zuverlässig geschätzt werden kann. (Eine 2D-Homographie kann
nur bei einer reinen Rotation der Kamera berechnete werden. Sobald die Kamera auch
eine translatorische Bewegung ausführt, kann die Fundamentalmatrix bestimmt werden). Für die Schätzung der Fundamentalmatrix ergeben sich signifikante Entartungen,
wenn nur kleine Kameratranslationen stattfinden. Die Epipolargeometrie [För03] kann
durch die aktuellen Features aufgrund der geringen Kamerabewegung nicht eindeutig
definiert werden und die Schätzungsalgorithmen werden numerisch schlecht konditioniert. Betrachtet man die Gesamtqualität der Passeigenschaft einer planaren Homographie in Verbindung mit der Bewegung der Features zwischen den Frames i und j, erhält
man Hinweise darauf, wann eine Fundamentalmatrix wahrscheinlich zu gut bestimmt
wurde. Für die homographische Einpassung wird typischer Weise ein Grenzwert von
etwa vier Pixeln angewendet. Es hat sich erwiesen, dass dieser Wert für ein ausgeglichenes Verhältnis zwischen einer akkuraten Epipolargeometrie und einer großen Anzahl
von Featuretracks sorgt.
Sobald ein geeigneter Frame j gefunden ist, wird unter Verwendung eines RANSACAlgorithmus die Fundamentalmatrix zwischen den Frames i und j geschätzt. So werden
die Featuregruppen identifiziert, die vom Frame i zum Frame j zuverlässig getrackt
wurden. Diese Features werden dann vom Trackingalgorithmus dazu verwendet, um die
Epipolargeometrie des Frames i mit jedem Frame i + 1, i + 2, …, j zu bestimmen. Anschließend wird das Tracking der Features vom Frame i bis Frame j wiederholt, um unter Hinzunahme der zuvor bestimmten Epipolargeometrie zwischen den jeweiligen zwei
Frames die Features zu identifizieren, die zuvor nicht korrekt getrackt wurden. Dabei
wird jedes Feature darauf geprüft, ob es sich während der Trackingphase mit einer signifikanten Entfernung zu seiner Epipolarlinie bewegt. Für die Features, die signifikant
von der Bewegung abweichen, wird das Tracking abgebrochen. Sobald der Frame j erreicht wird, wird eine neue Bewegungsschätzung initiiert und das Verfahren wiederholt.
Falls nach der Bearbeitung von zehn Frames keine Fundamentalmatrix bestimmt werden konnte, werden mit Hilfe der zuvor getrackten Features planare Homographien geschätzt und unter Hinzunahme der transformierten Positionen, die als Eingangsschätzung für den KLT-Trackingalgorithmus verwendet werden, die Features von einem
Frame zum nächsten festgelegt.
Durch das Vorgehen des Trackingalgorithmus nimmt die Anzahl der konsistenten Features zu, verringert sich der Gesamtreprojektionsfehler und verbessert sich die Stabilität
der endgültigen Kalibrierung.
3.1.1.2 Projektive Rekonstruktion
Sind erst einmal geeignete Features identifiziert worden, dann wird ein projektiver Rekonstruktionsalgorithmus verwendet, um für jeden Frame der Gesamtsequenz die Featurepositionen und Kameraprojektionsmatrizen zu schätzen. Da sequentielle Algorithmen von einer guten Anfangsschätzung der 3D-Geometrie (äußere Orientierung und
3D-Punkte) stark abhängig und für Abweichungen über lange Sequenzen hinweg anfäl-
13
3 Verfahren zur Beschriftung von Videos im Objektraum
lig sind, wird vorgeschlagen, erst kleine Teilsequenzen (Subsequenzen) zu rekonstruieren und diese dann zu größeren Sequenzen hierarchisch zusammenzufügen (merging).
Rekonstruktion der Subsequenzen
Um die Rekonstruktion der Gesamtsequenz zu erhalten, werden erst durch die Auswahl
einer Gruppe von Schlüsselframes (Keyframes) subsequenzielle Rekonstruktionen gebildet. Für jedes Paar der Keyframes wird eine separate projektive Rekonstruktion gebildet, die aus den Kameraprojektionsmatrizen für jeden Frame zwischen den Keyframepaaren und den Positionen der konsistenten Features, die in dem jeweiligen Frame zu
sehen sind, besteht.
Die Keyframes werden so gewählt, dass die Epipolargeometrie zwischen ihnen zuverlässig geschätzt werden kann und sich überschneidende Subsequenzen zusammengefügt
werden können, indem die Struktur und die Frames für beide Subsequenzen genutzt
werden können. Der Auswahlprozess beginnt mit der Positionierung eines Keyframes
bei Frame eins. Danach werden alle möglichen Paarungen des ersten Frames mit den
nachfolgenden Frames betrachtet. Für jede Paarung (i, j) wird folgender Ausdruck Sij
berechnet:
Sij = w 1 (1.0 −
n1ij
n 2ij
) + w2
1
+ w 3e 2Fij .
2
e Hij
n 2ij ist die Anzahl der Features, die in dem vorherigen Keyframepaar rekonstruiert wurden, und n1ij ist die Anzahl der Features, die gemeinsam in dem vorherigen und dem
aktuellen Paar rekonstruiert werden können (Dabei wird für das erste Paar n 2ij die Gesamtanzahl aller möglichen Features angenommen). e Hij ist der mittlere Reprojektionsfehler, der entsteht, wenn eine planare Homographie mittels eines Zufallsalgorithmus an
die Featuredaten angepasst wird. e Fij ist der mittlere Epipolarfehler, der entsteht, wenn
eine Fundamentalmatrix mittels eines SimilarSampling-Algorithmus geschätzt wird.
w 1,2,3 sind Gewichte, die verwendet werden, um die relative Signifikanz jeder Teilaus-
wertung zu verändern.
Der erste Term der obigen Gleichung bemisst den Anteil der Features, die nur in dem
aktuellen Keyframepaar rekonstruiert wurden. Der zweite Term beinhaltet den Homographiefehler e Hij und wird dazu verwendet, die zwei Ansichten auf Degeneration zu
testen: es kann gefolgert werden, dass je kleiner der Wert 1 / e 2Hij ist, desto schlechter
stimmt die Homographie mit den Daten überein – was darauf hinweist, dass die Schätzung der Epipolargeometrie mit nur geringer Wahrscheinlichkeit degeneriert. Der Homographiefehler ist typischer Weise dann klein, wenn eine kleine Kamerabewegung
zwischen den Frames vorliegt. Der Kalibrierungsalgorithmus ist bei Erkennung der Bewegungslücke in der Lage, mit dieser Situation umzugehen, so dass dieser Typ der Bewegungsabweichung keine numerischen Probleme verursacht.
Unter der Annahme, dass ein Keyframe im Frame i platziert ist, sollte der nächste
Keyframe so gewählt werden, dass die gewichtete Summe Sij dieser drei Terme mini14
3.1 Rekonstruktion der Kamerabewegung
miert wird. Die minimale Summe wird erreicht, indem die Gleichung für die jeweiligen
Paarungen des Frames i mit jedem Frame j = i + 1, … berechnet wird. Diese Berechnung wird solange fortgesetzt, bis weniger als 50% der in Frame i getrackten Features
im Frame j übrig bleiben. Der Frame mit dem geringsten Wert wird dann als nächster
Keyframe markiert. Dieser Prozess wird bis zum Ende der Sequenz weitergeführt, immer auf der Suche nach dem besten Partner für den jeweils aktuellen Keyframe.
Bild 3.3 zeigt ein Beispiel für den oben beschriebenen Algorithmus. Es wird veranschaulicht, wie der Keyframe-Auswahlprozess die projektive Rekonstruktion der Kamerabewegung einleitet. Im unteren Teil des Bildes werden die entsprechenden Ausschnitte einer 200-Frame-langen Sequenz dargestellt. Der Graph direkt über diesen Bildausschnitten stellt die Framenummern auf der horizontalen Achse dem Betrag der Kamerabewegung, die zwischen den Frames stattfindet (und durch die Anwendung des unten
beschriebenen Kalibrierungsalgorithmus erhalten wird), auf der vertikalen Achse gegenüber. Über diesem Graphen werden die Positionen der Keyframes auf einer Zeitleiste dargestellt (Es ist zu beachten, dass aus Darstellungsgründen nur ausgewählte
Keyframes beziffert werden. Alle Keyframes werden mit Vertikallinien gekennzeichnet,
wobei die Linien der unnummerierten Keyframes kürzer dargestellt sind. Beispielsweise
befinden sich zwischen dem Frame 1 und Frame 21 vier weitere Keyframes).
Bild 3.3
Keyframeauswahl, Rekonstruktion der Sub-Sequenzen und hierarchisches Zusammenfügen
für eine 200-Frame-lange Videosequenz [Gib02].
Zu beachten ist die relativ kleine Kamerabewegung im mittleren Drittel der Sequenz.
Wären die Keyframes gleichmäßig über die gesamte Sequenz hinweg ausgewählt worden, dann würde die Kamerabewegung, bedingt durch bei der Schätzung der Epipolargeometrie auftretende numerische Probleme, in diesem Bereich nicht gut definiert werden. Der oben beschriebene Keyframe-Auswahlalgorithmus hat jedoch das Fehlen der
Kamerabewegung entdeckt und die Keyframes wurden deshalb in diesem Bereich eher
spärlich positioniert.
Sobald die Gruppe der Keyframepaare identifiziert ist, wird für jedes dieser Paare eine
projektive Zweibild-Rekonstruktion erstellt, indem durch die Anwendung eines
RANSAC-Algorithmus die Epipolargeometrie und die projektive Struktur geschätzt
15
3 Verfahren zur Beschriftung von Videos im Objektraum
werden. Die Rekonstruktion einer Subsequenz wird dann durch die Schätzung der Kameraprojektionsmatrix für die nicht-Keyframes zwischen dem Keyframepaar vervollständigt. Durch eine anschließende Bündelausgleichung wird der Reprojektionsfehler
minimiert und der gesamte Restfehler gleichmäßig auf die Subsequenz verteilt.
Modell des hierarchischen Mergings
Durch den oben beschriebenen Rekonstruktionsprozess erhalten wir projektive Rekonstruktionen für Subsequenzen. Um eine projektive Rekonstruktion der gesamten Videosequenz zu erhalten, müssen die Subsequenzen zusammengefügt werden. Für das Zusammenfügen (Merging) wird ein robustes hierarchisches Verfahren verwendet. Der
Vorteil dieses Verfahrens besteht darin, dass Fehler gleichmäßig über die Gesamtsequenz verteilt, die Drift reduziert und die Genauigkeit der Objektregistrierung vergrößert wird.
Die Stufen des hierarchischen Mergingmodells werden auch in Bild 3.3 dargestellt.
Über der Keyframelinie wird mit der Rekonstruktion der Subsequenzen begonnen, indem Paare von Subsequenzen robust zusammengefügt werden. Dieses paarweise Merging wird für eine vom Benutzer festgelegte Anzahl von Durchgängen über alle Sequenzen hinweg weitergeführt, wobei jeder Durchgang die absolute Anzahl der Subsequenzen reduziert. In Bild 3.3 werden drei Durchgänge veranschaulicht.
Auch wenn zwei sich überlappende Teilsequenzen viele Features gemeinsam haben,
unterscheiden sich dennoch deren projektive Basen voneinander. Daher ist es notwendig, die Änderung der projektiven Basen zu berechnen, die eine Subsequenz auf die
darauf folgende abbildet. Das Schätzungsverfahren der 3D-Homographie wird hier
nicht weiter vertieft. Nähere Informationen dazu sind in [Gib02] nachzulesen. Die
Schätzung der Homographie wird schließlich dazu verwendet, die zweite Subsequenz
mit der ersten zu verschmelzen. Durch die Transformation der 3D-Struktur, die in beiden Subsequenzen vorgenommen wird, erhalten wir für jeden Teil der Struktur zwei
mögliche Projektionsmatrizen bzw. äußere Orientierungen jeweils aus der ersten und
zweiten Subsequenz, wobei diejenige mit dem kleinsten mittleren quadratischen (RMS)
Reprojektionsfehler angenommen wird. Für die sich überlappenden Frames gilt das
gleiche Vorgehen, d.h. es wird die Projektionsmatrix angenommen, die den kleinsten
RMS Reprojektionsfehler für alle konsistenten Features aufweist. Alle übrigen Features
und Projektionsmatrizen, die in der zweiten, aber nicht in der ersten Subsequenz vorliegen, werden mit der Schätzung der Projektivität transformiert. Die restlichen Features
und Projektionsmatrizen, die für die erste Subsequenz vorliegen, bleiben unverändert.
Nach dem Verschmelzen der beiden Subsequenzen werden inkonsistente Features erneut identifiziert. Durch die anschließende Anwendung einer Bündelausgleichung werden Fehler gleichmäßig über die neue Sequenz verteilt.
Nach der Durchführung des paarweisen Mergings wird das Merging auf eine sequentielle Art weitergeführt, indem alle Subsequenzen in eine Gesamtsequenz zusammengefügt
werden. Dazu wird ebenfalls eine Schätzung der Projektivität vollzogen. Der Benutzer
kann durch die Anzahlbestimmung der paarweisen Mergingdurchgänge leicht in das
Verhältnis Kalibrierungszeit – Genauigkeit der Rekonstruktion eingreifen.
16
3.1 Rekonstruktion der Kamerabewegung
3.1.1.3 Selbstkalibrierung
Im letzten Schritt der Videosequenzkalibrierung wird die Rekonstruktion, die uns bisher
auf eine unbekannte projektive Basis gebracht hat, zu einem metrischen System erweitert. Das Verhältnis zwischen der projektiven und metrischen Geometrie ist nicht bekannt, so dass eine Selbstkalibrierung gerechnet werden muss. Zur Selbstkalibrierung
wird ein RANSAC-basierter Algorithmus genutzt, um die Kalibrierungsmatrix zu
bestimmen. Hierzu werden projektive Matrizen zufällig ausgewählter Sequenzen in einen Algorithmus nach M. Pollefeys (2001) gespeist, der die Kalibrierungsmatrix berechnen kann. Abschließend können die Kameraparameter für jeden einzelnen Frame
der gesamten Videosequenz ermittelt werden.
3.1.2 Überblick über Matchmover
Eine Matchmover-Software verfolgt in jedem Bild eines Videofilms markante Punkte
der dargestellten Szene. Diese Punkte in 2D werden dann automatisch zu vielen Punktpfaden verlinkt, die die jeweilige Bewegung eines markanten Punktes darstellen. Mit
Hilfe der Punktbewegungen erfolgt anschließend eine hochkomplexe 3D-Berechnung,
die die Parameter der Kamera zu jedem Zeitpunkt des Videos als Lösung hat. Unter
Verwendung statistischer Analysen werden alle Bewegungsverläufe, die nicht mit der
Gesamtbewegung der markanten Punkte übereinstimmen, automatisch verworfen. Somit ist ein Matchmover in der Lage, die Bewegungen von nicht-statischen Objekten wie
zum Beispiel Vögel oder Passanten zu erkennen und bei der Rekonstruktion der Kamera
zu ignorieren.
Der Markt stellt verschiedene Kameratracking-Softwareprodukte zur Verfügung. Diese
unterscheiden sich in Preis und Leistung. Manche Matchmover übernehmen die Verfolgung markanter Punkte automatisch, bei anderen wiederum muss die Verfolgung durch
den Anwender manuell durchgeführt werden. Dieses Verfahren nimmt sehr viel Zeit in
Anspruch. Zudem ist die Genauigkeit der Kameralösung stark von der Erfahrung des
Anwenders abhängig.
Eines der führenden Matchmover-Produkte ist Boujou. Es wurde im Jahre 1999 von der
2d3 Gesellschaft entwickelt und hat neben zahlreichen Auszeichnungen sogar einen
Emmy (amerikanischer Fernsehpreis) gewonnen. Der Name der Gesellschaft, 2d3, reflektiert das Konzept: aus den 2D-Videodaten werden die 3D-Daten der Kamerabewegung ermittelt. Neben der Berechnung der Kamerabewegung stellt Boujou weitere
Funktionen zur Verfügung. Es kann für den aktuellen Videofilm die Krümmung der
Kameralinse kalibriert werden. Objekte, die beim Kameramatching nicht berücksichtigt
werden sollen, lassen sich durch eine „Maske“ verdecken. Fährt beispielsweise ein Auto
durch das Videobild, kann es durch Verwendung einer Maske bei der Erstellung der
Kameralösung von Boujou ignoriert werden. Des Weiteren können 3D-Objekte in die
Boujou-Szene eingefügt werden. So kann die berechnete Kamerabewegung auf Korrektheit kontrolliert werden, indem untersucht wird, ob sich das Objekt beim Vorwärtslauf des Videos in die Szene einfügt.
In [Nic02] vergleicht der Autor die Version 2.0 von Boujou mit zwei weiteren Matchmovern: MatchMover Pro 2.5 und SceneGenie 1.5.
17
3 Verfahren zur Beschriftung von Videos im Objektraum
Das Angebot von MatchMover Pro 2.5, entwickelt von REALVIZ, ist dem von Boujou
sehr ähnlich. Es ist ebenfalls in der Lage, das Tracking automatisch durchzuführen. Dieser Prozess wird von Boujou jedoch in der Hälfte der Zeit, die MatchMover Pro dafür
benötigt, bewältigt. Des Weiteren werden in dem untersuchten Video von Boujou dreimal so viele Punkte gefunden, wie es bei MatchMover der Fall ist. Boujou ist imstande,
auch in Bereichen des Videofilms, die wenig Kontrastunterschiede aufweisen, Punkte
zu identifizieren, wo andere Matchmover versagen. Diese Eigenschaft ist von Vorteil,
da die Genauigkeit der Kameralösung mit der Anzahl gefundener Punkte steigt. Werden
beispielsweise nur 20 Pfade detektiert und einer dieser Pfade ist fehlerhaft, dann kann
dies relativ große Auswirkungen auf die Genauigkeit der Kamerarekonstruktion haben.
Sind jedoch 100 Pfade im Videobild detektiert worden, können statistische Analysen
dazu genutzt werden, Punkte, die inkonsistente Ergebnisse produzieren, zu eliminieren.
Auf diese Weise erhält Boujou eine große Anzahl konsistenter und hochgenauer Bewegungsverläufe. Diese Fähigkeit von Boujou könnte der Grund für die Preisdifferenz, die
zu den anderen Matchmovern besteht, sein. Der aktuelle Preis von Boujou beträgt
10.000 Dollar und wird daher nicht oft in Büros kleiner Firmen vorgefunden. Der Preis
von MatchMover Pro liegt bei 5.000 Dollar, SceneGenie kostet lediglich 1.000 Dollar.
Dafür bietet SceneGenie nicht die automatische Punktverfolgung an. Der Autor von
[Nic02] folgert, dass Boujou für große Projekte mit einem großen Budget am besten
geeignet ist, da auch die Filmindustrie auf Boujou vertraut. Trotzdem macht MatchMover Pro bei halbem Preis Boujou Konkurrenz. Auch wenn in Bereichen mit niedrigen
Kontrastdifferenzen das Tracken zu wünschen übrig lässt, können mit MatchMover Pro
gute Ergebnisse erzielt werden. Falls man sein Geld nicht für Software ausgeben möchte und viel Zeit zur Verfügung hat, dann ist SceneGenie das richtige Werkzeug.
Icarus ist ein weiteres führendes Matchmover-Produkt, wurde von der Universität von
Manchester entwickelt und war bis März 2003 frei erhältlich. Icarus ist neben der Berechnung der Kamerabewegung dazu in der Lage, die geometrische Darstellung der
Umgebung zu unterstützen. Die Texturen der modellierten Flächen können automatisch
aus den Videobildern extrahiert und auf das rekonstruierte Modell abgebildet werden
(s. Bild 3.4). Diese Funktion kann bei der Anreicherung einer Videosequenz mit künstlichen Objekten dazu genutzt werden, Verdeckungen zwischen realen und künstlichen
Objekten in der Szenendarstellung zu zerlegen. Somit können Teile der künstlichen Objekte, die im Videobild durch das rekonstruiert Modell verdeckt werden, transparent
dargestellt werden.
Bild 3.4
18
Rekonstruktion der Szenengeometrie: Links: Videobild. Rechts: rekonstruiertes Modell.
3.2 Georeferenzierung
Für die vorliegende Arbeit sind sowohl mit Boujou in der Version 2.3.1 als auch mit
Icarus Tests durchgeführt worden. Da Icarus jedoch keine für dieses Projekt hinreichende Lösung der Georeferenzierung (s. Kapitel 3.2) bietet, wird Boujou für die weitere Videobearbeitung verwendet.
3.2 Georeferenzierung
Das Kameramatching liefert als Ergebnis eine Rekonstruktion des Kamerapfades sowie
3D-Koordinaten markanter Features. Die Objektpositionen sind dabei bis auf eine räumliche Ähnlichkeitstransformation bestimmbar und befinden sich daher in einem lokalen
Modellsystem. Um die lokale Geometrie mit dem für die Beschriftung notwendigem
3D-Modell in Bezug zu bringen, muss das lokale Koordinatensystem in das globale
Koordinatensystem, in welchem sich das 3D-Modell befindet, überführt werden.
Zwei räumliche Koordinatensysteme lassen sich durch drei Translationen ∆X, ∆Y, ∆Z
und drei Rotationen γ, β und α – positive Drehungen um die Z-, Y- und X-Achsen im
Uhrzeigersinn vom positiven Ende der Achsen aus gesehen – ineinander überführen
[Wer01]. Ein so transformiertes Objekt ist mit dem ursprünglichen kongruent, bei Einführung eines Maßstabfaktors m sind sie einander ähnlich. Die sieben Transformationsparameter lassen sich aus der Beobachtung identischer Punkte, so genannter Passpunkte, deren Koordinaten in beiden Systemen bekannt sind, ermitteln. Demnach reicht eine
Festlegung von sieben Passpunktinformationen aus, um eine eindeutige Georeferenzierung des Kamerapfades zu gewährleisten.
3.3 Praxis mit Boujou
Anhand einer virtuellen Kamerafahrt durch ein 3D-Modell von Solingen, die mit Hilfe
der 3D-Graphiksoftware 3D Studio Max generiert wurde, soll das Verfahren zur Realisierung der Beschriftung im 3D-Objektraum praktisch dargestellt werden.
Anmerkung: Die Kamerakonstante wird oft mit der Brennweite einer Kamera verwechselt. Dies sind jedoch zwei unterschiedliche Parameter. Die Brennweite beschreibt den
Abstand auf der optischen Achse zwischen Brennpunkt F und Hauptebene. Die Bildebene liegt i. a. nicht senkrecht zur optischen Achse. Da die Bildebene nicht notwendigerweise durch den Brennpunkt F geht, etwa beim Fokussieren auf eine endliche Distanz,
ist für die Abbildung die Kamerakonstante c wesentlich, die daher nicht mit der Brennweite f übereinstimmt. Die Kamerakonstante c ist eine rein rechnerische Größe, welche
die Distanz vom Projektionszentrum O zum Hauptpunkt H beschreibt. Die Richtung HO
wird als Aufnahmerichtung bezeichnet. Aus Bildern kann ohne Zusatzinformationen nur
die Kamerakonstante bestimmt werden und nicht die (Linsen-) Brennweite. Somit verwendet Boujou für die Kamerakonstante fälschlicherweise den Begriff „focal length“
(Brennweite). Zur einheitlichen Darstellung wird für die Bezeichnung der Kamerakonstante zwar der Begriff „Brennweite“ verwendet, damit ist jedoch immer die Kamerakonstante gemeint. [För03]
19
3 Verfahren zur Beschriftung von Videos im Objektraum
Bild 3.5
Geometrie der optischen Abbildung [För03]
Die Benutzeroberfläche von Boujou ist sehr übersichtlich und wirkt nicht zu überladen.
Auf der linken Seite befindet sich die Befehlsleiste, die alle Schritte in der Reihenfolge
auflistet, die zum Tracken einer Sequenz abgearbeitet werden müssen. Neben den einzelnen Befehlen befinden sich kleine Karos, mit denen die Bedeutung des entsprechenden Arbeitsschrittes bewertet wird: drei rote Karos besagen, dass dieser Schritt von essentieller Bedeutung ist; die Befehle hinter zwei Karos gelten als empfehlenswert; ein
Karo deutet auf die Möglichkeit zusätzlicher Erweiterungsaufgaben hin. Unerfahrene
Anwender sollen sich auf diese Weise so schnell wie möglich im Arbeitsangebot zurechtfinden und in der Lage sein, in kurzer Zeit qualitativ gute Ergebnisse zu erzielen.
20
3.3 Praxis mit Boujou
Bild 3.6
Benutzeroberfläche von Boujou.
♦ „Import sequence“
Der erste Schritt zur Bestimmung der Kameraparameter ist, was sich auch aus der Reihenfolge der Auflistung in der Befehlsleiste ergibt, das Importieren der gewünschten
Videosequenz. Mit einem Doppelklick auf den zugehörigen Befehl Import sequence
wird der Benutzer automatisch durch die relevanten Dialogfenster geführt. Mit Hilfe des
ersten Dialogfensters Import Sequence lässt sich die zu bearbeitende Videosequenz anwählen. Zunächst muss hinsichtlich der Interlace-Optionen Not Interlaced ausgewählt
werden, da der künstliche Videofilm aus Vollbildern besteht. Der Bewegungstyp der
Kamera Free Move setzt bei den anstehenden Berechungen eine in Translation und Rotation frei bewegliche Kamera voraus. Zum Schluss muss die Frequenz der Framewiedergabe (Framerate, s. Kapitel 4.1.3) noch auf 25 Bilder pro Sekunde eingestellt werden, da dieser Wert später auch beim Szenenexport verwendet wird. Bei Bestätigung
der Sequenz erscheint nun das Camera Fenster. Der verwendete Videofilm besitzt eine
Bildgröße von 768x576 Pixel. Boujou suggeriert eigenständig eine CCD-Chipgröße der
Kamera mit 20,12x15,09 [mm]. Da beide Größen ein Seitenverhältnis von 1,333 besitzen, liegt das Pixelverhältnis folglich bei 1:1. Hinsichtlich der Brennweite stehen drei
Einstellungsoptionen zur Auswahl: User Fixed, Constant oder Variable. Da das vorliegende Video mit einer konstanten Brennweite der Kamera entstanden ist, wird hier
Constant gewählt. Bei dieser Einstellung liegt nach dem Kameratracking eine Schätzung bezüglich der verwendeten Brennweite vor. Allgemein gilt: je mehr Informationen
Boujou über die Szenerie erhält, desto akkurater fällt die berechnete Lösung aus. Tests
21
3 Verfahren zur Beschriftung von Videos im Objektraum
haben jedoch gezeigt, dass die Ergebnisse besser sind, wenn Boujou eine Brennweite
schätzt, mit deren Wert minimale Fehler vorliegen. Es macht nur Sinn, die Brennweite,
falls bekannt, nachträglich anzugeben, wenn Boujou mit der Schätzung relativ weit vom
Originalwert entfernt liegt.
Die ausgewählte Videosequenz wird anschließend in das Bildfenster platziert. Unterhalb des Bildfensters befindet sich eine Zeitleiste. Sie dient zur Navigation durch die
Videosequenz und gibt Auskunft über die aktuelle Frameposition und die Länge der
Sequenz.
Über dem Bildfenster befindet sich die Filmsteuerung. Lässt man durch Betätigung des
Playbuttons die Sequenz abspielen, erfolgt die erste Wiedergabe nur sehr langsam, da
Boujou die Videobilder zuvor in den Arbeitsspeicher laden muss.
Auf der linken Seite unterhalb der Befehlsleiste befindet sich das Summary-Fenster.
Dort werden beim Auftreten von etwaigen Problemen Warnmeldungen angezeigt und
Tipps zur Behebung gegeben.
Darunter ist das History-Fenster angeordnet. Es zeigt die zuletzt durchgeführten Aktionen an und bietet die Möglichkeit, Aktionen durch einen Doppelklick rückgängig zumachen.
♦ „Track features“
Der nächste wesentliche Schritt ist die Ausführung
des Featuretrackings. Search distance kontrolliert
die Größe des Suchfensters, in dem Boujou im
jeweiligen Frame nach einem Feature sucht, das
Teil des zu verfolgenden Tracks zu sein scheint.
Der Wert beschreibt das Verhältnis zwischen dem
Suchfenster in Pixel und der Gesamtpixelzahl des
Videobildes in gegebener Richtung. Boujou gibt
einen Standardwert von 0,06 bzw. 6% der Gesamtpixelzahl des Videobildes vor. Für die überwiegenden Fälle ist dieser Wert als geeignet anzusehen und kann deshalb hier unverändert übernommen werden.
Bild 3.7
Erweiterte Eigenschaften des
Featuretrackings.
Die Tracks werden im Bildfenster während der Berechnung sichtbar. Die Dauer des
Featuretrackings hängt von der Filmlänge und Bildstruktur – insbesondere von dem
Kontrastreichtum – ab. In dem vorliegenden Fall benötigt Boujou für einen Film mit
einer Länge von 12 Sekunden ca. 25 Minuten.
22
3.3 Praxis mit Boujou
Bild 3.8
Featuretracking.
Nach der erfolgreichen Durchführung des Featuretrackings kann man sich nähere Informationen hierzu anzeigen lassen. Die Qualität des Feature Trackings wird
durch die Anzeige der absoluten Anzahl aller Tracks, der
Anzahl der Tracks, die in mehr als 20 Frames durchgehend verfolgt werden konnten, die maximale Tracklänge
sowie die durchschnittliche Tracklänge beschrieben.
Bild 3.9
Feature Tracking info.
♦ „Track camera“
Wählt man während des Featuretrackings Track Camera on completion aus, dann startet
das KameraTracking automatisch nach Beendigung des Featuretrackings. Für den verwendeten Film benötigt Boujou ca. fünf Minuten. Dabei durchläuft Boujou eine Anzahl
vollständig automatisierter Prozesse, um die Kamera für jedes Frame zu rekonstruieren.
Nach Beendigung des Kameratrackings erscheinen gelbe und zyanfarbene Punkte, die
auf das Videobild überlagert werden. Diese Punkte (Prediktions) stellen die rekonstruierten 3D-Positionen von Features dar, die mittels der aktuellen Kameraparameter
berechnet wurden. Bei einem gelben Punkt ist das betreffende Feature im aktuellen Bild
sichtbar, während es bei einem zyanfarbenen Punkt im aktuellen Videobild nicht sichtbar ist.
23
3 Verfahren zur Beschriftung von Videos im Objektraum
Bild 3.10
Prediktions: Schätzung der 3D-Positionen robust getrackter Features.
Nachdem das KameraTracking vollzogen ist, wird die 3D-Ansicht der Szenengeometrie
verfügbar. Dort kann die berechnete 3D-Szenerie von jedem Winkel aus betrachtet werden. Zusätzlich zu den 3D-Positionen der Prediktions wird der Kamerapfad als rote Linie sichtbar. Wahlweise kann man sich auch statt des Kamerapfades die individuelle
Kameraposition für jeden einzelnen Frame anzeigen lassen. Dabei wird zusätzlich die
jeweilige Kamerablickrichtung als Linie dargestellt, wobei die Länge dieser Linie proportional zur Brennweite ist.
Bild 3.11
24
3D-Ansicht des Kamerapfades und der Prediktions.
3.3 Praxis mit Boujou
Auch nach dem KameraTracking stellt Boujou Ergebnisse zur Qualitätsbeurteilung bereit. Im Kameratracking-Auswertungsfenster wird die Brennweite der berechneten Kamera angezeigt. Nachfolgend wird für jeden Frame
die Verbesserung hinsichtlich der Genauigkeit des
berechneten Kamerapfades dargestellt. Sie wird
durch die Differenz der Prediktions zwischen den
berechneten 2D-Positionen und den gemessenen
Positionen im jeweiligen Frame ermittelt. Ist eine
Verbesserung eines Frames signifikant größer als
die der ihn umgebenden Frames, ist das ein Hinweis dafür, dass in diesem Frame eine Problematik
vorliegt.
Die Fehler der einzelnen Prediktions lassen sich
ebenfalls dem Videobild überlagern. Sie werden
Bild 3.12
Informationsfenster
zum
als violette Linien gekennzeichnet und vergrößert
Kameratracking.
um den Faktor zehn dargestellt, so dass sie gut
erkennbar sind. Je länger eine solche Linie ist, desto größer ist die Differenz zwischen
der berechneten und der gemessenen Position des Features im Videobild.
Bild 3.13
Fehleranzeige der im aktuellen Videobild sichtbaren Prediktions.
25
3 Verfahren zur Beschriftung von Videos im Objektraum
♦ „Edit tracks and locators“
Laut Boujou reichen die automatischen Berechnungsschritte in 80 Prozent der Fälle für
ein akkurates Ergebnis aus. Die Qualität des Kamerapfades ist von der Qualität der Featuretracks abhängig, die Boujou in der Videosequenz detektiert. Aber nicht immer ist
Boujou in der Lage, genügend Tracks zu finden.
Das KameraTracking kann dann als erfolgreich bewertet werden, wenn folgende Punkte
kumulativ erfüllt werden:
• Mehrere lange Tracks wurden detektiert.
• In jedem Frame sollten mindestens 10-15 Tracks gleichmäßig verteilt sein.
• Die getrackten Features sollten im dreidimensionalen Raum verteilt sein und nicht in
einer Ebene liegen.
Sollte das KameraTracking nicht erfolgreich ausfallen, stellt Boujou eine Reihe von
Bearbeitungsmöglichkeiten zur Verfügung, um das Ergebnis zu verbessern:
Delete Tracks
Tracks, die sich auf T-Verzweigungen (T-Junctions) beziehen, sollten gelöscht werden.
T-Verzweigungen entstehen dann, wenn ein Vordergrundobjekt ein Objekt im Hintergrund in einem Bild überlappt. In Bild 3.14 ist eine Kamera auf einen Zylinder
gerichtet, der sich vor einem Würfel befindet. Es würden Features an den Ecken des
Würfels sowie an den scheinbaren Schnittpunkten zwischen den Vertikalen des Zylinders und den Horizontalen des Würfels detektiert. Features an T-Verzweigungen
sind jedoch keine wahren Features. Vom linken zum rechten Bild hat sich die Kamera seitlich und aufwärts bewegt. In der Regel stellen Features an TVerzweigungen kein Problem für die Kameralösung dar, weil die Bewegung dieser
Features inkonsistent gegenüber allen in der Szene detektierten wahren Features ist.
Sind jedoch viele T-Verzweigungen in einer Szene vorhanden, können diese das
Kameratracking ungünstig beeinflussen.
Bild 3.14
T-Junctions.
To join tracks
Wird ein Featuretrack aufgrund von Detektierungsschwierigkeiten in einem Frame
unterbrochen – wenn beispielsweise ein Laternenpfahl das betroffenen Feature für
die Dauer von einigen Frames verdeckt –, ist es sinnvoll, die Trackbruchstücke zu
einem Track zusammenzufügen.
26
3.3 Praxis mit Boujou
Gold Tracks
Wird einem Feature die Eigenschaft Gold zugewiesen, kann dem Trackingprozess
auf zwei Arten geholfen werden. Zum einen versucht das automatische Featuretracking Tracks zu generieren, die mit den Goldtracks konsistent sind. Bei jedem
Durchlauf wird die Anzahl der getrackten Features erhöht. Die Anzahl der erstellten
Features kann im FeatureTracking Summary kontrolliert werden. Es empfiehlt sich,
den Prozess so oft zu wiederholen, bis sich die Anzahl der erstellten Features nicht
mehr wesentlich erhöht. Zum anderen wird Boujou dazu „gezwungen“, dieses Feature bei der Lösung der Kamerarekonstruktion zu verwenden. So kann verhindert
werden, dass Boujou wertvolle Tracks bei der Durchführung des Kameratrackings
verwirft.
Zu Beginn der Sequenz wandern Features im Vordergrund des Videobildes aus dem
Bildausschnitt. Aufgrund der geringen Tracklänge bewertet Boujou diese Feature als
inkonsistent und berechnet für sie keine 3D-Position. Dies hat zur Folge, dass Prediktions zumeist am Ende der Videosequenz zu finden sind. Damit die 3DSzenenstruktur durch die Prediktions gleichmäßig und ausreichend beschrieben
wird, empfiehlt es sich, im Vordergrund einige Goldtracks einzuführen.
Es ist jedoch bei der Änderung der Featureeigenschaft immer darauf zu achten, dass
nur die Eigenschaft bei „guten“ und langen Tracks auf Gold gesetzt wird, da sonst
das Ergebnis ungewollt verschlechtert werden kann. Werden zu viele Tracks auf
Gold eingestellt, wird durch einen „Zwangsüberschuss“ das Kameratracking verlangsamt.
Manual Locators
Ein Locator ist ein – vom Benutzer manuell erstelltes – Feature und bekommt immer die Eigenschaft Gold zugeschrieben.
Hat Boujou Schwierigkeiten, genügend Features zu detektieren, dann kann es hilfreich sein, wenn der Benutzer vor dem Featuretracking eigene Features erstellt.
Wenn anschließend das FeatureTracking erneut durchgeführt wird, detektiert Boujou zusätzlich die Tracks, die in ihren Bewegungen mit den Bewegungen der manuell erstellten Features konsistent sind.
Erscheint ein Feature wieder im Videobild, nachdem es für mehrere Frames für
Boujou nicht zu finden war, dann kann ein Locatortrack dazu verwendet werden, die
zugehörigen Prediktions miteinander zu verknüpfen.
Search Window
Weist der zu bearbeitende Videofilm viele sich wiederholende Strukturen auf – wie
zum Beispiel die Fenster eines Bürogebäudes –, dann kann durch die Verkleinerung
des Suchfensters verhindert werden, dass die Featuretracks von einer Ecke eines
Fensters zur nächsten Ecke springen.
Bewegt sich die Kamera sehr schnell vorwärts, sollte der Wert des Suchfensters
vergrößert werden. So wird gewährleistet, dass sich das gesuchte Feature nicht außerhalb des Suchfensters befindet, sondern gefunden wird.
27
3 Verfahren zur Beschriftung von Videos im Objektraum
Es hat sich gezeigt, dass die nachträgliche Bearbeitung der Features für das Video von
Solingen keine Verbesserung der Kamerarekonstruktion mit sich bringt. Somit sprechen
die statistischen Analysen und Prozesse für eine konsistente Berechnung in Boujou.
♦ „Describe scene geometry“
Um die Kamerarekonstruktion mit Hilfe von Passpunkten eindeutig zu georeferenzieren, bietet Boujou die Option, SurveyPoints zu definieren. Dazu werden drei Tracks
oder Prediktions ausgewählt, deren 3D-Koordinaten zuvor aus dem vorhandenen 3DModell abgegriffen werden. Bei der Verwendung von Featuretracks als Surveypunkte
muss ihnen die Eigenschaft Gold hinzugefügt werden. Anschließend empfiehlt Boujou
das Kameratracking erneut durchzuführen, da die ausgewählten Features nun bei der
Kameralösung nicht verworfen werden können. Die X-, Y- und Z-Koordinaten werden
jeweils der zugehörigen Punktauswahl zugewiesen. Obwohl die Festlegung von sieben
Koordinateninformationen ausreicht, müssen jeweils alle drei Koordinateninformationen in die betreffenden Felder eingetragen werden. Mit der Angabe von neun Informationen entsteht eine Parameterüberbestimmung, so dass Boujou intern eine Ausgleichung berechnet.
Sollten für die Auswahl der Surveypunkte an den gewünschten Stellen des Videobildes
keine Features oder Prediktions vorhanden sein, können dort Locators gesetzt werden.
Beim Einfügen eines Locators erscheint an der entsprechenden Stelle eine kleine grüne
Box. Anschließend muss in einem anderen Frame die Position des Locators erneut ausgewählt werden. Da bereits eine Lösung für die Kamera vorhanden ist, erscheint ein
kleines Pluszeichen in der Nähe der Box, das die
Position des eingefügten Locators mit Hilfe der
berechneten Kameraparameter bestimmt. Das
Pluszeichen rückt durch das manuelle Hinzufügen
der Locatorposition in weiteren Frames immer
näher zur Mitte der Box. Erscheint das Pluszeichen
nach Festlegung der Locatorposition in mindestens
vier gleichmäßig auf die ganze Videosequenz verteilten Frames im Zentrum der Box, kann auf ein
Fortsetzen der Locatorplatzierung in weiteren
Frames verzichtet werden. Anschließend wird die
bereits bestehende Lösung der Kamera durch die
Auswahl des Kameratracking Adjust only - Modus
aktualisiert. Dessen Durchführung geschieht dann
um einiges schneller, als die Berechnung einer
komplett neuen Lösung der Kamera.
Bild 3.15
Auswahlfenster der Kameratracking-Methode
Wird die Szenengeometrie georeferenziert, bedeutet das nicht, dass sich die relativen
Positionen der 3D-Punkte ändern. Es wird unter Berücksichtigung der Bedingungen
aller Georeferenzierungspunkte die bestmögliche Einpassung der 3D-Szene in das absolute Koordinatensystem berechnet. Ist die Position im Raum eines Georeferenzierungspunktes nicht exakt ermittelt worden, können mitunter große Abweichungen ge28
3.3 Praxis mit Boujou
genüber ihrer tatsächlichen Lage entstehen. Daher ist darauf zu achten, dass nur akkurate 3D-Punkte für die Georeferenzierung verwendet werden. Es gelten im Allgemeinen
die 3D-Punkte als akkurat, deren FeatureTracks besonders lang sind. Die Anzeige des
Fehler-Layers kann bei der Auswahl der Georeferenzierungspunkte genutzt werden.
Des Weiteren ist darauf zu achten, dass die für die Georeferenzierung verwendeten
Punkte im 3D-Raum so weit wie möglich von einander entfernt liegen, um eine mögliche Fehlerfortpflanzung ihrer 3D-Positionsabweichungen gering zu halten.
Bild 3.16
Auswahl der Surveypunkte.
♦ „Export camera track“
Der letzte wesentliche Schritt in Boujou ist der Export der Kamerarekonstruktion in das
gewünschte 3D-Graphikprogramm. Boujou bietet die Möglichkeit, eine Max Script Datei („.ms“) für den Import in die Graphiksoftware 3D Studio Max zu erstellen. Die für
den Export verfügbaren Informationen beinhalten die Bewegung der Kamera, die durch
die Position, Orientierung und Brennweite der Kamera für jedes Frame beschrieben
wird, sowie die dreidimensionale Positionen der zuvor vom Benutzer ausgewählten Features. Bei der Ausführung des Exports gibt Boujou eine Hinweismeldung aus, dass in
3D Studio Max die Chipgröße – Boujou verwendet den irreführenden Begriff „aperture
width“ (Blendenweite) – mit einem konkreten Wert von 20,12 angegeben werden muss,
um eine korrekte Bildberechnung in 3D Studio Max zu gewährleisten.
29
3 Verfahren zur Beschriftung von Videos im Objektraum
3.4 Überlagerung der Videos mit Beschriftung
Die Beschriftung der Videos soll mit der Graphiksoftware 3D Studio Max R3.1 erfolgen. Dazu muss die Rekonstruktion der Videoszene importiert werden. Dies geschieht,
indem man die zuvor in Boujou erstellte Max Script Datei ausführt. Anschließend erscheinen im Arbeitsfenster eine virtuelle Kamera und die 3D-Positionen der zuvor in
Boujou ausgewählten Features.
Wenn Boujou die Max Script Datei erstellt, wird die berechnete Brennweite mit Hilfe
der CCD-Chipgröße in Millimeter in ein Sichtfeld (field of view) konvertiert. Sobald
die Szene in 3D Studio Max importiert wird, wird das Sichtfeld unter Verwendung des
beim Export von Boujou angegebenen Wertes der Chipgröße von 20,12 – der vom Anwender für die „aperture width“ der Kamera angeben werden muss – wieder in die aktuelle Brennweite konvertiert.
Als nächstes können künstliche Beschriftungsobjekte in die 3D-Szene eingefügt werden. Bei ihrer Platzierung kann man sich mit Hilfe des zur Verfügung stehenden 3DModells von Solingen an den Gebäudewänden hinsichtlich der Lage und Höhe orientieren.
Anschließend wird der endgültige Videofilm mit Hilfe der in Boujou erstellten virtuellen Kamera berechnet. In der Fachsprache der Computergraphik nennt man die Berechnung von Videofilmen oder auch Videobildern rendern. Da nur die künstlichen Beschriftungsobjekte dem ursprünglichen Videofilm hinzugefügt werden sollen, muss das
3D-Gebäudemodell aus der Szene ausgeblendet werden. Für das Rendern von Einzelbildern muss die zugehörige Videosequenz als Hintergrundbild geladen werden. Die
Einstellungen für die Durchführung der Videoüberlagerung in 3D Studio Max werden
im Folgenden kurz dargestellt.
Bild 3.17 zeigt die Darstellung des VideoPost-Fensters von 3D Studio Max im Anschluss an die unten beschriebenen Arbeitsschritte. Es ist bei jedem Arbeitsschritt darauf zu achten, dass die Einstellungen für die jeweilige Filmlänge identisch sind. Die
Zeitkonfiguration der Ausgabesequenz muss mit der der Eingangssequenz übereinstimmen, d.h. die Framerate muss mit 25 Bildern pro Sekunde auf PAL eingestellt werden (s. Kap. 4.1 und 4.2).
Bild 3.17
30
Videopost-Fenster für die Videoüberlagerung.
3.4 Überlagerung der Videos mit Beschriftung
Die Eingabe der folgenden Befehle in festgelegter Reihenfolge ermöglicht eine Überlagerung des originalen Videofilms mit künstlicher Beschriftung:
“Add Image Input Event”
Als erster Schritt wird das originale Video, das mit der virtuellen Beschriftung
überlagert werden soll, geöffnet.
“Add Scene Event“
Danach wird die Kamera ausgewählt, mit der die aktuelle Szene gerendert werden soll.
Nun müssen die beiden erstellten Pfade durch Anklicken ausgewählt werden, damit der
nächste benötigte Button erscheint:
“Add Image Layer Event”
Neben den drei Kanälen Rot, Grün und Blau gibt es einen vierten Kanal bei der
Farbdarstellung auf Monitoren, den Alpha-Kanal. Er beschreibt das Bild mittels
256 Graustufen und bestimmt die Sichtbarkeit bzw. Deckkraft des jeweiligen Pixels in einem Bild. Ein weißer Pixel (255) im Alpha-Kanal erzeugt einen 100%
sichtbaren Pixel im Gesamt-Bild. Ein schwarzer Pixel (0) im Alpha-Kanal lässt
das Gesamt-Bild an dieser Stelle durchsichtig erscheinen. [Tea04]. Mit Hilfe des
Alpha-Kanals wird nur die virtuelle Beschriftung dem originalen Video überlagert.
“Add Image Output Event”
An dieser Stelle werden für das endgültige Video ein Name und ein Pfad vergeben. Des Weiteren wird für die Komprimierung (s. Kap. 4.1.3.5) der gewünschte
Codec sowie die Bitrate ausgewählt.
“Execute Sequence“
Hier wird die gewünschte Zielauflösung festgelegt.
31
3 Verfahren zur Beschriftung von Videos im Objektraum
3.5 Rekonstruktionsgenauigkeit
Die vorliegende Arbeit verfolgt das Ziel, Bonner Wegevideos mit virtueller Beschriftung zu ergänzen. Dabei soll untersucht werden, mit welcher Genauigkeit sich die Beschriftung in das Video integriert, nachdem sie im Objektraum platziert wurde.
Die Integrationsqualität der Beschriftung im Video kann von dem verwendeten FeatureAlgorithmus sowie von der Georeferenzierung negativ beeinflusst werden. Für das Solingenvideo können die für die Georeferenzierung verwendeten Passpunkte als fehlerfrei angesehen werden, da sie aus dem 3D-Modell ermittelt werden, das auch im Video
zu sehen ist. Des Weiteren ist für das Solingenvideo die originale Kameratrajektorie
bekannt. Sie kann zur Beurteilung des berechneten Kamerapfades als Referenzpfad dienen.
In den folgenden beiden Kapiteln wird zum einen der Kamerapfad der originalen Kamera mit dem der rekonstruierten Kamera verglichen. Zum anderen sollen Bildpositionen
von Objekten, die durch beide Kameras beobachtet werden, miteinander verglichen
werden.
3.5.1 Vergleich der Kamerapfade
Wird der berechnete Kamerapfad in 3D Studio Max importiert, lässt er sich vom Originalkamerapfad mit dem bloßen Auge kaum unterscheiden. Deshalb werden die 3DKoordinaten, die 3D-Orientierungen sowie die Brennweiten beider Kameras für die
einzelnen Frames im Folgenden rechnerisch verglichen.
Bild 3.18
32
Kamerapfad im virtuellen 3D-Modell von Solingen. Links: originaler Kamerapfad. Rechts:
berechneter Kamerapfad. (Draufsicht)
3.5 Rekonstruktionsgenauigkeit
3.5.1.1 Positionsvergleich
Bild 3.19
Originaler Kamerapfad.
Rechts: Draufsicht.
Oben:
Seitenansicht.
Die Originalkamera bewegt sich in einem XWertebereich von 9,29 m, in einem Y-Wertebereich
von 60,52 m und in einem Z-Wertebereich von 0,24 m.
In den Diagrammen 3.1 bis 3.3 werden die Bewegungen beider Kameras in X-, Y- und Z-Richtung gegenübergestellt. Die Position der Originalkamera dient als
Sollwert-Vorgabe. Die Position der berechneten Kamera wird als Ist-Wert angenommen und vom SollWert subtrahiert. Es ist zu beachten, dass die Skalierung der y-Achse in Meter für die Diagramme unterschiedlich ausfällt. Das Diagramm 3.4 stellt die Positionsdifferenzen beider Kameras bezüglich aller drei
Achsen des absoluten Koordinatensystems gemeinsam
dar.
33
3 Verfahren zur Beschriftung von Videos im Objektraum
Diagramm 3.1
X-Position
5830
5829
5828
5827
Meter
5826
5825
5824
5823
5822
5821
5820
0
25
50
75
100
125
150
175
200
225
250
275
300
200
225
250
275
300
Frame
SOLL
IST
Diagramm 3.2
Y-Position
1420
1410
Meter
1400
1390
1380
1370
1360
0
25
50
75
100
125
150
175
Frame
SOLL
34
IST
3.5 Rekonstruktionsgenauigkeit
Diagramm 3.3
Z-Position
225,25
Meter
225,15
225,05
224,95
224,85
224,75
0
25
50
75
100
125
150
175
200
225
250
275
300
Frame
SOLL
IST
Diagramm 3.4
Positionsdifferenzen
0,15
0,10
0,05
0,00
Meter
-0,05
0
25
50
75
100
125
150
175
200
225
250
275
300
-0,10
-0,15
-0,20
-0,25
-0,30
-0,35
Frame
X
Y
Z
35
3 Verfahren zur Beschriftung von Videos im Objektraum
In Tabelle 3.1 werden die maximalen, minimalen und durchschnittlichen Differenzbeträge sowie die Standardabweichung für die X-, Y- und Z-Positionen aufgelistet.
Tabelle 3.1
Positionsdifferenz
[Meter]
Koordinatenachse
Minimum
Maximum
Mittel
Standardabweichung
X
0,00
0,11
0,05
0,06
Y
0,02
0,31
0,11
0,08
Z
0,00
0,25
0,13
0,09
Die Differenzen bezüglich der X-Achse weisen einen annähernd linearen Verlauf auf,
der sich von -0,1 bis 0,1 Meter vollzieht. Im ungefähren Bereich des 100. bis 150. Frames passt sich die X-Position der berechneten Kamera der Originalkamera am besten
an. Für einige Frames ist sogar keine Differenz vorhanden.
Die Differenzbeträge hinsichtlich der Y-Achse fallen bis zur Mitte des Videofilmes von
0,3 auf 0,07 Meter annähernd linear ab. Ab dem mittleren bis zum letzten Frame beschreiben die Y-Differenzen eine flache Kurve, die ihr Maximum bei -0,02 Meter hat.
Das bedeutet, dass die Differenzbeträge zum Ende des Videofilmes wieder steigen. Diese Erscheinung könnte auf die 13°-Drehung der Kamera um die Z-Achse zurückzuführen sein, die am Ende der Sequenz stattfindet.
Bild 3.20
36
Rechtsdrehung der Kamera um die Z-Achse. Links: Frame 250. Rechts: Frame 300. (Draufsicht)
3.5 Rekonstruktionsgenauigkeit
Die Differenzbeträge bezüglich der ZAchse halten sich bis etwa zum 75. Frame
in einem Bereich von bis zu 0,04 Meter
auf. Ab dem ca. 76. Frame steigt der Differenzbetrag bis zum Ende des Filmes auf
0,25 Meter an. Mögliche Ursache könnte
sein, dass zwei Georeferenzierungspunkte
während der nächsten Frames aus dem
Videobild heraustreten.
Bild 3.21
Frame 75 des ursprünglichen Videofilms.
Die Fehler bezüglich der drei Achsen des absoluten Koordinatensystems dürfen allerdings nicht nur getrennt betrachtet werden, da sie sich für den jeweiligen Frame addieren. Diagramm 3.5 stellt die Entfernungsdifferenzen der Kamerapositionen im 3DRaum dar. Sie bewegen sich in einem Differenzbereich von ca. 0,15 bis 0,3 Meter. Dabei fällt auf, dass die geringsten Abweichungen im zweiten Viertel des Filmes auftreten.
Diagramm 3.5
3D-Entfernungsdifferenzen
0,350
0,300
Meter
0,250
0,200
0,150
0,100
0,050
0,000
0
25
50
75
100
125
150
175
200
225
250
275
300
Frame
37
3 Verfahren zur Beschriftung von Videos im Objektraum
3.5.1.2 Orientierungsvergleich
Die Rotationsparameter der Originalkamera bewegen sich in einem Winkelbereich von
0,54 Grad bezüglich einer Drehung um die X-Achse, in einem Bereich von 0 Grad bezüglich einer Drehung um die Y-Achse und in einem Bereich von 18,28 Grad bezüglich
einer Drehung um die Z-Achse. Auch hinsichtlich der Orientierung werden die Werte
der Originalkamera als Sollvorgaben angenommen. Es ist wie bei den Positionsdifferenzen darauf zu achten, dass die Skalierung der y-Achsen in Grad für die Diagramme
unterschiedlich ausfällt. Die Diagramme 3.6 - 3.8 stellen die Orientierungen bezüglich
der X-, Y- und Z-Achse beider Kameras gegenüber. Diagramm 3.9 stellt die Orientierungsdifferenzen beider Kameras bezüglich aller drei Achsen des absoluten Koordinatensystems gemeinsam dar.
Diagramm 3.6
X-Orientierung
90,4
90,3
90,2
Grad
90,1
90,0
89,9
89,8
89,7
89,6
0
25
50
75
100
125
150
175
Frame
SOLL
38
IST
200
225
250
275
300
3.5 Rekonstruktionsgenauigkeit
Diagramm 3.7
Y-Orientierung
0,010
0,000
-0,010
Grad
-0,020
-0,030
-0,040
-0,050
-0,060
-0,070
-0,080
0
25
50
75
100
125
150
175
200
225
250
275
300
Frame
SOLL
IST
Diagramm 3.8
Z-Orientierung
160,0
158,0
156,0
Grad
154,0
152,0
150,0
148,0
146,0
144,0
142,0
0
25
50
75
100
125
150
175
200
225
250
275
300
Frame
SOLL
IST
39
3 Verfahren zur Beschriftung von Videos im Objektraum
Diagramm 3.9
Orientierungsdifferenzen
0,20
0,15
0,10
Grad
0,05
0,00
0
25
50
75
100
125
150
175
200
225
250
275
300
-0,05
-0,10
-0,15
-0,20
-0,25
Frame
X
Y
Z
Der Verlauf der Orientierungsdifferenzen bezüglich der X-Achse ist in seiner Steigung
dem Verlauf der Orientierung der Originalkamera ähnlich. Er unterscheidet sich lediglich in einem beinahe konstanten Zuschlag von 0,15 Grad.
Die Y-Achse beschreibt die Blickrichtung der Kamera. Der Drehwinkel der ursprünglichen Kamera in Y-Richtung beträgt 0 Grad, da sonst das Videobild nicht senkrecht dargestellt wird. Die durchschnittliche Abweichung der berechneten Kamera zur originalen
beträgt 0,02 Grad.
Die Orientierungsabweichungen bezüglich der Z-Achse lassen sich in drei Klassen unterteilen. Im ersten Drittel des Videofilmes liegt die Abweichung beinahe konstant bei
0,1 Grad. Im zweiten Drittel steigt die Abweichung bis auf 0,17 Grad an. Im letzten
Drittel der Videosequenz fällt die Kurve steil auf -0,15 Grad ab. Dieser Verlauf am Ende des Graphen kann eindeutig auf die Rotation der Kamera um die Z-Achse zurückgeführt werden. Daraus lässt sich folgern, dass die Größe der Orientierungsdifferenz von
der Größe der Orientierungsänderung der ursprünglichen Kamera abhängig ist.
In Tabelle 3.2 werden die maximalen, minimalen und durchschnittlichen Differenzbeträge für die Rotationen um die X-, Y- und Z-Achse sowie deren Standardabweichungen aufgelistet.
40
3.5 Rekonstruktionsgenauigkeit
Tabelle 3.2
Orientierungsdifferenz
[Grad]
Koordinatenachse
Minimum
Maximum
Mittel
Standardabweichung
X
0,12
0,20
0,15
0,02
Y
0,00
0,08
0,02
0,01
Z
0,00
0,17
0,12
0,08
3.5.1.3 Vergleich der Brennweite
Die Brennweite der Originalkamera beträgt 28 Millimeter. Boujou schätzt eine konstante Brennweite von 28,246 Millimeter, wodurch sich ein Differenzbetrag von 0,246 Millimeter ergibt.
3.5.1.4 Fazit
Der Vergleich der beiden Kameras macht deutlich, dass zwar Fehler beobachtet werden
können, sich diese aber nicht absolut zuordnen lassen. Da der Vergleich der originalen
Kameraparameter mit den rekonstruierten hier nur für eine virtuelle Kamerafahrt vorgenommen wird, kann keine allgemeingültige Aussage über eventuelle Systematiken der
Berechnungsergebnisse von Boujou getroffen werden. Da die Lösung der Kamera hinsichtlich des Featuretracking-Algorithmus stark von der Bildstruktur des Videos abhängig ist, kann davon ausgegangen werden, dass für unterschiedliche Videofilme individuelle Ergebnisse zu erwarten sind.
Letztendlich kommt es darauf an, welche Auswirkungen die Abweichungen zum originalen Kamerapfad auf das beschriftete Video haben. Die Auswirkungen lassen sich
durch den Kameravergleich allein jedoch nicht beurteilen.
3.5.2 Vergleich von Bildkoordinaten
Der Vergleich beider Kameras gibt keinen Aufschluss darüber, welchen Einfluss die
Differenzen in Position, Orientierung und Brennweite auf die visuelle Qualität des beschrifteten Videobildes haben. Aus diesem Grund sollen nun generierte Ansichten beider Kameras miteinander verglichen werden.
Bild 3.22 zeigt eine gelbe Kugel, die im 3D-Raum in einer Entfernung von zwei Metern
von der originalen Kamera platziert wird. Mit Hilfe der Kameraparameter der originalen
und der berechneten Kamera wird diese Kugel anschließend dem Videobild überlagert.
Da sich die Kameraparameter der beiden Kameras unterscheiden, fällt auch die Position
der Kugel in den Videobildern unterschiedlich aus. Die Pixeldifferenz der beiden Bild41
3 Verfahren zur Beschriftung von Videos im Objektraum
koordinatenpaare soll Aufschluss darüber geben, wie gut sich künstliche Objekte mit
Hilfe des berechneten Kamerapfades in die Videoumgebung integrieren lassen.
Bild 3.22
Kameraansicht einer Kugel im 3D-Raum von Solingen in einer Entfernung von zwei Metern
zur Kamera. Links: Ansicht der originalen Kamera. Rechts: Ansicht der berechneten Kamera.
3.5.2.1 Berechnung von Bildkoordinaten
Für die Modellierung des Abbildungsvorganges eines Objektpunktes im Raum auf einen Bildpunkt werden drei Koordinatensysteme benötigt:
1. Objektsystem S
X = (X, Y, Z)T
2. Kamerasystem SK
K
3. CCD-Sensor-System SC
x' = (x', y')T
Bild 3.23
42
X = (KX, KY, KZ)T
Die Abbildung mit einer Kamera: Objektkoordinatensystem (X, Y, Z), Kamerakoordinatensystem (KX, KY, KZ), Objektpunkt P, Bildpunkt P' und Hauptpunkt H [För03].
3.5 Rekonstruktionsgenauigkeit
K
Y
(0,0)
x'
P`
H
K
X
y'
Bild 3.24
Kamerakoordinatensystem und CCD-Sensor-System.
Der Ursprung des Kamerasystems liegt im Projektionszentrum O, das durch die Positionsparameter der Kamera im Objektsystem S bekannt ist. Zur Vereinfachung der Abbildungsbeziehungen werden die KX- und KY-Achse des Kamerasystems parallel zur
Bildebene ausgerichtet. Die KZ-Achse steht senkrecht auf der Bildebene, so dass alle
drei Achsen des Kamerasystems ein kartesisches Koordinatesystem bilden. Der Ursprung des Koordinatensystems des CCD-Sensors wird im Fußpunkt H (Hauptpunkt)
des Lots O auf die Bildebene festgelegt.
Der Gesamtablauf des Abbildungsvorganges lässt sich in vier Schritte zerlegen:
(1) Transformation des Raumpunktes P von S nach SK
(2) Projektion des Raumpunktes KP in die Bildebene zum Bildpunkt P'
(3) Transformation des Bildpunktes P' in ein CCD-Bildkoordinatensystem SC
(4) Modellierung möglicher nichtlinearer Abbildungsfehler
Man spricht bei einer Kamera von ihrer äußeren und inneren Orientierung. Die äußere
Orientierung bestimmt die räumlich Lage der Kamera bezogen auf das Objektkoordinatensystem. Die räumliche Bewegung von S nach SK benötigt eine Festlegung von sechs
Parametern, drei Translations- und drei Rotationsparametern (Schritt 1). Die Transformation lässt sich in euklidischen Koordinaten darstellen als
K
XP = R(XP - XO).
Wobei (XP - XO) die Parallelverschiebung des Objektsystems S in das Projektionszentrum O ausdrückt. R beschreibt die Rotation des Objektsystems S in das Kamerasystem
SK und fasst drei Elementardrehungen in einer Rotationsmatrix zusammen:
cosβ cos γ
cosβ sin γ
− sin β




R =  − (sin α sin β cos γ − cos α sin γ ) − (sin α sin β sin γ + cos α cos γ ) − (sin α cos β ) 
 − (cos α sin β cos γ + sin α sin γ ) − (cos α sin β sin γ − sin α cos γ ) − (cos α cos β ) 


43
3 Verfahren zur Beschriftung von Videos im Objektraum
wobei α den Drehwinkel um die Aufnahmerichtung der Kamera bezeichnet. β ist die
Nadirdistanz und wird von der negativen Z-Achse nach oben gezählt. Der Winkel γ bezeichnet das linksdrehende Azimut der Aufnahmerichtung. [Mid03]
Die innere Orientierung beschreibt alle Parameter, die für eine Rekonstruktion der
Raumrichtung von der Kamera zum Objektpunkt P aus dem im CCD-System SC gemessenen Bildpunkt P' notwendig sind. Sie enthält sowohl die Projektion (Schritt 2), die
Koordinatentransformation von SK nach SC (Schritt 3) als auch die Korrektur des Bildpunktes P' (Schritt 4). Für das weitere Vorgehen wird jedoch eine Verzeichnung nicht
berücksichtigt. Somit entfällt der 4. Schritt.
Die fünf Parameter der inneren Orientierung für die Projektion werden in einer Kalibriermatrix zusammengefasst:
c⋅s
x'H 
c


K =  0 c(1 + m) y'H 
0
0
1 

mit Kamerakonstante c, Hauptpunkt x'H, Maßstabsunterschied m und Scherung s. An
dieser Stelle wird der Einfachheit halber davon ausgegangen, dass die Scherung 0 ist.
Das Pixelseitenverhältnis beträgt 1, sodass auch kein Maßstabsunterschied vorhanden
ist. Die Kalibriermatrix reduziert sich folglich zu:
 c 0 x'H 


K =  0 c y'H  .
0 0 1 


Für die Kamerakonstante c wird die geschätzt Brennweite aus Boujou verwendet. Der
Hauptpunkt ergibt sich aus der CCD-Chipgröße, ebenfalls in der Einheit der Brennweite, von 20,12x15,09 [mm], wobei die Breite und Höhe des Chips durch 2 dividiert werden müssen, da der Hauptpunkt in der Bildmitte angenommen wird.
Allgemein kann die projektive Abbildung in homogenen Koordinaten [För03]durch
x'h = PXP
dargestellt werden mit der homogenen Projektionsmatrix
P = (KR |- KRXO).
Sie enthält explizit die elf Parameter der äußeren und inneren Orientierung, die notwendig sind, um den Abbildungsvorgang eines Objektpunktes P zum Bildpunkt P' zu modellieren.
Ausführlich heißt die Abbildung nun
x'h = (KR |- KRXO)XP = (u, v, w)T [mm].
Die homogenen Koordinaten lassen sich mit der Umrechnung
 x'   u/w 
  

 y '  ≅  v/w 
 z'   1 
  

44
3.5 Rekonstruktionsgenauigkeit
in euklidische Koordinaten überführen.
Anschließend müssen die euklidischen Koordinaten von Millimeter in Pixel (Abk.:
[pel], engl. Picture Element) transformiert werden.



 x'[mm] ⋅  Chipbreite/2[pel]  


x'H [mm]


 [pel].
x' = 
 Chiphöhe/2[pel]  
 y '[mm] ⋅ 
 



y'
[mm]
H



3.5.2.2 Arten der Kameraparameterdifferenzen
Im Folgenden werden die unterschiedlichen Arten der Kameraparameterdifferenzen und
ihre Auswirkungen auf die Bildkoordinatendifferenzen aufgelistet. Zur Darstellung
werden in 3D Studio Max eine Gruppe von neun Quadern in unterschiedlichen Entfernungen in den 3D-Raum eingefügt. Die roten Quader besitzen eine Distanz von einem
Meter, die violetten Quader von fünf Metern und die blauen Quader von 20 Metern zu
der Originalkamera. Je weiter entfernt sich die Quader von der Kamera befinden, desto
größer ist das Volumen der Körper gewählt, um eine gleichmäßige Bildausfüllung der
Quader zu erhalten. Im Bild 3.25 ist die Originalkamera blau dargestellt und befindet
sich im Ursprung. Die weiße Kamera repräsentiert die rekonstruierte Lösung. Die Pixelverschiebungen werden als Verschiebungsvektor (x, y) in x- und y-Richtung ausgedrückt. Der Bildpunkt P(0, 0) [pel] befindet sich in der linken oberen Ecke. Die Bildgröße beträgt 768 x 576 [pel]. Den Quadern wird im jeweiligen Bild eine Skala hinterlegt, wobei benachbarte Kreise eine Distanz von 100 Pixeln aufweisen.
Positionsdifferenzen
•
Seitliche Verschiebung
In Bild 3.25 ist die virtuelle Kamera zur originalen
Kamera um 0,1 Meter seitlich verschoben. In Bild
3.26 wird die Auswirkung der seitlichen
Verschiebung auf die Bildkoordinaten sichtbar.
Bild 3.25
seitliche Verschiebung der
berechneten Kamera zu der
originalen. (Draufsicht)
45
3 Verfahren zur Beschriftung von Videos im Objektraum
Bild 3.26
Ansichten der Kameras bei seitlicher Verschiebung der rekonstruierten Kamera um 0,1
Meter: neun Quader in bestimmter Entfernung zur Kamera (rot = ein Meter; violett = fünf
Meter; blau = 20 Meter). Links: originale Kamera. Rechts: rekonstruierte Kamera.
Es fällt auf, dass mit der Distanzverringerung der Objekte zur Kamera die Differenz
zwischen den beiden Bildkoordinatenpaaren steigt. Im Diagramm 3.10 wird die Abhängigkeit der Bildkoordinatendifferenzen zur Entfernung des jeweiligen Objektes dargestellt. Die Objekte erfahren in einer Entfernung von einem Meter einen Verschiebungsbetrag im Videobild um (60, 0) Pixel. Die Pixelverschiebung der Objekte in einer Entfernung von fünf Metern zur Originalkamera beträgt nur noch (12, 0) Pixel. Bei einer
Entfernung der Quader von 20 Metern ist die Pixelverschiebung von (3, 0) Pixel im
letzten Ausschnitt des Bildes 3.26 kaum noch wahrnehmbar.
46
3.5 Rekonstruktionsgenauigkeit
Diagramm 3.10
60
Differenz [pel]
50
40
30
20
10
0
1
2,5
5
10
20
50
100
Entfernung [m]
•
Vertikale Verschiebung
Wird die berechnete Kamera um 0,1 Meter auf der Z-Achse
gegenüber der originalen Kamera nach oben verschoben,
dann ist der Betrag der Pixelverschiebung äquivalent zu dem
der
seitlichen
Kameraverschiebung,
wobei
die
Pixelverschiebung nun in y-Richtung geschieht. Die
Bildkoordinatendifferenzen sind in gleicher Weise wie bei
der seitlichen Verschiebung der berechneten Kamera von
der Entfernung abhängig.
Bild 3.27
Vertikale Verschiebung der berechneten
Kamera
zur
originalen.
(Seitenansicht)
Bild 3.28
Ansichten der Kameras bei vertikaler Verschiebung der rekonstruierten Kamera um 0,1
Meter: neun Quader in einer Entfernung zur Kamera von einem Meter. Links: originale
Kamera. Rechts: rekonstruierte Kamera
47
3 Verfahren zur Beschriftung von Videos im Objektraum
•
Vor- oder Rückwärtsverschiebung
In Bild 3.29 ist die rekonstruierte Kamera um 0,1
Meter zur originalen Kamera nach vorne
verschoben. In Bild 3.29 wird die Auswirkung der
Vorwärtsverschiebung auf die Bildkoordinaten im
Videobild sichtbar.
Bild 3.29
Bild 3.30
Vorverschiebung der berechneten Kamera zur originalen. (Draufsicht)
Ansichten der Kameras bei Vorverschiebung der rekonstruierten Kamera um 0,1 Meter:
neun Quader in einer Entfernung zur Kamera von einem Meter. Links: originale Kamera.
Rechts: rekonstruierte Kamera.
Der Quader, der sich in der Mitte des Videobildes befindet, erfährt keine Pixelverschiebung. Die Quader in den äußeren Ecken des Bildes erfahren eine Verschiebung um (33,
20) Pixel. Befinden sich die Quader in einer Entfernung von fünf Metern, dann beträgt
die Pixelverschiebung der äußeren Quader nur noch (6, 4) Pixel. Die Abweichungen in
den Bildkoordinaten sind folglich auch bei einer Vor- oder Rückverschiebung der Kamera von der Entfernung der zu betrachtenden Objekte zur Kamera abhängig. Der Unterschied zu der Verschiebung der Kamera auf der X- und Z-Achse liegt darin, dass die
Pixelabweichung zum Rande des Videobildes hin zunimmt.
Die Größe der virtuellen Objekte verändert sich. Ist die virtuelle Kamera der originalen
vor verschoben, dann erscheinen die Quader größer. Ist die virtuelle Kamera der originalen zurück verschoben, dann erscheinen die Quader kleiner.
48
3.5 Rekonstruktionsgenauigkeit
Orientierungsdifferenzen
Die Pixelverschiebungen, die sich aufgrund von Rotationen der berechneten Kamera zur
ursprünglichen Kamera ergeben, sind nicht von der Entfernung der beobachteten Objekte zur Kamera abhängig. Das bedeutet, ein ein Kilometer weit entfernter Punkt erfährt
im Bild den gleichen Betrag der Pixelverschiebung wie ein Punkt, der sich nur in einer
Entfernung von einem Meter zur Kamera befindet.
•
Rotation um die X-Achse
Die X-Achse ergänzt in 3D Studio Max das Kamerakoordinatensystem zu einem Rechtssystem. Die
Kamera im Ursprung ist 90 Grad um die X-Achse
gedreht, sodass die Blickrichtung der Kamera mit
der Y-Achse übereinstimmt. Die berechnete Kamera wird um 0,1 Grad um die X-Achse relativ zur
originalen Kamera gedreht. (Um die Drehung in
den Bildern 3.31 bis 3.33 erkennbar zu machen, ist
die berechnete Kamera um 10 Grad gedreht.)
Bild 3.31
Rotation der berechneten
Rechnerisch erhält der Quader im Bildmittelpunkt
Kamera um die X-Achse.
eine Verschiebung um (0, 1) Pixel. Die vier Quader in den jeweiligen Ecken des Videobildes erhalten einen Verschiebepixelbetrag von
(1, 1). Die Differenzwerte sind so klein, dass sie für die Beurteilung der visuellen Passgenauigkeit vernachlässigt werden können.
•
Rotation um die Y-Achse
Die Y-Achse beschreibt, wie oben erwähnt, bei
einer 90-Grad-Drehung um die X-Achse die
Aufnahmerichtung der Kamera. Die berechnete
Kamera wird um 0,1 Grad um die Y-Achse relativ
zur Originalkamera gedreht. Folglich erfährt der
Quader in der Mitte des Videobildes keine
Veränderung hinsichtlich der Bildkoordinaten. Die
äußersten Quader erhalten eine Verschiebung um
jeweils einen halben Pixel in x- und y-Richtung. Bild 3.32
Dieser Wert kann ebenfalls vernachlässigt werden.
•
Rotation der berechneten
Kamera um die Y-Achse.
Rotation um die Z-Achse
Die Z-Achse beschreibt die Nadirdistanz der Kamera. Die berechnete Kamera wird um 0,1 Grad
um die Z-Achse relativ zur Originalkamera gedreht. Die auftretenden Pixeldifferenzen können
auch hier aufgrund ihrer geringen Größe vernachlässigt werden. Dabei sei immer vorausgesetzt,
dass die Rotation in einem kleinen Bereich stattfindet. Bei einer Rotation um 1 Grad entsteht bei Bild 3.33
einer Objektentfernung von 1 Meter eine Pixeldif-
Rotation der berechneten
Kamera um die Z-Achse.
49
3 Verfahren zur Beschriftung von Videos im Objektraum
ferenz von 10 Pixeln in x-Richtung.
Differenz in der Brennweite
Je größer die Brennweite ist, desto kleiner fällt das Sichtfeld der Kamera aus. Die Quader in der Kameraansicht werden demnach größer dargestellt. Vergrößert sich die
Brennweite der rekonstruierten Kamera um 0,3 Millimeter, dann hat dies zur Folge,
dass die Quader in den Ecken des Videobildes sich um (3, 2) Pixel verschieben. Die
Verschiebungsbeträge sind ebenfalls unabhängig von der Entfernung zur Kamera und
nehmen von der Mitte zum Rand des Videobildes zu.
3.5.2.3 Konkrete Ergebnisse des Solingenvideos
In die 3D-Szene von Solingen werden nun künstliche Objekte in Form von Dreiecksflächen eingefügt. Zum Positionsvergleich im Videobild wird die Ecke mit dem spitzesten
Winkel des jeweiligen Dreieckes an eine Ecke des 3D-Modells platziert, sodass die
Raumkoordinaten beider Ecken übereinstimmen. Bild 3.34 zeigt das Ergebnis der Dreiecksüberlagerung für verschiedene Abschnitte des Videos (Frame 0, 75, 190 und 245).
Die Bildausschnitte auf der linken Seite stellen die Ausgangspositionen der Dreiecksflächen dar. Sie wurden mit Hilfe der originalen Kamera generiert. Die Bildausschnitte
auf der rechten Seite entstehen durch Verwendung der berechneten Kameraparameter.
Die drei letzten Videoframes sind deshalb ausgewählt worden, weil ihre zugehörigen
Videobilder die auffälligsten Bildkoordinatenabweichungen beinhalten.
50
3.5 Rekonstruktionsgenauigkeit
I
II
III
V
IV
VIII
VI
Bild 3.14
IX
VII
Überlagerung einer Videosequenz mit künstlichen Dreiecksflächen für die Frames 0, 75,
190 und 245. Links: Ansicht der originalen Kamera des Solingenvideos. Rechts: Ansicht der
von Boujou berechneten Kamera.
51
3 Verfahren zur Beschriftung von Videos im Objektraum
Zum Zeitpunkt 0 sind im Videobildausschnitt, der mit Hilfe der berechneten Kamera
entsteht, nur mit Mühe Bildkoordinatendifferenzen der Dreiecksspitzen bezüglich ihrer
Bezugsobjekte zu erkennen. Die tatsächliche Bildkoordinatendifferenz des vordersten
gelben Dreiecks, im Bildausschnitt mit „I“ markiert, beträgt (1, 0) Pixel, wobei sich
dieses Dreieck in einer Entfernung von 13,2 Meter zur originalen Kamera befindet.
Im Videobildausschnitt des Frames 75 erfährt das vorderste gelbe Dreieck „II“ eine
Verschiebung von (2, 5) Pixeln bei einer Entfernung zur Kamera von sieben Metern.
Das orangefarbene Dreieck „III“, welches sich am Bildrand befindet, erfährt eine etwas
größere Pixelverschiebung von (5, 7) Pixeln. Die Entfernung zur Kamera beträgt sechs
Meter.
In Frame 190 beträgt die Pixeldifferenz des gelben Dreiecks „IV“ (4, 19) Pixel. Die
Entfernung liegt bei 7,6 Metern. Am rechten Bildrand ist ein gelbes Dreieck „V“ an
einer Hausecke zu sehen. Seine Entfernung zur Kamera beträgt 40 Meter. Die Bildkoordinatendifferenz beträgt lediglich (0, 2) Pixel.
Im Bildausschnitt des 245. Frames weist das linke gelbe Dreieck „VI“ eine Pixelabweichung von (8, 27) Pixeln in einer Entfernung von 6,6 Meter auf. Zum Vergleich liegt
die Pixelabweichung des rechten orangefarbenen Dreiecks „VII“ am selben Blumenkasten bei (8, 39) Pixeln. Die Entfernung beträgt 5,5 Meter. Die Differenz des gelben Dreiecks „VIII“ des darauf folgenden Blumenkastens ergibt sich lediglich zu (3, 6) Pixel.
Dieses Dreieck befindet sich in einer Entfernung von 24 Metern. Das gelbe Dreieck
„IX“ am dahinter liegenden Blumenkasten liegt in einer Entfernung zur Kamera von 59
Metern und weist eine Differenz der Bildkoordinaten von (1, 4) Pixel auf.
Es lässt sich beobachten, dass mit Fortschreiten des Videofilms die Bildkoordinatendifferenzen der jeweiligen Dreiecke – besonders in y-Richtung – anwachsen. Dieser Effekt
lässt sich durch die zunehmende Abweichung der berechneten Kameraposition in ZRichtung zum Ende des Videofilmes erklären. Zu Beginn des Videofilms liegt die 3DSzenenkoordinatendifferenz in Z-Richtung bei 0,04 Meter, zum Zeitpunkt des 245.
Frames beträgt die Abweichung der Z-Position 0,23 Meter (siehe Bild 3.35 und 3.36
und Diagramm 3.4).
Bild 3.35
52
Position der originalen Kamera bei Frame 0 (entspricht dem
Frame 1 des berechneten Kamerapfades). Links: Draufsicht.
Rechts: Seitenansicht.
3.5 Rekonstruktionsgenauigkeit
Bild 3.36
Position der originalen Kamera bei Frame 245 (entspricht dem Frame 246 des berechneten
Kamerapfades). Links: Draufsicht. Rechts: Seitenansicht.
In Bild 3.35 und 3.36 sind der Kamerapfad der berechneten Kamera sowie die originale
Kamera zu sehen. Der Kamerapfad beginnt mit dem Frame 1 und endet mit dem Frame
301, da 3D Studio Max nicht wie Boujou mit der Nummerierung der Frames bei 0 beginnt. Somit ist die berechnete Kamera der originalen Kamera in der Framenummerierung immer einen Frame voraus. In Bild 3.36 wird deutlich, dass der sich der Abstand
der beiden Kameras zum Ende des Videofilms hinsichtlich der Z-Achse vergrößert.
In Kapitel sechs wird für das Solingenvideo mittels der berechneten Kameraparameter
künstliche Beschriftung eingefügt. Bei der Betrachtung des mit der Beschriftung überlagerten Videos fällt auf, dass der Effekt der relativ großen 3D-Koordinatenabweichung
in Z-Richtung im Videobild für den Betrachter nicht bemerkbar ist.
53
4 Bonner Wegevideos
Nun sollen die Rekonstruktion der Kamera sowie die Beschriftung auf die Bonner Wegevideos angewendet werden. Dabei wird zunächst die Erfassung und Bearbeitung der
Wegevideos erörtert. Danach folgt die eigentliche Georeferenzierung der Wegevideos,
wobei die Konzentration auf die dabei auftretenden Probleme gelegt wird. Abschließend
werden die Resultate dargestellt und bewertet.
4.1 Erstellung der Wegevideos
In Kapitel 2.2 wurde bereits das dieser Arbeit zu Grunde liegende Konzept zur Fußgängernavigation vorgestellt. In diesem Kapitel wird die dort angesprochene Aufnahme der
Wegevideos dargestellt sowie deren Aufbereitung erläutert.
4.1.1 Testgebiet
Es ist vorgesehen, die Beschriftung in Anlehnung an ein 3D-Modell zu platzieren. Dazu
hat das Photogrammetrische Institut der Universität Bonn ein 3D-Modell der Bonner
Innenstadt zur Verfügung gestellt. Bild 4.1 zeigt das verwendete Bonner 3D-Modell aus
der Vogelperspektive. Die unterschiedlichen Situationen eines Fußgängers sind in dem
Bereich zu finden, den das 3D-Modell abdeckt. Der grün markierte Bereich stellt eine
Platzsituation dar. Die Fußgängerzonen sind gelb markiert, und Gehwege entlang einer
befahrenen Straße sind orange hinterlegt.
Bild 4.1
3D-Modell der Bonner Innenstadt. (Draufsicht)
55
4 Bonner Wegevideos
4.1.2 Erfassung der Videos
Im Folgenden wird die Methode bei der Aufnahme von Videos für die Fußgängernavigation beschrieben. Es werden notwendige Eigenschaften der Kamera sowie für die
Aufnahme vorzunehmende Einstellungen erläutert, die verwendete Bewegungsform bei
der Videoaufnahme dargestellt und Empfehlungen für optimale Aufnahmebedingungen
gegeben.
4.1.2.1 Kameraeinstellungen
Die Aufnahme der Videosequenzen erfolgt mit der digitalen Videokamera SONY DCR-TRV900E. Für das Projekt
sind folgende Kameraeinstellungen vorzunehmen:
Bild 4.1
- PAL TV
SONY
TRV900E
DCR-
Die üblichen Fernsehsendungen arbeiten nach dem Prinzip des Zeilensprungs (Interlaced). Das Bild wird dabei in zwei kammartige Halbbilder aufgeteilt, wobei pro Zeiteinheit immer nur die Zeilen eines Halbbildes angezeigt werden und die nachfolgenden
Zeilen in den verbleibenden Freiraum des vorherigen Halbbildes eingefügt werden.
Bei der Aufnahme kann zwischen den beiden bekannten Systemstandards PAL und
NTSC gewählt werden. Das PAL-System wurde 1961 in Deutschland eingeführt und
gilt seitdem, wie in den meisten anderen europäischen Ländern auch, als Norm für die
Übertragung im Farbfernsehen. Deshalb sollte es vor der Videoaufnahme aktiviert werden. Beim PAL-System (Phase Alternating Line = Phasenverschiebungszeile) beträgt
die Zeilensprunganzeige 50 Halbbilder pro Sekunde; es werden 25 Frames pro Sekunde
abgespielt. Die Auflösung des PAL-Systems beträgt 768x576 Bildpunkte, wobei die
Anzahl der Bildpunkte pro Zeile einer digitalen Videokamera (DV PAL) im Allgemeinen 720 Pixel beträgt.
- Progressive Scan
Die Aufnahme bzw. Wiedergabe eines vollständigen Bildes pro Zeiteinheit bezeichnet
man hingegen als Non-Interlaced. Der verwendete Camcorder besitzt ebenfalls diese
Technik, welche mit dem Begriff Progressive Scan beschrieben wird. Bei der Videoaufnahme im Progressivmodus werden die Videobilder „mit allen Pixeln“ aufgenommen. Da ein im Progressivmodus aufgenommenes Bild auch im Pausenmodus immer
scharf ist, ist diese Funktion für die weitere Videobearbeitung mit der MatchmoverSoftware Boujou besonders geeignet.
- Steadyshot
Wird die Funktion Steadyshot gewählt, werden geringfügige Erschütterungen der Kamera bei der Aufnahme durch Bildverschiebungen um wenige Pixel kompensiert.
Übermäßige Erschütterungen der Kamera kann diese Funktion allerdings nicht ausgleichen.
56
4.1 Erstellung der Wegevideos
- Weißwert
Der Weißwert wird von der Videokamera grundsätzlich selbstständig eingestellt und
von der automatischen Helligkeitskorrektur während der Aufnahme ständig nachgeregelt. Bei sich rasch ändernden Lichtverhältnissen kann es jedoch geschehen, dass weiße
Motive im Video nicht mehr weiß dargestellt werden, sondern leicht ins bläuliche abweichen. Deshalb sollte man vor jeder Aufnahme den Weißwert manuell einstellen,
damit die Farben anschließend natürlicher wirken. Dazu hält man ein weißes Objekt
(z.B. weißes Blatt) so vor das Objektiv, dass es die Aufnahmefläche vollkommen ausfüllt. Anschließend wird mittels eines Steuerreglers der aktuelle Weißwert bestimmt und
für die weitere Aufnahme abgespeichert.
4.1.2.2 Konzept: Kameraaufbau und Bewegungsform
Die Aufnahme der Wegevideos sollte möglichst ohne starke Verwackelungen geschehen. Nimmt man die Videoaufnahme freihändig vor, werden also bei der Kameraführung keine technischen Hilfsmittel verwendet, sind ruhige, unverwackelte Aufnahmen
nahezu unmöglich. Erschwerend kommt hinzu, dass ein Großteil des Fußgängerbereichs
der Bonner Innenstadt gepflastert ist. Dies führt zu einem noch stärkeren Verwackelungseffekt bei der Aufnahme.
In der professionellen Filmbranche werden bei solchen äußeren Bedingungen spezielle
Geräte eingesetzt, die Bodenunebenheiten kompensieren und so eine ruhige Kamerafahrt ermöglichen. Solche Hilfsmittel standen uns jedoch nicht zur Verfügung und
konnten aufgrund des begrenzten Budgets auch nicht beschafft werden. Es musste daher
improvisiert werden, um mit geringem Aufwand ein vergleichbares Ergebnis zu erreichen. Die Kamera wurde deswegen auf einem Stativ angebracht, welches wiederum auf
einem mit Schlauchreifen bestückten Kinderwagen befestigt wurde. Durch Verringerung des Reifendrucks konnten die Bodenunebenheiten ausgeglichen werden. Dadurch
wurde die Kamerafahrt so ruhig, dass störende Verwackelungen größtenteils ausgeglichen werden konnten.
Diese Methode hat jedoch einen Nachteil:
Die Horizontalebene der Kamera wird
durch die vier Reifen des Kinderwagens
definiert. Wird der Kinderwagen nun zum
Beispiel über einen zur Straße hin abfallenden Gehweg geschoben, hat dies zur
Folge, dass Gebäude in der Kameraansicht nicht mehr senkrecht stehen, sonder
in die entgegengesetzte Neigungsrichtung
des Gehweges gekippt erscheinen.
Bild 4.3
Ansicht einer Videokamera in schräger
Lage.
Die Kamera wird nun auf Augenhöhe positioniert, um die Perspektive eines Fußgängers
zu simulieren. Bei der Einstellung des Zoomfaktors ist darauf zu achten, dass der Öffnungswinkel der Kamera so gewählt wird, dass er der menschlichen Wahrnehmung
57
4 Bonner Wegevideos
möglichst entspricht. Eine Brennweite von 50 Millimetern gleicht in etwa dem Sichtfeld
des menschlichen Auges. Jedoch ist zu bedenken, dass der Wiedererkennungswert des
Videobildausschnittes der Umgebung so hoch wie möglich zu halten ist. Je mehr Bildinformationen der Umgebung erfasst werden sollen, desto weiter muss mit dem Objektiv
„rausgezoomt“ werden. Die geringste Brennweite der verwendeten Videokamera beträgt laut Herstellerangabe 41,3 Millimeter. Da kein exakter Zoomfaktor in der Videokamera einzustellen ist, wird schließlich mit dem Betrag der geringsten Brennweite gearbeitet, da sich dieser durch völliges Rauszoomen ergibt. Des Weiteren ist darauf zu
achten, dass der Autofokus deaktiviert wird. Für Boujou wird die Erstellung einer akkuraten Lösung erleichtert, wenn die Brennweite konstant ist und eine Variation der
Brennweite nicht zugelassen wird.
Beim Aufnahmevorgang ist schließlich noch darauf zu achten, dass man sich möglichst
auf der Wegmitte fortbewegt, um beide Wegseiten im gleichen Verhältnis abbilden zu
können. Das Abfahren der Wege sollte in einer gleichmäßigen Laufgeschwindigkeit
erfolgen, um die Bewegungsunschärfe im Videobild möglichst gering und gleichmäßig
zu halten.
4.1.2.3 Optimale Aufnahmebedingungen
Da verschiedene äußere Faktoren das Ergebnis der Aufnahme eines Wegevideos beeinflussen können ist hinsichtlich des Aufnahmezeitpunktes vorab folgendes zu beachten:
- Lichtverhältnisse
Ein wichtiger Aspekt bei der Aufnahme
von Videos sind die Lichtverhältnisse. So
können bei tief stehender Sonne trotz
Verwendung einer Gegenlichtblende kritische Gegenlichtsituationen entstehen.
Steht die Sonne hingegen im Rücken,
kann das Videobild durch Schattenwurf
so dunkel werden, dass Bildinformationen verloren gehen können.
Bei der Videoaufnahme sollte folglich auf
ausgeglichene Lichtverhältnisse geachtet
werden. Optimale Aufnahmebedingungen Bild 4.4 Gegenlicht bei der Videoaufnahme.
bieten sich um die Mittagszeit, wenn die
Sonne am höchsten steht. Im Sommer wird diese Vorraussetzung für einen längeren
Zeitraum erfüllt als im Winter. Eine weitere geeignete Aufnahmesituation bietet eine
bewölkte Wetterlage. Hierbei ist jedoch darauf zu achten, dass während der Aufnahme
kein Wechsel zwischen Sonne und Bewölkung stattfindet, da sonst der manuell eingestellte Weißwert für die veränderte Lichtsituation nicht mehr angemessen ist.
- Verkehrsverhältnisse
Damit bei der Videoaufnahme eine möglichst freie Sicht herrscht, sollte bezüglich des
Verkehrsaufkommens der Wochentag berücksichtigt werden. An Werktagen sind Lastwagen, die die Geschäfte beliefern, sowie zahlreiche Fußgänger unterwegs. Für eine
58
4.1 Erstellung der Wegevideos
optimale Aufnahmesituation mit geringer Verdeckung von Bildinformationen eignen
sich demnach insbesondere der Sonntag oder ein Feiertag. Des Weiteren werden die
Gebäude an diesen Tagen nicht von ausgestellter Angebotsware und Reklametafeln verdeckt.
4.1.3 Aufbereitung der Videos
Sind die Videoclips entlang der Fußgängerwege erst einmal aufgenommen, müssen sie
noch einigen Arbeitsschritten unterzogen werden, um sie mit einer MatchmoverSoftware optimal weiterbearbeiten zu können. Diese Schritte werden im Folgenden erläutert.
4.1.3.1 Digitalisieren
Um die Weiterverarbeitung eines mit einer Videokamera aufgenommenen Films am
Rechner zu ermöglichen, muss das Videomaterial zunächst von der Kamera auf die
Festplatte des Rechners übertragen werden. Dieser Vorgang wird als Aufnehmen bezeichnet und hier mit der Videobearbeitungssoftware Adobe Premiere 6.0 vorgenommen. Die Videokamera wird dazu mittels eines Datenkabels mit dem Rechner verbunden und auf den VCR-Modus/Play eingestellt. In diesem Modus operiert die Videokamera als Gerät für die Aufnahme und Wiedergabe/Playback und verwendet dabei die
Übertragungsanschlüsse an den Rechner für den Input und den Output.
Bevor mit der eigentlichen Aufnahme begonnen werden kann, müssen zunächst die für
die Projektarbeit benötigten Einstellungen vorgenommen werden:
- Allgemeine Einstellungen
Im Bearbeitungsmodus werden die Videowiedergabe aus dem Schnittfenster sowie die
Kompressionsoptionen festgelegt. Der für die Videobearbeitung verwendete Computer
ist mit einer Canopus-Videokarte ausgestattet. Sie gibt den Bearbeitungsmodus mit Canopus RealTime DV vor, wodurch das Exportformat jedoch nicht zwingend festgelegt
wird.
Einzelbilder in einem Video bezeichnet man als Frames. Die Wiedergabefrequenz dieser Frames wird als Framerate bezeichnet. Diese wiederum bestimmt, wie Bewegungen
im Video wahrgenommen werden und gibt die Anzahl der Frames an, die in einem Video pro Sekunde gezeigt werden. Die Timebase beschreibt die Framerate und liegt bei
25 Bildern pro Sekunde.
Die Zeitanzeige bestimmt die Ausgabe des Timecodes. Der Timecode ist eine zeitbezogene Adresse für die einzelnen Videobilder. Um eine zeitgetreue Wiedergabe zu gewährleisten, muss für die PAL-Wiedergabe die Einstellung vom 25 FPS Timecode
(FPS = frames per second) festgelegt werden.
59
4 Bonner Wegevideos
Bild 4.5
Allgemeine Projekteinstellungen.
- Videofilter
Auch wenn als Endergebnis ein Film mit nur geringer Auflösung entstehen soll, sollte
das Quellmaterial in der bestmöglichen Qualität auf den Rechner überspielt werden. Für
das DV PAL-Video bedeutet das eine Projekteinstellung von 25 Bildern pro Sekunde
bei einer Auflösung von 720 x 576 Pixel. Durch das Herunterskalieren für die Videoendausgabe wird dann ein geringeres Bildrauschen bewirkt, das sich leichter komprimieren lässt.
Somit wird im Menü Videofilter kein Kompressor (s. Kapitel 4.1.3.5) ausgewählt. Das
Qualitätsniveau liegt somit bei 100 Prozent. Dabei gilt, je höher die Qualität, desto größer ist der Speicherbedarf und desto geringer ist die Abspielgeschwindigkeit des Videofilms.
Die Tiefe spezialisiert die Farbtiefe bzw. Farbbandbreite. Ein Rechner verwendet heute
eine Farbdarstellung von 24 Bit. Für jede Primärfarbe (rot, grün, blau) werden 8 Bit
gespeichert und übertragen. Mit diesen insgesamt 24-Bit-Farbinformationen lassen sich
Millionen verschiedene Farben simultan darstellen.
Die Framegröße (Bildgröße) ist mit 720 x 576 anzugeben und entspricht somit der Auflösung der aufgenommenen Videobilder mit dem Seitenverhältnis von 5:4.
Das Pixel-Seitenverhältnis ist ein Maß für die Relation von Breite und Höhen eines Pixels. Die Pixel sind rechteckig und werden auf einem Computermonitor leicht verzerrt
dargestellt, so dass sich für D1/DV PAL der Wert von 1,067 ergibt.
60
4.1 Erstellung der Wegevideos
Bild 4.6
Projekteinstellungen: Videofilter.
- Keyframe und Rendern
In diesem Einstellungsfenster muss die Option Keine Halbbilder ausgewählt werden,
da unsere Videosequenzen nach dem ProgressiveScan-Verfahren aufgenommen worden
sind.
Bild 4.7
Projekteinstellungen: Keyframe und Rendern.
- Aufnehmen
Durch die Wahlmöglichkeit des Aufnahmeformates kann die Materialüberspielung gesteuert werden. Bei der Übertragung der Videobilder wurde aufgrund der vorhandenen
Canopus-Videokarte das Aufnahmeformat DVRex Record ausgewählt.
61
4 Bonner Wegevideos
Bild 4.8
Projekteinstellungen: Aufnehmen.
Mit der Befehlsfolge Datei - Aufnahme - Filmaufnahme gelangt man zum Aufnahmefenster. Mittels der Steuerelemente werden der IN-Point und der OUT-Point, die den
Anfangs- und den Endzeitpunkt des aufzunehmenden Bereiches der Videokassette beschreiben, festgelegt. Für unsere Zwecke wird der Originalton der Videoaufnahmen
nicht benötigt. Er kann daher über die Steuerung ausgeblendet werden, damit er bei der
Übertragung nicht unnötig Speicherplatz belegt. Mit der Schaltfläche Aufnehmen kann
nun die Aufnahme in Echtzeit gestartet werden.
4.1.3.2 Schneiden
Alle Wege des Testgebietes sind nun als Video in digitaler Form vorhanden. Da die
Bildinformationen aller Wege als eine lange Filmsequenz gespeichert sind, muss diese
jetzt nach Straßen und Richtungen in einzelne Sequenzen getrennt werden. Das bedeutet, dass das Video geschnitten werden muss.
Zur Durchführung des Schneidevorgangs wird das Freeware-Video-Editing-Tool VirtualDub 1.5.10 verwendet. Zwar besitzt auch Adobe Premiere 6.0 die Möglichkeit des
Videoschnittes, aber das VirtualDub-Arbeitsfenster ist übersichtlicher gestaltet und die
einzelnen Funktionen erschließen sich dem Benutzer unmittelbar.
Mit der Befehlsfolge File - Open video file... lässt sich der zu bearbeitende Videofilm
öffnen. Die überflüssigen Filmsequenzen vor und nach der Zielsequenz – das ist der
Teil des Videofilms, der später als Wegevideo auf dem Endgerät erscheinen soll – müssen von der Gesamtsequenz „abgeschnitten" werden. Dazu werden jeweils ein [Mark
in] und ein [Mark out] an Anfang und Ende der abzuschneidenden Sequenz gesetzt. Der
gewählte Sequenzbereich wird dabei in der Zeitleiste automatisch blau markiert. Nun
muss lediglich die Befehlsfolge Edit - Cut ausgeführt werden. Anschließend wird die
Zielsequenz mit der Befehlsfolge File - Save as Avi abgespeichert.
62
4.1 Erstellung der Wegevideos
Bild 4.9
VirtualDub 5.1.10: Markierung der zu schneidenden Sequenzen.
4.1.3.3 Entwackeln
Trotz Verwendung eines Kinderwagens mit improvisierten „Stoßdämpfern“ weisen die
Wegevideos horizontale und vertikale Verwackelungen auf. Die Bewegungen der Kamera können von den eigentlichen Bildinformationen ablenken und den Betrachter ermüden.
Die Entwickler der Matchmover-Software Boujou haben mit SteadyMove Pro ein
PlugIn für Adobe Premiere entwickelt, das in der Lage ist, die Kamerafahrt nachträglich
zu stabilisieren. Wendet man diese bilderbasierte Stabilisation an, wirken die „entwackelten“ Videos, als ob sie mit einem Kamerawagenschieber aufgenommen worden
wären.
Für die positionsabhängige Navigation ist die Anwendung der Entwacklungssoftware
nicht notwendig. Aufgrund der metergenauen Positionsbestimmung wird immer nur
jeweils ein Videobild für einen bestimmten Positions-“Bereich“ angezeigt, das bezüglich der absoluten Kameraposition der bestimmten Standortposition des Benutzers am
nächsten kommt. Bei einem Anzeigewechsel des Videobildes hat sich der Fußgänger
auf seinem Weg so weit fortbewegt, dass die Diskrepanz zwischen dem aktuellen und
zuvor dargestellten Videobild so groß ist, dass die Darstellung der entwackelten Videobilder keinen Vorteil mehr mit sich bringt.
Die Motivation des Entwackelns steckt zum einen in der Möglichkeit, die laufruhigen
Videos auf der Bonner Internetseite zu präsentieren. Touristen können schon vor ihrer
63
4 Bonner Wegevideos
Bonner Reise einen virtuellen Spaziergang durch die Innenstadt machen. Lässt man sich
eine Route durch die Bonner Innenstadt planen, können die entwackelten Videos auch
zur Visualisierung der vollständigen Route dienen.
Ein weiterer Grund für die Entwacklung liegt in der Vermutung, dass Boujou bei der
Verfolgung der Features in den verwackelten Videos Probleme haben könnte. Durch die
Anwendung der Entwacklung entsteht eine Stetigkeit in der Bewegung des Videobildes.
Aufgrund der in Boujou verwendeten Algorithmen könnten die Features womöglich
akkurater getrackt werden. Auf der anderen Seite wird das Videobild durch die Entwacklung verzerrt. Eine Systematik der Verzerrung kann nicht angegeben werden. Die
Verzerrung ist somit als Blackbox anzusehen, da sie von den individuellen Verwackelungen des jeweiligen Videofilmes abhängig ist. Wird die Georeferenzierung für die
nicht entwackelten Videos vorgenommen und anschließend die Entwackelung für die
Präsentation des vollständigen Videofilmes angewendet, besteht die Möglichkeit, dass
die zuvor eingefügte Beschriftung bei dem Entwacklungsvorgang verzerrt wird. Ob die
Anwendung der Entwacklung das Featuretracking nun letztendlich negativ oder positiv
beeinflusst, wird in Kapitel 4.2.1.3 geklärt.
SteadyMove Pro basiert auf der von Boujou verwendeten Technologie. Wie in Boujou
auch werden in den Videobildern Features automatisch detektiert und während der gesamten Videosequenz getrackt. Dabei kann zwischen bewegten Objekten und festem
Hintergrund differenziert werden. Mit Hilfe der Featuretracks wird die Kamerabewegung hinsichtlich Translation, Rotation und Brennweite analysiert. Die eigentliche Stabilisierung umfasst zwei Prozesse, die Filterung und die Korrektur. Die schnellen, ruckartigen Bewegungen der Kamera werden von den langsamen separiert und herausgefiltert. Mit Hilfe der so entstehenden, geglätteten Kamerabewegung wird anschließend
jeder Frame durch eine entsprechende Transformation korrigiert.
Die Bildkorrektur hat jedoch den Nachteil, dass Randbereiche des Originalbildes aus
der Bildansicht herausfallen und leere Bereiche auf der gegenüberliegenden Seite des
Bildes erscheinen. Um ein brauchbares Ergebnis zu erhalten, wird das transformierte
Bild anschließend skaliert und gestutzt. Diese Effekte sind in Bild 4.10 zu erkennen.
Das Abschneiden der Bildränder hat den Effekt des Reinzoomens, ohne dass das Bild
schärfer wird. Es gehen an den Rändern Bildinformationen verloren, die für die Orientierung des Fußgängers grundsätzlich wichtig sind. Es stellt sich jedoch heraus, dass der
Bildausschnitt nach dem Entwackeln – aufgrund der Verwendung einer großzügigen
Brennweite bei der Videoaufnahme – immer noch einem Bildausschnitt übertrifft, der
dem menschlichen Sichtfeld entspricht.
64
4.1 Erstellung der Wegevideos
Bild 4.10
Stabilisierungsprozess. Links: Originalvideo. Mitte: gestutzte Videobildränder. Rechts: auf
Originalgröße skaliert.
Bevor SteadyMove Pro als Effekt in Adobe Premiere 6.0 angewendet wird, muss jedoch
darauf geachtet werden, dass die visuellen Daten eines Projektes ein übereinstimmendes
Format aufweisen. Andernfalls kann das Endprodukt nicht zufrieden stellende Ergebnisse liefern. Im Menü Projekt lassen sich unter Einstellungsübersicht die Aufnahme-,
Projekt-, importierte Film- und Exporteinstellungen tabellarisch ausgeben. Als Exportkompressor (s. Kapitel 4.1.3.5) wird der CANOPUS DVRex Codec gewählt.
Bild 4.11
Adobe Premiere 6.0: Einstellungen in der Übersicht.
Nachdem der Videoclip in Adobe Premiere 6.0 importiert und für die weitere Bearbeitung auf die Videospur übertragen worden ist, kann der Videofilter SteadyMove Pro
durch Übertragung auf die gleiche Videospur angewendet werden. Dem Benutzer wird
durch eine Reihe von Bedienungselementen im Menü Effekteinstellungen beispielsweise erlaubt festzulegen, wie viel Bewegung aus dem Video entfernt werden soll.
65
4 Bonner Wegevideos
- Camera Motion
Hier wird der Bewegungstyp der Kamera festgelegt. Der Bewegungstyp Free & Pan
muss ausgewählt werden, wenn die Kamera, wie in diesem Fall, über die ganze Videosequenz hindurch translatorische und/oder rotatorische Bewegungen ausführt.
- Smoothness
Durch die Laufruhe wird der Betrag der aus der Videosequenz zu entfernenden Bewegung kontrolliert. Es wird der maximale Wert gewählt. Dieser liegt bei 100% und sorgt
dafür, dass die Bewegungen der Kamera ähnlich einer mechanischen Kameraführung
mit Stabilisierungssystem auf das qualitativste höchste Maß geglättet werden.
- Smooth Zooms
Bei Aktivierung des Smooth Zooms wird der Glättungsvorgang dazu befähigt, während
des Stabilisierungsvorganges Änderungen in der Brennweite vorzunehmen. Dieser Effekt ist bei der vorliegenden Projektarbeit jedoch unerwünscht, da wir im weiteren Verlauf mit Boujou von einer konstanten Brennweite ausgehen.
- Max Correction
Die maximale Korrektur bestimmt den höchsten Skalierung- und Stutzwert, der bei der
Stabilisierung des Videobildes verwendet werden darf, als Prozentwert bezogen auf die
Höhe und Breite des Videobildes. Der maximale einstellbare Wert beträgt 15 Prozent.
Der Wert der maximalen Korrektur sollte jedoch so niedrig gewählt werden, dass sich
in Verbindung mit dem Smoothness-Wert ein gutes Ergebnis erzielen lässt. Durch Experimentieren stellt sich ein mittlerer Wert von sieben Prozent als geeignet heraus.
Durch die Anwendung der Entwacklung auf die Bonner Wegevideos wird der Ausschnitt der Videos verkleinert. Folglich vergrößert sich die theoretische Brennweite. Da
der Bildausschnitt an jedem Rand um sieben Prozent abgeschnitten wird, erhält man
eine Brennweite von etwa 48 mm.
- Edge handling
Wird die Handhabung der Kanten auf Fixed eingestellt, dann wird auf das stabilisierte
Videobild ein fester Skalierungs- und Stutzwert verwendet. Dieser feste Wert wird von
der vorgenommenen Einstellung in Max Correction bestimmt. Es ist wichtig, dass immer derselbe Wert für die Skalierung und Stutzung verwendet wird, da sonst die Features im Videobild ihre Bewegungsstetigkeit verlieren. Dies könnte sich dann auf die
Berechnungsergebnisse in Boujou negativ auswirken.
- Cut Detection
Besteht eine Videosequenz aus mehreren Clips, dann ist SteadyMove Pro bei Aktivierung des entsprechenden Kontrollkästchens in der Lage, die Schnitte dieser Videosequenz aufzuspüren. Somit wird jeder einzelne Clip individuell entwackelt.
66
4.1 Erstellung der Wegevideos
Bild 4.12
SteadyMove Pro Effekteinstellungen.
Der Entwacklungsvorgang wird auf jedes einzelne Wegevideo angewandt. Natürlich
besteht auch die Möglichkeit, erst die Entwacklung durchzuführen und dann den Gesamtfilm in die einzelnen Wegevideos zu zerschneiden. Schließlich spart man bei dieser
Vorgehensweise Arbeitszeit, da die Entwackelung nur einmal durchgeführt werden
muss. Der Grund für die hier angewandte Methode bestand in der Möglichkeit einer
schnelleren Ergebniskontrolle. In Kapitel 4.3.2 wird ein Beispiel für den benötigten
Zeitaufwand des Entwacklungsvorganges dargestellt.
4.1.3.4 Filter zur Farbsteuerung
Wurden bei der Videoaufnahme keine optimalen Aufnahmebedingungen erreicht, kann
das Videobild zum Beispiel sehr dunkel geraten (siehe Bild 4.13). Für das Abspielen der
Videos wäre es wünschenswert, wenn die Filme eine möglichst hohe Darstellungsqualität aufweisen.
Adobe Premiere 6.0 bietet eine Vielzahl von Videofiltern an. Das einfachste Instrument
zur Steuerung des Farbtonbereiches ist der Filter Helligkeit & Kontrast. Er passt, wie
der Name schon sagt, Helligkeit und Kontrast des gesamten Videoclips an. Auf die genaue Vorgehensweise dieses Filters sowie auf dessen bestmögliche Anwendung braucht
hier nicht weiter eingegangen zu werden.
67
4 Bonner Wegevideos
Bild 4.13
links: Originalvideo; rechts: Video nach der Anwendung des Helligkeits & Kontrastfilters
4.1.3.5 Komprimieren
Die Kompression bezeichnet die Verringerung der Gesamtdatenmenge, indem redundante oder für den Menschen nicht wahrnehmbare Daten entfernt werden und somit der
Speicherplatz auf der Festplatte verringert wird. Beim Öffnen der Datei wird das Video
über den Computer dekomprimiert, d. h., es wird in sein ursprüngliches Format überführt und somit abspielbar gemacht.
Für die Präsentation der endgültigen Wegevideos sowohl im Internet als auch auf dem
mobilen Benutzerendgerät ist eine Komprimierung unerlässlich. Durch eine Datenreduzierung wird auf dem Endgerät weniger Speicher benötigt. Für verschiedene Visualisierungssysteme sind unterschiedliche Bitraten und Bildauflösungen erforderlich. Durch
Kompression und Ändern des Bildformats werden geeignete Datenraten erzielt, die an
aktuelle Webtechnologien angepasst sind.
Für die weitere Arbeit mit Boujou sollte beachtet werden, dass bei einer Kompression
Bildfehler und Qualitätsverluste auftreten können. Zuerst leidet die Bildschärfe, und mit
zunehmender Kompression stellen sich Farbverluste ein. Je unschärfer ein Videobild ist,
desto ungenauer kann Boujou Features lokalisieren. Deshalb sollte bei der Arbeit mit
Boujou immer auf die beste verfügbare Bildqualität zurückgegriffen werden. Zusätzlich
kann die Komprimierung einer Videosequenz mit beispielsweise dem DivX-Codec
(Codec ist die Abkürzung für Codierer-Decodierer) das FeatureTracking enorm verlangsamen, da Boujou für die Analyse eines jeden Pixels in jedem Frame der Videosequenz erst von dem komprimierten Video jeden Frame rekonstruieren muss. Um das
Verhältnis von Speicherplatz, Bildqualität und Bearbeitungszeit optimal auszunutzen,
werden die entwackelten Videos mit dem Canopus-Video-Codec komprimiert. Dieser
wird zudem von der 2d3 Gesellschaft für die Videobearbeitung in Boujou als geeigneter
AVI-Codec empfohlen wird.
68
4.2 Bonner Wegevideos im Objektraum
4.2 Bonner Wegevideos im Objektraum
Die Videos der Bonner Innenstadt sollen unter Verwendung von Boujou in den Objektraum überführt werden. Im Folgenden wird auf dabei auftretende Probleme und Fehlerquellen eingegangen. Zwei der dargelegten Problematiken werden anhand des Solingenvideos simuliert. Anschließend werden Ergebnisse der georeferenzierten Bonner
Videobilder dargestellt und beurteilt.
4.2.1 Fehlerquellen und Probleme
Wie bereits erwähnt, ist das endgültige Ergebnis der Kamerarekonstruktion von dem
verwendeten Featuretracking-Algorithmus und der Georeferenzierung abhängig. Bei der
Aufnahme realer Videos können im Gegensatz zu gerenderten virtuellen Filmen verschiedene Faktoren zur zusätzlichen Verschlechterung der berechneten Kameraparameter beitragen. Im Folgenden werden nun sämtliche möglichen Fehlerquellen aufgeführt
und deren Einfluss analysiert.
4.2.1.1 Fehler der Kameralinse
Für die Erstellung der Kameralösung wird von Boujou das Modell der Lochkamera
verwendet, die die Kamerakonstante als einzigen Parameter der inneren Orientierung
beinhaltet. Im Unterschied zur Lochkamera, die oft auch als ideale Kamera bezeichnet
wird, besitzen Objektive einen komplizierteren Strahlengang, der zu erheblichen Abweichungen von der idealisierten Zentralprojektion und somit zu Abbildungsfehlern
führt [Qm04]. Boujou bietet daher zusätzlich die Option an, eine radiale Verzerrung der
Linse sowie eine Hauptpunktverschiebung in der berechneten Lösung der Kamerabewegung zu berücksichtigen. [2d303]
-
radiale Verzerrung der Linse
Weist die Linse einer Kamera eine radiale Verzerrung auf, erscheinen tatsächlich
gerade Linien im Videobild als gekrümmte Linien. Am Rand des Videobildes tritt
dieser Effekt stärker auf als in der Mitte. Die Linsenverzerrung kann hinsichtlich der
Genauigkeit des Kameratrackings besonders dann zu Problemen führen, wenn eine
Weitwinkellinse für die Aufnahme der Videos verwendet wird. [2d303]
Bild 4.14
Beispiele für typische Effekte, die von einer Linsenverzerrung ausgehen können. Mitte: Tonnenverzerrung (üblich bei kleiner Brennweite). Rechts: Kissenverzerrung (üblich bei großer Brennweite). [Ica03]
69
4 Bonner Wegevideos
-
Hauptpunktverschiebung
Bei einer fehlerfreien Linse wird das Projektionszentrum (Hauptpunkt) dem Mittelpunkt des Videobildes gleichgesetzt. Ist der Hauptpunkt aus der Mitte der Kameralinse verschoben, können Bildfehler entstehen. [2d303]
Beide Fehler können einen negativen Einfluss auf das Kameratracking und die Genauigkeit des Einfügens künstlicher Objekte in die Videoszene haben. Boujou bietet die
Möglichkeit, ein Maß der Verzeichnung bezüglich der oben genannten Fehler zu erfassen, indem eine Linie im Videobild, von der bekannt ist, dass sie gerade verläuft, manuell nachgezeichnet wird. Dieses Maß kann anschließend in die Kameralösung miteinbezogen werden. Tests haben ergeben, dass die berechnete Verzeichnung der verwendeten
Kamera so gering ausfällt, dass sie das Ergebnis nicht beeinflusst.
4.2.1.2 Progressive Scan Modus
Durch die Erfassung der Videos im Progressivmodus werden die Videobilder etwa alle
1/12,5 Sekunden ausgegeben. Wird die Videosequenz nach Boujou importiert, bedeutet
das für die Einstellung der Framerate auf 25 Bilder pro Sekunde, dass die Videosequenz
jeweils ein Videobild zweimal ausgibt.
Bei genauer Betrachtung der Videobilder stellt sich heraus, dass die Bilderpaare der
entwackelten Videosequenzen gewisse Unterschiede aufweisen. Bei einer starken Vergrößerung der Videobilder ist zu erkennen, dass zwischen zwei scheinbar gleichen Videobildern Pixelverschiebungen und Farbveränderungen stattfinden.
Um ausschließen zu können, dass diese Pixelveränderungen sich negativ auf das Berechnungsergebnis von Boujou auswirken, wird beim Importieren der Videosequenz
jeder zweite Frame ausgelassen. Das Weglassen der doppelten Videobilder hat gleichzeitig den Vorteil, dass sich die Berechnungszeit in Boujou verringert. Somit ist zu empfehlen, das gleiche Vorgehen auch bei den nicht entwackelten Videos anzuwenden.
4.2.1.3 Entwackelung
Die anfänglich in Kapitel 4.1.3.3 geäußerte Vermutung, dass ein entwackeltes Video
das Kameratracking positiv beeinflusst, und dass die durch die Entwacklung entstehende Verzerrung in den Videobildern das Kameratracking negativ beeinflusst, konnte anhand der Durchführung des Kameratrackings bei sechs ausgewählten Beispielen nicht
bestätigt werden. In den Ergebnissen der Kamerarekonstruktion sowohl bezüglich der
ursprünglich verwackelten als auch der bezüglich der entwackelten Videos sind keine
Genauigkeitsunterschiede festzustellen.
Aus diesem Grund werden die mit SteadyMove Pro bearbeiteten Videos verwendet. Sie
haben, wie bereits in Kapitel 4.1.3.3 erläutert, den Vorteil, dass sie beispielsweise für
die Präsentation einer vollständigen Route verwendet werden können.
Das weitere Vorgehen bezieht sich nun auf die entwackelten Videos.
70
4.2 Bonner Wegevideos im Objektraum
4.2.1.4 Fußgänger
Im Gegensatz zum virtuellen Video von Solingen werden die Videos der Bonner Innenstadt durch zahlreiche Passanten belebt. Auch wenn die detektierten Features an den
Passanten inkonsistente Tracks beschreiben, kann es vorkommen, dass die von Boujou
verwendeten Algorithmen einen solchen Featuretrack nicht als inkonsistent betrachten
und er so für die Beschreibung der 3D-Szenerie verwendet wird. Daher ist es wichtig,
nach dem Kameratracking die Verbesserungen bezüglich der Prediktionsdifferenzen im
Kameratracking-Auswertungsfenster zu beobachten.
Bild 4.15
Links: Prediktion eines Fußgängers mit großer Fehleranzeige. Rechts: KameratrackingAuswertungsfenster mit Angabe des Verbesserungswertes für den aktuellen Frame (s.
links).
Bild 4.15 zeigt eine entsprechende Situation: Für ein Feature im Bildbereich eines Passanten wird eine Prediktion erstellt. Deren berechnete 3D-Position weicht signifikant
von der im Bild gemessenen Position ab. Im Auswertungsfenster des Kameratrackings
wird auf einen extrem hohen Verbesserungswert hingewiesen. Das betroffene Feature
sollte für das weitere Vorgehen manuell gelöscht werden. Anschließend sollte das Kameratracking im Adjust only-Modus erneut durchgeführt werden.
Objekte können zwar bei der Berechnung der Kameralösung ignoriert werden, indem
man sie mit einer Maske verdeckt (siehe Kapitel 3.1.2), doch ist diese Option für die
Wegevideos nicht sinnvoll. Eine Maske muss sehr präzise an das Objekt angepasst werden, da sonst Features im Hintergrund ebenfalls abgedeckt würden. Da ein Fußgänger,
im Gegensatz zu beispielsweise einem Auto, neben der eigentlichen Vorwärtsbewegung
noch weitere kleine Bewegungen – wie die Bewegung von Armen und Kopf – durchführt und diese durch die gesamte Sequenz hinweg unterschiedlich ausfallen, ist die
Erstellung von passgenauen Masken für alle Frames mit unverhältnismäßigen Zeitaufwand verbunden. Boujou empfiehlt die Verwendung einer Maske erst dann, wenn ein
sich bewegendes Objekt mehr als 25 Prozent des Videobildes verdeckt.
71
4 Bonner Wegevideos
4.2.1.5 Parallaxe
Die Parallaxe ist ein natürliches Phänomen, das während der Bewegung der Kamera
beobachtet werden kann. Objekte, die sich in der Nähe der Kamera befinden, bewegen
sich schneller durch die Frames als Objekte, die von der Kamera weiter entfernt liegen.
Je stärker die Parallaxe in einem Videoclip ausgeprägt ist, desto akkurater fällt die
Schätzung der Brennweite in Boujou aus. In Bild 4.16 soll das Problem einer fehlenden
Parallaxe verdeutlicht werden.
Bild 4.16
Links: durch alleinige Vorwärtsbewegung der Kamera entstehen kleine Parallaxen zwischen
den einzelnen Videobildern. Rechts: durch zusätzliche Seitwärtsbewegung der Kamera wird
die Parallaxe vergrößert.
Eine Kamera befindet sich vor zwei Zylindern, die mit ihr in einer Flucht stehen. Bewegt sich die Kamera nun vorwärts, kann sie den hinteren Zylinder nicht erkennen. Erst
wenn die Kamera sich seitlich aus der Flucht bewegt, kann der Effekt der Parallaxe bei
der Vorwärtsbewegung der Kamera genutzt werden.
Die Lösung der Kameraparameter basiert darauf, was in dem Videofilm sichtbar ist. Ist
ein Objekt während der Videosequenz von allen Seiten zu sehen, kann seine 3DStruktur mit relativ großer Genauigkeit bestimmt werden. Bewegt sich die Kamera
– wie in dem vorliegenden Projekt – nur vorwärts, sind die räumlichen Informationen
sehr gering.
Boujou konzentriert sich in einem solchen Fall auf die Features im Hintergrund, die in
der Videosequenz am längsten sichtbar sind. Diese besitzen jedoch keine Parallaxe.
Daher sollten, wie in Kapitel ? beschrieben, Tracks im Vordergrund auf die Eigenschaft Gold eingestellt werden. Zeigt
ein Videofilm die Situation eines Platzes,
lassen sich zusätzliche Features im Vordergrund nur schwer oder gar nicht manuell bestimmen. Das Fehlen von ausreichend vorhandenen 3D-Informationen der
Szene kann schlechte Ergebnisse der Kameralösung zur Folge haben.
Bild 4.17
72
Bei einer Platzsituation fehlen im
Vordergrund 3D-Informationen.
4.2 Bonner Wegevideos im Objektraum
4.2.1.6 Georeferenzierung
Für das Solingenvideo ist die Georeferenzierung der 3D-Szene beinahe perfekt, da bei
der Bestimmung der Koordinaten der verwendeten Passpunkte keine Ungenauigkeiten
auftreten. Die Georeferenzierung der Bonner Videos geschieht ebenfalls aufgrund eines
3D-Modells.
Das Bonner 3D-Modell wurde mit Hilfe von inJECT erstellt, einem vom Photogrammetrischen Institut der Universität Bonn mitentwickelten Programm zur semiautomatischen Gebäudeextraktion. Die Ausgangsdaten bilden digitale Luftbilder. Werden die 3D-Koordinaten eines Punktes benötigt, muss die äußere Orientierung der Kamera bekannt sein, mit der die Luftbilder erstellt wurden. Es gilt die Koplanaritätsbedingung, die besagt, dass homologe Raumstrahlen – Punkte in zwei Bildern sind homolog, wenn sie sich auf den gleichen Objektpunkt beziehen [För03] – beim orientierten
Bildpaar in einer Ebene liegen (Epipolarebene). Im ersten Luftbild wird ein Punkt ausgewählt und somit die Lage festgelegt. Unter Verwendung der Epipolargeometrie kann
die Suche nach dem homologen Punkt in einem zweiten Bild auf eine Gerade reduziert
werden. Die Höhe wird also durch Hin- und Herbewegungen auf der Epipolarlinie bestimmt.
Bild 4.18
Die Suche des im ersten Bild ausgewählten Punktes wird im zweiten Bild auf die Epipolarlinie reduziert.
Damit bei der Erstellung von 3D-Modellgebäuden nicht jeder Eckpunkt eines Gebäudes
einzeln angemessen werden muss, stellt inJECT eine Auswahl verschiedener Grundkörper zur Verfügung, die die meisten Gebäude und Dachformen abdecken. Der erste
Schritt besteht in der Auswahl eines geeigneten Grundkörpers, der in seiner Form mit
dem zu messenden Gebäude am ehesten übereinstimmt. Die Form des Drahtmodells
muss dann vom Operateur durch Änderung der Parameter in einem Bild eingepasst werden. Anschließend muss der letzte verbleibende Freiheitsgrad, die absolute Höhe, in
mindestens einem weiteren Bild bestimmt werden.
73
4 Bonner Wegevideos
Durch die Kombination verschiedener
Grundkörper können komplexere Gebäudestrukturen dargestellt werden. Als Exportformat wird hier VRML (Virtual Reality
Modelling Language) verwendet. Das
VRML-Modell kann anschließend in 3D
Studio Max importiert werden.
Bild 4.19
Bild 4.20
Ein komplexes Gebäude wird
durch die Kombination verschiedener Grundkörper zusammengesetzt.
Links: Beispiele für Grundkörper für die 3D-Modellierung. Rechts: Parameteranpassung
eines Grundkörpers.
Da das 3D-Modell jedoch nicht in allen Details mit den im Video sichtbaren Gebäuden
übereinstimmt, können gewisse Probleme hinsichtlich der Georeferenzierung auftreten:
- Genauigkeit der verwendeten Passpunktkoordinaten
Die Qualität der Raumpunkte des 3D-Modells hängt von der Genauigkeit der Orientierungsparameter und der Messgenauigkeit der Bildpunkte ab. Die Genauigkeit der
äußeren Orientierung wird bei homogener Passpunktverteilung von der Genauigkeit
der verwendeten Passpunkte limitiert. Die Passpunkte besitzen eine Genauigkeit in
der Lage von 0,3 m und in der Höhe von 0,5 m. Die Auswahlgenauigkeit eines Punktes im Luftbild beträgt einen Pixel. Da die Luftbilder mit einer Pixelgröße von 28 µm
gescannt wurden und der Maßstab der Luftbilder bei 1:9.000 liegt, entspricht ein Pixel
im Luftbild 25 cm in der Realität. Somit ist die Genauigkeit der Raumpunkte in der
Lage mit 0,55 m und in der Höhe mit 0,75 m abzuschätzen.
Die Messung von Bodenpunkten zur Festlegung von Gebäudeunterkanten stellt ein
gesondertes Problem dar. In einem Luftbild sind die Gebäudewände bei Lage in Nadirnähe nicht sichtbar. Daher wird die Bodenhöhe eines Punktes in der Nähe des anzumessenden Gebäudes bestimmt. Bei einer unregelmäßigen oder durch beispielsweise Autos oder Markisen verdeckten Geländeoberfläche treten bei der Bestimmung der
74
4.2 Bonner Wegevideos im Objektraum
Z-Koordinate Ungenauigkeiten von unbekanntem Ausmaß auf. Somit sind Punkte an
den unteren Gebäudeeckpunkten für die Georeferenzierung nur bedingt brauchbar.
Bild 4.21
Aufgrund der Problematik bei der Messung von Bodenpunkten weisen die Gebäudeunterkanten des Bonner 3D-Modells Differenzen auf, die im Meterbereich liegen.
Besitzt ein zu messendes Gebäude einen Dachvorsprung, können die Hauskanten
nicht exakt dargestellt werden, da Dachvorsprünge bei den Grundkörpern nicht modelliert sind. Im 3D-Modell wird das betroffene Gebäude folglich größer dargestellt
als es in der Realität ist. Daher ist in einem solchen Fall darauf zu achten, dass der
Georeferenzierungspunkt im Videobild an der Dachecke ausgewählt wird.
- Fehlende 3D-Koordinaten
Man kann davon ausgehen, dass die Gebäude aus digitalen Luftbildern mit einer begrenzten Anzahl von Grundformen modelliert sind. Somit wird ein bestimmter Grad
an Generalisierung erlaubt, wenn ein Gebäude nicht exakt einem dieser Modelle entspricht. So kann es vorkommen, dass eine im Video gut sichtbare Gebäude- oder
Dachecke im 3D-Modell nicht berücksichtigt wird.
Bild 4.22
Generalisierung von Gebäudestrukturen.
75
4 Bonner Wegevideos
Des Weiteren kann der Fall eintreten, dass zur Reduzierung des Arbeitsaufwandes bei
der Modellerstellung mehrere Gebäude zu einem Gesamtbauwerk zusammengefasst
werden. Bei dieser Vorgehensweise werden Punktinformationen einzelner Gebäudeecken nicht erfasst.
Bild 4.23
Generalisierung von Gebäudegruppen: Das Gebäude mit Giebel zur Straßenseite hin wird
mit dem Gebäude links daneben zu einem großen Gebäude zusammengefasst, so dass die
Spitze des Giebels im Modell nicht berücksichtigt wird.
Die Genauigkeit der Punktkoordinaten ist somit auch von dem Generalisierungsgrad
der Gebäude abhängig. Diesbezüglich kann jedoch keine konkrete Genauigkeit angegeben werden, da der Generalisierungsgrad nur bedingt bekannt und situationsabhängig ist.
Zusätzlich kann es vorkommen, dass ein Gebäude im 3D-Modell nicht vorhanden ist,
da dieses Gebäude zum Zeitpunkt der Luftbildaufnahme noch nicht erbaut war.
Bild 4.24
Reales Gebäude (Neubau) ist im 3D-Modell nicht vorhanden.
Werden für die zur Georeferenzierung geeigneten Punkte große Koordinatenungenauigkeiten vermutet oder können im 3D-Modell erst keine geeigneten Passpunkte gefunden werden, müssen diese im Luftbild nachträglich gemessen werden. Durch dieses Vorgehen ist zusätzlicher Arbeitsaufwand erforderlich. Für jeden zu messenden
Punkt kann mit einem Zeitaufwand von etwa zwei bis drei Minuten gerechnet werden.
Ausgewählte 3D-Punkte aus dem 3D-Modell sind zum Vergleich in dem Luftbild
nachgemessen worden. Dabei stellte sich heraus, dass sich die Koordinaten in der Lage von bis zu zwei Metern und in der Höhe von bis zu drei Metern unterscheiden kön76
4.2 Bonner Wegevideos im Objektraum
nen. Bei der Punktmessung im Luftbild kommt zusätzlich das Problem hinzu, dass
sich die einzelnen Häuser im Videobild den Häusern im Luftbild nicht immer eindeutig zuordnen lassen. Wenn das Risiko einer falschen Punktauswahl besteht, sollte eine
Punktalternative in Erwägung gezogen werden.
Bild 4.25
Problem der Punktzuordnung. Links: Videobild. Rechts: Luftbild.
- Auswahlbeschränkung der Georeferenzierungspunkte
Die Auswahl der für die Georeferenzierung geeigneten Punkte ist durch die Ansicht
eines Fußgängers im Videobild stark begrenzt. In Bild 4.26 kann man sehen, dass sich
die Auswahl der möglichen Georeferenzierungspunkte auf die oberen Gebäude- und Dachecken in weiter Entfernung begrenzt. Daher ist es besonders schwierig, drei identische Passpunkte im Videobild und im 3D-Modell
bzw. im Luftbild zu finden, die möglichst weit voneinander entfernt liegen.
Mit Hilfe des Luftbildes lässt sich in einigen Fällen die Mitte von Kanaldeckeln anwählen. Dies hat jedoch den
Nachteil, dass die Kanaldeckel im Videobild aufgrund der Fußgängerper- Bild 4.26
spektive nur für eine kurze Zeitspanne
zu erkennen sind.
Auswahlbeschränkung der Punkte für
die Georeferenzierung auf die oberen
Gebäudeecken in weiter Entfernung.
Unter zu Hilfenahme des virtuellen Solingenvideos wird nun geprüft, wie sich Fehler in
den Koordinatenangaben für die verwendeten Passpunkte sowie eine Auswahlbeschränkung der Georeferenzierungspunkte auf das Ergebnis der Georeferenzierung auswirken.
Dafür werden zum einen den für die Georeferenzierung in Kapitel 3.3 verwendeten
Passpunkten falsche Koordinateninformationen zugewiesen. Die Abweichung in der
Lage beträgt 0,5 m und in der Höhe 0,7 m, wobei diese Beträge willkürlich von den
korrekten Koordinaten abgezogen oder aufaddiert werden. Zum anderen wird die Auswahl der Georeferenzierungspunkte auf drei in weiter Entfernung zu Kamera befindli77
4 Bonner Wegevideos
che Gebäudeeckpunkte beschränkt, die zusätzlich – im Gegensatz zu den zuvor ausgewählten Georeferenzierungspunkten (s. Bild 3.15) – relativ kleine Entfernungen zueinander aufweisen (Bild 4.27).
Bild 4.27
Simulierung einer Auswahlbeschränkung der Georeferenzierungspunkte auf weit entfernte
Punkte an oberen Gebäudeecken (Bildausschnitt bei Frame 190).
In Bild 4.28 sind die Ergebnisse der Fehlersimulation dargestellt. Auf konkrete Angaben von Bildkoordinatendifferenzen zwischen den SOLL- und IST-Positionen der Dreiecke im Videobild wird an dieser Stelle verzichtet. Zum konkreten Vergleich kann die
linke Reihe des Bildes 3.34, das die SOLL-Positionen der Dreiecke darstellt, hinzugenommen werden. Es fällt ganz offensichtlich auf, dass sich die Dreiecksflächen im Bild
4.28 deutlich von ihren SOLL-Positionen entfernt haben. Dabei sind die Abweichungen
in der rechten Reihe extrem größer, als in der linken Bildreihe. Somit wird deutlich,
dass Ungenauigkeiten in den 3D-Gebäudemodellkoordinaten sowie eine Beschränkung
in der Auswahl geeigneter Georeferenzierungspunkte das Ergebnis der eigentlichen
Georeferenzierung enorm verschlechtern und sich damit auch auf die Zuordnung der
Videobilder in den Objektraum negativ auswirken.
78
4.2 Bonner Wegevideos im Objektraum
I
I
II
II
III
III
V
V
IV
IV
VI
VIII
VI
Bild 4.28
VII
VIII
IX
IX
VII
Überlagerung des Solingenvideos mit künstlichen Dreiecksflächen für die Frames 0, 75, 190
und 245. Links: Ansicht der von Boujou berechneten Kamera des Solingenvideos mit falschen Passpunktkoordinaten. Rechts: Ansicht der von Boujou berechneten Kamera des Solingenvideos mit Beschränkung der Georeferenzierungspunkte auf weit entfernte Gebäudeeckpunkte.
79
4 Bonner Wegevideos
4.2.2 Beispiele und Ergebnisse
Im Folgenden werden für sechs Fallbeispiele der Bonner Wegevideos die Kameralösungen dargestellt. Die ersten drei Beispiele behandeln Wege in Fußgängerzonen, wobei in dem dritten Video auf eine Wegegabelung zugegangen wird. Das vierte Beispiel
behandelt die Situation des Gehweges entlang einer befahrenen Straße. Die beiden letzten Fälle befassen sich mit einer Platzsituation. Es werden jeweils Ausschnitte zu Beginn, in der Mitte und am Ende der jeweils behandelten Videosequenz gezeigt. Zum
Vergleich der originalen Kamera mit der rekonstruierten Kamera werden deren Ansichten gegenübergestellt. Die 3D-Positionen der Georeferenzierungspunkte (SOLL) werden mit Hilfe von grünen Kugeln im Videobild dargestellt. Bei der Georeferenzierung
berechnet Boujou aufgrund der in Kapitel 4.2.1 aufgeführten Fehlereinflüsse intern eine
Positionsausgleichung der gesamten 3D-Szene. Somit befinden sich die Surveypunkte
nach der Ausgleichung nicht mehr auf der Position ihrer Sollkoordinaten. Die tatsächlichen Surveypunkt-Positionen (IST) werden durch rote Kugeln dargestellt. Werden die
roten Kugeln dem Videobild überlagert, befinden sie sich im 2D-Videobild an ihrer
richtigen Position.
Es ist nicht immer möglich, für Videosequenzen eine allgemeine Vorhersage hinsichtlich der benötigten Bearbeitungsschritte, die erforderlich sind, um ein bestmögliches
Ergebnis zu erhalten, zu machen. Die mit der Verbesserung der Kameralösung verbundenen Schwierigkeiten lassen sich mit den Worten von Steve Hill, einem Supporter der
Gesellschaft 2d3, treffend beschreiben:
„Boujou support is more of an art than a science!“
Eine Strategie, die die Kameralösung entscheidend verbessern kann und bisher noch
nicht genannt wurde, ist die Verwendung von mehr als drei Surveypunkten. Die Anzahl
der für die Georeferenzierung geeigneten Punkte ist begrenzt. Bieten sich trotzdem
mehrere Punkte an, sollte dieser Umstand für eine günstigere Überbestimmung wahrgenommen werden. So kann ein möglicher Fehler in einem der Georeferenzierungspunkte
durch mehr als zwei übrig gebliebene Passpunkte besser ausgeglichen werden. Für das
unten aufgeführte zweite Beispiel hat dieses Vorgehen eine entscheidende Verbesserung
der Kameralösung herbeigeführt. Durch die Einführung von zwei zusätzlichen Surveypunkten konnte eine anfängliche Neigung der Kamera um die Y-Achse von zehn Grad
auf zwei Grad verringert werden. Im vierten Fallbeispiel wurde durch einen zusätzlichen Surveypunkt ein Höhenunterschied der Kamera von ihrer ersten zur letzten Position von 1,5 m auf 1 m reduziert. Im fünften Fall konnte ein Höhenunterschied innerhalb
des Kamerapfades von 8,5 Metern durch die Verwendung von sechs Surveypunkten auf
immerhin 7,5 Meter gesenkt werden. Für die restlichen Fallbeispiele stellten sich keine
Verbesserungen der Kameralösung ein bzw. ließen sich keine zusätzlichen geeigneten
Surveypunkte finden.
80
4.2 Bonner Wegevideos im Objektraum
Bild 4.29
Einordnung der Wegevideo-Beispiele 1-6 in die Bonner Innenstadt.
81
4 Bonner Wegevideos
Beispiel 1
Bild 4.30
Ausschnitte eines Fußgängerzonen-Videos. Links: reale Szene aus Sicht der originalen
Kamera. Rechts: virtuelle Szene [Bonner 3D-Modell] aus Sicht der rekonstruierten Kamera.
Zum Vergleich zur Ausgangsszene, die auf der linken Seite des Bildes 4.30 dargestellt
ist, wird auf der rechten Seite die virtuelle Szene aus Sicht der berechneten Kamera abgebildet. Sie zeigt das 3D-Modell, in dessen Anlehnung die Beschriftung erfolgen soll.
82
4.2 Bonner Wegevideos im Objektraum
Bild 4.31
Ansichten der berechneten Kamera (Beispiel 1): Links: Bildpositionen der SOLL- und ISTGeoreferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen.
Auf der rechten Seite des Bildes 4.31 sind die Gebäudeflächen dem Video überlagert,
die sich entlang des Weges befinden. Das große Gebäude, das sich am linken Wegrand
befindet, wird von der virtuellen Gebäudefläche beinahe ganz verdeckt. Der Bildpixelunterschied der hinteren Gebäudeecke wird durch die SOLL- und IST-Position verdeutlicht und vergrößert sich von (17, 15) Pixel zu Beginn der Videosequenz auf (26, 35)
Pixel am Ende des Videos, wobei sich die Entfernung des Soll-Eckpunktes zur Kamera
im Raum von 157 Meter auf 101 Meter verringert. Die Pixeldifferenz wird hauptsächlich dadurch hervorgerufen, dass die Gebäudeflächen schräg im Videobild liegen. Dieses Phänomen ist auf eine schräge Lage der Kamera im 3D-Raum zurückzuführen. Die
83
4 Bonner Wegevideos
Neigung der berechneten Kamera um die Y-Achse beträgt 5,3 Grad. Aufgrund der großen Gebäudefläche ließe sich eine Beschriftung relativ eindeutig im Videobild anbringen. Auf der rechten Seite des Weges stehen viele schmale Gebäude dicht hintereinander gereiht. Hier ist eine Zuordnung der 3D-Modellgebäudeflächen nicht eindeutig. Für
das Eckgebäude am rechten Wegrand ergibt sich für die obere linke Hausecke in einer
Entfernung zur Kamera von 65 Metern in dem mittleren Videobild zwischen der SOLLund IST-Bildkoordinate eine Pixelabweichung von (6, 62). Eine Abweichung im Videobild in y-Richtung wirkt sich auf eine eindeutige Zuordnung der Modellfläche zum
realen Gebäude nicht so negativ aus wie eine Abweichung in x-Richtung. Der y-Wert
gibt lediglich die relative Höhe eines Objektes im Raum an. Eine Abweichung in xRichtung im Bild entsteht dagegen aufgrund von Abweichungen eines Objektes in der
X-Y-Ebene im Raum. Um Gebäude voneinander abgrenzen zu können, kann sich auf
die X-Y-Ebene beschränkt werden, da Gebäude nie übereinander stehen.
84
4.2 Bonner Wegevideos im Objektraum
Beispiel 2
Bild 4.32
Ansichten der berechneten Kamera (Beispiel 2): Links: Bildpositionen der SOLL- und
IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen.
Sitzt eine grüne Kugel, die die SOLL-Koordinaten des zugehörigen Georeferenzierungspunktes darstellt, nicht an einer Ecke des 3D-Modells, dann wurden die Koordinaten im Luftbild abgegriffen. Die Ecke der Modellgebäudefläche wird zur Verdeutlichung mit einem gelben Punkt markiert (hier im mittleren rechten Bildausschnitt zu
sehen).
In Bild 4.33 ist zu erkennen, dass die berechnete Kamera im Verhältnis zum 3D-Modell
zu hoch liegt. Somit sind die 3D-Modellgebäudeflächen im Videobild gegenüber der
85
4 Bonner Wegevideos
realen Szene nach unten verschoben. Die Kanten der Gebäudeflächen sind um 2,3 Grad
nach links geneigt. Die von Boujou geschätzte Brennweite der Kamera beträgt nur 33,7
Millimeter. Dadurch erscheint das 3D-Modell im Videobild zu nah an den Betrachter
gerückt, so dass die realen Gebäudeflächen nicht annähernd durch die entsprechende
Modellfläche abgedeckt werden.
Bild 4.33
Berechnete Kameratrajektorie mit 3D-Drahtmodell der Bonner Innenstadt. (Seitenansicht)
Die größte berechenbare Abweichung ergibt sich im mittleren Videobild des rechten
Hauses. Sie beträgt (78, 80) Pixel bei einer Entfernung des SOLL-Punktes zur Kamera
von 32 Metern. Die SOLL-Koordinaten des aus dem Luftbild gemessenen Punktes unterscheiden sich jedoch zum Eckpunkt der Modell-Gebäudefläche (im mittleren Bild als
gelbe Kugel dargestellt) um (10, 92) Pixel, wobei – wie schon im Beispiel 1 erwähnt –
eine Verschiebung in y-Richtung die Zuordnungsgenauigkeit nicht wesentlich beeinflusst.
86
4.2 Bonner Wegevideos im Objektraum
Beispiel 3
Bild 4.34
Ansichten der berechneten Kamera (Beispiel 3): Links: Bildpositionen der SOLL- und
IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen.
Die Neigung der Gebäudeflächen passt sich der im Videobild sichtbaren Neigung der
Originalkamera an. In Bild 4.35 wird deutlich, dass der Kamerapfad im Vergleich zu
den Gebäudeunterkanten zu niedrig platziert ist und die Kamera von ihrer Start- zu ihrer
Endposition einen Höhenunterschied von 2,6 Meter aufweist. Die Pixeldifferenzen fallen in der Bildmitte relativ gering aus, zu den Seiten hin werden sie jedoch größer. Bild
4.36 veranschaulicht dieses Phänomen aus der Vogelperspektive. Die größte Differenz
zwischen der SOLL- und der IST-Position im Raum liegt bei 3,3 m. Die größte Pixelabweichung lässt sich im mittleren Bild für die Ecke des rechten Dachfensters berech87
4 Bonner Wegevideos
nen. Sie liegt bei (83, 9) Pixeln. Die Entfernung dieser Dachecke zur Kamera beträgt 56
Meter.
Bild 4.35
Höhenunterschied der Kameratrajektorie. (3D-Drahtmodell in 3D Studio Max, Seitenansicht)
Bild 4.36
Lage der SOLL- (grün) und IST- (rot) Koordinaten der Georeferenzierungspunkte.
(3D-Volumenmodell, Draufsicht)
88
4.2 Bonner Wegevideos im Objektraum
Beispiel 4
Bild 4.37
Ansichten der berechneten Kamera (Beispiel 4): Links: Bildpositionen der SOLL- und
IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen.
Hinsichtlich der Georeferenzierungspunkte ist in der unteren Bildreihe des Bildes 4.37
die größte Pixeldifferenz bei (57, 4) bei einer Entfernung von 48 Meter an der Kirchturmseite erkennbar. In der oberen Bildreihe weist die vorderste Gebäudefläche auf der
rechten Seite eine Abweichung von 86 Pixeln in x-Richtung auf. Die Entfernung der
Gebäudekante des 3D-Modells zur Kamera beträgt dabei 24 Meter. Besonders in der
ersten Bildreihe wird deutlich, dass der Kamerapfad im 3D-Raum generell zu hoch
liegt, so dass die 3D-Modellgebäudeflächen die oberen Flächen der realen Gebäude
nicht abdecken.
89
4 Bonner Wegevideos
Beispiel 5
Bild 4.38
Ansichten der berechneten Kamera (Beispiel 5): Links: Bildpositionen der SOLL- und
IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen.
Die Kamera weist in ihrem Pfad, wie Bild 4.39 vermuten läßt, einen Höhenunterschied
von 7,5 Meter auf. Die Modellgebäudeflächen sind um 2,3 Grad aus der Vertikalen geneigt und erscheinen insgesamt zu nah an den Betrachter gerückt. Die größte Abweichung – vor allem in x-Richtung – ergibt sich in der mittleren Bildreihe für die linke
Dachecke des gelben Postgebäudes. Sie beträgt (86, 12) Pixel, wobei sich diese Ecke in
einer Entfernung von 84 Metern zur Kamera befindet.
90
4.2 Bonner Wegevideos im Objektraum
Bild 4.39
Höhenunterschied der Kameratrajektorie. (3D-Drahtmodell in 3D Studio Max, Seitenansicht)
Der relativ große Höhenunterschied des berechneten Kamerapfades ist womöglich auf
die fehlende Parallaxe in den Videobilder zurückzuführen. Es ist zu vermuten, dass dieser Effekt bei ähnlichen Platzsituationen ebenfalls eintritt.
91
4 Bonner Wegevideos
Beispiel 6
Bild 4.40
Ansichten der berechneten Kamera (Beispiel 6): Links: Bildpositionen der SOLL- und
IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen.
Obwohl zwei der drei für die Georeferenzierung verwendeten Punkte sehr nah beieinander liegen – ihre Entfernung zueinander beträgt 9,5 Meter – ist die Lage der Kamera
im Raum zufrieden stellend. Dennoch erscheinen die Modellgebäudeflächen dem Betrachter zu nah herangerückt. Die größte Pixelabweichung eines Georeferenzierungspunktes findet sich in der unteren Bildreihe mit (6, 48) Pixeln in einer Entfernung
zur Kamera von 22 Metern.
92
4.2 Bonner Wegevideos im Objektraum
Bild 4.41
Verteilung der Georeferenzierungspunkte im Raum. (Draufsicht)
Es ist oft der Fall, dass Boujou eine Kameralösung berechnet, die eine Abweichung der
Kameralage zur Vertikalen im absoluten Raum beinhaltet. Da Boujou nicht erkennt, wo
in der 3D-Szene oben und unten ist, ist Boujou auf die Angaben des Anwenders angewiesen. In der normal üblichen Anwendung wird die Szenengeometrie ohne die Verwendung von Surveypunkten nach oben ausgerichtet. Der Anwender wählt stattdessen
einige Prediktions aus, die sich auf dem Boden der Szenerie befinden und definiert sie
als X-Y-Ebene. Danach wird eine Richtung definiert, indem eine in der Szene ausgewählte Linie als Parallele zur X- oder Y-Achse festgelegt wird. Zum Schluss wird der
Ursprung in einen Punkt der Szenerie gelegt. Alle übrigen Anpassungen wie Rotation
und Skalierung müssen dann in dem verwendeten 3D-Graphikprogramm durch den
Anwender per Augenmaß selbst durchgeführt werden. Um die Anpassung zu erleichtern, werden die Kamera und die 3D-Punkte beim Export gruppiert und einem TopPunkt untergeordnet. Dieser Top-Punkt kann rotiert, verschoben und skaliert werden,
ohne dass sich die relativen Positionen der Prediktions und der Kamera dabei ändern.
Dieses Vorgehen setzt jedoch viel Erfahrung des Anwenders auf diesem Gebiet voraus.
Eine mögliche Automation der Georeferenzierung muss bei dieser Vorgehensweise
ausgeschlossen werden.
Die von Boujou berechnete Brennweite liegt für die obigen Beispiele – das zweite Beispiel ist davon ausgeschlossen – durchschnittlich bei 38 mm. Damit liegt sie zehn Millimeter unter der tatsächlich angenommenen Brennweite der originalen Kamera. Dieser
Unterschied ist eventuell auf einen falsch angenommenen Umrechnungsfaktor zurückzuführen, der bei der Umrechnung der Bildgröße in Pixel auf die von Boujou eigenständig suggerierte CCD-Chipgröße in Millimeter verwendet wird. Die Differenz in der
Brennweite hat jedoch keine Auswirkungen auf die berechnete Raumstruktur, sofern
dieser Umrechnungsfaktor – und davon kann man ausgehen – in dem verwendeten Berechnungsmodell von Boujou überall gleich angewendet wird.
93
4 Bonner Wegevideos
In den Videobildausschnitten der Bonner Innenstadt lässt sich eine Systematik entdecken, die in Bild 4.34 am deutlichsten zu erkennen ist. Die grünen Punkte (SOLL) weisen auf der rechten Bildhälfte eine positive und auf der linken Bildhälfte eine negative
Abweichung in x-Richtung auf. Diese Abweichung ist umso größer, je weiter die Punkte von der Bildmitte entfernt liegen. In Bild 4.36 ist diese Situation noch einmal in der
Draufsicht dargestellt. Das Bild 4.42 zeigt die Darstellung in Bild 4.36 in einer veränderten Form. Das Bonner 3D-Modell wird als Drahtmodell dargestellt, um die zusätzlich eingefügte Punktwolke besser erkennbar zu machen. Die Punktwolke stammt aus
der Berechnung von Boujou und stellt die 3D-Positionen der markanten Punkte im Videobild dar. Verbindet man die Punkte, die die Gebäudeflächen des sich in der Bildmitte befindlichen Gebäudekomplexes repräsentieren, fällt auf, dass der Schnittwinkel der
beiden Verbindungslinien spitzer ausfällt als der Winkel, der sich aus der tatsächlichen
Gebäudeform ergibt.
Anhand dieser Systematik, die auch in den Beispielen 2, 4 und 5 deutlich zu erkennen
ist, wird die Vermutung aufgestellt, dass die von Boujou berechnete Szenerie eine projektive Verzerrung aufweist. Eine solche Verzerrung lässt sich durch die Georeferenzierung mit drei Punkten nicht beheben, da sich Winkel durch eine Ähnlichkeitstransformation nicht ändern. Folglich muss die projektive Verzerrung der berechneten Szenengeometrie schon vor der Georeferenzierung vorliegen.
Bild 4.42
3D-Punktwolke der in Boujou detektierten Feature mit Bonner 3D-Drahtmodell. (erstellt in
3D Studio Max; Draufsicht)
Es ist davon auszugehen, dass diese Abweichung mittels einer 3D-Homographie behoben werden kann. Auf die Berechung einer solchen 3D-Homographie kann jedoch wegen des erheblichen Umfangs nicht näher eingegangen werden.
Für die nächste Version von Boujou, die allerdings frühestens im August diesen Jahres
fertig gestellt wird, ist vorgesehen, dass der Anwender Punkte für die Georeferenzierung auswählen kann, die schon vor dem Kameratracking als Surveypunkte definiert
werden können. Diese Surveypunkte üben einen Zwang auf die Berechnung der 3DSzenenstruktur aus. Befindet sich im Videofilm ein perfektes Quadrat, dann ist – laut
Aussage der 2d3 Gesellschaft – diese Art von Surveypunkten dazu in der Lage, anhand
der Transformation des Quadrats im Videobild die exakte Kamerabewegung und
Brennweite zu bestimmen.
94
4.3 Beurteilung
Die 3D-Struktur von Boujou stimmt mit der Wirklichkeit nicht exakt überein. Anders
als bei der Anwendung von Spezialeffekten in Fernseh- und Kinoproduktionen besteht
bei diesem Projekt nicht die Möglichkeit, Änderung der Umgebung vorzunehmen, um
sie der Szenerie in Boujou anzupassen. Die Diskrepanzen zwischen der realen Welt und
der Welt in Boujou sind u. a. auf eine fehlende Parallaxe zurückzuführen, die von der in
diesem Projekt typischen Bewegungsart der Kamera – nämlich der ausschließlichen
Vorwärtsbewegung – hervorgerufen wird.
Im Folgenden werden anhand einer einfachen Festlegung der Beschriftungsflächen und
deren Integration in die Videoszene die Qualität der berechneten Kameralösung beurteilt. Anschließend wird das Kapitel mit einer Darstellung des benötigten Zeitaufwandes
für die Durchführung des Verfahrens zur Beschriftung im Objektraum abgeschlossen.
4.3.1 Qualität
Im Videobild stimmen die Positionen der Modellgebäudeflächen nicht genau mit den
realen Gebäudeflächen überein. Somit kann nicht das gesamte Ausmaß der Modellfläche für die Beschriftung genutzt werden. Damit die Beschriftung nur auf das entsprechende reale Gebäude überlagert wird, muss eine geeignete Größe und Lage der Beschriftungsfläche bestimmt werden. Liegt die größte Abweichung einer Modellgebäudefläche bei beispielsweise (10, 5) Pixel, dann müsste die Beschriftungsfläche in xRichtung rechts und links um jeweils 10 Pixel und in y-Richtung unten und oben um
jeweils 5 Pixel nach verkleinert werden, damit die Beschriftung immer noch auf der
betreffenden Hauswand erscheint.
Für die oben aufgeführten sechs Beispiele werden nun Flächen den jeweiligen Videobildern überlagert. Die Maße dieser Flächen basieren nicht auf der Berechnung der tatsächlich möglichen Beschriftungsfläche, sondern – der Einfachheit halber – auf ein
Viertel der jeweiligen ursprünglichen Modellgebäudefrontfläche.
Die gesamten Videosequenzen der Beispiele eins bis sechs befinden sind auf der dieser
Arbeit beiliegenden CD.
In den Bildern 4.43 bis 4.48 sind die auf 25 % reduzierten Modellgebäudeflächen gelb
eingefärbt. Werden die Wegevideos beschriftet, orientiert sich die Beschriftung an diesen Flächen. Auf die unterschiedlichen Platzierungsarten der Beschriftung wird in Kapitel fünf eingegangen.
Die Darstellung der Beschriftungsflächen macht folgende Punkte deutlich:
Je mehr Platz ein Gebäude im Videobild einnimmt, desto besser lässt sich eine Beschriftungsfläche diesem zuordnen. Sind viele schmale Gebäude aneinander gereiht,
wird die Zuordnung erschwert; insbesondere ist die Zuordnung der Gebäude in weiterer
Entfernung schwierig, da die Beschriftungsflächen sowie die Freiflächen zwischen ihnen im Videobild nur wenige Pixel breit sind. Je kleiner ein Gebäudefläche im Videobild erscheint desto größer ist die Gefahr, dass eine Beschriftungsfläche dieses Gebäude
überhaupt nicht abdeckt.
95
4 Bonner Wegevideos
Beispiel 1
Bild 4.43
Beispiel 2
Beschriftungsflächen aus Sicht der
berechneten Kamera (Beispiel 1).
Bild 4.44
Beschriftungsflächen aus Sicht der
berechneten Kamera (Beispiel 2).
In den korrespondierenden Videofilmen ist zu erkennen, dass sich die gelben Flächen
im Vordergrund während des Vorwärtslaufens des Filmes deutlich mit nach vorne bewegen. Diese Vorwärtsbewegung hat zur Folge, dass die Flächen vom Betrachter zu
unterschiedlichen Zeitpunkten unterschiedlichen Gebäuden zugeordnet werden. Der
Betrachter wird so in die Irre geführt und muss in jedem Fall die Zuordnung in seiner
realen Umgebung abgleichen und kontrollieren.
Des Weiteren fällt auf, dass je weiter der Videofilm fortgeschritten ist, desto besser decken die Beschriftungsflächen die zugehörigen realen Gebäude ab.
96
4.3 Beurteilung
Beispiel 3
Bild 4.45
Beispiel 4
Beschriftungsflächen aus Sicht der
berechneten Kamera (Beispiel 3).
Bild 4.46
Beschriftungsflächen aus Sicht der
berechneten Kamera (Beispiel 4).
Das Beispiel 3 zeigt, bis für die Darstellung der weit entfernten Kirchturmspitze, für den
gesamten Videofilm ein gutes Ergebnis bezüglich einer akkuraten Platzierung der Beschriftungsflächen. Im 4. Beispiel sind die auf den Betrachter frontal ausgerichteten
Beschriftungsflächen zu weit nach rechts gerückt. Dieser Effekt ist im letzten Videobildausschnitt am besten zu beobachten. Das Gebäude am rechten Bildrand würde in
dieser Ausgangslage die Beschriftung seines benachbarten Gebäudes erhalten.
97
4 Bonner Wegevideos
Beispiel 5
Bild 4.47
Beispiel 6
Beschriftungsflächen aus Sicht der Bild 4.48
berechneten Kamera (Beispiel 5).
Beschriftungsflächen aus Sicht der
berechneten Kamera (Beispiel 6).
Beispiel 5 und Beispiel 6 zeigen ebenfalls wie Beispiel 3 ein gutes Endresultat. Die Beschriftungsflächen bedecken nur Teile des entsprechenden realen Gebäudes. Aufgrund
der nur geringen Abweichungen der Beschriftungsflächen aus der realen Gebäudeflächenmitte würde sich eine Beschriftungsplatzierung in diesen Flächen nicht negativ auf
die menschliche Wahrnehmung auswirken, da diese Abweichungen für den Betrachter
in einem annehmbaren Bereich liegen.
98
4.3 Beurteilung
4.3.2 Zeitaufwand
Zur Darstellung des Zeitaufwandes, der notwendig ist, um Wegevideos im Objektraum
beschriften zu können, wird exemplarisch das vierte Beispiel herangezogen. Die Videosequenz besteht aus 1994 Frames, was einer Abspieldauer von einer Minute und 19 Sekunden entspricht. In der unten aufgeführten Tabelle wird die Dauer für die jeweiligen
Arbeitsschritte aufgelistet. Diesbezüglich wird differenziert zwischen der vom Anwender manuell erbrachte Arbeit (Durchschnittswert) und der durch den Computer ausgeführten Berechnungsdauer, ohne dass der Anwender dabei in diesen Arbeitsgang eingreifen muss.
Tabelle 4.1
Dauer
[min]
Arbeitsschritte
Manpower
Computer
Gesamt
Schneiden & Speichern
3
12
15
Entwackeln
5
70
75
-
40
40
40
-
40
Georeferenzierung
10
-
10
Beschriftung
150
-
150
2
90
92
210
212
422
Automatisches Tracking
(Feature & Kamera)
Manuelle Bearbeitung zur
Verbesserung der Kameralösung
Videoüberlagerung
Gesamtes Verfahren
Der Verfahrensgang ist dank des automatischen Trackingprozesses weitestgehend automatisiert. Der Anwender muss jedoch zwischen den einzelnen Verfahrensabschnitten
eingreifen, damit der nächste Arbeitsschritt wieder vom Computer ausgeführt werden
kann. Die manuelle Bearbeitung zur Verbesserung der automatischen Kameralösung
muss ausschließlich vom Anwender durchgeführt werden. Auch wenn die Kameralö99
4 Bonner Wegevideos
sung sich für das Solingenvideo – aufgrund des bereits guten Ergebnisses des automatischen Trackings – durch eine manuelle Bearbeitung nicht verbessern lässt, trägt eine
vom Anwender durchgeführte Bearbeitung der automatisch getrackten Features doch
wesentlich zur Verbesserung der Kameralösung für die Bonner Wegevideos bei. Hinsichtlich der Beschriftung in 3D Studio Max besteht das Bestreben nach einer Automation. In der vorliegenden Arbeit erfolgte die Beschriftung jedoch manuell. Die Dauer
dieses Arbeitsganges ist von der Erfahrung des Anwenders sowie der Anzahl der eingefügten Objekte abhängig. Somit kann die obige Zeitangabe nicht als allgemeingültiger
Wert für eine Sequenz mit der ausgewählten Länge angesehen werden.
100
5 3D-Beschriftung im Objektraum
Durch ortsbasierte Dienste können dem mobilen Anwender Auskünfte über die nähere
Umgebung direkt und einfach vermittelt werden. Die Informationsanreicherung kann
die Orientierung des Betrachters erleichtern, indem etwa Straßennamen auf dem Display dargestellt werden. Die Darstellung der Informationen soll letztendlich dynamisch
erfolgen. Die vorliegende Arbeit konzentriert sich auf die angewandte Visualisierung
der ortsbasierten Informationen. Im folgenden Kapitel werden die möglichen Darstellungskriterien der Szenenanreicherung diskutiert und graphische Beispiele gegeben.
Zuvor wird eine kurze Übersicht einzelner Arbeiten gegeben, die sich mit der Informationsanreicherung realer Ansichten und ihrer Darstellung beschäftigen.
5.1 Related Work
Unter Augmented Reality (Erweiterte Realität, kurz AR) versteht man die Überlagerung
der natürlichen visuellen 3D-Wahrnehmung mit virtuellen 3D-Objekten [För03]. Zur
Darstellung der virtuellen Informationen dient beispielsweise ein sog. Head-MountedDisplay (HMD). Ein HMD besteht aus einem mit dem Kopf fest verbundenem Display
für beide Augen, das steuerbare Teile der Umgebung durchlässt und andere überlagern
kann, so dass beim Betrachter der Eindruck entsteht, als befänden sich die künstlichen
Objekte in der Realität.
Die virtuellen Objekte zeigen Informationen, die der Benutzer mit seinen eigenen Sinnen nicht direkt wahrnehmen kann [Azu97]. Die AR wird beispielsweise in folgenden
Situationen eingesetzt: Einem Chirurgen werden bei Operationen die nicht unmittelbar
sichtbaren Organe räumlich vermittelt. Einem Bauleiter können unterirdische Leitungen, die in einem GIS gespeichert sind, sichtbar gemacht werden. Einem Piloten kann
bei schlechter Sicht ein künstliches Bild des Geländes eingespiegelt werden, so dass er
sich – vor allem im Landeanflug – nach den ihm bekannten markanten Geländedetails
orientieren kann. [För03]
Viele Forschungsarbeiten, die sich mit der AR beschäftigen, haben – ebenso wie das in
dieser Arbeit besprochene Projekt – die Navigation als Anwendungsziel. Bisher wird
jedoch nur in wenigen Arbeiten auf die eigentliche Darstellung der virtuellen Informationen eingegangen:
101
5 3D-Beschriftung im Objektraum
In [Bau02] erklärt der Autor, dass die Beschreibung einer Route auf die verschiedenen Benutzerendgeräte zugeschnitten sein muss. Damit ist gemeint, dass sich die
dargestellten Informationen an deren Bildschirmgröße, Bildschirmauflösung und
Fähigkeit der Farbdarstellung anpassen müssen.
In [Bel01] wird ein Algorithmus vorgestellt, der das räumliche Layout von virtuellen 3D-Informationen ermittelt, die auf eine Sichtebene projiziert werden. Der Algorithmus wird in einem Projekt angewandt, in dem reale 3D-Gebäude durch virtuelle
Beschriftung näher erläutert werden. Der Anwender hat durch die Festlegung von
Beschriftungseinschränkungen Einfluss auf die Anordnung der Beschriftung. So
kann beispielsweise der Verdeckungsgrad der realen Ansicht durch die virtuellen
Objekte bestimmt werden. Um die Verdeckung möglichst gering zu halten, wird zusätzlich mit Transparenz, die auf die virtuellen Objekte angewendet wird, gearbeitet.
Durch Positionsbeschränkungen werden minimale und maximale Beschriftungsentfernungen zum beschriftenden Objekt definiert, damit die Zuordnung immer eindeutig und intuitiv erfolgen kann. Die Beschriftung bewegt sich in einem Spielraum
verschiedener Schriftgrößen, wobei immer die jeweils größtmögliche Schrift bevorzugt wird. Je weniger Platz für eine Beschriftung verfügbar ist, desto kleiner wird
sie dargestellt. Würde die Beschriftung dabei eine festgelegte Mindestgröße unterschreiten, entfällt sie an dieser Stelle ganz. Zuletzt kann durch die Angabe einer Beschriftungspriorität die Reihenfolge der Beschriftung im Bild festgelegt werden. So
werden Beschriftungen mit einem niedrigen Wichtigkeitsrang bei wenig verfügbaren Platz nicht dargestellt, da die Beschriftungen mit hoher Priorität den Vorrang
haben.
In [Rhy02] wird ein Prototyp vorgestellt, der auf dem in [Bel01] verwendeten Algorithmus basiert. Bild 5.1 zeigt die nähere Beschreibung von vier Statuen als überlagerte Beschriftung. Die Beschriftung wurde automatisch so platziert und skaliert,
dass einerseits keine Statue verdeckt wird, andererseits die Beschriftung sich auch
untereinander nicht verdeckt. Um eine eindeutige Zuordnung zu gewährleisten, wird
die Beschriftung mit der jeweiligen Statue mittels eines Pfeils verbunden. Dem Anwender können bei Bedarf weitere Informationen angezeigt werden. Dafür erstellt
das System ein Pop-up-Fenster, das eine nähere Beschreibung sowie eine Nahaufnahme der ausgewählten Statue zeigt. Das Fenster springt an derselben Stelle der
zuvor dargestellten Beschriftung auf und weist die gleichen Eigenschaften bezüglich
seiner Priorität und Beziehung zu der Statue auf. Folglich wird verhindert, dass das
Fenster die Statuen oder andere Beschriftungen verdeckt.
102
5.1 Related Work
Bild 5.1
Links: Beschriftete Statuen mittels eines AR-Systems. Rechts: Darstellung weiterer Informationen [Rhy02].
In [Höl99] wird ein mobiles AR-System präsentiert, das dem Anwender ermöglicht,
die virtuelle Anreicherung seiner Umgebung selbst zu gestalten. Es können räumliche Objekte wie beispielsweise Laufwege durch die aktuelle Umgebung erstellt und
Informationsfenster geöffnet werden. In Bild 5.2 wird aus zwei unterschiedlichen
Perspektiven ein solcher Wegepfad dargestellt. Dieser besteht aus einer 3D-Linie,
die den Laufweg nachzeichnet. Des Weiteren wird die Ansicht des Betrachters
durch verschiedenfarbige Fähnchen ergänzt, die ausgewählte Stationspunkte markieren.
Bild 5.2
Wegepfad und Stationspunkte aus zwei verschiedenen Perspektiven [HÖL99].
Eine ähnliche Darstellung der Route, zusehen in Bild 5.3, wird in [Rei03] verwendet. Die Route besteht aus einer Serie von Wegpunkten, die durch in der Umgebung
stehende Zylinder dargestellt werden. Die Zylinder werden durch Pfeile verbunden,
die dem Wegsuchenden die Richtung zu seinem Zielpunkt weisen. Die Pfeile bilden
zusammengenommen eine Linie, die die gesamt Route darstellt.
103
5 3D-Beschriftung im Objektraum
Bild 5.3
104
Visualisierung des Wegepfades [Rei03].
5.2 Objektinformationen im Straßenraum
5.2 Objektinformationen im Straßenraum
Aus dem Kapitel zuvor geht hervor, dass eine Zuordnung, Lesbarkeit und Übersichtlichkeit die wesentlichen Anforderungen bei der Informationsanreicherung sind. Bei der
Suche nach einer geeigneten kartographischen Darstellung in 3D sollten die eingeschränkten Kapazitäten einer elektronischen Bildanzeige beachtet werden. Kartengraphik kann nämlich nur unter Berücksichtigung der Möglichkeiten und Einschränkungen
des Benutzerendgerätes sowie der visuellen Wahrnehmung zu einer eindeutigen und
raschen Information führen [Bru00].
5.2.1 Was soll beschriftet werden?
Die Beschriftung von Objekten in den Wegevideos ergänzt die reale Ansicht des Betrachters und dient zur unmittelbaren Erfassung seiner Umgebung. Grundsätzlich gilt:
alles, was zur Orientierung beiträgt oder für den Betrachter von Interesse sein kann, ist
zu beschriften. Die Anzahl der Beschriftungen sollte jedoch begrenzt bleiben, damit die
reale Ansicht durch die Informationsanreicherung nicht zu überladen wirkt.
Der aktuelle Standort des Benutzers ist durch die Namensangabe der Straße oder des
Platzes anzuzeigen. Zur Anreicherung der realen Szene zählt auch die graphische Darstellung der Route, da sie in einem Navigationssystem das wichtigste orientierungsunterstützende Element ist. Bei der Auswahl der zu beschriftenden POIs (Points of Interest) bietet es sich an, einen gebräuchlichen Stadtplan zu Hilfe zu nehmen. Dort findet
man die Namen von Gebäuden und Bauwerken, die gerade für Touristen interessant
sein dürften, wie beispielsweise Kirchen, Denkmäler, Museen usw. Allgemein lässt sich
sagen, dass die Beschriftung aller öffentlichen Gebäude und Anlagen im Interesse des
Benutzers steht. Man denke dabei nur an Krankenhäuser, WCs, Parks, Postämter, Verkehrshaltepunkte und Informationsstellen. Wird dem Anwender im Bereich der ortsbasierten Dienste die Funktion geboten, die Beschriftung einzelner Objektklassen ein- und
auszublenden, ist die Anzahl der zu beschriftenden Objekte unbegrenzt. So könnte der
Anwender die Anzeige der Beschriftung auf seine persönlichen Bedürfnisse abstimmen,
indem er sich beispielsweise gute Restaurants empfehlen lässt oder sich sogar die Speisekarte eines Restaurants anzeigen lässt.
In den beiden folgenden Unterkapiteln werden nun für die Informationsanreicherung
sinnvolle Optionen hinsichtlich der Gestaltung und Platzierung experimentell ausgearbeitet.
5.2.2 Gestaltung
Grundsätzlich kann zwischen textlicher und abstrakter Darstellung von Informationen
unterschieden werden. Im Folgenden werden die Anforderungen, die an die Umsetzung
dieser beiden Möglichkeiten gestellt werden, aufgezeigt und Beispiele dafür dargestellt.
- Textliche Anreicherung der Szene
Eine eindeutig lesbare Schrift ist von großer Bedeutung, da Text ein wichtiges erläuterndes Element ist [Pir99]. Bildschirmschriften sind besonders empfindlich gegenüber
dem Aliasingeffekt. Kursive sollte sparsam eingesetzt werden, da an den schrägen Li105
5 3D-Beschriftung im Objektraum
nien der kursiven Schrift Stufen entstehen. Die Rasterung zerreißt dünne Linien bis zur
Unkenntlichkeit. Gleiches gilt für Umrisslinien und Schattierungen. Das Problem liegt
auch hier in den dünnen Linien. Der Effekt auf dem Bildschirm ist ein eher unscharfes
Bild, das die ästhetische Wirkung und Lesbarkeit herabsetzt.
Die Eignung einer Schrift für die Bildschirmdarstellung ist auch abhängig von der
Farbkombination der Schrift mit ihrem Hintergrund. Ein weißer Bildschirm ist durch
das abgestrahlte Licht heller als ein weißes Blatt Papier. Das hat zur Folge, dass Randbereiche der Schrift überstrahlt werden, wodurch die Schrift dünner erscheint als sie
tatsächlich ist. Daher sollte die Strichstärke dicker oder ein dunklerer Schrifthintergrund
gewählt werden.
Zugunsten einer guten Lesbarkeit sollten Texte auf Bildschirmen grundsätzlich spationiert werden, da die Buchstaben bei zu enger Laufweite „verklumpen“. So kann leicht
aus einem „r“ und „n“ ein „m“ oder aus einem „c“ und „l“ ein „d“ gelesen werden. Die
Laufweite darf aber auch nicht zu groß sein, da sonst das Wortbild flattert und der Text
nur mühsam lesbar wird.
WebFonts wie z.B. Verdana oder Trebuchet sind bildschirmgeeignete Schriften, die
aufgrund fester Buchstabenabstände auch noch bei einem kleinen Schriftgrad eine gute
Lesbarkeit haben. Sie sollten jedoch aufgrund der begrenzten Bildschirmauflösung eine
Mindestgröße von 12 pt aufweisen, was einer Höhe von circa 3,6 mm entspricht.
[Bru00] Hinsichtlich des Beschriftungsverfahrens im Objektraum kann von keiner genauen Schriftgröße gesprochen werden, da sich die Schrift mit zunehmender Entfernung
zum Betrachter verkleinert. Daher muss die Schrift, nachdem sie im Raum eingefügt
wurde, im Videobild berechnet und kontrolliert werden. Es empfiehlt sich grundsätzlich
eine Mindeststrichstärke von 2 Bildpunkten.
In [Mid03] (vergleiche [Bru00]) wird darauf hingewiesen, dass die Lesbarkeit von Texten im Allgemeinen vom oberen Rand der Wörter abhängig ist. Folglich sollten Worte
nicht ausschließlich aus Großbuchstaben zusammengesetzt werden, da sie als monotone
Rechtecke erscheinen und keine charakteristische Silhouette besitzen.
Hinsichtlich der Schriftfarbe tritt das Problem der Farbähnlichkeit auf. Wird beispielsweise für die Beschriftung lediglich eine einzige Schriftfarbe gewählt, wird diese wegen
der ständigen Farbveränderung des Hintergrundes in bestimmten Situationen nicht mehr
erkennbar. So hebt sich helle Schrift auf hellem Hintergrund und dunkle Schrift auf
dunklem Hintergrund nicht ab. Das Problem kann in den meisten Fällen durch den Einsatz von Signalfarben, wie Rot, Gelb oder Grün, behoben werden. Zum anderen kann
durch eine farbige Freistellung der Schrift die Lesbarkeit erhöht werden. Dadurch erhöht sich jedoch die Fläche, die die Beschriftung im Bild einnimmt. Da die Verdeckung
der realen Ansichten möglichst klein gehalten werden sollte, bietet sich die Möglichkeit
einer halbtransparenten Schriftfreistellung an. Besitzen des Weiteren mehrere Beschriftungen die gleiche Farbe, kann die Unterscheidung der dargestellten Informationen erschwert werden. Durch eine unterschiedliche Farbwahl könnte beispielsweise zwischen
öffentlichen und gewerblichen Gebäuden differenziert werden.
106
5.2 Objektinformationen im Straßenraum
Bild 5.4
Imbiss
Imbiss
Imbiss
Imbiss
Links: Problem Farbähnlichkeit – helle Schrift auf hellem Hintergrund und dunkle Schrift auf
dunklem Hintergrund. Rechts: Signalfarbe erhöht die Wahrnehmung der Schrift (in 2D erstellt, Schriftart: Verdana, Schriftgröße: 12pt).
Geschäft
Bild 5.5
Geschäft
Links: Freistellung der Schrift durch andersfarbigen Hintergrund. Rechts: Freistellung der
Schrift durch andersfarbigen halbtransparenten Hintergrund.
- Abstrakte Anreicherung der Szene
Symbole bzw. Signaturen benötigen als kartenspezifische Kurzschrift im Vergleich zur
Kartenschrift weniger Kartenfläche und wirken auch unmittelbar auf das Vorstellungsvermögen [Hak02]. Die Vielfalt in Ausdruck und Anwendung macht die Signatur zu
einem der wichtigsten Gestaltungsmittel in der kartographischen Visualisierung. „Bilder
sagen mehr als Tausend Worte“ besagt auch ein altes Sprichwort. Der Grund dafür liegt
darin, dass Bilder von einer enormen Bandbreite kortikaler Fähigkeiten Gebrauch machen: Farbe, Form, Mehrdimensionalität, visueller Rhythmus und insbesondere Vorstellungskraft [Buz99]. Bilder rufen deshalb häufig viel mehr hervor als gelesene Wörter.
Sie sind genauer und kraftvoller, wenn es darum geht, eine Assoziationskette auszulösen. Für weit verbreitete und bekannte Logos wie z.B. die von Haltestellen, Apotheken,
der Post, oder großen Handelsketten bietet sich die Möglichkeit, Graphiken zu verwenden. Da allerdings keine allgemein-verbindliche Festlegung zwischen dem Zeichen
(Syntax) und seinem begrifflichen Sinngehalt (Semantik) besteht, ist bei einer Verwendung von Bildern daher noch eine besondere Zeichenerklärung (Legende) notwendig.
107
5 3D-Beschriftung im Objektraum
Bild 5.6
Allgemein bekannte Logos bewirken beim Betrachter eine schnellere Informationsassoziation
Für die Darstellung der Route wird auf die Vorteile der Signaturen zurückgegriffen.
Somit werden graphische Symbole der textlichen Darstellung vorgezogen. In Kapitel
5.1 wurden bereits zwei Möglichkeiten der Routendarstellung vorgestellt. Die Darstellung der Richtungsanzeige wird in [Mid03] gemäß dem Grundsatz „Form folgt Funktion“ auf Pfeile beschränkt. Dabei wird generell zwischen einfachen und zusammengesetzten Pfeilen unterschieden. Um redundante Informationen im Bildausschnitt auszuschließen, sind einfache Formen den komplizierteren vorzuziehen.
Hinsichtlich der Farbwahl gelten die gleichen Überlegungen wie bei der textlichen Darstellung. Die Wegpfeile sollten sich von ihrem Hintergrund eindeutig abheben und die
Aufmerksamkeit des Benutzers auf sich ziehen. Die Farbgebung sollte einheitlich sein,
um einen hohen Wiedererkennungswert zu gewährleisten. Ein Wechsel der Farbe ist
dann zweckmäßig, wenn es sich beispielsweise um den letzten Wegrichtungspfeil vor
dem Ziel handelt.
Bezüglich der Größendarstellung symbolischer Graphiken kann keine allgemeingültige
Aussage getroffen werden. Die Größe ist immer von Form und Komplexität der jeweiligen Signatur abhängig. Wichtig ist, dass die Symbole in jedem Fall deutlich zu erkennen sind.
Bild 5.7
Einfache und zusammengesetzte Pfeile [Mid03]
5.2.3 Platzierung
Bei der Platzierung von textuellen und abstrakten Navigations- und Informationshilfen
muss beachtet werden, dass die Szene für den Anwender gut lesbar und übersichtlich
gestaltet sein sollte. Im nachfolgenden Unterkapitel werden für die Wegroute und die
Beschriftung von POIs und Positionsinformationen mögliche Positionen im Videobild
demonstriert und auftretende Probleme erläutert.
- Wegroute
Bei der Platzierung der Wegrichtungspfeile wird in [Mid03] der Bildausschnitt in drei
Bildbereiche aufgeteilt: Bebauung, Himmel und Straßenfläche. Da die Bebauung wesentlich zur Wiedererkennung der Szene beiträgt und die Fläche, die der Himmel im
108
5.2 Objektinformationen im Straßenraum
Bildausschnitt einnimmt, oft sehr klein oder überhaupt nicht sichtbar ist, kommt die
Autorin zu dem Ergebnis, dass die Straßenfläche für die Platzierung der Wegweiser
geeignet ist. Lediglich wenn die im Bild vorhandene Verkehrsfläche zu klein ist, um
einen Pfeil darin platzieren zu können, wird dieser am seitlichen Rand des Displays
dargestellt.
Bild 5.8
Positionierung der virtuellen Wegweiser [Mid03].
Die abstrakte Wegrichtung kann im Objektraum auf ein Höhenmodell platziert werden.
Das für die vorliegende Arbeit zur Verfügung stehende Höhenmodell der Bonner Innenstadt besitzt eine Rasterweite von 50 m. Sollte diese Auflösung zu grob für eine realistische Geländeanpassung der Route sein, dann kann die Route auch manuell platziert
werden. Dazu muss lediglich der Höhenverlauf der berechneten Kamera um die Höhe
der Kamera bei der Aufnahme, hier 1,7 m, reduziert werden.
- Beschriftung von POIs
Auch für die Platzierung von Beschriftung würde sich die Straßenfläche eigenen. Dabei
käme es allerdings zwangsläufig zu einem Überlappungskonflikt mit der graphischen
Darstellung der Wegrichtung. Somit bleibt nur die Bebauungsfläche als Optionen offen,
da der Himmel, wie oben schon erwähnt, oft sehr klein oder überhaupt nicht sichtbar ist.
Generell gibt es drei wesentliche Optionen, die sich für die Platzierung der Beschriftung
im Raum bieten:
109
5 3D-Beschriftung im Objektraum
Koplanare Gebäudebeschriftung
Der Informationstext wird auf das zu beschriftende Gebäude projiziert. Der Text verdeckt somit immer nur Bildinformationen des jeweiligen Gebäudes.
Da der Schriftzug der Bildperspektive folgt, wird die Schrift bei waagerechter Schreibweise zum Ende hin schlechter lesbar. Je nachdem wie schmal eine beschriftete Gebäudefläche im Videobild erscheint, kann die Schrift womöglich nicht mehr zu entziffern
sein. Dagegen stellt die senkrechte Schreibweise zwar eine ungewohnte Leserichtung
für den Betrachter dar, die einzelnen Buchstaben des Textes besitzen aber untereinander
eine gleichwertige Lesequalität.
Bild 5.9
Koplanare Gebäudebeschriftung: horizontaler Schriftverlauf auf linkem Haus und vertikaler
Schriftverlauf auf rechtem Haus.
Schilderbeschriftung
Der Informationstext wird im rechten Winkel zum Gebäude platziert. Auf diese Weise
wird die perspektivische Verzerrung ausgeräumt, da die Beschriftung nun frontal zum
Betrachter hin ausgerichtet ist.
Durch den waagerechten Schriftverlauf wird die Verdeckung des entsprechenden Gebäudes minimiert und zur Bildmitte hin verlagert. Die senkrechte Schreibweise gleicht
einer realitätsnahen Schilderbeschriftung, doch verdeckt sie große Teile des beschrifteten Gebäudes. Bei Platzierung an der Gebäudemitte (Bild 5.10) wird die hintere Hälfte
des entsprechenden Gebäudes sowie ein Teil des Bildes daneben verdeckt.
110
5.2 Objektinformationen im Straßenraum
Bild 5.10
Schilderbeschriftung: horizontaler Schriftverlauf am linkem Haus und vertikaler Schriftverlauf am rechtem Haus.
Abstandsbeschriftung
Der Informationstext wird nicht direkt an das entsprechende Objekt platziert. Eine Zuordnung kann durch ein verbindendes Element wie einen Pfeil oder eine Klammer (Bild
5.11) erreicht werden. Werden mehrere Beschriftungen dieser Art in die reale Ansicht
gesetzt, kann das Bild schnell unübersichtlich werden. Deshalb sollte auf diese Art der
Platzierung nur in Ausnahmefällen zurückgegriffen werden.
Eine geeignete Situation findet sich bei ungeradem Straßenverlauf. Die Flächen der Objekte, die sich auf der Innenseite einer Kurve befinden, werden gestaucht und somit im
Video für eine kürzere Zeitdauer dargestellt als die Flächen auf der Außenseite einer
Kurve. Eine Anwendung der Abstandsbeschriftung kann zudem immer bei Objekten
erfolgen, deren Ausmaße besonders klein sind, wie z. B. Denkmäler oder weit entfernte
Kirchturmspitzen, um eine eindeutige Zuordnung zu erleichtern.
111
5 3D-Beschriftung im Objektraum
Bild 5.11
Abstandsbeschriftung: Beschriftung wird anhand eines Pfeils oder einer Klammer mit dem
entsprechenden Objekt verbunden.
Generell entsteht bei einer Beschriftung in der Gebäudefläche das Problem der Verdeckung realer Informationen. Aus diesem Grund sollte die Beschriftung unter Beachtung
der Mindestgröße so klein wie möglich gewählt werden, um den Wiedererkennungswert
der Szene möglichst hoch zu halten.
Damit die Beschriftung nicht in die Straßenfläche hineinragt, sollte die Beschriftung im
Objektraum über der horizontalen Sichtebene des Betrachters bzw. der Aufnahmekamera angeordnet werden. Werden die virtuellen Texte und Symbole in einer Ebene über
dem Horizont angeordnet, ist bei der Beschriftung der Bonner Videos zu prüfen, ob der
durch die perspektivische Verzerrung entstehende Höhenversatz der virtuellen Objekte
im Videobild eine gegenseitige Überlappung ausschließt. Kommt es dennoch zu einer
Überlappung der virtuellen Objekte im Videobild, kann eine mögliche Lösung durch
eine Variation der Beschriftungshöhe erreicht werden.
- Beschriftung von Straßen und Plätzen
Die Bezeichnung des aktuellen Standortes wird in [Mid03] als statische Navigationsanweisung bezeichnet. Ein statisches Objekt bleibt trotz Bewegung im Bild an einem
Punkt des Displays konstant. Die Autorin schlägt vor, die statischen Wegweiser am
unteren Bildrand zu positionieren, da die Freiraumwahrscheinlichkeit dort am größten
ist (siehe Bild 5.12). Da die Beschriftung in der vorliegenden Arbeit im Objektraum
erfolgt, muss für die Realisierung ein Trick angewendet werden: Das Textobjekt kann in
3D Studio Max mit der Kamera in einem festen Abstand verbunden werden (Verlinkung). Durch diese Verlinkung schließt sich das Objekt der Vorwärtsbewegung der
Kamera an und erscheint somit im Videobild stets an der gleichen Stelle. Eine weitere
Möglichkeit, einen Text an den unteren Rand des Videobildes zu platzieren, besteht
darin, die statische Information beispielsweise in Adobe Premiere dem Videofilm als
Titel zu überblenden.
112
5.2 Objektinformationen im Straßenraum
Die Beschriftung von Straßen, die die aktuelle Straße kreuzen, sollte in einem Höhenbereich erfolgen, der zwischen der Bodenfläche und dem Horizont liegt. Somit ist gewährleistet, dass sich die Straßenbezeichnungen, die Bezeichnungen der POIs sowie die
Routendarstellung nicht gegenseitig verdecken.
In der Sürst
Gangolfstr
In der Sürst
In der Sürst
Bild 5.12
Münsterplatz
Beschriftung des aktuellen Standpunktes und weiterer Navigationsangaben (mit 2DGraphiksoftware erstellt).
- weitere Probleme
Befinden sich POIs in weiter Entfernung zum Betrachter, erscheinen deren Flächen im
Videobild sehr klein. Für diese Flächen ist eine Beschriftung nicht sinnvoll. Die Abhängigkeit des Zeitpunktes, wann Informationen eingeblendet werden, kann durch die Entfernung und die Größe der POIs beschrieben werden. Es treten jedoch Situationen auf,
in denen eine Beschriftung der oben genannten POIs dennoch wünschenswert wäre. So
sollte etwa eine Kirchturmspitze, obwohl sie sich in weiter Entfernung zum Betrachter
befindet, mit einer Informationsangabe angereichert werden, da sie die Umgebung
enorm prägt und so zur Orientierung bedeutend beiträgt.
Durch das Verfahren der Beschriftung im Objektraum passt sich die Schriftgröße der
Entfernung an. Für das Beispiel des weit entfernten Kirchturmes bedeutet das, dass der
Informationstext für eine gute Lesbarkeit im Videobild zu klein dargestellt wird. Die
Schrift muss also für diesen speziellen Fall vergrößert werden.
Spezialfälle, wie sie oben beschrieben werden, erschweren die Automation der Beschriftung im Objektraum.
113
5 3D-Beschriftung im Objektraum
- Darstellungsvorschlag
In Bild 13 werden die oben vorgeschlagenen Höhenbereiche der einzelnen Objekte zusammengefasst. Die statische Positionsangabe, die den aktuellen Standort des Anwenders beschreibt, ist von dieser Höhenverteilung ausgeschlossen, da sie immer am unteren Bildrand eingeblendet wird.
Bild 5.13
Höhenbereiche für die Beschreibung von Routenanweisungen, Positionsangaben und POIs.
Die Beschriftung sollte im Videobild so wenig Verzerrung wie nur möglich aufweisen,
d.h. sie sollte möglichst frontal zum Betrachter ausgerichtet sein. Eine Beschriftung
kann frontal zum Betrachter ausgerichtet werden, indem ihre Orientierung bezüglich der
Z-Achse der Orientierung der Kamera angepasst wird. Durch diese Ausrichtung geht
jedoch der räumliche Effekt der Beschriftungsflächen verloren, der gerade durch das
Beschriftungsverfahren im Objektraum ermöglicht wird. Die virtuellen Objekte werden
zwar mit zunehmender Entfernung zum Betrachter im Videobild kleiner dargestellt,
doch dadurch, dass die Flächenkanten im Bild nicht in Richtung der Fluchtpunkte verlaufen, wirken sie, als ob sie mit Hilfe eines gewöhnlichen 2D-Graphikprogrammes
eingefügt wurden (s. Bild 5.15). Passen sich die virtuellen Objekte dagegen mit ihren
Kanten der Perspektive im Bild an, wird dadurch zudem die eindeutige Zuordnung der
Objekte zu ihren jeweiligen POIs erleichtert.
Der 3D-Effekt der Schriftplatzierung im Objektraum soll deshalb genutzt werden. Um
die Orientierung der Beschriftung im Objektraum bezüglich der Z-Achse dennoch festlegen zu können, wird folgendes System vorgeschlagen:
-
Koplanare Gebäudebeschriftung, falls der Schnittwinkel der Normalen von der
zu beschriftenden Gebäudefläche mit der Kamerablickrichtung in einem Bereich
von 0 bis 45 Grad liegt.
-
Schilderbeschriftung, falls der Schnittwinkel der Normalen von der zu beschriftenden Gebäudefläche mit der Kamerablickrichtung in einem Bereich von 45 bis
90 Grad liegt.
-
Frontale Ausrichtung, falls nur Abstandsbeschriftung möglich ist.
114
5.2 Objektinformationen im Straßenraum
Die Orientierung der Positionsangaben verhält sich ähnlich, wobei hier die Gebäudenormale vom Straßenverlauf ersetzt wird. Bild 5.14 veranschaulicht dieses System für
die ersten beiden Punkte. Die Schnittwinkelbereiche überlappen sich bewusst. Damit
soll deutlich gemacht werden, dass in Ausnahmefälle von dieser Methode abgewichen
werden kann.
S
90°
45°
0°
K
S/K
Bild 5.14
Orientierungsregelung der Beschriftung bezüglich der Z-Achse im Objektraum (S: Schilderbeschriftung, K: Koplanare Gebäudebeschriftung. Draufsicht).
Bild 5.15 zeigt, wie die zusätzlichen Informationsangaben im Videobild dargestellt
werden können. Da das Bild in 2D erstellt wurde, weisen die eingefügten Objekte keine
perspektivischen Verzerrungen auf. Im sechsten Kapitel wird dieser Darstellungsvorschlag auf ausgewählte Videos angewendet. Die Platzierung der Informationen erfolgt
dann im Objektraum.
115
5 3D-Beschriftung im Objektraum
Kneipe
Inferno
S
p
i
e
l
w
a
r
e
n
Gangolfstr.
Gerhard Von Are Str.
Bild 5.15
116
Platzierungs- und Gestaltungsvorschlag für die Informationsanreicherung im Videobild (mit
2D-Graphikprogramm erstellt).
6 3D-Beschriftung ausgewählter Wegevideos
Die in Kapitel fünf konkret erarbeitete Möglichkeit der Beschriftung von Gebäuden
sowie der Darstellung der Route wird nun auf ausgewählte Wegevideos angewendet.
Bei der praktischen Umsetzung wird vorausgesetzt, dass die Qualität der Objektplatzierung im originalen Video in einem annehmbaren Bereich für den Betrachter liegt.
Durch das Kameramatching erhält man neben der digitalen Nachbildung der Kamera
zusätzlich die 3D-Struktur der Szene als Punktwolke. Diese Punkte sind mit der virtuellen Szenerie, dem 3D-Modell, nicht deckungsgleich, zeigen aber die Positionen markanter Features im 3D-Raum an, die sich unter Verwendung der berechneten Kamerafahrt
von Boujou an den richtigen Stellen im Videobild befinden. Deshalb werden zusätzlich
zu dem Bonner 3D-Modell diese berechneten 3D-Positionen als Anhaltspunkte für die
Objektplatzierung zur Hilfe genommen.
Die Routendarstellung beinhaltet die Anzeige von Richtungsänderungen. Würden die
dazu eingefügten Pfeile planar auf der Bodenfläche platziert, wären sie für den Betrachter aufgrund der perspektivischen Verzerrung nur noch schlecht erkennbar. Um dies zu
vermeiden, werden sie 90 Grad um ihre Richtungsachse gedreht.
Bei der Betrachtung des Solingenvideos, zusehen in Bild 6.1, fällt auf, dass die Beschriftung ab einer bestimmten Entfernung für den Betrachter nicht mehr zu erkennen
ist. Es ist sinnvoll, dass die Beschriftung erst zu dem Zeitpunkt eingeblendet wird, an
dem sie eine erforderliche Mindestgröße erreicht hat. 3D Studio Max bietet die Option
für die virtuelle Kamera eine Sichtbarkeitsdistanz festzulegen; d.h. es werden beim
Rendern der Szene nur die Objekte berücksichtigt, die eine vom Benutzer festgelegte
Distanz zur Kamera nicht überschreiten. Für das Solingenvideo wurde für die Kamera
eine Sichtbarkeitsdistanz von 36 m verwendet.
Mit Hilfe einer solchen Sichtbarkeitsdistanz kann neben der Höchstdistanz auch eine
Mindestdistanz definiert werden. Die Mindestdistanz bestimmt ab welcher Entfernung
zur Kamera ein Objekt beim Rendern erfasst wird. So könnten Beschriftungen, die beim
Vorwärtslauf des Videos aus dem Bild wandern, ausgeblendet werden, sobald sie nicht
mehr eindeutig zu identifizieren sind. Diese Option wurde jedoch bei den hier gezeigten
Beispielen nicht gewählt, da sonst die statische Positionsanzeige, die sich stets am unteren Bildrand befindet, aufgrund ihrer geringen Entfernung zur Kamera nicht mehr dargestellt würde.
Die Möglichkeit der entfernungsabhängigen Darstellung künstlicher Objekte hat allerdings hinsichtlich der maximalen Distanz zur Kamera einen Nachteil. Beschriftungen,
die weit von der Kamera entfernt liegen, für die Orientierung aber dennoch wichtig
sind, werden bei der Darstellung nicht berücksichtigt. So würde u. a. das Bonner
„Münster“ im Beispiel 3 (Bild 6.4) nicht näher beschrieben werden.
Ein weiteres Hilfsmittel, das den Zeitpunkt der Beschriftungseinblendung beeinflussen
kann, ist die Transparenz. Mit Hilfe der in 3D Studio Max zur Verfügung stehenden
Animationsfunktion können Objekte zu bestimmten Zeitpunkten transparent dargestellt
werden. So kann für jedes künstliche Objekt der Darstellungszeitpunkt individuell und
117
6 3D-Beschriftung ausgewählter Wegevideos
unabhängig von der Entfernung zur Kamera definiert werden. Für das Solingenvideo
wurde die linke Straßenrichtungsanzeige „Str. Name“, die den Weg des Betrachters
kreuzt, so animiert, dass sie im Videobild, kurz bevor der Betrachter scheinbar durch
diese Beschriftungsanzeige läuft nicht mehr erscheint.
Ein weiteres Anwendungsbeispiel ist im sechsten Beispiel zu finden (Bild 6.7). Hier
wird die Gebäudebeschriftung „Roland“ erst dann im Videobild dargestellt, wenn das
Gebäude selber nicht mehr von dem davor stehenden Gebäude verdeckt wird. In einem
solchen Fall besteht des Weiteren die Möglichkeit mit Hilfe von Verdeckungsinfos die
Darstellung im Video zu regeln. Verdeckungsinformationen finden beispielsweise im
ARQuake Projekt Anwendung [Pie02]. ARQuake ist ein mobiles Computerspielsystem,
indem der Benutzer virtuelle Monster erschießen muss. Das Besondere an diesem Spiel
ist, dass sich der Benutzer in der freien Natur bewegt und sich die virtuellen Monster
hinter realen Gebäuden verstecken können, um vom Betrachter nicht gesehen zu werden. Auf die gleiche Weise könnte das Bonner 3D-Modell dazu beitragen, die Teile
künstlicher Objekte zu bestimmen, die von den realen Gebäuden verdeckt werden, sodass sie im Videobild nicht angezeigt werden. Das 3D-Gebäudemodell hat somit Auswirkung auf die Anzeige anderer Objekte, wird selber aber nicht im Video dargestellt.
Es gibt für 3D Studio Max ein PlugIn, das diese Aufgabe bewältigen kann. Aus Zeitgründen konnte es in dieser Arbeit nicht erprobt werden.
Nun folgen Bildausschnitte ausgewählter Videos, die für die vorliegende Arbeit beschriftet wurden. Diese sind auch als komplette Videos auf der beiliegenden CD anzuschauen.
Viel Spaß!
Bild 6.1
118
Solingenvideo: Links: weit entfernte Beschriftungen können nicht entziffert werden. Rechts:
maximale Sichtbarkeitsdistanz blendet weit entfernte Beschriftungen aus.
5.2 Objektinformationen im Straßenraum
Bild 6.2
Ausschnitte des beschrifteten Videos (Beispiel 1).
Bild 6.3
Ausschnitte des beschrifteten Videos (Beispiel 2).
Bild 6.4
Ausschnitte des beschrifteten Videos (Beispiel 3). Die Beschriftung „Münster“ muss vergrößert
dargestellt werden, da sie sich in weiter Entfernung zur Kamera befindet.
119
6 3D-Beschriftung ausgewählter Wegevideos
Bild 6.5
Ausschnitte des beschrifteten Videos (Beispiel 4).
Bild 6.6
Ausschnitte des beschrifteten Videos (Beispiel 5).
Bild 6.7
Ausschnitte des beschrifteten Videos (Beispiel 6). Die Beschriftung „Roland“ taucht erst dann
im Video auf, wenn sie nicht mehr von dem „Kaufhof“-Gebäude verdeckt wird.
120
7 Zusammenfassung und Ausblick
In dieser Arbeit wurde ein Konzept vorgestellt, mit dem die Fußgängernavigation und
Routenplanung durch die Visualisierung von Videos und Panoramen erleichtert werden
soll. Videos und Panoramen, die mit virtuellen Informationen angereichert sind, bieten
eine Unterstützung bei der intuitiven Orientierung und Wegsuche und ergänzen so die
in Fußgängernavigationssystemen verwendeten traditionellen Karten [Kol04]. Des Weiteren stellt das präsentierte Konzept in seiner Umsetzung nur geringe Anforderungen an
Rechenleistung und Bandbreite mobiler Endgeräte. Es muss lediglich das Abspielen von
Videos möglich sein. Jedoch ist die Genauigkeit der Positions- und Orientierungsbestimmung des jeweiligen Benutzerendgerätes zu beachten.
Da sich das Erscheinungsbild vieler Objekte im Laufe der Zeit aufgrund von Fassadenrenovierungen, Umbauten oder Verfallserscheinungen ändern können, so können dargestellte Videobilder, die nicht mit der aktuellen, realen Ansicht des Betrachters übereinstimmen, zur Verwirrung führen. Ähnliche Probleme können sich auch hinsichtlich auffälliger mobiler Einrichtungen – wie z.B. Marktstände – ergeben. Dem Umstand einer
veränderten Aussicht der Umgebung am Tag und in der Nacht kann durch alternative
Videoaufnahmen Rechnung getragen werden.
Ein Schwerpunkt dieser Arbeit lag darin, das Verfahren der Beschriftung im Objektraum näher zu untersuchen. Es war zu klären, ob durch die Methode des Kameratrackings und der Georeferenzierung der Videobilder die Integration von virtueller Beschriftung und Wegweisern mit der erforderlichen Genauigkeit erreicht werden kann.
Für ein Video, das eine virtuelle Umgebung von Solingen zeigt, sind sehr gute Ergebnisse erzielt worden. Für den Betrachter des aufbereiteten Videos wirken die mit der
rekonstruierten Kamera gerenderten Beschriftungsobjekte, als hätten sich diese schon
beim Rendern des Ausgangsvideos in der 3D-Szene befunden.
Hinsichtlich der realen Bonner Wegevideos sind jedoch einige Probleme aufgetaucht.
So hat sich beispielsweise gezeigt, dass sich Ungenauigkeiten in den Koordinaten des
Bonner 3D-Modells sowie eine beschränkte Auswahl der für die Georeferenzierung
geeigneten Punkte negativ auf das Gesamtergebnis auswirken. Für zukünftige Arbeiten
in diesem Themengebiet wird empfohlen, die Ausgangsdaten des 3D-Gebäudemodells
zu verbessern, d. h. einen größeren Maßstab der Luftbilder sowie Passpunkte mit höherer Genauigkeit für die Orientierung der verwendeten Luftbilder zu wählen. Des Weiteren wäre zu prüfen, inwieweit eine Ergänzung der für die Georeferenzierung verwendeten Punkte, die ausschließlich aus den Luftbildern erhalten wurden, durch terrestrisch
aufgenommene Punkte die Einordnung der Videoszenerie in den Objektraum verbessert. Schließlich konnten in dieser Arbeit nicht alle Fehlerquellen qualifiziert werden.
Somit bleiben Fragen, die überwiegend in den Bereich der Photogrammetrie fallen, insbesondere hinsichtlich der Gründe und Quantitäten der auftretenden Abweichung bei
der Zuordnung in den Objektraum offen.
Diese Arbeit kommt zu dem Ergebnis, dass das Verfahren der Videobeschriftung im
Objektraum für viele Fälle eine eindeutige Zuordnung der virtuellen Beschriftung zu
den realen Objekten im Videobild gewährleisten kann. Die Zuordnung für den Anwender wird dann erschwert, wenn sich viele kleine oder weit entfernte reale Objekte im
121
7 Zusammenfassung und Ausblick
Videobild befinden. Nehmen dagegen reale Objekte viel Platz im Videobild ein, dann
ist die Zuordnung der in dieser Arbeit erstellten Beispiele immer eindeutig.
Einen zweiten Schwerpunkt bildete die eigentliche Gestaltung der virtuellen Beschriftungen im 3D-Raum. Die Integration und Positionierung mehrerer künstlicher Objekte
steht in engem Zusammenhang zu der Schriftplatzierung in der Kartographie. Die Beschriftung von Videos in 3D ist jedoch ein noch weitgehend unbehandeltes Thema. In
dieser Arbeit wurde sich mit dem Problem der Platzierung sowie der graphischen Gestaltung auseinandergesetzt und ein Darstellungsvorschlag erarbeitet. Anschließend wurden Ergebnisse präsentiert, die virtuelle Beschriftungen in ausgewählten Wegevideos
zeigen.
122
Literaturverzeichnis
[2d303]
2d3 Limited: Handbuch: boujou 2.3.1 help. Oxford, UK, 2003.
[Azu97]
Azuma, R.: A Survey of Augmented Reality. In Presence: Teleoperators and Virtual
Environments 6, 4 (August 1997), 355-385.
http://www.cs.unc.edu/~azuma/ARpresence.pdf (letzter Zugriff: 14.07.04)
[Azu01]
Azuma, R., Baillot, Y., Behringer, R., Feiner, S., Julier, S., MacIntyre, B.: Recent
Advances in Augmented Reality. IEEE Computer Graphics and Applications 21, 6
(Nov/Dec 2001), 34-47.
http://www.cs.unc.edu/~azuma/cga2001.pdf (letzter Zugriff: 14.07.04)
[Bau02]
Baus, J., Krüger, A., Wahlster, W.: A Resource-Adaptive Mobile Navigation System.
In: Proceedings of Int. Conference on Intelligent User Interfaces IUI 2002 in San Francisco, California, USA, ACM Press, New York, 2002.
[Bel01]
Bell, B., Feiner, S., Höllerer, T.: View Management for Virtual and Augmented Reality. In: Proceedings of the 14th annual ACM symposium on User interface software and
technology Department of Computer Science in Orlando, Florida, USA, ACM Press,
New York, 2001.
[Bru00]
Brunner, K.: Kartengestaltung für elektronische Bildanzeigen - Kartographische Bausteine. TU Dresden, 2000.
[Buz99]
Buzan, T. & Buzan, B.: Das Mind-map-Buch. 4. Aufl., Landsberg a.L.: mvg-verl.,
1999.
[Dan01]
Danaher, S.: Boujou 1.2: Camera Matching. 2001.
[För03]
Förstner, W.: Skript zur Vorlesung Photogrammetrie I, II und III, Rheinische Friedrich-Wilhelm-Universität Bonn. 2003.
http://www.ipb.uni-bonn.de/Teaching/ (letzter Zugriff: 07.07.04)
[Gib02]
Gibson, S., Cook, J., Howard, T., Hubbold, R.: Accurate Camera Calibration for Offline, Video-Based Augmented Reality. In: Proc. of the IEEE International Symposium
on Mixed and Augmented Reality (ISMAR'02) in Darmstadt, Germany, 2002.
[Gül01]
Gülch, E.: Image Analysis in semi-autimatic building extraction. Auszug aus: Künstliche Intelligenz, Heft 4/01, ISSN 0933-1875, arendtap Verlag, Bremen, 2001.
http://www.kuenstliche-intelligenz.de (letzter Zugriff: 14.07.04)
[Hak02]
Hake, G., Grünreich, D., Meng, L.: Kartographie: Visualisierung raum-zeitlicher
Informationen. 8., vollst. Neu bearb. und erw. Aufl., Berlin, 2002.
[Harr88]
Harris, C. & Stephens, M.: A combined corner and edge detector. 1988. Seite 147-151
[Hart02]
Hartley, R. & Zisserman, A.: Multiple View Geometry in Computer Vision. Cambridge, UK, 2002.
[Höl99]]
Höllerer, T., Feiner, S., Terauchi, T., Rashid, G., Hallaway, D.: Exploring MARS:
Developing Indoor and Outdoor User Interfaces to a Mobile Augmented Reality System. Computers and Graphics, 23(6), Elsevier Publishers, Dezember 1999. Seite 779785
123
0 Literaturverzeichnis
[Ica02]
Gibson, S. & Cook, J. & Howard, T. & Hubbold, R.: ICARUS: Interactive Reconstruction from Uncalibrated Image Sequences. ACM Siggraph 2002 Conference Abstracts and Applications. San Antonio, Texas, Juli 2002.
[Ica03]
Gibson, S. & Cook, J. & Howard, T. & Hubbold, R.: ICARUS User-Guide. Advanced Interfaces Group, University of Manchester, UK, 2003.
[Kol02]
Kolbe, T. H.: Fußgängernavigation und Routenplanung in Innenstädten und Gebäuden
mit Videos und Panoramen. In: Tagungsband der Münsteraner GI-Tage 2002. IfGI
Prints, Nr. 13, Uni Münster, 2002.
http://www.ikg.uni-bonn.de/Kolbe_home/publications/gi-tage2002.pdf (letzter Zugriff:
13.07.04)
[Kol04]
Kolbe, T. H.: Augmented Videos and Panoramas for Pedestrian Navigation. In: Proceedings of the 2nd Symposium on Location Based Services & TeleCartograhphy 2004
from January, 28.-29. in Vienna. G. Gartner (ed.), Geowissenschaftliche Mitteilungen,
Schriftenreihe der Studienrichtung Vermessungswesen und Geoinformation, TU Wien,
2004.
http://www.ikg.uni-bonn.de/Kolbe_home/publications/TeleCartography2004_Kolbe.pdf
(letzter Zugriff: 13.04.04)
[Kra03]
Kray, C. & Baus, J.: A Survey of mobile guides. Workshop HCI in mobile guides at
Mobile HCI, Udine, Italy, 2003.
http://www.comp.lancs.ac.uk/~kray/pub/2003_mguides.pdf (letzter Zugriff: 14.07.04)
[Läb00]
Läbe, T., Gülch, E. und Müller, H.: Semi-automatische Verfahren in der photogrammetrischen Objekterfassung. In: PFG Heft 3, Juli 2000.
[Luk01]
Lukacin, B.: Den Durchblick bewahren. Presseinformation. 2001.
[Mid03]
Middel, A.: Virtuelle Wegweiser in Panoramen. Diplomarbeit an der Rheinischen
Friedrich-Wilhelm-Universität Bonn, 2003.
http://www.ikg.uni-bonn.de/Kolbe_home/diplomarbeiten/Diplomarbeit_Ariane
_Middel.pdf (letzter Zugriff: 13.07.04)
[Nic02]
Nichols, C.: Battle of the Matchmovers – An in-depth Review.
http://www.cgarchitect.com/news/Reviews/Review014_1.asp (letzter Zugriff: 14.07.04)
[Pie02]
Piekarski, W. & Thomas, B.: ARQuake: The Outdoor Augmented Reality Gaming
System, Communications of the ACM, 2002 Vol 45. No 1, Seite 36-38.
http://wearables.unisa.edu.au/projects/ARQuake/www/papers/piekarski-acm-comms2002.pdf (letzter Zugriff: 14.07.04)
[Pirr99]
Pirr, U.: Schrift auf dem Bildschirm. In: RZ-Mitteilungen Nr. 18, August 1999.
http://edoc.hu-berlin.de/e_rzm/archiv.php#18 (letzter Zugriff: 14.07.04)
[Qm04]
QM-Infocenter: QM-Basics.
http://www.qm-infocenter.de/qm/ (letzter Zugriff: 10.07.04)
[Rei03]
Reitmayr, G., Schmalstieg, D.: Collaborative Augmented Reality for Outdoor Navigation and Information Browsing. Proc. Symposium Location Based Services and TeleCartography, Vienna, Austria, Januar 2004. Geowissenschaftliche Mitteilungen Nr. 66,
2003.
[Ret03]
Retscher, G. & Skolaut, G.: Untersuchung von Messsensoren zum Einsatz in Navigationssystemen für Fußgänger. In ZfV 2/2003, Nr. 2, S. 118-129.
124
5.2 Objektinformationen im Straßenraum
[Rhy02]
Rhyne, T.-M., Bell, B, Feiner, S., Höllerer, T.: Visualization Viewpoints: Information
at a Glance. Juli/August 2002
http://www1.cs.columbia.edu/graphics/publications/CGandA2002.pdf (letzter Zugriff:
14.07.04)
[Saa03]
Saatkamp, J.: Koplanare Beschriftung von Straßen und Wänden. Diplomarbeit an der
Rheinischen Friedrich-Wilhelm-Universität Bonn, 2003. Seite 18-19
[Shi94]
Shi, J. & Tomasi, C.: Good features to track. In: Proc. IEEE Conference on Computer
Vision and Pattern Recognition. 1994. Seite 593-600
[Sony]
Sony Corporation: Bedienungsanleitung DCR-TRV900E, 1998.
[Ste03]
2d3 Limited: SteadyMovePro – Automatic Video Stabilization. Oxford, UK, 2003.
[Tea04]
e-teaching. Bildungswege in die InformationsGesellschaft.
http://www.e-teaching.org/glossar/alpha-kanal (letzter Zugriff: 09.07.04)
[Tom91]
Tomasi, C. & Kanade, T.: Detection and tracking of point features. Technical Report
CMU-CS-91-132, Carnegie Mellon University, April 1991
[Wac03]
Wacker, H.: Adobe Premiere 6.5 – Kompendium. Markt+Technik Verlag, 2003.
[Wer01]
Werner, E.: Geometrische Transformation von ESRI-Shapefiles. Di-plomarbeit, Technische Universität Dresden, Fakultät Forst-, Geo- und Hydrowissenschaften, Institut für
Photogrammetrie und Fernerkundung, 2001.
125