3D-Beschriftung im Objektraum für die videobasierte
Transcription
3D-Beschriftung im Objektraum für die videobasierte
RHEINISCHE FRIEDRICH-WILHELMS-UNIVERSITÄT BONN Institut für Kartographie und Geoinformation 3D-Beschriftung im Objektraum für die videobasierte Fußgängernavigation Diplomarbeit von Daniela Schulz Juli 2004 Betreuer: Prof. Dr. Lutz Plümer Dr. Thomas H. Kolbe Inhaltsverzeichnis Inhaltsverzeichnis I 1 Einleitung und Motivation 1 2 Fußgängernavigation in Innenstädten 3 3 2.1 Mobile Navigationssysteme ________________________________________________3 2.2 Konzept ________________________________________________________________7 Verfahren zur Beschriftung von Videos im Objektraum 3.1 9 Rekonstruktion der Kamerabewegung _______________________________________10 3.1.1 Kameratracking-Prozess ___________________________________________________ 10 3.1.2 Überblick über Matchmover ________________________________________________ 17 3.2 Georeferenzierung _______________________________________________________19 3.3 Praxis mit Boujou _______________________________________________________19 3.4 Überlagerung der Videos mit Beschriftung____________________________________30 3.5 Rekonstruktionsgenauigkeit _______________________________________________32 3.5.1 Vergleich der Kamerapfade_________________________________________________ 32 3.5.2 Vergleich von Bildkoordinaten ______________________________________________ 41 4 Bonner Wegevideos 4.1 55 Erstellung der Wegevideos ________________________________________________55 4.1.1 Testgebiet ______________________________________________________________ 55 4.1.2 Erfassung der Videos______________________________________________________ 56 4.1.3 Aufbereitung der Videos ___________________________________________________ 59 4.2 Bonner Wegevideos im Objektraum _________________________________________69 4.2.1 Fehlerquellen und Probleme ________________________________________________ 69 4.2.2 Beispiele und Ergebnisse___________________________________________________ 80 4.3 Beurteilung ____________________________________________________________95 4.3.1 Qualität ________________________________________________________________ 95 4.3.2 Zeitaufwand _____________________________________________________________ 99 5 3D-Beschriftung im Objektraum 101 5.1 Related Work__________________________________________________________101 5.2 Objektinformationen im Straßenraum _______________________________________105 5.2.1 Was soll beschriftet werden? _______________________________________________ 105 5.2.2 Gestaltung _____________________________________________________________ 105 5.2.3 Platzierung_____________________________________________________________ 108 6 3D-Beschriftung ausgewählter Wegevideos 117 7 Zusammenfassung und Ausblick 121 Literaturverzeichnis 123 I 1 Einleitung und Motivation Auf dem Gebiet des GPS (Global Positioning System) macht die Forschung große Fortschritte. Durch dieses System wurde überhaupt erst die OnBoardFahrzeugnavigation möglich. Immer mehr Autofahrer nutzen die Navigationsunterstützung bei ihrer Wegsuche, so dass Navigationscomputer mittlerweile als Serienausstattung in vielen Fahrzeugen angeboten werden. Im Bereich der Fußgängernavigation hat sich die Nutzung des GPS noch nicht durchgesetzt. Dabei steht einer Entwicklung, die mit der der Kfz-Navigation vergleichbar wäre, nichts mehr im Wege. Der Markt bietet inzwischen Handys und PDAs (Personal Digital Assistants) mit integriertem GPS-Empfänger an, die kleiner und leistungsfähiger denn je sind. So wird es dem mobilen Nutzer ermöglicht, im Innenstadtbereich seinen aktuellen Standort auf wenige Meter genau zu bestimmen. Im Gegensatz zur Benutzung eines herkömmlichen analogen Stadtplans besteht bei einer GPS-basierten Fußgängernavigation die Möglichkeit einer Routenführung in Echtzeit. Der weit überwiegende Teil der heute genutzten Navigationssysteme arbeitet mit „digital aufbereiteten“ Karten. Diese geben einen guten Überblick über die räumlichen Zusammenhänge und ermöglichen somit die Einordnung des eigenen Standpunktes in die Umgebung. Viele Wegsuchende sind jedoch im Kartenlesen ungeübt, so dass ihnen die Orientierung anhand einer Karte oft schwer fällt. Hinzu kommt, dass wegen der begrenzten Bildschirmauflösung der tragbaren Benutzerendgeräte die dort verwendeten Karten – im Gegensatz zu herkömmlichen „Papierkarten“ – stark abstrahiert dargestellt werden. Dadurch gehen hilfreiche Informationen verloren, was eine Orientierung zusätzlich erschwert. In der digitalen Kartographie bietet sich neben der zweidimensionalen Darstellung in Form von Karten die Möglichkeit, reale Ansichten zu verwenden, d.h. dem Betrachter wird seine aktuelle Umgebung ohne Abstraktionen gezeigt. So lassen sich komplexe Szenen darstellen, ohne dass Detailinformationen verloren gehen. Im Bereich der Augmented Reality (AR) werden reale Ansichten verwendet, die durch ortsspezifische Informationen angereichert werden. Mittels beispielsweise eines Head-Mounted-Displays können zusätzliche Informationen in Form von virtueller Beschriftung auf die reale Ansicht des Betrachters überlagert werden. Das System des Head-Mounted-Displays reagiert allerdings sehr empfindlich auf Orientierungs- und Positionierungsfehler. Schon geringe Abweichungen können zu einer derart großen Passungenauigkeit der künstlichen Objekte gegenüber der realen Ansicht führen, dass eine einfache Orientierung für den Anwender nicht mehr möglich ist. Zudem ist zweifelhaft, ob das Tragen der benötigten Hardware-Ausrüstung auf soziale Akzeptanz trifft und somit wie ein Mobiltelefon oder ein PDA zu einem annehmbaren Teil unseres alltäglichen Lebens werden kann. In dieser Arbeit wird ein neuartiges Konzept zur Fußgängernavigation und Routenplanung vorgestellt. Es basiert auf der Visualisierung georeferenzierter Wegevideos mit zusätzlicher Einfügung ortsspezifischer Informationen. Mit Hilfe von Videos und 3DModellen wird die Beschriftung im 3D-Raum untersucht. Zunächst wird ein Überblick über einige bereits bestehende mobile Navigationssysteme gegeben und deren wesentliche Komponenten werden angesprochen. Daran schließt 1 1 Einleitung und Motivation sich der detaillierte Entwurf eines Fußgängernavigationskonzeptes für Innenstädte an. Im dritten Kapitel werden die Verfahrensschritte untersucht, die für die Beschriftung der realen Ansichten im Objektraum erforderlich sind. Kapitel vier befasst sich mit der konkreten Anwendung dieser Verfahren auf Wegevideos der Bonner Innenstadt. Kapitel fünf widmet sich der kartographischen Gestaltung der ortsspezifischen Informationen. Im sechsten Kapitel werden dann Beschriftungsbeispiele für ausgewählte Videos erstellt. Kapitel sieben gibt abschließend eine Zusammenfassung sowie einen Ausblick auf zukünftige Forschungsarbeiten. 2 2 Fußgängernavigation in Innenstädten Weil die Leistung der Computer ständig steigt und ihre Größe dabei jedoch abnimmt, werden immer schneller neue mobile Anwendungssysteme entwickelt, die zu jeder Zeit und an jedem Ort einen Benutzerzugang zu Onlineressourcen versprechen. In den vergangenen Jahren sind zahlreiche Arbeiten erschienen, die sich mit der Entwicklung von mobilen Fußgängernavigationssystemen befassen. Es sind dabei meist Touristen, denen durch diese Navigationshilfen die Orientierung in einer fremden Umgebung erleichtert werden soll. Für die eigentliche Navigation werden in der Literatur unterschiedliche Lösungsansätze präsentiert. In diesem Kapitel werden zunächst wesentlichen Kriterien eines Führungssystems dargelegt und anhand von Beispielen aktueller Führungssysteme erläutert. Anschließend wird das dieser Arbeit zugrunde liegende Konzept zur Fußgängernavigation vorgestellt. 2.1 Mobile Navigationssysteme Die rasante Entwicklung technischer Geräte wie PDAs, Notebooks und Handys sowie von Diensten wie GPS, GPRS und Wireless-LAN bildet die Grundlage dafür, dass in jüngster Vergangenheit eine Vielzahl mobiler Navigationssysteme entwickelt wurde. Dieses Kapitel verfolgt das Ziel, neben einer kurzen Darstellung des aktuellen Entwicklungsstandes bereits vorhandener mobiler Navigationssysteme, Einschränkungen, Funktionen und Anforderungen mobiler Systeme vorzustellen. In einer Bestandsaufnahme [Kra03] haben die Autoren Kray und Baus neun besonders innovative und richtungweisende mobile Führungssysteme (Cyberguide, Hippie HIPS, GUIDE, CyberAssist, TellMaris, LOL@, REAL, SmartKom und Deep Map) untersucht und anhand ihrer Eigenschaften dargestellt, welche Kriterien für mobile Führungssysteme und somit auch für die Fußgängernavigation eine maßgebliche Rolle spielen. Diese Kriterien lassen sich in fünf wesentliche Punkte unterteilen: Grundfunktionen Die untersuchten Systeme unterscheiden sich bereits erheblich in ihren Grundfunktionen. Während sich der überwiegende Teil der mobilen Systeme allein auf die Führung bzw. die Navigation des Benutzers beschränkt, bieten einige Systeme dem Benutzer zusätzliche Serviceleistungen wie beispielsweise Tour-Tagebücher, Hotelreservierungen oder andere führungsübergreifende Informationen. Auch bei der Kernfunktion eines mobilen Navigationssystems, der Bestimmung der Benutzerposition, gibt es bei den Systemen verschiedene Ansätze. So greift ca. die Hälfte aller von Kraus und Baus untersuchten Systeme bei der Positionierung auf GPS zurück. Die restlichen Systeme verwenden entweder Lichtinformationen – wie beispielsweise Infrarotsender –, elektronische Kompasse oder Beschleunigungsmesser oder funktionieren manuell durch Interaktionen zwischen dem Benutzer und dem mobilen System. Diese ganz unterschiedlichen Ansätze bei den Systemen zeigen, dass es derzeit noch keine technische Möglichkeit gibt, die zu jeder Zeit eine präzise Positionsbestimmung gewährleistet: GPS arbeitet innerhalb von Gebäuden, in schmalen Straßen oder im Wald nur sehr unzuverlässig oder gar nicht. Lichtbasierte Systeme, wie beispielswei3 2 Fußgängernavigation in Innenstädten se die Infrarotsender, benötigen zur Funktion eine dichte Infrastruktur. Elektronische Kompasse und Beschleunigungsmesser werden von elektromagnetischen Feldern negativ beeinflusst. Um diese Probleme zu umgehen, sollten mobile Führungssysteme bei der Positionierung idealerweise auf mehrere positionsbestimmende Quellen zurückgreifen sollten. Einige der untersuchten Systeme wurden daher von Anfang an so konzipiert, dass sie verschiedene Sensoren unterstützen bzw. sich an zukünftige Technologien hinsichtlich der Positionsbestimmung anpassen können. Die Systeme GUIDE, LOL@, REAL und Deep Map können anhand einer Interaktion mit dem Benutzer dessen aktuelle Position ermitteln. Diese Fähigkeit reicht vom einfachen „Klicken“ in eine Karte (GUIDE) bis zu dynamischen Listen, die auf der letzten bekannten Position des Benutzers basieren (LOL@). Deep Map ist das einzige System, das ein anspruchsvolles Interaktionsmodell beinhaltet, das auf einer Positionshistorie und Benutzerwissen basiert. Situative Faktoren Der Umgang mit den situativen Faktoren während einer Führung bzw. Navigation geht über die dargestellten Grundfunktionen der mobilen Systeme hinaus. Ein Benutzer führt bei einer mobilen Navigation - im Unterschied zu einem Benutzer, der vor einem stationären PC sitzt - mehrere Aufgaben zeitgleich durch. Der mobile Benutzer bewegt sich durch den Raum und seine Situation ändert sich dabei ständig. Dementsprechend ist u. a. auch zwischen einer Navigation für Fußgänger und Autofahrer, die sich mit einer höheren Geschwindigkeit als Fußgänger fortbewegen, zu unterscheiden. Folglich wird es von den Autoren als notwendig dargestellt, dass Informationen über den Benutzer, den Kontext und die von dem Benutzer ausgeführte Tätigkeit durch das mobile System berücksichtigt werden. Die in der Studie untersuchten mobilen Führungssysteme beziehen allerdings nur knapp zur Hälfte Benutzerinformationen mit ein und unterscheiden sich zudem auch erheblich dahingehend, wie diese Informationen tatsächlich vom System umgesetzt werden. Deep Map ist dabei das einzige System, das die vom Benutzer ausgeführte Tätigkeit berücksichtigt. Anpassungsfähigkeit Ein weiterer Unterschied eines mobilen Systems zu einem stationären PC liegt in den erheblich eingeschränkten Ressourcen, wie beispielsweise der Bandbreite, dem Speicher, der Schnelligkeit und dem Display. Eine damit verbundene Funktion, die für mobile Systeme von großer Relevanz ist, ist die Fähigkeit, sich an die ständig ändernde physische und virtuelle Umgebung anzupassen. Das von Baus und anderen entwickelte mobile Führungssystem Real ist dabei das einzige System, welches sich dynamisch an variierende Ressourcen anpassen kann. Eine weitere Problematik ist das Fehlen von relevanten Informationen, wie beispielsweise situativen Faktoren oder Objekteintragungen in Datenbanken. Oft kann es passieren, dass Informationen nur teilweise oder gar nicht vorhanden sind. Die Autoren akzeptieren, dass in einem solchen Fall ein System seine Leistung vermindert, fordern aber, dass es nicht plötzlich ausfallen darf. 4 2.1 Mobile Navigationssysteme Das Wissen um die aktuelle Position des Benutzers ist ein zentraler Punkt in der Bestimmung der Situation des Benutzers. Daher sollte es für ein mobiles System unabdingbar sein, sich der veränderbaren Qualität von Positionsinformationen anzupassen. Bis auf drei der untersuchten Systeme (Cyberguide, CyberAssist und SmartKom) verfügen alle über einen solchen wichtigen Mechanismus; dies allerdings – wie bei den Grundfunktionen dargestellt – auf unterschiedlichste Art und Weise. Dabei treten solche Systeme besonders hervor, die diese Möglichkeit durch Interaktion zwischen dem Benutzer und dem System erlauben. Schnittstelle zum Benutzer und Interaktionen Für den Benutzer sind im Umgang mit einem mobilen System das Interface und die vorhandenen Mittel der Interaktion die offensichtlichsten Merkmale und daher entscheidend in der Wahrnehmung und Auffassung eines Systems. Krey und Baus untersuchten hierbei die Sprachen und die Multi-Modalität der Systeme. Bei mehr als der Hälfte der Systeme fand sich ausschließlich die Verwendung von Sprache (meist Englisch). Zwei weitere Systeme benutzen zwar mehrere Sprachen, tun dies allerdings eher auf einer statisch Weise. Lediglich die Systeme Deep Map und SmartKom unterstützen eine dynamische multilinguale Interaktion. SmartKom ist zudem das einzige System, welches über Sprache, Text und Pointing hinaus auch mit Mimik und Gestik arbeitet. Aufgrund der Tatsache, dass viele Systeme sich immer noch hauptsächlich mit den technischen Fragen beschäftigen, ist die empirische Evaluation der meisten Systeme noch keine primäre Aufgabe. Der größte Teil der untersuchten Systeme wurde, wenn überhaupt, lediglich testweise analysiert. Das GUIDE System wurde mit „richtigen“ Touristen getestet. Die Mehrheit der Anwender empfand die Möglichkeit, das GUIDE System als Reiseführer oder Karte zu nutzen, als hilfreich. Ihrer Meinung nach sei eine positionsabhängige Navigation und eine Möglichkeit der Informationsabfrage nützlich und beruhigend und sie vertrauten den Informationen und Navigationsanweisungen, die das System für sie bereitgestellt hatte. Das TellMaris Projekt wurde von einer begrenzten Anzahl von Probanden auf die Nützlichkeit einer kombinierten 3D/2D-Präsentation getestet. Dabei wurden von ihnen 3D-Karten als hilfreich empfunden. Einzelne Probanden hatten jedoch Schwierigkeiten, die 2D-Karten mit den 3D-Karten in Verbindung zu bringen. Dies war jedoch auf eine fehlende Übereinstimmung zwischen den Karten zurückzuführen. Bauweise Für den Benutzer hat die Bauweise eines Systems große Auswirkungen auf seine praktische Bedeutung. Krey und Baus untersuchten, welche Art von „Architektur“ benutzt wird, und wie die Interaktion verschiedener Komponenten realisiert wurde. Alle Systeme der Untersuchung basieren auf einer modularen doch dabei sehr unterschiedlichen Bauweise. So gibt es zum einen die Systeme wie Hippie HIPS, GUIDE und LOL@, die auf der „Client-Server“-Methode basieren. Sie bieten den Vorteil, dass viele Clients (Webbrowser) ohne weiteres hinzugefügt werden können. Jedoch sind sie 5 2 Fußgängernavigation in Innenstädten auch von einer verlässlichen Verbindung zwischen Client und Server (Webserver) abhängig, die beispielsweise in einem drahtlosen Netzwerk nicht immer gegeben ist. Cyberguide und TellMaris verwenden interagierende Applikationen. Diese Methode ist verglichen mit der „Client-Server“-Variante eher dezentral, hat aber auch den Nachteil, dass die Anwendung nur für bestimmte Geräte konstruiert und daher nicht flexibel einsetzbar ist. Außerdem kann eine Interaktion durchaus problematisch werden, weil verschiedene Programmiersprachen aufeinander treffen. REAL ist als hybrides System mit beiden Varianten ausgestattet. Somit beinhaltet es auch all ihre Vor- und Nachteile. Schließlich gibt es noch die multi-agend Systeme, wie beispielsweise Deep Map. Diese ermöglichen, dass ein Fehlen bzw. Ausfallen von bestimmten Komponenten kompensiert wird, Komponenten dynamisch hinzugefügt und weggelassen und transparent zu anderen Plattformen umgeleitet werden können. In der von Kray und Baus durchgeführten Studie wurden mobile Systeme untersucht, die meist auf eine abstrakte Kartendarstellung mit hervorgehobener Route des Benutzers zurückgreifen. Viele Menschen haben jedoch Schwierigkeiten, sich mit Hilfe einer abstrakten Karte zu orientieren. Auf Grund der Entwicklung leistungsfähiger mobiler Endgeräte ergeben sich neue multimediale Visualisierungsmöglichkeiten für die mobile digitale Kartographie. LOL@ zum Beispiel integriert zusätzlich multimediale Komponenten in Form von Panoramen und Fotos. Im nächsten Kapitel wird ein Konzept zur Fußgängernavigation vorgestellt, das im Gegensatz zu einer abstrakten kartenbasierten Darstellung eine realitätsnahe Navigationsund Orientierungshilfe wählt. Sie soll dem Betrachter einen realitätsgetreuen Eindruck seiner Umgebung vermitteln und so eine intuitive Orientierungshilfe in unbekannter Umgebung bieten. Dieses Konzept eignet sich gleichermaßen für Innenstädte wie für Innenräume komplexer Gebäude, z.B. Stadthäuser, Einkaufsparks, Flughäfen oder Universitätsgebäude [Kol02]. 6 2.2 Konzept 2.2 Konzept Das diesem Projekt zu Grunde liegende Konzept ist in [Kol02] beschrieben. Um den Visualisierungsanforderungen der mobilen digitalen Kartographie gerecht zu werden, schlägt der Autor vor, reale Ansichten in Form von Videos und Panoramen zu verwenden. Videoclips entlang der Fußgängerwege und 360°-Panoramen an den Wegkreuzungen sollen dem Wegsuchenden eine wirklichkeitsgetreue und lückenlose Darstellung der realen Umgebung bieten. In dieser Arbeit soll nicht auf die Hardwarekomponenten und ihre Eigenschaften eingegangen werden, die erforderlich sind, um das vorliegende Projekt umzusetzen, sondern es wird lediglich ein kurzer Abriss eines möglichen Realisierungsbeispiels gegeben. Das Konzept stellt geringe Anforderungen an die Rechenleistung mobiler Benutzerendgeräte; es muss nur das Abspielen von Videos möglich sein. Bietet das Endgerät des Weiteren die Möglichkeit der Positions- und Orientierungsbestimmung, dann kann der Benutzer neben dem freien Navigieren und dem Abspielen kompletter Routen die Videoclips als Orientierungshilfe nutzen. Mit Hilfe eines GPS-Empfängers und eines Sensors zur kontinuierlichen Richtungsbestimmung kann die Stelle des Videoclips dargestellt werden, die der geographischen Position und Blickrichtung des Wegsuchenden entspricht. Die ortssynchronisierte Darstellung eignet sich zudem zur Nutzung von Location Based Services (LBS). Diese ermöglichen – mittels einer Verbindung zu GIS-Datenservern – die Übermittlung von Informationen über den aktuellen Aufenthaltsort des Benutzers in Form von multimedialen Inhalten wie zum Beispiel Sprache, Texte und Filme. Die Panoramen sollen die Videodarstellung an Entscheidungspunkten ergänzen. Dazu werden die Panoramen mit den Koordinaten ihres Aufnahmestandortes assoziiert und durch Festlegung der Nordrichtung im Bild orientiert. Als Hardwarekomponente wird dann ein Sensor zur kontinuierlichen Richtungsbestimmung unerlässlich, damit die Ansicht im PDA-Display stets mit der Orientierung des mobilen Benutzers synchronisiert werden kann. Für weitere Details wird auf [Mid03] verwiesen. Für die dynamische Routenausgabe wird permanent der kürzeste Weg vom aktuellen Standort des Benutzers zu seinem gewünschten Ziel berechnet. Auf diese Weise wird dann die Route generiert, die anhand der gezeigten Videobilder den Fußgänger zum Ziel führen soll. Die Adressierung der Videoclips an die korrespondierenden Stellen in der Realität erfolgt auf der Basis eines Wegenetzgraphen. Kolbe schlägt für die Fußgängernavigation in Stadtgebieten die Modellierung eines Wegenetzes vor, die sich nach dem für Fahrzeugnavigationssysteme geschaffenen ISO-Standard GDF 4.0 richtet [Kol02]. Das Wegenetz besteht aus einer Vielzahl von Knoten und Kanten. Diese topologische Struktur ist auch für die Fußgängernavigation sinnvoll. Zwar sind Fußgänger – anders als Autofahrer – nicht an vorgegebene Fahrbahnen gebunden, doch bewegen sie sich in Stadtbereichen meist auf direktem Wege von ihrem Startpunkt zum Zielpunkt. Auch auf Plätzen wird man Bild 2.1.: Ausschnitt eines Wegegraphen hier in der Regel den kürzesten Weg über den Platz 7 2 Fußgängernavigation in Innenstädten von einer Wegmündung zur nächsten wählen. Deshalb werden die Wege über Plätze sowie um Plätze herum ebenfalls durch Graphkanten abstrahiert. Bei besonders großen Plätzen werden zusätzliche Knotenpunkte eingefügt, die ebenfalls durch jeweils eine Panoramaansicht repräsentiert werden. Alle Knoten werden mit ihren benachbarten Panoramapunkten durch Kanten verbunden. Weitere Knotenpunkte werden an den Stellen des Wegenetzgraphen eingefügt, an denen keine lineare Straßenführung besteht (in Bild 2.1 nicht dargestellt). Diesen Knotenpunkten werden jedoch keine Panoramen zugeordnet, da es sich hierbei nicht um Entscheidungspunkte handelt. Neben der Fußgängerzone und dem Platz kann sich der Fußgänger zusätzlich auf Gehwegen entlang befahrener Straßen bewegen. In dieser speziellen Situation wird für jeden Gehweg eine Kante modelliert. Da sich ein Fußgänger in einer Einbahnstraße nicht an eine bestimmte Richtung halten muss, also zu jeder Zeit seine Wegrichtung ändern kann, sind alle Kanten des Wegegraphen ungerichtet. Die Videoclips werden entlang der möglichen Fußgängerwege, die durch das Wegenetz repräsentiert werden, in beiden Richtungen aufgenommen und anschließend mit den jeweiligen Wegkanten des Wegenetzes assoziiert. Eine gewisse Diskrepanz zwischen dem dargestellten Videobild und der tatsächlichen Ansicht des Benutzers wird dabei jedoch nie ganz auszuschließen sein. Zum einen wird sie dadurch hervorgerufen, dass sich der Fußgänger nicht punktgenau entlang des Wegenetzes bewegt. Zum anderen wird wegen der begrenzten Genauigkeit der Positionsbestimmung für einen gewissen Wegeabschnitt immer nur jeweils ein Videobild geliefert, welches der ermittelten Standortposition geographisch am nächsten kommt. Informationen über die Genauigkeit von Messsensoren in Stadtbereichen werden in [Ret03] gegeben. Befinden sich die Abweichungen im Bereich weniger Meter, dann sollte der Anwender aufgrund seines menschlichen Orientierungssinnes dennoch ohne weiteres in der Lage sein, das dargestellte Videobild dem zugehörigen Bereich seiner Umgebung zuzuordnen. Die Videos werden mit ortsspezifischen Informationen in virtueller Form ergänzt, um dem Benutzer Auskunft über seine Umgebung geben zu können. Man kann hier von Augmented Videos sprechen. Kolbe schlägt für die Beschriftung in [Kol02] die Mediensynchronisationssprache SMIL vor, bei der die Ergänzung der Videobilder in 2D erfolgt. In der vorliegenden Arbeit soll hingegen die Videobeschriftung im 3DObjektraum untersuchen werden. Für diese Arbeit ergeben sich zwei zentrale Problembereiche. Zum einen muss geklärt werden, ob die Zuordnung der Videos in den Objektraum mit der Genauigkeit erreicht werden kann, die erforderlich ist, um die virtuellen Objekte mit der notwendigen Exaktheit in das Videobild integrieren zu können. Zum anderen muss, da das Konzept über die herkömmliche Kartendarstellung hinausgeht, die kartographische Gestaltung von 3D-Beschriftung selbst untersucht werden. Denn in der einschlägigen Literatur ist bisher noch nicht über Erfahrungen mit der Beschriftung in Videos berichtet worden. 8 3 Verfahren zur Beschriftung von Videos im Objektraum Um Videos im Objektraum beschriften zu können, müssen den 2D-Punkten im Videobild 3D-Koordinaten im Objektraum zugeordnet werden. Um diese Zuordnung zu realisieren, sind mehrere Arbeitsschritte notwendig. Die Abfolge dieser Arbeitsschritte wird in Bild 3.1 dargestellt. Videoaufnahme Kap. 4.1 Kap. 3.1 Kamerarekonstruktion Georeferenzierung Kap. 3.2 Kap. 3.4 Virtuelle Beschriftung Augmented Video Bild 3.1 Ablaufschema: Beschriftungsrealisierung von Videos im Objektraum 9 3 Verfahren zur Beschriftung von Videos im Objektraum In diesem Kapitel werden die einzelnen Schritte des Verfahrens näher erläutert. Zunächst wird der automatische Prozess dargestellt, der die Rekonstruktion der Kamerabewegung ermöglicht. Danach wird ein kurzer Überblick über Software-Produkte gegeben, die diesen Prozess durchführen können, sowie der Begriff Georeferenzierung erläutert. Anschließend folgt die Darstellung einer praktischen Durchführung der bisher genannten Arbeitsschritte. Um das Verfahrens zu vervollständigen, wird des Weiteren das Prinzip der Videoüberlagerung erläutert. Abschließend wird die Genauigkeit der Kamerarekonstruktion anhand des zuvor gezeigten Beispiels beschrieben. 3.1 Rekonstruktion der Kamerabewegung Möchte man ein Live-Video mit virtuellen Objekten anreichern, sollte in dem Ergebnisvideo sichergestellt sein, dass diese Objekte sich überzeugend in die Videoszene einfügen und keine abweichenden Bewegungen relativ zu den realen Objekten ausführen. Kameramatching ist der Prozess, bei dem die Bewegung einer Kamera anhand des mit dieser Kamera aufgenommenen Filmes berechnet wird. Mit Hilfe dieser Berechnung kann anschließend eine virtuelle Kamera beschrieben werden, die die reale Kamera repräsentiert. Wird die virtuelle Kamera dann in ein 3D-Graphikprogramm importiert, können virtuelle Objekte in den 3D-Raum eingefügt und anschließend durch Filmen mit Hilfe der virtuellen Kamera dem Videofilm überlagert werden. Lange Zeit war nur der umgekehrte Weg möglich. Die reale Kamera wurde bei der Aufnahme des endgültigen Filmes mittels computergesteuerter Geräte an die zuvor festgelegten Zielbewegungen angepasst. Diese Vorgehensweise erforderte eine aufwändige und zudem sehr teure Ausrüstung und wurde deshalb in der Fernsehbranche nur bei wirklich wichtigen Szenen mit Spezialeffekten von kurzer Dauer angewendet. [Dan01] Aufgrund der Tatsache, dass sich Objekte, die sich nah an der Kamera befinden, bei der Kamerabewegung durch den Raum schneller durch das Videobild bewegen als Objekte, die weiter entfernt liegen, konnte das Verfahren des Kameramatchings entwickelt werden, mit dem die Bewegung der Kamera nachgebildet werden kann. [Nic02] 3.1.1 Kameratracking-Prozess Die Fähigkeit, künstlich generierte Objekte mit Bildern einer realen Umgebung zu vermischen, ist eine grundlegende Komponente eines jeden Augmented Reality Systems. Kameramatching, oder auch Kameratracking genannt, ist ein wesentlicher Schritt auf dem Weg der Objektplatzierung im 3D-Raum. Dabei kann die Genauigkeit des Tracking-Algorithmus die wahrnehmbare Präzision der eingefügten Objekte signifikant beeinflussen. [Gib02] Das Kameratracking führt für jeden Frame eines Videos eine Schätzung der inneren und äußeren Kameraparameter zu dem Zeitpunkt aus, an dem der jeweilige Frame erfasst wird. Die äußeren Kameraparameter beschreiben die Position und Orientierung der Kamera, die inneren Kameraparameter umfassen die Brennweite (Kamerakonstante), 10 3.1 Rekonstruktion der Kamerabewegung Hauptpunkt, Pixelformfaktor (Maßstab der Achsen) und Schrägverlauf (Scherung der Achsen). Für einige Anwendungen des Augmented Reality wie zum Beispiel der Darstellung künstlicher Objekte auf einem see-through-Head-Mounted Display muss die Berechnung der vorgenannten Parameter in Echtzeit erfolgen. In solchen Fällen werden typischerweise Algorithmen verwendet, die Annahmen hinsichtlich der Eigenart der Kamerabewegung oder des Aufbaus der Szene treffen, und so die Schätzung der Kamerabewegung von einem zum nächsten Bildframe sequentiell zu verbessern. Diese Kalibrierungsverfahren sind für Abweichungen anfällig und erfordern einen hohen Grad an Genauigkeit, folglich ist ihre Anwendbarkeit begrenzt. Für Anwendungen im Bereich der offline Augmented Reality besteht kein Bedürfnis nach Kalibrierung in Echtzeit. Durch projektive Rekonstruktionen werden kleine Abschnitte der Bildersequenz nacheinander kalibriert und anschließend zusammengefügt. Dieser Vorgang des Zusammenfügens wird als Merging bezeichnet. Dabei wird versucht, jeden Fehler so gleichmäßig wie möglich auf die gesamte Bildersequenz zu verteilen, um Abweichungen zu reduzieren. In den drei folgenden Unterkapiteln wird der Kameraverfolgungsprozess detailliert dargestellt. Die Darstellung basiert auf dem von Icarus (s. Kap. 3.1.2) verwendeten Matchingverfahrens, da hierfür entsprechende Literatur [Gib02] zur Verfügung steht. Als erstes wird das Verfahren des Featuretrackings beschrieben, das auf dem weit verbreiteten Kanade-Lucas-Tomasi (KLT) Algorithmus basiert. Es werden Schätzungen für die Kamerabewegung zwischen den einzelnen Frames verwendet, um das Featuretracking zu führen und dabei die Anzahl der nicht korrekt detektierten Merkmalspunkte zu vermindern. Anschließend wird eine zuverlässige Methode der projektiven Rekonstruktion vorgestellt. Dabei werden sorgfältig ausgewählte Teilsequenzen der Videodaten durch hierarchische Algorithmen zu einer vollständigen Rekonstruktion zusammengefügt. Zum Schluss wird gezeigt, wie RANSAC-basierte Stichproben unter Berücksichtigung einer zuverlässigen Verbesserung von der projektiven zur metrischen Geometrie auf das Problem der Selbstkalibrierung angewendet werden können. Kamerakalibrierung Featuretracking Bild 3.2 Projektive Rekonstruktion Selbstkalibrierung Kamerakalibrierung mit den logischen Beziehungen ihrer einzelnen Komponenten: Featuretracking, projektive Rekonstruktion und Selbstkalibrierung. 11 3 Verfahren zur Beschriftung von Videos im Objektraum 3.1.1.1 Featuretracking Der Kalibrierungsprozess beginnt mit einer automatischen Erkennung und Verfolgung (Tracking) einer großen Anzahl von Merkmalspunkten durch die gesamte Sequenz hinweg. Der hierbei verwendete Algorithmus basiert auf dem iterativen KLT Algorithmus ([Tom91], [Shi94]). Die markanten Punkte (Features) werden mittels des Harris-CornerDetektors [Harr88] so gewählt, dass sie sich so gleichmäßig wie möglich über das gesamte Bild verteilen. Einmal gefundene Features können aufgrund schlechter Lokalisation durch den Tracking-Algorithmus oder aufgrund von Verlassen des Bildbereiches wieder verloren gehen. Sobald ein solcher Fall eintritt, werden neue Features ausgewählt, um die fehlenden Features zu ersetzen. Somit wird das FeatureTracking immer mit einer konstanten Anzahl an Features im jeweiligen Frame durchgeführt. Nachdem die Trackingphase abgeschlossen ist, wird ein zweiter Durchlauf durchgeführt, der nun aber beim Endframe beginnt und beim Startframe endet. Dieses Backtracking hat die Aufgabe, die neuen Features, die als Ersatz der verloren gegangenen Features eingefügt worden sind, zu tracken. Dieses Verfahren erhöht zwar für jedes Ersatzfeature die Laufzeit des Trackings, doch wird damit auch die Gesamtrobustheit der Kalibrierung verbessert. Der KLT Tracking-Algorithmus wird durch die Verwendung einer Schätzung der Kamerabewegung zwischen den einzelnen Frames ergänzt. Dadurch soll das Tracken der Features vom jeweiligen Frame zum nachfolgenden unterstützt werden. Dieses so genannte Guidedtracking hat sich zur signifikanten Reduzierung der Ausreißer unter den Features als nützlich erwiesen. Die Reduzierung solcher Ausreißer ist wichtig, wenn der Algorithmus der Bewegungsrekonstruktion, der im nächsten Abschnitt beschrieben wird, zuverlässig angewendet werden soll. Grundsätzlich werden Features durch die Sequenz getrackt, bis eine zuverlässige Fundamentalmatrix [Hart02] geschätzt werden kann. Diese wird dann dazu verwendet, die optimalen Featuretracks zu ermitteln und so die Kamerabewegung relativ zum Startframe zu bestimmen. Falls eine Fundamentalmatrix nicht zuverlässig bestimmt werden kann, wird stattdessen eine planare projektive Homographie [Hart02] genutzt, um das Tracken der Features dennoch unterstützen zu können. Beim Backtracking wird die Schätzung der Kamerabewegung zur Identifizierung der Tracks genutzt, deren Featureposition signifikant von ihrer geschätzten Bewegung abweicht. Dieses Vorgehen soll nun näher erläutert werden: Das Guidedtracking beginnt mit einer Auswahl möglicher Featurepunkte im Frame i = 0. Diese Features werden dann in den Frames j = i + 1, j = i + 2, usw. getrackt, bis einer der folgenden Fälle eintritt: • Das Ende der Sequenz ist erreicht oder 10 Frames wurden abgearbeitet. • Mehr als 50% der möglichen Features sind verloren gegangen. • Eine planare Homographie kann aufgrund der Featurebewegung zwischen den Frames i und j robust geschätzt werden, und der gesamte mittlere quadratische (RMS-) Fehler übersteigt einen vom Anwender festgelegten Grenzwert. 12 3.1 Rekonstruktion der Kamerabewegung Der letzte der drei Fälle ist der wichtigste: Es wird angenommen, dass, wenn die Berechnung einer planaren Homographie große Widersprüche in den Daten beinhaltet, die Fundamentalmatrix zuverlässig geschätzt werden kann. (Eine 2D-Homographie kann nur bei einer reinen Rotation der Kamera berechnete werden. Sobald die Kamera auch eine translatorische Bewegung ausführt, kann die Fundamentalmatrix bestimmt werden). Für die Schätzung der Fundamentalmatrix ergeben sich signifikante Entartungen, wenn nur kleine Kameratranslationen stattfinden. Die Epipolargeometrie [För03] kann durch die aktuellen Features aufgrund der geringen Kamerabewegung nicht eindeutig definiert werden und die Schätzungsalgorithmen werden numerisch schlecht konditioniert. Betrachtet man die Gesamtqualität der Passeigenschaft einer planaren Homographie in Verbindung mit der Bewegung der Features zwischen den Frames i und j, erhält man Hinweise darauf, wann eine Fundamentalmatrix wahrscheinlich zu gut bestimmt wurde. Für die homographische Einpassung wird typischer Weise ein Grenzwert von etwa vier Pixeln angewendet. Es hat sich erwiesen, dass dieser Wert für ein ausgeglichenes Verhältnis zwischen einer akkuraten Epipolargeometrie und einer großen Anzahl von Featuretracks sorgt. Sobald ein geeigneter Frame j gefunden ist, wird unter Verwendung eines RANSACAlgorithmus die Fundamentalmatrix zwischen den Frames i und j geschätzt. So werden die Featuregruppen identifiziert, die vom Frame i zum Frame j zuverlässig getrackt wurden. Diese Features werden dann vom Trackingalgorithmus dazu verwendet, um die Epipolargeometrie des Frames i mit jedem Frame i + 1, i + 2, …, j zu bestimmen. Anschließend wird das Tracking der Features vom Frame i bis Frame j wiederholt, um unter Hinzunahme der zuvor bestimmten Epipolargeometrie zwischen den jeweiligen zwei Frames die Features zu identifizieren, die zuvor nicht korrekt getrackt wurden. Dabei wird jedes Feature darauf geprüft, ob es sich während der Trackingphase mit einer signifikanten Entfernung zu seiner Epipolarlinie bewegt. Für die Features, die signifikant von der Bewegung abweichen, wird das Tracking abgebrochen. Sobald der Frame j erreicht wird, wird eine neue Bewegungsschätzung initiiert und das Verfahren wiederholt. Falls nach der Bearbeitung von zehn Frames keine Fundamentalmatrix bestimmt werden konnte, werden mit Hilfe der zuvor getrackten Features planare Homographien geschätzt und unter Hinzunahme der transformierten Positionen, die als Eingangsschätzung für den KLT-Trackingalgorithmus verwendet werden, die Features von einem Frame zum nächsten festgelegt. Durch das Vorgehen des Trackingalgorithmus nimmt die Anzahl der konsistenten Features zu, verringert sich der Gesamtreprojektionsfehler und verbessert sich die Stabilität der endgültigen Kalibrierung. 3.1.1.2 Projektive Rekonstruktion Sind erst einmal geeignete Features identifiziert worden, dann wird ein projektiver Rekonstruktionsalgorithmus verwendet, um für jeden Frame der Gesamtsequenz die Featurepositionen und Kameraprojektionsmatrizen zu schätzen. Da sequentielle Algorithmen von einer guten Anfangsschätzung der 3D-Geometrie (äußere Orientierung und 3D-Punkte) stark abhängig und für Abweichungen über lange Sequenzen hinweg anfäl- 13 3 Verfahren zur Beschriftung von Videos im Objektraum lig sind, wird vorgeschlagen, erst kleine Teilsequenzen (Subsequenzen) zu rekonstruieren und diese dann zu größeren Sequenzen hierarchisch zusammenzufügen (merging). Rekonstruktion der Subsequenzen Um die Rekonstruktion der Gesamtsequenz zu erhalten, werden erst durch die Auswahl einer Gruppe von Schlüsselframes (Keyframes) subsequenzielle Rekonstruktionen gebildet. Für jedes Paar der Keyframes wird eine separate projektive Rekonstruktion gebildet, die aus den Kameraprojektionsmatrizen für jeden Frame zwischen den Keyframepaaren und den Positionen der konsistenten Features, die in dem jeweiligen Frame zu sehen sind, besteht. Die Keyframes werden so gewählt, dass die Epipolargeometrie zwischen ihnen zuverlässig geschätzt werden kann und sich überschneidende Subsequenzen zusammengefügt werden können, indem die Struktur und die Frames für beide Subsequenzen genutzt werden können. Der Auswahlprozess beginnt mit der Positionierung eines Keyframes bei Frame eins. Danach werden alle möglichen Paarungen des ersten Frames mit den nachfolgenden Frames betrachtet. Für jede Paarung (i, j) wird folgender Ausdruck Sij berechnet: Sij = w 1 (1.0 − n1ij n 2ij ) + w2 1 + w 3e 2Fij . 2 e Hij n 2ij ist die Anzahl der Features, die in dem vorherigen Keyframepaar rekonstruiert wurden, und n1ij ist die Anzahl der Features, die gemeinsam in dem vorherigen und dem aktuellen Paar rekonstruiert werden können (Dabei wird für das erste Paar n 2ij die Gesamtanzahl aller möglichen Features angenommen). e Hij ist der mittlere Reprojektionsfehler, der entsteht, wenn eine planare Homographie mittels eines Zufallsalgorithmus an die Featuredaten angepasst wird. e Fij ist der mittlere Epipolarfehler, der entsteht, wenn eine Fundamentalmatrix mittels eines SimilarSampling-Algorithmus geschätzt wird. w 1,2,3 sind Gewichte, die verwendet werden, um die relative Signifikanz jeder Teilaus- wertung zu verändern. Der erste Term der obigen Gleichung bemisst den Anteil der Features, die nur in dem aktuellen Keyframepaar rekonstruiert wurden. Der zweite Term beinhaltet den Homographiefehler e Hij und wird dazu verwendet, die zwei Ansichten auf Degeneration zu testen: es kann gefolgert werden, dass je kleiner der Wert 1 / e 2Hij ist, desto schlechter stimmt die Homographie mit den Daten überein – was darauf hinweist, dass die Schätzung der Epipolargeometrie mit nur geringer Wahrscheinlichkeit degeneriert. Der Homographiefehler ist typischer Weise dann klein, wenn eine kleine Kamerabewegung zwischen den Frames vorliegt. Der Kalibrierungsalgorithmus ist bei Erkennung der Bewegungslücke in der Lage, mit dieser Situation umzugehen, so dass dieser Typ der Bewegungsabweichung keine numerischen Probleme verursacht. Unter der Annahme, dass ein Keyframe im Frame i platziert ist, sollte der nächste Keyframe so gewählt werden, dass die gewichtete Summe Sij dieser drei Terme mini14 3.1 Rekonstruktion der Kamerabewegung miert wird. Die minimale Summe wird erreicht, indem die Gleichung für die jeweiligen Paarungen des Frames i mit jedem Frame j = i + 1, … berechnet wird. Diese Berechnung wird solange fortgesetzt, bis weniger als 50% der in Frame i getrackten Features im Frame j übrig bleiben. Der Frame mit dem geringsten Wert wird dann als nächster Keyframe markiert. Dieser Prozess wird bis zum Ende der Sequenz weitergeführt, immer auf der Suche nach dem besten Partner für den jeweils aktuellen Keyframe. Bild 3.3 zeigt ein Beispiel für den oben beschriebenen Algorithmus. Es wird veranschaulicht, wie der Keyframe-Auswahlprozess die projektive Rekonstruktion der Kamerabewegung einleitet. Im unteren Teil des Bildes werden die entsprechenden Ausschnitte einer 200-Frame-langen Sequenz dargestellt. Der Graph direkt über diesen Bildausschnitten stellt die Framenummern auf der horizontalen Achse dem Betrag der Kamerabewegung, die zwischen den Frames stattfindet (und durch die Anwendung des unten beschriebenen Kalibrierungsalgorithmus erhalten wird), auf der vertikalen Achse gegenüber. Über diesem Graphen werden die Positionen der Keyframes auf einer Zeitleiste dargestellt (Es ist zu beachten, dass aus Darstellungsgründen nur ausgewählte Keyframes beziffert werden. Alle Keyframes werden mit Vertikallinien gekennzeichnet, wobei die Linien der unnummerierten Keyframes kürzer dargestellt sind. Beispielsweise befinden sich zwischen dem Frame 1 und Frame 21 vier weitere Keyframes). Bild 3.3 Keyframeauswahl, Rekonstruktion der Sub-Sequenzen und hierarchisches Zusammenfügen für eine 200-Frame-lange Videosequenz [Gib02]. Zu beachten ist die relativ kleine Kamerabewegung im mittleren Drittel der Sequenz. Wären die Keyframes gleichmäßig über die gesamte Sequenz hinweg ausgewählt worden, dann würde die Kamerabewegung, bedingt durch bei der Schätzung der Epipolargeometrie auftretende numerische Probleme, in diesem Bereich nicht gut definiert werden. Der oben beschriebene Keyframe-Auswahlalgorithmus hat jedoch das Fehlen der Kamerabewegung entdeckt und die Keyframes wurden deshalb in diesem Bereich eher spärlich positioniert. Sobald die Gruppe der Keyframepaare identifiziert ist, wird für jedes dieser Paare eine projektive Zweibild-Rekonstruktion erstellt, indem durch die Anwendung eines RANSAC-Algorithmus die Epipolargeometrie und die projektive Struktur geschätzt 15 3 Verfahren zur Beschriftung von Videos im Objektraum werden. Die Rekonstruktion einer Subsequenz wird dann durch die Schätzung der Kameraprojektionsmatrix für die nicht-Keyframes zwischen dem Keyframepaar vervollständigt. Durch eine anschließende Bündelausgleichung wird der Reprojektionsfehler minimiert und der gesamte Restfehler gleichmäßig auf die Subsequenz verteilt. Modell des hierarchischen Mergings Durch den oben beschriebenen Rekonstruktionsprozess erhalten wir projektive Rekonstruktionen für Subsequenzen. Um eine projektive Rekonstruktion der gesamten Videosequenz zu erhalten, müssen die Subsequenzen zusammengefügt werden. Für das Zusammenfügen (Merging) wird ein robustes hierarchisches Verfahren verwendet. Der Vorteil dieses Verfahrens besteht darin, dass Fehler gleichmäßig über die Gesamtsequenz verteilt, die Drift reduziert und die Genauigkeit der Objektregistrierung vergrößert wird. Die Stufen des hierarchischen Mergingmodells werden auch in Bild 3.3 dargestellt. Über der Keyframelinie wird mit der Rekonstruktion der Subsequenzen begonnen, indem Paare von Subsequenzen robust zusammengefügt werden. Dieses paarweise Merging wird für eine vom Benutzer festgelegte Anzahl von Durchgängen über alle Sequenzen hinweg weitergeführt, wobei jeder Durchgang die absolute Anzahl der Subsequenzen reduziert. In Bild 3.3 werden drei Durchgänge veranschaulicht. Auch wenn zwei sich überlappende Teilsequenzen viele Features gemeinsam haben, unterscheiden sich dennoch deren projektive Basen voneinander. Daher ist es notwendig, die Änderung der projektiven Basen zu berechnen, die eine Subsequenz auf die darauf folgende abbildet. Das Schätzungsverfahren der 3D-Homographie wird hier nicht weiter vertieft. Nähere Informationen dazu sind in [Gib02] nachzulesen. Die Schätzung der Homographie wird schließlich dazu verwendet, die zweite Subsequenz mit der ersten zu verschmelzen. Durch die Transformation der 3D-Struktur, die in beiden Subsequenzen vorgenommen wird, erhalten wir für jeden Teil der Struktur zwei mögliche Projektionsmatrizen bzw. äußere Orientierungen jeweils aus der ersten und zweiten Subsequenz, wobei diejenige mit dem kleinsten mittleren quadratischen (RMS) Reprojektionsfehler angenommen wird. Für die sich überlappenden Frames gilt das gleiche Vorgehen, d.h. es wird die Projektionsmatrix angenommen, die den kleinsten RMS Reprojektionsfehler für alle konsistenten Features aufweist. Alle übrigen Features und Projektionsmatrizen, die in der zweiten, aber nicht in der ersten Subsequenz vorliegen, werden mit der Schätzung der Projektivität transformiert. Die restlichen Features und Projektionsmatrizen, die für die erste Subsequenz vorliegen, bleiben unverändert. Nach dem Verschmelzen der beiden Subsequenzen werden inkonsistente Features erneut identifiziert. Durch die anschließende Anwendung einer Bündelausgleichung werden Fehler gleichmäßig über die neue Sequenz verteilt. Nach der Durchführung des paarweisen Mergings wird das Merging auf eine sequentielle Art weitergeführt, indem alle Subsequenzen in eine Gesamtsequenz zusammengefügt werden. Dazu wird ebenfalls eine Schätzung der Projektivität vollzogen. Der Benutzer kann durch die Anzahlbestimmung der paarweisen Mergingdurchgänge leicht in das Verhältnis Kalibrierungszeit – Genauigkeit der Rekonstruktion eingreifen. 16 3.1 Rekonstruktion der Kamerabewegung 3.1.1.3 Selbstkalibrierung Im letzten Schritt der Videosequenzkalibrierung wird die Rekonstruktion, die uns bisher auf eine unbekannte projektive Basis gebracht hat, zu einem metrischen System erweitert. Das Verhältnis zwischen der projektiven und metrischen Geometrie ist nicht bekannt, so dass eine Selbstkalibrierung gerechnet werden muss. Zur Selbstkalibrierung wird ein RANSAC-basierter Algorithmus genutzt, um die Kalibrierungsmatrix zu bestimmen. Hierzu werden projektive Matrizen zufällig ausgewählter Sequenzen in einen Algorithmus nach M. Pollefeys (2001) gespeist, der die Kalibrierungsmatrix berechnen kann. Abschließend können die Kameraparameter für jeden einzelnen Frame der gesamten Videosequenz ermittelt werden. 3.1.2 Überblick über Matchmover Eine Matchmover-Software verfolgt in jedem Bild eines Videofilms markante Punkte der dargestellten Szene. Diese Punkte in 2D werden dann automatisch zu vielen Punktpfaden verlinkt, die die jeweilige Bewegung eines markanten Punktes darstellen. Mit Hilfe der Punktbewegungen erfolgt anschließend eine hochkomplexe 3D-Berechnung, die die Parameter der Kamera zu jedem Zeitpunkt des Videos als Lösung hat. Unter Verwendung statistischer Analysen werden alle Bewegungsverläufe, die nicht mit der Gesamtbewegung der markanten Punkte übereinstimmen, automatisch verworfen. Somit ist ein Matchmover in der Lage, die Bewegungen von nicht-statischen Objekten wie zum Beispiel Vögel oder Passanten zu erkennen und bei der Rekonstruktion der Kamera zu ignorieren. Der Markt stellt verschiedene Kameratracking-Softwareprodukte zur Verfügung. Diese unterscheiden sich in Preis und Leistung. Manche Matchmover übernehmen die Verfolgung markanter Punkte automatisch, bei anderen wiederum muss die Verfolgung durch den Anwender manuell durchgeführt werden. Dieses Verfahren nimmt sehr viel Zeit in Anspruch. Zudem ist die Genauigkeit der Kameralösung stark von der Erfahrung des Anwenders abhängig. Eines der führenden Matchmover-Produkte ist Boujou. Es wurde im Jahre 1999 von der 2d3 Gesellschaft entwickelt und hat neben zahlreichen Auszeichnungen sogar einen Emmy (amerikanischer Fernsehpreis) gewonnen. Der Name der Gesellschaft, 2d3, reflektiert das Konzept: aus den 2D-Videodaten werden die 3D-Daten der Kamerabewegung ermittelt. Neben der Berechnung der Kamerabewegung stellt Boujou weitere Funktionen zur Verfügung. Es kann für den aktuellen Videofilm die Krümmung der Kameralinse kalibriert werden. Objekte, die beim Kameramatching nicht berücksichtigt werden sollen, lassen sich durch eine „Maske“ verdecken. Fährt beispielsweise ein Auto durch das Videobild, kann es durch Verwendung einer Maske bei der Erstellung der Kameralösung von Boujou ignoriert werden. Des Weiteren können 3D-Objekte in die Boujou-Szene eingefügt werden. So kann die berechnete Kamerabewegung auf Korrektheit kontrolliert werden, indem untersucht wird, ob sich das Objekt beim Vorwärtslauf des Videos in die Szene einfügt. In [Nic02] vergleicht der Autor die Version 2.0 von Boujou mit zwei weiteren Matchmovern: MatchMover Pro 2.5 und SceneGenie 1.5. 17 3 Verfahren zur Beschriftung von Videos im Objektraum Das Angebot von MatchMover Pro 2.5, entwickelt von REALVIZ, ist dem von Boujou sehr ähnlich. Es ist ebenfalls in der Lage, das Tracking automatisch durchzuführen. Dieser Prozess wird von Boujou jedoch in der Hälfte der Zeit, die MatchMover Pro dafür benötigt, bewältigt. Des Weiteren werden in dem untersuchten Video von Boujou dreimal so viele Punkte gefunden, wie es bei MatchMover der Fall ist. Boujou ist imstande, auch in Bereichen des Videofilms, die wenig Kontrastunterschiede aufweisen, Punkte zu identifizieren, wo andere Matchmover versagen. Diese Eigenschaft ist von Vorteil, da die Genauigkeit der Kameralösung mit der Anzahl gefundener Punkte steigt. Werden beispielsweise nur 20 Pfade detektiert und einer dieser Pfade ist fehlerhaft, dann kann dies relativ große Auswirkungen auf die Genauigkeit der Kamerarekonstruktion haben. Sind jedoch 100 Pfade im Videobild detektiert worden, können statistische Analysen dazu genutzt werden, Punkte, die inkonsistente Ergebnisse produzieren, zu eliminieren. Auf diese Weise erhält Boujou eine große Anzahl konsistenter und hochgenauer Bewegungsverläufe. Diese Fähigkeit von Boujou könnte der Grund für die Preisdifferenz, die zu den anderen Matchmovern besteht, sein. Der aktuelle Preis von Boujou beträgt 10.000 Dollar und wird daher nicht oft in Büros kleiner Firmen vorgefunden. Der Preis von MatchMover Pro liegt bei 5.000 Dollar, SceneGenie kostet lediglich 1.000 Dollar. Dafür bietet SceneGenie nicht die automatische Punktverfolgung an. Der Autor von [Nic02] folgert, dass Boujou für große Projekte mit einem großen Budget am besten geeignet ist, da auch die Filmindustrie auf Boujou vertraut. Trotzdem macht MatchMover Pro bei halbem Preis Boujou Konkurrenz. Auch wenn in Bereichen mit niedrigen Kontrastdifferenzen das Tracken zu wünschen übrig lässt, können mit MatchMover Pro gute Ergebnisse erzielt werden. Falls man sein Geld nicht für Software ausgeben möchte und viel Zeit zur Verfügung hat, dann ist SceneGenie das richtige Werkzeug. Icarus ist ein weiteres führendes Matchmover-Produkt, wurde von der Universität von Manchester entwickelt und war bis März 2003 frei erhältlich. Icarus ist neben der Berechnung der Kamerabewegung dazu in der Lage, die geometrische Darstellung der Umgebung zu unterstützen. Die Texturen der modellierten Flächen können automatisch aus den Videobildern extrahiert und auf das rekonstruierte Modell abgebildet werden (s. Bild 3.4). Diese Funktion kann bei der Anreicherung einer Videosequenz mit künstlichen Objekten dazu genutzt werden, Verdeckungen zwischen realen und künstlichen Objekten in der Szenendarstellung zu zerlegen. Somit können Teile der künstlichen Objekte, die im Videobild durch das rekonstruiert Modell verdeckt werden, transparent dargestellt werden. Bild 3.4 18 Rekonstruktion der Szenengeometrie: Links: Videobild. Rechts: rekonstruiertes Modell. 3.2 Georeferenzierung Für die vorliegende Arbeit sind sowohl mit Boujou in der Version 2.3.1 als auch mit Icarus Tests durchgeführt worden. Da Icarus jedoch keine für dieses Projekt hinreichende Lösung der Georeferenzierung (s. Kapitel 3.2) bietet, wird Boujou für die weitere Videobearbeitung verwendet. 3.2 Georeferenzierung Das Kameramatching liefert als Ergebnis eine Rekonstruktion des Kamerapfades sowie 3D-Koordinaten markanter Features. Die Objektpositionen sind dabei bis auf eine räumliche Ähnlichkeitstransformation bestimmbar und befinden sich daher in einem lokalen Modellsystem. Um die lokale Geometrie mit dem für die Beschriftung notwendigem 3D-Modell in Bezug zu bringen, muss das lokale Koordinatensystem in das globale Koordinatensystem, in welchem sich das 3D-Modell befindet, überführt werden. Zwei räumliche Koordinatensysteme lassen sich durch drei Translationen ∆X, ∆Y, ∆Z und drei Rotationen γ, β und α – positive Drehungen um die Z-, Y- und X-Achsen im Uhrzeigersinn vom positiven Ende der Achsen aus gesehen – ineinander überführen [Wer01]. Ein so transformiertes Objekt ist mit dem ursprünglichen kongruent, bei Einführung eines Maßstabfaktors m sind sie einander ähnlich. Die sieben Transformationsparameter lassen sich aus der Beobachtung identischer Punkte, so genannter Passpunkte, deren Koordinaten in beiden Systemen bekannt sind, ermitteln. Demnach reicht eine Festlegung von sieben Passpunktinformationen aus, um eine eindeutige Georeferenzierung des Kamerapfades zu gewährleisten. 3.3 Praxis mit Boujou Anhand einer virtuellen Kamerafahrt durch ein 3D-Modell von Solingen, die mit Hilfe der 3D-Graphiksoftware 3D Studio Max generiert wurde, soll das Verfahren zur Realisierung der Beschriftung im 3D-Objektraum praktisch dargestellt werden. Anmerkung: Die Kamerakonstante wird oft mit der Brennweite einer Kamera verwechselt. Dies sind jedoch zwei unterschiedliche Parameter. Die Brennweite beschreibt den Abstand auf der optischen Achse zwischen Brennpunkt F und Hauptebene. Die Bildebene liegt i. a. nicht senkrecht zur optischen Achse. Da die Bildebene nicht notwendigerweise durch den Brennpunkt F geht, etwa beim Fokussieren auf eine endliche Distanz, ist für die Abbildung die Kamerakonstante c wesentlich, die daher nicht mit der Brennweite f übereinstimmt. Die Kamerakonstante c ist eine rein rechnerische Größe, welche die Distanz vom Projektionszentrum O zum Hauptpunkt H beschreibt. Die Richtung HO wird als Aufnahmerichtung bezeichnet. Aus Bildern kann ohne Zusatzinformationen nur die Kamerakonstante bestimmt werden und nicht die (Linsen-) Brennweite. Somit verwendet Boujou für die Kamerakonstante fälschlicherweise den Begriff „focal length“ (Brennweite). Zur einheitlichen Darstellung wird für die Bezeichnung der Kamerakonstante zwar der Begriff „Brennweite“ verwendet, damit ist jedoch immer die Kamerakonstante gemeint. [För03] 19 3 Verfahren zur Beschriftung von Videos im Objektraum Bild 3.5 Geometrie der optischen Abbildung [För03] Die Benutzeroberfläche von Boujou ist sehr übersichtlich und wirkt nicht zu überladen. Auf der linken Seite befindet sich die Befehlsleiste, die alle Schritte in der Reihenfolge auflistet, die zum Tracken einer Sequenz abgearbeitet werden müssen. Neben den einzelnen Befehlen befinden sich kleine Karos, mit denen die Bedeutung des entsprechenden Arbeitsschrittes bewertet wird: drei rote Karos besagen, dass dieser Schritt von essentieller Bedeutung ist; die Befehle hinter zwei Karos gelten als empfehlenswert; ein Karo deutet auf die Möglichkeit zusätzlicher Erweiterungsaufgaben hin. Unerfahrene Anwender sollen sich auf diese Weise so schnell wie möglich im Arbeitsangebot zurechtfinden und in der Lage sein, in kurzer Zeit qualitativ gute Ergebnisse zu erzielen. 20 3.3 Praxis mit Boujou Bild 3.6 Benutzeroberfläche von Boujou. ♦ „Import sequence“ Der erste Schritt zur Bestimmung der Kameraparameter ist, was sich auch aus der Reihenfolge der Auflistung in der Befehlsleiste ergibt, das Importieren der gewünschten Videosequenz. Mit einem Doppelklick auf den zugehörigen Befehl Import sequence wird der Benutzer automatisch durch die relevanten Dialogfenster geführt. Mit Hilfe des ersten Dialogfensters Import Sequence lässt sich die zu bearbeitende Videosequenz anwählen. Zunächst muss hinsichtlich der Interlace-Optionen Not Interlaced ausgewählt werden, da der künstliche Videofilm aus Vollbildern besteht. Der Bewegungstyp der Kamera Free Move setzt bei den anstehenden Berechungen eine in Translation und Rotation frei bewegliche Kamera voraus. Zum Schluss muss die Frequenz der Framewiedergabe (Framerate, s. Kapitel 4.1.3) noch auf 25 Bilder pro Sekunde eingestellt werden, da dieser Wert später auch beim Szenenexport verwendet wird. Bei Bestätigung der Sequenz erscheint nun das Camera Fenster. Der verwendete Videofilm besitzt eine Bildgröße von 768x576 Pixel. Boujou suggeriert eigenständig eine CCD-Chipgröße der Kamera mit 20,12x15,09 [mm]. Da beide Größen ein Seitenverhältnis von 1,333 besitzen, liegt das Pixelverhältnis folglich bei 1:1. Hinsichtlich der Brennweite stehen drei Einstellungsoptionen zur Auswahl: User Fixed, Constant oder Variable. Da das vorliegende Video mit einer konstanten Brennweite der Kamera entstanden ist, wird hier Constant gewählt. Bei dieser Einstellung liegt nach dem Kameratracking eine Schätzung bezüglich der verwendeten Brennweite vor. Allgemein gilt: je mehr Informationen Boujou über die Szenerie erhält, desto akkurater fällt die berechnete Lösung aus. Tests 21 3 Verfahren zur Beschriftung von Videos im Objektraum haben jedoch gezeigt, dass die Ergebnisse besser sind, wenn Boujou eine Brennweite schätzt, mit deren Wert minimale Fehler vorliegen. Es macht nur Sinn, die Brennweite, falls bekannt, nachträglich anzugeben, wenn Boujou mit der Schätzung relativ weit vom Originalwert entfernt liegt. Die ausgewählte Videosequenz wird anschließend in das Bildfenster platziert. Unterhalb des Bildfensters befindet sich eine Zeitleiste. Sie dient zur Navigation durch die Videosequenz und gibt Auskunft über die aktuelle Frameposition und die Länge der Sequenz. Über dem Bildfenster befindet sich die Filmsteuerung. Lässt man durch Betätigung des Playbuttons die Sequenz abspielen, erfolgt die erste Wiedergabe nur sehr langsam, da Boujou die Videobilder zuvor in den Arbeitsspeicher laden muss. Auf der linken Seite unterhalb der Befehlsleiste befindet sich das Summary-Fenster. Dort werden beim Auftreten von etwaigen Problemen Warnmeldungen angezeigt und Tipps zur Behebung gegeben. Darunter ist das History-Fenster angeordnet. Es zeigt die zuletzt durchgeführten Aktionen an und bietet die Möglichkeit, Aktionen durch einen Doppelklick rückgängig zumachen. ♦ „Track features“ Der nächste wesentliche Schritt ist die Ausführung des Featuretrackings. Search distance kontrolliert die Größe des Suchfensters, in dem Boujou im jeweiligen Frame nach einem Feature sucht, das Teil des zu verfolgenden Tracks zu sein scheint. Der Wert beschreibt das Verhältnis zwischen dem Suchfenster in Pixel und der Gesamtpixelzahl des Videobildes in gegebener Richtung. Boujou gibt einen Standardwert von 0,06 bzw. 6% der Gesamtpixelzahl des Videobildes vor. Für die überwiegenden Fälle ist dieser Wert als geeignet anzusehen und kann deshalb hier unverändert übernommen werden. Bild 3.7 Erweiterte Eigenschaften des Featuretrackings. Die Tracks werden im Bildfenster während der Berechnung sichtbar. Die Dauer des Featuretrackings hängt von der Filmlänge und Bildstruktur – insbesondere von dem Kontrastreichtum – ab. In dem vorliegenden Fall benötigt Boujou für einen Film mit einer Länge von 12 Sekunden ca. 25 Minuten. 22 3.3 Praxis mit Boujou Bild 3.8 Featuretracking. Nach der erfolgreichen Durchführung des Featuretrackings kann man sich nähere Informationen hierzu anzeigen lassen. Die Qualität des Feature Trackings wird durch die Anzeige der absoluten Anzahl aller Tracks, der Anzahl der Tracks, die in mehr als 20 Frames durchgehend verfolgt werden konnten, die maximale Tracklänge sowie die durchschnittliche Tracklänge beschrieben. Bild 3.9 Feature Tracking info. ♦ „Track camera“ Wählt man während des Featuretrackings Track Camera on completion aus, dann startet das KameraTracking automatisch nach Beendigung des Featuretrackings. Für den verwendeten Film benötigt Boujou ca. fünf Minuten. Dabei durchläuft Boujou eine Anzahl vollständig automatisierter Prozesse, um die Kamera für jedes Frame zu rekonstruieren. Nach Beendigung des Kameratrackings erscheinen gelbe und zyanfarbene Punkte, die auf das Videobild überlagert werden. Diese Punkte (Prediktions) stellen die rekonstruierten 3D-Positionen von Features dar, die mittels der aktuellen Kameraparameter berechnet wurden. Bei einem gelben Punkt ist das betreffende Feature im aktuellen Bild sichtbar, während es bei einem zyanfarbenen Punkt im aktuellen Videobild nicht sichtbar ist. 23 3 Verfahren zur Beschriftung von Videos im Objektraum Bild 3.10 Prediktions: Schätzung der 3D-Positionen robust getrackter Features. Nachdem das KameraTracking vollzogen ist, wird die 3D-Ansicht der Szenengeometrie verfügbar. Dort kann die berechnete 3D-Szenerie von jedem Winkel aus betrachtet werden. Zusätzlich zu den 3D-Positionen der Prediktions wird der Kamerapfad als rote Linie sichtbar. Wahlweise kann man sich auch statt des Kamerapfades die individuelle Kameraposition für jeden einzelnen Frame anzeigen lassen. Dabei wird zusätzlich die jeweilige Kamerablickrichtung als Linie dargestellt, wobei die Länge dieser Linie proportional zur Brennweite ist. Bild 3.11 24 3D-Ansicht des Kamerapfades und der Prediktions. 3.3 Praxis mit Boujou Auch nach dem KameraTracking stellt Boujou Ergebnisse zur Qualitätsbeurteilung bereit. Im Kameratracking-Auswertungsfenster wird die Brennweite der berechneten Kamera angezeigt. Nachfolgend wird für jeden Frame die Verbesserung hinsichtlich der Genauigkeit des berechneten Kamerapfades dargestellt. Sie wird durch die Differenz der Prediktions zwischen den berechneten 2D-Positionen und den gemessenen Positionen im jeweiligen Frame ermittelt. Ist eine Verbesserung eines Frames signifikant größer als die der ihn umgebenden Frames, ist das ein Hinweis dafür, dass in diesem Frame eine Problematik vorliegt. Die Fehler der einzelnen Prediktions lassen sich ebenfalls dem Videobild überlagern. Sie werden Bild 3.12 Informationsfenster zum als violette Linien gekennzeichnet und vergrößert Kameratracking. um den Faktor zehn dargestellt, so dass sie gut erkennbar sind. Je länger eine solche Linie ist, desto größer ist die Differenz zwischen der berechneten und der gemessenen Position des Features im Videobild. Bild 3.13 Fehleranzeige der im aktuellen Videobild sichtbaren Prediktions. 25 3 Verfahren zur Beschriftung von Videos im Objektraum ♦ „Edit tracks and locators“ Laut Boujou reichen die automatischen Berechnungsschritte in 80 Prozent der Fälle für ein akkurates Ergebnis aus. Die Qualität des Kamerapfades ist von der Qualität der Featuretracks abhängig, die Boujou in der Videosequenz detektiert. Aber nicht immer ist Boujou in der Lage, genügend Tracks zu finden. Das KameraTracking kann dann als erfolgreich bewertet werden, wenn folgende Punkte kumulativ erfüllt werden: • Mehrere lange Tracks wurden detektiert. • In jedem Frame sollten mindestens 10-15 Tracks gleichmäßig verteilt sein. • Die getrackten Features sollten im dreidimensionalen Raum verteilt sein und nicht in einer Ebene liegen. Sollte das KameraTracking nicht erfolgreich ausfallen, stellt Boujou eine Reihe von Bearbeitungsmöglichkeiten zur Verfügung, um das Ergebnis zu verbessern: Delete Tracks Tracks, die sich auf T-Verzweigungen (T-Junctions) beziehen, sollten gelöscht werden. T-Verzweigungen entstehen dann, wenn ein Vordergrundobjekt ein Objekt im Hintergrund in einem Bild überlappt. In Bild 3.14 ist eine Kamera auf einen Zylinder gerichtet, der sich vor einem Würfel befindet. Es würden Features an den Ecken des Würfels sowie an den scheinbaren Schnittpunkten zwischen den Vertikalen des Zylinders und den Horizontalen des Würfels detektiert. Features an T-Verzweigungen sind jedoch keine wahren Features. Vom linken zum rechten Bild hat sich die Kamera seitlich und aufwärts bewegt. In der Regel stellen Features an TVerzweigungen kein Problem für die Kameralösung dar, weil die Bewegung dieser Features inkonsistent gegenüber allen in der Szene detektierten wahren Features ist. Sind jedoch viele T-Verzweigungen in einer Szene vorhanden, können diese das Kameratracking ungünstig beeinflussen. Bild 3.14 T-Junctions. To join tracks Wird ein Featuretrack aufgrund von Detektierungsschwierigkeiten in einem Frame unterbrochen – wenn beispielsweise ein Laternenpfahl das betroffenen Feature für die Dauer von einigen Frames verdeckt –, ist es sinnvoll, die Trackbruchstücke zu einem Track zusammenzufügen. 26 3.3 Praxis mit Boujou Gold Tracks Wird einem Feature die Eigenschaft Gold zugewiesen, kann dem Trackingprozess auf zwei Arten geholfen werden. Zum einen versucht das automatische Featuretracking Tracks zu generieren, die mit den Goldtracks konsistent sind. Bei jedem Durchlauf wird die Anzahl der getrackten Features erhöht. Die Anzahl der erstellten Features kann im FeatureTracking Summary kontrolliert werden. Es empfiehlt sich, den Prozess so oft zu wiederholen, bis sich die Anzahl der erstellten Features nicht mehr wesentlich erhöht. Zum anderen wird Boujou dazu „gezwungen“, dieses Feature bei der Lösung der Kamerarekonstruktion zu verwenden. So kann verhindert werden, dass Boujou wertvolle Tracks bei der Durchführung des Kameratrackings verwirft. Zu Beginn der Sequenz wandern Features im Vordergrund des Videobildes aus dem Bildausschnitt. Aufgrund der geringen Tracklänge bewertet Boujou diese Feature als inkonsistent und berechnet für sie keine 3D-Position. Dies hat zur Folge, dass Prediktions zumeist am Ende der Videosequenz zu finden sind. Damit die 3DSzenenstruktur durch die Prediktions gleichmäßig und ausreichend beschrieben wird, empfiehlt es sich, im Vordergrund einige Goldtracks einzuführen. Es ist jedoch bei der Änderung der Featureeigenschaft immer darauf zu achten, dass nur die Eigenschaft bei „guten“ und langen Tracks auf Gold gesetzt wird, da sonst das Ergebnis ungewollt verschlechtert werden kann. Werden zu viele Tracks auf Gold eingestellt, wird durch einen „Zwangsüberschuss“ das Kameratracking verlangsamt. Manual Locators Ein Locator ist ein – vom Benutzer manuell erstelltes – Feature und bekommt immer die Eigenschaft Gold zugeschrieben. Hat Boujou Schwierigkeiten, genügend Features zu detektieren, dann kann es hilfreich sein, wenn der Benutzer vor dem Featuretracking eigene Features erstellt. Wenn anschließend das FeatureTracking erneut durchgeführt wird, detektiert Boujou zusätzlich die Tracks, die in ihren Bewegungen mit den Bewegungen der manuell erstellten Features konsistent sind. Erscheint ein Feature wieder im Videobild, nachdem es für mehrere Frames für Boujou nicht zu finden war, dann kann ein Locatortrack dazu verwendet werden, die zugehörigen Prediktions miteinander zu verknüpfen. Search Window Weist der zu bearbeitende Videofilm viele sich wiederholende Strukturen auf – wie zum Beispiel die Fenster eines Bürogebäudes –, dann kann durch die Verkleinerung des Suchfensters verhindert werden, dass die Featuretracks von einer Ecke eines Fensters zur nächsten Ecke springen. Bewegt sich die Kamera sehr schnell vorwärts, sollte der Wert des Suchfensters vergrößert werden. So wird gewährleistet, dass sich das gesuchte Feature nicht außerhalb des Suchfensters befindet, sondern gefunden wird. 27 3 Verfahren zur Beschriftung von Videos im Objektraum Es hat sich gezeigt, dass die nachträgliche Bearbeitung der Features für das Video von Solingen keine Verbesserung der Kamerarekonstruktion mit sich bringt. Somit sprechen die statistischen Analysen und Prozesse für eine konsistente Berechnung in Boujou. ♦ „Describe scene geometry“ Um die Kamerarekonstruktion mit Hilfe von Passpunkten eindeutig zu georeferenzieren, bietet Boujou die Option, SurveyPoints zu definieren. Dazu werden drei Tracks oder Prediktions ausgewählt, deren 3D-Koordinaten zuvor aus dem vorhandenen 3DModell abgegriffen werden. Bei der Verwendung von Featuretracks als Surveypunkte muss ihnen die Eigenschaft Gold hinzugefügt werden. Anschließend empfiehlt Boujou das Kameratracking erneut durchzuführen, da die ausgewählten Features nun bei der Kameralösung nicht verworfen werden können. Die X-, Y- und Z-Koordinaten werden jeweils der zugehörigen Punktauswahl zugewiesen. Obwohl die Festlegung von sieben Koordinateninformationen ausreicht, müssen jeweils alle drei Koordinateninformationen in die betreffenden Felder eingetragen werden. Mit der Angabe von neun Informationen entsteht eine Parameterüberbestimmung, so dass Boujou intern eine Ausgleichung berechnet. Sollten für die Auswahl der Surveypunkte an den gewünschten Stellen des Videobildes keine Features oder Prediktions vorhanden sein, können dort Locators gesetzt werden. Beim Einfügen eines Locators erscheint an der entsprechenden Stelle eine kleine grüne Box. Anschließend muss in einem anderen Frame die Position des Locators erneut ausgewählt werden. Da bereits eine Lösung für die Kamera vorhanden ist, erscheint ein kleines Pluszeichen in der Nähe der Box, das die Position des eingefügten Locators mit Hilfe der berechneten Kameraparameter bestimmt. Das Pluszeichen rückt durch das manuelle Hinzufügen der Locatorposition in weiteren Frames immer näher zur Mitte der Box. Erscheint das Pluszeichen nach Festlegung der Locatorposition in mindestens vier gleichmäßig auf die ganze Videosequenz verteilten Frames im Zentrum der Box, kann auf ein Fortsetzen der Locatorplatzierung in weiteren Frames verzichtet werden. Anschließend wird die bereits bestehende Lösung der Kamera durch die Auswahl des Kameratracking Adjust only - Modus aktualisiert. Dessen Durchführung geschieht dann um einiges schneller, als die Berechnung einer komplett neuen Lösung der Kamera. Bild 3.15 Auswahlfenster der Kameratracking-Methode Wird die Szenengeometrie georeferenziert, bedeutet das nicht, dass sich die relativen Positionen der 3D-Punkte ändern. Es wird unter Berücksichtigung der Bedingungen aller Georeferenzierungspunkte die bestmögliche Einpassung der 3D-Szene in das absolute Koordinatensystem berechnet. Ist die Position im Raum eines Georeferenzierungspunktes nicht exakt ermittelt worden, können mitunter große Abweichungen ge28 3.3 Praxis mit Boujou genüber ihrer tatsächlichen Lage entstehen. Daher ist darauf zu achten, dass nur akkurate 3D-Punkte für die Georeferenzierung verwendet werden. Es gelten im Allgemeinen die 3D-Punkte als akkurat, deren FeatureTracks besonders lang sind. Die Anzeige des Fehler-Layers kann bei der Auswahl der Georeferenzierungspunkte genutzt werden. Des Weiteren ist darauf zu achten, dass die für die Georeferenzierung verwendeten Punkte im 3D-Raum so weit wie möglich von einander entfernt liegen, um eine mögliche Fehlerfortpflanzung ihrer 3D-Positionsabweichungen gering zu halten. Bild 3.16 Auswahl der Surveypunkte. ♦ „Export camera track“ Der letzte wesentliche Schritt in Boujou ist der Export der Kamerarekonstruktion in das gewünschte 3D-Graphikprogramm. Boujou bietet die Möglichkeit, eine Max Script Datei („.ms“) für den Import in die Graphiksoftware 3D Studio Max zu erstellen. Die für den Export verfügbaren Informationen beinhalten die Bewegung der Kamera, die durch die Position, Orientierung und Brennweite der Kamera für jedes Frame beschrieben wird, sowie die dreidimensionale Positionen der zuvor vom Benutzer ausgewählten Features. Bei der Ausführung des Exports gibt Boujou eine Hinweismeldung aus, dass in 3D Studio Max die Chipgröße – Boujou verwendet den irreführenden Begriff „aperture width“ (Blendenweite) – mit einem konkreten Wert von 20,12 angegeben werden muss, um eine korrekte Bildberechnung in 3D Studio Max zu gewährleisten. 29 3 Verfahren zur Beschriftung von Videos im Objektraum 3.4 Überlagerung der Videos mit Beschriftung Die Beschriftung der Videos soll mit der Graphiksoftware 3D Studio Max R3.1 erfolgen. Dazu muss die Rekonstruktion der Videoszene importiert werden. Dies geschieht, indem man die zuvor in Boujou erstellte Max Script Datei ausführt. Anschließend erscheinen im Arbeitsfenster eine virtuelle Kamera und die 3D-Positionen der zuvor in Boujou ausgewählten Features. Wenn Boujou die Max Script Datei erstellt, wird die berechnete Brennweite mit Hilfe der CCD-Chipgröße in Millimeter in ein Sichtfeld (field of view) konvertiert. Sobald die Szene in 3D Studio Max importiert wird, wird das Sichtfeld unter Verwendung des beim Export von Boujou angegebenen Wertes der Chipgröße von 20,12 – der vom Anwender für die „aperture width“ der Kamera angeben werden muss – wieder in die aktuelle Brennweite konvertiert. Als nächstes können künstliche Beschriftungsobjekte in die 3D-Szene eingefügt werden. Bei ihrer Platzierung kann man sich mit Hilfe des zur Verfügung stehenden 3DModells von Solingen an den Gebäudewänden hinsichtlich der Lage und Höhe orientieren. Anschließend wird der endgültige Videofilm mit Hilfe der in Boujou erstellten virtuellen Kamera berechnet. In der Fachsprache der Computergraphik nennt man die Berechnung von Videofilmen oder auch Videobildern rendern. Da nur die künstlichen Beschriftungsobjekte dem ursprünglichen Videofilm hinzugefügt werden sollen, muss das 3D-Gebäudemodell aus der Szene ausgeblendet werden. Für das Rendern von Einzelbildern muss die zugehörige Videosequenz als Hintergrundbild geladen werden. Die Einstellungen für die Durchführung der Videoüberlagerung in 3D Studio Max werden im Folgenden kurz dargestellt. Bild 3.17 zeigt die Darstellung des VideoPost-Fensters von 3D Studio Max im Anschluss an die unten beschriebenen Arbeitsschritte. Es ist bei jedem Arbeitsschritt darauf zu achten, dass die Einstellungen für die jeweilige Filmlänge identisch sind. Die Zeitkonfiguration der Ausgabesequenz muss mit der der Eingangssequenz übereinstimmen, d.h. die Framerate muss mit 25 Bildern pro Sekunde auf PAL eingestellt werden (s. Kap. 4.1 und 4.2). Bild 3.17 30 Videopost-Fenster für die Videoüberlagerung. 3.4 Überlagerung der Videos mit Beschriftung Die Eingabe der folgenden Befehle in festgelegter Reihenfolge ermöglicht eine Überlagerung des originalen Videofilms mit künstlicher Beschriftung: “Add Image Input Event” Als erster Schritt wird das originale Video, das mit der virtuellen Beschriftung überlagert werden soll, geöffnet. “Add Scene Event“ Danach wird die Kamera ausgewählt, mit der die aktuelle Szene gerendert werden soll. Nun müssen die beiden erstellten Pfade durch Anklicken ausgewählt werden, damit der nächste benötigte Button erscheint: “Add Image Layer Event” Neben den drei Kanälen Rot, Grün und Blau gibt es einen vierten Kanal bei der Farbdarstellung auf Monitoren, den Alpha-Kanal. Er beschreibt das Bild mittels 256 Graustufen und bestimmt die Sichtbarkeit bzw. Deckkraft des jeweiligen Pixels in einem Bild. Ein weißer Pixel (255) im Alpha-Kanal erzeugt einen 100% sichtbaren Pixel im Gesamt-Bild. Ein schwarzer Pixel (0) im Alpha-Kanal lässt das Gesamt-Bild an dieser Stelle durchsichtig erscheinen. [Tea04]. Mit Hilfe des Alpha-Kanals wird nur die virtuelle Beschriftung dem originalen Video überlagert. “Add Image Output Event” An dieser Stelle werden für das endgültige Video ein Name und ein Pfad vergeben. Des Weiteren wird für die Komprimierung (s. Kap. 4.1.3.5) der gewünschte Codec sowie die Bitrate ausgewählt. “Execute Sequence“ Hier wird die gewünschte Zielauflösung festgelegt. 31 3 Verfahren zur Beschriftung von Videos im Objektraum 3.5 Rekonstruktionsgenauigkeit Die vorliegende Arbeit verfolgt das Ziel, Bonner Wegevideos mit virtueller Beschriftung zu ergänzen. Dabei soll untersucht werden, mit welcher Genauigkeit sich die Beschriftung in das Video integriert, nachdem sie im Objektraum platziert wurde. Die Integrationsqualität der Beschriftung im Video kann von dem verwendeten FeatureAlgorithmus sowie von der Georeferenzierung negativ beeinflusst werden. Für das Solingenvideo können die für die Georeferenzierung verwendeten Passpunkte als fehlerfrei angesehen werden, da sie aus dem 3D-Modell ermittelt werden, das auch im Video zu sehen ist. Des Weiteren ist für das Solingenvideo die originale Kameratrajektorie bekannt. Sie kann zur Beurteilung des berechneten Kamerapfades als Referenzpfad dienen. In den folgenden beiden Kapiteln wird zum einen der Kamerapfad der originalen Kamera mit dem der rekonstruierten Kamera verglichen. Zum anderen sollen Bildpositionen von Objekten, die durch beide Kameras beobachtet werden, miteinander verglichen werden. 3.5.1 Vergleich der Kamerapfade Wird der berechnete Kamerapfad in 3D Studio Max importiert, lässt er sich vom Originalkamerapfad mit dem bloßen Auge kaum unterscheiden. Deshalb werden die 3DKoordinaten, die 3D-Orientierungen sowie die Brennweiten beider Kameras für die einzelnen Frames im Folgenden rechnerisch verglichen. Bild 3.18 32 Kamerapfad im virtuellen 3D-Modell von Solingen. Links: originaler Kamerapfad. Rechts: berechneter Kamerapfad. (Draufsicht) 3.5 Rekonstruktionsgenauigkeit 3.5.1.1 Positionsvergleich Bild 3.19 Originaler Kamerapfad. Rechts: Draufsicht. Oben: Seitenansicht. Die Originalkamera bewegt sich in einem XWertebereich von 9,29 m, in einem Y-Wertebereich von 60,52 m und in einem Z-Wertebereich von 0,24 m. In den Diagrammen 3.1 bis 3.3 werden die Bewegungen beider Kameras in X-, Y- und Z-Richtung gegenübergestellt. Die Position der Originalkamera dient als Sollwert-Vorgabe. Die Position der berechneten Kamera wird als Ist-Wert angenommen und vom SollWert subtrahiert. Es ist zu beachten, dass die Skalierung der y-Achse in Meter für die Diagramme unterschiedlich ausfällt. Das Diagramm 3.4 stellt die Positionsdifferenzen beider Kameras bezüglich aller drei Achsen des absoluten Koordinatensystems gemeinsam dar. 33 3 Verfahren zur Beschriftung von Videos im Objektraum Diagramm 3.1 X-Position 5830 5829 5828 5827 Meter 5826 5825 5824 5823 5822 5821 5820 0 25 50 75 100 125 150 175 200 225 250 275 300 200 225 250 275 300 Frame SOLL IST Diagramm 3.2 Y-Position 1420 1410 Meter 1400 1390 1380 1370 1360 0 25 50 75 100 125 150 175 Frame SOLL 34 IST 3.5 Rekonstruktionsgenauigkeit Diagramm 3.3 Z-Position 225,25 Meter 225,15 225,05 224,95 224,85 224,75 0 25 50 75 100 125 150 175 200 225 250 275 300 Frame SOLL IST Diagramm 3.4 Positionsdifferenzen 0,15 0,10 0,05 0,00 Meter -0,05 0 25 50 75 100 125 150 175 200 225 250 275 300 -0,10 -0,15 -0,20 -0,25 -0,30 -0,35 Frame X Y Z 35 3 Verfahren zur Beschriftung von Videos im Objektraum In Tabelle 3.1 werden die maximalen, minimalen und durchschnittlichen Differenzbeträge sowie die Standardabweichung für die X-, Y- und Z-Positionen aufgelistet. Tabelle 3.1 Positionsdifferenz [Meter] Koordinatenachse Minimum Maximum Mittel Standardabweichung X 0,00 0,11 0,05 0,06 Y 0,02 0,31 0,11 0,08 Z 0,00 0,25 0,13 0,09 Die Differenzen bezüglich der X-Achse weisen einen annähernd linearen Verlauf auf, der sich von -0,1 bis 0,1 Meter vollzieht. Im ungefähren Bereich des 100. bis 150. Frames passt sich die X-Position der berechneten Kamera der Originalkamera am besten an. Für einige Frames ist sogar keine Differenz vorhanden. Die Differenzbeträge hinsichtlich der Y-Achse fallen bis zur Mitte des Videofilmes von 0,3 auf 0,07 Meter annähernd linear ab. Ab dem mittleren bis zum letzten Frame beschreiben die Y-Differenzen eine flache Kurve, die ihr Maximum bei -0,02 Meter hat. Das bedeutet, dass die Differenzbeträge zum Ende des Videofilmes wieder steigen. Diese Erscheinung könnte auf die 13°-Drehung der Kamera um die Z-Achse zurückzuführen sein, die am Ende der Sequenz stattfindet. Bild 3.20 36 Rechtsdrehung der Kamera um die Z-Achse. Links: Frame 250. Rechts: Frame 300. (Draufsicht) 3.5 Rekonstruktionsgenauigkeit Die Differenzbeträge bezüglich der ZAchse halten sich bis etwa zum 75. Frame in einem Bereich von bis zu 0,04 Meter auf. Ab dem ca. 76. Frame steigt der Differenzbetrag bis zum Ende des Filmes auf 0,25 Meter an. Mögliche Ursache könnte sein, dass zwei Georeferenzierungspunkte während der nächsten Frames aus dem Videobild heraustreten. Bild 3.21 Frame 75 des ursprünglichen Videofilms. Die Fehler bezüglich der drei Achsen des absoluten Koordinatensystems dürfen allerdings nicht nur getrennt betrachtet werden, da sie sich für den jeweiligen Frame addieren. Diagramm 3.5 stellt die Entfernungsdifferenzen der Kamerapositionen im 3DRaum dar. Sie bewegen sich in einem Differenzbereich von ca. 0,15 bis 0,3 Meter. Dabei fällt auf, dass die geringsten Abweichungen im zweiten Viertel des Filmes auftreten. Diagramm 3.5 3D-Entfernungsdifferenzen 0,350 0,300 Meter 0,250 0,200 0,150 0,100 0,050 0,000 0 25 50 75 100 125 150 175 200 225 250 275 300 Frame 37 3 Verfahren zur Beschriftung von Videos im Objektraum 3.5.1.2 Orientierungsvergleich Die Rotationsparameter der Originalkamera bewegen sich in einem Winkelbereich von 0,54 Grad bezüglich einer Drehung um die X-Achse, in einem Bereich von 0 Grad bezüglich einer Drehung um die Y-Achse und in einem Bereich von 18,28 Grad bezüglich einer Drehung um die Z-Achse. Auch hinsichtlich der Orientierung werden die Werte der Originalkamera als Sollvorgaben angenommen. Es ist wie bei den Positionsdifferenzen darauf zu achten, dass die Skalierung der y-Achsen in Grad für die Diagramme unterschiedlich ausfällt. Die Diagramme 3.6 - 3.8 stellen die Orientierungen bezüglich der X-, Y- und Z-Achse beider Kameras gegenüber. Diagramm 3.9 stellt die Orientierungsdifferenzen beider Kameras bezüglich aller drei Achsen des absoluten Koordinatensystems gemeinsam dar. Diagramm 3.6 X-Orientierung 90,4 90,3 90,2 Grad 90,1 90,0 89,9 89,8 89,7 89,6 0 25 50 75 100 125 150 175 Frame SOLL 38 IST 200 225 250 275 300 3.5 Rekonstruktionsgenauigkeit Diagramm 3.7 Y-Orientierung 0,010 0,000 -0,010 Grad -0,020 -0,030 -0,040 -0,050 -0,060 -0,070 -0,080 0 25 50 75 100 125 150 175 200 225 250 275 300 Frame SOLL IST Diagramm 3.8 Z-Orientierung 160,0 158,0 156,0 Grad 154,0 152,0 150,0 148,0 146,0 144,0 142,0 0 25 50 75 100 125 150 175 200 225 250 275 300 Frame SOLL IST 39 3 Verfahren zur Beschriftung von Videos im Objektraum Diagramm 3.9 Orientierungsdifferenzen 0,20 0,15 0,10 Grad 0,05 0,00 0 25 50 75 100 125 150 175 200 225 250 275 300 -0,05 -0,10 -0,15 -0,20 -0,25 Frame X Y Z Der Verlauf der Orientierungsdifferenzen bezüglich der X-Achse ist in seiner Steigung dem Verlauf der Orientierung der Originalkamera ähnlich. Er unterscheidet sich lediglich in einem beinahe konstanten Zuschlag von 0,15 Grad. Die Y-Achse beschreibt die Blickrichtung der Kamera. Der Drehwinkel der ursprünglichen Kamera in Y-Richtung beträgt 0 Grad, da sonst das Videobild nicht senkrecht dargestellt wird. Die durchschnittliche Abweichung der berechneten Kamera zur originalen beträgt 0,02 Grad. Die Orientierungsabweichungen bezüglich der Z-Achse lassen sich in drei Klassen unterteilen. Im ersten Drittel des Videofilmes liegt die Abweichung beinahe konstant bei 0,1 Grad. Im zweiten Drittel steigt die Abweichung bis auf 0,17 Grad an. Im letzten Drittel der Videosequenz fällt die Kurve steil auf -0,15 Grad ab. Dieser Verlauf am Ende des Graphen kann eindeutig auf die Rotation der Kamera um die Z-Achse zurückgeführt werden. Daraus lässt sich folgern, dass die Größe der Orientierungsdifferenz von der Größe der Orientierungsänderung der ursprünglichen Kamera abhängig ist. In Tabelle 3.2 werden die maximalen, minimalen und durchschnittlichen Differenzbeträge für die Rotationen um die X-, Y- und Z-Achse sowie deren Standardabweichungen aufgelistet. 40 3.5 Rekonstruktionsgenauigkeit Tabelle 3.2 Orientierungsdifferenz [Grad] Koordinatenachse Minimum Maximum Mittel Standardabweichung X 0,12 0,20 0,15 0,02 Y 0,00 0,08 0,02 0,01 Z 0,00 0,17 0,12 0,08 3.5.1.3 Vergleich der Brennweite Die Brennweite der Originalkamera beträgt 28 Millimeter. Boujou schätzt eine konstante Brennweite von 28,246 Millimeter, wodurch sich ein Differenzbetrag von 0,246 Millimeter ergibt. 3.5.1.4 Fazit Der Vergleich der beiden Kameras macht deutlich, dass zwar Fehler beobachtet werden können, sich diese aber nicht absolut zuordnen lassen. Da der Vergleich der originalen Kameraparameter mit den rekonstruierten hier nur für eine virtuelle Kamerafahrt vorgenommen wird, kann keine allgemeingültige Aussage über eventuelle Systematiken der Berechnungsergebnisse von Boujou getroffen werden. Da die Lösung der Kamera hinsichtlich des Featuretracking-Algorithmus stark von der Bildstruktur des Videos abhängig ist, kann davon ausgegangen werden, dass für unterschiedliche Videofilme individuelle Ergebnisse zu erwarten sind. Letztendlich kommt es darauf an, welche Auswirkungen die Abweichungen zum originalen Kamerapfad auf das beschriftete Video haben. Die Auswirkungen lassen sich durch den Kameravergleich allein jedoch nicht beurteilen. 3.5.2 Vergleich von Bildkoordinaten Der Vergleich beider Kameras gibt keinen Aufschluss darüber, welchen Einfluss die Differenzen in Position, Orientierung und Brennweite auf die visuelle Qualität des beschrifteten Videobildes haben. Aus diesem Grund sollen nun generierte Ansichten beider Kameras miteinander verglichen werden. Bild 3.22 zeigt eine gelbe Kugel, die im 3D-Raum in einer Entfernung von zwei Metern von der originalen Kamera platziert wird. Mit Hilfe der Kameraparameter der originalen und der berechneten Kamera wird diese Kugel anschließend dem Videobild überlagert. Da sich die Kameraparameter der beiden Kameras unterscheiden, fällt auch die Position der Kugel in den Videobildern unterschiedlich aus. Die Pixeldifferenz der beiden Bild41 3 Verfahren zur Beschriftung von Videos im Objektraum koordinatenpaare soll Aufschluss darüber geben, wie gut sich künstliche Objekte mit Hilfe des berechneten Kamerapfades in die Videoumgebung integrieren lassen. Bild 3.22 Kameraansicht einer Kugel im 3D-Raum von Solingen in einer Entfernung von zwei Metern zur Kamera. Links: Ansicht der originalen Kamera. Rechts: Ansicht der berechneten Kamera. 3.5.2.1 Berechnung von Bildkoordinaten Für die Modellierung des Abbildungsvorganges eines Objektpunktes im Raum auf einen Bildpunkt werden drei Koordinatensysteme benötigt: 1. Objektsystem S X = (X, Y, Z)T 2. Kamerasystem SK K 3. CCD-Sensor-System SC x' = (x', y')T Bild 3.23 42 X = (KX, KY, KZ)T Die Abbildung mit einer Kamera: Objektkoordinatensystem (X, Y, Z), Kamerakoordinatensystem (KX, KY, KZ), Objektpunkt P, Bildpunkt P' und Hauptpunkt H [För03]. 3.5 Rekonstruktionsgenauigkeit K Y (0,0) x' P` H K X y' Bild 3.24 Kamerakoordinatensystem und CCD-Sensor-System. Der Ursprung des Kamerasystems liegt im Projektionszentrum O, das durch die Positionsparameter der Kamera im Objektsystem S bekannt ist. Zur Vereinfachung der Abbildungsbeziehungen werden die KX- und KY-Achse des Kamerasystems parallel zur Bildebene ausgerichtet. Die KZ-Achse steht senkrecht auf der Bildebene, so dass alle drei Achsen des Kamerasystems ein kartesisches Koordinatesystem bilden. Der Ursprung des Koordinatensystems des CCD-Sensors wird im Fußpunkt H (Hauptpunkt) des Lots O auf die Bildebene festgelegt. Der Gesamtablauf des Abbildungsvorganges lässt sich in vier Schritte zerlegen: (1) Transformation des Raumpunktes P von S nach SK (2) Projektion des Raumpunktes KP in die Bildebene zum Bildpunkt P' (3) Transformation des Bildpunktes P' in ein CCD-Bildkoordinatensystem SC (4) Modellierung möglicher nichtlinearer Abbildungsfehler Man spricht bei einer Kamera von ihrer äußeren und inneren Orientierung. Die äußere Orientierung bestimmt die räumlich Lage der Kamera bezogen auf das Objektkoordinatensystem. Die räumliche Bewegung von S nach SK benötigt eine Festlegung von sechs Parametern, drei Translations- und drei Rotationsparametern (Schritt 1). Die Transformation lässt sich in euklidischen Koordinaten darstellen als K XP = R(XP - XO). Wobei (XP - XO) die Parallelverschiebung des Objektsystems S in das Projektionszentrum O ausdrückt. R beschreibt die Rotation des Objektsystems S in das Kamerasystem SK und fasst drei Elementardrehungen in einer Rotationsmatrix zusammen: cosβ cos γ cosβ sin γ − sin β R = − (sin α sin β cos γ − cos α sin γ ) − (sin α sin β sin γ + cos α cos γ ) − (sin α cos β ) − (cos α sin β cos γ + sin α sin γ ) − (cos α sin β sin γ − sin α cos γ ) − (cos α cos β ) 43 3 Verfahren zur Beschriftung von Videos im Objektraum wobei α den Drehwinkel um die Aufnahmerichtung der Kamera bezeichnet. β ist die Nadirdistanz und wird von der negativen Z-Achse nach oben gezählt. Der Winkel γ bezeichnet das linksdrehende Azimut der Aufnahmerichtung. [Mid03] Die innere Orientierung beschreibt alle Parameter, die für eine Rekonstruktion der Raumrichtung von der Kamera zum Objektpunkt P aus dem im CCD-System SC gemessenen Bildpunkt P' notwendig sind. Sie enthält sowohl die Projektion (Schritt 2), die Koordinatentransformation von SK nach SC (Schritt 3) als auch die Korrektur des Bildpunktes P' (Schritt 4). Für das weitere Vorgehen wird jedoch eine Verzeichnung nicht berücksichtigt. Somit entfällt der 4. Schritt. Die fünf Parameter der inneren Orientierung für die Projektion werden in einer Kalibriermatrix zusammengefasst: c⋅s x'H c K = 0 c(1 + m) y'H 0 0 1 mit Kamerakonstante c, Hauptpunkt x'H, Maßstabsunterschied m und Scherung s. An dieser Stelle wird der Einfachheit halber davon ausgegangen, dass die Scherung 0 ist. Das Pixelseitenverhältnis beträgt 1, sodass auch kein Maßstabsunterschied vorhanden ist. Die Kalibriermatrix reduziert sich folglich zu: c 0 x'H K = 0 c y'H . 0 0 1 Für die Kamerakonstante c wird die geschätzt Brennweite aus Boujou verwendet. Der Hauptpunkt ergibt sich aus der CCD-Chipgröße, ebenfalls in der Einheit der Brennweite, von 20,12x15,09 [mm], wobei die Breite und Höhe des Chips durch 2 dividiert werden müssen, da der Hauptpunkt in der Bildmitte angenommen wird. Allgemein kann die projektive Abbildung in homogenen Koordinaten [För03]durch x'h = PXP dargestellt werden mit der homogenen Projektionsmatrix P = (KR |- KRXO). Sie enthält explizit die elf Parameter der äußeren und inneren Orientierung, die notwendig sind, um den Abbildungsvorgang eines Objektpunktes P zum Bildpunkt P' zu modellieren. Ausführlich heißt die Abbildung nun x'h = (KR |- KRXO)XP = (u, v, w)T [mm]. Die homogenen Koordinaten lassen sich mit der Umrechnung x' u/w y ' ≅ v/w z' 1 44 3.5 Rekonstruktionsgenauigkeit in euklidische Koordinaten überführen. Anschließend müssen die euklidischen Koordinaten von Millimeter in Pixel (Abk.: [pel], engl. Picture Element) transformiert werden. x'[mm] ⋅ Chipbreite/2[pel] x'H [mm] [pel]. x' = Chiphöhe/2[pel] y '[mm] ⋅ y' [mm] H 3.5.2.2 Arten der Kameraparameterdifferenzen Im Folgenden werden die unterschiedlichen Arten der Kameraparameterdifferenzen und ihre Auswirkungen auf die Bildkoordinatendifferenzen aufgelistet. Zur Darstellung werden in 3D Studio Max eine Gruppe von neun Quadern in unterschiedlichen Entfernungen in den 3D-Raum eingefügt. Die roten Quader besitzen eine Distanz von einem Meter, die violetten Quader von fünf Metern und die blauen Quader von 20 Metern zu der Originalkamera. Je weiter entfernt sich die Quader von der Kamera befinden, desto größer ist das Volumen der Körper gewählt, um eine gleichmäßige Bildausfüllung der Quader zu erhalten. Im Bild 3.25 ist die Originalkamera blau dargestellt und befindet sich im Ursprung. Die weiße Kamera repräsentiert die rekonstruierte Lösung. Die Pixelverschiebungen werden als Verschiebungsvektor (x, y) in x- und y-Richtung ausgedrückt. Der Bildpunkt P(0, 0) [pel] befindet sich in der linken oberen Ecke. Die Bildgröße beträgt 768 x 576 [pel]. Den Quadern wird im jeweiligen Bild eine Skala hinterlegt, wobei benachbarte Kreise eine Distanz von 100 Pixeln aufweisen. Positionsdifferenzen • Seitliche Verschiebung In Bild 3.25 ist die virtuelle Kamera zur originalen Kamera um 0,1 Meter seitlich verschoben. In Bild 3.26 wird die Auswirkung der seitlichen Verschiebung auf die Bildkoordinaten sichtbar. Bild 3.25 seitliche Verschiebung der berechneten Kamera zu der originalen. (Draufsicht) 45 3 Verfahren zur Beschriftung von Videos im Objektraum Bild 3.26 Ansichten der Kameras bei seitlicher Verschiebung der rekonstruierten Kamera um 0,1 Meter: neun Quader in bestimmter Entfernung zur Kamera (rot = ein Meter; violett = fünf Meter; blau = 20 Meter). Links: originale Kamera. Rechts: rekonstruierte Kamera. Es fällt auf, dass mit der Distanzverringerung der Objekte zur Kamera die Differenz zwischen den beiden Bildkoordinatenpaaren steigt. Im Diagramm 3.10 wird die Abhängigkeit der Bildkoordinatendifferenzen zur Entfernung des jeweiligen Objektes dargestellt. Die Objekte erfahren in einer Entfernung von einem Meter einen Verschiebungsbetrag im Videobild um (60, 0) Pixel. Die Pixelverschiebung der Objekte in einer Entfernung von fünf Metern zur Originalkamera beträgt nur noch (12, 0) Pixel. Bei einer Entfernung der Quader von 20 Metern ist die Pixelverschiebung von (3, 0) Pixel im letzten Ausschnitt des Bildes 3.26 kaum noch wahrnehmbar. 46 3.5 Rekonstruktionsgenauigkeit Diagramm 3.10 60 Differenz [pel] 50 40 30 20 10 0 1 2,5 5 10 20 50 100 Entfernung [m] • Vertikale Verschiebung Wird die berechnete Kamera um 0,1 Meter auf der Z-Achse gegenüber der originalen Kamera nach oben verschoben, dann ist der Betrag der Pixelverschiebung äquivalent zu dem der seitlichen Kameraverschiebung, wobei die Pixelverschiebung nun in y-Richtung geschieht. Die Bildkoordinatendifferenzen sind in gleicher Weise wie bei der seitlichen Verschiebung der berechneten Kamera von der Entfernung abhängig. Bild 3.27 Vertikale Verschiebung der berechneten Kamera zur originalen. (Seitenansicht) Bild 3.28 Ansichten der Kameras bei vertikaler Verschiebung der rekonstruierten Kamera um 0,1 Meter: neun Quader in einer Entfernung zur Kamera von einem Meter. Links: originale Kamera. Rechts: rekonstruierte Kamera 47 3 Verfahren zur Beschriftung von Videos im Objektraum • Vor- oder Rückwärtsverschiebung In Bild 3.29 ist die rekonstruierte Kamera um 0,1 Meter zur originalen Kamera nach vorne verschoben. In Bild 3.29 wird die Auswirkung der Vorwärtsverschiebung auf die Bildkoordinaten im Videobild sichtbar. Bild 3.29 Bild 3.30 Vorverschiebung der berechneten Kamera zur originalen. (Draufsicht) Ansichten der Kameras bei Vorverschiebung der rekonstruierten Kamera um 0,1 Meter: neun Quader in einer Entfernung zur Kamera von einem Meter. Links: originale Kamera. Rechts: rekonstruierte Kamera. Der Quader, der sich in der Mitte des Videobildes befindet, erfährt keine Pixelverschiebung. Die Quader in den äußeren Ecken des Bildes erfahren eine Verschiebung um (33, 20) Pixel. Befinden sich die Quader in einer Entfernung von fünf Metern, dann beträgt die Pixelverschiebung der äußeren Quader nur noch (6, 4) Pixel. Die Abweichungen in den Bildkoordinaten sind folglich auch bei einer Vor- oder Rückverschiebung der Kamera von der Entfernung der zu betrachtenden Objekte zur Kamera abhängig. Der Unterschied zu der Verschiebung der Kamera auf der X- und Z-Achse liegt darin, dass die Pixelabweichung zum Rande des Videobildes hin zunimmt. Die Größe der virtuellen Objekte verändert sich. Ist die virtuelle Kamera der originalen vor verschoben, dann erscheinen die Quader größer. Ist die virtuelle Kamera der originalen zurück verschoben, dann erscheinen die Quader kleiner. 48 3.5 Rekonstruktionsgenauigkeit Orientierungsdifferenzen Die Pixelverschiebungen, die sich aufgrund von Rotationen der berechneten Kamera zur ursprünglichen Kamera ergeben, sind nicht von der Entfernung der beobachteten Objekte zur Kamera abhängig. Das bedeutet, ein ein Kilometer weit entfernter Punkt erfährt im Bild den gleichen Betrag der Pixelverschiebung wie ein Punkt, der sich nur in einer Entfernung von einem Meter zur Kamera befindet. • Rotation um die X-Achse Die X-Achse ergänzt in 3D Studio Max das Kamerakoordinatensystem zu einem Rechtssystem. Die Kamera im Ursprung ist 90 Grad um die X-Achse gedreht, sodass die Blickrichtung der Kamera mit der Y-Achse übereinstimmt. Die berechnete Kamera wird um 0,1 Grad um die X-Achse relativ zur originalen Kamera gedreht. (Um die Drehung in den Bildern 3.31 bis 3.33 erkennbar zu machen, ist die berechnete Kamera um 10 Grad gedreht.) Bild 3.31 Rotation der berechneten Rechnerisch erhält der Quader im Bildmittelpunkt Kamera um die X-Achse. eine Verschiebung um (0, 1) Pixel. Die vier Quader in den jeweiligen Ecken des Videobildes erhalten einen Verschiebepixelbetrag von (1, 1). Die Differenzwerte sind so klein, dass sie für die Beurteilung der visuellen Passgenauigkeit vernachlässigt werden können. • Rotation um die Y-Achse Die Y-Achse beschreibt, wie oben erwähnt, bei einer 90-Grad-Drehung um die X-Achse die Aufnahmerichtung der Kamera. Die berechnete Kamera wird um 0,1 Grad um die Y-Achse relativ zur Originalkamera gedreht. Folglich erfährt der Quader in der Mitte des Videobildes keine Veränderung hinsichtlich der Bildkoordinaten. Die äußersten Quader erhalten eine Verschiebung um jeweils einen halben Pixel in x- und y-Richtung. Bild 3.32 Dieser Wert kann ebenfalls vernachlässigt werden. • Rotation der berechneten Kamera um die Y-Achse. Rotation um die Z-Achse Die Z-Achse beschreibt die Nadirdistanz der Kamera. Die berechnete Kamera wird um 0,1 Grad um die Z-Achse relativ zur Originalkamera gedreht. Die auftretenden Pixeldifferenzen können auch hier aufgrund ihrer geringen Größe vernachlässigt werden. Dabei sei immer vorausgesetzt, dass die Rotation in einem kleinen Bereich stattfindet. Bei einer Rotation um 1 Grad entsteht bei Bild 3.33 einer Objektentfernung von 1 Meter eine Pixeldif- Rotation der berechneten Kamera um die Z-Achse. 49 3 Verfahren zur Beschriftung von Videos im Objektraum ferenz von 10 Pixeln in x-Richtung. Differenz in der Brennweite Je größer die Brennweite ist, desto kleiner fällt das Sichtfeld der Kamera aus. Die Quader in der Kameraansicht werden demnach größer dargestellt. Vergrößert sich die Brennweite der rekonstruierten Kamera um 0,3 Millimeter, dann hat dies zur Folge, dass die Quader in den Ecken des Videobildes sich um (3, 2) Pixel verschieben. Die Verschiebungsbeträge sind ebenfalls unabhängig von der Entfernung zur Kamera und nehmen von der Mitte zum Rand des Videobildes zu. 3.5.2.3 Konkrete Ergebnisse des Solingenvideos In die 3D-Szene von Solingen werden nun künstliche Objekte in Form von Dreiecksflächen eingefügt. Zum Positionsvergleich im Videobild wird die Ecke mit dem spitzesten Winkel des jeweiligen Dreieckes an eine Ecke des 3D-Modells platziert, sodass die Raumkoordinaten beider Ecken übereinstimmen. Bild 3.34 zeigt das Ergebnis der Dreiecksüberlagerung für verschiedene Abschnitte des Videos (Frame 0, 75, 190 und 245). Die Bildausschnitte auf der linken Seite stellen die Ausgangspositionen der Dreiecksflächen dar. Sie wurden mit Hilfe der originalen Kamera generiert. Die Bildausschnitte auf der rechten Seite entstehen durch Verwendung der berechneten Kameraparameter. Die drei letzten Videoframes sind deshalb ausgewählt worden, weil ihre zugehörigen Videobilder die auffälligsten Bildkoordinatenabweichungen beinhalten. 50 3.5 Rekonstruktionsgenauigkeit I II III V IV VIII VI Bild 3.14 IX VII Überlagerung einer Videosequenz mit künstlichen Dreiecksflächen für die Frames 0, 75, 190 und 245. Links: Ansicht der originalen Kamera des Solingenvideos. Rechts: Ansicht der von Boujou berechneten Kamera. 51 3 Verfahren zur Beschriftung von Videos im Objektraum Zum Zeitpunkt 0 sind im Videobildausschnitt, der mit Hilfe der berechneten Kamera entsteht, nur mit Mühe Bildkoordinatendifferenzen der Dreiecksspitzen bezüglich ihrer Bezugsobjekte zu erkennen. Die tatsächliche Bildkoordinatendifferenz des vordersten gelben Dreiecks, im Bildausschnitt mit „I“ markiert, beträgt (1, 0) Pixel, wobei sich dieses Dreieck in einer Entfernung von 13,2 Meter zur originalen Kamera befindet. Im Videobildausschnitt des Frames 75 erfährt das vorderste gelbe Dreieck „II“ eine Verschiebung von (2, 5) Pixeln bei einer Entfernung zur Kamera von sieben Metern. Das orangefarbene Dreieck „III“, welches sich am Bildrand befindet, erfährt eine etwas größere Pixelverschiebung von (5, 7) Pixeln. Die Entfernung zur Kamera beträgt sechs Meter. In Frame 190 beträgt die Pixeldifferenz des gelben Dreiecks „IV“ (4, 19) Pixel. Die Entfernung liegt bei 7,6 Metern. Am rechten Bildrand ist ein gelbes Dreieck „V“ an einer Hausecke zu sehen. Seine Entfernung zur Kamera beträgt 40 Meter. Die Bildkoordinatendifferenz beträgt lediglich (0, 2) Pixel. Im Bildausschnitt des 245. Frames weist das linke gelbe Dreieck „VI“ eine Pixelabweichung von (8, 27) Pixeln in einer Entfernung von 6,6 Meter auf. Zum Vergleich liegt die Pixelabweichung des rechten orangefarbenen Dreiecks „VII“ am selben Blumenkasten bei (8, 39) Pixeln. Die Entfernung beträgt 5,5 Meter. Die Differenz des gelben Dreiecks „VIII“ des darauf folgenden Blumenkastens ergibt sich lediglich zu (3, 6) Pixel. Dieses Dreieck befindet sich in einer Entfernung von 24 Metern. Das gelbe Dreieck „IX“ am dahinter liegenden Blumenkasten liegt in einer Entfernung zur Kamera von 59 Metern und weist eine Differenz der Bildkoordinaten von (1, 4) Pixel auf. Es lässt sich beobachten, dass mit Fortschreiten des Videofilms die Bildkoordinatendifferenzen der jeweiligen Dreiecke – besonders in y-Richtung – anwachsen. Dieser Effekt lässt sich durch die zunehmende Abweichung der berechneten Kameraposition in ZRichtung zum Ende des Videofilmes erklären. Zu Beginn des Videofilms liegt die 3DSzenenkoordinatendifferenz in Z-Richtung bei 0,04 Meter, zum Zeitpunkt des 245. Frames beträgt die Abweichung der Z-Position 0,23 Meter (siehe Bild 3.35 und 3.36 und Diagramm 3.4). Bild 3.35 52 Position der originalen Kamera bei Frame 0 (entspricht dem Frame 1 des berechneten Kamerapfades). Links: Draufsicht. Rechts: Seitenansicht. 3.5 Rekonstruktionsgenauigkeit Bild 3.36 Position der originalen Kamera bei Frame 245 (entspricht dem Frame 246 des berechneten Kamerapfades). Links: Draufsicht. Rechts: Seitenansicht. In Bild 3.35 und 3.36 sind der Kamerapfad der berechneten Kamera sowie die originale Kamera zu sehen. Der Kamerapfad beginnt mit dem Frame 1 und endet mit dem Frame 301, da 3D Studio Max nicht wie Boujou mit der Nummerierung der Frames bei 0 beginnt. Somit ist die berechnete Kamera der originalen Kamera in der Framenummerierung immer einen Frame voraus. In Bild 3.36 wird deutlich, dass der sich der Abstand der beiden Kameras zum Ende des Videofilms hinsichtlich der Z-Achse vergrößert. In Kapitel sechs wird für das Solingenvideo mittels der berechneten Kameraparameter künstliche Beschriftung eingefügt. Bei der Betrachtung des mit der Beschriftung überlagerten Videos fällt auf, dass der Effekt der relativ großen 3D-Koordinatenabweichung in Z-Richtung im Videobild für den Betrachter nicht bemerkbar ist. 53 4 Bonner Wegevideos Nun sollen die Rekonstruktion der Kamera sowie die Beschriftung auf die Bonner Wegevideos angewendet werden. Dabei wird zunächst die Erfassung und Bearbeitung der Wegevideos erörtert. Danach folgt die eigentliche Georeferenzierung der Wegevideos, wobei die Konzentration auf die dabei auftretenden Probleme gelegt wird. Abschließend werden die Resultate dargestellt und bewertet. 4.1 Erstellung der Wegevideos In Kapitel 2.2 wurde bereits das dieser Arbeit zu Grunde liegende Konzept zur Fußgängernavigation vorgestellt. In diesem Kapitel wird die dort angesprochene Aufnahme der Wegevideos dargestellt sowie deren Aufbereitung erläutert. 4.1.1 Testgebiet Es ist vorgesehen, die Beschriftung in Anlehnung an ein 3D-Modell zu platzieren. Dazu hat das Photogrammetrische Institut der Universität Bonn ein 3D-Modell der Bonner Innenstadt zur Verfügung gestellt. Bild 4.1 zeigt das verwendete Bonner 3D-Modell aus der Vogelperspektive. Die unterschiedlichen Situationen eines Fußgängers sind in dem Bereich zu finden, den das 3D-Modell abdeckt. Der grün markierte Bereich stellt eine Platzsituation dar. Die Fußgängerzonen sind gelb markiert, und Gehwege entlang einer befahrenen Straße sind orange hinterlegt. Bild 4.1 3D-Modell der Bonner Innenstadt. (Draufsicht) 55 4 Bonner Wegevideos 4.1.2 Erfassung der Videos Im Folgenden wird die Methode bei der Aufnahme von Videos für die Fußgängernavigation beschrieben. Es werden notwendige Eigenschaften der Kamera sowie für die Aufnahme vorzunehmende Einstellungen erläutert, die verwendete Bewegungsform bei der Videoaufnahme dargestellt und Empfehlungen für optimale Aufnahmebedingungen gegeben. 4.1.2.1 Kameraeinstellungen Die Aufnahme der Videosequenzen erfolgt mit der digitalen Videokamera SONY DCR-TRV900E. Für das Projekt sind folgende Kameraeinstellungen vorzunehmen: Bild 4.1 - PAL TV SONY TRV900E DCR- Die üblichen Fernsehsendungen arbeiten nach dem Prinzip des Zeilensprungs (Interlaced). Das Bild wird dabei in zwei kammartige Halbbilder aufgeteilt, wobei pro Zeiteinheit immer nur die Zeilen eines Halbbildes angezeigt werden und die nachfolgenden Zeilen in den verbleibenden Freiraum des vorherigen Halbbildes eingefügt werden. Bei der Aufnahme kann zwischen den beiden bekannten Systemstandards PAL und NTSC gewählt werden. Das PAL-System wurde 1961 in Deutschland eingeführt und gilt seitdem, wie in den meisten anderen europäischen Ländern auch, als Norm für die Übertragung im Farbfernsehen. Deshalb sollte es vor der Videoaufnahme aktiviert werden. Beim PAL-System (Phase Alternating Line = Phasenverschiebungszeile) beträgt die Zeilensprunganzeige 50 Halbbilder pro Sekunde; es werden 25 Frames pro Sekunde abgespielt. Die Auflösung des PAL-Systems beträgt 768x576 Bildpunkte, wobei die Anzahl der Bildpunkte pro Zeile einer digitalen Videokamera (DV PAL) im Allgemeinen 720 Pixel beträgt. - Progressive Scan Die Aufnahme bzw. Wiedergabe eines vollständigen Bildes pro Zeiteinheit bezeichnet man hingegen als Non-Interlaced. Der verwendete Camcorder besitzt ebenfalls diese Technik, welche mit dem Begriff Progressive Scan beschrieben wird. Bei der Videoaufnahme im Progressivmodus werden die Videobilder „mit allen Pixeln“ aufgenommen. Da ein im Progressivmodus aufgenommenes Bild auch im Pausenmodus immer scharf ist, ist diese Funktion für die weitere Videobearbeitung mit der MatchmoverSoftware Boujou besonders geeignet. - Steadyshot Wird die Funktion Steadyshot gewählt, werden geringfügige Erschütterungen der Kamera bei der Aufnahme durch Bildverschiebungen um wenige Pixel kompensiert. Übermäßige Erschütterungen der Kamera kann diese Funktion allerdings nicht ausgleichen. 56 4.1 Erstellung der Wegevideos - Weißwert Der Weißwert wird von der Videokamera grundsätzlich selbstständig eingestellt und von der automatischen Helligkeitskorrektur während der Aufnahme ständig nachgeregelt. Bei sich rasch ändernden Lichtverhältnissen kann es jedoch geschehen, dass weiße Motive im Video nicht mehr weiß dargestellt werden, sondern leicht ins bläuliche abweichen. Deshalb sollte man vor jeder Aufnahme den Weißwert manuell einstellen, damit die Farben anschließend natürlicher wirken. Dazu hält man ein weißes Objekt (z.B. weißes Blatt) so vor das Objektiv, dass es die Aufnahmefläche vollkommen ausfüllt. Anschließend wird mittels eines Steuerreglers der aktuelle Weißwert bestimmt und für die weitere Aufnahme abgespeichert. 4.1.2.2 Konzept: Kameraaufbau und Bewegungsform Die Aufnahme der Wegevideos sollte möglichst ohne starke Verwackelungen geschehen. Nimmt man die Videoaufnahme freihändig vor, werden also bei der Kameraführung keine technischen Hilfsmittel verwendet, sind ruhige, unverwackelte Aufnahmen nahezu unmöglich. Erschwerend kommt hinzu, dass ein Großteil des Fußgängerbereichs der Bonner Innenstadt gepflastert ist. Dies führt zu einem noch stärkeren Verwackelungseffekt bei der Aufnahme. In der professionellen Filmbranche werden bei solchen äußeren Bedingungen spezielle Geräte eingesetzt, die Bodenunebenheiten kompensieren und so eine ruhige Kamerafahrt ermöglichen. Solche Hilfsmittel standen uns jedoch nicht zur Verfügung und konnten aufgrund des begrenzten Budgets auch nicht beschafft werden. Es musste daher improvisiert werden, um mit geringem Aufwand ein vergleichbares Ergebnis zu erreichen. Die Kamera wurde deswegen auf einem Stativ angebracht, welches wiederum auf einem mit Schlauchreifen bestückten Kinderwagen befestigt wurde. Durch Verringerung des Reifendrucks konnten die Bodenunebenheiten ausgeglichen werden. Dadurch wurde die Kamerafahrt so ruhig, dass störende Verwackelungen größtenteils ausgeglichen werden konnten. Diese Methode hat jedoch einen Nachteil: Die Horizontalebene der Kamera wird durch die vier Reifen des Kinderwagens definiert. Wird der Kinderwagen nun zum Beispiel über einen zur Straße hin abfallenden Gehweg geschoben, hat dies zur Folge, dass Gebäude in der Kameraansicht nicht mehr senkrecht stehen, sonder in die entgegengesetzte Neigungsrichtung des Gehweges gekippt erscheinen. Bild 4.3 Ansicht einer Videokamera in schräger Lage. Die Kamera wird nun auf Augenhöhe positioniert, um die Perspektive eines Fußgängers zu simulieren. Bei der Einstellung des Zoomfaktors ist darauf zu achten, dass der Öffnungswinkel der Kamera so gewählt wird, dass er der menschlichen Wahrnehmung 57 4 Bonner Wegevideos möglichst entspricht. Eine Brennweite von 50 Millimetern gleicht in etwa dem Sichtfeld des menschlichen Auges. Jedoch ist zu bedenken, dass der Wiedererkennungswert des Videobildausschnittes der Umgebung so hoch wie möglich zu halten ist. Je mehr Bildinformationen der Umgebung erfasst werden sollen, desto weiter muss mit dem Objektiv „rausgezoomt“ werden. Die geringste Brennweite der verwendeten Videokamera beträgt laut Herstellerangabe 41,3 Millimeter. Da kein exakter Zoomfaktor in der Videokamera einzustellen ist, wird schließlich mit dem Betrag der geringsten Brennweite gearbeitet, da sich dieser durch völliges Rauszoomen ergibt. Des Weiteren ist darauf zu achten, dass der Autofokus deaktiviert wird. Für Boujou wird die Erstellung einer akkuraten Lösung erleichtert, wenn die Brennweite konstant ist und eine Variation der Brennweite nicht zugelassen wird. Beim Aufnahmevorgang ist schließlich noch darauf zu achten, dass man sich möglichst auf der Wegmitte fortbewegt, um beide Wegseiten im gleichen Verhältnis abbilden zu können. Das Abfahren der Wege sollte in einer gleichmäßigen Laufgeschwindigkeit erfolgen, um die Bewegungsunschärfe im Videobild möglichst gering und gleichmäßig zu halten. 4.1.2.3 Optimale Aufnahmebedingungen Da verschiedene äußere Faktoren das Ergebnis der Aufnahme eines Wegevideos beeinflussen können ist hinsichtlich des Aufnahmezeitpunktes vorab folgendes zu beachten: - Lichtverhältnisse Ein wichtiger Aspekt bei der Aufnahme von Videos sind die Lichtverhältnisse. So können bei tief stehender Sonne trotz Verwendung einer Gegenlichtblende kritische Gegenlichtsituationen entstehen. Steht die Sonne hingegen im Rücken, kann das Videobild durch Schattenwurf so dunkel werden, dass Bildinformationen verloren gehen können. Bei der Videoaufnahme sollte folglich auf ausgeglichene Lichtverhältnisse geachtet werden. Optimale Aufnahmebedingungen Bild 4.4 Gegenlicht bei der Videoaufnahme. bieten sich um die Mittagszeit, wenn die Sonne am höchsten steht. Im Sommer wird diese Vorraussetzung für einen längeren Zeitraum erfüllt als im Winter. Eine weitere geeignete Aufnahmesituation bietet eine bewölkte Wetterlage. Hierbei ist jedoch darauf zu achten, dass während der Aufnahme kein Wechsel zwischen Sonne und Bewölkung stattfindet, da sonst der manuell eingestellte Weißwert für die veränderte Lichtsituation nicht mehr angemessen ist. - Verkehrsverhältnisse Damit bei der Videoaufnahme eine möglichst freie Sicht herrscht, sollte bezüglich des Verkehrsaufkommens der Wochentag berücksichtigt werden. An Werktagen sind Lastwagen, die die Geschäfte beliefern, sowie zahlreiche Fußgänger unterwegs. Für eine 58 4.1 Erstellung der Wegevideos optimale Aufnahmesituation mit geringer Verdeckung von Bildinformationen eignen sich demnach insbesondere der Sonntag oder ein Feiertag. Des Weiteren werden die Gebäude an diesen Tagen nicht von ausgestellter Angebotsware und Reklametafeln verdeckt. 4.1.3 Aufbereitung der Videos Sind die Videoclips entlang der Fußgängerwege erst einmal aufgenommen, müssen sie noch einigen Arbeitsschritten unterzogen werden, um sie mit einer MatchmoverSoftware optimal weiterbearbeiten zu können. Diese Schritte werden im Folgenden erläutert. 4.1.3.1 Digitalisieren Um die Weiterverarbeitung eines mit einer Videokamera aufgenommenen Films am Rechner zu ermöglichen, muss das Videomaterial zunächst von der Kamera auf die Festplatte des Rechners übertragen werden. Dieser Vorgang wird als Aufnehmen bezeichnet und hier mit der Videobearbeitungssoftware Adobe Premiere 6.0 vorgenommen. Die Videokamera wird dazu mittels eines Datenkabels mit dem Rechner verbunden und auf den VCR-Modus/Play eingestellt. In diesem Modus operiert die Videokamera als Gerät für die Aufnahme und Wiedergabe/Playback und verwendet dabei die Übertragungsanschlüsse an den Rechner für den Input und den Output. Bevor mit der eigentlichen Aufnahme begonnen werden kann, müssen zunächst die für die Projektarbeit benötigten Einstellungen vorgenommen werden: - Allgemeine Einstellungen Im Bearbeitungsmodus werden die Videowiedergabe aus dem Schnittfenster sowie die Kompressionsoptionen festgelegt. Der für die Videobearbeitung verwendete Computer ist mit einer Canopus-Videokarte ausgestattet. Sie gibt den Bearbeitungsmodus mit Canopus RealTime DV vor, wodurch das Exportformat jedoch nicht zwingend festgelegt wird. Einzelbilder in einem Video bezeichnet man als Frames. Die Wiedergabefrequenz dieser Frames wird als Framerate bezeichnet. Diese wiederum bestimmt, wie Bewegungen im Video wahrgenommen werden und gibt die Anzahl der Frames an, die in einem Video pro Sekunde gezeigt werden. Die Timebase beschreibt die Framerate und liegt bei 25 Bildern pro Sekunde. Die Zeitanzeige bestimmt die Ausgabe des Timecodes. Der Timecode ist eine zeitbezogene Adresse für die einzelnen Videobilder. Um eine zeitgetreue Wiedergabe zu gewährleisten, muss für die PAL-Wiedergabe die Einstellung vom 25 FPS Timecode (FPS = frames per second) festgelegt werden. 59 4 Bonner Wegevideos Bild 4.5 Allgemeine Projekteinstellungen. - Videofilter Auch wenn als Endergebnis ein Film mit nur geringer Auflösung entstehen soll, sollte das Quellmaterial in der bestmöglichen Qualität auf den Rechner überspielt werden. Für das DV PAL-Video bedeutet das eine Projekteinstellung von 25 Bildern pro Sekunde bei einer Auflösung von 720 x 576 Pixel. Durch das Herunterskalieren für die Videoendausgabe wird dann ein geringeres Bildrauschen bewirkt, das sich leichter komprimieren lässt. Somit wird im Menü Videofilter kein Kompressor (s. Kapitel 4.1.3.5) ausgewählt. Das Qualitätsniveau liegt somit bei 100 Prozent. Dabei gilt, je höher die Qualität, desto größer ist der Speicherbedarf und desto geringer ist die Abspielgeschwindigkeit des Videofilms. Die Tiefe spezialisiert die Farbtiefe bzw. Farbbandbreite. Ein Rechner verwendet heute eine Farbdarstellung von 24 Bit. Für jede Primärfarbe (rot, grün, blau) werden 8 Bit gespeichert und übertragen. Mit diesen insgesamt 24-Bit-Farbinformationen lassen sich Millionen verschiedene Farben simultan darstellen. Die Framegröße (Bildgröße) ist mit 720 x 576 anzugeben und entspricht somit der Auflösung der aufgenommenen Videobilder mit dem Seitenverhältnis von 5:4. Das Pixel-Seitenverhältnis ist ein Maß für die Relation von Breite und Höhen eines Pixels. Die Pixel sind rechteckig und werden auf einem Computermonitor leicht verzerrt dargestellt, so dass sich für D1/DV PAL der Wert von 1,067 ergibt. 60 4.1 Erstellung der Wegevideos Bild 4.6 Projekteinstellungen: Videofilter. - Keyframe und Rendern In diesem Einstellungsfenster muss die Option Keine Halbbilder ausgewählt werden, da unsere Videosequenzen nach dem ProgressiveScan-Verfahren aufgenommen worden sind. Bild 4.7 Projekteinstellungen: Keyframe und Rendern. - Aufnehmen Durch die Wahlmöglichkeit des Aufnahmeformates kann die Materialüberspielung gesteuert werden. Bei der Übertragung der Videobilder wurde aufgrund der vorhandenen Canopus-Videokarte das Aufnahmeformat DVRex Record ausgewählt. 61 4 Bonner Wegevideos Bild 4.8 Projekteinstellungen: Aufnehmen. Mit der Befehlsfolge Datei - Aufnahme - Filmaufnahme gelangt man zum Aufnahmefenster. Mittels der Steuerelemente werden der IN-Point und der OUT-Point, die den Anfangs- und den Endzeitpunkt des aufzunehmenden Bereiches der Videokassette beschreiben, festgelegt. Für unsere Zwecke wird der Originalton der Videoaufnahmen nicht benötigt. Er kann daher über die Steuerung ausgeblendet werden, damit er bei der Übertragung nicht unnötig Speicherplatz belegt. Mit der Schaltfläche Aufnehmen kann nun die Aufnahme in Echtzeit gestartet werden. 4.1.3.2 Schneiden Alle Wege des Testgebietes sind nun als Video in digitaler Form vorhanden. Da die Bildinformationen aller Wege als eine lange Filmsequenz gespeichert sind, muss diese jetzt nach Straßen und Richtungen in einzelne Sequenzen getrennt werden. Das bedeutet, dass das Video geschnitten werden muss. Zur Durchführung des Schneidevorgangs wird das Freeware-Video-Editing-Tool VirtualDub 1.5.10 verwendet. Zwar besitzt auch Adobe Premiere 6.0 die Möglichkeit des Videoschnittes, aber das VirtualDub-Arbeitsfenster ist übersichtlicher gestaltet und die einzelnen Funktionen erschließen sich dem Benutzer unmittelbar. Mit der Befehlsfolge File - Open video file... lässt sich der zu bearbeitende Videofilm öffnen. Die überflüssigen Filmsequenzen vor und nach der Zielsequenz – das ist der Teil des Videofilms, der später als Wegevideo auf dem Endgerät erscheinen soll – müssen von der Gesamtsequenz „abgeschnitten" werden. Dazu werden jeweils ein [Mark in] und ein [Mark out] an Anfang und Ende der abzuschneidenden Sequenz gesetzt. Der gewählte Sequenzbereich wird dabei in der Zeitleiste automatisch blau markiert. Nun muss lediglich die Befehlsfolge Edit - Cut ausgeführt werden. Anschließend wird die Zielsequenz mit der Befehlsfolge File - Save as Avi abgespeichert. 62 4.1 Erstellung der Wegevideos Bild 4.9 VirtualDub 5.1.10: Markierung der zu schneidenden Sequenzen. 4.1.3.3 Entwackeln Trotz Verwendung eines Kinderwagens mit improvisierten „Stoßdämpfern“ weisen die Wegevideos horizontale und vertikale Verwackelungen auf. Die Bewegungen der Kamera können von den eigentlichen Bildinformationen ablenken und den Betrachter ermüden. Die Entwickler der Matchmover-Software Boujou haben mit SteadyMove Pro ein PlugIn für Adobe Premiere entwickelt, das in der Lage ist, die Kamerafahrt nachträglich zu stabilisieren. Wendet man diese bilderbasierte Stabilisation an, wirken die „entwackelten“ Videos, als ob sie mit einem Kamerawagenschieber aufgenommen worden wären. Für die positionsabhängige Navigation ist die Anwendung der Entwacklungssoftware nicht notwendig. Aufgrund der metergenauen Positionsbestimmung wird immer nur jeweils ein Videobild für einen bestimmten Positions-“Bereich“ angezeigt, das bezüglich der absoluten Kameraposition der bestimmten Standortposition des Benutzers am nächsten kommt. Bei einem Anzeigewechsel des Videobildes hat sich der Fußgänger auf seinem Weg so weit fortbewegt, dass die Diskrepanz zwischen dem aktuellen und zuvor dargestellten Videobild so groß ist, dass die Darstellung der entwackelten Videobilder keinen Vorteil mehr mit sich bringt. Die Motivation des Entwackelns steckt zum einen in der Möglichkeit, die laufruhigen Videos auf der Bonner Internetseite zu präsentieren. Touristen können schon vor ihrer 63 4 Bonner Wegevideos Bonner Reise einen virtuellen Spaziergang durch die Innenstadt machen. Lässt man sich eine Route durch die Bonner Innenstadt planen, können die entwackelten Videos auch zur Visualisierung der vollständigen Route dienen. Ein weiterer Grund für die Entwacklung liegt in der Vermutung, dass Boujou bei der Verfolgung der Features in den verwackelten Videos Probleme haben könnte. Durch die Anwendung der Entwacklung entsteht eine Stetigkeit in der Bewegung des Videobildes. Aufgrund der in Boujou verwendeten Algorithmen könnten die Features womöglich akkurater getrackt werden. Auf der anderen Seite wird das Videobild durch die Entwacklung verzerrt. Eine Systematik der Verzerrung kann nicht angegeben werden. Die Verzerrung ist somit als Blackbox anzusehen, da sie von den individuellen Verwackelungen des jeweiligen Videofilmes abhängig ist. Wird die Georeferenzierung für die nicht entwackelten Videos vorgenommen und anschließend die Entwackelung für die Präsentation des vollständigen Videofilmes angewendet, besteht die Möglichkeit, dass die zuvor eingefügte Beschriftung bei dem Entwacklungsvorgang verzerrt wird. Ob die Anwendung der Entwacklung das Featuretracking nun letztendlich negativ oder positiv beeinflusst, wird in Kapitel 4.2.1.3 geklärt. SteadyMove Pro basiert auf der von Boujou verwendeten Technologie. Wie in Boujou auch werden in den Videobildern Features automatisch detektiert und während der gesamten Videosequenz getrackt. Dabei kann zwischen bewegten Objekten und festem Hintergrund differenziert werden. Mit Hilfe der Featuretracks wird die Kamerabewegung hinsichtlich Translation, Rotation und Brennweite analysiert. Die eigentliche Stabilisierung umfasst zwei Prozesse, die Filterung und die Korrektur. Die schnellen, ruckartigen Bewegungen der Kamera werden von den langsamen separiert und herausgefiltert. Mit Hilfe der so entstehenden, geglätteten Kamerabewegung wird anschließend jeder Frame durch eine entsprechende Transformation korrigiert. Die Bildkorrektur hat jedoch den Nachteil, dass Randbereiche des Originalbildes aus der Bildansicht herausfallen und leere Bereiche auf der gegenüberliegenden Seite des Bildes erscheinen. Um ein brauchbares Ergebnis zu erhalten, wird das transformierte Bild anschließend skaliert und gestutzt. Diese Effekte sind in Bild 4.10 zu erkennen. Das Abschneiden der Bildränder hat den Effekt des Reinzoomens, ohne dass das Bild schärfer wird. Es gehen an den Rändern Bildinformationen verloren, die für die Orientierung des Fußgängers grundsätzlich wichtig sind. Es stellt sich jedoch heraus, dass der Bildausschnitt nach dem Entwackeln – aufgrund der Verwendung einer großzügigen Brennweite bei der Videoaufnahme – immer noch einem Bildausschnitt übertrifft, der dem menschlichen Sichtfeld entspricht. 64 4.1 Erstellung der Wegevideos Bild 4.10 Stabilisierungsprozess. Links: Originalvideo. Mitte: gestutzte Videobildränder. Rechts: auf Originalgröße skaliert. Bevor SteadyMove Pro als Effekt in Adobe Premiere 6.0 angewendet wird, muss jedoch darauf geachtet werden, dass die visuellen Daten eines Projektes ein übereinstimmendes Format aufweisen. Andernfalls kann das Endprodukt nicht zufrieden stellende Ergebnisse liefern. Im Menü Projekt lassen sich unter Einstellungsübersicht die Aufnahme-, Projekt-, importierte Film- und Exporteinstellungen tabellarisch ausgeben. Als Exportkompressor (s. Kapitel 4.1.3.5) wird der CANOPUS DVRex Codec gewählt. Bild 4.11 Adobe Premiere 6.0: Einstellungen in der Übersicht. Nachdem der Videoclip in Adobe Premiere 6.0 importiert und für die weitere Bearbeitung auf die Videospur übertragen worden ist, kann der Videofilter SteadyMove Pro durch Übertragung auf die gleiche Videospur angewendet werden. Dem Benutzer wird durch eine Reihe von Bedienungselementen im Menü Effekteinstellungen beispielsweise erlaubt festzulegen, wie viel Bewegung aus dem Video entfernt werden soll. 65 4 Bonner Wegevideos - Camera Motion Hier wird der Bewegungstyp der Kamera festgelegt. Der Bewegungstyp Free & Pan muss ausgewählt werden, wenn die Kamera, wie in diesem Fall, über die ganze Videosequenz hindurch translatorische und/oder rotatorische Bewegungen ausführt. - Smoothness Durch die Laufruhe wird der Betrag der aus der Videosequenz zu entfernenden Bewegung kontrolliert. Es wird der maximale Wert gewählt. Dieser liegt bei 100% und sorgt dafür, dass die Bewegungen der Kamera ähnlich einer mechanischen Kameraführung mit Stabilisierungssystem auf das qualitativste höchste Maß geglättet werden. - Smooth Zooms Bei Aktivierung des Smooth Zooms wird der Glättungsvorgang dazu befähigt, während des Stabilisierungsvorganges Änderungen in der Brennweite vorzunehmen. Dieser Effekt ist bei der vorliegenden Projektarbeit jedoch unerwünscht, da wir im weiteren Verlauf mit Boujou von einer konstanten Brennweite ausgehen. - Max Correction Die maximale Korrektur bestimmt den höchsten Skalierung- und Stutzwert, der bei der Stabilisierung des Videobildes verwendet werden darf, als Prozentwert bezogen auf die Höhe und Breite des Videobildes. Der maximale einstellbare Wert beträgt 15 Prozent. Der Wert der maximalen Korrektur sollte jedoch so niedrig gewählt werden, dass sich in Verbindung mit dem Smoothness-Wert ein gutes Ergebnis erzielen lässt. Durch Experimentieren stellt sich ein mittlerer Wert von sieben Prozent als geeignet heraus. Durch die Anwendung der Entwacklung auf die Bonner Wegevideos wird der Ausschnitt der Videos verkleinert. Folglich vergrößert sich die theoretische Brennweite. Da der Bildausschnitt an jedem Rand um sieben Prozent abgeschnitten wird, erhält man eine Brennweite von etwa 48 mm. - Edge handling Wird die Handhabung der Kanten auf Fixed eingestellt, dann wird auf das stabilisierte Videobild ein fester Skalierungs- und Stutzwert verwendet. Dieser feste Wert wird von der vorgenommenen Einstellung in Max Correction bestimmt. Es ist wichtig, dass immer derselbe Wert für die Skalierung und Stutzung verwendet wird, da sonst die Features im Videobild ihre Bewegungsstetigkeit verlieren. Dies könnte sich dann auf die Berechnungsergebnisse in Boujou negativ auswirken. - Cut Detection Besteht eine Videosequenz aus mehreren Clips, dann ist SteadyMove Pro bei Aktivierung des entsprechenden Kontrollkästchens in der Lage, die Schnitte dieser Videosequenz aufzuspüren. Somit wird jeder einzelne Clip individuell entwackelt. 66 4.1 Erstellung der Wegevideos Bild 4.12 SteadyMove Pro Effekteinstellungen. Der Entwacklungsvorgang wird auf jedes einzelne Wegevideo angewandt. Natürlich besteht auch die Möglichkeit, erst die Entwacklung durchzuführen und dann den Gesamtfilm in die einzelnen Wegevideos zu zerschneiden. Schließlich spart man bei dieser Vorgehensweise Arbeitszeit, da die Entwackelung nur einmal durchgeführt werden muss. Der Grund für die hier angewandte Methode bestand in der Möglichkeit einer schnelleren Ergebniskontrolle. In Kapitel 4.3.2 wird ein Beispiel für den benötigten Zeitaufwand des Entwacklungsvorganges dargestellt. 4.1.3.4 Filter zur Farbsteuerung Wurden bei der Videoaufnahme keine optimalen Aufnahmebedingungen erreicht, kann das Videobild zum Beispiel sehr dunkel geraten (siehe Bild 4.13). Für das Abspielen der Videos wäre es wünschenswert, wenn die Filme eine möglichst hohe Darstellungsqualität aufweisen. Adobe Premiere 6.0 bietet eine Vielzahl von Videofiltern an. Das einfachste Instrument zur Steuerung des Farbtonbereiches ist der Filter Helligkeit & Kontrast. Er passt, wie der Name schon sagt, Helligkeit und Kontrast des gesamten Videoclips an. Auf die genaue Vorgehensweise dieses Filters sowie auf dessen bestmögliche Anwendung braucht hier nicht weiter eingegangen zu werden. 67 4 Bonner Wegevideos Bild 4.13 links: Originalvideo; rechts: Video nach der Anwendung des Helligkeits & Kontrastfilters 4.1.3.5 Komprimieren Die Kompression bezeichnet die Verringerung der Gesamtdatenmenge, indem redundante oder für den Menschen nicht wahrnehmbare Daten entfernt werden und somit der Speicherplatz auf der Festplatte verringert wird. Beim Öffnen der Datei wird das Video über den Computer dekomprimiert, d. h., es wird in sein ursprüngliches Format überführt und somit abspielbar gemacht. Für die Präsentation der endgültigen Wegevideos sowohl im Internet als auch auf dem mobilen Benutzerendgerät ist eine Komprimierung unerlässlich. Durch eine Datenreduzierung wird auf dem Endgerät weniger Speicher benötigt. Für verschiedene Visualisierungssysteme sind unterschiedliche Bitraten und Bildauflösungen erforderlich. Durch Kompression und Ändern des Bildformats werden geeignete Datenraten erzielt, die an aktuelle Webtechnologien angepasst sind. Für die weitere Arbeit mit Boujou sollte beachtet werden, dass bei einer Kompression Bildfehler und Qualitätsverluste auftreten können. Zuerst leidet die Bildschärfe, und mit zunehmender Kompression stellen sich Farbverluste ein. Je unschärfer ein Videobild ist, desto ungenauer kann Boujou Features lokalisieren. Deshalb sollte bei der Arbeit mit Boujou immer auf die beste verfügbare Bildqualität zurückgegriffen werden. Zusätzlich kann die Komprimierung einer Videosequenz mit beispielsweise dem DivX-Codec (Codec ist die Abkürzung für Codierer-Decodierer) das FeatureTracking enorm verlangsamen, da Boujou für die Analyse eines jeden Pixels in jedem Frame der Videosequenz erst von dem komprimierten Video jeden Frame rekonstruieren muss. Um das Verhältnis von Speicherplatz, Bildqualität und Bearbeitungszeit optimal auszunutzen, werden die entwackelten Videos mit dem Canopus-Video-Codec komprimiert. Dieser wird zudem von der 2d3 Gesellschaft für die Videobearbeitung in Boujou als geeigneter AVI-Codec empfohlen wird. 68 4.2 Bonner Wegevideos im Objektraum 4.2 Bonner Wegevideos im Objektraum Die Videos der Bonner Innenstadt sollen unter Verwendung von Boujou in den Objektraum überführt werden. Im Folgenden wird auf dabei auftretende Probleme und Fehlerquellen eingegangen. Zwei der dargelegten Problematiken werden anhand des Solingenvideos simuliert. Anschließend werden Ergebnisse der georeferenzierten Bonner Videobilder dargestellt und beurteilt. 4.2.1 Fehlerquellen und Probleme Wie bereits erwähnt, ist das endgültige Ergebnis der Kamerarekonstruktion von dem verwendeten Featuretracking-Algorithmus und der Georeferenzierung abhängig. Bei der Aufnahme realer Videos können im Gegensatz zu gerenderten virtuellen Filmen verschiedene Faktoren zur zusätzlichen Verschlechterung der berechneten Kameraparameter beitragen. Im Folgenden werden nun sämtliche möglichen Fehlerquellen aufgeführt und deren Einfluss analysiert. 4.2.1.1 Fehler der Kameralinse Für die Erstellung der Kameralösung wird von Boujou das Modell der Lochkamera verwendet, die die Kamerakonstante als einzigen Parameter der inneren Orientierung beinhaltet. Im Unterschied zur Lochkamera, die oft auch als ideale Kamera bezeichnet wird, besitzen Objektive einen komplizierteren Strahlengang, der zu erheblichen Abweichungen von der idealisierten Zentralprojektion und somit zu Abbildungsfehlern führt [Qm04]. Boujou bietet daher zusätzlich die Option an, eine radiale Verzerrung der Linse sowie eine Hauptpunktverschiebung in der berechneten Lösung der Kamerabewegung zu berücksichtigen. [2d303] - radiale Verzerrung der Linse Weist die Linse einer Kamera eine radiale Verzerrung auf, erscheinen tatsächlich gerade Linien im Videobild als gekrümmte Linien. Am Rand des Videobildes tritt dieser Effekt stärker auf als in der Mitte. Die Linsenverzerrung kann hinsichtlich der Genauigkeit des Kameratrackings besonders dann zu Problemen führen, wenn eine Weitwinkellinse für die Aufnahme der Videos verwendet wird. [2d303] Bild 4.14 Beispiele für typische Effekte, die von einer Linsenverzerrung ausgehen können. Mitte: Tonnenverzerrung (üblich bei kleiner Brennweite). Rechts: Kissenverzerrung (üblich bei großer Brennweite). [Ica03] 69 4 Bonner Wegevideos - Hauptpunktverschiebung Bei einer fehlerfreien Linse wird das Projektionszentrum (Hauptpunkt) dem Mittelpunkt des Videobildes gleichgesetzt. Ist der Hauptpunkt aus der Mitte der Kameralinse verschoben, können Bildfehler entstehen. [2d303] Beide Fehler können einen negativen Einfluss auf das Kameratracking und die Genauigkeit des Einfügens künstlicher Objekte in die Videoszene haben. Boujou bietet die Möglichkeit, ein Maß der Verzeichnung bezüglich der oben genannten Fehler zu erfassen, indem eine Linie im Videobild, von der bekannt ist, dass sie gerade verläuft, manuell nachgezeichnet wird. Dieses Maß kann anschließend in die Kameralösung miteinbezogen werden. Tests haben ergeben, dass die berechnete Verzeichnung der verwendeten Kamera so gering ausfällt, dass sie das Ergebnis nicht beeinflusst. 4.2.1.2 Progressive Scan Modus Durch die Erfassung der Videos im Progressivmodus werden die Videobilder etwa alle 1/12,5 Sekunden ausgegeben. Wird die Videosequenz nach Boujou importiert, bedeutet das für die Einstellung der Framerate auf 25 Bilder pro Sekunde, dass die Videosequenz jeweils ein Videobild zweimal ausgibt. Bei genauer Betrachtung der Videobilder stellt sich heraus, dass die Bilderpaare der entwackelten Videosequenzen gewisse Unterschiede aufweisen. Bei einer starken Vergrößerung der Videobilder ist zu erkennen, dass zwischen zwei scheinbar gleichen Videobildern Pixelverschiebungen und Farbveränderungen stattfinden. Um ausschließen zu können, dass diese Pixelveränderungen sich negativ auf das Berechnungsergebnis von Boujou auswirken, wird beim Importieren der Videosequenz jeder zweite Frame ausgelassen. Das Weglassen der doppelten Videobilder hat gleichzeitig den Vorteil, dass sich die Berechnungszeit in Boujou verringert. Somit ist zu empfehlen, das gleiche Vorgehen auch bei den nicht entwackelten Videos anzuwenden. 4.2.1.3 Entwackelung Die anfänglich in Kapitel 4.1.3.3 geäußerte Vermutung, dass ein entwackeltes Video das Kameratracking positiv beeinflusst, und dass die durch die Entwacklung entstehende Verzerrung in den Videobildern das Kameratracking negativ beeinflusst, konnte anhand der Durchführung des Kameratrackings bei sechs ausgewählten Beispielen nicht bestätigt werden. In den Ergebnissen der Kamerarekonstruktion sowohl bezüglich der ursprünglich verwackelten als auch der bezüglich der entwackelten Videos sind keine Genauigkeitsunterschiede festzustellen. Aus diesem Grund werden die mit SteadyMove Pro bearbeiteten Videos verwendet. Sie haben, wie bereits in Kapitel 4.1.3.3 erläutert, den Vorteil, dass sie beispielsweise für die Präsentation einer vollständigen Route verwendet werden können. Das weitere Vorgehen bezieht sich nun auf die entwackelten Videos. 70 4.2 Bonner Wegevideos im Objektraum 4.2.1.4 Fußgänger Im Gegensatz zum virtuellen Video von Solingen werden die Videos der Bonner Innenstadt durch zahlreiche Passanten belebt. Auch wenn die detektierten Features an den Passanten inkonsistente Tracks beschreiben, kann es vorkommen, dass die von Boujou verwendeten Algorithmen einen solchen Featuretrack nicht als inkonsistent betrachten und er so für die Beschreibung der 3D-Szenerie verwendet wird. Daher ist es wichtig, nach dem Kameratracking die Verbesserungen bezüglich der Prediktionsdifferenzen im Kameratracking-Auswertungsfenster zu beobachten. Bild 4.15 Links: Prediktion eines Fußgängers mit großer Fehleranzeige. Rechts: KameratrackingAuswertungsfenster mit Angabe des Verbesserungswertes für den aktuellen Frame (s. links). Bild 4.15 zeigt eine entsprechende Situation: Für ein Feature im Bildbereich eines Passanten wird eine Prediktion erstellt. Deren berechnete 3D-Position weicht signifikant von der im Bild gemessenen Position ab. Im Auswertungsfenster des Kameratrackings wird auf einen extrem hohen Verbesserungswert hingewiesen. Das betroffene Feature sollte für das weitere Vorgehen manuell gelöscht werden. Anschließend sollte das Kameratracking im Adjust only-Modus erneut durchgeführt werden. Objekte können zwar bei der Berechnung der Kameralösung ignoriert werden, indem man sie mit einer Maske verdeckt (siehe Kapitel 3.1.2), doch ist diese Option für die Wegevideos nicht sinnvoll. Eine Maske muss sehr präzise an das Objekt angepasst werden, da sonst Features im Hintergrund ebenfalls abgedeckt würden. Da ein Fußgänger, im Gegensatz zu beispielsweise einem Auto, neben der eigentlichen Vorwärtsbewegung noch weitere kleine Bewegungen – wie die Bewegung von Armen und Kopf – durchführt und diese durch die gesamte Sequenz hinweg unterschiedlich ausfallen, ist die Erstellung von passgenauen Masken für alle Frames mit unverhältnismäßigen Zeitaufwand verbunden. Boujou empfiehlt die Verwendung einer Maske erst dann, wenn ein sich bewegendes Objekt mehr als 25 Prozent des Videobildes verdeckt. 71 4 Bonner Wegevideos 4.2.1.5 Parallaxe Die Parallaxe ist ein natürliches Phänomen, das während der Bewegung der Kamera beobachtet werden kann. Objekte, die sich in der Nähe der Kamera befinden, bewegen sich schneller durch die Frames als Objekte, die von der Kamera weiter entfernt liegen. Je stärker die Parallaxe in einem Videoclip ausgeprägt ist, desto akkurater fällt die Schätzung der Brennweite in Boujou aus. In Bild 4.16 soll das Problem einer fehlenden Parallaxe verdeutlicht werden. Bild 4.16 Links: durch alleinige Vorwärtsbewegung der Kamera entstehen kleine Parallaxen zwischen den einzelnen Videobildern. Rechts: durch zusätzliche Seitwärtsbewegung der Kamera wird die Parallaxe vergrößert. Eine Kamera befindet sich vor zwei Zylindern, die mit ihr in einer Flucht stehen. Bewegt sich die Kamera nun vorwärts, kann sie den hinteren Zylinder nicht erkennen. Erst wenn die Kamera sich seitlich aus der Flucht bewegt, kann der Effekt der Parallaxe bei der Vorwärtsbewegung der Kamera genutzt werden. Die Lösung der Kameraparameter basiert darauf, was in dem Videofilm sichtbar ist. Ist ein Objekt während der Videosequenz von allen Seiten zu sehen, kann seine 3DStruktur mit relativ großer Genauigkeit bestimmt werden. Bewegt sich die Kamera – wie in dem vorliegenden Projekt – nur vorwärts, sind die räumlichen Informationen sehr gering. Boujou konzentriert sich in einem solchen Fall auf die Features im Hintergrund, die in der Videosequenz am längsten sichtbar sind. Diese besitzen jedoch keine Parallaxe. Daher sollten, wie in Kapitel ? beschrieben, Tracks im Vordergrund auf die Eigenschaft Gold eingestellt werden. Zeigt ein Videofilm die Situation eines Platzes, lassen sich zusätzliche Features im Vordergrund nur schwer oder gar nicht manuell bestimmen. Das Fehlen von ausreichend vorhandenen 3D-Informationen der Szene kann schlechte Ergebnisse der Kameralösung zur Folge haben. Bild 4.17 72 Bei einer Platzsituation fehlen im Vordergrund 3D-Informationen. 4.2 Bonner Wegevideos im Objektraum 4.2.1.6 Georeferenzierung Für das Solingenvideo ist die Georeferenzierung der 3D-Szene beinahe perfekt, da bei der Bestimmung der Koordinaten der verwendeten Passpunkte keine Ungenauigkeiten auftreten. Die Georeferenzierung der Bonner Videos geschieht ebenfalls aufgrund eines 3D-Modells. Das Bonner 3D-Modell wurde mit Hilfe von inJECT erstellt, einem vom Photogrammetrischen Institut der Universität Bonn mitentwickelten Programm zur semiautomatischen Gebäudeextraktion. Die Ausgangsdaten bilden digitale Luftbilder. Werden die 3D-Koordinaten eines Punktes benötigt, muss die äußere Orientierung der Kamera bekannt sein, mit der die Luftbilder erstellt wurden. Es gilt die Koplanaritätsbedingung, die besagt, dass homologe Raumstrahlen – Punkte in zwei Bildern sind homolog, wenn sie sich auf den gleichen Objektpunkt beziehen [För03] – beim orientierten Bildpaar in einer Ebene liegen (Epipolarebene). Im ersten Luftbild wird ein Punkt ausgewählt und somit die Lage festgelegt. Unter Verwendung der Epipolargeometrie kann die Suche nach dem homologen Punkt in einem zweiten Bild auf eine Gerade reduziert werden. Die Höhe wird also durch Hin- und Herbewegungen auf der Epipolarlinie bestimmt. Bild 4.18 Die Suche des im ersten Bild ausgewählten Punktes wird im zweiten Bild auf die Epipolarlinie reduziert. Damit bei der Erstellung von 3D-Modellgebäuden nicht jeder Eckpunkt eines Gebäudes einzeln angemessen werden muss, stellt inJECT eine Auswahl verschiedener Grundkörper zur Verfügung, die die meisten Gebäude und Dachformen abdecken. Der erste Schritt besteht in der Auswahl eines geeigneten Grundkörpers, der in seiner Form mit dem zu messenden Gebäude am ehesten übereinstimmt. Die Form des Drahtmodells muss dann vom Operateur durch Änderung der Parameter in einem Bild eingepasst werden. Anschließend muss der letzte verbleibende Freiheitsgrad, die absolute Höhe, in mindestens einem weiteren Bild bestimmt werden. 73 4 Bonner Wegevideos Durch die Kombination verschiedener Grundkörper können komplexere Gebäudestrukturen dargestellt werden. Als Exportformat wird hier VRML (Virtual Reality Modelling Language) verwendet. Das VRML-Modell kann anschließend in 3D Studio Max importiert werden. Bild 4.19 Bild 4.20 Ein komplexes Gebäude wird durch die Kombination verschiedener Grundkörper zusammengesetzt. Links: Beispiele für Grundkörper für die 3D-Modellierung. Rechts: Parameteranpassung eines Grundkörpers. Da das 3D-Modell jedoch nicht in allen Details mit den im Video sichtbaren Gebäuden übereinstimmt, können gewisse Probleme hinsichtlich der Georeferenzierung auftreten: - Genauigkeit der verwendeten Passpunktkoordinaten Die Qualität der Raumpunkte des 3D-Modells hängt von der Genauigkeit der Orientierungsparameter und der Messgenauigkeit der Bildpunkte ab. Die Genauigkeit der äußeren Orientierung wird bei homogener Passpunktverteilung von der Genauigkeit der verwendeten Passpunkte limitiert. Die Passpunkte besitzen eine Genauigkeit in der Lage von 0,3 m und in der Höhe von 0,5 m. Die Auswahlgenauigkeit eines Punktes im Luftbild beträgt einen Pixel. Da die Luftbilder mit einer Pixelgröße von 28 µm gescannt wurden und der Maßstab der Luftbilder bei 1:9.000 liegt, entspricht ein Pixel im Luftbild 25 cm in der Realität. Somit ist die Genauigkeit der Raumpunkte in der Lage mit 0,55 m und in der Höhe mit 0,75 m abzuschätzen. Die Messung von Bodenpunkten zur Festlegung von Gebäudeunterkanten stellt ein gesondertes Problem dar. In einem Luftbild sind die Gebäudewände bei Lage in Nadirnähe nicht sichtbar. Daher wird die Bodenhöhe eines Punktes in der Nähe des anzumessenden Gebäudes bestimmt. Bei einer unregelmäßigen oder durch beispielsweise Autos oder Markisen verdeckten Geländeoberfläche treten bei der Bestimmung der 74 4.2 Bonner Wegevideos im Objektraum Z-Koordinate Ungenauigkeiten von unbekanntem Ausmaß auf. Somit sind Punkte an den unteren Gebäudeeckpunkten für die Georeferenzierung nur bedingt brauchbar. Bild 4.21 Aufgrund der Problematik bei der Messung von Bodenpunkten weisen die Gebäudeunterkanten des Bonner 3D-Modells Differenzen auf, die im Meterbereich liegen. Besitzt ein zu messendes Gebäude einen Dachvorsprung, können die Hauskanten nicht exakt dargestellt werden, da Dachvorsprünge bei den Grundkörpern nicht modelliert sind. Im 3D-Modell wird das betroffene Gebäude folglich größer dargestellt als es in der Realität ist. Daher ist in einem solchen Fall darauf zu achten, dass der Georeferenzierungspunkt im Videobild an der Dachecke ausgewählt wird. - Fehlende 3D-Koordinaten Man kann davon ausgehen, dass die Gebäude aus digitalen Luftbildern mit einer begrenzten Anzahl von Grundformen modelliert sind. Somit wird ein bestimmter Grad an Generalisierung erlaubt, wenn ein Gebäude nicht exakt einem dieser Modelle entspricht. So kann es vorkommen, dass eine im Video gut sichtbare Gebäude- oder Dachecke im 3D-Modell nicht berücksichtigt wird. Bild 4.22 Generalisierung von Gebäudestrukturen. 75 4 Bonner Wegevideos Des Weiteren kann der Fall eintreten, dass zur Reduzierung des Arbeitsaufwandes bei der Modellerstellung mehrere Gebäude zu einem Gesamtbauwerk zusammengefasst werden. Bei dieser Vorgehensweise werden Punktinformationen einzelner Gebäudeecken nicht erfasst. Bild 4.23 Generalisierung von Gebäudegruppen: Das Gebäude mit Giebel zur Straßenseite hin wird mit dem Gebäude links daneben zu einem großen Gebäude zusammengefasst, so dass die Spitze des Giebels im Modell nicht berücksichtigt wird. Die Genauigkeit der Punktkoordinaten ist somit auch von dem Generalisierungsgrad der Gebäude abhängig. Diesbezüglich kann jedoch keine konkrete Genauigkeit angegeben werden, da der Generalisierungsgrad nur bedingt bekannt und situationsabhängig ist. Zusätzlich kann es vorkommen, dass ein Gebäude im 3D-Modell nicht vorhanden ist, da dieses Gebäude zum Zeitpunkt der Luftbildaufnahme noch nicht erbaut war. Bild 4.24 Reales Gebäude (Neubau) ist im 3D-Modell nicht vorhanden. Werden für die zur Georeferenzierung geeigneten Punkte große Koordinatenungenauigkeiten vermutet oder können im 3D-Modell erst keine geeigneten Passpunkte gefunden werden, müssen diese im Luftbild nachträglich gemessen werden. Durch dieses Vorgehen ist zusätzlicher Arbeitsaufwand erforderlich. Für jeden zu messenden Punkt kann mit einem Zeitaufwand von etwa zwei bis drei Minuten gerechnet werden. Ausgewählte 3D-Punkte aus dem 3D-Modell sind zum Vergleich in dem Luftbild nachgemessen worden. Dabei stellte sich heraus, dass sich die Koordinaten in der Lage von bis zu zwei Metern und in der Höhe von bis zu drei Metern unterscheiden kön76 4.2 Bonner Wegevideos im Objektraum nen. Bei der Punktmessung im Luftbild kommt zusätzlich das Problem hinzu, dass sich die einzelnen Häuser im Videobild den Häusern im Luftbild nicht immer eindeutig zuordnen lassen. Wenn das Risiko einer falschen Punktauswahl besteht, sollte eine Punktalternative in Erwägung gezogen werden. Bild 4.25 Problem der Punktzuordnung. Links: Videobild. Rechts: Luftbild. - Auswahlbeschränkung der Georeferenzierungspunkte Die Auswahl der für die Georeferenzierung geeigneten Punkte ist durch die Ansicht eines Fußgängers im Videobild stark begrenzt. In Bild 4.26 kann man sehen, dass sich die Auswahl der möglichen Georeferenzierungspunkte auf die oberen Gebäude- und Dachecken in weiter Entfernung begrenzt. Daher ist es besonders schwierig, drei identische Passpunkte im Videobild und im 3D-Modell bzw. im Luftbild zu finden, die möglichst weit voneinander entfernt liegen. Mit Hilfe des Luftbildes lässt sich in einigen Fällen die Mitte von Kanaldeckeln anwählen. Dies hat jedoch den Nachteil, dass die Kanaldeckel im Videobild aufgrund der Fußgängerper- Bild 4.26 spektive nur für eine kurze Zeitspanne zu erkennen sind. Auswahlbeschränkung der Punkte für die Georeferenzierung auf die oberen Gebäudeecken in weiter Entfernung. Unter zu Hilfenahme des virtuellen Solingenvideos wird nun geprüft, wie sich Fehler in den Koordinatenangaben für die verwendeten Passpunkte sowie eine Auswahlbeschränkung der Georeferenzierungspunkte auf das Ergebnis der Georeferenzierung auswirken. Dafür werden zum einen den für die Georeferenzierung in Kapitel 3.3 verwendeten Passpunkten falsche Koordinateninformationen zugewiesen. Die Abweichung in der Lage beträgt 0,5 m und in der Höhe 0,7 m, wobei diese Beträge willkürlich von den korrekten Koordinaten abgezogen oder aufaddiert werden. Zum anderen wird die Auswahl der Georeferenzierungspunkte auf drei in weiter Entfernung zu Kamera befindli77 4 Bonner Wegevideos che Gebäudeeckpunkte beschränkt, die zusätzlich – im Gegensatz zu den zuvor ausgewählten Georeferenzierungspunkten (s. Bild 3.15) – relativ kleine Entfernungen zueinander aufweisen (Bild 4.27). Bild 4.27 Simulierung einer Auswahlbeschränkung der Georeferenzierungspunkte auf weit entfernte Punkte an oberen Gebäudeecken (Bildausschnitt bei Frame 190). In Bild 4.28 sind die Ergebnisse der Fehlersimulation dargestellt. Auf konkrete Angaben von Bildkoordinatendifferenzen zwischen den SOLL- und IST-Positionen der Dreiecke im Videobild wird an dieser Stelle verzichtet. Zum konkreten Vergleich kann die linke Reihe des Bildes 3.34, das die SOLL-Positionen der Dreiecke darstellt, hinzugenommen werden. Es fällt ganz offensichtlich auf, dass sich die Dreiecksflächen im Bild 4.28 deutlich von ihren SOLL-Positionen entfernt haben. Dabei sind die Abweichungen in der rechten Reihe extrem größer, als in der linken Bildreihe. Somit wird deutlich, dass Ungenauigkeiten in den 3D-Gebäudemodellkoordinaten sowie eine Beschränkung in der Auswahl geeigneter Georeferenzierungspunkte das Ergebnis der eigentlichen Georeferenzierung enorm verschlechtern und sich damit auch auf die Zuordnung der Videobilder in den Objektraum negativ auswirken. 78 4.2 Bonner Wegevideos im Objektraum I I II II III III V V IV IV VI VIII VI Bild 4.28 VII VIII IX IX VII Überlagerung des Solingenvideos mit künstlichen Dreiecksflächen für die Frames 0, 75, 190 und 245. Links: Ansicht der von Boujou berechneten Kamera des Solingenvideos mit falschen Passpunktkoordinaten. Rechts: Ansicht der von Boujou berechneten Kamera des Solingenvideos mit Beschränkung der Georeferenzierungspunkte auf weit entfernte Gebäudeeckpunkte. 79 4 Bonner Wegevideos 4.2.2 Beispiele und Ergebnisse Im Folgenden werden für sechs Fallbeispiele der Bonner Wegevideos die Kameralösungen dargestellt. Die ersten drei Beispiele behandeln Wege in Fußgängerzonen, wobei in dem dritten Video auf eine Wegegabelung zugegangen wird. Das vierte Beispiel behandelt die Situation des Gehweges entlang einer befahrenen Straße. Die beiden letzten Fälle befassen sich mit einer Platzsituation. Es werden jeweils Ausschnitte zu Beginn, in der Mitte und am Ende der jeweils behandelten Videosequenz gezeigt. Zum Vergleich der originalen Kamera mit der rekonstruierten Kamera werden deren Ansichten gegenübergestellt. Die 3D-Positionen der Georeferenzierungspunkte (SOLL) werden mit Hilfe von grünen Kugeln im Videobild dargestellt. Bei der Georeferenzierung berechnet Boujou aufgrund der in Kapitel 4.2.1 aufgeführten Fehlereinflüsse intern eine Positionsausgleichung der gesamten 3D-Szene. Somit befinden sich die Surveypunkte nach der Ausgleichung nicht mehr auf der Position ihrer Sollkoordinaten. Die tatsächlichen Surveypunkt-Positionen (IST) werden durch rote Kugeln dargestellt. Werden die roten Kugeln dem Videobild überlagert, befinden sie sich im 2D-Videobild an ihrer richtigen Position. Es ist nicht immer möglich, für Videosequenzen eine allgemeine Vorhersage hinsichtlich der benötigten Bearbeitungsschritte, die erforderlich sind, um ein bestmögliches Ergebnis zu erhalten, zu machen. Die mit der Verbesserung der Kameralösung verbundenen Schwierigkeiten lassen sich mit den Worten von Steve Hill, einem Supporter der Gesellschaft 2d3, treffend beschreiben: „Boujou support is more of an art than a science!“ Eine Strategie, die die Kameralösung entscheidend verbessern kann und bisher noch nicht genannt wurde, ist die Verwendung von mehr als drei Surveypunkten. Die Anzahl der für die Georeferenzierung geeigneten Punkte ist begrenzt. Bieten sich trotzdem mehrere Punkte an, sollte dieser Umstand für eine günstigere Überbestimmung wahrgenommen werden. So kann ein möglicher Fehler in einem der Georeferenzierungspunkte durch mehr als zwei übrig gebliebene Passpunkte besser ausgeglichen werden. Für das unten aufgeführte zweite Beispiel hat dieses Vorgehen eine entscheidende Verbesserung der Kameralösung herbeigeführt. Durch die Einführung von zwei zusätzlichen Surveypunkten konnte eine anfängliche Neigung der Kamera um die Y-Achse von zehn Grad auf zwei Grad verringert werden. Im vierten Fallbeispiel wurde durch einen zusätzlichen Surveypunkt ein Höhenunterschied der Kamera von ihrer ersten zur letzten Position von 1,5 m auf 1 m reduziert. Im fünften Fall konnte ein Höhenunterschied innerhalb des Kamerapfades von 8,5 Metern durch die Verwendung von sechs Surveypunkten auf immerhin 7,5 Meter gesenkt werden. Für die restlichen Fallbeispiele stellten sich keine Verbesserungen der Kameralösung ein bzw. ließen sich keine zusätzlichen geeigneten Surveypunkte finden. 80 4.2 Bonner Wegevideos im Objektraum Bild 4.29 Einordnung der Wegevideo-Beispiele 1-6 in die Bonner Innenstadt. 81 4 Bonner Wegevideos Beispiel 1 Bild 4.30 Ausschnitte eines Fußgängerzonen-Videos. Links: reale Szene aus Sicht der originalen Kamera. Rechts: virtuelle Szene [Bonner 3D-Modell] aus Sicht der rekonstruierten Kamera. Zum Vergleich zur Ausgangsszene, die auf der linken Seite des Bildes 4.30 dargestellt ist, wird auf der rechten Seite die virtuelle Szene aus Sicht der berechneten Kamera abgebildet. Sie zeigt das 3D-Modell, in dessen Anlehnung die Beschriftung erfolgen soll. 82 4.2 Bonner Wegevideos im Objektraum Bild 4.31 Ansichten der berechneten Kamera (Beispiel 1): Links: Bildpositionen der SOLL- und ISTGeoreferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen. Auf der rechten Seite des Bildes 4.31 sind die Gebäudeflächen dem Video überlagert, die sich entlang des Weges befinden. Das große Gebäude, das sich am linken Wegrand befindet, wird von der virtuellen Gebäudefläche beinahe ganz verdeckt. Der Bildpixelunterschied der hinteren Gebäudeecke wird durch die SOLL- und IST-Position verdeutlicht und vergrößert sich von (17, 15) Pixel zu Beginn der Videosequenz auf (26, 35) Pixel am Ende des Videos, wobei sich die Entfernung des Soll-Eckpunktes zur Kamera im Raum von 157 Meter auf 101 Meter verringert. Die Pixeldifferenz wird hauptsächlich dadurch hervorgerufen, dass die Gebäudeflächen schräg im Videobild liegen. Dieses Phänomen ist auf eine schräge Lage der Kamera im 3D-Raum zurückzuführen. Die 83 4 Bonner Wegevideos Neigung der berechneten Kamera um die Y-Achse beträgt 5,3 Grad. Aufgrund der großen Gebäudefläche ließe sich eine Beschriftung relativ eindeutig im Videobild anbringen. Auf der rechten Seite des Weges stehen viele schmale Gebäude dicht hintereinander gereiht. Hier ist eine Zuordnung der 3D-Modellgebäudeflächen nicht eindeutig. Für das Eckgebäude am rechten Wegrand ergibt sich für die obere linke Hausecke in einer Entfernung zur Kamera von 65 Metern in dem mittleren Videobild zwischen der SOLLund IST-Bildkoordinate eine Pixelabweichung von (6, 62). Eine Abweichung im Videobild in y-Richtung wirkt sich auf eine eindeutige Zuordnung der Modellfläche zum realen Gebäude nicht so negativ aus wie eine Abweichung in x-Richtung. Der y-Wert gibt lediglich die relative Höhe eines Objektes im Raum an. Eine Abweichung in xRichtung im Bild entsteht dagegen aufgrund von Abweichungen eines Objektes in der X-Y-Ebene im Raum. Um Gebäude voneinander abgrenzen zu können, kann sich auf die X-Y-Ebene beschränkt werden, da Gebäude nie übereinander stehen. 84 4.2 Bonner Wegevideos im Objektraum Beispiel 2 Bild 4.32 Ansichten der berechneten Kamera (Beispiel 2): Links: Bildpositionen der SOLL- und IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen. Sitzt eine grüne Kugel, die die SOLL-Koordinaten des zugehörigen Georeferenzierungspunktes darstellt, nicht an einer Ecke des 3D-Modells, dann wurden die Koordinaten im Luftbild abgegriffen. Die Ecke der Modellgebäudefläche wird zur Verdeutlichung mit einem gelben Punkt markiert (hier im mittleren rechten Bildausschnitt zu sehen). In Bild 4.33 ist zu erkennen, dass die berechnete Kamera im Verhältnis zum 3D-Modell zu hoch liegt. Somit sind die 3D-Modellgebäudeflächen im Videobild gegenüber der 85 4 Bonner Wegevideos realen Szene nach unten verschoben. Die Kanten der Gebäudeflächen sind um 2,3 Grad nach links geneigt. Die von Boujou geschätzte Brennweite der Kamera beträgt nur 33,7 Millimeter. Dadurch erscheint das 3D-Modell im Videobild zu nah an den Betrachter gerückt, so dass die realen Gebäudeflächen nicht annähernd durch die entsprechende Modellfläche abgedeckt werden. Bild 4.33 Berechnete Kameratrajektorie mit 3D-Drahtmodell der Bonner Innenstadt. (Seitenansicht) Die größte berechenbare Abweichung ergibt sich im mittleren Videobild des rechten Hauses. Sie beträgt (78, 80) Pixel bei einer Entfernung des SOLL-Punktes zur Kamera von 32 Metern. Die SOLL-Koordinaten des aus dem Luftbild gemessenen Punktes unterscheiden sich jedoch zum Eckpunkt der Modell-Gebäudefläche (im mittleren Bild als gelbe Kugel dargestellt) um (10, 92) Pixel, wobei – wie schon im Beispiel 1 erwähnt – eine Verschiebung in y-Richtung die Zuordnungsgenauigkeit nicht wesentlich beeinflusst. 86 4.2 Bonner Wegevideos im Objektraum Beispiel 3 Bild 4.34 Ansichten der berechneten Kamera (Beispiel 3): Links: Bildpositionen der SOLL- und IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen. Die Neigung der Gebäudeflächen passt sich der im Videobild sichtbaren Neigung der Originalkamera an. In Bild 4.35 wird deutlich, dass der Kamerapfad im Vergleich zu den Gebäudeunterkanten zu niedrig platziert ist und die Kamera von ihrer Start- zu ihrer Endposition einen Höhenunterschied von 2,6 Meter aufweist. Die Pixeldifferenzen fallen in der Bildmitte relativ gering aus, zu den Seiten hin werden sie jedoch größer. Bild 4.36 veranschaulicht dieses Phänomen aus der Vogelperspektive. Die größte Differenz zwischen der SOLL- und der IST-Position im Raum liegt bei 3,3 m. Die größte Pixelabweichung lässt sich im mittleren Bild für die Ecke des rechten Dachfensters berech87 4 Bonner Wegevideos nen. Sie liegt bei (83, 9) Pixeln. Die Entfernung dieser Dachecke zur Kamera beträgt 56 Meter. Bild 4.35 Höhenunterschied der Kameratrajektorie. (3D-Drahtmodell in 3D Studio Max, Seitenansicht) Bild 4.36 Lage der SOLL- (grün) und IST- (rot) Koordinaten der Georeferenzierungspunkte. (3D-Volumenmodell, Draufsicht) 88 4.2 Bonner Wegevideos im Objektraum Beispiel 4 Bild 4.37 Ansichten der berechneten Kamera (Beispiel 4): Links: Bildpositionen der SOLL- und IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen. Hinsichtlich der Georeferenzierungspunkte ist in der unteren Bildreihe des Bildes 4.37 die größte Pixeldifferenz bei (57, 4) bei einer Entfernung von 48 Meter an der Kirchturmseite erkennbar. In der oberen Bildreihe weist die vorderste Gebäudefläche auf der rechten Seite eine Abweichung von 86 Pixeln in x-Richtung auf. Die Entfernung der Gebäudekante des 3D-Modells zur Kamera beträgt dabei 24 Meter. Besonders in der ersten Bildreihe wird deutlich, dass der Kamerapfad im 3D-Raum generell zu hoch liegt, so dass die 3D-Modellgebäudeflächen die oberen Flächen der realen Gebäude nicht abdecken. 89 4 Bonner Wegevideos Beispiel 5 Bild 4.38 Ansichten der berechneten Kamera (Beispiel 5): Links: Bildpositionen der SOLL- und IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen. Die Kamera weist in ihrem Pfad, wie Bild 4.39 vermuten läßt, einen Höhenunterschied von 7,5 Meter auf. Die Modellgebäudeflächen sind um 2,3 Grad aus der Vertikalen geneigt und erscheinen insgesamt zu nah an den Betrachter gerückt. Die größte Abweichung – vor allem in x-Richtung – ergibt sich in der mittleren Bildreihe für die linke Dachecke des gelben Postgebäudes. Sie beträgt (86, 12) Pixel, wobei sich diese Ecke in einer Entfernung von 84 Metern zur Kamera befindet. 90 4.2 Bonner Wegevideos im Objektraum Bild 4.39 Höhenunterschied der Kameratrajektorie. (3D-Drahtmodell in 3D Studio Max, Seitenansicht) Der relativ große Höhenunterschied des berechneten Kamerapfades ist womöglich auf die fehlende Parallaxe in den Videobilder zurückzuführen. Es ist zu vermuten, dass dieser Effekt bei ähnlichen Platzsituationen ebenfalls eintritt. 91 4 Bonner Wegevideos Beispiel 6 Bild 4.40 Ansichten der berechneten Kamera (Beispiel 6): Links: Bildpositionen der SOLL- und IST-Georeferenzierungspunkte. Rechts: wie links und zusätzliche Einblendung der 3DModellgebäudefrontflächen. Obwohl zwei der drei für die Georeferenzierung verwendeten Punkte sehr nah beieinander liegen – ihre Entfernung zueinander beträgt 9,5 Meter – ist die Lage der Kamera im Raum zufrieden stellend. Dennoch erscheinen die Modellgebäudeflächen dem Betrachter zu nah herangerückt. Die größte Pixelabweichung eines Georeferenzierungspunktes findet sich in der unteren Bildreihe mit (6, 48) Pixeln in einer Entfernung zur Kamera von 22 Metern. 92 4.2 Bonner Wegevideos im Objektraum Bild 4.41 Verteilung der Georeferenzierungspunkte im Raum. (Draufsicht) Es ist oft der Fall, dass Boujou eine Kameralösung berechnet, die eine Abweichung der Kameralage zur Vertikalen im absoluten Raum beinhaltet. Da Boujou nicht erkennt, wo in der 3D-Szene oben und unten ist, ist Boujou auf die Angaben des Anwenders angewiesen. In der normal üblichen Anwendung wird die Szenengeometrie ohne die Verwendung von Surveypunkten nach oben ausgerichtet. Der Anwender wählt stattdessen einige Prediktions aus, die sich auf dem Boden der Szenerie befinden und definiert sie als X-Y-Ebene. Danach wird eine Richtung definiert, indem eine in der Szene ausgewählte Linie als Parallele zur X- oder Y-Achse festgelegt wird. Zum Schluss wird der Ursprung in einen Punkt der Szenerie gelegt. Alle übrigen Anpassungen wie Rotation und Skalierung müssen dann in dem verwendeten 3D-Graphikprogramm durch den Anwender per Augenmaß selbst durchgeführt werden. Um die Anpassung zu erleichtern, werden die Kamera und die 3D-Punkte beim Export gruppiert und einem TopPunkt untergeordnet. Dieser Top-Punkt kann rotiert, verschoben und skaliert werden, ohne dass sich die relativen Positionen der Prediktions und der Kamera dabei ändern. Dieses Vorgehen setzt jedoch viel Erfahrung des Anwenders auf diesem Gebiet voraus. Eine mögliche Automation der Georeferenzierung muss bei dieser Vorgehensweise ausgeschlossen werden. Die von Boujou berechnete Brennweite liegt für die obigen Beispiele – das zweite Beispiel ist davon ausgeschlossen – durchschnittlich bei 38 mm. Damit liegt sie zehn Millimeter unter der tatsächlich angenommenen Brennweite der originalen Kamera. Dieser Unterschied ist eventuell auf einen falsch angenommenen Umrechnungsfaktor zurückzuführen, der bei der Umrechnung der Bildgröße in Pixel auf die von Boujou eigenständig suggerierte CCD-Chipgröße in Millimeter verwendet wird. Die Differenz in der Brennweite hat jedoch keine Auswirkungen auf die berechnete Raumstruktur, sofern dieser Umrechnungsfaktor – und davon kann man ausgehen – in dem verwendeten Berechnungsmodell von Boujou überall gleich angewendet wird. 93 4 Bonner Wegevideos In den Videobildausschnitten der Bonner Innenstadt lässt sich eine Systematik entdecken, die in Bild 4.34 am deutlichsten zu erkennen ist. Die grünen Punkte (SOLL) weisen auf der rechten Bildhälfte eine positive und auf der linken Bildhälfte eine negative Abweichung in x-Richtung auf. Diese Abweichung ist umso größer, je weiter die Punkte von der Bildmitte entfernt liegen. In Bild 4.36 ist diese Situation noch einmal in der Draufsicht dargestellt. Das Bild 4.42 zeigt die Darstellung in Bild 4.36 in einer veränderten Form. Das Bonner 3D-Modell wird als Drahtmodell dargestellt, um die zusätzlich eingefügte Punktwolke besser erkennbar zu machen. Die Punktwolke stammt aus der Berechnung von Boujou und stellt die 3D-Positionen der markanten Punkte im Videobild dar. Verbindet man die Punkte, die die Gebäudeflächen des sich in der Bildmitte befindlichen Gebäudekomplexes repräsentieren, fällt auf, dass der Schnittwinkel der beiden Verbindungslinien spitzer ausfällt als der Winkel, der sich aus der tatsächlichen Gebäudeform ergibt. Anhand dieser Systematik, die auch in den Beispielen 2, 4 und 5 deutlich zu erkennen ist, wird die Vermutung aufgestellt, dass die von Boujou berechnete Szenerie eine projektive Verzerrung aufweist. Eine solche Verzerrung lässt sich durch die Georeferenzierung mit drei Punkten nicht beheben, da sich Winkel durch eine Ähnlichkeitstransformation nicht ändern. Folglich muss die projektive Verzerrung der berechneten Szenengeometrie schon vor der Georeferenzierung vorliegen. Bild 4.42 3D-Punktwolke der in Boujou detektierten Feature mit Bonner 3D-Drahtmodell. (erstellt in 3D Studio Max; Draufsicht) Es ist davon auszugehen, dass diese Abweichung mittels einer 3D-Homographie behoben werden kann. Auf die Berechung einer solchen 3D-Homographie kann jedoch wegen des erheblichen Umfangs nicht näher eingegangen werden. Für die nächste Version von Boujou, die allerdings frühestens im August diesen Jahres fertig gestellt wird, ist vorgesehen, dass der Anwender Punkte für die Georeferenzierung auswählen kann, die schon vor dem Kameratracking als Surveypunkte definiert werden können. Diese Surveypunkte üben einen Zwang auf die Berechnung der 3DSzenenstruktur aus. Befindet sich im Videofilm ein perfektes Quadrat, dann ist – laut Aussage der 2d3 Gesellschaft – diese Art von Surveypunkten dazu in der Lage, anhand der Transformation des Quadrats im Videobild die exakte Kamerabewegung und Brennweite zu bestimmen. 94 4.3 Beurteilung Die 3D-Struktur von Boujou stimmt mit der Wirklichkeit nicht exakt überein. Anders als bei der Anwendung von Spezialeffekten in Fernseh- und Kinoproduktionen besteht bei diesem Projekt nicht die Möglichkeit, Änderung der Umgebung vorzunehmen, um sie der Szenerie in Boujou anzupassen. Die Diskrepanzen zwischen der realen Welt und der Welt in Boujou sind u. a. auf eine fehlende Parallaxe zurückzuführen, die von der in diesem Projekt typischen Bewegungsart der Kamera – nämlich der ausschließlichen Vorwärtsbewegung – hervorgerufen wird. Im Folgenden werden anhand einer einfachen Festlegung der Beschriftungsflächen und deren Integration in die Videoszene die Qualität der berechneten Kameralösung beurteilt. Anschließend wird das Kapitel mit einer Darstellung des benötigten Zeitaufwandes für die Durchführung des Verfahrens zur Beschriftung im Objektraum abgeschlossen. 4.3.1 Qualität Im Videobild stimmen die Positionen der Modellgebäudeflächen nicht genau mit den realen Gebäudeflächen überein. Somit kann nicht das gesamte Ausmaß der Modellfläche für die Beschriftung genutzt werden. Damit die Beschriftung nur auf das entsprechende reale Gebäude überlagert wird, muss eine geeignete Größe und Lage der Beschriftungsfläche bestimmt werden. Liegt die größte Abweichung einer Modellgebäudefläche bei beispielsweise (10, 5) Pixel, dann müsste die Beschriftungsfläche in xRichtung rechts und links um jeweils 10 Pixel und in y-Richtung unten und oben um jeweils 5 Pixel nach verkleinert werden, damit die Beschriftung immer noch auf der betreffenden Hauswand erscheint. Für die oben aufgeführten sechs Beispiele werden nun Flächen den jeweiligen Videobildern überlagert. Die Maße dieser Flächen basieren nicht auf der Berechnung der tatsächlich möglichen Beschriftungsfläche, sondern – der Einfachheit halber – auf ein Viertel der jeweiligen ursprünglichen Modellgebäudefrontfläche. Die gesamten Videosequenzen der Beispiele eins bis sechs befinden sind auf der dieser Arbeit beiliegenden CD. In den Bildern 4.43 bis 4.48 sind die auf 25 % reduzierten Modellgebäudeflächen gelb eingefärbt. Werden die Wegevideos beschriftet, orientiert sich die Beschriftung an diesen Flächen. Auf die unterschiedlichen Platzierungsarten der Beschriftung wird in Kapitel fünf eingegangen. Die Darstellung der Beschriftungsflächen macht folgende Punkte deutlich: Je mehr Platz ein Gebäude im Videobild einnimmt, desto besser lässt sich eine Beschriftungsfläche diesem zuordnen. Sind viele schmale Gebäude aneinander gereiht, wird die Zuordnung erschwert; insbesondere ist die Zuordnung der Gebäude in weiterer Entfernung schwierig, da die Beschriftungsflächen sowie die Freiflächen zwischen ihnen im Videobild nur wenige Pixel breit sind. Je kleiner ein Gebäudefläche im Videobild erscheint desto größer ist die Gefahr, dass eine Beschriftungsfläche dieses Gebäude überhaupt nicht abdeckt. 95 4 Bonner Wegevideos Beispiel 1 Bild 4.43 Beispiel 2 Beschriftungsflächen aus Sicht der berechneten Kamera (Beispiel 1). Bild 4.44 Beschriftungsflächen aus Sicht der berechneten Kamera (Beispiel 2). In den korrespondierenden Videofilmen ist zu erkennen, dass sich die gelben Flächen im Vordergrund während des Vorwärtslaufens des Filmes deutlich mit nach vorne bewegen. Diese Vorwärtsbewegung hat zur Folge, dass die Flächen vom Betrachter zu unterschiedlichen Zeitpunkten unterschiedlichen Gebäuden zugeordnet werden. Der Betrachter wird so in die Irre geführt und muss in jedem Fall die Zuordnung in seiner realen Umgebung abgleichen und kontrollieren. Des Weiteren fällt auf, dass je weiter der Videofilm fortgeschritten ist, desto besser decken die Beschriftungsflächen die zugehörigen realen Gebäude ab. 96 4.3 Beurteilung Beispiel 3 Bild 4.45 Beispiel 4 Beschriftungsflächen aus Sicht der berechneten Kamera (Beispiel 3). Bild 4.46 Beschriftungsflächen aus Sicht der berechneten Kamera (Beispiel 4). Das Beispiel 3 zeigt, bis für die Darstellung der weit entfernten Kirchturmspitze, für den gesamten Videofilm ein gutes Ergebnis bezüglich einer akkuraten Platzierung der Beschriftungsflächen. Im 4. Beispiel sind die auf den Betrachter frontal ausgerichteten Beschriftungsflächen zu weit nach rechts gerückt. Dieser Effekt ist im letzten Videobildausschnitt am besten zu beobachten. Das Gebäude am rechten Bildrand würde in dieser Ausgangslage die Beschriftung seines benachbarten Gebäudes erhalten. 97 4 Bonner Wegevideos Beispiel 5 Bild 4.47 Beispiel 6 Beschriftungsflächen aus Sicht der Bild 4.48 berechneten Kamera (Beispiel 5). Beschriftungsflächen aus Sicht der berechneten Kamera (Beispiel 6). Beispiel 5 und Beispiel 6 zeigen ebenfalls wie Beispiel 3 ein gutes Endresultat. Die Beschriftungsflächen bedecken nur Teile des entsprechenden realen Gebäudes. Aufgrund der nur geringen Abweichungen der Beschriftungsflächen aus der realen Gebäudeflächenmitte würde sich eine Beschriftungsplatzierung in diesen Flächen nicht negativ auf die menschliche Wahrnehmung auswirken, da diese Abweichungen für den Betrachter in einem annehmbaren Bereich liegen. 98 4.3 Beurteilung 4.3.2 Zeitaufwand Zur Darstellung des Zeitaufwandes, der notwendig ist, um Wegevideos im Objektraum beschriften zu können, wird exemplarisch das vierte Beispiel herangezogen. Die Videosequenz besteht aus 1994 Frames, was einer Abspieldauer von einer Minute und 19 Sekunden entspricht. In der unten aufgeführten Tabelle wird die Dauer für die jeweiligen Arbeitsschritte aufgelistet. Diesbezüglich wird differenziert zwischen der vom Anwender manuell erbrachte Arbeit (Durchschnittswert) und der durch den Computer ausgeführten Berechnungsdauer, ohne dass der Anwender dabei in diesen Arbeitsgang eingreifen muss. Tabelle 4.1 Dauer [min] Arbeitsschritte Manpower Computer Gesamt Schneiden & Speichern 3 12 15 Entwackeln 5 70 75 - 40 40 40 - 40 Georeferenzierung 10 - 10 Beschriftung 150 - 150 2 90 92 210 212 422 Automatisches Tracking (Feature & Kamera) Manuelle Bearbeitung zur Verbesserung der Kameralösung Videoüberlagerung Gesamtes Verfahren Der Verfahrensgang ist dank des automatischen Trackingprozesses weitestgehend automatisiert. Der Anwender muss jedoch zwischen den einzelnen Verfahrensabschnitten eingreifen, damit der nächste Arbeitsschritt wieder vom Computer ausgeführt werden kann. Die manuelle Bearbeitung zur Verbesserung der automatischen Kameralösung muss ausschließlich vom Anwender durchgeführt werden. Auch wenn die Kameralö99 4 Bonner Wegevideos sung sich für das Solingenvideo – aufgrund des bereits guten Ergebnisses des automatischen Trackings – durch eine manuelle Bearbeitung nicht verbessern lässt, trägt eine vom Anwender durchgeführte Bearbeitung der automatisch getrackten Features doch wesentlich zur Verbesserung der Kameralösung für die Bonner Wegevideos bei. Hinsichtlich der Beschriftung in 3D Studio Max besteht das Bestreben nach einer Automation. In der vorliegenden Arbeit erfolgte die Beschriftung jedoch manuell. Die Dauer dieses Arbeitsganges ist von der Erfahrung des Anwenders sowie der Anzahl der eingefügten Objekte abhängig. Somit kann die obige Zeitangabe nicht als allgemeingültiger Wert für eine Sequenz mit der ausgewählten Länge angesehen werden. 100 5 3D-Beschriftung im Objektraum Durch ortsbasierte Dienste können dem mobilen Anwender Auskünfte über die nähere Umgebung direkt und einfach vermittelt werden. Die Informationsanreicherung kann die Orientierung des Betrachters erleichtern, indem etwa Straßennamen auf dem Display dargestellt werden. Die Darstellung der Informationen soll letztendlich dynamisch erfolgen. Die vorliegende Arbeit konzentriert sich auf die angewandte Visualisierung der ortsbasierten Informationen. Im folgenden Kapitel werden die möglichen Darstellungskriterien der Szenenanreicherung diskutiert und graphische Beispiele gegeben. Zuvor wird eine kurze Übersicht einzelner Arbeiten gegeben, die sich mit der Informationsanreicherung realer Ansichten und ihrer Darstellung beschäftigen. 5.1 Related Work Unter Augmented Reality (Erweiterte Realität, kurz AR) versteht man die Überlagerung der natürlichen visuellen 3D-Wahrnehmung mit virtuellen 3D-Objekten [För03]. Zur Darstellung der virtuellen Informationen dient beispielsweise ein sog. Head-MountedDisplay (HMD). Ein HMD besteht aus einem mit dem Kopf fest verbundenem Display für beide Augen, das steuerbare Teile der Umgebung durchlässt und andere überlagern kann, so dass beim Betrachter der Eindruck entsteht, als befänden sich die künstlichen Objekte in der Realität. Die virtuellen Objekte zeigen Informationen, die der Benutzer mit seinen eigenen Sinnen nicht direkt wahrnehmen kann [Azu97]. Die AR wird beispielsweise in folgenden Situationen eingesetzt: Einem Chirurgen werden bei Operationen die nicht unmittelbar sichtbaren Organe räumlich vermittelt. Einem Bauleiter können unterirdische Leitungen, die in einem GIS gespeichert sind, sichtbar gemacht werden. Einem Piloten kann bei schlechter Sicht ein künstliches Bild des Geländes eingespiegelt werden, so dass er sich – vor allem im Landeanflug – nach den ihm bekannten markanten Geländedetails orientieren kann. [För03] Viele Forschungsarbeiten, die sich mit der AR beschäftigen, haben – ebenso wie das in dieser Arbeit besprochene Projekt – die Navigation als Anwendungsziel. Bisher wird jedoch nur in wenigen Arbeiten auf die eigentliche Darstellung der virtuellen Informationen eingegangen: 101 5 3D-Beschriftung im Objektraum In [Bau02] erklärt der Autor, dass die Beschreibung einer Route auf die verschiedenen Benutzerendgeräte zugeschnitten sein muss. Damit ist gemeint, dass sich die dargestellten Informationen an deren Bildschirmgröße, Bildschirmauflösung und Fähigkeit der Farbdarstellung anpassen müssen. In [Bel01] wird ein Algorithmus vorgestellt, der das räumliche Layout von virtuellen 3D-Informationen ermittelt, die auf eine Sichtebene projiziert werden. Der Algorithmus wird in einem Projekt angewandt, in dem reale 3D-Gebäude durch virtuelle Beschriftung näher erläutert werden. Der Anwender hat durch die Festlegung von Beschriftungseinschränkungen Einfluss auf die Anordnung der Beschriftung. So kann beispielsweise der Verdeckungsgrad der realen Ansicht durch die virtuellen Objekte bestimmt werden. Um die Verdeckung möglichst gering zu halten, wird zusätzlich mit Transparenz, die auf die virtuellen Objekte angewendet wird, gearbeitet. Durch Positionsbeschränkungen werden minimale und maximale Beschriftungsentfernungen zum beschriftenden Objekt definiert, damit die Zuordnung immer eindeutig und intuitiv erfolgen kann. Die Beschriftung bewegt sich in einem Spielraum verschiedener Schriftgrößen, wobei immer die jeweils größtmögliche Schrift bevorzugt wird. Je weniger Platz für eine Beschriftung verfügbar ist, desto kleiner wird sie dargestellt. Würde die Beschriftung dabei eine festgelegte Mindestgröße unterschreiten, entfällt sie an dieser Stelle ganz. Zuletzt kann durch die Angabe einer Beschriftungspriorität die Reihenfolge der Beschriftung im Bild festgelegt werden. So werden Beschriftungen mit einem niedrigen Wichtigkeitsrang bei wenig verfügbaren Platz nicht dargestellt, da die Beschriftungen mit hoher Priorität den Vorrang haben. In [Rhy02] wird ein Prototyp vorgestellt, der auf dem in [Bel01] verwendeten Algorithmus basiert. Bild 5.1 zeigt die nähere Beschreibung von vier Statuen als überlagerte Beschriftung. Die Beschriftung wurde automatisch so platziert und skaliert, dass einerseits keine Statue verdeckt wird, andererseits die Beschriftung sich auch untereinander nicht verdeckt. Um eine eindeutige Zuordnung zu gewährleisten, wird die Beschriftung mit der jeweiligen Statue mittels eines Pfeils verbunden. Dem Anwender können bei Bedarf weitere Informationen angezeigt werden. Dafür erstellt das System ein Pop-up-Fenster, das eine nähere Beschreibung sowie eine Nahaufnahme der ausgewählten Statue zeigt. Das Fenster springt an derselben Stelle der zuvor dargestellten Beschriftung auf und weist die gleichen Eigenschaften bezüglich seiner Priorität und Beziehung zu der Statue auf. Folglich wird verhindert, dass das Fenster die Statuen oder andere Beschriftungen verdeckt. 102 5.1 Related Work Bild 5.1 Links: Beschriftete Statuen mittels eines AR-Systems. Rechts: Darstellung weiterer Informationen [Rhy02]. In [Höl99] wird ein mobiles AR-System präsentiert, das dem Anwender ermöglicht, die virtuelle Anreicherung seiner Umgebung selbst zu gestalten. Es können räumliche Objekte wie beispielsweise Laufwege durch die aktuelle Umgebung erstellt und Informationsfenster geöffnet werden. In Bild 5.2 wird aus zwei unterschiedlichen Perspektiven ein solcher Wegepfad dargestellt. Dieser besteht aus einer 3D-Linie, die den Laufweg nachzeichnet. Des Weiteren wird die Ansicht des Betrachters durch verschiedenfarbige Fähnchen ergänzt, die ausgewählte Stationspunkte markieren. Bild 5.2 Wegepfad und Stationspunkte aus zwei verschiedenen Perspektiven [HÖL99]. Eine ähnliche Darstellung der Route, zusehen in Bild 5.3, wird in [Rei03] verwendet. Die Route besteht aus einer Serie von Wegpunkten, die durch in der Umgebung stehende Zylinder dargestellt werden. Die Zylinder werden durch Pfeile verbunden, die dem Wegsuchenden die Richtung zu seinem Zielpunkt weisen. Die Pfeile bilden zusammengenommen eine Linie, die die gesamt Route darstellt. 103 5 3D-Beschriftung im Objektraum Bild 5.3 104 Visualisierung des Wegepfades [Rei03]. 5.2 Objektinformationen im Straßenraum 5.2 Objektinformationen im Straßenraum Aus dem Kapitel zuvor geht hervor, dass eine Zuordnung, Lesbarkeit und Übersichtlichkeit die wesentlichen Anforderungen bei der Informationsanreicherung sind. Bei der Suche nach einer geeigneten kartographischen Darstellung in 3D sollten die eingeschränkten Kapazitäten einer elektronischen Bildanzeige beachtet werden. Kartengraphik kann nämlich nur unter Berücksichtigung der Möglichkeiten und Einschränkungen des Benutzerendgerätes sowie der visuellen Wahrnehmung zu einer eindeutigen und raschen Information führen [Bru00]. 5.2.1 Was soll beschriftet werden? Die Beschriftung von Objekten in den Wegevideos ergänzt die reale Ansicht des Betrachters und dient zur unmittelbaren Erfassung seiner Umgebung. Grundsätzlich gilt: alles, was zur Orientierung beiträgt oder für den Betrachter von Interesse sein kann, ist zu beschriften. Die Anzahl der Beschriftungen sollte jedoch begrenzt bleiben, damit die reale Ansicht durch die Informationsanreicherung nicht zu überladen wirkt. Der aktuelle Standort des Benutzers ist durch die Namensangabe der Straße oder des Platzes anzuzeigen. Zur Anreicherung der realen Szene zählt auch die graphische Darstellung der Route, da sie in einem Navigationssystem das wichtigste orientierungsunterstützende Element ist. Bei der Auswahl der zu beschriftenden POIs (Points of Interest) bietet es sich an, einen gebräuchlichen Stadtplan zu Hilfe zu nehmen. Dort findet man die Namen von Gebäuden und Bauwerken, die gerade für Touristen interessant sein dürften, wie beispielsweise Kirchen, Denkmäler, Museen usw. Allgemein lässt sich sagen, dass die Beschriftung aller öffentlichen Gebäude und Anlagen im Interesse des Benutzers steht. Man denke dabei nur an Krankenhäuser, WCs, Parks, Postämter, Verkehrshaltepunkte und Informationsstellen. Wird dem Anwender im Bereich der ortsbasierten Dienste die Funktion geboten, die Beschriftung einzelner Objektklassen ein- und auszublenden, ist die Anzahl der zu beschriftenden Objekte unbegrenzt. So könnte der Anwender die Anzeige der Beschriftung auf seine persönlichen Bedürfnisse abstimmen, indem er sich beispielsweise gute Restaurants empfehlen lässt oder sich sogar die Speisekarte eines Restaurants anzeigen lässt. In den beiden folgenden Unterkapiteln werden nun für die Informationsanreicherung sinnvolle Optionen hinsichtlich der Gestaltung und Platzierung experimentell ausgearbeitet. 5.2.2 Gestaltung Grundsätzlich kann zwischen textlicher und abstrakter Darstellung von Informationen unterschieden werden. Im Folgenden werden die Anforderungen, die an die Umsetzung dieser beiden Möglichkeiten gestellt werden, aufgezeigt und Beispiele dafür dargestellt. - Textliche Anreicherung der Szene Eine eindeutig lesbare Schrift ist von großer Bedeutung, da Text ein wichtiges erläuterndes Element ist [Pir99]. Bildschirmschriften sind besonders empfindlich gegenüber dem Aliasingeffekt. Kursive sollte sparsam eingesetzt werden, da an den schrägen Li105 5 3D-Beschriftung im Objektraum nien der kursiven Schrift Stufen entstehen. Die Rasterung zerreißt dünne Linien bis zur Unkenntlichkeit. Gleiches gilt für Umrisslinien und Schattierungen. Das Problem liegt auch hier in den dünnen Linien. Der Effekt auf dem Bildschirm ist ein eher unscharfes Bild, das die ästhetische Wirkung und Lesbarkeit herabsetzt. Die Eignung einer Schrift für die Bildschirmdarstellung ist auch abhängig von der Farbkombination der Schrift mit ihrem Hintergrund. Ein weißer Bildschirm ist durch das abgestrahlte Licht heller als ein weißes Blatt Papier. Das hat zur Folge, dass Randbereiche der Schrift überstrahlt werden, wodurch die Schrift dünner erscheint als sie tatsächlich ist. Daher sollte die Strichstärke dicker oder ein dunklerer Schrifthintergrund gewählt werden. Zugunsten einer guten Lesbarkeit sollten Texte auf Bildschirmen grundsätzlich spationiert werden, da die Buchstaben bei zu enger Laufweite „verklumpen“. So kann leicht aus einem „r“ und „n“ ein „m“ oder aus einem „c“ und „l“ ein „d“ gelesen werden. Die Laufweite darf aber auch nicht zu groß sein, da sonst das Wortbild flattert und der Text nur mühsam lesbar wird. WebFonts wie z.B. Verdana oder Trebuchet sind bildschirmgeeignete Schriften, die aufgrund fester Buchstabenabstände auch noch bei einem kleinen Schriftgrad eine gute Lesbarkeit haben. Sie sollten jedoch aufgrund der begrenzten Bildschirmauflösung eine Mindestgröße von 12 pt aufweisen, was einer Höhe von circa 3,6 mm entspricht. [Bru00] Hinsichtlich des Beschriftungsverfahrens im Objektraum kann von keiner genauen Schriftgröße gesprochen werden, da sich die Schrift mit zunehmender Entfernung zum Betrachter verkleinert. Daher muss die Schrift, nachdem sie im Raum eingefügt wurde, im Videobild berechnet und kontrolliert werden. Es empfiehlt sich grundsätzlich eine Mindeststrichstärke von 2 Bildpunkten. In [Mid03] (vergleiche [Bru00]) wird darauf hingewiesen, dass die Lesbarkeit von Texten im Allgemeinen vom oberen Rand der Wörter abhängig ist. Folglich sollten Worte nicht ausschließlich aus Großbuchstaben zusammengesetzt werden, da sie als monotone Rechtecke erscheinen und keine charakteristische Silhouette besitzen. Hinsichtlich der Schriftfarbe tritt das Problem der Farbähnlichkeit auf. Wird beispielsweise für die Beschriftung lediglich eine einzige Schriftfarbe gewählt, wird diese wegen der ständigen Farbveränderung des Hintergrundes in bestimmten Situationen nicht mehr erkennbar. So hebt sich helle Schrift auf hellem Hintergrund und dunkle Schrift auf dunklem Hintergrund nicht ab. Das Problem kann in den meisten Fällen durch den Einsatz von Signalfarben, wie Rot, Gelb oder Grün, behoben werden. Zum anderen kann durch eine farbige Freistellung der Schrift die Lesbarkeit erhöht werden. Dadurch erhöht sich jedoch die Fläche, die die Beschriftung im Bild einnimmt. Da die Verdeckung der realen Ansichten möglichst klein gehalten werden sollte, bietet sich die Möglichkeit einer halbtransparenten Schriftfreistellung an. Besitzen des Weiteren mehrere Beschriftungen die gleiche Farbe, kann die Unterscheidung der dargestellten Informationen erschwert werden. Durch eine unterschiedliche Farbwahl könnte beispielsweise zwischen öffentlichen und gewerblichen Gebäuden differenziert werden. 106 5.2 Objektinformationen im Straßenraum Bild 5.4 Imbiss Imbiss Imbiss Imbiss Links: Problem Farbähnlichkeit – helle Schrift auf hellem Hintergrund und dunkle Schrift auf dunklem Hintergrund. Rechts: Signalfarbe erhöht die Wahrnehmung der Schrift (in 2D erstellt, Schriftart: Verdana, Schriftgröße: 12pt). Geschäft Bild 5.5 Geschäft Links: Freistellung der Schrift durch andersfarbigen Hintergrund. Rechts: Freistellung der Schrift durch andersfarbigen halbtransparenten Hintergrund. - Abstrakte Anreicherung der Szene Symbole bzw. Signaturen benötigen als kartenspezifische Kurzschrift im Vergleich zur Kartenschrift weniger Kartenfläche und wirken auch unmittelbar auf das Vorstellungsvermögen [Hak02]. Die Vielfalt in Ausdruck und Anwendung macht die Signatur zu einem der wichtigsten Gestaltungsmittel in der kartographischen Visualisierung. „Bilder sagen mehr als Tausend Worte“ besagt auch ein altes Sprichwort. Der Grund dafür liegt darin, dass Bilder von einer enormen Bandbreite kortikaler Fähigkeiten Gebrauch machen: Farbe, Form, Mehrdimensionalität, visueller Rhythmus und insbesondere Vorstellungskraft [Buz99]. Bilder rufen deshalb häufig viel mehr hervor als gelesene Wörter. Sie sind genauer und kraftvoller, wenn es darum geht, eine Assoziationskette auszulösen. Für weit verbreitete und bekannte Logos wie z.B. die von Haltestellen, Apotheken, der Post, oder großen Handelsketten bietet sich die Möglichkeit, Graphiken zu verwenden. Da allerdings keine allgemein-verbindliche Festlegung zwischen dem Zeichen (Syntax) und seinem begrifflichen Sinngehalt (Semantik) besteht, ist bei einer Verwendung von Bildern daher noch eine besondere Zeichenerklärung (Legende) notwendig. 107 5 3D-Beschriftung im Objektraum Bild 5.6 Allgemein bekannte Logos bewirken beim Betrachter eine schnellere Informationsassoziation Für die Darstellung der Route wird auf die Vorteile der Signaturen zurückgegriffen. Somit werden graphische Symbole der textlichen Darstellung vorgezogen. In Kapitel 5.1 wurden bereits zwei Möglichkeiten der Routendarstellung vorgestellt. Die Darstellung der Richtungsanzeige wird in [Mid03] gemäß dem Grundsatz „Form folgt Funktion“ auf Pfeile beschränkt. Dabei wird generell zwischen einfachen und zusammengesetzten Pfeilen unterschieden. Um redundante Informationen im Bildausschnitt auszuschließen, sind einfache Formen den komplizierteren vorzuziehen. Hinsichtlich der Farbwahl gelten die gleichen Überlegungen wie bei der textlichen Darstellung. Die Wegpfeile sollten sich von ihrem Hintergrund eindeutig abheben und die Aufmerksamkeit des Benutzers auf sich ziehen. Die Farbgebung sollte einheitlich sein, um einen hohen Wiedererkennungswert zu gewährleisten. Ein Wechsel der Farbe ist dann zweckmäßig, wenn es sich beispielsweise um den letzten Wegrichtungspfeil vor dem Ziel handelt. Bezüglich der Größendarstellung symbolischer Graphiken kann keine allgemeingültige Aussage getroffen werden. Die Größe ist immer von Form und Komplexität der jeweiligen Signatur abhängig. Wichtig ist, dass die Symbole in jedem Fall deutlich zu erkennen sind. Bild 5.7 Einfache und zusammengesetzte Pfeile [Mid03] 5.2.3 Platzierung Bei der Platzierung von textuellen und abstrakten Navigations- und Informationshilfen muss beachtet werden, dass die Szene für den Anwender gut lesbar und übersichtlich gestaltet sein sollte. Im nachfolgenden Unterkapitel werden für die Wegroute und die Beschriftung von POIs und Positionsinformationen mögliche Positionen im Videobild demonstriert und auftretende Probleme erläutert. - Wegroute Bei der Platzierung der Wegrichtungspfeile wird in [Mid03] der Bildausschnitt in drei Bildbereiche aufgeteilt: Bebauung, Himmel und Straßenfläche. Da die Bebauung wesentlich zur Wiedererkennung der Szene beiträgt und die Fläche, die der Himmel im 108 5.2 Objektinformationen im Straßenraum Bildausschnitt einnimmt, oft sehr klein oder überhaupt nicht sichtbar ist, kommt die Autorin zu dem Ergebnis, dass die Straßenfläche für die Platzierung der Wegweiser geeignet ist. Lediglich wenn die im Bild vorhandene Verkehrsfläche zu klein ist, um einen Pfeil darin platzieren zu können, wird dieser am seitlichen Rand des Displays dargestellt. Bild 5.8 Positionierung der virtuellen Wegweiser [Mid03]. Die abstrakte Wegrichtung kann im Objektraum auf ein Höhenmodell platziert werden. Das für die vorliegende Arbeit zur Verfügung stehende Höhenmodell der Bonner Innenstadt besitzt eine Rasterweite von 50 m. Sollte diese Auflösung zu grob für eine realistische Geländeanpassung der Route sein, dann kann die Route auch manuell platziert werden. Dazu muss lediglich der Höhenverlauf der berechneten Kamera um die Höhe der Kamera bei der Aufnahme, hier 1,7 m, reduziert werden. - Beschriftung von POIs Auch für die Platzierung von Beschriftung würde sich die Straßenfläche eigenen. Dabei käme es allerdings zwangsläufig zu einem Überlappungskonflikt mit der graphischen Darstellung der Wegrichtung. Somit bleibt nur die Bebauungsfläche als Optionen offen, da der Himmel, wie oben schon erwähnt, oft sehr klein oder überhaupt nicht sichtbar ist. Generell gibt es drei wesentliche Optionen, die sich für die Platzierung der Beschriftung im Raum bieten: 109 5 3D-Beschriftung im Objektraum Koplanare Gebäudebeschriftung Der Informationstext wird auf das zu beschriftende Gebäude projiziert. Der Text verdeckt somit immer nur Bildinformationen des jeweiligen Gebäudes. Da der Schriftzug der Bildperspektive folgt, wird die Schrift bei waagerechter Schreibweise zum Ende hin schlechter lesbar. Je nachdem wie schmal eine beschriftete Gebäudefläche im Videobild erscheint, kann die Schrift womöglich nicht mehr zu entziffern sein. Dagegen stellt die senkrechte Schreibweise zwar eine ungewohnte Leserichtung für den Betrachter dar, die einzelnen Buchstaben des Textes besitzen aber untereinander eine gleichwertige Lesequalität. Bild 5.9 Koplanare Gebäudebeschriftung: horizontaler Schriftverlauf auf linkem Haus und vertikaler Schriftverlauf auf rechtem Haus. Schilderbeschriftung Der Informationstext wird im rechten Winkel zum Gebäude platziert. Auf diese Weise wird die perspektivische Verzerrung ausgeräumt, da die Beschriftung nun frontal zum Betrachter hin ausgerichtet ist. Durch den waagerechten Schriftverlauf wird die Verdeckung des entsprechenden Gebäudes minimiert und zur Bildmitte hin verlagert. Die senkrechte Schreibweise gleicht einer realitätsnahen Schilderbeschriftung, doch verdeckt sie große Teile des beschrifteten Gebäudes. Bei Platzierung an der Gebäudemitte (Bild 5.10) wird die hintere Hälfte des entsprechenden Gebäudes sowie ein Teil des Bildes daneben verdeckt. 110 5.2 Objektinformationen im Straßenraum Bild 5.10 Schilderbeschriftung: horizontaler Schriftverlauf am linkem Haus und vertikaler Schriftverlauf am rechtem Haus. Abstandsbeschriftung Der Informationstext wird nicht direkt an das entsprechende Objekt platziert. Eine Zuordnung kann durch ein verbindendes Element wie einen Pfeil oder eine Klammer (Bild 5.11) erreicht werden. Werden mehrere Beschriftungen dieser Art in die reale Ansicht gesetzt, kann das Bild schnell unübersichtlich werden. Deshalb sollte auf diese Art der Platzierung nur in Ausnahmefällen zurückgegriffen werden. Eine geeignete Situation findet sich bei ungeradem Straßenverlauf. Die Flächen der Objekte, die sich auf der Innenseite einer Kurve befinden, werden gestaucht und somit im Video für eine kürzere Zeitdauer dargestellt als die Flächen auf der Außenseite einer Kurve. Eine Anwendung der Abstandsbeschriftung kann zudem immer bei Objekten erfolgen, deren Ausmaße besonders klein sind, wie z. B. Denkmäler oder weit entfernte Kirchturmspitzen, um eine eindeutige Zuordnung zu erleichtern. 111 5 3D-Beschriftung im Objektraum Bild 5.11 Abstandsbeschriftung: Beschriftung wird anhand eines Pfeils oder einer Klammer mit dem entsprechenden Objekt verbunden. Generell entsteht bei einer Beschriftung in der Gebäudefläche das Problem der Verdeckung realer Informationen. Aus diesem Grund sollte die Beschriftung unter Beachtung der Mindestgröße so klein wie möglich gewählt werden, um den Wiedererkennungswert der Szene möglichst hoch zu halten. Damit die Beschriftung nicht in die Straßenfläche hineinragt, sollte die Beschriftung im Objektraum über der horizontalen Sichtebene des Betrachters bzw. der Aufnahmekamera angeordnet werden. Werden die virtuellen Texte und Symbole in einer Ebene über dem Horizont angeordnet, ist bei der Beschriftung der Bonner Videos zu prüfen, ob der durch die perspektivische Verzerrung entstehende Höhenversatz der virtuellen Objekte im Videobild eine gegenseitige Überlappung ausschließt. Kommt es dennoch zu einer Überlappung der virtuellen Objekte im Videobild, kann eine mögliche Lösung durch eine Variation der Beschriftungshöhe erreicht werden. - Beschriftung von Straßen und Plätzen Die Bezeichnung des aktuellen Standortes wird in [Mid03] als statische Navigationsanweisung bezeichnet. Ein statisches Objekt bleibt trotz Bewegung im Bild an einem Punkt des Displays konstant. Die Autorin schlägt vor, die statischen Wegweiser am unteren Bildrand zu positionieren, da die Freiraumwahrscheinlichkeit dort am größten ist (siehe Bild 5.12). Da die Beschriftung in der vorliegenden Arbeit im Objektraum erfolgt, muss für die Realisierung ein Trick angewendet werden: Das Textobjekt kann in 3D Studio Max mit der Kamera in einem festen Abstand verbunden werden (Verlinkung). Durch diese Verlinkung schließt sich das Objekt der Vorwärtsbewegung der Kamera an und erscheint somit im Videobild stets an der gleichen Stelle. Eine weitere Möglichkeit, einen Text an den unteren Rand des Videobildes zu platzieren, besteht darin, die statische Information beispielsweise in Adobe Premiere dem Videofilm als Titel zu überblenden. 112 5.2 Objektinformationen im Straßenraum Die Beschriftung von Straßen, die die aktuelle Straße kreuzen, sollte in einem Höhenbereich erfolgen, der zwischen der Bodenfläche und dem Horizont liegt. Somit ist gewährleistet, dass sich die Straßenbezeichnungen, die Bezeichnungen der POIs sowie die Routendarstellung nicht gegenseitig verdecken. In der Sürst Gangolfstr In der Sürst In der Sürst Bild 5.12 Münsterplatz Beschriftung des aktuellen Standpunktes und weiterer Navigationsangaben (mit 2DGraphiksoftware erstellt). - weitere Probleme Befinden sich POIs in weiter Entfernung zum Betrachter, erscheinen deren Flächen im Videobild sehr klein. Für diese Flächen ist eine Beschriftung nicht sinnvoll. Die Abhängigkeit des Zeitpunktes, wann Informationen eingeblendet werden, kann durch die Entfernung und die Größe der POIs beschrieben werden. Es treten jedoch Situationen auf, in denen eine Beschriftung der oben genannten POIs dennoch wünschenswert wäre. So sollte etwa eine Kirchturmspitze, obwohl sie sich in weiter Entfernung zum Betrachter befindet, mit einer Informationsangabe angereichert werden, da sie die Umgebung enorm prägt und so zur Orientierung bedeutend beiträgt. Durch das Verfahren der Beschriftung im Objektraum passt sich die Schriftgröße der Entfernung an. Für das Beispiel des weit entfernten Kirchturmes bedeutet das, dass der Informationstext für eine gute Lesbarkeit im Videobild zu klein dargestellt wird. Die Schrift muss also für diesen speziellen Fall vergrößert werden. Spezialfälle, wie sie oben beschrieben werden, erschweren die Automation der Beschriftung im Objektraum. 113 5 3D-Beschriftung im Objektraum - Darstellungsvorschlag In Bild 13 werden die oben vorgeschlagenen Höhenbereiche der einzelnen Objekte zusammengefasst. Die statische Positionsangabe, die den aktuellen Standort des Anwenders beschreibt, ist von dieser Höhenverteilung ausgeschlossen, da sie immer am unteren Bildrand eingeblendet wird. Bild 5.13 Höhenbereiche für die Beschreibung von Routenanweisungen, Positionsangaben und POIs. Die Beschriftung sollte im Videobild so wenig Verzerrung wie nur möglich aufweisen, d.h. sie sollte möglichst frontal zum Betrachter ausgerichtet sein. Eine Beschriftung kann frontal zum Betrachter ausgerichtet werden, indem ihre Orientierung bezüglich der Z-Achse der Orientierung der Kamera angepasst wird. Durch diese Ausrichtung geht jedoch der räumliche Effekt der Beschriftungsflächen verloren, der gerade durch das Beschriftungsverfahren im Objektraum ermöglicht wird. Die virtuellen Objekte werden zwar mit zunehmender Entfernung zum Betrachter im Videobild kleiner dargestellt, doch dadurch, dass die Flächenkanten im Bild nicht in Richtung der Fluchtpunkte verlaufen, wirken sie, als ob sie mit Hilfe eines gewöhnlichen 2D-Graphikprogrammes eingefügt wurden (s. Bild 5.15). Passen sich die virtuellen Objekte dagegen mit ihren Kanten der Perspektive im Bild an, wird dadurch zudem die eindeutige Zuordnung der Objekte zu ihren jeweiligen POIs erleichtert. Der 3D-Effekt der Schriftplatzierung im Objektraum soll deshalb genutzt werden. Um die Orientierung der Beschriftung im Objektraum bezüglich der Z-Achse dennoch festlegen zu können, wird folgendes System vorgeschlagen: - Koplanare Gebäudebeschriftung, falls der Schnittwinkel der Normalen von der zu beschriftenden Gebäudefläche mit der Kamerablickrichtung in einem Bereich von 0 bis 45 Grad liegt. - Schilderbeschriftung, falls der Schnittwinkel der Normalen von der zu beschriftenden Gebäudefläche mit der Kamerablickrichtung in einem Bereich von 45 bis 90 Grad liegt. - Frontale Ausrichtung, falls nur Abstandsbeschriftung möglich ist. 114 5.2 Objektinformationen im Straßenraum Die Orientierung der Positionsangaben verhält sich ähnlich, wobei hier die Gebäudenormale vom Straßenverlauf ersetzt wird. Bild 5.14 veranschaulicht dieses System für die ersten beiden Punkte. Die Schnittwinkelbereiche überlappen sich bewusst. Damit soll deutlich gemacht werden, dass in Ausnahmefälle von dieser Methode abgewichen werden kann. S 90° 45° 0° K S/K Bild 5.14 Orientierungsregelung der Beschriftung bezüglich der Z-Achse im Objektraum (S: Schilderbeschriftung, K: Koplanare Gebäudebeschriftung. Draufsicht). Bild 5.15 zeigt, wie die zusätzlichen Informationsangaben im Videobild dargestellt werden können. Da das Bild in 2D erstellt wurde, weisen die eingefügten Objekte keine perspektivischen Verzerrungen auf. Im sechsten Kapitel wird dieser Darstellungsvorschlag auf ausgewählte Videos angewendet. Die Platzierung der Informationen erfolgt dann im Objektraum. 115 5 3D-Beschriftung im Objektraum Kneipe Inferno S p i e l w a r e n Gangolfstr. Gerhard Von Are Str. Bild 5.15 116 Platzierungs- und Gestaltungsvorschlag für die Informationsanreicherung im Videobild (mit 2D-Graphikprogramm erstellt). 6 3D-Beschriftung ausgewählter Wegevideos Die in Kapitel fünf konkret erarbeitete Möglichkeit der Beschriftung von Gebäuden sowie der Darstellung der Route wird nun auf ausgewählte Wegevideos angewendet. Bei der praktischen Umsetzung wird vorausgesetzt, dass die Qualität der Objektplatzierung im originalen Video in einem annehmbaren Bereich für den Betrachter liegt. Durch das Kameramatching erhält man neben der digitalen Nachbildung der Kamera zusätzlich die 3D-Struktur der Szene als Punktwolke. Diese Punkte sind mit der virtuellen Szenerie, dem 3D-Modell, nicht deckungsgleich, zeigen aber die Positionen markanter Features im 3D-Raum an, die sich unter Verwendung der berechneten Kamerafahrt von Boujou an den richtigen Stellen im Videobild befinden. Deshalb werden zusätzlich zu dem Bonner 3D-Modell diese berechneten 3D-Positionen als Anhaltspunkte für die Objektplatzierung zur Hilfe genommen. Die Routendarstellung beinhaltet die Anzeige von Richtungsänderungen. Würden die dazu eingefügten Pfeile planar auf der Bodenfläche platziert, wären sie für den Betrachter aufgrund der perspektivischen Verzerrung nur noch schlecht erkennbar. Um dies zu vermeiden, werden sie 90 Grad um ihre Richtungsachse gedreht. Bei der Betrachtung des Solingenvideos, zusehen in Bild 6.1, fällt auf, dass die Beschriftung ab einer bestimmten Entfernung für den Betrachter nicht mehr zu erkennen ist. Es ist sinnvoll, dass die Beschriftung erst zu dem Zeitpunkt eingeblendet wird, an dem sie eine erforderliche Mindestgröße erreicht hat. 3D Studio Max bietet die Option für die virtuelle Kamera eine Sichtbarkeitsdistanz festzulegen; d.h. es werden beim Rendern der Szene nur die Objekte berücksichtigt, die eine vom Benutzer festgelegte Distanz zur Kamera nicht überschreiten. Für das Solingenvideo wurde für die Kamera eine Sichtbarkeitsdistanz von 36 m verwendet. Mit Hilfe einer solchen Sichtbarkeitsdistanz kann neben der Höchstdistanz auch eine Mindestdistanz definiert werden. Die Mindestdistanz bestimmt ab welcher Entfernung zur Kamera ein Objekt beim Rendern erfasst wird. So könnten Beschriftungen, die beim Vorwärtslauf des Videos aus dem Bild wandern, ausgeblendet werden, sobald sie nicht mehr eindeutig zu identifizieren sind. Diese Option wurde jedoch bei den hier gezeigten Beispielen nicht gewählt, da sonst die statische Positionsanzeige, die sich stets am unteren Bildrand befindet, aufgrund ihrer geringen Entfernung zur Kamera nicht mehr dargestellt würde. Die Möglichkeit der entfernungsabhängigen Darstellung künstlicher Objekte hat allerdings hinsichtlich der maximalen Distanz zur Kamera einen Nachteil. Beschriftungen, die weit von der Kamera entfernt liegen, für die Orientierung aber dennoch wichtig sind, werden bei der Darstellung nicht berücksichtigt. So würde u. a. das Bonner „Münster“ im Beispiel 3 (Bild 6.4) nicht näher beschrieben werden. Ein weiteres Hilfsmittel, das den Zeitpunkt der Beschriftungseinblendung beeinflussen kann, ist die Transparenz. Mit Hilfe der in 3D Studio Max zur Verfügung stehenden Animationsfunktion können Objekte zu bestimmten Zeitpunkten transparent dargestellt werden. So kann für jedes künstliche Objekt der Darstellungszeitpunkt individuell und 117 6 3D-Beschriftung ausgewählter Wegevideos unabhängig von der Entfernung zur Kamera definiert werden. Für das Solingenvideo wurde die linke Straßenrichtungsanzeige „Str. Name“, die den Weg des Betrachters kreuzt, so animiert, dass sie im Videobild, kurz bevor der Betrachter scheinbar durch diese Beschriftungsanzeige läuft nicht mehr erscheint. Ein weiteres Anwendungsbeispiel ist im sechsten Beispiel zu finden (Bild 6.7). Hier wird die Gebäudebeschriftung „Roland“ erst dann im Videobild dargestellt, wenn das Gebäude selber nicht mehr von dem davor stehenden Gebäude verdeckt wird. In einem solchen Fall besteht des Weiteren die Möglichkeit mit Hilfe von Verdeckungsinfos die Darstellung im Video zu regeln. Verdeckungsinformationen finden beispielsweise im ARQuake Projekt Anwendung [Pie02]. ARQuake ist ein mobiles Computerspielsystem, indem der Benutzer virtuelle Monster erschießen muss. Das Besondere an diesem Spiel ist, dass sich der Benutzer in der freien Natur bewegt und sich die virtuellen Monster hinter realen Gebäuden verstecken können, um vom Betrachter nicht gesehen zu werden. Auf die gleiche Weise könnte das Bonner 3D-Modell dazu beitragen, die Teile künstlicher Objekte zu bestimmen, die von den realen Gebäuden verdeckt werden, sodass sie im Videobild nicht angezeigt werden. Das 3D-Gebäudemodell hat somit Auswirkung auf die Anzeige anderer Objekte, wird selber aber nicht im Video dargestellt. Es gibt für 3D Studio Max ein PlugIn, das diese Aufgabe bewältigen kann. Aus Zeitgründen konnte es in dieser Arbeit nicht erprobt werden. Nun folgen Bildausschnitte ausgewählter Videos, die für die vorliegende Arbeit beschriftet wurden. Diese sind auch als komplette Videos auf der beiliegenden CD anzuschauen. Viel Spaß! Bild 6.1 118 Solingenvideo: Links: weit entfernte Beschriftungen können nicht entziffert werden. Rechts: maximale Sichtbarkeitsdistanz blendet weit entfernte Beschriftungen aus. 5.2 Objektinformationen im Straßenraum Bild 6.2 Ausschnitte des beschrifteten Videos (Beispiel 1). Bild 6.3 Ausschnitte des beschrifteten Videos (Beispiel 2). Bild 6.4 Ausschnitte des beschrifteten Videos (Beispiel 3). Die Beschriftung „Münster“ muss vergrößert dargestellt werden, da sie sich in weiter Entfernung zur Kamera befindet. 119 6 3D-Beschriftung ausgewählter Wegevideos Bild 6.5 Ausschnitte des beschrifteten Videos (Beispiel 4). Bild 6.6 Ausschnitte des beschrifteten Videos (Beispiel 5). Bild 6.7 Ausschnitte des beschrifteten Videos (Beispiel 6). Die Beschriftung „Roland“ taucht erst dann im Video auf, wenn sie nicht mehr von dem „Kaufhof“-Gebäude verdeckt wird. 120 7 Zusammenfassung und Ausblick In dieser Arbeit wurde ein Konzept vorgestellt, mit dem die Fußgängernavigation und Routenplanung durch die Visualisierung von Videos und Panoramen erleichtert werden soll. Videos und Panoramen, die mit virtuellen Informationen angereichert sind, bieten eine Unterstützung bei der intuitiven Orientierung und Wegsuche und ergänzen so die in Fußgängernavigationssystemen verwendeten traditionellen Karten [Kol04]. Des Weiteren stellt das präsentierte Konzept in seiner Umsetzung nur geringe Anforderungen an Rechenleistung und Bandbreite mobiler Endgeräte. Es muss lediglich das Abspielen von Videos möglich sein. Jedoch ist die Genauigkeit der Positions- und Orientierungsbestimmung des jeweiligen Benutzerendgerätes zu beachten. Da sich das Erscheinungsbild vieler Objekte im Laufe der Zeit aufgrund von Fassadenrenovierungen, Umbauten oder Verfallserscheinungen ändern können, so können dargestellte Videobilder, die nicht mit der aktuellen, realen Ansicht des Betrachters übereinstimmen, zur Verwirrung führen. Ähnliche Probleme können sich auch hinsichtlich auffälliger mobiler Einrichtungen – wie z.B. Marktstände – ergeben. Dem Umstand einer veränderten Aussicht der Umgebung am Tag und in der Nacht kann durch alternative Videoaufnahmen Rechnung getragen werden. Ein Schwerpunkt dieser Arbeit lag darin, das Verfahren der Beschriftung im Objektraum näher zu untersuchen. Es war zu klären, ob durch die Methode des Kameratrackings und der Georeferenzierung der Videobilder die Integration von virtueller Beschriftung und Wegweisern mit der erforderlichen Genauigkeit erreicht werden kann. Für ein Video, das eine virtuelle Umgebung von Solingen zeigt, sind sehr gute Ergebnisse erzielt worden. Für den Betrachter des aufbereiteten Videos wirken die mit der rekonstruierten Kamera gerenderten Beschriftungsobjekte, als hätten sich diese schon beim Rendern des Ausgangsvideos in der 3D-Szene befunden. Hinsichtlich der realen Bonner Wegevideos sind jedoch einige Probleme aufgetaucht. So hat sich beispielsweise gezeigt, dass sich Ungenauigkeiten in den Koordinaten des Bonner 3D-Modells sowie eine beschränkte Auswahl der für die Georeferenzierung geeigneten Punkte negativ auf das Gesamtergebnis auswirken. Für zukünftige Arbeiten in diesem Themengebiet wird empfohlen, die Ausgangsdaten des 3D-Gebäudemodells zu verbessern, d. h. einen größeren Maßstab der Luftbilder sowie Passpunkte mit höherer Genauigkeit für die Orientierung der verwendeten Luftbilder zu wählen. Des Weiteren wäre zu prüfen, inwieweit eine Ergänzung der für die Georeferenzierung verwendeten Punkte, die ausschließlich aus den Luftbildern erhalten wurden, durch terrestrisch aufgenommene Punkte die Einordnung der Videoszenerie in den Objektraum verbessert. Schließlich konnten in dieser Arbeit nicht alle Fehlerquellen qualifiziert werden. Somit bleiben Fragen, die überwiegend in den Bereich der Photogrammetrie fallen, insbesondere hinsichtlich der Gründe und Quantitäten der auftretenden Abweichung bei der Zuordnung in den Objektraum offen. Diese Arbeit kommt zu dem Ergebnis, dass das Verfahren der Videobeschriftung im Objektraum für viele Fälle eine eindeutige Zuordnung der virtuellen Beschriftung zu den realen Objekten im Videobild gewährleisten kann. Die Zuordnung für den Anwender wird dann erschwert, wenn sich viele kleine oder weit entfernte reale Objekte im 121 7 Zusammenfassung und Ausblick Videobild befinden. Nehmen dagegen reale Objekte viel Platz im Videobild ein, dann ist die Zuordnung der in dieser Arbeit erstellten Beispiele immer eindeutig. Einen zweiten Schwerpunkt bildete die eigentliche Gestaltung der virtuellen Beschriftungen im 3D-Raum. Die Integration und Positionierung mehrerer künstlicher Objekte steht in engem Zusammenhang zu der Schriftplatzierung in der Kartographie. Die Beschriftung von Videos in 3D ist jedoch ein noch weitgehend unbehandeltes Thema. In dieser Arbeit wurde sich mit dem Problem der Platzierung sowie der graphischen Gestaltung auseinandergesetzt und ein Darstellungsvorschlag erarbeitet. Anschließend wurden Ergebnisse präsentiert, die virtuelle Beschriftungen in ausgewählten Wegevideos zeigen. 122 Literaturverzeichnis [2d303] 2d3 Limited: Handbuch: boujou 2.3.1 help. Oxford, UK, 2003. [Azu97] Azuma, R.: A Survey of Augmented Reality. In Presence: Teleoperators and Virtual Environments 6, 4 (August 1997), 355-385. http://www.cs.unc.edu/~azuma/ARpresence.pdf (letzter Zugriff: 14.07.04) [Azu01] Azuma, R., Baillot, Y., Behringer, R., Feiner, S., Julier, S., MacIntyre, B.: Recent Advances in Augmented Reality. IEEE Computer Graphics and Applications 21, 6 (Nov/Dec 2001), 34-47. http://www.cs.unc.edu/~azuma/cga2001.pdf (letzter Zugriff: 14.07.04) [Bau02] Baus, J., Krüger, A., Wahlster, W.: A Resource-Adaptive Mobile Navigation System. In: Proceedings of Int. Conference on Intelligent User Interfaces IUI 2002 in San Francisco, California, USA, ACM Press, New York, 2002. [Bel01] Bell, B., Feiner, S., Höllerer, T.: View Management for Virtual and Augmented Reality. In: Proceedings of the 14th annual ACM symposium on User interface software and technology Department of Computer Science in Orlando, Florida, USA, ACM Press, New York, 2001. [Bru00] Brunner, K.: Kartengestaltung für elektronische Bildanzeigen - Kartographische Bausteine. TU Dresden, 2000. [Buz99] Buzan, T. & Buzan, B.: Das Mind-map-Buch. 4. Aufl., Landsberg a.L.: mvg-verl., 1999. [Dan01] Danaher, S.: Boujou 1.2: Camera Matching. 2001. [För03] Förstner, W.: Skript zur Vorlesung Photogrammetrie I, II und III, Rheinische Friedrich-Wilhelm-Universität Bonn. 2003. http://www.ipb.uni-bonn.de/Teaching/ (letzter Zugriff: 07.07.04) [Gib02] Gibson, S., Cook, J., Howard, T., Hubbold, R.: Accurate Camera Calibration for Offline, Video-Based Augmented Reality. In: Proc. of the IEEE International Symposium on Mixed and Augmented Reality (ISMAR'02) in Darmstadt, Germany, 2002. [Gül01] Gülch, E.: Image Analysis in semi-autimatic building extraction. Auszug aus: Künstliche Intelligenz, Heft 4/01, ISSN 0933-1875, arendtap Verlag, Bremen, 2001. http://www.kuenstliche-intelligenz.de (letzter Zugriff: 14.07.04) [Hak02] Hake, G., Grünreich, D., Meng, L.: Kartographie: Visualisierung raum-zeitlicher Informationen. 8., vollst. Neu bearb. und erw. Aufl., Berlin, 2002. [Harr88] Harris, C. & Stephens, M.: A combined corner and edge detector. 1988. Seite 147-151 [Hart02] Hartley, R. & Zisserman, A.: Multiple View Geometry in Computer Vision. Cambridge, UK, 2002. [Höl99]] Höllerer, T., Feiner, S., Terauchi, T., Rashid, G., Hallaway, D.: Exploring MARS: Developing Indoor and Outdoor User Interfaces to a Mobile Augmented Reality System. Computers and Graphics, 23(6), Elsevier Publishers, Dezember 1999. Seite 779785 123 0 Literaturverzeichnis [Ica02] Gibson, S. & Cook, J. & Howard, T. & Hubbold, R.: ICARUS: Interactive Reconstruction from Uncalibrated Image Sequences. ACM Siggraph 2002 Conference Abstracts and Applications. San Antonio, Texas, Juli 2002. [Ica03] Gibson, S. & Cook, J. & Howard, T. & Hubbold, R.: ICARUS User-Guide. Advanced Interfaces Group, University of Manchester, UK, 2003. [Kol02] Kolbe, T. H.: Fußgängernavigation und Routenplanung in Innenstädten und Gebäuden mit Videos und Panoramen. In: Tagungsband der Münsteraner GI-Tage 2002. IfGI Prints, Nr. 13, Uni Münster, 2002. http://www.ikg.uni-bonn.de/Kolbe_home/publications/gi-tage2002.pdf (letzter Zugriff: 13.07.04) [Kol04] Kolbe, T. H.: Augmented Videos and Panoramas for Pedestrian Navigation. In: Proceedings of the 2nd Symposium on Location Based Services & TeleCartograhphy 2004 from January, 28.-29. in Vienna. G. Gartner (ed.), Geowissenschaftliche Mitteilungen, Schriftenreihe der Studienrichtung Vermessungswesen und Geoinformation, TU Wien, 2004. http://www.ikg.uni-bonn.de/Kolbe_home/publications/TeleCartography2004_Kolbe.pdf (letzter Zugriff: 13.04.04) [Kra03] Kray, C. & Baus, J.: A Survey of mobile guides. Workshop HCI in mobile guides at Mobile HCI, Udine, Italy, 2003. http://www.comp.lancs.ac.uk/~kray/pub/2003_mguides.pdf (letzter Zugriff: 14.07.04) [Läb00] Läbe, T., Gülch, E. und Müller, H.: Semi-automatische Verfahren in der photogrammetrischen Objekterfassung. In: PFG Heft 3, Juli 2000. [Luk01] Lukacin, B.: Den Durchblick bewahren. Presseinformation. 2001. [Mid03] Middel, A.: Virtuelle Wegweiser in Panoramen. Diplomarbeit an der Rheinischen Friedrich-Wilhelm-Universität Bonn, 2003. http://www.ikg.uni-bonn.de/Kolbe_home/diplomarbeiten/Diplomarbeit_Ariane _Middel.pdf (letzter Zugriff: 13.07.04) [Nic02] Nichols, C.: Battle of the Matchmovers – An in-depth Review. http://www.cgarchitect.com/news/Reviews/Review014_1.asp (letzter Zugriff: 14.07.04) [Pie02] Piekarski, W. & Thomas, B.: ARQuake: The Outdoor Augmented Reality Gaming System, Communications of the ACM, 2002 Vol 45. No 1, Seite 36-38. http://wearables.unisa.edu.au/projects/ARQuake/www/papers/piekarski-acm-comms2002.pdf (letzter Zugriff: 14.07.04) [Pirr99] Pirr, U.: Schrift auf dem Bildschirm. In: RZ-Mitteilungen Nr. 18, August 1999. http://edoc.hu-berlin.de/e_rzm/archiv.php#18 (letzter Zugriff: 14.07.04) [Qm04] QM-Infocenter: QM-Basics. http://www.qm-infocenter.de/qm/ (letzter Zugriff: 10.07.04) [Rei03] Reitmayr, G., Schmalstieg, D.: Collaborative Augmented Reality for Outdoor Navigation and Information Browsing. Proc. Symposium Location Based Services and TeleCartography, Vienna, Austria, Januar 2004. Geowissenschaftliche Mitteilungen Nr. 66, 2003. [Ret03] Retscher, G. & Skolaut, G.: Untersuchung von Messsensoren zum Einsatz in Navigationssystemen für Fußgänger. In ZfV 2/2003, Nr. 2, S. 118-129. 124 5.2 Objektinformationen im Straßenraum [Rhy02] Rhyne, T.-M., Bell, B, Feiner, S., Höllerer, T.: Visualization Viewpoints: Information at a Glance. Juli/August 2002 http://www1.cs.columbia.edu/graphics/publications/CGandA2002.pdf (letzter Zugriff: 14.07.04) [Saa03] Saatkamp, J.: Koplanare Beschriftung von Straßen und Wänden. Diplomarbeit an der Rheinischen Friedrich-Wilhelm-Universität Bonn, 2003. Seite 18-19 [Shi94] Shi, J. & Tomasi, C.: Good features to track. In: Proc. IEEE Conference on Computer Vision and Pattern Recognition. 1994. Seite 593-600 [Sony] Sony Corporation: Bedienungsanleitung DCR-TRV900E, 1998. [Ste03] 2d3 Limited: SteadyMovePro – Automatic Video Stabilization. Oxford, UK, 2003. [Tea04] e-teaching. Bildungswege in die InformationsGesellschaft. http://www.e-teaching.org/glossar/alpha-kanal (letzter Zugriff: 09.07.04) [Tom91] Tomasi, C. & Kanade, T.: Detection and tracking of point features. Technical Report CMU-CS-91-132, Carnegie Mellon University, April 1991 [Wac03] Wacker, H.: Adobe Premiere 6.5 – Kompendium. Markt+Technik Verlag, 2003. [Wer01] Werner, E.: Geometrische Transformation von ESRI-Shapefiles. Di-plomarbeit, Technische Universität Dresden, Fakultät Forst-, Geo- und Hydrowissenschaften, Institut für Photogrammetrie und Fernerkundung, 2001. 125