Ein Vergleich der Straßennetze von OpenStreetMap und NAVTEQ
Transcription
Ein Vergleich der Straßennetze von OpenStreetMap und NAVTEQ
Ein Vergleich der Straßennetze von OpenStreetMap und NAVTEQ Ina LUDWIG, Angi VOSS und Maike KRAUSE-TRAUDES Dieser Beitrag wurde nach Begutachtung durch das Programmkomitee als „reviewed paper“ angenommen. 1 Fragestellung OpenStreetMap (OSM) sammelt weltweit Daten über Straßen und „alles andere, was gemeinhin auf Karten zu sehen ist“ (www.openstreetmap.de). Dazu zählt eine Vielzahl von Spezialzielen (Points of Interest), die nicht nur für Touristen, sondern auch für eine Wohnungs- oder Standortsuche interessant sind. Selbsterklärtes Ziel ist es, die Abhängigkeit von den Anbietern proprietärer Daten zu beenden. Nach der OSM-Lizenz (Creative Commons Attribution-Share Alike 2.0) darf jeder die Daten kostenfrei einsetzen und beliebig verarbeiten. Man muss nur abgeleitete Produkte unter dieselbe Lizenz stellen. Dachte man primär an digitale und druckbare Karten und an Daten für Forschung und Lehre, so geht es inzwischen auch um Kartenmaterial für Navigationsgeräte. Zu OSM gibt es freie Software: OpenLayers, für die Karte im Netz, wurde ergänzt um Dienste zur Verortung von Adressen, zur Erstellung von Routen und Einzugsbereichen (NEIS & ZIPF 2006). Damit steht Basisfunktionalität für das Geomarketing und speziell die Standortanalyse bereit. Für OSM fehlen allerdings noch Potenzialdaten, also soziodemografische und sozioökonomische Daten, wie man sie für die Straßennetze von NAVTEQ™ oder Tele Atlas™ beziehen kann. Außerdem wäre noch die Frage der Datenqualität zu klären. Im OSM-Portal liest man dazu, der Detaillierungsgrad der Daten sei regional sehr unterschiedlich und in vielen Städten schon besser als die meisten proprietären Karten. Und überhaupt, was hieße schon „vollständig“? Mit diesen Fragen beschäftigte sich LUDWIG (2010) in ihrer Diplomarbeit, die sie am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS durchgeführt und an der Universität Bonn eingereicht hat. Im Folgenden werden ausgewählte Ergebnisse vorgestellt. Als Methode wurde der Vergleich mit einem Referenzbestand von NAVTEQ gewählt. Dazu muss man wissen, wie sich die verschiedenen Konzepte von OSM und NAVTEQ entsprechen und trotz der Unterschiede möglichst eine 1:1-Zuordnung konstruieren. Wenn man die Qualität der Datenbestände nicht kennt, ist sorgfältig zu überlegen, welche Attribute man für die Zuordnung nutzt. 2 Ausgewählte Ergebnisse Als Ergebnis können wir eine vergleichende Bewertung der OSM-Daten auf Straßenebene ausweisen und zum Beispiel auf Kommunen oder Kreise aggregieren (vgl. Abbildung 1 und Abbildung 2). Es stellte sich heraus, dass die Vollständigkeit regional schwankt, sie ist Ein Vergleich der Straßennetze von OpenStreetMap und NAVTEQ Abb. 1: 411 Relative Objektvollständigkeit OSM im Vergleich zu NAVTEQ pro Kreis besser in besiedelten Gebieten (79,07 %) als in unbesiedelten (64,17 % im 10 km Puffer um Siedlungen, 50,83 % in Entfernung von mehr als 10 km), bei stärker befahrenen Straßen (92,43 % für NAVTEQ Kategorie 4, 88,28 %, für Kategorie 5, 54,63 % für Kategorie 7) und in der Umgebung von geografischen Universitätsinstituten. Qualität erschöpft sich nicht in der Vollständigkeit. Weitere Kriterien laut ISO 19113 (2002) sind interne Konsistenz, Korrektheit und Aktualität, und zwar der Geometrie einerseits und der thematischen Attribute andererseits (MÜLLEGER 2007). Interessanterweise gibt es Städte mit hoher geometrischer Vollständigkeit in OSM, aber fehlenden oder ungenauen thematischen Attributen, und umgekehrt (vgl. Abbildung 3). I. Ludwig, A.Voß und M. Krause-Traudes 412 Abb. 2: Relative Objektvollständigkeit in Großstädten (Prozentsatz zugeordneter NAVTEQ-Objekte) In Solingen zum Beispiel sind die OSM-Straßen weniger vollständig (46 %), dafür aber großenteils benannt (93 %). In Osnabrück hingegen findet man viele Straßen (90 %), aber auffällig selten wurden Einbahnstraßen (18 %), Fußwege (22 %) und die Höchstgeschwindigkeit (1,5 %) eingetragen. In Pforzheim wird von allen Städten am meisten die Höchstgeschwindigkeit (68 %) notiert, und sie unterscheidet sich auch nur gering von der in NAVTEQ (10,3 %). Dafür fehlt auffällig oft das Attribut Einbahnstraße (55 %). In Hamburg sind die untersuchten Attribute sehr vollständig, – bis auf das Attribut Einbahnstraße (69 %). Die OSM-Straßen in Karlsruhe sind sehr vollständig (90 %) und großenteils benannt (91 %), aber oft (15 %) fehlt die Höchstgeschwindigkeit oder weicht von der bei NAVTEQ ab (25 %). Abb. 3: Beispiele für relative Objektvollständigkeit, Vollständigkeit und Korrektheit von Attributen Ein Vergleich der Straßennetze von OpenStreetMap und NAVTEQ 3 413 Bewertung durch Vergleich Wie kommen wir zu diesen Ergebnissen? Unsere Untersuchung macht keine absoluten Aussagen, sondern zieht einen Vergleich zu den Straßendaten von NAVTEQ. Daher die relativen Prozentangaben in den Beispielen oben: In Osnabrück findet man also für 90 % der NAVTEQ-Straßen entsprechende OSM-Straßen. Als kommerzielles Produkt, insbesondere für die Fahrzeugnavigation, sollte das NAVTEQ-Straßennetz (oder alternativ das von Tele Atlas) eine hohe Qualität haben und sich als Referenzbestand eignen, wenn es um Standortanalysen und allgemeiner Geomarketing geht. Steht man für eine Anwendung vor der Wahl zwischen OSM und einem dieser proprietären Produkte, so sind Aussagen über die Unterschiede ohnehin interessant. Es ist nicht neu, Referenzdaten für eine Qualitätsuntersuchung von Straßendaten zu verwenden. JOOS (2000) beschreibt verschiedene Methoden. Einige empirische Untersuchungen für OSM präsentieren ZIELSTRA & ZIPF (2009). Für das OSM-Straßennetz in England hat HAKLEY (2008) zum Beispiel Puffer um die britischen Ordnance Survey Daten gelegt und bestimmt, wie viel Prozent des OSM-Bestands darin liegen. Außerdem hat er in den Zellen eines Rasters die jeweiligen Straßenlängen aufsummiert und verglichen. So kann man relative Vollständigkeit und Genauigkeit prüfen, nicht aber die thematischen Attribute. Ein Graph-Matching-Verfahren kam zum Zeitpunkt der Untersuchung nicht in Betracht. Denn der OSM-Bestand ist (noch) kein Navigationsgraph: im NAVTEQ-Netz endet ein Straßenobjekt bei der nächsten Kreuzung oder Einmündung, weil man dort abbiegen kann. In OSM muss das nicht sein, denn in einer Karte fällt es nicht auf, wenn manche Straßenzüge über eine Kreuzung hinausreichen. Diese unterschiedliche Konzeption von Straßenobjekten ist der wesentliche Grund, weshalb es bei NAVTEQ etwa dreimal so viel Straßenobjekte gibt wie bei OSM. Wir haben für unseren NAVTEQ-OSM-Vergleich eine Objektzuordnung (engl. Matching) konstruiert, ein Verfahren, das sonst für die Fusion von Datenbeständen eingesetzt wird. Damit können wir die relative Vollständigkeit ermitteln und die Qualität jeder einzelnen Straße hinsichtlich ihrer Geometrie und thematischen Attribute beurteilen. Ferner können wir auf NAVTEQ bezogene lizensierbare Marktdaten auf die zugeordneten OSM-Straßen übertragen. 3.1 Vergleich der Konzepte von NAVTEQ und OSM Eine Zuordnung zwischen zwei Straßennetzen setzt voraus, dass die Konzepte aufeinander abgebildet werden können. NAVTEQ (2008) richtet sich nach dem GDF-Format (ISO 14825), die Konzepte von OSM haben RAMM & TOPF (2009) beschrieben. Für den Vergleich verwenden wir die NAVTEQ-Daten aus dem Produkt „Digital Data Streets“ der Firma Digital Data Services GmbH. Dieser leitet aus den original NAVTEQ-Daten neue Attribute wie Kategorie, Richtung und Fußweg ab. Wie schon erwähnt, müssen Straßenobjekte in NAVTEQ an Kreuzungen oder Einmündungen enden, in OSM aber nicht. Sowohl bei OSM als auch bei NAVTEQ muss ein neues Objekt eingeführt werden, wenn sich ein thematisches Attribut, zum Beispiel die Geschwindigkeit, ändert. Das führt zu weiteren Unterschieden, da es bei OSM, anders als bei I. Ludwig, A.Voß und M. Krause-Traudes 414 NAVTEQ, ein Attribut für die Nutzungsart gibt. Für ein Straßenobjekt mit separatem Fußoder Radweg bei NAVTEQ entsteht so bei OSM ein „Linienbündel“. Bei Plätzen und ihren Zufahrten gibt es weitere konzeptionelle Unterschiede, die ebenfalls weit weniger Objekte betreffen als die Kreuzungssituationen. Plätze können in NAVTEQ als ein oder mehrere Straßenobjekte dargestellt sein, in OSM als Straßenobjekt oder Fläche, Parkplätze sogar als Punkt. Zufahrten zu Plätzen können benannt (NAVTEQ) oder auch unbenannt (OSM) sein, Kreise als ein (OSM) oder mehrere Objekte (NAVTEQ) erfasst sein. Tabelle 1 zeigt die Entsprechungen zwischen den thematischen Attributen bei NAVTEQ und OSM. Tabelle 1: Entsprechende Attribute in OSM und NAVTEQ NAVTEQ OSM Kategorie: ordinal Highway: nominal, teils ordinal, Prim_name, Sek_name: nominal (Schreibweise mit ss) Name, Ref: nominal (Schreibweise mit ß) Richtung: 4 Werte nominal Oneway: binär Km/h: 11 metrische Geschwindigkeitswerte Maxspeed: beliebige metrische Geschwindigkeitswerte Fussweg, Fusszone: binär Verschiedene Highway-Ausprägungen: nominal Die Wertebereiche konnten gut aufeinander abgebildet werden, nur bei den Kategorien gab es keine direkte Entsprechung. Tabelle 2 zeigt, wie die Straßenkategorien von OSM und NAVTEQ einander zugeordnet wurden. Insbesondere der niedrigen NAVTEQ-Kategorie 7 entsprechen viele unterschiedliche Highway-Ausprägungen bei OSM. 3.2 Einschränkung auf Stadtstraßen Da uns die Qualität von OSM speziell für das Geomarketing interessierte, konzentrierten wir uns auf bebaute Straßen. Deshalb wurden in beiden Datenbeständen von vornherein Autobahnen und ihre Zubringer (NAVTEQ-Kategorie 1 und 2, OSM motorway, trunk, und deren -links) ausgeschlossen. Im NAVTEQ-Bestand wurden zusätzlich unbenannte Straßen ausgeschlossen. Die ausgewählten Attribute sind in beiden Beständen wesentlich, also vermutlich vollständig und korrekt. Denn bei NAVTEQ braucht man den Straßennamen zur Verortung von Adressen und die Kategorie zum Finden von schnellen Routen. Auf der OSM-Karte werden nur Straßen mit Highway-Tag dargestellt. Insgesamt wurden 98,74 % der Straßenobjekte in OSM und 74,31 % von NAVTEQ verwendet. Ein Vergleich der Straßennetze von OpenStreetMap und NAVTEQ Tabelle 2: Entsprechung der Straßenkategorien in OSM und NAVTEQ NAVTEQ OSM Motorway, Motorway_link Trunk, Trunk_link Primary, Primary_link Secondary, Secondary_link Tertiary Unclassified Residential Living_street Service Footway Path Pedestrian Track Cycleway Steps 3.3 415 Kat 1 Kat 2 × × × × × Kat 4 × × × Kat 5 × × × × Kat 7 × × × × × × × × × × × Segmentierung von OSM Die Zuordnung wird in Anlehnung an WALTER & FRITSCH (1999) konstruiert, indem zunächst für jedes NAVTEQ-Straßenobjekt räumlich nahe Kandidaten in OSM ermittelt werden und diese dann anhand mehrerer Ähnlichkeitskriterien reduziert werden. Die besten Kandidaten, wenn sie gewisse Mindestkriterien erfüllen, sind die Zuordnungspartner. Im Nachgang können Spezialfälle behandelt werden. Ein solches Vorgehen, bei dem nur die besten Kandidaten behalten werden, funktioniert, wenn im Wesentlichen eine 1:1-Zuordnung konstruiert werden muss. Da auf ein NAVTEQObjekt im Durchschnitt aber 2 bis 3 OSM-Objekte entfallen, müssen diese weiter zerlegt werden. Dazu zerschneiden wir die OSM-Objekte, indem wir Puffer um die NATVTEQObjekte legen. Haben wir das am besten passende OSM-Segment zu einem NAVTEQObjekt bestimmt, – unter Umständen auch mehrere gleich gute –, kennen wir natürlich auch die zugehörigen OSM-Objekte, aus denen die Segmente entstanden sind. Durch diese Segmentierung werden insbesondere auch Kreise richtig behandelt. Nach einigen visuellen Stichproben haben wir uns für Puffer in drei Größen entschieden: 5 m, 10 m und 30 m. 5 m ist die bei NAVTEQ erlaubte Abweichung von der Mittellinie. 5 m Puffer zerlegen OSM-Objekte allerdings öfters in Multigeometrien mit abweichender Länge. Die nächste Abbildung illustriert das Problem: Hier passt die Länge des OSM-Segments erst im größeren 10 m Puffer. Der Kaiserplatz in Bonn ist ein Fall für 30 m Puffer. Für diese wird allerdings kein Längenvergleich vorgenommen. 416 Abb. 4: I. Ludwig, A.Voß und M. Krause-Traudes Links: Längenunterschied im 5 m und 10 m Puffer; rechts: 5 m Puffer (gestrichelt) und OSM-Objekte (durchgezogen) am Kaiserplatz in Bonn 3.4 Zuordnung von OSM-Segmenten zu NAVTEQ Die Zuordnung muss möglichst korrekt sein, da sonst die Qualitätsaussagen verfälscht werden. Nicht zugeordnete Straßen können nämlich die Messung der Vollständigkeit beeinflussen und falsche Zuordnungen die Lagegenauigkeit und den Vergleich thematischer Attribute. Deshalb verwenden wir für die Auswahl und Reduktion der Kandidaten nur die Geometrie (Puffergröße und Länge), Name und Kategorie der Objekte. Name und Kategorie hatten wir schon bei der Auswahl der Straßen als korrekt angenommen. Auch die Lage sollte bei einer Toleranz von ± 30 m hinreichend gut sein. Für die Zuordnung werden zu jedem NAVTEQ-Objekt zunächst räumlich nahe Kandidaten gebildet. Das sind alle OSM-Segmente in den drei verschiedenen Puffern. Die Kandidaten müssen ferner eine „passende“ Straßenkategorie haben (siehe Tabelle 2). Dadurch werden zum Beispiel Rad- und Fußwege aus den Linienbündeln aussortiert. Die Kandidatenmenge wird anschließend reduziert. Dazu wird anhand mehrerer Kriterien ein Ähnlichkeitsrang gebildet. Die Kandidaten müssen einen Mindestrang erreichen, und davon werden nur die mit dem besten Rang behalten. Als Ähnlichkeitskriterien benutzen wir die drei Puffergrößen, Längen und Straßennamen. Tabelle 3 zeigt, wie verschiedene Kombinationen von Ähnlichkeitsprädikaten als Kriterien benutzt wurden, um den Rang eines Paares zu bestimmen (5, 10, 30 steht für die Puffergröße, L für ähnliche Länge, N für ähnliche Namen, null für fehlenden Namen). Da der Ähnlichkeitsrang mehrere Kriterien berücksichtigt und nicht nur identische, sondern auch „passende“ Straßenkategorien zugelassen wurden, ist die Zuordnung tolerant gegen Abweichungen in Position und Form der Straßen, in ihrer Kategorisierung und der Schreibweise des Namens. Außerdem bietet sich der Rang der Zuordnungspaare als Indikator für die Korrektheit der Zuordnung an. Ein Vergleich der Straßennetze von OpenStreetMap und NAVTEQ Tabelle 3: Rang 1 2 3 4 5 6 7 8 9 10 3.5 417 Definition des Rangs als Kombination von Ähnlichkeitsprädikaten 5LN × 5N × × 10LN × × × 10N 30N × × × × × 5Lnull 10Lnull × × × 5L 10L × × × × × × Bewertung der Zuordnung In der anschließenden Abbildung 5 sind NAVTEQ-Straßen danach eingefärbt, wie gut ihr OSM-Partner zu ihnen passt. Rang 1-3: Hier stimmen Länge und Name bis zu einem Abstand von 10 m überein. Rang 4-5: Hier sind die OSM-Straßen im 5 m und 10 m Puffer und ähnlicher Länge unbenannt. Rang 6-8: Nur der Name stimmt überein. Rang 9-10: Straßen sind anders benannt, aber ihre Längen sind ähnlich. Abb. 5: NAVTEQ-Straßen in Bonn nach Rang I. Ludwig, A.Voß und M. Krause-Traudes 418 Eine visuelle Prüfung von Stichproben ergab, dass viele Paare korrekt sind, auch wenn ihr Ähnlichkeitsrang niedrig ist. Das ist zum Beispiel der Fall, wenn die OSM-Straße keinen Namen hat oder nicht nahe genug liegt. OSM-Straßen werden öfters per Rad oder zu Fuß erfasst, während sie bei NAVTEQ ja nur 5 m von der Straßenmitte abweichen dürfen. NAVTEQ-Elemente mit unbenanntem OSM-Partner findet man eher bei niedrigen Straßenkategorien (oft benannte Wald- und Feldwege in NAVTEQ) (4,67 % bei Kategorie 4, 13,71 % bei Kategorie 5, 13,87 % bei Kategorie 7). 3.6 Wiederholbarkeit Die hier vorgestellten Ergebnisse betreffen die NAVTEQ-Daten vom 3. Quartal 2008 und die OSM-Daten von April 2009. Der OSM-Datenbestand wächst weiter und wird laufend verbessert. So wurden noch während unserer Untersuchung einige Einbahnstraßen in Heidelberg im Sinne von NAVTEQ korrigiert. Für die logische Korrektheit, die ja unabhängig von einem Referenzbestand spezifiziert werden kann, bietet das OSM-Portal einige Prüffunktionen an. Sie testen zum Beispiel, ob Name und Kategorie vergeben sind und ob die Objekte zusammenhängen. Es ist also wichtig, unsere Methode leicht wiederholen zu können. Ein Datenvergleich zu verschiedenen Zeitpunkten würde auch Aussagen zur Aktualität ermöglichen. Als Voraussetzung müssen die beiden Datenbestände in eine Oracle Datenbank importiert werden. Der NAVTEQ-Bestand wurde automatisch vorverarbeitet, um insbesondere mehrere Attribute für Namen und Fußwege zusammenzuführen. Auch die Zuordnung und die Berechnung der Qualität pro Straßenobjekt geschieht vollautomatisch. Das Ergebnis ist eine Tabelle der NAVTEQ-Objekte mit zugeordneten OSM-Segmenten und -objekten sowie den zugehörigen Ähnlichkeitskriterien und dem Vergleich der thematischen Attribute. 4 Ausblick Die vorgestellte Arbeit bietet viele Fortsetzungsmöglichkeiten. Die Untersuchung kann periodisch wiederholt werden, um die Qualitätsänderung in OSM zu dokumentieren. Werden die relativen Qualitätswerte steigen und ließe sich daraus schließen, dass der NAVTEQ-Datenbestand als Referenzbestand noch geeignet ist? Unsere Methode kann verbessert werden, indem die Zuordnung durch Nachbehandlung in weiteren Spezialfällen korrigiert wird. Die Zuordnung kann aber auch jetzt schon genutzt werden, um Marktdaten von NAVTEQ-Objekten auf OSM-Objekte zu übertragen. Zuordnung und Qualitätsbeurteilung können auf die gesamten Datenbestände ausgebaut werden, beginnend mit Deutschland. Die Methode sollte ferner auf die Topologie ausgedehnt werden. Ihre Qualität ist wichtig, wenn man das Straßennetz von OSM für Navigationsdienste benutzen möchte. Interessant für die Standortanalyse wäre schließlich eine Zuordnung der Spezialziele, die ja eine besondere Stärke von OSM sind. Ein Vergleich der Straßennetze von OpenStreetMap und NAVTEQ 419 Literatur HAKLEY, M. (2008): How good is OpenStreetMap information? A comparative study of OpenStreetMap and Ordnance Survey datasets for London and the rest of England. – http://www.ucl.ac.uk/~ucfamha/OSM%20data%20analysis%20070808_web.pdf (10.12.2009). ISO 14825 (2004): Intelligent transport systems-Geographic Data Files(GDF)-Overall data specification. ISO 19113 (2002): Geographic information - quality principles. JOOS, G. (2000): Zur Qualität von objektstrukturierten Geodaten. Dissertation, Universität der Bundeswehr München. LUDWIG, I. (2010): Abbildung von Straßendaten für Qualitätsuntersuchungen – Ein Vergleich von OpenStreetMap mit Navteq. Universität Bonn, Diplomarbeit. MÜLLEGER, C. (2007): Grundlagen der Datenqualität (ISO19113) – http://homepage.univie.ac.at/wolfgang.kainz/Lehrveranstaltungen/Seminar/ 2006%20WS/Muellegger_Text.pdf (10.12.2009). NAVTEQ (2008): NAVTEQ's NAVSTREETS Street Data: Reference Manual v3.0. 2008. – http://faculty.unlv.edu/jensen/gisdata/navteq/TechnicalReference/ NAVSTREETS_Reference_Manual_v3.pdf (10.12.2009). NEIS, P. & ZIPF, A. (2006): Realisierung der Tourenplanung für ein Emergency-Route-Service auf Basis der OpenLS Spezifikation. AGIT 2006. RAMM, F. & TOPF, J. (2009): OpenStreetMap: Die freie Weltkarte nutzen und mitgestalten. 2. Aufl. Berlin, Lehmanns Media. WALTER, V. & FRITSCH, D. (1999) Matching spatial data sets: a statistical approach. In: International Journal of Geographical Information Science, 13 (5), S. 445-473. ZIELSTRA, D. & ZIPF, A. (2009): Datenqualität von OpenStreetMap – Erste Ergebnisse empirischer Untersuchungen. AGIT 2009.