toad data modeler
Transcription
toad data modeler
Herzstück der Analytik – Ist DatenDaten modellierung für BI wirklich so schwer? München, 17. Juni 2013, BARCM2, 15:00 – 18:00 y BI/DWH Jacqueline Bloemen, Senior Analystin Abstract Datenmodellierung spielt vor allem für BI eine fundamentale Rolle. Das Datenmodell prägt p g die Verwendbarkeit in der Analytik, y da in vielen BI-Architekturen über eine semantische Schicht - aber ohne weitere Applikationslogik – auf die Daten zugegriffen wird. Modellierungsentscheidungen bestimmen auch die Änderungsfreundlichkeit im Sinne zukünftiger Weiterentwicklungen. Gleichzeitig gilt, dass es in der Datenmodellierung kein absolut Richtig und Falsch gibt, und so sind Alternativen der M d lli Modellierung wie i auch hd der D Datenarchitektur t hit kt iin d der P Praxis i unter t E Experten t vielfach i lf h umstritten. Aber nicht nur Experten haben mit Modellierung zu tun. Auch Fachanwender müssen sich mit Datenmodellen auseinandersetzen, sofern sie Anforderungen an BI formulieren oder selbst Auswertungen erstellen. Die faktisch vorhandene Komplexität der Datenwelt ist Anwendern aber regelmäßig schwer zu vermitteln. Unternehmens- und BIspezifische p Fragestellungen g g machen es auch erfahrenen Datenarchitekten schwer,, richtige Entscheidungen zu treffen und verständlich zu kommunizieren. Dieser Track gibt einen Überblick der im Data Warehousing und BI verwendeten Modellierungsmethoden und bringt sie in einen praktischen Verwendungskontext. Verwendungskontext 28.05.2013 © BARC 2013 2 Agenda g • Datenmodellierung für Data Warehouse und BI – Problemstellung und Lösungskonzepte • Modellierung in der BI Architektur – Von der Konzeption bis zur Auswertung A t Pause 16:15-16:45 • BI Anforderungsmanagement und Data Governance – Schnittstelle Fachbereich / IT • Referenzdatenmodelle für BI – Überblick, Nutzen und Grenzen • Ausblick – hat Datenmodellierung im Zeitalter von Big Data ausgedient? 28.05.2013 © BARC 2013 3 Architektur und Modelle – Daten,, das Herzstück des BI Prozesse Prozessmodell Daten Datenmodell Architektur • Business Intelligence Services Monitoring Reporting Ad‐hoc Analysis Planning Legal Consolidation Advanced Analysis Visualization Management Services Collaboration Data Provisioning Services Semantic Layer Caching Relational Data Storage Dimensional Data Storage System & Process Monitoring Federation/ Virtual Data Stores Data Modeling Integration & Integration & Quality Services M t Dt M t Meta Data Mgt. Data Quality Data Integration Enrichment Master Data Security Automation Operational and other source systems 28.05.2013 • BI und DWH Prozesse • Datentransformationsprozesse ergeben sich aus dem Mapping von Datenmodellen • Auswertungsprozesse werden durch Benutzerinteraktionen und nicht durch SW gesteuert • Kein Fokus der Modellierung für BI und DWH BI und DWH Daten • Fokus der Modellierung für BI und DWH © BARC 2013 4 „Commodity „ y Knowhow“ ? • • ANSI-SPARC – 1975 Konzeptionell p • ERM – P. Chen et al, seit 1976 ff • OLAP – E. Codd, 1993 • ADAPT/T-ADAPT – seit 1998/1999 • Implementierung Datenmodellierung Konzeption (fachlich) Implementierung ( h (technisch) h) • Relationale DBMS • seit 1970 Theorie • seit Anfang 80er Praxis • Multidimensionale DBMS • • • • • Seit 1970 IRI Express Seit 1983 Applix pp TM1 Anf. 90er Arbor Essbase Etc. BI Datenarchitektur • Building the Data Warehouse – W. Inmon, 1991 • The Data Warehouse Toolkit – R. Kimball,, 1997 28.05.2013 © BARC 2013 5 Ebenen der Unternehmensmodellierung g Unternehmen Meist behandelte Ebenen der Modellierung, isoliert nach Applikation betrachtet Domäne • Fachgebiete (subject areas) • Geschäftsmodell (business model) • Logisch • Physisch Applikation Operational 28.05.2013 Data W h Warehouse BI A lik ti Applikation © BARC 2013 6 Ebenen der Unternehmensmodellierung g Meist behandelte Ebenen der Modellierung, isoliert nach Applikation betrachtet Realität: •Kein einheitliches Geschäftsmodell vorhanden •Kein einheitliches Geschäftsmodell vorhanden, • Fachgebiete Versuche der 80er und 90er meist gescheitert Unter(subject areas) •Keine einheitliche Begriffswelt (Homonyme, Synonyme) nehmen •Adaption von Begriffen aus den operativen Systemen d ff d •Fehlende Wahrnehmung für Heterogenität durch • Geschäftsmodell Domäne Kontext‐spezifische Perspektiven(business model) • Logisch • Physisch Applikation Operational 28.05.2013 Data W h Warehouse BI A lik ti Applikation © BARC 2013 7 Datenmodellierung g für Data Warehouse Entity Relationship Modeling Dimensionale Modelierung customer region contract product customer shipment measures product payment time account • • • • 28.05.2013 Normalisiert (3.NF) (3 NF) Referentielle Integrität Optimiert für • Detaillierte Daten • Datenpflege • „System of record“ („System der Aufzeichnung“) Gut geeignet für technische Experten • • • Fokussiert F k i t auff fachliche f hli h Di Dimensionen i und d Kennzahlen Optimiert für dimensionale Analyse • Detaillierte und aggregierte Daten • Reporting • Ad hoc Analyse • OLAP Gut geeignet für Fachanwender © BARC 2013 8 Datenmodelierung g – ERM und DM Varianten ERM – Varianten • • • • DM – Varianten SERM – Structured ERM UML - Unified Modeling Language Data Vault Notationen • • • • • • • • Chen Bachmann Martin / IE / Crows Foot UML • Dimensional ERM DF - Dimensional Fact ADAPT - Application Design for Analytical Processing Technologies UDM – Unified Dimensional Modeling g (MS) BISM - BI Semantic Model (MS) region Werkzeuge - Beispiele customer contract shipment product payment account • • • • • • • • • 28.05.2013 CA ErWin Sybase Powerdesigner ( (jetzt S ) SAP) IBM InfoSphere Data Architect Embarcadero ER/Studio Microsoft Visio rDBMS Werkzeuge (z.B. Toad Data Modeler) mDBMS Werkzeuge UML Werkzeuge g Vielfach unzureichend für DWH/BI ausgelegt customer measures product time © BARC 2013 9 Beispiele p für ERM Notationen 28.05.2013 © BARC 2013 10 Normalierungsregeln g g ((für rDBMS)) • Aufteilung von Attributen (Tabellenspalten) in mehrere Relationen (Tabellen) gemäß den Normalisierungsregeln, um Redundanzen zu vermeiden • Bekanntesten Normalformen sind die erste, zweite und dritte Normalform (1NF, 2NF, 3NF) • • • 1NF – Jedes Attribut der Relation hat einen Atomaren Werteberiech 2NF – 1NF liegt li vor und d kein k i Ni Nichtschlüsselattribut h hlü l ib ist i ffunktional ki l abhängig bhä i von einer i echten h Teilmenge eines Schlüsselkandidaten 3NF – 2NF liegt vor und kein Nichtschlüsselattribut ist von einem anderen Nichtschlüsselattribut funktional abhängig Tabelle tbl AuftragAlles AuftragsID 2 KundenID 1 AdressID 1 LfdAdrNr 2 3 1 1 1 4 2 2 1 KundenID 1 1 2 LfdAdrNr 2 1 1 Tabelle tbl Auftrag AuftragsID 2 3 4 Tabelle tbl Kunden KundenID 1 2 28.05.2013 Firma Meyer & Meyer KG Alfredo Pasta GmbH AbwLiefAnschrift Firma Ja Meyer Int.S/A Meyer & Meyer Nein KG Alfredo Pasta Nein GmbH AbwLiefAnschrift Ja Nein Nein Tabelle tbl Adressen ID KundenID 1 1 2 1 3 2 AuftragsNr 2 3 4 LfdAdrNr 1 2 1 AuftragsNr 2 AuftragsDatum zuAngebotNr SachbearbID AuftragsGesamtWert 12.12.2008 1 1 583,79 € 3 15.12.2008 2 1 78,95 € 4 17 12 2008 17.12.2008 4 2 75 00 € 75,00 € AuftragsDatum 12.12.2008 15 12 2008 15.12.2008 17.12.2008 zuAngebotNr 1 2 4 SachbearbID 1 1 2 AuftragsGesamtWert 583,79 € 78 95 € 78,95 € 75,00 € Firmenbezeichnungg Strasse Meyer & Meyer KG Münchner Str. Meyer Int.S/A Münchner Str. Alfredo Pasta GmbH Münchner Str. © BARC 2013 11 ((Bi-)) Temporale p Datenhaltung g • Festhalten zeitlicher Entwicklungen in der Datenbank • • • (Bi-) Temporale Betrachtungen • • • • In OLTP vielfach unüblich – es wird jjeweils nur der letzte Datenstand erhalten Im DWH elementare Anforderung Gültigkeitszeit Zeitraum in dem ein Datenelement in der realen Welt gültig ist Zeitraum, Transaktionszeit - Zeitpunkt, an dem ein Datenelement im Datenbestand gespeichert (hinzugefügt/geändert) wurde Im DWH kann es zudem 2 verschiedene Transaktionszeiten geben – die des OLTP Systems y und die des DWH „Welcher Preis wurde einem Kunden am 7. Mai für den Kauf des Artikels genannt, wobei der Kauf erst am 4. Juni stattfinden sollte?“ 1,95 € … 75 7.5. 14.5. 14 5 21 5 21.5. 28 5 28.5. Erfassung Preisänderung zum 28.5. Anfrage Preis für Kauf am 4.6. 2,25 € 46 4.6. … Anfrage aktueller Preis Anfrage Preis zum 7.5. Bestandteil des neuen SQL Standards SQL:2011 (veröffentlicht Dezember 2011) 28.05.2013 © BARC 2013 12 Datensynchronisation y - Delta-Verarbeitung g • Redundant g gespeicherte p Geschäftsdaten müssen im Lebenszyklus synchron gehalten werden, hier insbes. Quellsystem und DWH • Grundsätzlich zu unterscheiden: Daten- und Änderungstypen • Stammdaten • Transaktionsdaten (Belegdaten) • absolute b l t V Veränderungen ä d (Bestandssicht) • relative Veränderungen (Bewegungssicht) • „Full load“ – Komplettübertragung von Quelldaten • „Delta D lt load“ l d“ – Übertragung Üb t von Änderungen (alle vs. letzte) 1 95 € 1,95 € … 7.5. 2 25€ ( b l ) 2,25€ (absolut) 14.5. 21.5. 28.5. g g Erfassung Preisänderung zum 28.5. 4.6. … 1,95 € … 28.05.2013 7.5. +0,30€ (relativ) 14.5. 21.5. 28.5. Erfassung Preisänderung zum 28.5. 4.6. … © BARC 2013 13 ERM versus DM – Objekte j und Eigenschaften g ERM customer DM region contract product customer shipment measures product payment time account • Subject Area (Themenbereich) • Entity (Entität) • • • • • • Fundamental Assoziativ Typisierungs-Hierarchien Typisierungs Hierarchien Attribute • • Auch Elemente genannt Bestands- und Transaktionskennzahlen je nach Entitätentyp Relationship (Beziehung) Historisierung auf Entitäten-Ebene • • • 28.05.2013 • • Fachliche Historie Technische Historie „Bi-temporal“ Dimension(-sentität) Fakt(-enentität) • • • • • Hierarchie Attribute • • • Transaktionsorientiert Periodisch Kumulativ Basisattribut Kennzahl, Typ nach Fakten-Entität-Typ Historisierung • • • Dimensionen Hierarchien Fakten mittels Zeitdimension und Typ © BARC 2013 14 ERM – Objekte, j , Beispiele p • Fundamentale Entität, z.B. • • • • ERM contract product 0:1, 1:1, 0:n, 1:n, m:n verbindlich, optional, identifizierend z.B. Kunde <>> Kunden-Adresse shipment payment account Assoziative Entität • • • customer Beziehung g • • • • Kunde K d Kunden-Adresse Vertrag m:n Beziehungen instanziiert mittels assoziative Entität z.B. Kunde <<>> Vertrag wird zu Kunde<<>Kundenrolle<>>Vertrag Typisierungs-Hierarchien (Super-/Sub-Typisierung) • • • Entitäten von abstrakt bis spezifisch klassifizieren Gemeinsame Attribute und Beziehungen definieren z.B. Versicherungsprodukt • Leben • Kranken • Komposit • 28.05.2013 Für fundamentale und assoziative Entitäten möglich © BARC 2013 15 ERM – Auflösen von m:n-Beziehungen g • m:n Beziehungen können, müssen aber nicht fachlich von Relevanz sein • Kann im logischen Modell definiert werden • m:n Beziehungen können technisch nicht umgesetzt werden • Muss im physischen Modell aufgelöst werden 28.05.2013 Versich. V i h Vertrag Kunde Ein Kunde kann an mehreren Versicherungsverträgen g g beteiligt sein, gleichzeitig können an einem Versicherungsvertrag mehrere Kunden beteiligt sein. Kunde Kundenrolle Versich. Vertrag Die Zuordnung von Kunden zu Versicherungsverträgen wird mittels einer entsprechenden Rolle präzisiert, etwa Versicherungsnehmer oder versicherte Person © BARC 2013 16 ERM und Historie • Beziehung zwischen 2 Entitäten drückt zunächst eine Momentaufnahme aus • • Beispiel: Ein Vertrag gehört immer genau zu einer P li Police 1,1 1,n Police Vertrag Modelliert man Historie im ERM Modell • • • 28.05.2013 Verlieren Beziehungen ihre fachliche Aussagekraft Muss dem fachlichen Schlüssel die Gültigkeit hinzugefügt werden oder ein künstlicher Schlüssel verwendet werden Beispiel: Ändert sich die betreuende Agentur der Police, muss eine neue Version des Policensatzes angelegt werden – es gibt 2 Sätze zur gleichen Policennummer; bei unveränderten Verträgen beziehen sich diese sowohl auf die alte als auch die neue Policenversion, je nach Zeitbetrachtung 1,n Police 1,n Vertrag © BARC 2013 17 ERM und Historie – Ankerkonzept p • • • Abbildung fachlicher Beziehungen mittels „Anker“-Entitäten • Fachlicher Schlüssel sowie technische Informationen Historie mittels eigener g Entitäten • Eindeutigkeit über fachlichen Schlüssel + Gültigkeit • Technisch mittels Surrogatschlüssel umgesetzt PolicenAnker 1,1 1,n VertragsAnker 1,n PolicenPolicen Historie 1,n VertragsVertrags Historie Meist im logischen oder physischen Datenmodell, nicht im Business Modell 28.05.2013 © BARC 2013 18 Datenmodellierung: g ERM vs. Data Vault Data Vault ERM customer history customer anchor shipment contract product history customer satellite product anchor customer hub shipment link payment account anchor • • 28.05.2013 Normalisiert (3NF) • Häufig mit Anker-Konzept für Stammdatenhistorie angewendet Entitäten • Fundamental • Anker • Beziehungsentität • Super-/Subtypisierung product satellite contract link product hub payment link account hub • • Normalisiert (3NF) • Spezielle Regeln für Stammdatenhistorie mittels Satelliten-Entitäten Entitäten • Hub • Satellite Li k Link • © BARC 2013 19 ERM und Typisierungs-Hierarchien yp g Super-/Sub-Typisierung Partner • Natürliche Person Generalisierung von Entitäten • Übergreifende Attribute • Übergreifende Ü Beziehungen ! VN VP Agenturinhaber • Juristische Person Sollte aber keine Rollenspezifizierung abbilden Int. Organisation • Versicherungsnehmer als Rolle gegenüber einem Versicherungsvertrag • Organisationshierarchie eines Unternehmens 28.05.2013 Ext. Organisation Natürliche N tü li h Person VN Versich.V i h vertrag Int. Organisation Hier. Übergeordnet Int. Organisation © BARC 2013 20 Variationen der Dimensionalen Modellierung g Star Schema Snowflake Schema product family region region product line profession customer measures product customer measures product age group time 28.05.2013 time © BARC 2013 21 DM – Objekte, j , Beispiele p • Dimension, z.B. • • • • • • region customer measures product time Fakten • • • • • Kunde Prod kt Produkt Region Zeit Attribute bestimmen Granularität, diese kann, muss aber nicht höher sein als Entität Star Transaktional, z.B. Kontotransaction, Kauftransaction (Einzelposten) Periodisch, i.S. Stichtags-Betrachtung, z.B. Kontostand zum Monatsende Kumulativ, i.S. gesamte Gültigkeitsdauer eines Ereignisses, z.B. Prozessüberwachung Typ beeinflusst zeitliche Granularität und Aggregationsregeln Hierarchie • • • Aggregations- und Navigationspfad im Datenraum einer Dimension z.B. Produktfamilie > Produktlinie > Produkt z.B. Jahr > Monat > Tag, Jahr > Woche > Tag product family region product line profession • Würfel • • • • • 28.05.2013 1 Faktenentität n Dimensionsentitäten Faktengranularität bestimmt durch Summe der Dimensionsattribute Star oder Snowflake Multi-star für Joins verschiedener Würfel customer measures product age group time Snowflake © BARC 2013 22 Granularität – Eine Definition für DM • Was ist Granularität? • • Fakten- und Dimensionsentitäten bestimmten die Granularität eines Würfels und insbesondere den Detaillierungsgrad der Daten, die in der Faktentabelle gespeichert werden. Beispiele für Granularität in DM: • • • • • Einzelposten auf einem Kassenzettel, auf einer Quittung, auf einer Restaurantrechnung, auf die Rechnung vom Krankenhaus Kontostand am Monatsende Wöchentlicher Produktinventurstand im Warenhaus Einzelnes Flugticket mit einem bestimmten Kaufdatum Busfahrkarte gekauft und gültig an einem gegebenen Tag Periodische P i di h Fakten 28.05.2013 © BARC 2013 23 Dimensionen modellieren - zusammengefasst g • Dimensionen identifizieren • • • • Konforme Dimensionen Degenerierte Dimensionen Dimensionale Attribute Dimensionale Hierarchien • • Datums- und Zeitgranularität identifizieren • • Kennzahlaktualität – bestimmt durch Faktentyp Dimensionsaktualität • • • Kaskadierende n:1-Beziehungen: • Balanced standard • Unbalanced standard • Ragged • Unbalanced recursive „Slowly Slowly changing dimensions dimensions“ „Very fast changing dimensions“ (mit Hilfe Mini-Dimensionen) Weitere Herausforderungen • • • • • 28.05.2013 Garbage dimensions (für Attribute niedriger Kardinalität) Multi-value dimensions (Fakten beziehen sich auf >1 Dimension(-sattribut), bspw. VP) Role-playing dimensions (Häufig bei Zeit, z.B. Fälligkeitsdatum vs. Zahlungsdatum) Heterogeneous dimensions (z.B. Produktdimension) Hot swappable dimensions (verschiedene Sichten auf eine Dimension bspw. unter Anwendung von Filter, Fil zur Abfragezeit Abf i austauschbar hb © BARC 2013 24 DM und Historie Historienanforderungen Grundsätzlich zu unterscheiden nach: PK=Agtnr • Dimensionshistorie – mittels SCDTyp oder Rollendimensionen • • Beispiele: Agent heiratet, der Nachname ändert sich Agent zieht um, Überordnung ändert sich VertriebsDimension Fakten ZeitDimension Fakten ZeitDimension Fakten ZeitDimension PK=Agtnr zzgl. Gültigkeit VertriebsDimension PK=Surrogat VertriebsDimension Kennzahlhistorie – mittels Zeitdimension • 28.05.2013 Beispiele: Transaktional – häufig keine Historie, Historie Momentaufnahme Periodisch – Zuordnung der Zeitdimension, Schnappschuss zum Termin Kumulativ – Zuordnung der Zeitdimension, häufig mehrere Sichten Transaktionale T ki l Fakten Z it TXZeit: TX Datum/Zeit Periodische Fakten Zeit: Stichtag Akkumulierte Fakten Zeit: ProzessZeitraum © BARC 2013 25 Dimensionen und Historie Dimensionsaktualität • „Slowly changing dimensions“ • Typ 1 – Historie überschreiben • Typ 2 – Historie erhalten mittels Surrogatschlüssel und Gültigkeit • Typ 3 – Teilhistorie für ausgewählte Attribute erhalten • „Very fast changing dimensions“ • mit Hilfe Mini-Dimensionen 28.05.2013 © BARC 2013 26 „Role-playing „ p y g dimensions“ 28.05.2013 © BARC 2013 27 Agenda g • Datenmodellierung für Data Warehouse und BI – Problemstellung und Lösungskonzepte • Modellierung in der BI Architektur – Von der Konzeption bis zur Auswertung A t • BI Anforderungsmanagement und Data Governance – Schnittstelle Fachbereich / IT • Referenzdatenmodelle für BI – Überblick, Nutzen und Grenzen • Ausblick – hat Datenmodellierung im Zeitalter von Big Data ausgedient? 28.05.2013 © BARC 2013 28 Ebenen der Unternehmensmodellierung g Unternehmen „Übersetzung“ im Rahmen der BI Projekte Domäne • Fachgebiete (subject areas) • Geschäftsmodell (business model) • Logisch • Physisch Applikation Operational z.B. Komposit, L b Leben, K Kranken k 28.05.2013 Data W h Warehouse z.B. Police/Vertrag, Beitrag, Schaden BI A lik ti Applikation z.B. Schadenstatistik, Performance der Schadensbearbeitung © BARC 2013 29 Ebenen der Unternehmensmodellierung g Unternehmen „Übersetzung“ im Rahmen der BI Projekte Domäne • Fachgebiete (subject areas) • Geschäftsmodell (business model) Mapping • Logisch • Physisch Applikation Operational z.B. Komposit, L b Leben, K Kranken k 28.05.2013 Data W h Warehouse z.B. Police/Vertrag, Beitrag, Schaden BI A lik ti Applikation z.B. Schadenstatistik, Performance der Schadensbearbeitung © BARC 2013 30 Datenmodellierung g für BI und Data Warehousing g Business Intelligence Services Meist diskutiertes Daten-Modell Monitoring Reporting Ad‐hoc Analysis Planningg Legal Consolidation Legal Consolidation Advanced Analysis Visualization Management Services Collaboration Data Provisioning Services Semantic Layer Caching Relational Data Storage Dimensional Data Storage Federation/ Virtual Data Stores Integration & Quality Services System & Process Weitere M it i Monitoring Ebenen der DatenData Modeling Modellierung Meta Data Mgt. Data Quality Data Integration Enrichment Master Data Security Automation Operational and other source systems 28.05.2013 © BARC 2013 31 Welche Datenarchitektur – welche Architekturebene? Independent Data Marts, Independent Data Marts, Analytical Applications BI Services BI Services BI Services Central Data Warehouse BI Services Hub & Spoke Data Mart Data Mart BI Services BI Services Data M t Mart Data M t Mart IQ Services OLTP Data M t Mart Data M t Mart Data M t Mart BI Services Data M t Mart Data M t Mart Data M t Mart Data M t Mart Data M t Mart Data M t Mart Data Mart Data Warehouse IQ Services Master Data Management Data Mart Bus IQ Services Data Warehouse Conformed Dimensions DP Services DP Services DP Services IQ Services IQ Services IQ Services (KPIs) OLTP OLTP OLTP Data Warehouse DP Services IQ Services (MDM) IQ Services OLTP MDM Master MDM • Gängige BI Datenarchitekturen • • • • U ab ä g ge Data Unabhängige a a Marts a s Zentrales Data Warehouse Hub & Spoke (Inmon) Data Mart Bus (Kimball) Besondere Datenarchitekturen Master as e Data a a Management a age e (Stammdatenverwaltung) Virtualisierung (Föderation) Hybrid Datenarchitekturen Data M t Mart 28.05.2013 • Fachliche und technische Schwächen des zentralistischen Ansatzes • „Hub & Spoke“ H b&S k “ • Data Warehouse UND Data Marts Versch. Expertenssichten • Eine eindeutige, qualitätsgesicher te Quelle für alle Analysen • „Zentrales Data W h Warehouse“ “ Grenzen n • Aufgaben‐ orientierte Datenbestände für Analyse • „Unabhängige D t M t“ Data Marts“ • Problem der Inkonsistenzen und Wartungs‐ aufwände „Single Point of TTruth“ Historie e Evolution der Datenarchitektur für BI und DWH • fachliche Anforderungen • methodische Umsetzung • Heraus‐ forderungen der Unternehmens‐ realität • „Data Mart Bus“ • „hybride Daten‐ h b id architektur “ © BARC 2013 33 Datenarchitekturen – Beispiele p für Anwendungsfälle g I di id ll D Individuelle Data t Marts M t Zentrales EDW Hub & Spoke Data Mart Bus Föderiertes EDW 28.05.2013 • Gut integrierte OLTP/ERP-Systeme • Kein Bedarf an einer gesonderten, integrierten SoR • Selektive Erweiterung zu anderen Datenarchitekturen • Umfassende Datenintegrationsanforderungen g g • Bedarf an einer integrierten SoR • Entweder sehr leistungsstarke EDW Plattform oder weniger komplexe Analyseanforderungen (oder beides) • • • • U f Umfassende d D Datenintegrationsanforderungen t i t ti f d Bedarf an einer integrierten SoR Sehr heterogene Analyseanforderungen Anwendung unterschiedlicher/proprietärer BI Technologie • Weniger umfassende Datenintegrationsanforderungen • Keine/niedriger Bedarf an einer integrierten SoR • Vornehmlich dimensionale Sicht auf Daten in der Analyse • Wenige, gut integrierte OLTP/ERP-Systeme • Weniger komplexe Analyseanforderungen, niedrige Daten-/AnwenderVolumen • Operationales/Echt-Zeit BI • Vor allem bei KMUs © BARC 2013 34 Hub & Spoke p vs. Data Mart Bus Unterschiedliche Expertenmeinungen: ERM vs. dimensionale Modellierung, Inmon vs. Kimball Endanwender Zugriff Endanwender Zugriff BI Services Data Mart BI Services Data Mart Data Mart Data Mart Atomic Data Mart Atomic Data Mart Aggr. Data Mart Aggr. Data Mart Eingeschränkter Zugriff Conformed Facts Atomic Data Warehouse DP Services DP Services IQ Services IQ Services Staging Area OLTP 28.05.2013 Conformed Dimensions Staging Area OLTP © BARC 2013 35 Hub & Spoke p vs. Data Mart Bus – System y of Record BI Serv vices BI Serv vices Unterschiedliche Lösungen zur Abdeckung von SoR Anforderungen Data Mart Data Distribution mögliche SoR Atomic Data Warehouse Data Integration IQ Services Atomic Data Mart Data Mart Staging Area 28.05.2013 Aggr. Aggr Data Mart Data Distribution Conformed Facts Aggr. Aggr Data Mart mögliche SoR Conformed Dimensions Data Integration Staging Area Extraction OLTP Atomic Data Mart DP P Services Data Mart IQ Services DP P Services Data Mart mögliche SoR Extraction OLTP © BARC 2013 36 BI Serv vices Hub & Spoke/Data p Mart Bus kombiniert Data Mart DP P Services Data Mart Data Mart Data Mart Atomic Data Warehouse Data Distribution Data Distribution Conformed Facts IQ Services Data Integration Conformed Dimensions Mö li h weitere Mögliche it Datenbereiche: D t b i h • • • • Klassifizierte Quellen Archivierte Daten Sensitive Daten Analytische Ergebnisdaten Staging Area Extraction OLTP 28.05.2013 © BARC 2013 37 Hybride Datenarchitektur – z.B. B U Unabhängige bhä i DM + H Hub b&S Spoke k BI Services BI Services Data Mart Data Mart • • • • • Data Mart Data Mart Data Warehouse DP Services DP Services IQ Services IQ Services IQ Services OLTP Stark verbreitet • Variationen • • • Mit zentralem Data Warehouse mit Föderation Mit anderen Data Management und BI Lösungen • • • • • IQ Services MDM CPM Operational BI Finanzkalkulationen Andere Typen von Standard Software • Möglicherweise aufgrund technologischer oder architektureller Widersprüche, z.B. • • • 28.05.2013 Historisch gewachsen Migrationsphase alt/neu Zeitliche oder budgetäre Restriktionen Fehlende Überlappung der fachlichen A f d Anforderungen SAP BW SAS MDBMS © BARC 2013 38 38 Exkurs: Hub & Spoke p basierend auf SAP BW • SAP BW impliziert eigene Datenarchitektur BI Services SAP BIA Info Cube Info Cube Info Cube Info Cube SAP BW (DSO) Quasi Hub & Spoke A f Basis Auf B i “business “b i content” t t” Über alle Schichten Optional “in-memory accelerator” (BIA) • Quellsystemunterstützung DP Services SAP BW IQ Services • • • • 3rd Party IQ Services • • Gut für SAP Für Andere häufig mttels getrennter IQ Services OLTP • Eingeschränkte Unterstützung hybrider Umgebungen 28.05.2013 © BARC 2013 39 39 SAP <> non-SAP – Integration? g SAP/non‐SAP Integration? SAP Bex, SAP BO Non‐SAP BI Tool (?) SAP BIA Data Mart Info Cube Info Cube Data Mart Data Mart Info Cube Data Warehouse SAP BW (DSO) DP Services DP Services SAP BW IQ Services 3 rd Party IQ Services OLTP 40 Sandboxing g – exemplarisch p mit SAS • Self-service Self service BI BI Services BI Sandbox • Power User • Business Analysten • Abteilungs-/Bereichs-BI Abteilungs /Bereichs BI Data Mart Data Mart Data Warehouse Data Mart • Erweiterte Flexibilität Ind. copy DP Services DP Sandbox IQ Services IQ Sandbox OLTP • • • • Top-Management-Unterstützung Forschung Komplexe Analyse Nicht im EDW enthaltenen Informationsquellen • • • Unternehmen Extern Individuell • Kurz-Frist Anforderungen • Ausnutzung besonderer Technologie, z.B. Appliances, Cloud-Computing • Governance-Ausrichtung g herausfordernd 28.05.2013 © BARC 2013 41 41 Zwischenfazit • Zwei gängige, etablierte Methoden für BI Datenmodellierung • weisen jeweils Stärken und Schwächen auf und • sind jeweils für bestimmte Anwendungsbereiche geeignet. • Wahrgenommene Komplexität der Datenmodellierung für BI kann nicht i ht allein ll i iin di diesen zugrunde d liliegenden d M Methoden th d liliegen. • Komplexität der Datenmodellierung für BI liegt darüber hinaus begründet in • dem Mapping verschiedener, Applikationsspezifischer, meist technisch orientierter Datenmodelle aufeinander, • der Notwendigkeit, eine heterogene Datenarchitektur im U t Unternehmen h b betreiben t ib zu müssen ü ohne h wahrhaftige h h fti Ch Chance auff einen physisch etablierten Single Point of Truth und • dem Fehlen eines übergreifenden Geschäftsdatenmodells als Fundament für das Applikationsübergreifende Modellmapping. Modellmapping • Komplexität der BI Datenwelt ist nicht per se Ursache sondern mehr Wirkung der genannten Hintergründe. 42 Agenda g • Datenmodellierung für Data Warehouse und BI – Problemstellung und Lösungskonzepte • Modellierung in der BI Architektur – Von der Konzeption bis zur Auswertung A t • BI Anforderungsmanagement und Data Governance – Schnittstelle Fachbereich / IT • Referenzdatenmodelle für BI – Überblick, Nutzen und Grenzen • Ausblick – hat Datenmodellierung im Zeitalter von Big Data ausgedient? 28.05.2013 © BARC 2013 43 Anforderungsmanagement: K Kommunikation ik ti als l Herausforderung H f d 28.05.2013 © BARC 2013 44 Datenmodellierung für BI und DWH – wichtiges Bi d li d der Bindeglied d FB/IT-Kommunikation FB/IT K ik ti Unternehmen Domäne Mapping • Fachgebiete (subject areas) • Geschäftsmodell (business model) • Logisch • Physisch Applikation Operational 28.05.2013 Data W h Warehouse BI A lik ti Applikation © BARC 2013 45 Typische yp Fachanwendersicht in BI Projekten j BI Services Business Intelligence Services Monitoring Reporting Ad‐hoc Analysis Planning Legal Consolidation Advanced Analysis Visualization Management Services Collaboration Data Provisioning Services Semantic Layer Caching Relational Data Storage Dimensional Data Storage System & Process M it i Monitoring Federation/ Virtual Data Stores Data Modeling Integration & Quality Services Meta Data Mgt. Data Quality Data Integration Enrichment Master Data Data Mart Data Mart Data Mart Data Mart D t Data Warehouse DP Services IQ Services Security Automation OLTP Operational and other source systems 28.05.2013 © BARC 2013 46 Datenmodellierung für BI und DWH –Herausforderung H f d P Projektj kt versus Gesamtsicht G t i ht Unternehmen Domäne Mapping? • Fachgebiete (subject areas) • Geschäftsmodell (business model) • Logisch • Physisch Applikation Operational 28.05.2013 Data W h Warehouse BI A lik i Applikation © BARC 2013 47 Anwendungsbeispiel g p - Ausgangslage g g g Fiktives Beispiel aus der Versicherungsbranche F hli h A Fachliche Anforderung f d • Vertriebsstatistik für Außendienst-Mitarbeiter und deren Führungskräfte • Monatsanfangsbestand, Stück und Beitrag • Aufgelaufene Monatsbewegungen (tagesaktuell) nach Zugang, Mehr-/Mindererlös, Mehr /Mindererlös, Abgang für Stück und Beitrag • Aufteilung nach Produkte (Sparten) • Online-Abruf der Berichte über BI-Portal Quelldaten • Kraftfahrt-Bestandssystem • Leben-Bestandssystem L b B t d t • Stammdaten des Außendienstes • Partner-Stammdaten 28.05.2013 Weitere Informationen Referenzdaten Bewegungsarten Produkt Produkthierarchie odu t e a c e © BARC 2013 48 BI Anforderungen g verstehen – fachlich und technisch Fachliche Anforderung verstehen 28.05.2013 Quellsysteme verstehen Data Warehouse modellieren Data Marts modellieren © BARC 2013 49 Anwendungsbeispiel g p - Berichtslayout y Bestandsentwicklung zum xx.xx.xxxx / Monatsproduktion yyyyyyyyyyyy xxxx Agentur: aaaaaaaaa / Agent: bbbbbbbbbb Sparte KfZ Leben Kranken Sonstige Bestandsentwicklung zum xx.xx.xxxx Bestand Vorjahr Bestand akt. Jahr +/- in % JBG Anzahl JBG Anzahl JBG Anzahl Monatsproduktion yyyyyyyyyyyy xxxx Mehr Minder Zugang Abgang JBG Anzahl JBG JBG JBG Anzahl KH VK TK KU SB HV BU HR .. .. .. .. .. .. .. .. .. .. Bezirk X-X-3 / Leiter Stefan Schmidt TDWI Volksversicherung Vertrieb Innendienst / Anton Brunner (ABR) Legende: xx.xx.xxxx yyyyyyyyyyyy xxxx zz.zz.zzzz um zz:zz 28.05.2013 Erstellt am: zz.zz.zzzz um zz:zz Seite 1 / 1 München, den zz.zz.zzzz tt.mm.jjjj - letzter Tag des Vormonats Monatsbezeichnung laufender Monat, ak tuelles Jahr tt.mm.jjjj um hh:mm - Tag und Uhrzeit der Berichtserstellung © BARC 2013 50 Anwendungsbeispiel g p - Berichtslayout y Vertriebsstammdaten Periodische Zeitdimension (MonatsFakten yyyyyyyyyyyy Bestandsentwicklung zum xx.xx.xxxx / Monatsproduktion xxxx Agentur: aaaaaaaaa / Agent: bbbbbbbbbb Endbestand) Produktdimension Sparte KfZ Leben Kranken Bestandsentwicklung zum xx.xx.xxxx Bestand Vorjahr Bestand akt. Jahr +/- in % JBG Anzahl JBG Anzahl JBG Anzahl KH VK TK KU SB HV BU HR .. .. .. .. .. .. .. .. .. .. Transaktionale Zeitdimension FaktenErstellt am:(aufgelaufener zz.zz.zzzz um zz:zz Monat) Monatsproduktion yyyyyyyyyyyy xxxx Zugang Mehr Minder Abgang JBG Anzahl JBG JBG JBG Anzahl BewegungsDimension Vertriebsstammdaten Sonstige Bezirk X-X-3 / Leiter Stefan Schmidt TDWI Volksversicherung Vertrieb Innendienst / Anton Brunner (ABR) Legende: xx xx xxxx xx.xx.xxxx yyyyyyyyyyyy xxxx zz.zz.zzzz um zz:zz 28.05.2013 Seite 1 / 1 München, den zz.zz.zzzz tt.mm.jjjj tt mm jjjj - letzter Tag des Vormonats Monatsbezeichnung laufender Monat, ak tuelles Jahr tt.mm.jjjj um hh:mm - Tag und Uhrzeit der Berichtserstellung © BARC 2013 51 BI Anforderungen g verstehen – fachlich und technisch Fachliche Anforderung verstehen Quellsysteme verstehen Data Warehouse modellieren Data Marts modellieren Berichtslayouts, Kennzahlen, Dimensionen, Änderungsanford. Profilieren, modellieren, System‐ vs. Fachspezifika, Stammdaten Generalisierungen, Spezialisierungen, Beziehungen, Historie Dimensions‐ und Faktentypen, SCD, deg. Dimensionen 28.05.2013 © BARC 2013 52 Ebenen der Unternehmensmodellierung g Übergreifendes, vereinfachtes Modell Unternehmen Domäne • Fachgebiete (subject areas) • Geschäftsmodell (business model) • Logisch • Physisch Applikation Operational Kraftfahrt Bestand Leben Bestand 28.05.2013 Data W h Warehouse Versicherungsvertrag, Vertriebs-/Produktstammdaten BI A lik ti Applikation Vertriebsstatistik: Monatsanfangsbestand und aufgelaufene Monatsbewegungen (tagesaktuell) © BARC 2013 53 Anwendungsbeispiel g p –g grober Ablauf Modelle der Quellsysteme Dimensionales Modell ERM Modell Kraftfahrt Verträge Extr akt Leben Verträge Extr akt Vertrieb Extr akt Staging Staging Integr ation DWH Data Mart BI Tool Staging DWH Inhalte: e s c e u gs e t ag Versicherungsvertrag Vertreterstamm Produktstammdaten 28.05.2013 Ableit ung Data Mart Inhalte: a te ((Bestand, esta d, Bewegung) e egu g) Fakten Dimensionen (Zeit, Produkt, Vertrieb, Bewegung) © BARC 2013 54 BI Anforderungsmanagement g g - Daten-orientierte Rollen Unternehmen • Fachgebiete (subject areas) Business Architect Fachbegriffe und Glossar entwickeln Domäne • Geschäftsmodell Business(business model) Analyst Datenmodelle entwickeln • Logisch • Physisch Applikation Operational Analytische Anforderungen definieren Data Architect Data Analyst Data W h Warehouse BI A lik i Applikation Analytisches Modell entwickeln Projektübergreifende und Erfolgsfaktor P j ktüb if d BusinessB i d Daten-Architekten D t A hit kt als l kkritischer iti h E f l f kt 28.05.2013 © BARC 2013 55 BI Anforderungen g verstehen - Rollenverteilung g Fachliche Anforderung verstehen Quellsysteme verstehen Data Warehouse modellieren Data Marts modellieren Berichtslayouts, Kennzahlen, Dimensionen, Änderungsanford. Profilieren, modellieren, System‐ vs. Fachspezifika, Stammdaten Generalisierungen, Spezialisierungen, Beziehungen, Historie Dimensions‐ und Faktentypen, SCD, deg. Dimensionen Data Analyst Business Analyst Data Architect Business Architect 28.05.2013 Data Architect Business Architect Data Architect Business Architect Data Analyst Business Analyst Data Architect Business Architect © BARC 2013 56 Datenmodellierung im Rahmen von I f Information ti Management M t und d Governance G Fokus der klassischen Daten Datenmodellierung 28.05.2013 © BARC 2013 57 Daten und Funktionen als Teilaspekte d IT Governance des G BI Governance Data Governance • • • Betrachtet Unternehmensdaten übergreifend zur Verwendung in operativen und dispositiven Systemen Keinen speziellen Fokus auf den Verwendungskontext • 28.05.2013 Operative Verwendung von Daten meist im Rahmen des Software Engineering geregelt Dispositive Verwendung von Daten stellt zusätzliche, teils umfangreiche Anforderungen an das Data Governance – ohne analytischen Kontext sind diese kaum b ti bestimmbar b n Funktionen BI Governance Dispositiv Governance Gegenstand Information Governance • Maßgebliche Maßgebliche Datenquelle Funktionen • Operativ Datta Daten Govern nance • Daten • häufig ä f im Rahmen von BI CC Initiativen adressiert Dispositive Daten und deren Verwendung in den BI Applikationen G t lt Gestaltungsgrenzen, da d operative ti Systeme S t maßgeblich Datenquelle Ve rwendungskonttext • Governance Gegenstand V Verwendungsko ontext • Operativ Dispositiv © BARC 2013 58 Aspekte p des Information Governance • Organisatorisch • • • • Organizational Functional • Fachlich-inhaltlich • Richtlinien und Prinzipien • Anwendungsfälle • Checklisten Technical • Information Governance Zentral versus dezentral Organisationseinheiten Prozesse A f d Anforderung >K Konzeption ti > Implementierung > Einsatz Technisch • • • • • Architektur Werkzeuge Richtlinien und Prinzipien Anwendungsfälle Checklisten Ebenen des Information Governance • Topmanagement (U-weit) • • • • „Data Governance Council“ T ib Zi Treiber, Ziele l Vision, Charta Geltungsbereich T kti h (Subject Taktisch (S bj t Area, A L B/BU) LoB/BU) • • • • • Taktisch Operational Strategisch (U-weit) • • • • Strategisch „Data Data Steering Committee Committee“ „Domain Stewards“ per SA „Steward Coordinators“ per BU Themen Prioritäten Roadmap Operational • • • „Data Definers, Producers, Users“ Prozesse und Berichtswege Standards und Best Practices Information Governance: I t /S ll A l Ist-/Soll-Analyse anhand h d „9-Feld-Analyse“ 9 F ld A l “ Organizational Functional Technical IG‐ IG Aspekte Information Governance IG‐ Ebenen Strategisch Taktisch Operational • Organisatorisch • Fachlich • Technisch • Strategisch g • Taktisch • Operational Strategisch Taktisch Operational Organisatorisch Organisatorisch Organisatorisch Fachlich Fachlich Fachlich T h i h Technisch T h i h Technisch T h i h Technisch Detaillierung Aspekte p und Ebenen des Information Governance Strategisch Taktisch Operational Organisatorisch Organisatorisch Organisatorisch Fachlich Fachlich Fachlich Technisch Technisch Technisch Detaillierung eta e u g Agenda g • Datenmodellierung für Data Warehouse und BI – Problemstellung und Lösungskonzepte • Modellierung in der BI Architektur – Von der Konzeption bis zur Auswertung A t • BI Anforderungsmanagement und Data Governance – Schnittstelle Fachbereich / IT • Referenzdatenmodelle für BI – Überblick, Nutzen und Grenzen • Ausblick – hat Datenmodellierung im Zeitalter von Big Data ausgedient? 28.05.2013 © BARC 2013 63 Referenz Datenmodelle (RDMs) ( ) • Das Datenmodell ist Kernkomponente und Hauptergebnistyp eines BI Systems S • Vorgefertigte, branchenspezifische Datenmodelle für spezielle Aufgabenstellungen • Nutzen für Bau und Betrieb analytischer Systeme erwartet • Unterschiedliche Typen verfügbar • Unterstützen verschiedene Datenarchitekturen Independent p Data Marts,, Analytical Applications Central Data Warehouse BI Services Hub & Spoke Data Mart Bus BI Services Master Data Management BI Services BI Services BI Services BI Services BI Services Data Mart Data Mart IQ Services Data Mart IQ Services Data Warehouse Data Mart Data Mart Data Mart Data Mart Atomic Data Mart Atomic Data Mart Conformed Facts Data Warehouse Aggr. Data Mart Aggr. Data Mart Data Mart Conformed Dimensions Data Mart Data Mart Data Mart Data Warehouse DP Services DP Services DP Services DP Services IQ Services IQ Services IQ Services IQ Services OLTP OLTP OLTP OLTP IQ Services MDM Master OLTP 28.05.2013 MDM © BARC 2013 64 Welche Datenmodell-Ebene,, welche Methode? Häufiger Fokus Häufiger Fokus von RDMs Unternehmen Domäne • Fachgebiete (subject areas) • Geschäftsmodell (business model) • Logisch • Physisch Applikation Operational 28.05.2013 65 Data W h Warehouse BI A lik ti Applikation © BARC 2013 65 28.05.2013 X X X X X X X X X(#) X X X X X X X X X X C (UDM) Universal Data Models, LLC (X) X X X Tibco X X Teradata X X Steve Hob berman & Associaates X SAP inkl. B BO X Microsoft X Informaticca X Kelly & Associate es Ltd. SKA Sean K Data Mart Datenmodell(e) fokussiert Data Mart Datenmodell(e) fokussiert auf Datenanalyse für spezifische Anwendungsfälle Analytische Applikation basierend auf einem spezifischen Data Mart Datenmodell Stammdatenmanagement basierend auf ein spezifisches, Domänen‐ orientiertes Datenmodell Other ((*)) The Data Model Scorecard The Data Model Scorecard® (#) virtuelle Data Marts X SAS Data warehouse Datenmodell fokussiert auf Datenanalyse IBM inkl. C Cognos Anwendungsbereich Data warehouse Datenmodell fokussiert auf Datenintegration fokussiert auf Datenintegration ADRM Sofftware Unterschiedliche Einsatzzwecke Oracle inkkl. Hyperion Übersicht RDMs – Kategorien g und Hersteller X X(*) © BARC 2013 66 Welche Ziele,, welche Erwartungen? g • “Reference Reference Data Models: Market Overview and User Experiences” • Durchführung 2010, Publizierung 2011 • Geschäftlicher Nutzen von Referenzdatenmodell für BI • Interviews hinsichtlich Projekterfahrungen • http://www.barc.de/en/research/reference-data-models.html Standards • Anpassbar • Anwenderunterstützung (fachlich und technisch) • Ausgleich fehlender Ef h Erfahrung • Modellierungskonventionen • Dokumentation 28.05.2013 Wissensanreicherung • Erfahrungen anderer Unternehmen, des Herstellers • Domänen‐Wissenslücken füllen • Modellierungs‐Wissenslücken M d lli Wi lü k füllen • Vollständigkeit sicherstellen • Ersatz für fachlichen Input Effizienz • Wiederverwendbarkeit • Interative Entwicklung • Projektbeschleuniger • fachlich • technisch • Objektivierung © BARC 2013 67 RDMs – Was wird geliefert? g Klassisches Datenmodell Andere Formen • Für EDW mit/ohne Marts • Logisches / physisches ERM Modell • Entitäten, Attribute und Beziehungen • Spezifische Modellierungsstandards, z.B. • Generalisierung g • Historienabbildung • Surrogatschlüssel • Dokumentation • Für analytische Applikationen • z.B. dimensional oder flach • Für MDM Vendoren • BI Software Vendoren • Beratungshäuser Unterstützung marktführender Modellierungswerkzeuge customer region contract product customer shipment measures product payment time account 28.05.2013 © BARC 2013 68 Governance Prozess: Abd k Abdeckungsgrad d RDM RDMs und d andere d Lösungen Lö X X X X (X) X X X Emb barcadero ER//Studio (X) X X X CA EErwin X (X) X X X X X X (X) X X X X X Sybaase Power De esigner (*) SAP inkl. BO Oraccle inkl. Hype erion ormatica Info Teraadata X X X X X X X SAS Meisten RDMs Functionale Bereiche Anforderungsentwicklung Fachliche Modellierung LogischeDatenmodellierung Physische Datenmodellierung Suche (fachliche Perspektive) Suche (technische Perspektive) M t d t Metadatenmanagement t IBM inkl. Cognoss Spektrum der Lösungen X X X X X X (X) (X) (X) (*) nun Teil von SAP 28.05.2013 © BARC 2013 69 Information Management Industry Models Data Warehouse components consist of a Vocabulary and a set of Data Models • Banking • Insurance • Financial Markets • Communications • Health Plan • Health Provider • Retail & Distribution IIW for InfoSphere Vocabulary (Infosphere Business Glossary & Infosphere Business Glossary Client for Eclipse) Supportive Glossaries Business Terms Analytical Requirements Business Data Model Atomic Warehouse Model Dimensional Warehouse Model The Industry Models Data Warehouse components Are used as a reference Are customized by both business and IT communities to accelerate the analysis and design phases of a data warehouse solution Data Models (Infosphere Data Architect) 70 © 2011 IBM Corporation Information Management IIW ist Teil einer ganzheitlichen Versicherungs-Facharchitektur Versicherungs Facharchitektur IAA (IAA: Insurance Application Architecture) IIW hier exemplarisch © 2011 IBM Corporation SAS Enterprise BI • Akademie • Banken • Dienstleistungen • Energieversorger • Handel • Healthcare • Industrie • Medien • Öffentliche • Pharma • Telekommunikation • Versicherungen Quellee: SAS Hier exemplarisch: l h 72 Teradata Unified LDM Framework • LDM – Logical Data Model • • • Shareable LDM modules are useable across iLDMs: • • • • Contains atomic elements of information Describes how to assemble useful molecules of information Some modules are used in all iLDMs. Some are used in selected iLDMs based on relevance. Industry LDMs continue to have industry-specific focus for explicit business needs. Available modeling for clients in an industry is increased through access to more shareable modules: • • • Standard structure and conventions make sharing easier Cross value-chain intersections Meet growing business needs • Quelle: Teradata New industries/sub-industries • Financial Services (Banking, Insurance, Brokerage) • Communications (Telco, Cable, Satellite) g, Fast Food,, Gasoline)) • Retail ((Merchandise,, Catalog, • Manufacturing (CPG, Process, Food) • Health Care (HMO, Hospital, Health Insurance, PBM) • Travel & Hospitality (Airline, Reservation Service, Casino) • Media & Entertainment (Movies, Electronic Games) • Transportation & Logistics (Shipping, 3GL, 4GL Support) • Utilities (Electric, Gas, Water) • Life Lif Sciences S i (Ph (Pharmaceutical, ti l Research) R h) • State Medicaid (Federal Reimbursement) EDWr – The EDW Roadmap was constructed to show the linkage between the Business User perspective and the Information Technology gy p perspective p of the business. This provides a visual representation of the “big picture” of the business plans. It validates that we are attacking the right business p problem ((s). ) Business Perspec ctive Enterprise Data Warehouse Roadmap Direction & Measurement Opportunities & ROI Linkage Insights & Knowledge Information nology Techn Persp pective Integrated Information 74 > March 2008 Data Residence Fazit der BARC Studie: Nutzen von RDMs Effizienz Nachhaltigkeit G Governance Agilität 28.05.2013 • Bl Blueprint i t als l Projektbescheuniger P j ktb h i • „Buy“ effizienter als „make“ • Dient der Strukturierung (Kartographie) • Wiederverwendbarkeit von Projektergebnissen • Basis für „single point of truth“ • Trägt zur verbesserten Unternehmenssteuerung bei • Etablierung eines Unternehmensglossars • Treiber für Data Governance, gleichzeitig kritischer Erfolgsfaktor • Verkürzte Projektlaufzeiten • Integrierte Unternehmensinformationen als Wettbewerbsvorteil • Unterschiedliche Branchen und Einsatzszenarien, gleicher Nutzen © BARC 2013 75 Fazit der BARC Studie: Grenzen von RDMs • • • • Aufgabe g Komplex p p per se – unabhängig g g vom RDM Keine 100%-Abdeckung (weder Tiefe noch Breite) Kein Leitfaden für die individuelle Anwendung Eigene Begrifflichkeit des RDMs • • • • Modell ist keine Software, kein Werkzeug Dient der Strukturierung (Kartographie) Keine Unterstützung bei der Projektion auf die eigenen Quellsysteme Keine Unterstützung bei der Projektion auf Kennzahlen und Umsetzung der BI Strategie K Know-how h &E Erfahrung f h • • • • Aufgabe erfordert fachlich wie technisch spezielle Fähigkeiten RDM ist kein Ersatz für Erfahrung Kontakt zu anderen Anwendern suchen Vielschichtige, teils kontroverse Sichtweisen im Unternehmen zu lösen Normierung und Prozessintegration • • • • Unterstützt Governance, löst sie aber nicht Ohne Governance kein RDM Erfolg RDM/Governance Werkzeuge lückenhaft Kritisch: Managementunterstützung Komplexität K l ität & Abdeckungsgrad Landkarte ohne Reiseplanung 28.05.2013 © BARC 2013 76 RDMs - Zusammenfassung g Einsatz RDM für DWH bringt Nutzen • Beschleuniger und Risikominimierer Klare, realistische Erwartungen formulieren • RDMs sind jeweils für unterschiedliche Einsatzbereiche optimiert • Landkarte ohne Reise Erfolgsfaktoren • Data Governance • Menschen M h Grenzen RDM • Unternehmensspezifsche Vollständigkeit • Datenintegration • Dateninterpretation 28.05.2013 © BARC 2013 77 Agenda g • Datenmodellierung für Data Warehouse und BI – Problemstellung und Lösungskonzepte • Modellierung in der BI Architektur – Von der Konzeption bis zur Auswertung A t • BI Anforderungsmanagement und Data Governance – Schnittstelle Fachbereich / IT • Referenzdatenmodelle für BI – Überblick, Nutzen und Grenzen • Ausblick – hat Datenmodellierung im Zeitalter von Big Data ausgedient? 28.05.2013 © BARC 2013 78 Rückblick: Warum logische/physische D t Datenmodellierung? d lli ? Unternehmen Domäne • Daten residieren auf Hardware • RAM, SSD, HDD - Hardware kennt keine Semantik • Datenverwendung benötigt Semantik • Fachgebiete (subject areas) • Geschäftsmodell (business model) • Logisch • Physisch Applikation Operational D t Data Warehouse BI Applikation • Trennung von „was“ und „wie“ • Daten einfacher konsumieren • Daten einfacher verwalten • Unabhängigkeit Datenabfrage <> physische Ablage • Metadaten • Semantische Beschreibung von Daten • Verschiedene Schichten möglich • Vielfach verknüpft mit Datenspeicher, Zugriffsart, Datenmodellierungs-Methode 28.05.2013 © BARC 2013 79 Datenmodellierung g und Verwendungszweck g • ERM (mit/ohne rDBMS) einfache i f h Pflege, Pfl größtmögliche ößt ö li h Wi Wiederverwendbarkeit d db k it • Dimensional (mit/ohne rDBMS/mDBMS) einfach Kennzahlanalyse in einem vorgegebenen Kontext • Proprietär z.b. Visualisierungswerkzeuge wie Tableau, QlikView, … • „flache Strukturen“ z.B. komplexe Analyse, Data Mining, Statistik ! Klassische Datenmodellierung, häufig verknüpft mit einer Datenablage, beschreibt Semantik Datenablage Semantik, gibt Struktur Struktur, stellt Kontext her – schränkt aber ggfs. die Verwendbarkeit der konkreten Datenablage auf bestimmte Zwecke ein 28.05.2013 © BARC 2013 80 Orientierung g – Big g Data und Datenmodellierung g Big Data i.S. D t bl Datenablage für fü die Analytik Unternehmen Domäne • Fachgebiete (subject areas) • Geschäftsmodell (business model) • Logisch • Physisch Applikation Operational 28.05.2013 81 Data W h Warehouse BI A lik ti Applikation © BARC 2013 81 Das Big g Data Prinzip p • • • • • Speichern von rohen Daten Unterstützung poly-strukturierter Daten (Text, Bild, Logs, …) „No ETL“-Ansatz liefert initiale Agilität g „Schema-less“ - Datenablage ohne Datenmodellierung „Late-binding“ D t Datenmodellierung d lli „on the th fly“ fl “ 28.05.2013 Spezialisierte Datenspeicher • Filesysteme für Hadoop • NoSQL (“not only SQL“) © BARC 2013 82 Big g Data – Entwicklungen g im Zugriff g auf HDFS •Java Programmierung •Struktur, Semantik und Kontext im Code •Ablaufoptimierung durch Entwickler •Batch‐orientiert •Batch orientiert •Eingeschränkte Security MapReduce 28.05.2013 Vereinfachter Zugriff, z.B. SQL •Import/Export <> rDBMS •In‐DB MapReduce •External Tables •Hive •Hadoop DBs •Hybride Systeme •Proprietäre Zugriffs‐APIs z.B. in NoSQL P i ä Z iff API B i N SQL Lösungen •BD nicht grundsätzlich „schema‐less“ •Semantik, Struktur, Kontext für Analyse benötigt •„Modellierung“zum „Modellierung zum Zeitpunkt der Analyse Zeitpunkt der Analyse („late‐binding“) – alt. durch Metadaten •Erhöhte Flexibilität für explorative Einsatzszenarien •Wenige gute Eignung für operative Einsatzszenarien Modellierung: nicht ob, sondern wann © BARC 2013 83 Fazit • Komplexität der Datenmodellierung für BI wird geprägt durch • • • • • • Komplexität der BI Datenwelt ist nicht per se Ursache sondern mehr Wirkung der genannten Hintergründe. g Brücken zu schlagen erfordert weitergehende Prozesse, Methoden, Darstellungsmittel und Werkzeuge • • • • zwei gängige, etablierte Methoden für die logische und physische Datenmodellierung im Kern der BI Datenarchitektur, D t hit kt dem Mapping verschiedener, Applikationsspezifischer, meist technische orientierter Datenmodelle aufeinander, der Notwendigkeit, eine heterogene Datenarchitektur im Unternehmen betreiben zu müssen ohne wahrhaftige Chance auf einen physisch etablierten Single Point of Truth und dem Fehlen eines übergreifenden Geschäftsdatenmodells als Fundament für das Applikationsübergreifende Modellmapping. zur Unterstützung des Anforderungsmanagements und zur Verbesserung der Kommunikation zwischen Fachbereiche und IT. Alle Daten, auch Big Data, benötigen Kontext um sinnvoll anwendbar zu werden • Kontext wird hergestellt durch Struktur (Metadaten, u.A. Datenmodell) und Analysemethoden • Kontext kann zum beliebigen Zeitpunkt, persistent oder virtuell, hergestellt werden • Struktur ist dabei Voraussetzung für Analyse und Anwendung • Unterschied bei Modellierung und Interpretation für klassische BI Daten und Big Data liegt im Zeitpunkt g und Data Governance müssen fachlich, Herkömmliche Ansätze für Datenmodellierung technisch und organisatorisch für Big Data erweitert werden. 84 Vielen Dank – noch Fragen? g Jacqueline q Bloemen Senior Analyst BARC GmbH Steinbachtal 2b D-97082 Würzburg 28.05.2013 Tel. +49 (0)931/880651-0 Mobil +49 (171) 7565538 H-Office +49 (0)6172/459604 jbloemen@barc.de www.barc.de © BARC 2013 85