Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale
Transcription
Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale
CASE STUDY Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale Daten zusammen Hybride Datenarchitektur kombiniert klassisches Data Warehouse und Hadoop Kunde Die ProSiebenSat.1 Digital GmbH ist als MultimediaUnternehmen der ProSiebenSat.1 Group, eines der führenden Medienhäuser in Europa, für neue digitale Medienangebote zuständig. Das Unternehmen betreibt unter anderem mit der ProSiebenSat.1 Networld (u.a. SAT1.DE, ProSieben. de, MyVideo.de, lokalisten.de) eines der führenden OnlineNetzwerke in Deutschland. Mit 20 verschiedenen Marken bildet ProSiebenSat.1 Digital zudem das größte deutsche Netzwerk mobiler Internetseiten. Daneben betreibt das Unternehmen die Teletextseiten der verschiedenen Sender der Gruppe, die beiden Online-Gaming-Portale SevenGames.de und SAT1Spiele.de, sowie weitere Browser-SpielePortale. Innovationen wie Hybrid Broadcast Broadband Television (HbbTV), das Fernsehen und Internet auf dem FAK TEN • Branche: Medien • Unternehmenssitz: Unterföhring bei München • Internetseite: www.prosiebensat1digital.de • Produkte: Pentaho Data Integration, Hadoop und PostgreSQL TV-Gerät verbindet, wurden von ProSiebenSat.1 Digital vorangetrieben. Herausforderungen Daher entschied sich ProSiebenSat.1 Digital, eine zentrale ProSiebenSat.1 Digital suchte eine zentrale Data Warehouse musste. Eines der wichtigsten Kriterien war der Umgang mit (DWH) Lösung, die die Basis für eine integrierte Betrach- dem stetig wachsenden Datenvolumen generiert aus dem tung, Berichterstellung und Analyse von Vermarktungs- und Online-Geschäft des Unternehmens, das u.a. Webtracking- Trackingdaten der verschiedenen Unternehmensbereiche Daten und Adserver-Daten umfasst. Wichtig war hier, dass und Abteilungen bilden sollte. Die Datenhaltung der die Lösung zukunftssicher ist, d.h. auch noch in der Lage ist, ProSiebenSat.1 Digital war rasant mit den verschiedenen die Datenwelt der Zukunft abzudecken. Damit zusammen- Abteilungen und deren Produkten gewachsen. Die Abteilun- hängend sollte die Lösung in der Lage sein, die vielen sehr gen betreuten ihre eigenen Quellsysteme und erstellten unterschiedlichen Datenformate zu verarbeiten. Das Preis- auf deren Basis Analysen und Berichte. Diese dezentrale Leistungsverhältnis war daneben ein weiterer zentraler Datenhaltung brachte verschiedene Probleme mit sich. So Aspekt. war es zum Beispiel nur mit hohem manuellen und zeitlichen Aufwand möglich, Daten aus den vielen unterschiedlichen Daten-Silos für gesamtheitliche Berichte und Analysen zusammenzufassen. DWH-Lösung zu suchen, die verschiedene Kriterien erfüllen Die Inovex GmbH, ein inhabergeführtes IT-Projekthaus mit Erfahrung im Bereich Big Data und Pentaho-Partner, erkannte schnell, dass ein klassisches DWH hier rasch an seine Grenzen gelangen würde und schlug, über den eigentlichen Ausschreibungsumfang hinausgehend, ein Das hybride Konzept aus klassischer Datenbank und Hadoop macht unsere Datenhaltung zukunftssicher. Pentaho Data Integration stellt dabei sicher, dass beide Welten reibungslos zusammenarbeiten und die Daten schnell und einfach den Nutzern zur Verfügung gestellt werden. – JÜRGEN POPP Direktor Business Intelligence, ProSiebenSat.1 Digital GmbH hybrides Konzept aus klassischer Datenbank und innovativen Big-Data-Technologien vor, bei dem sowohl die Integration der Daten in die verschiedenen Systeme, als auch die Verknüpfung der Daten und die Bereitstellung für das Reporting-Frontend von Pentaho Data Integration (PDI) übernommen wird. Das Konzept überzeugte ProSiebenSat.1 Digital und Inovex wurde mit der Realisierung der hybriden Datenarchitektur beauftragt. Um das komplexe hybride System zu verwirklichen, arbeitete Inovex nach der Scrum-Methodik. Dabei wurde das Projekt mit einem Proof-of-Concept gestartet und dann in mehreren kurzen Sprints jeweils weitere Module fertiggestellt. Damit konnte das System inkrementell wachsen und durch kontinuierliches Feedback so umgesetzt werden, wie es den Bedürfnissen von ProSiebenSat.1 Digital entsprach. Diese Vorgehensweise ermöglichte eine effiziente und schnelle Implementierung des Projekts in nur 3 Monaten Lösung Inovex realisierte eine hybride Datenarchitektur mit einem relationalen DWH auf Basis von PostgreSQL, sowie einem vorgelagerten Storage- und Compute-Cluster auf Basis von Apache Hadoop. Begonnen hat man mit einem Cluster aus acht Hadoop-Knoten, in denen vor allem die historischen Pentaho Data Integration (PDI) durchgeführt. PDI bietet Daten gespeichert und verarbeitet werden. Um die Instal- eine native Hadoop-Integration und ermöglicht den BI- lation und Konfiguration des Hadoop-Clusters zu verein- Anwendern dank grafischer Benutzeroberfläche, die fachen, wurden Cloudera CDH Images eingesetzt. komplizierten MapReduce-Jobs, mit denen die Daten im Die Datenübertragung zwischen DWH und Hadoop-Cluster sowie die Datenakquise in das Hadoop-Cluster wird mit Hadoop-Cluster verarbeitet werden, auch ohne Java- oder Script-Programmierkenntnisse durchzuführen Ergebnisse • Data Blending: Auch Data Blending, d.h. die Kombination von Daten aus dem DWH mit den historischen Daten aus Die Die hybride Datenarchitektur mit PDI als Dateninte- Hadoop zur weiteren Bereitstellung für das Reporting- grations-Tool, das das Zusammenspiel von Big Data und Frontend, ist mit PDI schnell und einfach durchzuführen. relationalen Daten sicherstellt, ist seit März 2013 produktiv bei ProSiebenSat.1 Digital im Einsatz und wird kontinuierlich weiter ausgebaut. Die hybride Architektur hat folgende Vorteile: • Leistungsstarke Bereitstellung der Daten: Die aus mehreren Threads bestehende Integrations-Engine von PDI ermöglicht eine schnelle Ausführung und Bereitstellung der Daten aus dem Hadoop-Cluster. • Die Nutzung des klassischen DWH für die aktuellen Daten stellt für den BI-Nutzer eine vertraute Umgebung dar, die aufgrund der vorhandenen SQL-Kenntnisse einfach zu nutzen ist. • Die Nutzung von Hadoop für die historischen Daten macht die Datenhaltung zukunftssicher, da diese einfach und kostengünstig durch Hinzufügen weiterer Knoten zu skalieren ist. • Dass die Daten über die Knoten des Hadoop-Clusters verteilt redundant gespeichert werden, stellt darüber hinaus die Ausfallssicherheit des Systems sicher. • Durch den zentralen Ansatz wird die Datenqualität sichergestellt und das zeitaufwendige, manuelle Zusammenführen der ehemals dezentralen Daten durch einen schnellen und einfachen Zugriff abgelöst. Dadurch ist es möglich, jederzeit einen zentralen Blick auf die Geschäftsdaten zu erhalten und schnell auf Entwicklungen zu reagieren. Der Einsatz von PDI ermöglicht: • Integration: Die reibungslose Zusammenarbeit von relationaler und Big Data Welt. Zusammenfassung Die ProSiebenSat.1 Digital GmbH nutzt Pentaho Data Integration (PDI) zur Integration von Big Data und relationalen Daten. Die Inovex GmbH, ein Pentaho Partner, hat für das Unternehmen eine hybride Datenarchitektur mit einem relationalen Data Warehouse (DWH) auf der Basis von PostgreSQL, sowie einem vorgelagerten Storage- und Compute-Cluster auf Basis von Apache Hadoop realisiert. Die Datenübertragung zwischen DWH und Hadoop-Cluster sowie die Datenakquise in das Hadoop-Cluster wird mit PDI durchgeführt, dass eine native Hadoop-Integration bietet. PDI ermöglicht den BI-Anwendern dank grafischer Benutzeroberfläche, die komplizierten MapReduce-Jobs, mit denen die Daten im Hadoop-Cluster verarbeitet werden, auch ohne Java- oder Script-Programmierkenntnisse durchzuführen. Auch Data Blending, d.h. die Kombination von Daten aus dem DWH mit den Daten aus Hadoop zur weiteren Bereitstellung für das Reporting-Frontend, ist mit PDI schnell und einfach durchzuführen. Das hybride Konzept macht die Datenhaltung bei ProSiebenSat.1 Digital zukunftssicher, wobei PDI dafür sorgt, dass beide Welten reibungslos zusammenarbeiten und die Daten schnell und einfach den Nutzern zur Verfügung gestellt werden. • Einfach zu nutzende ETL-Umgebung für Big Data: PDI löst das Problem, dass zum Ausführen der MapReduceJobs, mit denen die Daten im Hadoop-Cluster verarbeitet werden, eigentlich Java- oder Scriptkenntnisse benötigt werden. PDI stellt eine einfache grafische ETL-Umgebung zur Verfügung, die selbst bei der Nutzung von neuen Big Data-Technologien auch ohne Spezialkenntnisse zu bedienen ist. Be social with Pentaho: Copyright ©2016 Pentaho Corporation. All rights reserved. Worldwide +1 (866) 660 7555. 016-023 pentaho.com/de | +1 (866) 660-7555