Ground Truth – Ohne Datenqualität kein Machine Learning
Transcription
Ground Truth – Ohne Datenqualität kein Machine Learning
Ground Truth – ohne Datenqualität kein Machine Learning. Erfolgsfaktoren für Predictive Analytics, BI und Data Mining Prof. Dr.-Ing. Peter Lehmann – Hochschule der Medien Stuttgart GLIEDERUNG › › › › › › › Etwas Etwas Etwas Etwas Etwas Etwas Etwas über über über über über über über Machine Learning Vorgehensweisen wie man’s falsch macht wie man’s richtig macht ein spannendes Projekt den Ground Truth Data Science Prof. Dr.-Ing. Peter Lehmann Hochschule der Medien Studiengang Wirtschaftsinformatik und Digitale Medien Studiengang Data Science and Business Analytics Nobelstrasse 10 70569 Stuttgart 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 2 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles Reporting › Ziel ist präzise vorgegeben, z.B. › Ich möchte wissen, wieviel …. pro … sortiert nach … › Datenmodelle und deren Attribute sind bekannt › Machine Learning (ML) › Ziel ist wage vorgegeben, z.B. › Ich möchte wissen, was den Kauf eines Projektes ausmacht. › Ich möchte wissen, welche Kundensegmente es gibt. › Datenmodelle und deren Attribute sind “vermutlich” bekannt › ML gibt dann Antworten auf Fragen, die ich noch gar nicht gestellt habe 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 3 WICHTIGE TYPEN VON MACHINE LEARNING (BEISPIELE) Cluster bilden Klassifizierung Recommender Systeme ? Regression 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 4 LERNEN MIT BEISPIELEN › Disziplin in Informatik Künstliche Intelligenz › Supervised learning › Ein Lernalgorithmus versucht, eine Abbildung zu finden, die jedem Eingabewert den vermuteten Ausgabewert zuordnet. › Der Ausgabewert ist bekannt. › Herausforderung Ground Truth: Qualität der Trainingsmenge und Testmenge › Nach diesem Training sollte das System in der Lage sein, zu einer unbekannten Eingabe eine korrekte Ausgabe zu liefern 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 5 VORGEHENSMODELLE SIND ITERATIV! › Knowledge Discovery and Data Mining (1996) www.kde.org 08.06.2016 › Cross Industry Standard Process for Data Mining (2000) www.crisp-data.com Ground Truth – ohne Datenqualität kein Machine Learning 6 WIR MACHEN EINFACH MAL… OHNE GROUND TRUTH › Beispiel: › Fahrradhersteller, analysiert seinen Online-Shop › Wir wollen wissen: welches Profil haben Kunden, die Mountain Bikes kaufen? › 50.000 Datensätze, los geht‘s… › Kundenstammdaten + Transaktionsdaten + Sozio-demografische Daten über PLZ 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 7 WIR MACHEN EINFACH MAL… OHNE GROUND TRUTH Besonders viele Kunden kommen aus 11111 Wir haben keine Kunden in Ostdeutschland, dafür viele in CH und Österreich! Besonders interessant sind Kunden, die weder männlich noch weiblich sind 15% unserer Kunden wohnen in Afghanistan 8% unserer Kunden, die unsere App nutzen, und aus Stuttgart kommen, fahren am Wochenende in Japan Fahrrad 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 8 LESSONS LEARNED › › › › Mining Model macht nur 10% aus! Auswahl der Attribute ist wichtig! Aber: Datenqualität ist entscheidend!!! Algorithmen lernen schnell, auch Mist! › “Microsoft deletes 'teen girl' Artificial Intelligence after it became a Hitler-loving sex robot within 24 hours” – Daily Telegraph 24.3.2016 http://www.telegraph.co.uk/technology/2016/03/24/ microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/ › Top-Datenqualität für das Anlernen der Software erforderlich Bedeutung des Ground Truth Prozesses erkennen! 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 9 PROBLEM IN DEN DATEN › › › › › › › › › › PLZ passen nicht zum Ort Ort passt nicht zur PLZ Nullwerte Ausreiser Dubletten Falsche Schreibweisen Mehrere Sprachen Falsche Bezeichner Semantische Probleme …. 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 10 © UNISERV GmbH, Pforzheim 08.06.2016 GROUND TRUTH – SOLIDES FUNDAMENT FÜR ENTSCHEIDUNGEN Predictive Analytics Business Intelligence Marketing Campaign 5 Golden Profile 1 Customer Master Data ‚bidirektional‘ - ETL 2 Interaction Data 3 Transaction Data 4 Transformation Source ID to Golden Record ID 5 Golden Profile 360° VIEW 2 3 Golden Record 4 Smart Customer MDM 4 1 CRM Service Web Shop ERP n-Systeme 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 11 GEMEINSAMES FORSCHUNGSPROJEKT MIT UNISERV LEAD GENERATION Prediction Train 70% SozioDemografische Daten Microsoft Azure ML Ground Truth for ML Test 30% Kaufwahrscheinlichkeit % ERP CRM CRM Close the loop 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 12 UNISERV UNTERSTÜTZT DEN NEUEN BERUFSBEGLEITENDEN MASTER “DATA SCIENCE AND BUSINESS ANALYTICS” › Warum der 70%-Online Weiterbildungsstudiengang? › › › › › › Unterstützung durch › › › › › › Jobs, Jobs, Jobs (Roche, Daimler, …) Industrie 4.0, Internet of Things Hängen uns ab: USA, Asien Big Data und Open Data überall Cloud-Computing ist wichtiger Treiber Sponsoring Bilaterale Projekte Lehrauftrag Site visits In Vorbereitung Chief Digital Officer - Inner Circle Ground Truth › Bestandteil des Studiengangs 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 13 FAZIT › › › › ML liefert wichtige Erkenntnisse über neue Geschäftsmodelle, Kunden und Produkte ML mit supervised learning bringt die besten Ergebnisse Datenqualität ist entscheidend für supervised learning Ground Truth ist ein wichtiger Datentransformationsprozess › “Etwas falsch ist auch irgendwie richtig” › 80% richtig reicht uns › Ohne Ground Truth kein erfolgreiches Machine Learning › … und keine erfolgreiche Customer Journey › Datenintegration muss extrem schnell und agil gehen › Hier hilft Golden Profile und Golden Record 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 14 KONTAKT › STUDIENGANG DATA SCIENCE AND BUSINESS ANALYTICS › MEHR ZUM PROJEKT GROUND TRUTH Prof. Dr.-Ing. Peter Lehmann Hochschule der Medien Nobelstrasse 10 70569 Stuttgart Holger Stelz Uniserv GmbH Rastatter Straße 13 75179 Pforzheim www.hdm-stuttgart.de/ds www.uniserv.com lehmann@hdm-stuttgart.de holger.stelz@uniserv.com Projektleiter Ground Truth (HdM) Gastdozent Betreuung Wissenschaftl. Arbeiten 08.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning 15