Wissensdatenbanken - Web Science and Knowledge Management
Transcription
Wissensdatenbanken - Web Science and Knowledge Management
CIM Seminar Wissensdatenbanken Dr. Steffen Staab mailto:sst@aifb.uni-karlsruhe.de Universität Karlsruhe (TH) Institut AIFB FG Wissensmanagement http://www.aifb.uni-karlsruhe.de/WBS http://www.ontoprise.de © S. Staab, A. Maedche, 2001 Alexander Mädche mailto:maedche@fzi.de Forschungszentrum Informatik FZI Wissensmanagement WIM, Karlsruhe http://www.fzi.de/wim Agenda 1. Architektur einer Wissensdatenbank – Dimensionen einer Wissensdatenbank – Komponenten einer Wissensdatenbank – Kernprozesse einer Wissensdatenbank 2. Aufbau und Instandhaltung einer Wissensdatenbank – – – – – © S. Staab, A. Maedche, 2001 Ziele einer Wissensdatenbank Methodologie / Prozess der Einführung einer Wissensdatenbank Wiederverwendung existierender Wissensquellen Aufbau von Begriffsstrukturen (Terminologien, Thesauri, etc.) Technische Grundlagen Folie 2 Agenda 3. Anwendung von Wissensdatenbanken und Einbettung in Prozesse – – – – Generierung von Wissen Strukturieren von Wissen Wiederfinden von Wissen Nutzen von Wissen 4. Business Intelligence – – – – Der Business Intelligence Prozeß OLAP – Explorative Wissens- und Ideengenerierung Wissensvisualisierung Data Mining / Knowledge Discovery Die vier Abschnitte werden mit verschiedenen IT Techniken (Information Retrieval, Fallbasiertes Schließen, Begriffliche Wissensmanagementsysteme) illustriert. © S. Staab, A. Maedche, 2001 Folie 3 1. Architektur einer Wissensdatenbank © S. Staab, A. Maedche, 2001 Folie 4 1. Architektur einer Wissensdatenbank Inhalt – Dimensionen einer Wissensdatenbank – Komponenten einer Wissensdatenbank – Kernprozesse einer Wissensdatenbank © S. Staab, A. Maedche, 2001 Folie 5 Datenbank versus Wissensdatenbank Datenbank • Wissensdatenbank (typischerweise) strukturiert • Viele unstrukturierte und semi-strukturierte Daten • Schema anfragbar, aber separat von den Daten • „Schema“ ist selbst Teil der Daten Gemeinsamkeiten • Typische WDBs bauen auf konventionellen DBs auf • Viele ähnliche Probleme (Konsistenz, Duplikate, Warehousing,....) © S. Staab, A. Maedche, 2001 Folie 6 Dimensionen des Wissensmanagement explizites Wissen Bedeutung Daten Kontext WDBS Kultur Prozesse implizites Wissen © S. Staab, A. Maedche, 2001 Folie 7 WM & Wissensdatenbanken • Wissensdatenbanksysteme (WDBS) stellen Mechanismen zur Speicherung von – Daten (1. Quadrant) und – Kontexten (2. Quadrant) bereit. Sowohl Daten als auch Kontexte können auf unterschiedlichen Granularitätsniveaus auftreten • Auf Wissensdatenbanksysteme greifen zu © S. Staab, A. Maedche, 2001 – Wissensintensive Geschäftsprozesse – Business Intelligence Applikationen – ... Folie 8 Dimensionen einer Wissensdatenbank • Wissensdatenbanken verwenden ein weites Spektrum von Technologien der Informationstechnik • Die verwendeten Technologien und die investierte Man-Power reflektieren die Qualität der Inhalte einer Wissensdatenbank • Beim Aufbau einer Wissensdatenbank ist generell ein Trade-Off zu machen zwischen Investierter Man-Power © S. Staab, A. Maedche, 2001 vs. Qualität der Inhalte Folie 9 Spektrum Wissensdatenbanken Semi-strukturierte Datenbanken Feine Granularität Relationale Datenbanken Wissensbasen strukturiert Data Warehouse Grobe Granularität Dokumentenmanagementsystem dokumentebene Information Retrieval System © S. Staab, A. Maedche, 2001 Folie 10 Schemata in Wissensdatenbanken • Zusätzlich zur Granularität der Daten spielt das definierte Schema (oder auch der Kontext) der Wissensdatenbank eine wesentliche Rolle • Unterschiedliche Typen von Schemata: Syntax • Document Type Definitions Semantik • ER-Modelle • Thesauri • Begriffsnetze / Semantische Netze • Ontologien © S. Staab, A. Maedche, 2001 Folie 11 Dimensionen ‘‘W-DB-Technik“ Inhalt DWh keine Rel. DB © S. Staab, A. Maedche, 2001 [Ontobroker] viel HR TopicBroker Dok.man. system IR System Proper ‘‘Modellierung“ Dokument Folie 12 Szenario I: HR TopicBroker • Unterstützung für HR Management 7 wichtige Themen • Lokation aktueller und neuer Schlagworte und Themen • Intranet/WWW-basierter Yellow Page Mechanismus auf begrifflicher Ebene • Aufbau einer intranetbasierten Wissensbasis © S. Staab, A. Maedche, 2001 Folie 13 Szenario II: Proper • Basisdaten: • Profilinformation aus relationaler Datenbank (Mitarbeiter und Bewerber) und semantische Annotation von Projektberichten • Ontologie mit • Begriffe, Relationen zwischen Begriffen und Regeln, z.B.: “If a programmer worked for a project, in which a specific programming language has been used, than this programmer has at least some experience with the programming language.” © S. Staab, A. Maedche, 2001 Folie 14 1. Architektur einer Wissensdatenbank Inhalt – Dimensionen einer Wissensdatenbank – Komponenten einer Wissensdatenbank – Kernprozesse einer Wissensdatenbank © S. Staab, A. Maedche, 2001 Folie 15 Komponenten einer Wissensdatenbank • Grobe Zerlegung in Analogie zu klassischen Datenbanken: – WDBS = WDB + WDMS • Ein Wissensdatenbanksystem setzt sich aus der Wissensdatenbank und dem Wissensdatenbankmanagement zusammen. © S. Staab, A. Maedche, 2001 Folie 16 Komponenten: Grobaufbau eines Datenbanksystems • Analogie zu Datenbanksystemen: © S. Staab, A. Maedche, 2001 Folie 17 Komponenten: Grobaufbau eines Data Warehouse Klienten DWh - Kern Legacy Data © S. Staab, A. Maedche, 2001 Folie 18 Komponenten: Grobaufbau eines WDB Architektur Klienten Entwicklung / Anwendung WDBMS Anfragebearbeitung Verwaltung Konnektoren/ Migratoren WDBS Repository 1 Legacy Data © S. Staab, A. Maedche, 2001 L1 Repository 2 WDB L2 Folie 19 Komponenten: Grobaufbau eines WDBS WDBMS Verwaltung Anfragebearbeitung Konnektoren/ Migratoren Repository 1 => WDB Repository 2 Keine Trennung von Schema & Daten! © S. Staab, A. Maedche, 2001 Folie 20 1. Architektur einer Wissensdatenbank Inhalt – Dimensionen einer Wissensdatenbank – Komponenten einer Wissensdatenbank – Kernprozesse einer Wissensdatenbank © S. Staab, A. Maedche, 2001 Folie 21 Bausteine des Wissensmanagements Wissensziele Feedback Wissensidentifikation Wissensbewertung Wissensziele: Bestimme Ziele für WM Aktivitäten Wissensidentifikation: Übersicht über internes und externes Wissen Wissenserwerb: Schulungen, „Einkauf“, F&E Wissensstrukturierung: Strukturierung und WissensIntegration von Wissen bewahrung Wissensverteilung: Verteilung/Kommunikation von Wissen im Unternehmen Wissensnutzung: produktive (Aus-)Nutzung von Wissen (Patente, nachfolgende Maßnahmen) Wissensnutzung Wissensbewahrung: Speichern und Bewahren von relevantem Wissen und Erfahrungen WissensWissensbewertung: Controlling des (ver)teilung Wissensmanagementprozesses Knowledge Management Wissenserwerb Wissensstrukturierung Angelehnt an [Probst et al. 1999] © S. Staab, A. Maedche, 2001 Folie 22 Wissensprozesse & Wissensmetaprozesse Arbeiten mit der WDB Knowledge Process Knowledge Meta Process Konzeption, Realisierung und Wartung der WDB © S. Staab, A. Maedche, 2001 Folie 23 Kernprozessschritte beim Aufbau einer Wissensdatenbank • Modellierung • Installation der Wissens-DB Kernkomponenten • Integration Legacy Daten • Initiales Starten der WissensDB • Maintenance => Abschnitt 2 © S. Staab, A. Maedche, 2001 Folie 24 Kernprozessschritte beim Betreiben einer WDB • Wissen erzeugen • Erfassen • Organisieren • Finden • Nutzen => Abschnitt 3 und Abschnitt 4 © S. Staab, A. Maedche, 2001 Folie 25 2. Aufbau und Instandhaltung einer Wissensdatenbank © S. Staab, A. Maedche, 2001 Folie 26 Inhalte – Ziele einer Wissensdatenbank – Methodologie / Prozeß der Einführung einer Wissensdatenbank – Wiederverwendung existierender Wissensquellen – Aufbau von Begriffsstrukturen (Terminologien, Thesauri, etc.) © S. Staab, A. Maedche, 2001 Folie 27 Richtlinien für Management und Methodik •Identifikation: Wissensbedarf, Möglichkeiten, Engstellen, • Kontextorientierte Anforderungen an WDBMS Einsatzgebiete •Zielgeleitete Konstruktion und Validierung von semantischen • Zielorientierung innerhalb Organisation Modellen (Ontologien...) • Wissensbereitstellung und • Benutzerzentrierte Einführung von WDBMS und Werkzeugen •Wartung und CPI (Continuous Process Improvement) © S. Staab, A. Maedche, 2001 –abfrage statt Informationoverload • WDBMS bleibt erfolgreich im Einsatz Folie 28 Kontextmodellierung durch Machbarkeitsstudie Quelle für WM Machbarkeitsstudie Prozesse Identifikation von Problemen und günstigen Gelegenheiten und Lösungsmöglichkeiten innerhalb einer übergeordneten organisatorischen Perspektive. Entscheidung über wirtschaftliche, soziologische und technische Projektdurchführbarkeit – Auswahl der vielversprechendsten Zielgebiete und – lösungen (Quick Win!) © S. Staab, A. Maedche, 2001 Personen Betroffene Personen Wissensrepoirtoire Entscheidung für Anwendung Prozesse Kerngebiet der Ontologieentwicklung Folie 29 CommonKADS – Roadmap für die Einführung eines WDBMS OM-1 Checklist: TM-2 TM-1 worksheet Auswahl von Checklist: Probleme, Werkzeugen knowledge item [wenn Aufgaben Lösungen, analysis analyse realisierbar] Kontext OM-3 Checklist: TM-2 OM-5 Fokus für TM-2 worksheet ProzessChecklist: OM-2 Checklist: Entwicklung beschreiknowledge item Checklist: Ver- bung InteAnalyse von analysis Beurteile Wissensgriere Ontologie MachBeschrei- feinern objekte bung OM-4 barkeit Organisat. Checklist: TM-2 (Entscheid Fokus worksheet GUI ungsdok.) AM-1 Wissensknowledge item Checklist: reportoire [wenn analysis Modell (assets) unmöglich] der Stop Akteure En ts ch ei du ng sd ok um en t Fertige Kontextanalyse © S. Staab, A. Maedche, 2001 Folie 30 Konzeption klassischer Informationssysteme Entwurf Implementierung © S. Staab, A. Maedche, 2001 Folie 31 Konzeption von WM-Systemen WM Szenario Entwurf Implementierung Ex. Daten Kontext-Modellierung Formale Repräsentation des Kontextes Initialisierung der Wissensdatenbank mit Kontext & Ex. Daten Anbindung der Wissensdatenbank an WM Szenario Anwendung © S. Staab, A. Maedche, 2001 Folie 32 Ontologieentwicklung für eine WDB Ontologie Kickoff •Anforderungsspezifikation (ORS) •Analysiere Quellen •Baue Lexikon / Glossar © S. Staab, A. Maedche, 2001 Verfeinerung •Erhebung von Begriffen mit Experten •Begriffsbildung und formalisierung •Konkretisiere Relationen und Regeln Evaluation •Revidiere und erweitere nach Feedback •Analysiere Benutzung •Analysiere Kompetenzfragen Wartung •Verwalte organisatorischen Wartungsprozess Folie 33 Ontologie Kickoff © S. Staab, A. Maedche, 2001 Folie 34 Ontologie Kickoff © S. Staab, A. Maedche, 2001 Folie 35 Top-Down vs. Bottom-Up • Das Schema für die Wissensdatenbank kann topdown oder bottom-up erstellt werden: • • Top-down: von der Anwendung & Experten Bottom-up: von den existierenden Daten und Systemen • In realen Anwendungen hat sich eine gemischte Strategie als erfolgreich erwiesen. © S. Staab, A. Maedche, 2001 Folie 36 Ontologieentwicklung für eine WDB Ontologie Kickoff Verfeinerung •Anforderungs- •Erhebung von spezifikation Begriffen mit (ORS) Experten •Analysiere •Begriffsbildung Quellen und formalisierung •Entwickle grundlegende •Konkretisiere Taxonomie Relationen und Regeln © S. Staab, A. Maedche, 2001 Evaluation •Revidiere und erweitere nach Feedback •Analysiere Benutzung •Analysiere Kompetenzfragen Wartung •Verwalte organisatorischen Wartungsprozess Folie 37 Formalisiere Ontologie - OntoEdit © S. Staab, A. Maedche, 2001 Folie 38 Ontologieentwicklung für eine WDB Ontologie Kickoff Verfeinerung •Anforderungs- •Erhebung von spezifikation Begriffen mit (ORS) Experten •Analysiere •Begriffsbildung Quellen und formalisierung •Entwickle grundlegende •Konkretisiere Taxonomie Relationen und Regeln © S. Staab, A. Maedche, 2001 Evaluation •Revidiere und erweitere nach Feedback •Analysiere Benutzung •Analysiere Kompetenzfragen Wartung •Verwalte organisatorischen Wartungsprozess Folie 39 Vom Wissensbaustein zur Technikauswahl Wissensbausteine Ziele Informations/Daten -management Intelligente Techniken für WDBM Eingabe Information Retrieval & Wissensidentifikation Pflege Erwerb Strukturierung Verarbeitung Extraktion Visualisierung Nutzung Integration Fallbasiertes Schließen Bewahrung Suche Ontologiebasiertes WM (Ver-)Teilung Nutzung Business Intelligence Bewertung Welcher Inhalt? © S. Staab, A. Maedche, 2001 Welcher Kontext? Folie 40 Entwickle möglichst frühzeitig Prototyp!! Traue niemandem außer den Nutzern Deines Systems!! © S. Staab, A. Maedche, 2001 Folie 41 Ontologieentwicklung für eine WDB Ontologie Kickoff Verfeinerung •Anforderungs- •Erhebung von spezifikation Begriffen mit (ORS) Experten •Analysiere •Begriffsbildung Quellen und formalisierung •Entwickle grundlegende •Konkretisiere Taxonomie Relationen und Regeln © S. Staab, A. Maedche, 2001 Evaluation •Revidiere und erweitere nach Feedback •Analysiere Benutzung •Analysiere Kompetenzfragen Wartung •Verwalte organisatorischen Wartungsprozess Folie 42 Beispiel: Customer Care – Siemens Automation and Drive http://www4.ad.siemens.de/support/index.asp (nach Lenz 1998) Wartung der Ontologie: • Ca. ein halber Manntag pro Monat • Kundenvorschläge werden berücksichtigt • Gestellte Fragen werden berücksichtigt Z.B. Kunde fragt „Wieso klemmt der Schekel?“ System: „Bitte beschreiben Sie das Wort Schekel.“ -> Feedback an Wissensmanager © S. Staab, A. Maedche, 2001 Folie 43 Das Bootstrapping - Problem L1 WDBS © S. Staab, A. Maedche, 2001 Folie 44 Füllen einer Wissensdatenbank • Der Aufbau einer Wissensdatenbank geschieht typischerweise nicht „from scratch“. => Einbeziehung von Legacy Systemen! • Die Konzeption einer Wissensdatenbank wird durch Anwendungsgebiete ‘‘getriggert‘‘. • Wissensdatenbanken wachsen idealerweise durch ihre Anwendung (siehe TopicBroker) © S. Staab, A. Maedche, 2001 Folie 45 Initialisierung der Wissens-DB • Im schlechtesten Fall kann auf keine existierende Daten zurückgegriffen werden • Typischerweise existieren relevante Daten (z.B. Profilinformationen bei Proper Anwendung) • Im einfachsten Fall startet die Wissensdatenbank mit einem Dokumentenindex (vgl. Topicbroker) • Wichtig: Eine Initialisierung der Wissens-DB erhöht die Gesamtqualität und schafft Anreize zur Erweiterung © S. Staab, A. Maedche, 2001 Folie 46 Lessons Learned 1. Vermittle dem Benutzer die Bedeutung von Wissensstrukturierung (Ontologie, Thesaurus,...)! 2. Zeige den Nutzen konkret an einem (eventuell rein graphischen) Prototypen auf! 3. Modelliere genau – aber gebe dem Benutzer auch ungenaue Sichten in die Hand! 4. Plane einen Instandhaltungsprozess unter Beteiligung eines „Wissensmanagers“! 5. Plane die „Befüllung“, die die WDB interessant macht! 6. Suche nach dem Quick Win! © S. Staab, A. Maedche, 2001 Folie 47 3. Anwendung von Wissensdatenbanken und Einbettung in Prozesse © S. Staab, A. Maedche, 2001 Folie 48 Inhalte – Generierung von Wissen – Strukturieren von Wissen – Wiederfinden von Wissen – Nutzen von Wissen © S. Staab, A. Maedche, 2001 Folie 49 Wissensprozess Benutze Fact A Kreiere Importiere / Fact B Linke Fact E Finde Fact D Fact C Erfasse Organisiere © S. Staab, A. Maedche, 2001 Folie 50 Abfragen von Wissen ? ? ? ? ? ? • Kontext über die Ontologie • Generalisiere / verfeinere via Ontologie • Matching von Abfragen mit Begriffen aus der Ontologie • Vordefinierte Abfragen an die WDB © S. Staab, A. Maedche, 2001 Folie 51 Beispiel: Vordefinierte Abfragen © S. Staab, A. Maedche, 2001 Folie 52 Ontologie als Landkarte • • • • © S. Staab, A. Maedche, 2001 Navigation via Ontologie Individuelle Sichten auf Wissen Dynamische Sichten auf Wissen Vordefinierte Abfragen Folie 53 Beispiel: Orientierung durch die Ontologie © S. Staab, A. Maedche, 2001 Folie 54 Beispiel: Dynamische Sichten auf Wissen © S. Staab, A. Maedche, 2001 Folie 55 Community zum Teilen von Wissen • Organisatorische Maßnahmen • Die Entwicklungsmethodik erfaßt die Bedürfnisse der Benutzer und berücksichtigt sie bei der Erstellung der Anwendung • Eingebettet in tägliche Arbeitsumgebung © S. Staab, A. Maedche, 2001 Folie 56 Einbettung in Arbeitsumgebung – Beispielarchitektur Annotated Document Templates MS ppt MS Word Adobe Lotus Frame- Notes maker © S. Staab, A. Maedche, 2001 Work Document XML Structure partially filled ONTOLOGY re ko rb ot nO Smart Task Control Views Archive of Annotated Documents MS ppt MS Word Adobe Lotus Frame- Notes maker Crawler Facts in Database Inference Engine Folie 57 Einbettung in Arbeitsumgebung – Praktisches Beispiel Großer Mehrwert durch einfache Dinge: Gemeinsame Adressverwaltung !!!!! © S. Staab, A. Maedche, 2001 Folie 58 Case Study I: HR TopicBroker • Unterstützung zur HR Strategieentwicklung 7 Challenges • Lokation aktueller und neuer Schlagworte und Themen • Intranet/WWW-basierter Yellow Page Mechanismus auf begrifflicher Ebene • Aufbau einer intranetbasierten Wissensbasis © S. Staab, A. Maedche, 2001 Folie 59 HR TopicBroker – Verwendete Techniken • Ontologie mit Begriffe und Relationen zwischen Begriffen; Zusätzlich Auflösung von Synonymen • Information Retrieval + Ontologie-fokussiertes Crawling • “Gemischte” Techniken für Wissensdatenbank: • Begriffs-Dokumentindex • Wissensbasis für manuelle Einträge © S. Staab, A. Maedche, 2001 Folie 60 HR TopicBroker Ontologie © S. Staab, A. Maedche, 2001 Folie 61 HR TopicBroker – Architektur Web HR Topic Broker GUI Ontologie OntologieFokussierter Crawler ZOPE WebApplication Server Lexikon Ontologie-gestützte Indexierung der Dokumente und Gewichtung mit Relevanzmaß © S. Staab, A. Maedche, 2001 Links relevanter Dokumente und WissensdatenbankAnbindung Dok.index Repository Folie 62 Running Example: HR TopicBroker © S. Staab, A. Maedche, 2001 Folie 63 Running Example: HR TopicBroker © S. Staab, A. Maedche, 2001 Folie 64 Running Example: HR TopicBroker © S. Staab, A. Maedche, 2001 Folie 65 Case Study II: Proper • Ontologie mit • Begriffe, Relationen zwischen Begriffen und Regeln, z.B.: “If a programmer worked for a project, in which a specific programming language has been used, than this programmer has at least some experience with the programming language.” • Basisdaten: • Profilinformation aus relationaler Datenbanken und semantische Annotation von Projektberichten © S. Staab, A. Maedche, 2001 Folie 66 Case Study II: Ontologie • Screenshot of OntoEdit • … © S. Staab, A. Maedche, 2001 Folie 67 Case Study II: Architecture Matching Browser Internet: Applicant sends application. Profile DB Intranet: Employee gives annotated Employee gives annotated entries (project reports entries (project reports ..) ..) Employee provides profile. Employee searches for experts. HR Manager wants to fill vacant positions. Web Server Templates & Documents Browser © S. Staab, A. Maedche, 2001 Inference Engine Ontology Annotation & Crawling Folie 68 Case Study II: Screenshot © S. Staab, A. Maedche, 2001 Folie 69 4. Business Intelligence © S. Staab, A. Maedche, 2001 Folie 70 Inhalte – Der Business Intelligence Prozeß – OLAP – Explorative Wissens- und Ideengenerierung – Wissensvisualisierung – Data Mining / Knowledge Discovery © S. Staab, A. Maedche, 2001 Folie 71 Business Intelligence Prozeß • Der BI Prozeß setzt sich aus mehreren Schritten zusammen: • Business & Data Understanding • Data Preparation • Modeling • Evaluation • Deployment • Der BI Prozeß ist interaktiv und iterativ • Anwendung von BI benötigt Kenntnisse im Bereich Datenanalyse, Datenbanken und der Anwendungsdomäne © S. Staab, A. Maedche, 2001 Folie 72 Business Intelligence Prozeß © S. Staab, A. Maedche, 2001 Folie 73 Architektur © S. Staab, A. Maedche, 2001 Folie 74 Data Mining von Datenakquisition zur Anwendung © S. Staab, A. Maedche, 2001 Folie 75 BI – Erkenntnisse haben ihren Preis © S. Staab, A. Maedche, 2001 Folie 76 Inhalte – Der Business Intelligence Prozeß – OLAP – Explorative Wissens- und Ideengenerierung – Wissensvisualisierung – Data Mining / Knowledge Discovery © S. Staab, A. Maedche, 2001 Folie 77 Einführung in OLAP Wie gesehen, gibt es große Unterschiede zwischen operativen Systemen und dem DWh Entsprechend gibt es fundamentale Unterschiede auch zwischen den jeweiligen Zugriffsarten auf diese Datenquellen: • OLAP = On-Line Analytical Processing benutzt DWh • OLTP = On-Line Transaction Processing benutzt operative Systeme © S. Staab, A. Maedche, 2001 Folie 78 Einführung in OLAP • den schnellen, interaktiven Zugriff auf Unternehmensdaten • unter „beliebigen“ unternehmensrelevanten Blickwinkeln (Dimensionen) • auf verschiedenen Aggregationsstufen • mit verschiedenen Techniken der Visualisierung • Hauptmerkmal ist die multi-dimensionale Sichtweise auf Daten mit flexiblen interaktiven Aggregationsbzw. Verfeinerungsfunktionen entlang einer oder mehrerer Dimensionen. © S. Staab, A. Maedche, 2001 Folie 79 Multi-Dimensionalität • Mehrdimensionale Sichtweise auf Daten ist sehr natürlich: Sichtweise der Analysten auf Unternehmen ist mehrdimensional. Þ Konzeptuelles Datenmodell sollte mehrdimensional sein, damit Analysten leicht und intuitiv Zugang finden. © S. Staab, A. Maedche, 2001 Folie 80 Beispiel: Multi-Dimensionalität • Verkaufszahlen können nach unterschiedlichen Kriterien / Dimensionen aggregiert und analysiert werden: • Produkt: Produkt, Produktkategorie,Industriezweig nach • nach • nach Region: Filiale, Stadt, Bundesland Zeit: Tag, Woche, Monat, Jahr • nach verschiedenen Dimensionen des Käufers: Geschlecht, Einkommen beliebigen Kombinationen von Dimensionen Alter, und nach , z.B.nach Produktkategorie, Stadt © S. Staab, A. Maedche, 2001 und Monat Folie 81 Dimensionen Dimensionen Kontext der Kennzahlen. Jede Kennzahl hängt von einer Menge von Diese bilden den • Beispiel: ab. Verkaufszahlen (Kennzahl) hängen von den Dimensionen Produkt, Region und Zeit ab. Die • Die Dimensionen sind orthogonal (unabhängig). Hyper-Würfel (hyber cube). • Sie definieren einen sog. Orangensaft Orangenlimo Apfelsaft Mineralwasser sonstige Cola Milch © S. Staab, A. Maedche, 2001 RhSach BaHesseinl sen B en and -An 1 2 3 4 5 6 7 ayeden-W rn ü -Pfahalt rte lz mb . tk ud or P ion g e R Zeit Folie 82 OLAP Funktionalität • Bei der Analyse können beliebige Aggregationsstufen visualisiert werden: Drill-Down bzw. Roll-Up-Operationen • Bedingungen an Dimensionen, Attribute und Attributelemente reduzierenDimensionalität der visualisierten Daten: Slice & Dice - Operationen • Analyse wird durch Vielzahl von Visualisierungstechniken unterstützt. Bedingungen werden interaktiv gewählt (Buttons, Menüs, drag & drop). © S. Staab, A. Maedche, 2001 Folie 83 OLAP Funktionalität: Drill-Down / Roll-Up • Entlang der Attribut-Hierarchien werden die Daten verdichtet bzw. wieder detailliert und sind so auf verschiedenen Aggregationsstufen für Analysen zugreifbar. drill - down Hier: Gleichzeitige Detaillierung aller Dimensionen Orangensaft Orangenlimo Apfelsaft Mineralwasser sonstige Cola Milch RhSach BaHesseinl sen B en and -An 1 2 3 4 5 6 7 ayeden-W rn ü -Pfahalt rte lz mb . Coca-Cola Pepsi-Cola Afri-Cola Kinder-Cola ... FüMün PaAugsrth chen N s b .71 .72 7.3 .74 7.5 .76 7.7 ürn sau urg be rg roll - up © S. Staab, A. Maedche, 2001 Folie 84 OLAP Funktionalität: Slice & Dice • Bei dieser Operation wird die Dimensionalität der visualisierten Daten reduziert. • Zu einer Teilmenge der Dimensionen werden Bedingungen formuliert. • Alle Daten in der resultierenden Tabelle genügen diesen Bedingungen. • Slice & Dice entspricht dem Herausschneiden einer Scheibe (slice) aus dem Hyper-Würfel. Nur diese Scheibe wird weiterhin visualisiert. © S. Staab, A. Maedche, 2001 Folie 85 Beispiel I: Lokation bestimmter atomarer und aggregierter Werte im Hyper-Würfel: a) Orangensaft Orangenlimo Apfelsaft Mineralwasser sonstige Cola Milch S Rh ach H e s Ba ess inla en-A Ba de en nd- nh 1 2 3 4 5 6 7 yer n-W Pfal alt n ür tem z b. => Verkaufszahlen für Orangensaft in Bayern im Mai © S. Staab, A. Maedche, 2001 Folie 86 Inhalte – Der Business Intelligence Prozeß – OLAP – Explorative Wissens- und Ideengenerierung – Wissensvisualisierung – Data Mining / Knowledge Discovery © S. Staab, A. Maedche, 2001 Folie 87 Visualisierung • Visualisierung im Kontext Wissensdatenbanken kann verwendet werden für: • Explizite Präsentation von Wissensstrukturen zur Anfrage („Ostensive Browsing“) • Explorative Datenanalyse • Bestätigende Analyse (ausgehend von einer Hypothese) © S. Staab, A. Maedche, 2001 Folie 88 Visualisierung – Visualisierung kann interaktiv durchgeführt werden: Kombination menschlicher Wahrnehmungsfähigkeiten mit hoher Leistungsfähigkeit heutiger Rechner – Visualisierungstechniken können in verschiedene Klassen eingeteilt werden: • • • • • © S. Staab, A. Maedche, 2001 Pixel-orientierte Techniken Geometrische Techniken Icon-basierte Techniken hierarchische Techniken Graph-basierte Techniken Folie 89 Pixel-orientierte Techniken Attributwert eines n-stelligen Datentupels wird als ein farbiges Pixel repräsentiert • jeder • die m Werte eines Datentupels werden auf m separate Windows verteilt • in jedem Window werden die Attributwerte eines Datentupels an derselben Stelle angezeigt © S. Staab, A. Maedche, 2001 Folie 90 Beispiel: Pixel-orientierte Techniken © S. Staab, A. Maedche, 2001 Folie 91 Geometrische Techniken Projektion multidimensionaler Datenbestände auf 2dimensionale Darstellungen: es existiert eine Vielzahl von Techniken (z.B. Hauptkomponentenanalyse, Faktoranalyse), hier parallele Koordinatentechnik Idee: – für n-dimensionale Datentupel werden n äquidistante Achsen verwendet (1 Achse pro Attribut) – jede Achse wird entsprechend dem Wertebereich des zugehörigen Attributs skaliert – Datentupel wird als Polygon visualisiert (Schnittpunkt mit Achse i repräsentiert Attributwert a ) i © S. Staab, A. Maedche, 2001 Folie 92 Geometrische Techniken Abbildung 5: Parallele Koordinatentechnik (Keim/Kriegel 1996) © S. Staab, A. Maedche, 2001 Folie 93 Visualizing Hierachies: 2D Hyperbolic Viewer Todo! “Focus & Context” • Smooth Navigation • [J. Lamping 1996] © S. Staab, A. Maedche, 2001 Folie 94 Visualizing Hierachies: 3D Hyperbolic View Enables bigger graphs a 2D Viewer •Suitable for Tree Structure • © S. Staab, A. Maedche, 2001 Folie 95 Document Visualization Visual Support for Navigation and Browsing in a Set of Document • Topic distribution in a large document space: • content abstraction and spatialization of the document © S. Staab, A. Maedche, 2001 Folie 96 Document Visualization Visual Support for Navigation and Browsing in a Set of Document As close as possible to a real world-book © S. Staab, A. Maedche, 2001 Folie 97 Visualisierung von Association Rules © S. Staab, A. Maedche, 2001 Folie 98 Visualisierung von Clusteringergebnissen © S. Staab, A. Maedche, 2001 Folie 99 Inhalte – Der Business Intelligence Prozeß – OLAP – Explorative Wissens- und Ideengenerierung – Wissensvisualisierung – Data Mining / Knowledge Discovery © S. Staab, A. Maedche, 2001 Folie 100 Data Mining im Buzzword-Netz © S. Staab, A. Maedche, 2001 Folie 101 Data Mining ist interdisziplinär © S. Staab, A. Maedche, 2001 Folie 102 Data Mining Techniken Generell unterscheidet man zwischen: • Überwachten Verfahren: • Entscheidungsbäume • Neuronale Netze • ... • Unüberwachten Verfahren: • Clustering • Assoziationsregeln • ... © S. Staab, A. Maedche, 2001 Folie 103 Example: Mining mit SAP BW © S. Staab, A. Maedche, 2001 Folie 104 Werkzeuge für Data Mining © S. Staab, A. Maedche, 2001 Folie 105 Case Study: CRM – Deutsche Telekom • Ausgangsbasis: Panel über ca. 5000 HH • Data Mart ‘‘Panel Analyse System‘‘ (PAS) enthält: • Kommunikationsdaten • Befragungsdaten © S. Staab, A. Maedche, 2001 Folie 106 Sternschema Kundensegment Haushalt (PK) Arbeitsstätte (GK) Tarifzone Ort Regional Deutschland ... Tagart Mo - Fr Sa, So, Fe Zeit Stunde (0 .. 23) Tag Monat Jahr © S. Staab, A. Maedche, 2001 Kommunikationsdaten Teilnehmer_ID Kundensegment Tarifzone Tagart Zeit ... Kennzahlen (Verb.minuten) Befragung Haushalte Teilnehmer_ID Beruf_Code Haushaltsgröße ... Befragung Arbeitsstätten Teilnehmer_ID Branche_Code Anzahl Mitarbeiter ... star schema of PAS Beruf_Code Beruf Branche_Code Branche Branche Wirtschaftszweig (fein gegliedert) Wirtschaftszweig (fein gegliedert) Wirtschaftszweig (grob gegliedert) Folie 107 Kommunikationsdaten customerID 1 1 2 2 • distance Ort Ort Regional Regional type of day Mo-Fr Mo-Fr Mo-Fr Mo-Fr date/time 19.11.98/9:55 20.11.98/10:10 19.11.98/21:00 20.11.98/17:00 comm. minutes 20 min 18 min 120 min 2 min Verwendung der Kommunikationsdaten zur Generierung eines Profils • Auf Basis der Profile folgt die Definition von Kundensegmenten • Kundensegmente werden mittels sozio-demographischer Merkmale aus dem Panel beschrieben © S. Staab, A. Maedche, 2001 Folie 108 Kommunikationsprofil Ort Fern Regio weekday communication feature weekend • hour window: 0-6 •distance: Ort •type of day: weekday Zeitfenster © S. Staab, A. Maedche, 2001 Folie 109 Kundensegmentierung via Clustering Durchschnittliches Profil © S. Staab, A. Maedche, 2001 Profil in einem Kundencluster Folie 110 Beschreibung von Segmenten • Verwendung der sozio-demographischen Daten aus dem Panel Größe des Haushaltes • Beruf • Anzahl Kinder • Alter • ... • • Verwendung einer Entscheidungsbaumtechnik führt zu: WENN HH > 4 und Beruf = „Beamter“ DANN Cluster_Nr = 1 © S. Staab, A. Maedche, 2001 Folie 111 Literatur Andreas Abecker, Ansgar Bernardi, Heiko Maus, Michael Sintek, and Claudia Wenzel: Information Supply for Business Processes - Coupling Workflow with Document Analysis and Information Retrieval. Knowledge-Based Systems 13(5):271-284, Special Issue on AI in Knowledge Management, Elsevier, 2000. Matthias Jarke, Roland Klemke, Achim Nick. Broker's Lounge - an Environment for Multi-Dimensional User-Adaptive Knowledge Management, in: HICSS- 34: 34th Hawaii International Conference on System Siences, 3.-6. January 2001, Maui, Hawaii. Mario Lenz. Managing the Knowledge Contained in Technical Documents. In Ulrich Reimer (ed.). PAKM 98 - Practical Aspects of Knowledge Management. Proceedings of the Second International Conference. Basel, Switzerland, October 29-30, 1998. Alexander Mädche, Steffen Staab: Ontology Learning for the Semantic Web. IEEE Intelligent Systems, 16(2), March/April 2001 (Special issue on Semantic Web). Alexander Mädche, Steffen Staab, Nenad Stojanovic, Rudi Studer, York Sure. SEmantic portAL - The SEAL approach. In D. Fensel, J. Hendler, H. Lieberman, W. Wahlster (eds.) Creating the Semantic Web. MIT Press, Cambridge, MA, 2001 (In Druck). © S. Staab, A. Maedche, 2001 Gilbert Probst, Steffen Raub, Kai Romhardt. Wissen managen. Wie Unternehmen ihre wertvollste Ressource optimal nutzen. Th. Gabler Verlag, 1999. Guus Schreiber, Robert de Hoog, Hans Akkermans, Anjo Anjewierden, Nigel Shadbolt, Walter Van de Velde. Knowledge Engineering and Management. The MIT Press, 2000. Steffen Staab, Alexander Mädche: Knowledge Portals Ontologies at Work. AI Magazine, 21(2), Summer 2001. Steffen Staab, Hans-Peter Schnurr, Rudi Studer, York Sure. Knowledge Processes and Ontologies. IEEE Intelligent Systems, 16(1), January/February 2001 (Special issue on Knowledge Management). . Folie 112