Data Mining in „KNIME“ - Fakultät für Wirtschaftswissenschaften an
Transcription
Data Mining in „KNIME“ - Fakultät für Wirtschaftswissenschaften an
Fakultät für Wirtschaftswissenschaften Studiengang Master Digitale Logistik und Management Seminararbeit Data Mining in „KNIME“ zur Veranstaltung „Business Intelligence“ WS 2012/2013 Eingereicht von: Prüfer: Christian Ullrich (110173) Ann – Kathrin Engel (110009) Prof. Dr. Cleve 1 Inhaltsverzeichnis I. Abbildungsverzeichnis 3 1. Daten 4 2. Datenvorbereitung 2.1 Frage 2 2.3 Frage 7 2.2 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 Frage 6 Frage 9 Frage 12 Frage 14 Frage 15 Frage 16 Frage 20 Frage 21 Frage 24 Frage 25 3. Methoden und Verfahren 3.1 K-Nearest-Neighbour 3.2 Apriori 3.3 Clustering (K-means) 3.4 Naive Bayes 3.5 Weka J48 3.6 Decision Tree 4. Fazit 4 4 4 5 6 6 7 7 7 8 8 8 8 9 9 10 14 15 16 20 24 2 Abbildungsverzeichnis Abbildung 1: Abbildung 2: Abbildung 3: Abbildung 4: Abbildung 5: Abbildung 6: Abbildung 7: Abbildung 8: Abbildung 9: Abbildung 10: Abbildung 11: Abbildung 12: Abbildung 13: KNN Apriori 9 11 K-means 15 Ergebnis-Matrix von Naive Bayes-Verfahren 17 Naive Bayes 16 Weka J48 17 Weka Entscheidungsbaum „Studienleistung“ 19 Decision Tree Predictor (1) 21 Weka Entscheidungsbaum „Zufriedenheit“ Decision Tree Decision Tree Predictor (2) Decision Tree Predictor (3) Confusion-Matrix vom Decision Tree 18 20 21 22 23 3 1. Daten Für unser Projekt im Modul „Business Intelligence“ haben wir in der Gruppe eine Umfrage erstellt, die wir im Folgenden versuchen werden zu analysieren. Diese Umfrage enthält 26 Fragen zu allgemeinen Fragestellungen zum Studium sowie private Fragen. Im Stud.ip haben wir den Studenten der Hochschule Wismar die Umfrage zur Beantwortung zur Verfügung gestellt. Im Endeffekt haben 234 Studenten an der Umfrage teilgenommen. 2. Datenvorbereitung Im Folgenden werden wir unser Vorgehen beschreiben, wie wir die Analyse der Umfrage durchgeführt haben. Bevor wir die Daten in KNIME eingefügt haben, haben wir sie bearbeitet. Dies haben wir direkt in Excel durchgeführt. Eine Bearbeitung aller Daten war nicht erforderlich. Wir werden in den folgenden Kapiteln nur die Fragen aufzeigen, bei denen uns Besonderheiten aufgefallen sind und die Fragen, die von uns bearbeitet worden sind. Auch werden wir hier erläutern, wie wir mit Fehlern umgegangen sind. Zur Bearbeitung der Daten haben wir ein neues Excel Sheet in der Excel Mappe erstellt. Zusätzlich haben wir zur Vereinfachung und zur Übersicht die Fragen durchnummeriert. 2.1 Frage 2 Die Frage 2 lautete „In welchem Semester bist Du?“. Hierbei kam es zu Missverständnissen bei Hochschulsemesteranzahl der Umfrage. angegeben Einige und der nicht Teilnehmer wie haben vorgegeben ihre die Fachsemesteranzahl. Dieses Problem ist bei den Masterstudenten der unterschiedlichen Studienrichtungen vorgekommen. Die Daten der DLM Master Studenten konnten wir entsprechend anpassen, so dass wir die Datensätze Nummer 29, 91, 111, 176 verändert haben. Die anderen Daten konnten wir leider nicht anpassen. 4 2.2 Frage 6 Diese Frage bestand aus zwei Teilen: 1. Welchen Studiengang hast du vorher belegt? 2. Wenn Nein, welchen Studiengang hast du vorher belegt? Aus diesen zwei Fragen haben wir eine Frage gemacht, die wie folgt lautet: Welchen Studiengang hast du vorher belegt? Teilnehmer, die vorher keinen Studiengang belegt haben, haben diese Fragen mit einer „0“ beantwortet. Bei den Teilnehmern, die bereits einen Studiengang belegt haben, wurde der entsprechende Studiengang angegeben. Leider ist es hierbei auch zu Fehler gekommen, die jedoch handschriftlich korrigiert werden konnten. Das Masterstudium sollte bei der Frage als Erststudium betrachtet werden. Dies betraf folgenden Teilnehmer: Teilnehmer 152 Der Teilnehmer gab an, dass er zuvor ein Wirtschaftsinformatik Bachelor Studium absolviert hat. Da er in der Umfrage angegeben hat, dass er jetzt im Wirtschaftsinformatik Master studiert, wurde der Datensatz mit einer Null versehen. Das vorangegangene Wirtschaftsinformatikstudium wurde gelöscht. Bei drei Teilnehmer (Datensatz 92, 104, 229) haben zwar geantwortet, dass sie bereits einen Studiengang vorher belegt haben. Leider keine Angaben dazu gemacht, welchen Studiengang sie vorher belegt haben. Diese Datensätze haben wir durch den Vermerk „keine Angabe“ gekennzeichnet. Des Weiteren ist uns bei der Bearbeitung eine weitere Inkonsistenz aufgefallen. Dies betrifft den Studiengang Betriebswirtschaft. Teilweise wurde die Frage mit „Bachelor BW“ oder mit „Betriebswirtschaftslehre“ beantwortet. Leider können wir hier nicht eine Annahme treffen, um welchen Studiengang es sich tatsächlich handelt. Wir lassen beide Datensätze in die Umfrage mit eingehen. Denn der Student kann von einer anderen Hochschule gekommen sein und sein Studium der Betriebswirtschaftslehre dort absolviert zu haben. Diese betrifft den Datensatz 15. 2.3 Frage 7 Diese Frage drehte sich um die Wahl des Studienortes. Hierbei gab es insgesamt sechs Antwortmöglichkeiten. Zusätzlich war bei dieser Frage eine Mehrfachantwort möglich. Diese Frage haben wir gestrichen. 5 2.4 Frage 9 Die Fragestellung bezog sich auf die Arbeitsmarktchancen, die sich nach dem Abschluss des Studiums ergeben werden. Insgesamt bestand die Frage aus zwei Teilfragen. Diese Teilfragen haben wir in Antwortmöglichkeiten waren: Excel zu einer Frage zusammengefügt. Die sehr gut(0), gut(1), okay(2), mäßig(3), schlecht(4). Ergänzt wurde die Antwortmöglichkeit „weiß nicht“. Diese erhielt die Nummer 5. Zusammengefügt wurden die Fragen durch die WENN Funktion von Excel: =WENN(R3="";5;R3). So ist es auch gegeben, dass alle Datensätze Zahlen enthielten und keine leeren Zeilen vorhanden waren. 2.5 Frage 12 Die Frage 12 bezog sich auf die zusätzlich Arbeit neben dem Studium. Auch diese Frage bestand zunächst aus zwei Fragen, die wie folgt lauteten: 1. Gehst du zusätzlich arbeiten? 2. Wenn Ja, wie viele Stunden arbeitest du in der Woche? Wie zuvor haben wir aus diesen beiden Fragen eine Frage formuliert: Wie viele Stunden gehst du zusätzlich in der Woche arbeiten? Auch diese Frage haben wir mit der WENN – Funktion von Excel zusammengefügt: =WENN(W3=1;5;X3) Die bisherigen Antwortmöglichkeiten wurden durch null Stunden Arbeit (5) ergänzt. 1-5h(0), 6-10h(1), 11-15h(2), 16-20h(3), 21+ h(4), 0 h (5). Bei der Frage kam es dazu, dass teilweise fehlende oder falsche Angaben gemacht worden sind. Dies betrifft die Datensätze 87 und 227. Diese haben wir mithilfe des KNN – Verfahren berechnet. Wir kommen im Folgenden noch darauf zu sprechen. 6 2.6 Frage 14 Die Frage 14 bezog sich darauf in welchen Wohnverhältnissen sich die Studenten befinden. Hierbei wurden den Befragten folgende Antwortmöglichkeiten gegeben: 1. Eigentumswohnung/-haus 2. Mietwohnung 3. Wohngemeinschaft 4. Studentenwohnheim 5. Eltern Diese Antwortmöglichkeiten wurden wie folgt zusammengefasst: 1. Eigentumswohnung/-haus 2. Mietwohnung 3. Wohngemeinschaft 4. WG in Mietwohnung 5. Studentenwohnheim 6. Eltern Die Antwortmöglichkeit „WG in Mietwohnung“ wurde ergänzt, weil es zu Doppelnennungen kam „Wohngemeinschaft“. bei den Antwortmöglichkeiten Die Doppelnennungen bei den Antwortmöglichkeiten „Mietwohnung“ und „Mietwohnung“ und „Eltern“ wurden geändert, so dass nur die Antwortmöglichkeit „Mietwohnung“ vorhanden war. 2.7 Frage 15 Diese Frage bezog sich darauf wie viele Quadratmeter Wohnfläche dem Studenten zur Verfügung steht. Die Frage wurde ergänzt durch die Antwort 5 „weiß nicht“. Somit ergaben sich keine fehlenden Antworten. Die Zusammenführung der Frage erfolgt durch die Wenn – Funktion: =WENN(AH3="";4;AH3) 2.8 Frage 16 Wie bereits bei Frage 15 wurde bei dieser Frage, bei der es sich um die Einschätzung der Studienleistung handelt, die Antwortmöglichkeit 5 „weiß nicht“ ergänzt. Ebenfalls erfolgte die Zusammenführung über die Wenn – Funktion: =WENN(AK3="";5;AK3) 7 2.9 Frage 20 Die Frage bestand zuvor aus zwei Teilfragen: 1. Besitzt Du einen Fernseher? 2. Wenn Ja, wie viele Stunden schaust Du in der Woche? Diese Fragen wurden zusammengefasst zu folgender Frage: 1. Wie viele Stunden schaust du Fernsehen in der Woche? Die Antworten der Studenten mit „1“ (Ich habe keinen Fernseher“) wird so gedeutet, dass sie null Stunden die Woche fernsehen. Eine fehlerhafte Eingabe war nur bei Datensatz 161 gegeben. Dieser wurde mit Hilfe des KNN berechnet. Wir kommen in Abschnitt 4. darauf zu sprechen. Zusammengefügt wurden die Fragen mithilfe der Excel – Funktion: =WENN(AQ66=1;0;AR66) 2.10 Frage 21 Ebenso wie die vorangegangene Frage bestand die Frage zunächst aus zwei Teilfragen: 1. Spielst Du Video-/Onlinespiele? 2. Wenn Ja, wie viele Stunden in der Woche? Aus diesen zwei Teilfragen wurde die Fragestellung: 1. Wie viele Stunden pro Woche Spielst du Online-/Videospiele? Hierbei musste jedoch die Antwortmöglichkeit 4 (null Stunden) ergänzt werden. Dies betrifft die Datensätze, die den ersten Frageteil mit „Nein“ beantwortet hat. Die Wenn – Funktion zum Zusammenfügen der Spalten lauten wie folgt: =WENN(AT66=1;4;AU66) 2.11 Frage 24 Diese Frage beschäftigt sich damit, wie der Student zur Hochschule kommt. Hierbei gab es insgesamt sieben Antwortmöglichkeiten. Zusätzlich war bei dieser Frage eine Mehrfachantwort möglich. Diese Frage haben wir gestrichen. 2.12 Frage 25 Diese Frage drehte sich um die Art der Fortbewegung in Wismar. Hierbei gab es insgesamt sechs Antwortmöglichkeiten. Zusätzlich war bei dieser Frage eine Mehrfachantwort möglich. Diese Frage haben wir gestrichen. 8 3. Methoden und Verfahren 3.1 K – Nearest – Neighbour Wie bereits bei der Datenaufbereitung erwähnt, enthielten Fragen fehlende oder falsche Antworten. Diese wurden mit Hilfe des KNN Verfahrens berechnet. Unbekannte Objekte sollen klassifiziert werden, dies erfolgt durch die Ähnlichkeit der Attributwerte zu bereits gespeicherten Attributwerten. 1 Der Aufbau des KNN sieht wie folgt aus: Abb. 1: KNN 2 Die Daten wurden mit einem XLS Reader eingelesen. Mit dem Column Filter wurden die Spalten herausgenommen, die keine Bedeutung hatten für die Bearbeitung. Mit einem „Number –to-String“ Operator wurden die Spalten, die für unsere Betrachtung wichtig sind, umgewandelt. Als Nächstes folgte ein „Row Splitter“. Dieser selektierte die Spalte, in der die fehlenden Werte ermittelt werden sollten. Dies betraf nach Abschluss der Datenvorbereitung die Frage 12 „Arbeit“, die Frage 13 „Budget“ und die Fragen 20 und 21 „Fernseher“ und „Spiele“. Den Abschluss bildete dann der „K – Nearest – Neighbour“. Berücksichtigt werden sollten die nächsten acht Nachbarn (k = 8). Für die Frage 12 „Arbeit“ ergaben sich folgende Ergebnisse: Datensatz Antwort 87 0 227 5 Für die Frage 13 „Budget“ ergaben sich folgende Ergebnisse: Datensatz 1 2 Vgl. Prof. Dr. Cleve, Data Mining, S.31. Quelle: Knime, 2012 Antwort 9 22 1 64 0 62 110 170 1 0 0 Für die Frage 20 „Fernseher“ ergaben sich folgende Ergebnisse: Datensatz Antwort 161 1 Für die Frage 21 „Spiele“ ergaben sich mit dem KNN – Verfahren folgende Ergebnisse: Datensatz Antwort 104 4 190 0 Die fehlenden Werte wurden nach der Berechnung in die Excel – Daten hinzufügt. 3.2 Apriori - Verfahren Mit Hilfe des Apriori – Verfahrens haben wir versucht Assoziationsregeln zwischen den unterschiedlichen Fragen zu erkennen. Der Aufbau des Apriori – Verfahrens sieht wie folgt aus: Abb. 2: Apriori 3 Der „XLS Reader“ liest die Excel – Datei ein. Durch den „Column Filter“ werden die Spalten isoliert, die für die Betrachtung nicht wichtig sind. Im folgenden Schritt werden 3 Quelle: Knime, 2012 10 dann die Daten mithilfe eines „Number – to – String“ in Zeichenketten umgewandelt. Den Abschluss bildet dann der „Apriori“ – Operator. Zu Beginn haben wir einen minimalen Support zunächst von 50% gewählt. Des Weiteren sollten nur 10 Regeln ausgegeben werden. Ausgegeben wurden folgende Werte: Frage Antwort Anzahl Antworten 3. Geschlecht 0 129 5. Berufsausbildung 1 124 4. Alter 1 6. Erststudium 146 0 10. BafÖg 213 1 11. finanzielle Unterstützung 131 0 16. Studienleistung 141 1 17. Zufriedenheit 130 0 19. Zeitanspruch 140 0 21. Spiele 132 4 23. Sport 152 0 132 Im Folgenden werden diese Daten verwendet um diese Beziehungen zueinander zu ermitteln. Frage 1 Antwort Frage 2 Antwort Anzahl Antworten 3. Geschlecht 0 6. Erststudium 0 121 6. Erststudium 0 10. Bafög 1 118 4. Alter 6. Erststudium 6. Erststudium 6. Erststudium 6. Erststudium 6. Erststudium 1 6. Erststudium 0 11.finanz. Unterstütz. 0 17. Zufriedenheit 0 0 0 16. Studienleistung 19. Zeitanspruch 21. Spiele 0 0 1 0 0 4 135 129 121 126 119 141 11 6. Erststudium 0 23. Sport 0 119 Eigentlich sollten diese Beziehungen ein weiteres Mal in Beziehung zueinander gesetzt werden, jedoch wurden hierfür keine Ergebnisse ausgegeben. Grund hierfür ist, dass der minimale Support von 50 % nicht erreicht worden ist. Ein Heruntersetzen des Supports auf 2% veränderte hierbei auch nichts. Es ergaben sich keine Veränderungen. Die besten 10 Regeln sind hieraus dann Folgende: 1. Wenn 3. Geschlecht = 0 Dann 6. Erststudium = 0 (Conf.= 94%) 3. Wenn 21. Spiele = 4 Dann 6. Erststudium = 0 (Conf.= 93%) 2. Wenn 16. Studienleistung = 1 4. Wenn 4. Alter = 1 5. Wenn 11. Finanz. Unterstütz. = 0 6. Wenn 19. Zeitanspruch Studium = 0 7. Wenn 23. Sport = 0 8. Wenn 10. Bafög = 1 9. Wenn 17. Zufriedenheit = 0 10. Wenn 6. Erststudium = 0 Dann 6. Erststudium = 0 (Conf.= 93%) Dann 6. Erststudium = 0 (Conf.= 92%) Dann 6. Erststudium = 0 (Conf.= 91%) Dann 6. Erststudium = 0 (Conf.= 90%) Dann 6. Erststudium = 0 (Conf.= 90%) Dann 6. Erststudium = 0 (Conf.= 90%) Dann 6. Erststudium = 0 (Conf.= 90%) Dann 21. Spiele = 4 (Conf.= 66%) Im nächsten Versuch wurde die Frage 6. Erststudium herausgenommen und mit einem minimalen Support von 50 % berechnet. Hierbei kam es zu keinerlei Ergebnissen, die erzielt werden konnten. Daraufhin haben wir den minimalen Support auf 20 %. Darauf ergaben sich folgende Regeln: 1. Wenn 16. Studienleistung = 1 Dann 17. Zufriedenheit = 0 (Conf.= 2. Wenn 5. Berufsausbildung = 1 Dann 4. Alter = 1 (Conf.= 81%) 82%) 3. Wenn 3. Geschlecht = 0 4. Wenn 5. Berufsausbildung = 1 (Conf.= 77%) Dann 21. Spiele = 4 (Conf.= 78%) Dann 11. finanzielle Unterstützung = 0 5. Wenn 11. Finanzielle Unterstützung = 0 Dann 4. Alter = 1 (Conf.= 77%) 6. Wenn 10. BAföG = 1 (Conf.= 76%) Dann 11. Finanzielle Unterstützung = 0 12 7. Wenn 17. Zufriedenheit = 0 Dann 16. Studienleistung = 1 (Conf.= 8. Wenn 4. Alter = 1 Dann 11. Finanzielle Unterstützung = 0 9. Wenn 19. Zeitanspruch Studium = 0 Dann 17. Zufriedenheit = 0 (Conf.= 76%) (Conf.= 75%) 74%) 10. Wenn 11. Finanzielle Unterstützung = 0 Dann 10BAföG = 1 (Conf.= 71%) Mit dem Apriori – Verfahren lassen sich Assoziationsregeln ermitteln. Leider ergeben nicht alle der ergebenen Regeln einen Sinn. Eine Zielsetzung kann man dem Apriori – Verfahren leider nicht vorgeben, wie zum Beispiel beim Entscheidungsbaum. Nur über den „Column Filter“ kann man auf die Regeln Einfluss nehmen, indem Spalten herausgenommen werden. Im ersten Versuch wurden alle Spalten betrachtet. Bei der Regelausgabe war die Frage nach dem Erststudium vorherrschend. Dennoch sind auch hierfür sinnvolle Regeln herausgekommen. 1. Wenn das Alter = 1 ist, also zwischen 21 und 25 Jahren, ist es das Erststudium und zuvor wurde kein anderer Studiengang belegt. Hierdurch kann man Erkenntnisse über die Altersstruktur in den einzelnen Studiengängen sammeln. Wie bereits oben im Abschnitt 4. Aufgezeigt, gibt es noch weitere Regeln Im zweiten Versuch haben ich die Frage nach dem Erststudium (Frage 6) im „Column Filter“ rausgenommen, dadurch ergaben sich weitere Regeln, die eine Aussagekraft bezüglich der Zufriedenheit mit den Studienleistungen beinhaltet sowie über finanzielle Mittel Auskunft gibt. Teilweise kam es hierbei dazu, dass Regeln sich im Sinn bestätigten und so mehr oder weniger doppelt genannt wurden. 2. Wenn die Studienleistungen = 1 sind, also gut sind, sind die Studenten auch mit der Studienleistung zufrieden. In Bezug auf bereits abgelegt Berufsausbildungen kann man sagen: 3. Wenn die Berufsausbildung = 1 ist, also keine Berufsausbildung zuvor abgeschlossen wurde, dass das Alter der Studenten im Studium zwischen 21 und 25 Jahren liegt (Alter = 1). Diese Aussage wurde bereits im ersten Versuch ebenfalls gemacht (siehe 1.) 13 Eine weitere, wichtige Aussage wird in Bezug auf das Budget gemacht: 4. Wenn der Student kein BAFöG erhält (BAFöG = 1), dann ist die finanzielle Unterstützung der Eltern gegeben (finanzielle Unterstützung = 0). Wie zu Beginn erwähnt, kam es hierbei dazu, dass eine Regel die andere Regel bestätigte. So bestätigt diese Regel die bereits genannte Regel 2. 5. Wenn du Studenten mit ihrer Leistung im Studium zufrieden sind, dass sie gute Leistungen im Studium erbringen. Weiterhin lässt sich eine Verbindung der beiden Fragen zum Zeitanspruch des Studiums treffen und der Zufriedenheit mit den Studienleistungen: 6. Wenn der Zeitanspruch des Studiums geringer ist als 20 Stunden die Woche inklusive Vorlesungen (Zeitanspruch = 0), sind die Studenten auch mit ihren Studienleistungen zufrieden (Zufriedenheit = 0). Leider kann man beim Apriori – Verfahren nicht mit einem „Scorer“ die Richtigkeit dieser Assoziationsregeln überprüfen. 3.3 Clustering (K – Means) Der k-Means-Algorithmus ist ein Verfahren zur Clusteranalyse. Ziel dieses Verfahrens ist es, ähnliche Merkmale in einer zuvor festgelegten Anzahl von Clustern zusammenzufassen. Bevor mit der Umsetzung des Verfahrens begonnen werden kann muss die Anzahl der Cluster festgelegt werden. Anschließend werden dann im ersten Schritt für jedes Cluster zufällig Centroide gebildet. Die Centroide werden in mehreren Schritten solange neu berechnet, bis sie sich nicht mehr bzw. kaum merkbar verändern. Die Anwendung des Verfahrens ist relativ einfach und schnell. Jedoch gab es bei der Umsetzung unseres Projektes Probleme bei der Bewertung der Ergebnisse. Es wurden 3 Cluster vorab definiert. Die Ergebnisse ergaben allerdings mehr als 3 Cluster. Außerdem beinhalteten die berechneten Vorhersagen eine sehr hohe Fehlerrate (bis zu 100%). Die folgende Abbildung 3 stellt das k-means-Verfahren in Knime dar. Aufgrund der nicht zufriedenstellenden Lösungen wurde dieses Verfahren nicht weiter berücksichtigt. 14 Abb. 3: K-means 4 3.4 Naive Bayes Das Naive Bayes - Verfahren ist ein mathematisches Verfahren zur Klassifizierung. Ziel dieser Methode, ist die Vorhersage der wahrscheinlichsten Klasse. Grundvoraussetzung ist, dass alle Attribute voneinander unabhängig sind. Wie beim A-priori - Verfahren beginnt das Naive Bayes - Verfahren mit den Knoten XLS - Reader, Number - to - String und Column Filter. Der vierte Knoten ist das „Partitioning“. Er stellt zugleich den Beginn des eigentlichen Naive Bayes - Verfahren dar. Bei dem „Partitioning“ werden die Daten in eine Test - und in eine Trainingsmenge unterteilt. Die Testmenge beträgt 20%, die Trainingsmenge 80% der Daten. Der Knoten „Partitioning“ besitzt zwei Verbindungsausgänge. Der Ausgang, der die Trainingsmenge beinhaltet, wird mit dem „Naive Bayes Learner“ verbunden. Die anderen 20% werden direkt mit dem „Naive Bayes Predictor“ verbunden. Knime lernt das Muster der Daten mithilfe des „Naive Bayes Learner“ kennen. Anschließend wendet er die gewonnen Erkenntnisse dann auf die anderen 20% der Daten im „Naive Bayes Predictor“ an. Unter Zuhilfenahme eines Scorers kann dann festgestellt werden, wie die Vorhersage ausgefallen ist (siehe Abbildung 4). 4 Quelle: Knime, 2012 15 Abb. 4: Naive Bayes 5 Um das Verfahren durchführen zu können wird zu Beginn beim „Learner“ das Zielattribut eingestellt. Dies ist im folgenden Beispiel „Zufriedenheit“. Anschließend werden die zu betrachtenden Spalten im „Scorer“ festgelegt. Als first column wird ebenfalls „Zufriedenheit“ und in der second column „Winner“ ausgewählt. Die daraus folgende Confusion Matrix des „Scorers“ sieht wie folgt aus: Abb. 5: Ergebnis-Matrix vom Naive Bayes-Verfahren 6 Die Vorhersagegenauigkeit aller Merkmalsausprägungen beträgt 85,11 %. Die Fehlerrate liegt bei 14,89 %. In diesem Fall sind 24 „Ja´s“ (das entspricht einem Prozentsatz von 96 %) und 16 „Nein´s“ (73 %) korrekt vorhergesagt worden. 3.5 Entscheidungsbaum (Weka J48) Der Aufbau zur Erstellung eines Entscheidungsbaumes sieht wie folgt aus: 5 6 Quelle: Knime, 2012 Quelle: Knime, 2012 16 Abb. 6: Weka J48 7 Zunächst erfolgt der allgemeine Aufbau mit dem „XLS – Reader“, dem „Column Filter“ und dem „Number to String“. Im nächsten Schritt wurde ein „Partitioning“ eingefügt. Dieser trennte die Datenmenge im Verhältnis 80:20. Da für den „Weka Entscheidungsbaum“ nominale Werte gegeben sein müssen, wurde ein „String-to-Number“ eingefügt. Anschließend folgte dann der „J48“ bei der Trainingsmenge. Beide Pfeile, sowohl die Trainings- als auch die Testmenge, gehen dann weiter zum „Weka Predictor“, der durch das Erlernte des „J48“ einen Entscheidungsbaum erstellt, Die Zielstellung wird im „J48“ ausgewählt. Ein „Scorer“ wird anschließend noch angefügt. Dieser dient jedoch nur zur Überprüfung der Ergebnisse des „Weka Predictor“. Bei meiner Untersuchung der Umfrage mit dem Entscheidungsbaum habe ich mich zunächst auf die Frage 26 gestützt, um die Zufriedenheit mit der derzeitigen Lebenssituation zu analysieren. 7 Quelle: Knime, 2012 17 Abb. 7: Weka-Entscheidungsbaum „Zufriedenheit“ 8 Auf Grund der Größe des Entscheidungsbaums werde ich nur im Folgenden ein paar Aussagen aufführen. 1. Wenn der Zeitanspruch des Studiums höher ist als 50 Stunden die Woche, die Befragten mehr als 10 Stunden Fernsehen schauten, kein BAFöG bezogen wurde, die Studenten mit ihrer Lebenssituation eher unzufrieden sind. 2. Wenn der Zeitanspruch des Studiums geringer ist 50 Stunden die Woche, Die Befragten nicht in einer Eigentumswohnung wohnen, es sich um Masterstudenten handelt, die Chancen auf dem Arbeitsmarkt später mindestens gut sind, dann sind die Studenten mit ihrer Lebenssituation zufrieden. 3. Wenn der Zeitanspruch des Studiums geringer ist als 50 Stunden die Woche, sie nicht in einer Eigentumswohnung wohnen, es sich um Bachelor Studenten handelt, die Zufriedenheit mit den Studienleistungen gegeben ist, das Budget bis zu 500 Euro reicht, das Alter unter 25 Jahren liegt, die Arbeitsmarktchancen mindestens gut eingeschätzt werden, dann sind die Befragten mit ihrer Lebenssituation zufrieden. Die Beurteilung durch den “Weka Predictor” sieht wie folgt aus: Evaluation: Correctly Classified Instances Incorrectly Classified Instances Kappa statistic 8 Quelle: Knime, 2012 17 30 36.1702 % 63.8298 % 0.0389 18 Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 0.2576 0.4815 95.573 % 130.6137 % 47 Im Anschluss daran wurde noch die Zufriedenheit mit den Studienleistungen analysiert. Der Entscheidungsbaum sieht dann wie folgt aus: Abb. 8: Weka-Entscheidungsbaum „Studienleistung“ 9 Anhand dieses Entscheidungsbaumes kann man folgende Aussage treffen: 1. Wenn die Studienleistungen „sehr gut“ sind, dann sind die Studenten mit ihrer Studienleistung zufrieden. 2. Wenn die Studienleistungen schlechter sind als „sehr gut“, die Studenten männlich sind, dann sind die Studenten mit ihren Studienleistungen zufrieden. 3. Wenn die Studienleistungen schlechter sind als „sehr gut“, die Studenten weiblich sind, Wismar der Wunschort der Befragten ist, die Studenten im zweiten Semester oder höher sind, sind die Studenten mit ihren Studienleistungen zufrieden. 4. Wenn die Studienleistung schlecht sind als sehr gut, das Geschlecht weiblich ist, Wismar nicht der Wunschort zum Studienort ist, die Wohnfläche geringer ist als 10 Quadratmeter, sind die Studenten nicht mit ihren Studienleistungen zufrieden. Die Beurteilung durch den “Weka Predictor” ergab Folgendes: Evaluation: 9 Quelle: Knime, 2012 19 Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 41 6 87.234 % 12.766 % 0.7394 0.1856 0.3346 38.5582 % 68.1859 % 47 Im Gegensatz zum Vorgänger zeigt sich hier, dass eine deutlich höhere Anzahl der Instanzen korrekt klassifiziert worden sind. Somit ist die Aussagekraft der entstandenen Regeln deutlich besser einzuschätzen. 3.6 Decision Tree Der Aufbau des „Decision Tree“ sieht wie folgt aus: Abb. 9: Decision Tree 10 Der „Decision Tree“ ist zu Beginn ebenso aufgebaut wie der „J48“. Die Daten werden in eine Trainings- und eine Testmenge geteilt. Die Datenmenge wird erneut im Verhältnis 80:20 gewählt. Genauso wie beim „J48“ wird ein „Decision Tree Learner“ zunächst eingesetzt, der mithilfe der Testmenge das Verhalten lernt. Die Testmenge wird direkt mit dem „Decision Tree Predictor“ verbunden. Abschließend wurde ein „Scorer“ zur Überprüfung der Aussagekraft eingefügt. 10 Quelle: Knime, 2012 20 Um einen Vergleich der beiden Entscheidungsbäume zu ziehen, werde ich wieder nach den Zielstellungen „Zufriedenheit“ und „Lebenssituation“ suchen. Die Einstellungen wurden ansonsten wie vorgegebenen beibehalten. Wir werden zunächst auf die Zufriedenheit mit den Studienleistungen eingehen. Die Ausgabe des „Decision Tree Predictor“ sieht wie folgt aus. Abb. 10: Decision Tree Predictor (1) 11 Hier zeigt sich, dass 59,9% der Befragten mit ihrer Studienleistung zufrieden sind. Hiervon zeigt sich, dass 79,2% der Befragten Studenten mit ihren Studienleistungen zufrieden sind, wenn die Studienleistungen als gut bewertet sind. 92 % der Studenten sind zudem im ersten Semester ihres Studiums und zufrieden mit ihrer Studienleistung. Die Einschätzung der Lebenssituation wird als zufrieden beurteilt, zugleich sind dann 93% auch mit ihren Studienleistungen zufrieden. Die Ausgabe des „Scorers“ ergab folgendes Ergebnis: 11 Quelle: Knime, 2012 21 Abb. 11: Decision Tree Predictor (2) 12 Im Vergleich zum „J48“ sind bei dieser Fragestellung zwar weniger Instanzen korrekt klassifiziert, jedoch hat der „Decision Tree“ auch weniger Instanzen ausgewählt. Durch die korrekt, klassifizierten Instanzen lässt sich sagen, dass eine volle Aussagekraft leider nicht gegeben ist, man aber dennoch Aussagen daraus ziehen kann. Bei der Bewertung der Lebenssituation ergab sich folgendes Bild, wobei die vorgegebenen Angaben beibehalten wurden. Abb. 12: Decision Tree Predicator (3) 13 Eine volle Ansicht des „Decision Tree“ kann aufgrund der Größe leider nicht gegeben werden. Es zeigt sich, dass 1. 49,2 % mit ihrer Lebenssituation zufrieden sind 2. 8% mit ihrer Lebenssituation eher unzufrieden sind 3. 27,3 % eher zufrieden sind 4. 3,2 unzufrieden sind und 5. 12,3% sehr zufrieden sind. 12 13 Quelle: Knime, 2012 Quelle: Knime, 2012 22 Fast die Hälfte der Studenten die ihr Erststudium besuchen, sind mit ihrer Lebenssituation zufrieden. Von den Studenten, die ihr Studium als Erststudium machen (169 Studenten), sind 49% der Studenten Studenten. mit ihrer Lebenssituation zufrieden. Dies betrifft insgesamt 83 Von den Studenten, die im Erststudium sich im dritten Semester befinden, liegt die Zufriedenheit bei 46,7 %. Des Weiteren lässt sich sagen, dass 63,6% der Studenten mit ihrer Lebenssituation zufrieden sind, wenn der Zeitaufwand des Studiums zwischen 20 – 30 Stunden liegt. Bei der Bewertung der Lebenssituation ergab sich bei der Bewertung durch den „Scorer“ folgendes Ergebnis: Abb. 13: Confusion-Matrix vom Decision Tree 14 Dieses Ergebnis ist besser als das Ergebnis des „J48“. Eine richtige Aussagekraft lässt sich hieraus jedoch nicht ziehen. 14 Quelle: Knime, 2012 23 4. Fazit Die Daten aus dem Fragebogen aufzubereiten hat den größten Teil der Arbeitszeit in Anspruch genommen. Insbesondere das Zusammenfassen und die Transformation der vorhandenen Daten gestaltete sich als sehr zeitaufwändig. Außerdem mussten mehrere nachträgliche Korrekturen vorgenommen werden. Des Weiteren traten Fehler bei der Umsetzung der verschiedenen Verfahren auf sodass eine beträchtliche Zeit verwendet wurde um Testläufe und Korrekturen der Daten vorzunehmen. Von den eingesetzten Verfahren konnten nicht alle verwertbare Ergebnisse liefern. So konnten der J48 und das K-means Verfahren nur teilweise in unseren Betrachtungen berücksichtigt werden, da dort überwiegend bzw. bei einer Vielzahl von Daten keine zufriedenstellenden Ergebnisse geliefert werden konnten. Gute Lösungen boten vor allem das Apriori und das Naive Bayes Verfahren. Bei dem Apriori Verfahren ist besonders hervorzuheben, dass es relativ einfach und schnell umzusetzen ist. Allerdings traten bei der Bewertung der Ergebnisse Probleme auf wenn alle Spalten betrachtet werden. Das Naive Bayes Verfahren lieferte überwiegend verwertbare Ergebnisse und war relativ schnell durchzuführen. Abschließend ist festzuhalten, dass durch die Anwendung der Verfahren und die Bearbeitung der Daten ein tieferer Einblick in das Data Mining genommen werden konnten. Insbesondere der Einsatz der Software Knime erlaubte uns, dass Projekt relativ anschaulich anzueignen. 24