Data Mining in „KNIME“ - Fakultät für Wirtschaftswissenschaften an

Transcription

Data Mining in „KNIME“ - Fakultät für Wirtschaftswissenschaften an
Fakultät für Wirtschaftswissenschaften
Studiengang Master Digitale Logistik und Management
Seminararbeit
Data Mining in „KNIME“
zur Veranstaltung
„Business Intelligence“
WS 2012/2013
Eingereicht von:
Prüfer:
Christian Ullrich (110173)
Ann – Kathrin Engel (110009)
Prof. Dr. Cleve
1
Inhaltsverzeichnis
I. Abbildungsverzeichnis
3
1. Daten
4
2. Datenvorbereitung
2.1
Frage 2
2.3
Frage 7
2.2
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
Frage 6
Frage 9
Frage 12
Frage 14
Frage 15
Frage 16
Frage 20
Frage 21
Frage 24
Frage 25
3. Methoden und Verfahren
3.1 K-Nearest-Neighbour
3.2 Apriori
3.3 Clustering (K-means)
3.4 Naive Bayes
3.5 Weka J48
3.6 Decision Tree
4. Fazit
4
4
4
5
6
6
7
7
7
8
8
8
8
9
9
10
14
15
16
20
24
2
Abbildungsverzeichnis
Abbildung 1:
Abbildung 2:
Abbildung 3:
Abbildung 4:
Abbildung 5:
Abbildung 6:
Abbildung 7:
Abbildung 8:
Abbildung 9:
Abbildung 10:
Abbildung 11:
Abbildung 12:
Abbildung 13:
KNN
Apriori
9
11
K-means
15
Ergebnis-Matrix von Naive Bayes-Verfahren
17
Naive Bayes
16
Weka J48
17
Weka Entscheidungsbaum „Studienleistung“
19
Decision Tree Predictor (1)
21
Weka Entscheidungsbaum „Zufriedenheit“
Decision Tree
Decision Tree Predictor (2)
Decision Tree Predictor (3)
Confusion-Matrix vom Decision Tree
18
20
21
22
23
3
1. Daten
Für unser Projekt im Modul „Business Intelligence“ haben wir in der Gruppe eine
Umfrage erstellt, die wir im Folgenden versuchen werden zu analysieren.
Diese Umfrage enthält 26 Fragen zu allgemeinen Fragestellungen zum Studium sowie
private Fragen.
Im Stud.ip haben wir den Studenten der Hochschule Wismar die Umfrage zur
Beantwortung zur Verfügung gestellt.
Im Endeffekt haben 234 Studenten an der Umfrage teilgenommen.
2. Datenvorbereitung
Im Folgenden werden wir unser Vorgehen beschreiben, wie wir die Analyse der
Umfrage durchgeführt haben.
Bevor wir die Daten in KNIME eingefügt haben, haben wir sie bearbeitet. Dies haben wir
direkt in Excel durchgeführt. Eine Bearbeitung aller Daten war nicht erforderlich. Wir
werden in den folgenden Kapiteln nur die Fragen aufzeigen, bei denen uns
Besonderheiten aufgefallen sind und die Fragen, die von uns bearbeitet worden sind.
Auch werden wir hier erläutern, wie wir mit Fehlern umgegangen sind.
Zur Bearbeitung der Daten haben wir ein neues Excel Sheet in der Excel Mappe erstellt.
Zusätzlich haben wir zur Vereinfachung und zur Übersicht die Fragen durchnummeriert.
2.1 Frage 2
Die Frage 2 lautete „In welchem Semester bist Du?“. Hierbei kam es zu
Missverständnissen
bei
Hochschulsemesteranzahl
der
Umfrage.
angegeben
Einige
und
der
nicht
Teilnehmer
wie
haben
vorgegeben
ihre
die
Fachsemesteranzahl. Dieses Problem ist bei den Masterstudenten der unterschiedlichen
Studienrichtungen vorgekommen.
Die Daten der DLM Master Studenten konnten wir entsprechend anpassen, so dass wir
die Datensätze Nummer 29, 91, 111, 176 verändert haben. Die anderen Daten konnten
wir leider nicht anpassen.
4
2.2 Frage 6
Diese Frage bestand aus zwei Teilen:
1. Welchen Studiengang hast du vorher belegt?
2. Wenn Nein, welchen Studiengang hast du vorher belegt?
Aus diesen zwei Fragen haben wir eine Frage gemacht, die wie folgt lautet:
Welchen Studiengang hast du vorher belegt?
Teilnehmer, die vorher keinen Studiengang belegt haben, haben diese Fragen mit einer
„0“ beantwortet. Bei den Teilnehmern, die bereits einen Studiengang belegt haben,
wurde der entsprechende Studiengang angegeben.
Leider ist es hierbei auch zu Fehler gekommen, die jedoch handschriftlich korrigiert
werden konnten. Das Masterstudium sollte bei der Frage als Erststudium betrachtet
werden. Dies betraf folgenden Teilnehmer:
Teilnehmer 152
Der Teilnehmer gab an, dass er zuvor ein Wirtschaftsinformatik Bachelor Studium
absolviert hat. Da er in der Umfrage angegeben hat, dass er jetzt im
Wirtschaftsinformatik Master studiert, wurde der Datensatz mit einer Null versehen.
Das vorangegangene Wirtschaftsinformatikstudium wurde gelöscht.
Bei drei Teilnehmer (Datensatz 92, 104, 229) haben zwar geantwortet, dass sie bereits
einen Studiengang vorher belegt haben. Leider keine Angaben dazu gemacht, welchen
Studiengang sie vorher belegt haben. Diese Datensätze haben wir durch den Vermerk
„keine Angabe“ gekennzeichnet.
Des Weiteren ist uns bei der Bearbeitung eine weitere Inkonsistenz aufgefallen. Dies
betrifft den Studiengang Betriebswirtschaft. Teilweise wurde die Frage mit „Bachelor
BW“ oder mit „Betriebswirtschaftslehre“ beantwortet. Leider können wir hier nicht eine
Annahme treffen, um welchen Studiengang es sich tatsächlich handelt. Wir lassen beide
Datensätze in die Umfrage mit eingehen. Denn der Student kann von einer anderen
Hochschule gekommen sein und sein Studium der Betriebswirtschaftslehre dort
absolviert zu haben. Diese betrifft den Datensatz 15.
2.3 Frage 7
Diese Frage drehte sich um die Wahl des Studienortes. Hierbei gab es insgesamt sechs
Antwortmöglichkeiten. Zusätzlich war bei dieser Frage eine Mehrfachantwort möglich.
Diese Frage haben wir gestrichen.
5
2.4 Frage 9
Die Fragestellung bezog sich auf die Arbeitsmarktchancen, die sich nach dem Abschluss
des Studiums ergeben werden. Insgesamt bestand die Frage aus zwei Teilfragen. Diese
Teilfragen
haben
wir
in
Antwortmöglichkeiten waren:
Excel
zu
einer
Frage
zusammengefügt.
Die
sehr gut(0),
gut(1),
okay(2),
mäßig(3),
schlecht(4).
Ergänzt wurde die Antwortmöglichkeit „weiß nicht“. Diese erhielt die Nummer 5.
Zusammengefügt wurden die Fragen durch die WENN Funktion von Excel:
=WENN(R3="";5;R3).
So ist es auch gegeben, dass alle Datensätze Zahlen enthielten und keine leeren Zeilen
vorhanden waren.
2.5 Frage 12
Die Frage 12 bezog sich auf die zusätzlich Arbeit neben dem Studium. Auch diese Frage
bestand zunächst aus zwei Fragen, die wie folgt lauteten:
1. Gehst du zusätzlich arbeiten?
2. Wenn Ja, wie viele Stunden arbeitest du in der Woche?
Wie zuvor haben wir aus diesen beiden Fragen eine Frage formuliert:
Wie viele Stunden gehst du zusätzlich in der Woche arbeiten?
Auch diese Frage haben wir mit der WENN – Funktion von Excel zusammengefügt:
=WENN(W3=1;5;X3)
Die bisherigen Antwortmöglichkeiten wurden durch null Stunden Arbeit (5) ergänzt.
1-5h(0),
6-10h(1),
11-15h(2),
16-20h(3),
21+ h(4),
0 h (5).
Bei der Frage kam es dazu, dass teilweise fehlende oder falsche Angaben gemacht
worden sind. Dies betrifft die Datensätze 87 und 227. Diese haben wir mithilfe des KNN
– Verfahren berechnet. Wir kommen im Folgenden noch darauf zu sprechen.
6
2.6 Frage 14
Die Frage 14 bezog sich darauf in welchen Wohnverhältnissen sich die Studenten
befinden. Hierbei wurden den Befragten folgende Antwortmöglichkeiten gegeben:
1. Eigentumswohnung/-haus
2. Mietwohnung
3. Wohngemeinschaft
4. Studentenwohnheim
5. Eltern
Diese Antwortmöglichkeiten wurden wie folgt zusammengefasst:
1. Eigentumswohnung/-haus
2. Mietwohnung
3. Wohngemeinschaft
4. WG in Mietwohnung
5. Studentenwohnheim
6. Eltern
Die Antwortmöglichkeit „WG in Mietwohnung“ wurde ergänzt, weil es zu
Doppelnennungen
kam
„Wohngemeinschaft“.
bei
den
Antwortmöglichkeiten
Die Doppelnennungen bei den Antwortmöglichkeiten
„Mietwohnung“
und
„Mietwohnung“ und „Eltern“
wurden geändert, so dass nur die Antwortmöglichkeit „Mietwohnung“ vorhanden war.
2.7 Frage 15
Diese Frage bezog sich darauf wie viele Quadratmeter Wohnfläche dem Studenten zur
Verfügung steht. Die Frage wurde ergänzt durch die Antwort 5 „weiß nicht“. Somit
ergaben sich keine fehlenden Antworten.
Die Zusammenführung der Frage erfolgt durch die Wenn – Funktion:
=WENN(AH3="";4;AH3)
2.8 Frage 16
Wie bereits bei Frage 15 wurde bei dieser Frage, bei der es sich um die Einschätzung der
Studienleistung handelt, die Antwortmöglichkeit 5 „weiß nicht“ ergänzt.
Ebenfalls erfolgte die Zusammenführung über die Wenn – Funktion:
=WENN(AK3="";5;AK3)
7
2.9 Frage 20
Die Frage bestand zuvor aus zwei Teilfragen:
1. Besitzt Du einen Fernseher?
2. Wenn Ja, wie viele Stunden schaust Du in der Woche?
Diese Fragen wurden zusammengefasst zu folgender Frage:
1. Wie viele Stunden schaust du Fernsehen in der Woche?
Die Antworten der Studenten mit „1“ (Ich habe keinen Fernseher“) wird so gedeutet,
dass sie null Stunden die Woche fernsehen. Eine fehlerhafte Eingabe war nur bei
Datensatz 161 gegeben. Dieser wurde mit Hilfe des KNN berechnet. Wir kommen in
Abschnitt 4. darauf zu sprechen.
Zusammengefügt wurden die Fragen mithilfe der Excel – Funktion:
=WENN(AQ66=1;0;AR66)
2.10 Frage 21
Ebenso wie die vorangegangene Frage bestand die Frage zunächst aus zwei Teilfragen:
1. Spielst Du Video-/Onlinespiele?
2. Wenn Ja, wie viele Stunden in der Woche?
Aus diesen zwei Teilfragen wurde die Fragestellung:
1. Wie viele Stunden pro Woche Spielst du Online-/Videospiele?
Hierbei musste jedoch die Antwortmöglichkeit 4 (null Stunden) ergänzt werden. Dies
betrifft die Datensätze, die den ersten Frageteil mit „Nein“ beantwortet hat.
Die Wenn – Funktion zum Zusammenfügen der Spalten lauten wie folgt:
=WENN(AT66=1;4;AU66)
2.11 Frage 24
Diese Frage beschäftigt sich damit, wie der Student zur Hochschule kommt. Hierbei gab
es insgesamt sieben Antwortmöglichkeiten. Zusätzlich war bei dieser Frage eine
Mehrfachantwort möglich. Diese Frage haben wir gestrichen.
2.12 Frage 25
Diese Frage drehte sich um die Art der Fortbewegung in Wismar. Hierbei gab es
insgesamt sechs Antwortmöglichkeiten. Zusätzlich war bei dieser Frage eine
Mehrfachantwort möglich. Diese Frage haben wir gestrichen.
8
3. Methoden und Verfahren
3.1 K – Nearest – Neighbour
Wie bereits bei der Datenaufbereitung erwähnt, enthielten Fragen fehlende oder falsche
Antworten. Diese wurden mit Hilfe des KNN Verfahrens berechnet. Unbekannte Objekte
sollen klassifiziert werden, dies erfolgt durch die Ähnlichkeit der Attributwerte zu
bereits gespeicherten Attributwerten. 1 Der Aufbau des KNN sieht wie folgt aus:
Abb. 1: KNN 2
Die Daten wurden mit einem XLS Reader eingelesen. Mit dem Column Filter wurden die
Spalten herausgenommen, die keine Bedeutung hatten für die Bearbeitung. Mit einem
„Number –to-String“ Operator wurden die Spalten, die für unsere Betrachtung wichtig
sind, umgewandelt. Als Nächstes folgte ein „Row Splitter“. Dieser selektierte die Spalte,
in der die fehlenden Werte ermittelt werden sollten. Dies betraf nach Abschluss der
Datenvorbereitung die Frage 12 „Arbeit“, die Frage 13 „Budget“ und die Fragen 20 und
21 „Fernseher“ und „Spiele“. Den Abschluss bildete dann der „K – Nearest – Neighbour“.
Berücksichtigt werden sollten die nächsten acht Nachbarn (k = 8).
Für die Frage 12 „Arbeit“ ergaben sich folgende Ergebnisse:
Datensatz
Antwort
87
0
227
5
Für die Frage 13 „Budget“ ergaben sich folgende Ergebnisse:
Datensatz
1
2
Vgl. Prof. Dr. Cleve, Data Mining, S.31.
Quelle: Knime, 2012
Antwort
9
22
1
64
0
62
110
170
1
0
0
Für die Frage 20 „Fernseher“ ergaben sich folgende Ergebnisse:
Datensatz
Antwort
161
1
Für die Frage 21 „Spiele“ ergaben sich mit dem KNN – Verfahren folgende Ergebnisse:
Datensatz
Antwort
104
4
190
0
Die fehlenden Werte wurden nach der Berechnung in die Excel – Daten hinzufügt.
3.2 Apriori - Verfahren
Mit Hilfe des Apriori – Verfahrens haben wir versucht Assoziationsregeln zwischen den
unterschiedlichen Fragen zu erkennen. Der Aufbau des Apriori – Verfahrens sieht wie
folgt aus:
Abb. 2: Apriori 3
Der „XLS Reader“ liest die Excel – Datei ein. Durch den „Column Filter“ werden die
Spalten isoliert, die für die Betrachtung nicht wichtig sind. Im folgenden Schritt werden
3
Quelle: Knime, 2012
10
dann die Daten mithilfe eines „Number – to – String“ in Zeichenketten umgewandelt.
Den Abschluss bildet dann der „Apriori“ – Operator.
Zu Beginn haben wir einen minimalen Support zunächst von 50% gewählt. Des
Weiteren sollten nur 10 Regeln ausgegeben werden.
Ausgegeben wurden folgende Werte:
Frage
Antwort
Anzahl Antworten
3. Geschlecht
0
129
5. Berufsausbildung
1
124
4. Alter
1
6. Erststudium
146
0
10. BafÖg
213
1
11. finanzielle Unterstützung
131
0
16. Studienleistung
141
1
17. Zufriedenheit
130
0
19. Zeitanspruch
140
0
21. Spiele
132
4
23. Sport
152
0
132
Im Folgenden werden diese Daten verwendet um diese Beziehungen zueinander zu
ermitteln.
Frage 1
Antwort
Frage 2
Antwort
Anzahl
Antworten
3. Geschlecht
0
6. Erststudium
0
121
6. Erststudium
0
10. Bafög
1
118
4. Alter
6. Erststudium
6. Erststudium
6. Erststudium
6. Erststudium
6. Erststudium
1
6. Erststudium
0
11.finanz. Unterstütz.
0
17. Zufriedenheit
0
0
0
16. Studienleistung
19. Zeitanspruch
21. Spiele
0
0
1
0
0
4
135
129
121
126
119
141
11
6. Erststudium
0
23. Sport
0
119
Eigentlich sollten diese Beziehungen ein weiteres Mal in Beziehung zueinander gesetzt
werden, jedoch wurden hierfür keine Ergebnisse ausgegeben. Grund hierfür ist, dass der
minimale Support von 50 % nicht erreicht worden ist. Ein Heruntersetzen des Supports
auf 2% veränderte hierbei auch nichts. Es ergaben sich keine Veränderungen.
Die besten 10 Regeln sind hieraus dann Folgende:
1. Wenn 3. Geschlecht = 0
Dann 6. Erststudium = 0 (Conf.= 94%)
3. Wenn 21. Spiele = 4
Dann 6. Erststudium = 0 (Conf.= 93%)
2. Wenn 16. Studienleistung = 1
4. Wenn 4. Alter = 1
5. Wenn 11. Finanz. Unterstütz. = 0
6. Wenn 19. Zeitanspruch Studium = 0
7. Wenn 23. Sport = 0
8. Wenn 10. Bafög = 1
9. Wenn 17. Zufriedenheit = 0
10. Wenn 6. Erststudium = 0
Dann 6. Erststudium = 0 (Conf.= 93%)
Dann 6. Erststudium = 0 (Conf.= 92%)
Dann 6. Erststudium = 0 (Conf.= 91%)
Dann 6. Erststudium = 0 (Conf.= 90%)
Dann 6. Erststudium = 0 (Conf.= 90%)
Dann 6. Erststudium = 0 (Conf.= 90%)
Dann 6. Erststudium = 0 (Conf.= 90%)
Dann 21. Spiele = 4
(Conf.= 66%)
Im nächsten Versuch wurde die Frage 6. Erststudium herausgenommen und mit einem
minimalen Support von 50 % berechnet. Hierbei kam es zu keinerlei Ergebnissen, die
erzielt werden konnten. Daraufhin haben wir den minimalen Support auf 20 %. Darauf
ergaben sich folgende Regeln:
1. Wenn 16. Studienleistung = 1
Dann 17. Zufriedenheit = 0 (Conf.=
2. Wenn 5. Berufsausbildung = 1
Dann 4. Alter = 1 (Conf.= 81%)
82%)
3. Wenn 3. Geschlecht = 0
4. Wenn 5. Berufsausbildung = 1
(Conf.= 77%)
Dann 21. Spiele = 4 (Conf.= 78%)
Dann 11. finanzielle Unterstützung = 0
5. Wenn 11. Finanzielle Unterstützung = 0 Dann 4. Alter = 1 (Conf.= 77%)
6. Wenn 10. BAföG = 1
(Conf.= 76%)
Dann 11. Finanzielle Unterstützung = 0
12
7. Wenn 17. Zufriedenheit = 0
Dann 16. Studienleistung = 1 (Conf.=
8. Wenn 4. Alter = 1
Dann 11. Finanzielle Unterstützung = 0
9. Wenn 19. Zeitanspruch Studium = 0
Dann 17. Zufriedenheit = 0 (Conf.=
76%)
(Conf.= 75%)
74%)
10. Wenn 11. Finanzielle Unterstützung = 0 Dann 10BAföG = 1 (Conf.= 71%)
Mit dem Apriori – Verfahren lassen sich Assoziationsregeln ermitteln. Leider ergeben
nicht alle der ergebenen Regeln einen Sinn. Eine Zielsetzung kann man dem Apriori –
Verfahren leider nicht vorgeben, wie zum Beispiel beim Entscheidungsbaum. Nur über
den
„Column Filter“ kann man auf die Regeln Einfluss nehmen, indem Spalten
herausgenommen werden.
Im ersten Versuch wurden alle Spalten betrachtet. Bei der Regelausgabe war die Frage
nach dem Erststudium vorherrschend. Dennoch sind auch hierfür sinnvolle Regeln
herausgekommen.
1. Wenn das Alter = 1 ist, also zwischen 21 und 25 Jahren, ist es das Erststudium
und zuvor wurde kein anderer Studiengang belegt.
Hierdurch kann man Erkenntnisse über die Altersstruktur in den einzelnen
Studiengängen sammeln.
Wie bereits oben im Abschnitt 4. Aufgezeigt, gibt es noch weitere Regeln
Im zweiten Versuch haben ich die Frage nach dem Erststudium (Frage 6) im „Column
Filter“ rausgenommen, dadurch ergaben sich weitere Regeln, die eine Aussagekraft
bezüglich der Zufriedenheit mit den Studienleistungen beinhaltet sowie über finanzielle
Mittel Auskunft gibt. Teilweise kam es hierbei dazu, dass Regeln sich im Sinn bestätigten
und so mehr oder weniger doppelt genannt wurden.
2. Wenn die Studienleistungen = 1 sind, also gut sind, sind die Studenten auch mit
der Studienleistung zufrieden.
In Bezug auf bereits abgelegt Berufsausbildungen kann man sagen:
3. Wenn die Berufsausbildung = 1 ist, also keine Berufsausbildung zuvor
abgeschlossen wurde, dass das Alter der Studenten im Studium zwischen 21 und
25 Jahren liegt (Alter = 1).
Diese Aussage wurde bereits im ersten Versuch ebenfalls gemacht (siehe 1.)
13
Eine weitere, wichtige Aussage wird in Bezug auf das Budget gemacht:
4. Wenn der Student kein BAFöG erhält (BAFöG = 1), dann ist die finanzielle
Unterstützung der Eltern gegeben (finanzielle Unterstützung = 0).
Wie zu Beginn erwähnt, kam es hierbei dazu, dass eine Regel die andere Regel
bestätigte. So bestätigt diese Regel die bereits genannte Regel 2.
5. Wenn du Studenten mit ihrer Leistung im Studium zufrieden sind, dass sie gute
Leistungen im Studium erbringen.
Weiterhin lässt sich eine Verbindung der beiden Fragen zum Zeitanspruch des Studiums
treffen und der Zufriedenheit mit den Studienleistungen:
6. Wenn der Zeitanspruch des Studiums geringer ist als 20 Stunden die Woche
inklusive Vorlesungen (Zeitanspruch = 0), sind die Studenten auch mit ihren
Studienleistungen zufrieden (Zufriedenheit = 0).
Leider kann man beim Apriori – Verfahren nicht mit einem „Scorer“ die Richtigkeit
dieser Assoziationsregeln überprüfen.
3.3 Clustering (K – Means)
Der k-Means-Algorithmus ist ein Verfahren zur Clusteranalyse. Ziel dieses Verfahrens ist
es,
ähnliche
Merkmale
in
einer
zuvor
festgelegten
Anzahl
von
Clustern
zusammenzufassen. Bevor mit der Umsetzung des Verfahrens begonnen werden kann
muss die Anzahl der Cluster festgelegt werden. Anschließend werden dann im ersten
Schritt für jedes Cluster zufällig Centroide gebildet. Die Centroide werden in mehreren
Schritten solange neu berechnet, bis sie sich nicht mehr bzw. kaum merkbar verändern.
Die Anwendung des Verfahrens ist relativ einfach und schnell. Jedoch gab es bei der
Umsetzung unseres Projektes Probleme bei der Bewertung der Ergebnisse. Es wurden 3
Cluster vorab definiert. Die Ergebnisse ergaben allerdings mehr als 3 Cluster. Außerdem
beinhalteten die berechneten Vorhersagen eine sehr hohe Fehlerrate (bis zu 100%).
Die folgende Abbildung 3 stellt das k-means-Verfahren in Knime dar. Aufgrund der nicht
zufriedenstellenden Lösungen wurde dieses Verfahren nicht weiter berücksichtigt.
14
Abb. 3: K-means 4
3.4 Naive Bayes
Das Naive Bayes - Verfahren ist ein mathematisches Verfahren zur Klassifizierung. Ziel
dieser Methode, ist die Vorhersage der wahrscheinlichsten Klasse. Grundvoraussetzung
ist, dass alle Attribute voneinander unabhängig sind.
Wie beim A-priori - Verfahren beginnt das Naive Bayes - Verfahren mit den Knoten XLS -
Reader, Number - to - String und Column Filter. Der vierte Knoten ist das „Partitioning“.
Er stellt zugleich den Beginn des eigentlichen Naive Bayes - Verfahren dar. Bei dem
„Partitioning“ werden die Daten in eine Test - und in eine Trainingsmenge unterteilt. Die
Testmenge beträgt 20%, die Trainingsmenge 80% der Daten. Der Knoten „Partitioning“
besitzt zwei Verbindungsausgänge. Der Ausgang, der die Trainingsmenge beinhaltet,
wird mit dem „Naive Bayes Learner“ verbunden. Die anderen 20% werden direkt mit
dem „Naive Bayes Predictor“ verbunden. Knime lernt das Muster der Daten mithilfe des
„Naive Bayes Learner“ kennen. Anschließend wendet er die gewonnen Erkenntnisse
dann auf die anderen 20% der Daten im „Naive Bayes Predictor“ an. Unter Zuhilfenahme
eines Scorers kann dann festgestellt werden, wie die Vorhersage ausgefallen ist (siehe
Abbildung 4).
4
Quelle: Knime, 2012
15
Abb. 4: Naive Bayes 5
Um das Verfahren durchführen zu können wird zu Beginn beim „Learner“ das
Zielattribut eingestellt. Dies ist im folgenden Beispiel „Zufriedenheit“. Anschließend
werden die zu betrachtenden Spalten im „Scorer“ festgelegt. Als first column wird
ebenfalls „Zufriedenheit“ und in der second column „Winner“ ausgewählt. Die daraus
folgende Confusion Matrix des „Scorers“ sieht wie folgt aus:
Abb. 5: Ergebnis-Matrix vom Naive Bayes-Verfahren 6
Die Vorhersagegenauigkeit aller Merkmalsausprägungen beträgt 85,11 %. Die
Fehlerrate liegt bei 14,89 %. In diesem Fall sind 24 „Ja´s“ (das entspricht einem
Prozentsatz von 96 %) und 16 „Nein´s“ (73 %) korrekt vorhergesagt worden.
3.5 Entscheidungsbaum (Weka J48)
Der Aufbau zur Erstellung eines Entscheidungsbaumes sieht wie folgt aus:
5
6
Quelle: Knime, 2012
Quelle: Knime, 2012
16
Abb. 6: Weka J48 7
Zunächst erfolgt der allgemeine Aufbau mit dem „XLS – Reader“, dem „Column Filter“
und dem „Number to String“.
Im nächsten Schritt wurde ein „Partitioning“ eingefügt. Dieser trennte die Datenmenge
im Verhältnis 80:20. Da für den „Weka Entscheidungsbaum“ nominale Werte gegeben
sein müssen, wurde ein „String-to-Number“ eingefügt. Anschließend folgte dann der
„J48“ bei der Trainingsmenge.
Beide Pfeile, sowohl die Trainings- als auch die Testmenge, gehen dann weiter zum
„Weka Predictor“, der durch das Erlernte des „J48“ einen Entscheidungsbaum erstellt,
Die Zielstellung wird im „J48“ ausgewählt. Ein „Scorer“ wird anschließend noch
angefügt. Dieser dient jedoch nur zur Überprüfung der Ergebnisse des „Weka Predictor“.
Bei meiner Untersuchung der Umfrage mit dem Entscheidungsbaum habe ich mich
zunächst auf die Frage 26 gestützt, um die Zufriedenheit mit der derzeitigen
Lebenssituation zu analysieren.
7
Quelle: Knime, 2012
17
Abb. 7: Weka-Entscheidungsbaum „Zufriedenheit“ 8
Auf Grund der Größe des Entscheidungsbaums werde ich nur im Folgenden ein paar
Aussagen aufführen.
1. Wenn der Zeitanspruch des Studiums höher ist als 50 Stunden die Woche,
die Befragten mehr als 10 Stunden Fernsehen schauten,
kein BAFöG bezogen wurde,
die Studenten mit ihrer Lebenssituation eher unzufrieden sind.
2. Wenn der Zeitanspruch des Studiums geringer ist 50 Stunden die Woche,
Die Befragten nicht in einer Eigentumswohnung wohnen,
es sich um Masterstudenten handelt,
die Chancen auf dem Arbeitsmarkt später mindestens gut sind,
dann sind die Studenten mit ihrer Lebenssituation zufrieden.
3. Wenn der Zeitanspruch des Studiums geringer ist als 50 Stunden die Woche,
sie nicht in einer Eigentumswohnung wohnen,
es sich um Bachelor Studenten handelt,
die Zufriedenheit mit den Studienleistungen gegeben ist,
das Budget bis zu 500 Euro reicht,
das Alter unter 25 Jahren liegt,
die Arbeitsmarktchancen mindestens gut eingeschätzt werden,
dann sind die Befragten mit ihrer Lebenssituation zufrieden.
Die Beurteilung durch den “Weka Predictor” sieht wie folgt aus:
Evaluation:
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
8
Quelle: Knime, 2012
17
30
36.1702 %
63.8298 %
0.0389
18
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
0.2576
0.4815
95.573 %
130.6137 %
47
Im Anschluss daran wurde noch die Zufriedenheit mit den Studienleistungen analysiert.
Der Entscheidungsbaum sieht dann wie folgt aus:
Abb. 8: Weka-Entscheidungsbaum „Studienleistung“ 9
Anhand dieses Entscheidungsbaumes kann man folgende Aussage treffen:
1. Wenn die Studienleistungen „sehr gut“ sind, dann sind die Studenten mit ihrer
Studienleistung zufrieden.
2. Wenn die Studienleistungen schlechter sind als „sehr gut“,
die Studenten männlich sind, dann sind die Studenten mit ihren
Studienleistungen zufrieden.
3. Wenn die Studienleistungen schlechter sind als „sehr gut“,
die Studenten weiblich sind,
Wismar der Wunschort der Befragten ist,
die Studenten im zweiten Semester oder höher sind,
sind die Studenten mit ihren Studienleistungen zufrieden.
4. Wenn die Studienleistung schlecht sind als sehr gut,
das Geschlecht weiblich ist,
Wismar nicht der Wunschort zum Studienort ist,
die Wohnfläche geringer ist als 10 Quadratmeter,
sind die Studenten nicht mit ihren Studienleistungen zufrieden.
Die Beurteilung durch den “Weka Predictor” ergab Folgendes:
Evaluation:
9
Quelle: Knime, 2012
19
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
41
6
87.234 %
12.766 %
0.7394
0.1856
0.3346
38.5582 %
68.1859 %
47
Im Gegensatz zum Vorgänger zeigt sich hier, dass eine deutlich höhere Anzahl der
Instanzen korrekt klassifiziert worden sind. Somit ist die Aussagekraft der entstandenen
Regeln deutlich besser einzuschätzen.
3.6 Decision Tree
Der Aufbau des „Decision Tree“ sieht wie folgt aus:
Abb. 9: Decision Tree 10
Der „Decision Tree“ ist zu Beginn ebenso aufgebaut wie der „J48“. Die Daten werden in
eine Trainings- und eine Testmenge geteilt. Die Datenmenge wird erneut im Verhältnis
80:20 gewählt. Genauso wie beim „J48“ wird ein „Decision Tree Learner“ zunächst
eingesetzt, der mithilfe der Testmenge das Verhalten lernt. Die Testmenge wird direkt
mit dem „Decision Tree Predictor“ verbunden. Abschließend wurde ein „Scorer“ zur
Überprüfung der Aussagekraft eingefügt.
10
Quelle: Knime, 2012
20
Um einen Vergleich der beiden Entscheidungsbäume zu ziehen, werde ich wieder nach
den Zielstellungen „Zufriedenheit“ und „Lebenssituation“ suchen. Die Einstellungen
wurden ansonsten wie vorgegebenen beibehalten.
Wir werden zunächst auf die Zufriedenheit mit den Studienleistungen eingehen.
Die Ausgabe des „Decision Tree Predictor“ sieht wie folgt aus.
Abb. 10: Decision Tree Predictor (1) 11
Hier zeigt sich, dass 59,9% der Befragten mit ihrer Studienleistung zufrieden sind.
Hiervon zeigt sich, dass 79,2% der Befragten Studenten mit ihren Studienleistungen
zufrieden sind, wenn die Studienleistungen als gut bewertet sind.
92 % der Studenten sind zudem im ersten Semester ihres Studiums und zufrieden mit
ihrer Studienleistung.
Die Einschätzung der Lebenssituation wird als zufrieden beurteilt, zugleich sind dann
93% auch mit ihren Studienleistungen zufrieden.
Die Ausgabe des „Scorers“ ergab folgendes Ergebnis:
11
Quelle: Knime, 2012
21
Abb. 11: Decision Tree Predictor (2) 12
Im Vergleich zum „J48“ sind bei dieser Fragestellung zwar weniger Instanzen korrekt
klassifiziert, jedoch hat der „Decision Tree“ auch weniger Instanzen ausgewählt.
Durch die korrekt, klassifizierten Instanzen lässt sich sagen, dass eine volle Aussagekraft
leider nicht gegeben ist, man aber dennoch Aussagen daraus ziehen kann.
Bei der Bewertung der Lebenssituation ergab sich folgendes Bild, wobei die
vorgegebenen Angaben beibehalten wurden.
Abb. 12: Decision Tree Predicator (3) 13
Eine volle Ansicht des „Decision Tree“ kann aufgrund der Größe leider nicht gegeben
werden.
Es zeigt sich, dass
1. 49,2 % mit ihrer Lebenssituation zufrieden sind
2. 8% mit ihrer Lebenssituation eher unzufrieden sind
3. 27,3 % eher zufrieden sind
4. 3,2 unzufrieden sind und
5. 12,3% sehr zufrieden sind.
12
13
Quelle: Knime, 2012
Quelle: Knime, 2012
22
Fast die Hälfte der Studenten die ihr Erststudium besuchen, sind mit ihrer
Lebenssituation zufrieden.
Von den Studenten, die ihr Studium als Erststudium machen (169 Studenten), sind 49%
der Studenten
Studenten.
mit ihrer Lebenssituation zufrieden. Dies betrifft insgesamt 83
Von den Studenten, die im Erststudium sich im dritten Semester befinden, liegt die
Zufriedenheit bei 46,7 %.
Des Weiteren lässt sich sagen, dass 63,6% der Studenten mit ihrer Lebenssituation
zufrieden sind, wenn der Zeitaufwand des Studiums zwischen 20 – 30 Stunden liegt.
Bei der Bewertung der Lebenssituation ergab sich bei der Bewertung durch den „Scorer“
folgendes Ergebnis:
Abb. 13: Confusion-Matrix vom Decision Tree 14
Dieses Ergebnis ist besser als das Ergebnis des „J48“. Eine richtige Aussagekraft lässt
sich hieraus jedoch nicht ziehen.
14
Quelle: Knime, 2012
23
4. Fazit
Die Daten aus dem Fragebogen aufzubereiten hat den größten Teil der Arbeitszeit in
Anspruch genommen. Insbesondere das Zusammenfassen und die Transformation der
vorhandenen Daten gestaltete sich als sehr zeitaufwändig. Außerdem mussten mehrere
nachträgliche Korrekturen vorgenommen werden. Des Weiteren traten Fehler bei der
Umsetzung der verschiedenen Verfahren auf sodass eine beträchtliche Zeit verwendet
wurde um Testläufe und Korrekturen der Daten vorzunehmen.
Von den eingesetzten Verfahren konnten nicht alle verwertbare Ergebnisse liefern. So
konnten der J48 und das K-means Verfahren nur teilweise in unseren Betrachtungen
berücksichtigt werden, da dort überwiegend bzw. bei einer Vielzahl von Daten keine
zufriedenstellenden Ergebnisse geliefert werden konnten.
Gute Lösungen boten vor allem das Apriori und das Naive Bayes Verfahren. Bei dem
Apriori Verfahren ist besonders hervorzuheben, dass es relativ einfach und schnell
umzusetzen ist. Allerdings traten bei der Bewertung der Ergebnisse Probleme auf wenn
alle Spalten betrachtet werden. Das Naive Bayes Verfahren lieferte überwiegend
verwertbare Ergebnisse und war relativ schnell durchzuführen.
Abschließend ist festzuhalten, dass durch die Anwendung der Verfahren und die
Bearbeitung der Daten ein tieferer Einblick in das Data Mining genommen werden
konnten. Insbesondere der Einsatz der Software Knime erlaubte uns, dass Projekt
relativ anschaulich anzueignen.
24