j an
Transcription
j an
Statistik I (B) Universität Mannheim Lehrstuhl für Statistik Toni Stocker FSS 2007 Foliensymbolik ... Beginn eines neuen Kapitels (Folienkopf) Übung ... Aufgaben für die Übungen R Programmcode 2 Einführung 3 Organisatorisches Materialien und Literatur Termine und Zeiten Zur Übungsgruppeneinteilung Prüfungsmodalitäten Organisatorisches 4 Materialien und Literatur Lehrmaterialien Folien (integrativ): Vorlesung + Übungen Teilweise zusätzliche Übungsmaterialien in den Übungen Folien i.d.R. wochenweise vor der Vorlesung (Freitag?) Zu finden unter: => http://www.vwl.uni-mannheim.de/mammen/index.html => Veranstaltungen => Link unter Statistik I (B) Organisatorisches – Materialien und Literatur 5 Materialien und Literatur Literaturempfehlungen Fahrmeir, Künstler, Pigeot, Tutz: Statistik – Der Weg zur Datenanalyse, 5. Auflage; Berlin, Heidelberg: Springer, 2004. Schira: Statistische Methoden in der VWL und BWL; München: Pearson Studium, 2003. Weiter(führend)e Literatur: Fahrmeir, u.a. : Arbeitsbuch Statistik, 4. Auflage; Berlin, Heidelberg: Springer, 2005. Bamberg, Baur: Statistik, 12 Auflage; München, Wien: Oldenbourg, 2002. Bamberg, Baur: Statistik - Arbeitsbuch, 7. Auflage; München, Wien: Oldenbourg, 2004. Hartung, Elpelt, Klösener: Statistik – Lehr- und Handbuch der angewandten Statistik, 13. Auflage; München, Wien: Oldenbourg, 2002. Organisatorisches – Materialien und Literatur 6 Materialien und Literatur Software Die statistische Software R kann unter http://www.r-project.org/ frei heruntergeladen werden. Dort findet sich auch ein gutes Benutzerhandbuch. Jegliche Inhalte der Vorlesung mit Bezug auf „R“ sind nicht prüfungsrelevant! Ein kurzes Beispiel: Im folgenden wird die Summe der Zahlen 1.6, 4.0, 8.2, 12.7 und 16.3 berechnet. Programmcode: x=c(1.6,4.0,8.2,12.7,16.3) sum(x) Organisatorisches – Materialien und Literatur 7 Termine und Zeiten Vorlesung Tag Zeit Raum Dozent Montag 10:15-11:45 M 003 Toni Stocker Dienstag 13:45-15:15 M 003 Toni Stocker Kontakt: Sprechstunde: Di, 15:30-17:00 Uhr Raum: L7, 3-5, Zi. 143 Telefon: 0621-181-1930 Email: stocker@rumms.uni-mannheim.de Organisatorisches – Termine und Zeiten 8 Termine und Zeiten Übungen Tag Zeit Raum Übungsleiter Montag 08:30-10:00 15:30-17:00 17:15-18:45 17:15-18:45 L9, 1-2, 003 L9, 1-2, 009 L9, 1-2, 009 L9, 1-2, 003 Frederic Damköhler Stefanie Hirsch Stefanie Hirsch Alexander Hillert Mittwoch 10:15-11:45 12:00-13:30 12:00-13:30 L9, 1-2, 003 L7, 3-5, P043 L9, 1-2, 003 Cornelius Goldkamp Cornelius Goldkamp Alexander Hillert Donnerstag 08:30-10:00 08:30-10:00 12:00-13:30 L7, 3-5, P043 L9, 1-2, 003 L9, 1-2, 003 Thomas Fix Frederic Damköhler Thomas Fix Freitag 08:30-10:00 10:15-11:45 L9, 1-2, 003 L9, 1-2, 003 Frederic Junker Frederic Junker Organisatorisches – Termine und Zeiten 9 Termine und Zeiten Kontakt Übungsleiter Email Frederic Damköhler Stefanie Hirsch Alexander Hillert Cornelius Goldkamp Thomas Fix Frederic Junker fdamkoeh@rumms.uni-mannheim.de sthirsch@rumms.uni-mannheim.de ahillert@rumms.uni-mannheim.de cgoldkam@rumms.uni-mannheim.de tfix@rumms.uni-mannheim.de fjtut@web.de Die Abgabe von bearbeiteten Aufgaben erfolgt via Email an die jeweiligen Übungsleiter. Die Lösung sollte als Textdatei (.doc, .txt) im Emailanhang eingereicht werden. Organisatorisches – Termine und Zeiten 10 Übungsgruppeneinteilung Online: => http://www.vwl.uni-mannheim.de/mammen/index.html => Veranstaltungen => Link unter Statistik I (B) Benutzername: statistik01 Passwort: statistik1_ss Beachten Sie die Kleinschreibung! Die Freischaltung des Passwortes erfolgt am 19.02. gegen 18 Uhr. Die Eintragung in eine Übungsgruppe ist absolut notwendig! Organisatorisches - Übungsgruppeneinteilung 11 Prüfungsmodalitäten Prüfungsleistung: 80% Klausur + 20% Übungsaufgaben im Sinne der Gesamtpunktezahl zur Berechnung der Prüfungsnote. Klausur: 3 Stunden, reine MC-Klausur (ohne Taschenrechner) Beispiel: Punktezahl Klausur: 60 (von max. 80) Übungen: 17 (von max. 20) Gesamt: 77 (von max. 100) => Der Prüfungsnote werden 77 Punkte (von 100) zugrunde gelegt. Genauere Hinweise zur Bewertung der Übungsaufgaben erfolgen in den Übungen. Organisatorisches - Prüfungsmodalitäten 12 Einführung in die Statistik Was versteht man unter Statistik? Inhaltlicher Überblick Statistische Grundbegriffe Einführung in die Statistik 13 Was versteht man unter Statistik? Begriff und Definition Herkunft: neulateinisch „status“ (Staat, Zustand) „Lehre von der Zustandsbeschreibung des Staates“ Brauchbare Definition für unsere Zwecke: Definition: Statistik ist die Wissenschaft von der Erhebung, Aufbereitung, Darstellung, Analyse und Interpretation von Daten. Daten Welche Schlüsse Befragung, Zählung, Ordnen, tabellieren, Mittelwerte berechnen, können gezogen Experiment, ... grafisch darstellen, ... werden? => Stichprobe Einführung in die Statistik - Was versteht man unter Statistik? 14 Was versteht man unter Statistik? Stichprobentheorie Beschreibende Statistik (Erhebungstechniken) (Deskriptive Statistik) ein weni g ... Inhalte von ... Statistik I mittels statistischer Methodik Schließende Statistik (Induktive Statistik) Statistik II Statistische Methodik speziell in ... Ökonometrie Das „Wesentliche“ der Statistik spielt Multivariate Statistik ... sich hier ab. ... und allgemeiner im Rahmen vieler Realwissenschaften Zeitreihenanalyse Biometrie, Psychometrie, Technometrie, Agrarwissenschaften, ... Einführung in die Statistik - Was versteht man unter Statistik? 15 Was versteht man unter Statistik? Ein Beispiel (konstruiert) Ein Marktforschungsinstituts möchte mittels Telefonumfrage (Zufallsauswahl/Stichprobe) untersuchen, wie viel Prozent aller Deutschen mindestens ein Handy besitzen. Einer ein Jahr alten Untersuchung zufolge soll der Anteil bei etwa 67% liegen. Es interessiert nun auch die Frage, ob der Anteil gestiegen ist. Auswertung der Befragung Telefonbefragung (Stichprobe) Beantwortung der beiden Untersuchungsziele aufgrund der vorliegenden Daten Einführung in die Statistik - Was versteht man unter Statistik? 16 Was versteht man unter Statistik? „Wie viele Handys besitzen Sie?“ „Richtige“ Erhebung wird vom Untersuchungsziel bestimmt Mögliche Probleme: Wie viele Leute sollen befragt (angerufen) werden? Aus welcher Menge und wie soll die Zufallsauswahl erfolgen? Was ist mit Handybesitzern ohne Telefonanschluss? Problem der Nichtbeantwortung Problem unpräziser (nicht verwertbarer) Antworten Präzision der Frage ... Einführung in die Statistik - Was versteht man unter Statistik? 17 Was versteht man unter Statistik? Handy kein Handy „Richtige“ Aufbereitung und Darstellung wird von Erhebung und Untersuchungsziel bestimmt. Mögliche Probleme: Handy kein Handy Auszählung: Ermittlung einer Anzahl von „Besitzern“ und „Nichtbesitzern“ Wahl einer geeigneten (grafischen) Darstellung Nichtbeantwortung (wurden diese erfasst?) Unpräzise (nicht verwertbare) Antworten (falls diese noch ersichtlich sind) ... Einführung in die Statistik - Was versteht man unter Statistik? 18 Was versteht man unter Statistik? Resultat könnte z.B. lauten: Relativer Anteil der Handybesitzer unter 500 Befragten beträgt 69%. „Richtige“ Analyse und Interpretation setzt Kenntnis des ganzen Prozesses voraus. Mögliche Probleme: Stichprobe kann stets zufällig zu „falschen“ Resultaten führen War Stichprobe groß genug? Wie groß ist die Aussagekraft (Zuverlässigkeit) der Ergebnisse? Ist die Handyquote nun gestiegen oder nicht? Schätz- bzw. Testproblem Wie kann das Ergebnis der Untersuchung sachgerecht wiedergegeben werden? ... Einführung in die Statistik - Was versteht man unter Statistik? 19 Was versteht man unter Statistik? Statistik als Wissenschaft Schätzen (Punkt- und Konfidenzschätzung) Testen Übersichten von Daten Tabellen Grafiken Komprimierung Maßzahlen ... Explorative Datenanalyse (=> Data Mining) gelegentlich als eigenständiges Gebiet Wichtiges Grundlagenfach: Wahrscheinlichkeitsrechnung (Wahrscheinlichkeitstheorie, Stochastik) „Elementare Wahrscheinlichkeitsrechnung“ Teil 2 von Statistik I Einführung in die Statistik - Was versteht man unter Statistik? 20 Inhaltlicher Überblick Statistik im Bachelorstudium Statistik I: Deskriptive Statistik Elementare Wahrscheinlichkeitsrechnung Deskriptive Statistik Statistische Grundbegriffe Deskription univariater Daten Statistik II: Elementare Stichprobentheorie Induktive Statistik (Schätzen und Testen) ... Deskription multivariater Daten Indizes Elementare Wahrscheinlichkeitsrechnung Grundlagen der Ökonometrie Rechnen mit einfachem Mengenkalkül weiterführend/aufbauend: Eindimensionale Verteilungen Mehrdimensionale Verteilungen Ökonometrie Zeitreihenanalyse Exkurs zur schließenden Statistik Multivariate Statistik ... Einführung in die Statistik - Inhaltlicher Überblick 21 Statistische Grundbegriffe Statistische Einheiten und Gesamtheiten Definition: Objekte, deren Merkmale in einer gegebenen Fragestellung von Interesse sind und im Rahmen einer empirischen Untersuchung erhoben, also beobachtet, erfragt oder gemessen werden sollen, werden als statistische Einheiten (SE) oder Merkmalsträger bezeichnet. Die Menge aller für eine Fragestellung relevanten statistischen Einheiten wird als Grundgesamtheit (GG) bezeichnet. Die möglichen Werte (Kategorien), die ein Merkmal annehmen kann, heißen Merkmalsausprägungen. Notwendig: Definition und Abgrenzung der statistischen Einheiten durch Identifikationskriterien (zeitlich, räumlich, sachlich). Typisch für statistische Untersuchungen: Nicht Untersuchung der ganzen Grundgesamtheit (Totalerhebung), sondern Beschränkung auf eine Teilmenge (Teilgesamtheit) => Teilerhebung, Stichprobe Problem der „Repräsentativität“ i.d.R. Zufallsmechanismus im Spiel Einführung in die Statistik - Statistische Grundbegriffe 22 Statistische Grundbegriffe Merkmalstypen Qualitative Merkmale vs. Quantitative Merkmale Merkmalsausprägungen Merkmalsausprägungen sind sind „artmäßig“ Zahlen Alter, Geschlecht, Personen im Haushalt, Religionszugehörigkeit, Einkommen, Status (verheiratet, ledig, ...), z.B. Anzahl der Handys, Handy (Ja/Nein), ... ... Quantitative Merkmale Diskrete Merkmale vs. Stetige Merkmale Endlich oder abzählbar unendlich viele verschiedene Merkmalsausprägungen Personen im Haushalt, quasistetig Alter in Jahren, Einkommen, ... Können in einem Intervall theoretisch jeden reellen Wert als Ausprägung annehmen Alter, Körpergröße, ... Einführung in die Statistik - Statistische Grundbegriffe 23 Statistische Grundbegriffe Skalierungsarten Kardinal skalierte Merkmale (auch metrisch skaliert) => i.d.R. quantitative Merkmale Abstände zwischen Ausprägungen sind sinnvoll interpretierbar Ordinal skalierte Merkmale Unter Merkmalsausprägungen gibt es natürliche Rangordnung, Abstände können nicht sinnvoll interpretiert werden; z.B. Schulnoten, sozialer Status, Tabellenplatz (Bundesliga), ... Nominal skalierte Merkmale Ausprägungen sind Namen oder Kategorien, zwischen Ausprägungen kann nur Gleichheit oder Ungleichheit festgestellt werden; z.B. Farbe, Fahrzeugmarke, Studiengang, Geschlecht, ... Beachte: Merkmal Geschlecht codiert: männlich = 1, weiblich = 0 Signierung (weiterhin nominal skaliert) Einführung in die Statistik - Statistische Grundbegriffe 24 Statistische Grundbegriffe => Übungen Eine Firma interessiert sich im Rahmen der Planung von Parkplätzen und dem Einsatz von firmeneigenen Bussen dafür, in welcher Entfernung ihre Beschäftigten von der Arbeitsstätte wohnen und mit welchen Beförderungsmitteln die Arbeitsstätte überwiegend erreicht wird. Sie greift dazu auf eine Untersuchung zurück, die zur Erfassung der wirtschaftlichen Lage der Mitarbeiterinnen und Mitarbeiter durchgeführt wurde. Bei der Untersuchung wurden an einem Stichtag 50 Beschäftigte ausgewählt und zu folgenden Punkten befragt: - Haushaltsgröße (Anzahl der im Haushalt lebenden Personen), - monatliche Miete, - Beförderungsmittel, mit dem die Arbeitsstätte überwiegend erreicht wird, - Entfernung zwischen Wohnung und Arbeitsstätte, - eigene Einschätzung der wirtschaftlichen Lage mit 1=sehr gut, ..., 5=sehr schlecht. a) Geben Sie die Grundgesamtheit und die Untersuchungseinheiten an. b) Welche Ausprägungen besitzen die erhobenen Merkmale, und welches Skalenniveau liegt ihnen zugrunde? Einführung in die Statistik - Statistische Grundbegriffe 25 Teil 1: Deskriptive Statistik 26 Univariate Deskription und Exploration von Daten Verteilungen und ihre Darstellungen Maßzahlen zur Beschreibung von Verteilungen Dichtekurven und Normalverteilung* * kann auch entfallen je nach Zeit Univariate Deskription und Exploration von Daten 27 Verteilungen und ihre Darstellungen Häufigkeiten Ausgangssituation: Stichprobe aus Grundgesamtheit mit Merkmal X Beispiel 1: X ... Anzahl der Personen in einem Haushalt Stichprobe vom Umfang n (=8) Grundgesamtheit 1 1 ... 1 1 2 3 1 2 3 4 1 4 Beobachtungswerte 1 3 2 1 2 3 des Merkmals X x1 =1 x2 = 1 x3 = 4 x4 = 3 x5 = 2 x6 =1 x7 = 2 x8 = 3 3 1 1 2 3 1 Urliste (Rohdaten) Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 28 Verteilungen und ihre Darstellungen Absolute und relative Häufigkeiten bei Urliste n a1, a2,K , ak Stichprobenumfang n (aj ) = nj Mögliche Ausprägungen eines Merkmals Absolute Häufigkeit der Ausprägung a j f (aj ) = f j Relative Häufigkeit der Ausprägung a j n1, n2,K , nk Absolute Häufigkeitsverteilung f1, f2,K , fk Relative Häufigkeitsverteilung bei mindestens ordinaler Skalierung: i.d.R. geordnet a1 p a2 pKp ak Beachte: Im Allgemeinen sollte n j > 0 sein. Klar: f j = n j / n. Beispiel 1 fortgesetzt: Urliste: x1 =1, x2 = 1, x3 = 4, x4 = 3, x5 = 2, x6 =1, x7 = 2, x8 = 3. korrespondiert hier nur zufällig! Relative Häufigkeitsverteilung: f1 = 0.375, f2 = 0.25, f3 = 0.25, f4 = 0.125 Ausprägungen: a1 = 1, a2 = 2 , a3 = 3 , a4 = 4 Absolute Häufigkeitsverteilung: n1 = 3, n2 = 2, n3 = 2, n4 = 1 Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 29 Verteilungen und ihre Darstellungen Beispiel 1: Tabellarische Aufbereitung j aj nj fj 1 2 3 4 1 2 3 4 3 2 2 1 0.375 0.25 0.25 0.125 8 1 ∑ … bei dieser Gelegenheit: 4 ∑n j =1 j = n1 + n 2 + n 3 + n 4 4 ∑ j =1 = 3+ 2 + 2 +1 =8 f j = f1 + f 2 + f 3 + f 4 = 0 . 375 + 0 . 25 + 0 . 25 + 0 . 125 =1 k Allgemein gilt: ∑n j =1 j = n1 + K + n k = n , k ∑ j =1 f j = f1 + K + f k = 1 Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 30 Verteilungen und ihre Darstellungen Übung: Rechnen mit Häufigkeiten (und Summenzeichen) Ein Schreibwarenhändler verkauft Aktenordner in verschiedenen Farben. In einer Woche führt er eine Strichliste zur Anzahl der verkauften Ordner einer bestimmten Farbe. Tag schwarz rot grün gelb blau verkauft Definiere nun für die Ausprägungen des Merkmals „Farbe“: a 2 = „rot“ , a 3 = „grün“ , a 5 = „blau“ . a1 = „schwarz“ , a 4 = „gelb“ , Berechnen Sie die folgenden Ausdrücke: 5 5 (i) ∑n j =1 j 3 (v) ∑n j =1 1 , (iii) n , (ii) ∑ j =1 5 ∑ j =1 nj n 4 , (iv) ∑ j=2 f j, 5 j ∑n j =1 j Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 31 Verteilungen und ihre Darstellungen => Übungen Vervollständigen Sie nachstehende Tabelle und berechnen Sie anschließend die Ausdrücke (i) bis (x). xj yj xjyj j 10 4 27 48 11 1 2 3 4 5 ∑ 4 (i) (v) 4 ∑x ∑ (x + y ) (ii) j t =1 5 j =1 (viii) 50 6 66 50 ∑x j =1 5 17 10 j j 5 t (iii) j =1 5 (vi) 5 ∑x j =1 2 xj ∑x (ix) 4 j − ∑ xj ∑x ∑y j j =1 5 5 i =1 j =1 (iv) j =1 5 j =1 ∑∑xx i j j ∑ (2 x 5 j =1 5 (vii) ∑x j =1 5 j j + 5) yj ⎛ ⎞ (x ) ⎜⎜ ∑ x j ⎟⎟ ⎝ j =1 ⎠ 2 Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 32 Verteilungen und ihre Darstellungen Beispiel 2: Nettomieten von n = 26 Wohnungen Daten: 77.31, 104.14, 132.24, 158.91, 163.17, 166.48, 170.04, 181.98, 183.09, 200.84, 210.55, 227.91, 243.44, 255.75, 261.98, 263.21, 269.84, 276.60, 281.21, 311.87, 343.30, 359.17, 361.60, 362.00, 400.05, 533.92. Tabellarische Aufbereitung mit Klassenbildung n~j j Klasse (cj−1, cj ] 1 2 3 4 5 6 (0, 100] (100, 200] (200, 300] (300, 400] (400, 500] (500, 600] 1 8 10 5 1 1 sinnvoll ~ fj Beachte hier: n (a j ) = 1, 0.038 0.308 0.385 0.192 0.038 0.038 Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen j = 1, K , 26 => k = n 33 Verteilungen und ihre Darstellungen Absolute und relative Häufigkeiten bei Klassenbildung cj−1 Linke Klassengrenze der j-ten Klasse cj n~ Rechte Klassengrenze der j-ten Klasse j Absolute Häufigkeit der Werte in j-ter Klasse ~ fj Relative Häufigkeit der Werte in j-ter Klasse Beachte: ~ ~ Im Allgemeinen sollte n j > 0 sein. Klar: f j = n~ j / n. Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 34 Wozu Grafiken? 35 Verteilungen und ihre Darstellungen Grafische Darstellungen Beispiel 1: Elementargrafiken für Personenanzahl in Haushalten Stabdiagramm, falls Säule schmal für nominal, ordinal und quantitativ diskrete Merkmale geeignet; auch relative Darstellung möglich. Optimale Darstellung? Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 36 Verteilungen und ihre Darstellungen Programmcode: > pie(c("1"=3,"2"=2,"3"=2,"4"=1),main="Kreisdiagramm") > barplot(c("1"=3,"2"=2,"3"=2,"4"=1),ylab="Absolute Häufigkeit",xlab="Anzahl von Personen im Haushalt",main="Säulendiagramm") > barplot(c("1"=3,"2"=2,"3"=2,"4"=1),horiz=T, xlab="Absolute Häufigkeit",ylab="Anzahl von Personen im Haushalt",main="Balkendiagramm") Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 37 Verteilungen und ihre Darstellungen Säulen, Balken- und Kreisdiagramm Säulendiagramm: Trage über a1 , K , a k jeweils eine zur x-Achse senkrechte Säule mit Höhe n1 , K , n k oder f 1 , K , f k ab. Balkendiagramm: Wie Säulendiagramm, aber mit horizontal gelegter x-Achse. Kreisdiagramm: Flächen der Kreissektoren proportional zu den Häufigkeiten. Winkel des j-ten Kreissektors: α j = f j ⋅ 360 o Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 38 Verteilungen und ihre Darstellungen Beispiel 2: Stamm-Blatt-Diagramm für Nettomieten The decimal point is 2 digit(s) to the right of the | 0|8 1 | 03 1 | 667788 2 | 0134 2 | 666788 3 | 14 3 | 666 4|0 4| 5|3 Urliste: (50, 100] (100, 150] (150, 200] 13. Beobachtungswert (350, 400] für metrisch skalierte Merkmale geeignet; Stichprobenumfang sollte nicht zu groß sein. 77.31, 104.14, 132.24, 158.91,..., 243.44,..., 533.92 13. Beobachtungswert Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 39 Verteilungen und ihre Darstellungen ... alternativ mit kleinerer „Klassenbreite“ The decimal point is 2 digit(s) to the right of the | (0, 100] 0|8 (100, 200] 1 | 03667788 2 | 0134666788 3 | 14666 13. Beobachtungswert 4|0 5|3 Urliste: 77.31, 104.14, 132.24, 158.91,..., 243.44,..., 533.92 13. Beobachtungswert Optimale Darstellung? Optimale Klassenbreite? Denkt Software mit? Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 40 Verteilungen und ihre Darstellungen Programmcode: > x=c(77.31,104.14,132.24,158.91,...,243.44,...,533.92) > stem(x) 2. Darstellung mit kleinerer > stem(x,scale=0.5) Klassenbreite Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 41 Was ist eine gute grafische Darstellung? 42 Verteilungen und ihre Darstellungen Stamm-Blatt-Diagramm 1. Teile den Datenbereich in Intervalle gleicher Breite ein. Trage die erste(n) Ziffer(n) der Werte im jeweiligen Intervall links von einer senkrechten Linie der Größe nach geordnet ein. Dies ergibt den Stamm. 2. Runde die beobachteten Werte auf die Stelle, die nach den Ziffern des Stamms kommt. Die resultierenden Ziffern ergeben die Blätter. Diese werden zeilenweise und der Größe nach geordnet rechts vom Stamm eingetragen. Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 43 Verteilungen und ihre Darstellungen Beispiel 2: Histogramm (Häufigkeitsdichte) für Nettomieten mit 6 Klassen 100 j 0.385 0.385/100 = 0.00385 1 2 3 4 5 6 (cj−1, cj ] ~ fj (0, 100] (100, 200] (200, 300] (300, 400] (400, 500] (500, 600] 0.038 0.308 0.385 0.192 0.038 0.038 „Häufigkeitsdichte“: 0.385% pro Einheit Beachte: Gesamtfläche = 1 Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 44 Verteilungen und ihre Darstellungen Beispiel 2: Arbeitstabelle für Histogramm mit 6 Klassen ~ ~ (c , c ] d n~ j f f /d j −1 1 2 3 4 5 6 j (0, 100] (100, 200] (200, 300] (300, 400] (400, 500] (500, 600] j j j 100 100 100 100 100 100 1 8 10 5 1 1 0.038 0.308 0.385 0.192 0.038 0.038 j j 0.00038 0.00308 0.00385 0.00192 0.00038 0.00038 Arbeitstabelle für Histogramm mit 3 Klassen (Variante 1) ~ ~ dj n~j (cj−1, cj ] j fj f j / dj 1 2 3 (0, 200] (200, 400] (400, 600] 200 200 200 9 15 2 0.346 0.577 0.077 0.001730 0.002885 0.000385 Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 45 Verteilungen und ihre Darstellungen Arbeitstabelle für Histogramm mit 3 Klassen (Variante 2) ~ ~ dj n~j (cj−1, cj ] j f j / dj fj 1 2 3 (0, 100] (100, 400] (400, 600] 100 300 200 1 23 2 0.038 0.885 0.077 0.000380 0.002950 0.000385 ~ fj ~ f j / dj Übung: Ergänzen Sie die folgende Arbeitstabelle Arbeitstabelle für Histogramm mit 2 Klassen dj n~j (cj−1, cj ] j 1 2 (0, 300] (300, 600] Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 46 Verteilungen und ihre Darstellungen Optimale Darstellung? Optimale Klasseneinteilung? Denkt Software mit? Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 47 Verteilungen und ihre Darstellungen Programmcode: > hist(x,prob=T,xlab="Nettomiete in Euro", ylab="Häufigkeitsdichte",main="Histogramm mit 6 Klassen") > hist(x,prob=T,breaks=c(0,200,400,600),xlab="Nettomiete in Euro",ylab="Häufigkeitsdichte", main="1. Histogramm mit 3 Klassen") > hist(x,prob=T,breaks=c(0,100,400,600),xlab="Nettomiete in Euro",ylab="Häufigkeitsdichte", main="2. Histogramm mit 3 Klassen") > hist(x,prob=T,breaks=c(0,300,600),xlab="Nettomiete in Euro",ylab="Häufigkeitsdichte", main="Histogramm mit 2 Klassen") Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 48 Verteilungen und ihre Darstellungen Beachte: Histogramme insbesondere geeignet für metrisch skalierte, stetige Merkmale. Vorteilhaft gegenüber Stamm-Blatt-Darstellung bei sehr vielen Beobachtungswerten. Voreinstellung von R (bevorzugte Variante) Histogramm Zeichne über den Klasssen (c0, c1],K , (ck−1, ck ] oder [c0, c1),K ,[ck−1, ck ) Rechtecke mit Breite: d j = cj − cj−1 ~ ~ gleich (oder proportional zu) f j / d j bzw. nj / d j ~ ~ Fläche: gleich (oder proportional zu) f j bzw. nj Höhe: Bevorzugte Variante: Vorlesungsstandard! Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 49 Verteilungen und ihre Darstellungen => Übungen Aufgabe 1 Gegeben seien die folgenden 8 Beobachtungswerte: 4, 3, 2, 5, 10, 7, 5 und 20. Die Verteilung der Werte soll durch ein Histogramm dargestellt werden. R F Die Häufigkeitsdichte eines jeden Histogramms an der Stelle 0 ist gleich 0. Falls als Klassengrenzen 1, 6, 11 und 21 (3 Klassen) gewählt werden ist der Wert der Häufigkeitsdichte an der Stelle 2 gleich 0.125. Die Fläche der 3. Histogrammsäule ist gleich 20/56. Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 50 0.3 0.2 Häufigkeitsdichte 0.4 0.5 Verteilungen und ihre Darstellungen Das dargestellte Histogramm 0.0 0.1 Aufgabe 2 -1 R F 0 1 2 3 x könnte von den Werten -0.5, 0.8, 1.2 und 2.8 erzeugt sein, enthält mehr Werte in der 2. Klasse als in der 1. Klasse, lässt darauf schließen, dass genau die Hälfte aller Beobachtungswerte größer 1 ist. Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen 51