Kapitel 4 Konzentrationsmaße
Transcription
Kapitel 4 Konzentrationsmaße
Kapitel 4 Konzentrationsmaße Warum reicht die Varianz nicht zur Konzentrationsmessung aus? Betrachtet man die Merkmale XA ( Einkommen in Land A“) und XB ( Einkommen in ” ” Land B“) mit folgender Häufigkeitsverteilung Land A aj fj 10 0.1 100 0.9 j 1 2 j 1 2 Land B aj fj 10 0.9 100 0.1 so gilt s̃2XA = s̃2XB , obwohl die Verteilungen ganz unterschiedlich sind. 6 A 6 r r B r Arm r Reich Arm Reich In Land A haben Wenige ein geringes Einkommen, während in Land B Viele ein geringes Einkommen haben. • Gleicher Wert der Varianz / Streuung, aber ganz unterschiedliches Streuverhalten“. ” • Die üblichen Streuungsmaße messen symmetrisch die Variabilität um das Zentrum (arithmetisches Mittel, Median). Überschreiten und Unterschreiten des Mittelwerts werden also gleich gewichtet, geben aber keine Auskunft über die Gleichmäßigkeit der Verteilung bzw. über die sog. Konzentration. • Grundfrage der Konzentrationsmessung: Wie verteilt sich die Gesamtsumme (etwa das Vermögen) unter den einzelnen Einheiten? Beispiel: Welchen Anteil am Gesamtvermögen haben die Reichsten? Durchgängige Annahmen in diesem Kapitel: • X sei ein verhältnisskaliertes Merkmal mit Urliste x1 , . . . , xn . 55 56 4.1. Relative Konzentrationsmessung • xi ≥ 0, für alle i = 1, . . . , n und n X xi > 0 (d.h mindestens ein Wert ist von Null i=1 verschieden). • Betrachtet werden die der Größe nach geordneten Daten: x(1) ≤ x(2) ≤ . . . ≤ x(n) • Achtung: Die Klammern im Index werden in der Literatur oft weggelassen (z.B in Fahrmeir et al., 2007). Dann muss man vor dem Anwenden der dortigen Formeln die Daten ordnen. Später wird allerdings, wenn auf die Ausprägungen a1 , . . . , ak übergegangen wird, angenommen, dass a1 < a2 < . . . < ak gilt, dass also diese Ausprägungen bereits geordnet sind. 4.1 Relative Konzentrationsmessung 4.1.1 Lorenzkurve • Erste und bekannteste Form der Konzentrationsmessung. • Bezeichne mit j n den Anteil der j kleinsten Merkmalsträger und mit uj := j X x(i) i=1 n X vj := j X = xi i=1 i=1 n X x(i) x(i) i=1 den anteiligen Beitrag dieser Einheiten ( kumulierte relative Merkmalssumme“) zur ” Gesamtsumme n n X X xi = x(i) . i=1 i=1 • Die stückweise lineare Kurve durch die Punkte (0, 0), (u1 , v1 ), (u2 , v2 ), . . ., (un , vn ) = (1, 1), heißt Lorenzkurve. ´´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ 1 Kapitel 4. Konzentrationsmaße 57 Interpretation der Lorenzkurve: • Der Punkt (uj , vj ) bedeutet: Die uj · 100% Einheiten mit den kleinsten Ausprägungen (z.B. die 90% Ärmsten) haben vj · 100% des Gesamtbestandes (z.B. 8.25% des Gesamtvermögens). • Wie liegen die Punkte bei minimaler Konzentration? (Konzentration=0, entspricht gleichmäßiger Verteilung) 10% 20% kleinste haben 10% ” ” 20% usw. Es gilt also uj = vj für alle j, d.h. die Punkte (uj , vj ) liegen auf der Winkelhalbierenden. • Die Lorenzkurve ist nach unten gewölbt“ (konvexe Funktion). Punkte oberhalb der ” Winkelhalbierenden kommen nicht vor. • Ähnlich überlegt man sich: die Kurve muss monoton wachsend sein. Gegenbeispiel: z.B. Punkte (0.6,0.8) und (0.7,0.7) würden bedeuten: die 60% Ärmsten haben 80% des Vermögens aber die 70% Ärmsten haben nur 70% des Vermögens. • Extremfall: vollständige Konzentration n − 1 Personen haben gar nichts n-te Person hat alles 1 * © ©© ¥ © ¥ ©© ¥ © ¥ ©© © ¥ © ¥ ©© © ¥ © © •¥ n−1 n 1 • Konzentration 0 bedeutet gleichmässige Verteilung“ in dem Sinne, dass jede Einheit ” denselben Wert bzw. denselben Anteil an der Gesamtsumme hat. Dies bedeutet x1 = x2 = . . . = xn und damit hj∗ = n bzw. fj∗ = 1 für eine bestimmte Ausprägung aj∗ = x1 . Dies ist zu unterscheiden von der sog. Gleichverteilung der Häufigkeiten. Dort ist h1 = h2 = . . . = hk , also jede Ausprägung aj gleich häufig vertreten. r alle denselben Wert, Konzentration 0 jeder Wert gleich häufig • • • • • 58 4.1. Relative Konzentrationsmessung • Je weiter die Kurve von der Winkelhalbierenden entfernt ist, also je tiefer ceteris paribus vj ist, umso stärker ist die Konzentration. • Insbesondere bei größeren Datensätzen vereinfacht sich die Berechnung wesentlich, wenn man die relativen/absoluten Häufigkeiten f1 , . . . , fk bzw. h1 , . . . , hk der der Größe nach geordneten Merkmalsausprägungen a1 < a2 < . . . < ak benutzt. Dann ist für j = 1, . . . , k j j X hl X uj = = fl = F (aj ) n l=1 l=1 und j X vj = l=1 k X j X hl · al = hl · al l=1 l=1 k X fl · al = fl · al partielles arith. Mittel über die ersten j . x̄ l=1 • Ist bei klassierten Daten mit den Klassen [c0 , c1 ), [c1 , c2 ), . . . , [ck−1 , ck ] die Merkmalsverteilung in den Klassen nicht bekannt, so nimmt man wie bei den Berechnungen zum arithmetischen Mittel als Approximation an, dass alle Ausprägungen in dieser Klasse auf die Klassenmitte ml = cl−12+cl fallen und erhält: j X vj = hl · ml l=1 k X . hl · ml l=1 (untere Abschätzung: in jeweiliger Klasse keine Konzentration). • Während normalerweise bei Lorenzkurven nur die Punkte (0, 0), (u1 , v1 ), . . . interpretierbar sind, sind bei klassierten Daten auch die linearen Zwischenstücke interpretierbar. Berechnung der Lorenzkurve im Beispiel: j X l aA l flA j X flA = uj flA aA l l=1 1 2 10 100 0.1 0.9 j X flA aA l l=1 0.1 1 0.1 · 10 = 1 0.9 · 100 = 90 1 91 l=1 k X l=1 1 91 fl · al = vjA fl · al = 0.0109 1 Kapitel 4. Konzentrationsmaße l aB l flB 1 2 10 100 0.9 0.1 j X l=1 59 flB = uj j X flB aB l 0.9 1 0.9 · 10 = 9 0.1 · 100 = 10 ´ l=1 ´ ´ flB aB l 9 19 vjB 9 19 = 0.47 1 ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ 4.1.2 1 Gini-Koeffizient Will man die Konzentration durch eine einzige Maßzahl beschreiben, so liegt es nahe, die Fläche zwischen der Winkelhalbierenden und der Kurve heranzuziehen. Definition: Gegeben sei die geordnete Urliste x(1) , x(2) , . . . , x(n) eines verhältnisskalierten Merkmals X. Dann heißt P 2· ni=1 i· x(i) n + 1 P G := − n ni=1 xi n Gini-Koeffizient und G∗ := n ·G n−1 normierter Gini-Koeffizient (Lorenz-Münzner-Koeffizient). Bemerkungen: • Man kann zeigen (Herleitung über Trapezformel, z.B. Toutenburg, 2006): Es gilt G = Fläche zwischen Winkelhalbierender und Lorenzkurve Fläche zwischen Winkelhalbierender und Abszisse = 2 · Fläche zwischen Winkelhalbierender und Lorenzkurve • Es gilt bei minimaler Konzentration G = 0 und bei maximaler Konzentration G = n−1 . n • Damit ist also G∗ = 0 bei minimaler Konzentration und G∗ = 1 bei maximaler ≈ 1, also G∗ ≈ G. Konzentration. Ist n sehr groß, so gilt n−1 n 60 4.1. Relative Konzentrationsmessung • Betrachtet man die geordneten Ausprägungen a1 < a2 < . . . < ak mit den Häufigkeiten h1 , h2 , . . . , hk , so gilt k X (ul−1 + ul )hl · al k X (ul−1 + ul )fl · al G= l=1 k X −1= l=1 k X fl · a l l=1 −1 hl · al l=1 mit j 1X uj = hl n l=1 und u0 := 0. Beispiel: l Land I: al fl ul fl · a l j X j X fl al l=1 k X fj aj 1 2 0.5 0.5 1 1 1 10 2 18 0.5 1 9 10 1 l Land II: al fl ul fl · al j X j X fl al l=1 k X fl al fl al 1 10 0.9 0.9 9 9 1 2 2 90 0.1 1 9 18 1 l=1 (ul−1 + ul )fl al Pk l=1 fl al −1 Die Formel Pk G= vereinfacht sich hier zu G= (0 + u1 ) · f1 · a1 + (u1 + u2 ) · f2 · a2 −1 f1 · a1 + f2 · a2 und man erhält für Land I: 0.5 · 0.5 · 2 + (0.5 + 1) · 0.5 · 18 −1 0.5 · 2 + 0.5 · 18 = 1.4 - 1 = 0.4 G = fl al Kapitel 4. Konzentrationsmaße 61 Land II: G 0.9 · 0.9 · 10 + (0.9 + 1) · 0.1 · 90 −1 0.9 · 10 + 0.1 · 90 = 1.4 - 1 = 0.4 = Alternativ kann man direkt mit den Flächen rechnen: G = 2 · Fläche zwischen Winkelhalbierender und Lorenzkurve. Land I: Berechne zunächst die Fläche unter der Lorenzkurve: 0.5·0.1 2 + 0.5 · 0.1 + 0.9·0.5 = 0.3 2 ¡1 ¢ ⇒ G = 2 · 2 − 0.3 = 0.4 Analog für Land II: 0.9·0.5 2 + 0.1 · 0.5 + 0.1·0.5 2 = 0.3 ⇒ G = 2 · ( 12 − 0.3) = 0.4 Wie man sieht, können unterschiedliche Situationen zu demselben Gini-Index führen. ⇒ auch Lorenzkurven betrachten! 4.1.3 Quantilsbezogene relative Konzentrationsmessung Oft werden Daten quantilsbezogen vergröbert bzw. zusammengefasst und auch nur die entsprechenden Anteile der Merkmalssumme in den Quantilen angegeben. Beispiel: Einkommenskonzentration in Brasilien Quintile der Bevölkerung: Prozent des Einkommens: 20% 2.5 z1 40% 4.9 z2 60% 9.2 z3 80% 18.3 z4 100% 65.2 z5 (Summe Prozent > 100 wegen Rundung) Für α, 2α, 3α, . . . (α = 0.2 im Beispiel) erhält man die zugehörigen v-Werte“ der Lorenz” kurve v1 , v2 , v3 , . . ., durch jα·n X x(i) X i=1 = zj vj = n X l≤j x(i) i=1 Also im Beispiel: u1 u2 u3 u4 u5 = α = 0.2 = 2α = 0.4 = 3α = 0.6 = 4α = 0.8 = 5α = 1 v1 v2 v3 v4 v5 = z1 = z1 + z2 = 2.5% + 4.9% = z1 + z2 + z3 = z1 + z2 + z3 + z4 = z1 + z2 + z3 + z4 + z5 = 2.5% = 7.4% = 16.6% = 34.9% ≈ 100% 62 4.1. Relative Konzentrationsmessung Damit lässt sich die Lorenzkurve an den Punkten (α, v1 ), (2α, v2 ),. . . darstellen. Berechnung des Gini-Koeffizienten: Beim Gini-Koeffizienten muss man sich mit einer Zusatzannahme behelfen: Wenn im jeweiligen Quantil alle Einkommen gleich sind, so hat man Häufigkeitsdaten mit den Ausprägungen a1 , a2 , . . . , ak vorliegen, d.h. al ist der Wert im l-ten Quantil und man erhält k X G = (ul−1 + ul )fl · al l=1 k X −1 fl · al l=1 k X = (ul−1 + ul ) · l=1 fl k X · al −1 fl · al l=1 à l ! X (ul−1 + ul ) · zl − 1 = l=1 Dieser so berechnete Wert von G ist eine untere Schranke für das wahre G! (insb. Verlauf im letzten Quantil verschleiert!) Zurück zum Beispiel Brasilien: G ≈ = k X (ul−1 + ul ) · zl − 1 l=1 (0 + 0.2) · 0.025 + (0.2 + 0.4) · 0.049+ + (0.4 + 0.6) · 0.092+ + (0.6 + 0.8) · 0.183+ + (0.8 + 1) · 0.652 − 1 = 0.5562 Weitere Gini-Koeffizienten: China 0.3460 Deutschland 0.3034 Finnland 0.2460 Kann es wirklich sein, dass die Einkommenskonzentration in Deutschland ungefähr diesselbe ist wie in Niger? Ja, denn betrachtet wird hier nur die Verteilung der Gesamtsumme und keine absoluten Werte. 4.1.4 Weitere relative Konzentrationsmaße Insbesondere basierend auf der natürlichen, äquidistanten Einteilung“ mit Hilfe von ” Quantilen lassen sich weitere relative Konzentrationsmaße definieren: Kapitel 4. Konzentrationsmaße 63 Robin-Hood-Index (Wagschal, 1999, S.135ff) • Idee: Wieviel müsste den Reichen weggenommen werden, um zu einer Konzentration von 0 zu kommen? • Ermittle jeweils für jedes j für das j · α-Quantil den Abstand seines Anteils zu α. • Aufaddieren der positiven Abstände liefert den Robin-Hood-Index. Dieser Anteil müsste verteilt werden, um zu einer gleichen Verteilung zu kommen! • Grafische Bestimmung des Robin-Hood-Indexes ⇒ Wagschal (1999, S.132). Quantilverhältnisse • Bilde das Verhältnis von (1 − α)- und α-Quantil, zum Beispiel: x0.9 Dezilverhältnis (falls x0.1 > 0). x0.1 • Interpretation am Beispiel des Einkommensvergleichs: Um welchen Faktor ist der Besitz der 10% Reichsten größer als der Besitz der 10% Ärmsten. • Minimale Konzentration erhält man, wenn alle Beobachtungen in einem Punkt zusammenfallen. Dann gilt beispielsweise x0.1 = x0.9 und damit Dezilverhältnis = 1. • Vorsicht: Ist das Dezilverhältnis = 1, so folgt nicht automatisch, dass minimale Konzentration vorliegt. Beispiel: 99% besitzen praktisch gar nichts, 1% fast alles, dann ist das Dezilverhältnis auch 1. Problematisch bei der Betrachtung extremer Ungleichheit, beispielsweise für Einkommen in Entwicklungsländern. • Für die Einkommensverhältnisse in OECD-Ländern dagegen sehr anschauliches Maß. Beispiel: Dezilverhältnisse des Einkommens von Vollbeschäftigten im internationalen Vergleich (Wagschal, 1999, S.138) Norwegen Schweden Dänemark Belgien Finnland Deutschland Niederlande Schweiz Australien 4.2 1.98 2.13 2.17 2.25 2.29 2.32 2.59 2.71 2.79 Italien Neuseeland Japan Frankreich Großbritannien Österreich Kanada Portugal USA 2.80 3.04 3.04 3.26 3.33 3.58 4.02 4.05 4.16 Absolute Konzentrationsmessung • Alle bisherigen Maße betrachteten die relative Konzentration: Sowohl die uj als auch die vj waren Anteile. 64 4.2. Absolute Konzentrationsmessung • Zu unterscheiden davon ist die absolute Konzentration, die die absolute Zahl der Merkmalsträger miteinbezieht. • Beispiel Duopolsituation (Markt mit nur zwei Anbietern): Haben beide denselben Umsatz, so ist die relative Konzentration 0, es liegt aber eine sehr starke absolute Konzentration vor. • Es ist jeweils inhaltlich zu entscheiden, welche der beiden Arten von Konzentration von Interesse ist. • Relative Konzentrationsmessung ist heranzuziehen, wenn – die Merkmalssumme auf sehr viele Einheiten verteilt wird, oder – bei der Frage: Herrscht im Markt ein Übergewicht? • Absolute Konzentrationsmaße werden v.a. dann verwendet, wenn die Merkmalsumme nur auf wenige Einheiten aufgeteilt wird. Konzentrationsrate Naheliegende Idee zur Messung absoluter Konzentration: Betrachte den Anteil, der auf die größten g Einheiten entfällt (nicht auf die größten g% Einheiten). Definition: Sei 0 P ≤ x(1) ≤ x(2) ≤ . . . ≤ x(n) die geordnete Urliste eines verhältnisskalierten Merkmals mit ni=1 xi > 0. Mit p(i) := x(i) n X xj j=1 heißt CRg := n X p(i) i=n−g+1 Konzentrationsrate vom Grad g. • Bestandteile der Formel: – p(i) Anteil der i-ten Beobachtung am gesamten Vermögen/Markt/etc. – Summiert werden die Indizes n − g + 1, n − g + 2, ..., n, also in der Tat über die g Einheiten mit den größten Ausprägungen. • Maximale Konzentration: CR1 = 1 (die größte Beobachtung hat alles). Kapitel 4. Konzentrationsmaße 65 • Minimale Konzentration: x(1) = x(2) = . . . = x(n) =: x . Dann gilt p(i) = x(i) n X = xi x n·x i=1 und damit CRg = n X p(i) = i=n−g+1 g n • Wahl von g? Typischerweise klein“: 2 oder 3 ” Beispiel: Zweitstimmenanteile politischer Parteien bei Bundestagswahlen 1949–2005 (Waagschal, 1999, S.142) 1949 1953 1965 1972 1983 1994 2002 2005 CDU/CSU 31,0% 45,2% 47,6% 44,9% 48,8% 41,5% 38,5% 35,2% SPD 29,2% 28,8% 39,3% 45,8% 38,2% 36,4% 38,5% 34,2% FDP 11,9% 9,5% 9,5% 8,4% 7,0% 6,9% 7,4% 9,8% Grüne - 5,6% 7,3% 8,6% 8,1% Sonstige 27,9% 16,5% 3,6% 0,9% 0,4% 7,9% 7,0% 12,7% Es ergeben sich folgende Konzentrationsraten für das Parteiensystem der Bundesrepublik Deutschland für die untersuchten Jahre: CR2 (1949) CR2 (1953) CR2 (1965) CR2 (1972) CR2 (1983) CR2 (1994) CR2 (2002) CR2 (2005) = = = = = = = = (31,0+29,2)/100 = 0,602 (45,2+28,8)/100 = 0,740 (47,6+39,3)/100 = 0,869 0,907 0,870 0,779 0,770 0,694 CR3 (1949) CR3 (1953) CR3 (1965) CR3 (1972) CR3 (1983) CR3 (1994) CR3 (2002) CR3 (2005) = = = = = = = = (31,0+29,2+11,9)/100 = 0,721 (45,2+28,8+9,5)/100 = 0,835 (47,6+39,3+9,5)/100 = 0,964 0,991 0,940 0,852 0,856 0,792 Herfindahl-Index: Die Konzentrationsrate berücksichtigt nur die g größten Werte. Will man dies nicht, so empfiehlt sich der sogenannte Herfindahl-Index. 66 4.2. Absolute Konzentrationsmessung Definition: Sei 0 P ≤ x(1) ≤ x(2) ≤ . . . ≤ x(n) die geordnete Urliste eines verhältnisskalierten Merkmals mit ni=1 xi > 0. Mit p(i) := x(i) n X xj j=1 heißt H := n X p2(i) = i=1 n X p2i i=1 Herfindahl -Index (wobei die Reihenfolge keine Rolle spielt, wenn alle Merkmalsträger in die Berechnung eingehen). Die Größe 1 − H wird auch als Rae-Index bezeichnet. Eigenschaften : • H liegt zwischen 1 n und 1. • Minimale Konzentration ergibt sich bei p(i) = n1 : H= n µ ¶2 X 1 i=1 n =n· 1 1 = 2 n n • Maximale Konzentration ergibt sich bei p(n) = 1 und p(i) = 0 für alle restlichen i. H = 1. • In der Tat wird die absolute Konzentration gemessen: Hat man q Einheiten mit jeweils gleichen Anteilen, so gilt: q=1 q=2 q=3 H=1 H = ( 12 )2 + ( 12 )2 = 12 H = ( 13 )2 + ( 13 )2 + ( 13 )2 = 1 3 während für den Gini-Koeffizienten immer G = 0 gilt. Beispiel: Herfindahl- und Rae-Index des deutschen Parteienwesens (2005). p(i) CDU/CSU 35,2% SPD 34,2% FDP 9.8% Grüne 8.1% Linkspartei 8.7% Sonstige (als eine Partei) 4,0% H = 0.2662 ⇐⇒ p2(i) 0.1239 0.1169 0.9604 0.6561 0.7569 0.1600 RAE = 0.7398 Kapitel 4. Konzentrationsmaße 67 Beispiel: Durchschnittliche Fraktionalisierung von Parteiensystemen (Waagschal, 1999, S. 145). Land USA Österreich Großbritannien Deutschland Schweiz Italien Frankreich Niederlande Finnland durchschnittlicher Rae-Index 1945-93 0.53 0.60 0.62 0.64 0.71 0.75 0.79 0.79 0.82 Kapitel 5 Analyse von Zusammenhängen 5.1 Multivariate Merkmale Gerade in der Soziologie ist die Analyse eindimensionaler Merkmale nur der allererste Schritt zur Beschreibung der Daten. Meist ist die Analyse von Zusammenhängen zwischen Merkmalen von grösserem Interesse. Beispiele für typische Fragestellung: • Beeinflusst das Geschlecht das Erwerbseinkommen? • Gibt es einen Zusammenhang zwischen Schichtzugehörigkeit (als etwas veralteter, dennoch klassischer soziologischer Begriff) und Aggressionsneigung? • Spielt die Stärke der Kirchenbindung eine Rolle bei der Parteienpräferenz? • Haben Studierende mit guten Mathematikvorkenntnissen bessere Statistiknoten? Hierzu werden an jeder Einheit mehrere Merkmale erhoben und ihre Ausprägungen auch gemeinsam analysiert (z.B. wird das Geschlecht der i-ten Person mit ihrem Einkommen in Beziehung gesetzt). Hat man z.B. die Merkmale X, Y, Z, so nennt man das Paar (X, Y ) bzw. das Tripel (X, Y, Z) ein zweidimensionales (bivariates) bzw. dreidimensionales Merkmal (trivariates) Merkmal. Allgemein spricht man von mehrdimensionalen Merkmalen. ½ 1 Hutträger X= 0 kein Hutträger ½ 1 Blumen ja Y = 0 Blumen nein (X, Y ) : Ω −→ (ω1 , ω2 ) ω 7−→ (X(ω), Y (ω)) 68 Kapitel 5. Analyse von Zusammenhängen 69 Achtung: • Die folgenden statistischen Verfahren messen die Stärke von Zusammenhängen, aber erlauben keine Aussagen über Kausalität! • Ob eine kausale Interpretation des Zusammenhangs zulässig ist, hängt davon ab, wie die Daten erhoben wurden. • Statistische Zusammenhänge können nicht klären: – die Richtung des Zusammenhangs (was ist Ursache, was Wirkung?) ⇒ Längsschnitt-Studie, cross-lag“ Design ” – ob eine dritte, evtl. unbeobachtete Variable den Zusammenhang verursacht ⇒ Experiment 5.2 5.2.1 Assoziationsmessung in Kontingenztafeln Gemeinsame Verteilung, Randverteilung, Kontingenztafel Betrachtet wird ein zweidimensionales Merkmal (X, Y ) bestehend aus den diskreten Merkmalen X und Y und die zugehörige Urliste (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). Wir wollen ferner annehmen, dass X und Y nur endlich viele (wenige), verschiedene Werte a 1 , . . . , ai , . . . , a k bzw. b1 , . . . , b j , . . . b m annehmen können. Anmerkung: In vielen Büchern (v.a. zur induktiven Statistik) wird statt a1 , . . . , ak auch x1 , . . . , xk und analog statt b1 , . . . , bm auch y1 , . . . , ym geschrieben. Bei uns sind aber die (xi , yi ) Werte der Urliste, xi also der Wert der i-ten Einheit. Daraus ergibt sich zwar die Doppeldeutigkeit der Laufindizes i und j, wir bleiben jedoch bei dieser Notation um Einheitlichkeit mit Fahrmeir et al. (2007) und Jann (2002/2005) herzustellen. ( Beispiel (fiktiv): 1, 2, Y latente Aggressivität X 1, Schichtzugehörigkeit 2, 3, ja nein Unterschicht Mittelschicht Oberschicht Typische Urliste des zweidimensionalen Merkmals (X, Y ): (3, 1), (2, 2), (2, 1), (3, 1), (3, 2), (3, 1), (1, 2), (1, 1), (1, 1), (1, 2), (3, 1), (3, 1) 70 5.2. Assoziationsmessung in Kontingenztafeln Achtung: • Tupel sind – im Gegensatz zu Mengen – geordnete Anordnungen von Zahlen, d.h. die erste Stelle bezieht sich immer auf X, die zweite auf Y . Also bedeutet (1, 2) etwas anderes als (2, 1) (vgl. obiges Beispiel). • Die Tupel sind gemeinsam indiziert, d.h. die Werte in einem Tupel beziehen sich immer auf dieselbe Einheit. Bei (xi , yi ) sind xi und yi also die Ausprägungen derselben Einheit i (z.B. der Person i). Nur so können Zusammenhänge zwischen den Merkmalen sichtbar werden! Gemeinsame relative und absolute Häufigkeitsverteilung: hij = h(ai , bj ), i = 1, . . . , k, j = 1, . . . , m, = Anzahl von Beobachtungen mit x = ai und y = bj . fij = hij /n = f (ai , bj ), i = 1, . . . , k, j = 1, . . . , m, = Anteil von Beobachtungen mit x = ai und y = bj . Man nennt (hij ), i = 1, . . . , k, j = 1, . . . , m und (fij ) die gemeinsame Verteilung von (X, Y ) in absoluten bzw. relativen Häufigkeiten. Kontingenztafel / Kontingenztabelle / Kreuztabelle: Darstellung der Häufigkeiten in Form einer (k × m)-dimensionalen Häufigkeitstabelle a1 a2 .. . ai .. . b1 · · · bj h11 · · · h1j h21 · · · h2j .. .. . . hi1 · · · hij .. .. . . · · · bm · · · h1m h1• · · · h2m h2• .. .. . . · · · him hi• .. .. . . ak hk1 · · · hkj · · · hkm hk• h•1 · · · h•j · · · h•m n mit den Randverteilungen hi• = hi1 + . . . + him = h(ai ), i = 1, . . . , k, für X h•j = h1j + . . . + hkj = h(bj ), j = 1, . . . , m, für Y. und Kapitel 5. Analyse von Zusammenhängen 71 Kontigenztafel der relativen Häufigkeitsverteilung: b1 a1 f11 a2 f21 .. .. . . ai fi1 .. .. . . ak fk1 f•1 mit relativen Häufigkeiten fij = · · · bj · · · bm · · · f1j · · · f1m f1• · · · f2j · · · f2m f2• .. .. .. . . . · · · fij · · · fim fi• .. .. .. . . . · · · fkj · · · fkm fk• · · · f•j · · · f•m 1 hij und den Randverteilungen n fi• = hi• = fi1 + . . . + fim = f (ai ), i = 1, . . . , k, n für X f•j = h•j = f1j + . . . + fkj = f (bj ), j = 1, . . . , m, n für Y. und Beispiel: Aggressivität und Schichtzugehörigkeit In unserem Beispiel ist n = 12 a1 = 1, a2 = 2, a3 = 3 b1 = 1, b2 = 2 also k = 3 und m = 2. Als Kontingenztafel ergibt sich X Y 1 2 3 1 2 1 5 8 2 2 1 1 4 4 2 6 12 Randhäufigkeiten: Aus der gemeinsamen Verteilung kann man die eindimensionalen Verteilungen berechnen (aber nicht umgekehrt, s.u.). Man nennt sie in diesem Kontext Randverteilungen. Die absoluten Häufigkeiten von X bezeichnet man mit h1• , h2• , . . . , hi• , . . . , hk• , die von Y mit h•1 , h•2 , . . . , h•j , . . . , h•m , analog fi• , f•j . Der Punkt steht für Summation über den entsprechenden Index. Es gilt also: • hi• ist die absolute Häufigkeit von ai , • h•j ist die absolute Häufigkeit von bj . 72 5.2. Assoziationsmessung in Kontingenztafeln und hi• = m X hij , j=1 h•j = k X hij . i=1 Also ist hi• die i-te Zeilensumme, h•j die j-te Spaltensumme (daher der Name Randhäufigkeiten). Völlig analog definiert sind die relativen Randhäufigkeiten fi• := m X fij und f•j := j=1 k X fij . i=1 Beispiel: Parteipräferenz bei unterschiedlichem Einkommen (Befragung von 722 Personen, 3.5.-5.5.2004) Unabhängige und abhängige Variable: Hat man eine Vermutung über die Richtung einer potentiellen Wirkung, so bezeichnet man die Variablen entsprechend als unabhängige (wirkende, erklärende) und abhängige Variable, z.B.: möglicherweise: Schicht eindeutig: Geschlecht allgemein: unabhängige −→ latente Aggresivität −→ Einkommen −→ abhängige Variable Anmerkung: In einigen sozialwissenschaftlichen Büchern wird entgegen dieser Konvention die unabhängige Variable in den Spalten und die abhängige in den Zeilen abgetragen. 5.2.2 Ökologischer Fehlschluss Es gibt sehr viele gemeinsame Verteilungen, die zu denselben Randhäufigkeiten wie im Beispiel oben passen, u.a.: Kapitel 5. Analyse von Zusammenhängen X Y 1 2 3 73 1 0 2 6 8 2 4 0 0 4 4 2 6 12 Bei dieser Konstellation wäre von den Unterschichtsangehörigen niemand latent aggressiv, von den Mittel- und Oberschichtsangehörigen alle. Die Schichtungszugehörigkeit würde hier also völlig die Aggressivität determinieren. Man sieht also, wie wichtig es zur Feststellung potentieller Zusammenhänge ist, die gemeinsame Verteilung hij zu kennen, also tatsächlich die Paare (xi , yi ) zu betrachten. Der unzulässige Schluss • von der Randverteilung auf Eigenschaften der gemeinsamen Verteilung, • also von zwei univariaten Ergebnissen auf ein bivariates, • von der Kollektiv- auf die Individualebene, heißt ökologischer Fehlschluss. Beispiel für ökologischen Fehlschluss: Je größer der Anteil an Arbeitern in einer Region, desto mehr SPD-Wähler gibt es. =⇒ Arbeiter wählen eher SPD? Kann man nicht aus Randverteilung schliessen! Muss gemeinsame Verteilung betrachten. 5.2.3 Grafische Darstellung der gemeinsamen Verteilung Verschiedene Darstellungsarten, z.B. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten hij oder normale“ Säulendiagramme nach einer Variable aufgespalten, d.h. für jeden ” Wert ai von X werden jeweils die Häufigkeiten hij bzw. fij aufgetragen. 74 5.2. Assoziationsmessung in Kontingenztafeln 0.004 0.003 0.002 0.001 500 0.000 40 5.2.4 60 Wohn fläche80 1000 e 1500 Miet 2000 100 Bedingte Häufigkeitsverteilungen Beispiel: Habilitationen nach Geschlecht und Fach (aus Fahrmeir et al., 2007). Grundgesamtheit: alle Habilitationen 1993 Geschlecht: Fächergruppe: X Y Frauen 1 Männer 2 Sprachw. Kulturw. 1 Rechtsw. Wirts., Soz. 2 Naturw. Kunst Medizin 3 4 5 51 216 267 20 92 112 30 316 346 4 10 14 44 433 477 149 1067 1216 Zur Interpretation: • In Naturwissenschaften werden nur 30 Frauen habilitiert, in Kunst sogar nur 4. Ist das viel oder wenig? • Das kommt ganz darauf an, wieviele Personen insgesamt dort habilitiert werden. (30 von 346 sehr wenig, 4 von 14 nicht so wenig). Man muss also die gemeinsamen Häufigkeiten auf die Randhäufigkeiten bedingen“. ” • Man geht über zur sogenannten bedingten Verteilung. – Sie gibt die Verteilung eines Merkmals an, unter der Bedingung ( wenn man ” weiß“), dass das andere Merkmal einen bestimmten Wert hat. Kapitel 5. Analyse von Zusammenhängen 75 – z.B. Verteilung des Geschlechts unter den in Kunst bzw. Naturwissenschaften Habilitierten; Anteil der latent aggressiven Jugendlichen unter den Angehörigen der Oberschicht. – Es wird also sozusagen die betrachtete Gesamtheit auf eine bestimmte Personengruppen eingeschränkt. – Im Beispiel etwa 4 Anzahl der Habil. von Frauen in Kunst = Anzahl der Habil. in Kunst 14 Definition: Seien hi• > 0 und h•j > 0 für alle i, j. Für jedes i = 1, . . . , k heißt fY (b1 |ai ) := hi1 h(ai , b1 ) = , hi• h(ai ) ..., fY (bm |ai ) := him h(ai , bm ) = hi• h(ai ) bedingte (relative) Häufigkeitsverteilung von Y unter der Bedingung X = ai . Analog heißt für jedes j = 1, . . . , m fX (a1 |bj ) := h1j h(a1 , bj ) = , h•j h(bj ) ..., fX (ak |bj ) := hkj h(ak , bj ) = h•j h(bj ) bedingte (relative) Häufigkeitsverteilung von X unter der Bedingung Y = bj . Im Beispiel: fY (Frau | Habil. in Kunst) = fY (Frau | Habil. in Naturw.) = h14 4 = ≈ 0.286 h•4 14 h13 30 = ≈ 0.087 h•3 346 Zu unterscheiden von f13 = 30 h13 = ≈ 0.025 = f (Frau und Habil. in Naturw.) n 1216 bzw. fX (Habil. in Kunst|Frau) = 4 h14 = = 0.027. h1• 149 Die Verwechslung von gemeinsamer und bedingter Verteilung ist eine häufige Fehlerquelle. Bei Vermutung über Richtung des Zusammenhangs betrachtet man vorwiegend die bedingte Verteilung der abhängigen Variablen gegeben die festen Werte der unabhängigen Variable. In diese Richtung geht ja auch die Prognose“! Man kennt den Wert der un” abhängigen Variablen und will Aussagen über die abhängige machen. 76 5.2. Assoziationsmessung in Kontingenztafeln Beispiel: Bedingte Verteilung der Fächergruppen gegeben das Geschlecht (f (bj |ai ) für verschiedene i). @ @ bj ai @@ Frauen Männer Sprachw. Kulturw. 1 0.34 0.20 1 2 Rechtsw. Wirts., Soz. 2 0.13 0.09 Naturw. Kunst Medizin 3 0.10 0.30 4 0.03 0.01 5 0.30 0.41 1 1 h12 20 = = 0.134 h1• 149 h24 f (Kunst|Mann) = f (b4 |a2 ) = = 0.0094 h2• f (Rechtsw.|Frau) = f (b2 |a1 ) = Bedingte Verteilung des Geschlechts gegeben die Fachgruppe (f (ai |bj ) für verschiedene j). @ bj a i @@ Frauen Männer 1 2 Sprachw. Kulturw. 1 0.191 0.809 1 Rechtsw. Wirts., Soz. 2 0.179 0.821 1 Naturw. Kunst Medizin 3 0.087 0.913 1 4 0.286 0.714 1 5 0.092 0.908 1 h12 20 = = 0.179 h•2 112 h24 f (Mann|Kunst) = f (a2 |b4 ) = = 0.714 h•4 f (Frau|Rechtsw.) = f (a1 |b2 ) = Nochmals zur Interpretation: 1. f (Frau | Medizin) = 0.092 · 100% = 9.2%. 9.2% aller Habilitationen in Medizin sind von Frauen. 2. f (Medizin | Frau) = 30%. 30% aller Habilitationen von Frauen sind im Fach Medizin. 3. f51 = f (Medizin und Frau) = 0.036 = 3.6%. 3.6% aller Habilitationen stammen von Frauen im Fach Medizin. Es liegt jeweils eine andere Grundgesamtheit zu Grunde: 1. Habilitationen in Medizin 2. Habilitationen von Frauen 3. Habilitationen insgesamt Kapitel 5. Analyse von Zusammenhängen 77 Bedingte Verteilungen werden automatisch“ durch relative Häufigkeiten ausgedrückt. ” Für die Berechnung gilt hij hij fij f (ai |bj ) = = hn•j = h•j f•j n und analog f (bj |ai ) = hij fij = . hi• fi• Beispiel: Parteipräferenzen. 5.2.5 (Empirische) Unabhängigkeit und χ2 Durch den Vergleich der bedingten Häufigkeiten mit den Randhäufigkeiten kann man Zusammenhänge beurteilen Beispiel: Aggression und Schichtzugehörigkeit. Bedingte Häufigkeiten: f (bj |ai ) : relative Häufigkeit von bj , wenn man weiß, dass ai“. ” Vergleiche zum Beispiel f (b1 |a3 ): Anteil der Personen mit Ausprägung b1 (latent aggressiv) unter allen Personen mit Ausprägung a3 (Oberschicht) mit f•1 : Anteil der Personen mit b1 (generell), also alle latent aggressiven Personen Gilt f (b1 |a3 ) > f•1 , 78 5.2. Assoziationsmessung in Kontingenztafeln so erhöht a3 die Tendenz von b1 (erhöhte Aggressivität in der Oberschicht), gilt f (b1 |a3 ) < f•1 , so verringert a3 die Tendenz von b1 (geringere Aggressivität in der Oberschicht). Wäre hingegen f (b1 |a3 ) = f•1 , so wäre im Beispiel der Anteil der latent aggressiven Personen in der Oberschicht genauso groß wie in der Grundgesamtheit. Die Zugehörigkeit zur Oberschicht würde also nicht das Vorhandensein latenter Aggressivität beeinflussen. Gilt dies für alle Merkmalskombinationen, so beeinflussen sich die Variablen gegenseitig nicht. Die Merkmale sind voneinander unabhängig. Empirische Unabhängigkeit: Die beiden Komponenten X und Y eines bivariaten Merkmals (X, Y ) heißen voneinander (empirisch) unabhängig, falls für alle i = 1, . . . , k und j = 1, . . . , m f (bj |ai ) = f•j = f (bj ) (5.1) und f (ai |bj ) = fi• = f (ai ) (5.2) gilt. Also anschaulich: Genau bei empirischer Unabhängigkeit ist die Verteilung von Y in allen bezüglich Werten von X gebildeten Subgruppen identisch und umgekehrt. Satz: a) Es genügt, entweder (5.1) oder (5.2) zu überprüfen: Mit einer der beiden Beziehungen gilt auch die andere. b) X und Y sind genau dann empirisch unabhängig, wenn für alle i = 1, . . . k und alle j = 1, . . . m gilt: fij = fi• · f•j (5.3) c) Gleichung (5.3) ist äquivalent zu hij = hi• · h•j n Beweis zu b) : i, j beliebig vorgegeben, X, Y empirisch unabhängig. f (ai |bj ) = fi• für alle i, j fij = fi• für alle i, j ⇐⇒ f•j ⇐⇒ fij = fi• · f•j für alle i, j (5.4) Kapitel 5. Analyse von Zusammenhängen 79 Zentrale Idee zur Analyse von Kontingenztafeln: Man beurteilt das Ausmaß der Abhängigkeit von X und Y dadurch, dass man die beobachtete Kontingenztafel mit der Tafel vergleicht, die sich bei denselben Randverteilungen ergeben würde, wenn X und Y (empirisch) unabhängig wären. Man vergleicht also für alle i und j die beobachteten Häufigkeiten hij mit den unter Unabhängigkeit erwarteten Besetzungszahlen h̃ij (vgl. die rechte Seite von (5.4)): hi• · h•j h̃ij := . n Je größer die Unterschiede zwischen hij und h̃ij sind, umso stärker sind die Daten von der Unabhängigkeit entfernt, d.h. umso stärker ist also der Zusammenhang zwischen X und Y. Als Maß verwendet man den sog. χ2 -Koeffizienten / χ2 -Abstand : 2 χ k X m X (hij − h̃ij )2 := (5.5) h̃ij i=1 j=1 ¡ ¢2 X beob. Häufigk. − unter Unabh. zu erwartende Häufigk. = unter Unabh. zu erwartende Häufigk. alle Zellen Beispiel: Zusammenhang zwischen Geschlecht und Arbeitslosigkeit (fiktiv, nach Wagschal, 1999) Sei Y der Beschäftigungsstatus einer erwerbstätigen Person, X das Geschlecht mit ( ( 1 beschäftigt 1 weiblich Y = und X= 2 arbeitslos 2 männlich Gemeinsame Häufigkeitsverteilung: @Y X @ 1 2 1 40 80 120 2 25 5 30 65 85 150 Zur Bestimmung des χ2 -Koeffizienten: 1. Bestimme die Randverteilung. 2. Berechne die unter Unabhängigkeit zu erwartenden Häufigkeiten h̃ij . Indifferenztafel“(bei empirischer Unabhängigkeit zu erwartende Kontingenztafel): ” 65 · 120 h1• · h•1 = = 52 h̃11 = n 150 h2• · h•1 85 · 120 h̃21 = = = 68 n 150 etc. 80 5.2. Assoziationsmessung in Kontingenztafeln @Y X @ 1 2 1 52 68 120 2 13 17 30 65 85 150 Beim Vergleich der beoachteten Häufigkeitsverteilung mit der unter Unabhängigkeit zu erwartenden erkennt man: Es gibt weniger beschäftigte Frauen und weniger arbeitslose Männer als unter Unabhängigkeit zu erwarten wäre, aber mehr arbeitslose Frauen und mehr beschäftigte Männer. Also hat das Geschlecht einen Einfluss; Männer sind tendenziell eher beschäftigt. Man erhält χ2 = k X m X (hij − h̃ij )2 h̃ij i=1 j=1 (40 − 52)2 (25 − 13)2 (80 − 68)2 (5 − 17)2 + + + 52 13 68 17 = 2.769 + 11.077 + 2.118 + 8.471 = 24.435 = Bei Vierfeldertafeln (2 Zeilen, 2 Spalten) gibt es eine handliche Alternative zur Berechnung von χ2 : n · (h11 h22 − h12 h21 )2 χ2 = (5.6) h1· h2· h·1 h·2 (Merksatz: Hauptdiagonalenprodukt − Nebendiagonalenprodukt). Veranschaulichung der Formel: In der Hauptdiagonalen stehen die gleichgerichteten ” (konkordanten) Paare“ (1,1), (2,2) (kleines Y zu kleinem X und hohes Y gehört zu hohem X), in der Nebendiagonalen die entgegengerichteten (diskordanten) Paare“ (1,2), (2,1). ” Je stärker der Zusammenhang, desto stärker überwiegt eine dieser beiden Möglichkeiten, d.h. desto größer ist (h11 · h22 − h12 · h21 )2 Ceteris paribus Betrachtung bei gleichen Randverteilungen: +1 −1 h•1 −1 +1 h•2 h1• h2• Angenommen, es ist h11 h22 > h12 h21 . Dann erhöhen sich h11 und h22 , h12 und h21 erniedrigen sich −→ χ2 wird größer. Wegen dem Quadrieren der Differenzen gilt auch umgekehrt: ist h11 h22 < h12 h21 −→ χ2 wird größer. Berechnung im Beispiel mit alternativer Formel: (h11 h22 − h12 h21 )2 h1• h2• h•1 h•2 (200 − 2000)2 (40 · 5 − 80 · 25)2 = 150 = 150 120 · 30 · 65 · 85 120 · 30 · 65 · 85 1800 · 1800 · 150 = 24.434 = 120 · 30 · 65 · 85 χ2 = n · Kapitel 5. Analyse von Zusammenhängen 5.2.6 81 χ2 -basierte Maßzahlen Bemerkungen zum χ2 -Abstand: • Unter empirischer Unabhängigkeit gilt per Definition χ2 = 0. Je stärker χ2 von 0 abweicht, umso stärker ist – ceteris paribus – der Zusammenhang. • Der χ2 -Abstand wird die Grundlage bilden für den in Statistik 2 betrachteten χ2 Test. • Als Masszahl ist χ2 hingegen problematisch und nicht direkt interpretierbar, da sein Wert vom Stichprobenumfang n und von der Zeilen- und Spaltenzahl abhängt =⇒ geeignet normieren. • Es gilt: χ2 ≤ n · (min{k, m} − 1). Gleichheit gilt genau dann, wenn sich in jeder Spalte bzw. Zeile nur ein von Null verschiedener Eintrag befindet, also z.B. nur auf der Diagonalen (entspräche perfektem Zusammenhang, ist aber gar nicht bei allen Randverteilungen möglich). χ2 -basierte Zusammenhangsmaße a) Kontingenzkoeffizient nach Pearson: s K := χ2 . n + χ2 (5.7) K Kmax (5.8) b) Korrigierter Kontingenzkoeffizient: K ∗ := mit s Kmax := min{k, m} − 1 min{k, m} c) Kontingenzkoeffizient nach Cramér (Cramérs V): s χ2 V = n · (min{k, m} − 1) r χ2 = maximaler Wert d) Bei der Vierfeldertafel (k = m = 2) gilt s V = χ2 = n · (min{k, m} − 1) r (5.9) χ2 . n Hierfür ist auch die Bezeichnung Phi-Koeffizient Φ üblich. 82 5.2. Assoziationsmessung in Kontingenztafeln Mit (5.6) ergibt sich also ¯ ¯ ¯ h11 h22 − h12 h21 ¯ ¯. Φ = ¯¯ √ (5.10) h1• h2• h•1 h•2 ¯ Lässt man die Betragsstriche weg, so erhält man den signierten Phi-Koeffizienten oder Punkt-Korrelationskoeffizienten h11 h22 − h12 h21 Φs = √ , h1• h2• h•1 h•2 der häufig ebenfalls als Phi-Koeffizient bezeichnet wird. ΦS kann im Prinzip Werte zwischen -1 und 1 annehmen (ohne -1 und 1 immer erreichen zu können (s.u.)). Vorteil gegenüber Φ: Zusätzlich ist die Richtung“ des Zusammenhangs erkennbar: ” Φs > 0 bei gleichsinnigem Zusammenhang (1 bei X bewirkt eher 1 bei Y , 2 −→ 2) und Φs < 0 bei gegensinnigem Zusammenhang (1 bei X bewirkt eher 2 bei Y , 2 −→ 1) Berechnung im Beispiel : Beschäftigungsstatus und Geschlecht. Zur Erinnerung: χ2 = 24.435, m = k = 2, besch. Frauen 1 Männer 2 s K = Kmax = K∗ = V = Φs = χ2 = n + χ2 n = 150 ja 1 nein 2 40 80 120 25 5 30 65 85 150 r 24.435 = 0.3742 150 + 24.435 s r r min{k, m} − 1 2−1 1 = = min{k, m} 2 2 √ K = 0.3742 · 2 = 0.5292 Kmax r r χ2 24.435 = = 0.4036 Φ= n 150 h11 h22 − h12 h21 40.5 − 80.25 √ =√ = −0.4036 h1· h2· h·1 h·2 120 · 30 · 65 · 35 • Schwerpunkt auf der Nebendiagonalen: Beschäftigte Männer, arbeitslose Frauen. Φ =0.4, deutet auf Zusammenhangs mittlerer Stärke hin. • K, K ∗ , V und Φ nehmen Werte zwischen 0 und 1 an, wohingegen χ2 beliebeig grosse positive Werte annehmen kann. Kapitel 5. Analyse von Zusammenhängen 83 • Aufgrund ihrer Unabhängigkeit von n und von k und m sind K, K ∗ , V und Φ prinzipiell zum Vergleich verschiedener Tabellen geeignet. • Allerdings kann – bei gegebener Randverteilung – der Wert 1 nicht immer erreicht werden. Im Beispiel können bei insgesamt nur 30 Arbeitslosen nicht alle 80 Männer oder alle 65 Frauen arbeitslos sein. • Es kann deshalb aussagekräftiger sein, noch zusätzlich auf die für die gegebene Randverteilung maximal mögliche Abhängigkeit zu normieren. Korrekturverfahren für Φ (Wagschal) 0 1. Bilde die Extremtabelle mit Einträgen hij , d.h. i. Ersetze die Zelle mit der kleinsten absoluten Häufigkeit durch 0 ii. Fülle die Tafel entsprechend der Randverteilung auf! 2. Berechne den zugehörigen Phi-Koeffizienten Φextrem . 3. Berechne den korrigierten Phi-Koeffizienten Φkorr := Φ Φextrem bzw. den zugehörigen korrigierten signierten Phi-Koeffizienten Φs,korr := Φs Φextrem . Berechnung im Beispiel: Extremsituation: Alle Männer beschäftigt. besch. Frauen 1 Männer 2 ja 1 nein 2 35 85 120 30 0 30 65 85 150 Mit (5.10) erhält man Φextrem ¯ 0 0 ¯ ¯ h h − h0 h0 ¯ ¯¯ 35 · 0 − 30 · 85 ¯¯ ¯ 11 22 ¯ ¯ ≈ 0.5718 = ¯ p 0 0 012 021 ¯ = ¯¯ √ ¯ h1• h2• h•1 h•2 ¯ 65 · 85 · 120 · 30 ¯ und damit Φkorr = Φ Φextrem = 0.4036 ≈ 0.7059 0.5718 und Φs,korr ≈ −0.7059 Relativ zum gegebenen Geschlechterverhältnis und zur Beschäftigungsrelation ergibt sich ein stärkerer Zusammenhang (Φkorr ≈ 0.7059). Am signierten Koeffizienten Φs,korr < 0 lässt sich auch die Richtung des Zusammenhangs ablesen: kleine Y -Werte gehören eher zu großen X-Werten, also sind Frauen tendenziell stärker von Arbeitslosigkeit betroffen als Männer. 84 5.2. Assoziationsmessung in Kontingenztafeln 5.2.7 Weitere Methoden für Vierfeldertafeln Typische Fragestellung aus der Medizin: Y an nicht an Krebs Krebs erkrankt erkrankt b1 b2 exponiert: Schadstoffen ausgesetzt a1 h11 h12 nicht exponiert: Schadstoffen nicht ausgesetzt a2 h21 h22 X In der Medizin bezeichnet man die bedingte relative Häufigkeit f (bj |ai ) als Risiko für bj unter Bedingung ai : R(bj |ai ) := f (bj |ai ) = hij hi• i, j = 1, 2. In der Epidemiologie wird standardmäßig R(b1 |a1 ) betrachtet. Dies ist das Erkrankungsrisiko für Personen, die exponiert waren. Als Zusammenhangsmaß zwischen X und Y in Vierfelder-Tafeln verwendet man auch das darauf aufbauende relative Risiko: Definition : Für eine Vierfelder-Tafel heißt RR(b1 ) := f (b1 |a1 ) h11 /h1• = f (b1 |a2 ) h21 /h2• relatives Risiko und ist das Verhältnis des Erkrankungsrisikos für Personen, die exponiert waren (im Zähler) und für Personen, die nicht exponiert waren (im Nenner). Eigenschaften: • RR(b1 ) kann Werte zwischen 0 und ∞ annehmen. • RR(b1 ) = 1 würde bedeuten: Personen, die exponiert waren, haben das gleiche Erkrankungsrisiko wie Personen, die nicht exponiert waren. Es besteht kein Zusammenhang zwischen Exposition (Merkmal X) und Erkrankung (Merkmal Y ). • RR(b1 ) = 5 würde bedeuten: Personen, die exponiert waren, haben ein 5-mal so großes Erkrankungsrisiko wie Personen, die nicht exponiert waren, d.h. das Erkrankungsrisiko wäre für exponierte Personen deutlich höher. • RR(b1 ) = 15 würde bedeuten: Personen, die exponiert waren, haben nur ein Fünftel des Erkrankungsrisikos von Personen, die nicht exponiert waren, d.h. das Erkrankungsrisiko wäre für exponierte Personen deutlich niedriger. Kapitel 5. Analyse von Zusammenhängen 85 In der Medizin bezieht sich Risiko“ meist auf negative Ereignisse wie z.B. Erkrankung. ” Grundsätzlich sind Risiken aber symmetrisch verwendbar, d.h. auch für positive Ereignisse wie z.B. Beschäftigung: beschäftigt Frau 1 Mann 2 ja 1 40 80 120 nein 2 25 5 30 65 85 150 Gemessen wird jetzt das Risiko“ (bzw. die Tendenz), beschäftigt zu sein, wenn man dem ” (vermuteten) Nachteilsfaktor weiblich zu sein, ausgesetzt ist. R(beschäftigt|Frau) = f (b1 |a1 ) = h11 40 8 = = h1• 65 13 Man sieht, dass das Risiko für sich genommen noch wenig aussagekräftig ist. R(b1 |a1 ) h11 /h1• = R(b1 |a2 ) h21 /h2• 8 40/65 8 17 17 2 = = 13 · = = 0, 65 ≈ 16 = 80/85 13 17 26 3 17 RR(beschäftigt) = Das Risiko“, beschäftigt zu sein, ist bei den Frauen nur ” 2 3 so groß wie bei den Männern. Hier umgekehrte Betrachtung inhaltlich naheliegender: Risiko für Arbeitslosigkeit. Die Risiken in den beiden Gruppen sind dann genau die Arbeitslosigkeitsquoten. RR(arbeitslos) = 25/65 h12 /h1• 25 · 85 5 · 17 = = = = 6.53. h22 /h2• 5/85 5 · 65 13 Das Arbeitslosigkeitsrisiko (die Arbeitslosigkeitsquote) ist bei den Frauen 6.53 mal so groß wie bei den Männern. Es zeigt sich also ein deutlicher Gechlechtereinfluß. Bei den Frauen beträgt die Arbeitslosigkeitsquote 25 = 38.5%, bei den Männern hingegen nur 65 5.88%. Definition: Die Größe ¡ ¢ d%(bj ) := f (bj |a1 ) − f (bj |a2 ) · 100, i = 1, 2 heißt Prozentsatzdifferenz für bj . Eigenschaften: • d%(b1 ) ist z.B. die Differenz aus den Erkrankungsrisiken für Personen, die exponiert waren, und für Personen, die nicht exponiert waren. • d%(bj ) kann Werte zwischen −100 und 100 annehmen. 86 5.2. Assoziationsmessung in Kontingenztafeln • d%(b1 ) = 0 würde bedeuten: Personen, die exponiert waren, haben das gleiche Erkrankungsrisiko wie Personen, die nicht exponiert waren. Es besteht kein Zusammenhang zwischen Exposition (Merkmal X) und Erkrankung (Merkmal Y ). • d%(b1 ) = 10 würde bedeuten: Personen, die exponiert waren, haben ein um 10 Prozentpunkte höheres Erkrankungsrisiko als Personen, die nicht exponiert waren. • d%(b1 ) = −10 würde bedeuten: Personen, die exponiert waren, haben ein um 10 Prozentpunkte niedrigeres Erkrankungsrisiko als Personen, die nicht exponiert waren. Beispiel: Beschäftigung von Männern und Frauen beschäftigt Frau 1 Mann 2 ja 1 40 80 120 nein 2 25 5 30 65 85 150 d%(b1 ) = (f (b1 |a1 ) − f (b1 |a2 )) · 100 µ ¶ h11 h21 = − · 100 h1• h2• 40 80 8 16 − · 100 = − · 100 = 0.615 − 0.941 · 100 = −32.6 = 65 85 13 17 Der Beschäftigtenanteil unter den Frauen beträgt 61.5%, der unter den Männer 94.1%. Es ergibt sich eine Prozentsatzdifferenz von 32.6%, die auf einen deutlichen Einfluss des Geschlechts hinweist. d%(b2 ) = (f (b2 |a1 ) − f (b2 |a2 )) · 100 = h12 h22 = − · 100 = 32.6 h1• h2• Offensichtlich gilt bei zwei Ausprägungen d%(b1 ) = = = = (f (b1 |a1 ) − f (b1 |a2 )) = (1 − f (b2 |a1 )) − (1 − f (b2 |a2 )) −(f (b2 |a1 )) − f (b2 |a1 ) = −d%(b2 ) Bemerkungen: • Den in diesem Abschnitt betrachteten Maßzahlen ist gemein, dass – im Gegensatz zu den χ2 -basierten Maßzahlen – das Vertauschen von Zeilen und Spalten die Maßzahl verändert. Das bedeutet für die Praxis: Man muss sich sehr genau überlegen, was man als abhängige und was als unabhängige Variable wählt. Kapitel 5. Analyse von Zusammenhängen 87 • Man kann die zwei Risiken in einer Vierfelder-Tafel auf zwei Arten vergleichen: – durch den Quotienten: sind Zähler und Nenner eines Bruches gleich, hat er den Wert 1 (d.h. die 1 dient als Vergleichswert) ⇒ der Bruch ist > 1, wenn der Zähler größer ist als der Nenner. ⇒ der Bruch ist < 1, wenn der Zähler kleiner ist als der Nenner. – durch die Differenz: sind die beiden Terme einer Differenz gleich, hat sie den Wert 0 (d.h. die 0 dient als Vergleichswert) ⇒ die Differenz ist > 0, wenn der erste Term größer ist als der zweite. ⇒ die Differenz ist < 0, wenn der erste Term kleiner ist als der zweite. • Bei kleinen Risiken ist die Prozentsatzdifferenz nicht sensitiv, z.B.: – f (b1 |a1 ) = 0.42, f (b1 |a2 ) = 0.41 RR(b1 ) = 1.02 d%(b1 ) = 1 – f (b1 |a1 ) = 0.02, f (b1 |a2 ) = 0.01 RR(b1 ) = 2.0 d%(b1 ) = 1 In solchen Fällen muss man inhaltlich abwägen, ob der Quotient oder die Differenz aussagekräftiger ist. Definition: Die Größe O(b1 |ai ) := R(b1 |ai ) 1 − R(b1 |ai ) i = 1, 2 heißt Odds (engl. plural) oder Chance von b1 unter der Bedingung ai . Eigenschaften: • Die Odds für exponierte Personen sind das Verhältnis des Risikos, krank zu werden (im Zähler), zum Risiko, nicht krank zu werden, also 1 − dem Risiko krank zu werden (im Nenner). • Es gilt: f (b1 |ai ) f (b1 |ai ) = 1 − f (b1 |ai ) f (b2 |ai ) hi1 hi1 /hi• = = hi2 /hi• hi2 O(b1 |ai ) = • Interpretation: Odds O(b1 |a1 ) = 3 bedeuten, dass exponierte Personen 3× häufiger krank werden, als dass sie gesund bleiben. 88 5.2. Assoziationsmessung in Kontingenztafeln • Interpretation als Wettchance: Odds O(b1 |a1 ) = 3 bedeuten “ich wäre bereit im Verhältnis 3 : 1 zu wetten, dass eine exponierte Person krank wird”. Beispiel: Beschäftigung von Männern und Frauen beschäftigt Frau 1 Mann 2 ja 1 40 80 120 nein 2 25 5 30 O(beschäftigt|weiblich) = 65 85 150 O(beschäftigt|männlich) = h11 40 8 = = = 1.6 h12 25 5 h21 80 = = 16 h22 5 Unter den Frauen gibt es 1.6 mal so viele Beschäftigte wie Arbeitslose, unter den Männern sind es 16 mal so viele Beschäftigte wie Arbeitslose. Eine Chance für sich sagt noch nichts über den Zusammenhang zwischen X und Y aus. Wenn es unter den Exponierten halb so viele Kranke wie Gesunde gibt, so kann dies gut oder schlecht sein. Dies hängt von den Odds bei den Nichtexponierten ab. Daher verwendet man als Zusammenhangsmaß zwischen X und Y die relativen Odds, die als Odds Ratio bezeichnet werden. Definition: Die Größe OR(b1 ) := O(b1 |a1 ) O(b1 |a2 ) heißt Odds Ratio und vergleicht die Odds von exponierten Personen (im Zähler) und nicht exponierten Personen (im Nenner). Eigenschaften: • OR kann Werte zwischen 0 und ∞ annehmen. • OR = 1 würde bedeuten: Personen, die exponiert waren, haben die gleichen Odds wie Personen, die nicht exponiert waren. Es besteht kein Zusammenhang zwischen Exposition (Merkmal X) und Erkrankung (Merkmal Y ). • OR = 5 würde bedeuten: Personen, die exponiert waren, haben 5-mal so große Odds wie Personen, die nicht exponiert waren, d.h. die “Chance” zu erkranken wäre für exponierte Personen deutlich höher. • OR = 15 würde bedeuten: Personen, die exponiert waren, haben nur ein Fünftel der Odds von Personen, die nicht exponiert waren, d.h. die “Chance” zu erkranken wäre für exponierte Personen deutlich niedriger. • Um die Asymmetrie des Wertebereichs, [0; 1) bei gegenläufigem Zusammenhang und (1, ∞] bei gleichgerichtetem Zusammenhang, zu umgehen, wird gelegentlich auch ln OR betrachtet. Sein Wertebereich ist (−∞, ∞), wobei nun der Wert 0 auf keinen Zusammenhang hinweist. Kapitel 5. Analyse von Zusammenhängen 89 • Der Odds Ratio wird auch als Kreuzproduktverhältnis bezeichnet, denn es gilt: R(b1 |a1 ) f (b1 |a1 ) O(b1 |a1 ) 1 − R(b1 |a1 ) f (b2 |a1 ) OR(b1 ) := = = R(b1 |a2 ) f (b1 |a2 ) O(b1 |a2 ) 1 − R(b1 |a2 ) f (b2 |a2 ) = h11 /h1• h11 /h12 h11 · h22 h12 /h1• = = h21 /h2• h21 /h22 h21 · h12 h22 /h2• Hieraus erkennt man auch die Parallele zu den früheren Zusammenhangsmaßen Φ und χ2 für 4-Felder-Tafeln, die ebenfalls auf dem Unterschied in den Produkten der Diagonalelemente h11 · h22 und der Nebendiagonalelemente h12 · h21 aufbauen. Für χ2 gilt n · (h11 · h22 − h12 · h21 )2 χ2 = . h1• · h2• · h1• · h2• An dieser Formel erkennt man, dass die Differenz im Zähler h11 · h22 − h21 · h12 groß wird, wenn die Häufigkeiten h11 und h22 auf der Hauptdiagonalen groß, und die Häufigkeiten h12 und h21 auf den Nebendiagonalen klein sind. Im umgekehrten Fall wird die Differenz klein. Durch das Quadrieren des Zählers in der Formel für χ2 (bzw. durch den Übergang zum Betrag in der Formel für Φ) spielt die Richtung aber keine Rolle mehr, und χ2 und Φ werden insgesamt groß, wenn h11 · h22 À h12 · h21 oder h11 · h22 ¿ h12 · h21 gilt, d.h wenn eine Diagonalstruktur vorliegt, die auf einen Zusammenhang zwischen den Merkmalen Y und X hinweist. Im OR werden dieselben Häufigkeiten nicht in einer Differenz, sondern in einem Bruch verwendet. Deshalb ist hier nicht von Interesse, ob der Koeffizient von 0 abweicht, wie bei den auf der Differenz aufbauenden Maßzahlen χ2 und Φ, sondern uns interessiert, ob der OR von 1 abweicht. Beispiel: Beschäftigung von Männern und Frauen beschäftigt Frau 1 Mann 2 ja 1 40 80 120 nein 2 25 5 30 65 85 150 OR(b1 ) := O(b1 |a1 ) O(b1 |a2 ) = 1 10 90 5.2. Assoziationsmessung in Kontingenztafeln Frauen haben nur ein Zehntel so hohe Odds für die Beschäftigung im Vergleich zu Männern. Das Verhältnis aus Beschäftigten und Arbeitslosen ist also bei den Frauen um den Faktor 10 geringer als bei den Männern. Definition: Die Größe Q := h11 · h22 − h12 · h21 h11 · h22 + h12 · h21 heißt Yules Q. Bemerkungen • Q ist ein Spezialfall von γ nach Goodman und Kruskal (vgl. später) und vergleicht diskordante und konkordante Paare. • Q nimmt Werte zwischen -1 und 1 an und ist 0 bei Unabhängigkeit. • Ist eine Zelle mit 0 besetzt, so ist Q = 1 oder Q = −1. Q zeigt also dann bereits eine perfekte Abhängigkeit. Beispiel: Beschäftigung von Männern und Frauen beschäftigt Frau 1 Mann 2 ja 1 40 80 120 nein 2 25 5 30 Q 65 85 150 = h11 · h22 − h12 · h21 h11 · h22 + h12 · h21 = 40 · 5 − 25 · 80 = −0.818 40 · 5 + 25 · 80 Wieder: starker Zusammenhang in Richtung Nebendiagonale: Männer ↔ Arbeit, Frauen ↔ Arbeitslos 5.2.8 PRE-Maße (Prädiktionsmaße) • Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. • Grundlegendes Prinzip vieler statistischer Konzepte. • Hängt mit Streuungszerlegung metrischer Daten zusammen. • Anwendbar für Kreuztabellen beliebiger Größe. • In der Soziologie sehr gebräuchlich. Hintergrund: Ein Modell“ versucht, ein empirisches Phänomen zu beschreiben. Ein Mo” dell ist umso besser“, je genauer es ein Phänomen reproduzieren/vorhersagen kann. Die ” Vorhersagekraft der einen Variablen für die andere dient dann als Maß des Zusammenhangs. Im medizinischen Kontext: Das Ergebnis eines zusätzlichen Tests (→ X) verbessert die Diagnose (→ Prognose des Y -Werts) umso mehr, je mehr X und Y zusammenhängen. Kapitel 5. Analyse von Zusammenhängen 91 Betrachte zwei Modelle zur Vorhersage des Wertes yi der abhängigen Variable Y einer beliebigen Beobachtung i: Modell 1: verwendet (ausschließlich) die Randverteilung von Y : (h•j ), j = 1, . . . , m. Modell 2: verwendet die gemeinsame Verteilung von (X, Y ) bzw. die bedingte Verteilung von Y gegeben X. Im Beispiel zur Erwerbstätitgkeit berücksichtigt Modell 1 nur die Verteilung der Erwerbstätigkeit unabhängig vom Geschlecht, während Modell 2 zusätzlich noch das Geschlecht der Person i berücksichtigt. Idee: Der Zusammenhang zwischen X und Y ist umso größer, je stärker die Kenntnis von X die Prognose von Y im Vergleich zu Modell 1 verbessert. Definition: PRE = P roportional Reduction in E rror P RE = E2 E1 − E2 =1− E1 E1 wobei E1 : Vorhersagefehler bei Modell 1 E2 : Vorhersagefehler bei Modell 2 PRE ist automatisch auf [0; 1] normiert: • P RE = 1 gilt genau dann wenn E2 = 0, d.h. bei vollständiger Vorhersage bzw. vollständigem Zusammenhang. • P RE = 0 gilt genau dann wenn E1 = E2 , d.h. die Vorhersage wird durch Kenntnis der unabhängigen Variablen nicht unterstützt, d.h. es besteht kein Zusammenhang. Intuitives Beispiel: Y : Beschäftigungsstatus X1 : Geschlecht X2 : Sternzeichen der Nachbarin der Schwiegermutter Kenntnis von X1 verbessert Vorhersage von Y wohl deutlich mehr als die von X2 =⇒ stärkerer Zusammenhang zwischen X1 und Y als zwischen X2 und Y . Guttmans Lambda Basiert auf dem Modus der Randverteilung bzw. der bedingten Verteilungen. • Modell 1 (nur Y ): Modus der Randverteilung. • Modell 2 (mit X): Modi unter der Bedingung X = ai • Fehler im Modell 1: – Richtig vorhergesagt werden alle Einheiten, deren Ausprägungen tatsächlich auf den Modus fallen, das sind maxj (h•j ) Einheiten. 92 5.2. Assoziationsmessung in Kontingenztafeln – Es gilt also E1 = n − max(h•j ). j • Fehler im Modell 2: – Aufspalten nach den einzelnen Werten ai , i = 1, . . . , k. – Korrekt vorhergesagt werden jeweils diejenigen Einheiten, deren Ausprägungen tatsächlich auf den bedingten Modus“ fallen, das sind, für jedes feste i, ” maxj (hij ) Einheiten. – Es gilt also k k X X (hi• − max(hij )) = n − max(hij ) E2 = j i=1 i=1 j PRE-Maß für abhängige Variable Y : µ λY = ! ¶ à k X n − max(h•j ) − n − max(hij ) j E1 − E2 i=1 = E1 n − max(h•j ) j à k ! X max(hij ) − max(h•j ) i=1 = j j j n − max(h•j ) j Wenn unklar ist, welche Variable die abhängige und welche die unabhängige ist, dann bildet man eine symmetrische Version. Dazu betrachtet man zunächst analog die Prognose von X (ohne und mit Y ). Die entsprechende Formel ergibt sich durch Vertauschen der Rolle von X und Y : à m ! X max(hij ) − max(hi• ) j=1 λX = i i n − maxi (hi• ) Symmetrische Version durch poolen“: ” k X λ= i=1 max(hij ) + j m X j=1 max(hij ) − max(h•j ) − max(hi• ) i j 2n − maxj (h•j ) − maxi (hi• ) i . Beispiel: Erwerbstätigkeit von Männern und Frauen beschäftigt Frau 1 Mann 2 ja 1 40 80 120 nein 2 25 5 30 65 85 150 Prognose insgesamt: ja Prognose bei Frauen: ja Prognose bei Männern: ja Kapitel 5. Analyse von Zusammenhängen à k X λY = 93 ! max(hij ) − max(h•j ) j i=1 j = n − max(h•j ) j 40 + 80 − 120 =0 150 − 120 Vorhersage über den Modus ist zu unspezifisch; Maß erkennt hier keinen Zusammenhang. Manipulationsmöglichkeit? Kritisches Einsetzen von Methodenwissen! Extrem konservatives Maß, kann aber z.B. in Medizin (Frage nach Wirksamkeit eines Medikaments mit extrem starken Nebenwirkungen) sehr wichtig sein. Gepoolte Version: Erlaubt? Eigentlich eindeutig: Geschlecht unabhängige Variable. Hier v.a. aus Übungsgründen. k X λ = max(hij ) + j i=1 m X j=1 max(hij ) − max(h•j ) max(hi• ) i j i 2n − maxj (h•j ) − maxi (hi• ) 40 + 80 + 80 + 25 − 120 − 85 20 = = = 0.21 2 · 150 − 120 − 85 95 Eher schwacher Zusammenhang: Die Kenntnis beider Variablen reduziert die durchschnittliche Prognoseungenauigkeit nur um 21%. Vorsicht: Ist dies überhaupt noch ein PRE-Maß? Goodmans und Kruskals Tau Idee: statt deterministischer Vorhersagen (immer Modus) probabilistische Vorhersagen (mit Wahrscheinlichkeiten). Modell 1: Vorhersage bj“ mit Wahrscheinlichkeit f•j , j = 1, . . . , m. (z.B. bei einem ” Beschäftigtenanteil von 2/3 Personen nicht immer Beschäftigung“, sondern ” im Durchschnitt bei 3 Personen 2-mal Beschäftigung“ und 1 mal Arbeitslo” ” sigkeit“, Prognose: Auswürfeln mit Wahrscheinlichkeitsverteilung fi• ) h f ij ij Modell 2: Für jedes i Vorhersage b “ mit Wahrscheinlichkeit f (bj |ai ) = hi• = fi• . ” Man kann zeigen (mit Hilfe der Wahrscheinlichkeitsrechnung, nächstes Semester): (E(Treffer) = E(Treffer|1) · π1 + E(Treffer|2) · π2 + . . . E(Treffer|k) · πk = π1 ·jπ1 + π2 · π2 + . . .) erwarteter Wert von E1 = 1 − m X 2 f•j j=1 erwarteter Wert von E2 = 1 − m X k X fij2 j=1 i=1 fi• Damit ergibt sich: m X k X fij2 τY = j=1 i=1 fi• 1− − m X j=1 m X j=1 2 f•j 2 f•j τX = k X k m X X fij2 − fi•2 f •j i=1 j=1 i=1 1− k X i=1 fi•2 94 5.2. Assoziationsmessung in Kontingenztafeln und die symmetrische Form m X k X fij2 τ= k X m m k X X X fij2 2 + − f•j − fi•2 fi• i=1 j=1 f•j j=1 i=1 j=1 i=1 2− m X 2 f•j j=1 − k X fi•2 i=1 heißt Goodmans und Kruskals τ . Beispiel: Erwerbstätigkeit von Männern und Frauen beschäftigt Frau 1 Mann 2 ja 1 40 80 120 nein 2 25 5 30 65 85 150 In relative Häufigkeiten umrechnen: m X k X fij2 τY = j=1 i=1 fi• 1− 2 f11 = = = f1• + − 1 2 1 4 15 1 6 13 30 2 8 15 1 30 17 30 4 5 1 5 1 m X 2 f•j j=1 m X 2 f•j j=1 2 f21 f2• 2 f12 f2 2 2 ) + f•2 + 22 − (f•1 f1• f2• 2 2 ) + f•2 1 − (f•1 + (4/15)2 (8/15)2 (1/6)2 (1/30)2 + + + − 13/30 17/30 13/30 17/30 õ ¶ µ ¶2 ! 2 1 4 + 1− 5 5 0.732 − 8 25 17 25 ≈ 0.1625 õ ¶ µ ¶2 ! 2 1 4 + 5 5 Kapitel 5. Analyse von Zusammenhängen 5.3 95 Zusammenhangsanalyse bivariater ordinaler Merkmale Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y (mindestens) ordinales Meßniveau aufweisen. Beachte: Beide Merkmale müssen ordinal sein, bei einem ordinalen und einem nominalem Merkmal sind Methoden für nominale Merkmale zu verwenden. Beispiel: Schweizer Arbeitsmarktsurvey (aus Jann, 2002, S. 82) Merkmale: X: Bildung Y : Einkommen jeweils mit den Ausprägungen: 1 2 3 @Y X @ 1 2 3 1 niedrig mittel hoch 2 262 125 496 837 160 361 918 1323 3 8 149 268 425 395 1482 789 2666 Ferner betrachte man die folgenden Einheiten (fiktiv): Person 1 2 3 4 5 6 Ausprägung von Y Einkommen 3 (hoch) 2 (mittel) 3 (hoch) 1 (niedrig) 2 (mittel) 1 (niedrig) Ausprägung von X Bildung 3 (hoch) 1 (niedrig) 2 (mittel) 1 (niedrig) 1 (niedrig) 3 (hoch) Da ordinalskalierte Merkmale betrachtet werden, spielt bei Fragen nach Zusammenhängen die Richtung eine Rolle. In Verallgemeinerung zu den Überlegungen bei den dichotomen Merkmalen definiert man: • gleichsinniger (gleichläufiger) Zusammenhang: hohe Y -Werte gehören zu großen XWerten und kleine Y -Werte zu kleinen X-Werten. • gegensinniger (gegenläufiger) Zusammenhang hohe Y -Werte gehören zu niedrigen X-Werten und umgekehrt. Idee: Betrachte alle Paare von Einheiten und zähle, wie oft sich ein gleichsinniger und wie oft sich ein gegensinniger Zusammenhang zeigt. 96 5.3. Zusammenhangsanalyse bivariater ordinaler Merkmale Definition: Gegeben sei die Urliste eines bivariaten Merkmals (X, Y ), wobei X und Y jeweils ordinales Skalenniveau besitzen. Ein Paar (i, j), i 6= j, von Einheiten mit den Ausprägungen (xi , yi ) und (xj , yj ) heißt a) konkordant (gleichläufig), falls entweder xi > xj und yi > yj oder xi < xj und yi < yj gilt. Beispiele: • (1,2), d.h. Personen 1 und 2 bilden ein konkordantes Paar, denn 3 = y1 > y2 = 2 und 3 = x1 > x2 = 1 • (3,4), d.h. Personen 3 und 4 konkordant, denn 3 = y3 > y4 = 1 und 2 = x3 > x4 = 1 • (3,6), d.h. Personen 3 und 6 nicht konkordant, denn 3 = y3 > y6 = 1 aber 2 = x3 < x6 = 3 • (2,4), d.h. Personen 2 und 4 nicht konkordant, denn 2 = y2 > y4 = 1 aber 1 = x2 = x4 = 1 b) diskordant (gegenläufig), falls entweder xi > xj und yi < yj oder xi < xj und yi > yj gilt. Beispiele: • (3, 6) ist diskordant: x3 < x6 aber y3 > y6 • Nicht jedes nicht konkordante Paar ist diskordant: (2, 4) ist nicht konkordant, aber auch nicht diskordant, denn es gilt zwar y2 > y4 , aber x2 = x4 . c) ausschließlich in X gebunden, falls xi = xj und yi 6= yj Beispiel: (1, 3), denn 3 = x1 = x3 = 3, 3 = y1 6= y3 = 2) Kapitel 5. Analyse von Zusammenhängen 97 d) ausschließlich in Y gebunden, falls xi 6= xj und yi = yj Beispiel: (2, 4), denn 2 = x2 6= x4 = 1, 1 = y2 = y4 = 1) e) in X und Y gebunden, falls xi = xj und yi = yj Ferner bezeichne • C die Anzahl der konkordanten Paare, • D die Anzahl der diskordanten Paare, • TX die Anzahl der Paare mit Bindungen ausschließlich in X, • TY die Anzahl der Paare mit Bindungen ausschließlich in Y , • TXY die Anzahl der Paare mit Bindungen in X und Y . Die Bezeichnung T“ kommt vom englischen Ties“. ” ” Vorsicht: In der Literatur wird manchmal TXY bei TX und TY dazugezählt =⇒ andere Formeln! Zur Berechnung geht man die Kreuztabelle Zelle für Zelle durch und zählt jeweils die entsprechenden Paare ab. In jedem Paar von Einheiten mit den Ausprägungen (ai , bj ) lässt sich die Kreuztabelle zerlegen“. Sei a1 < a2 < . . . ai < . . . ak und b1 < b2 < . . . bj < . . . bm , ” dann gilt: b1 b2 ... bj ... Einheiten, die ein diskordantes Paar erzeugen bm a1 .. . ai .. . ————— ⊗ Einheiten, die ein konkordantes Paar erzeugen ——— Einheiten, die ein Paar mit Bindung in X und Y erzeugen = Zellenhäufigkeit - 1 ak Einheiten, die ein Paar mit Bindung nur in X erzeugen Einheiten, die ein Paar mit Bindung nur in Y erzeugen Summiert man jeweils auf, so hat man jedes Paar doppelt gezählt, so dass man durch 2 teilen muss. Es gibt intelligentere, aber dafür unübersichtlichere Arten zu zählen. Beispiel: Schichtzugehörigkeit und Aggressivität Unter 1 Mittel 2 Ober 3 ja nein 1 2 2 2 1 1 5 1 8 4 4 2 6 12 98 5.3. Zusammenhangsanalyse bivariater ordinaler Merkmale Zelle (ai , bj ) hij für C für D für TY für TX TXY = hij − 1 (1,1) (1,2) (2,1) (2,2) (3,1) (3,2) 2 2 1 1 5 1 1+1=2 0 1 2 0 2+1=3 0 1+5=6 2 5 3 0 1+5=6 1+1=2 7 2+1=3 3 2+1=3 2 2 1 1 1 5 1 1 0 0 4 0 C = D = TY = TX = T = 1 2 1 2 1 2 1 2 1 2 · (2 · 2 + 2 · 0 + 1 · 1 + 1 · 2 + 5 · 0 + 1 · 3) = 5 · (2 · 0 + 2 · 6 + 1 · 2 + 1 · 5 + 5 · 3 + 1 · 0) = 17 · (2 · 6 + 2 · 2 + 1 · 7 + 1 · 3 + 5 · 3 + 1 · 3) = 22 · (2 · 2 + 2 · 2 + 1 · 1 + 1 · 1 + 5 · 1 + 1 · 5) = 10 · (2 · 1 + 2 · 1 + 1 · 0 + 1 · 0 + 5 · 4 + 1 · 0) = 12 Zur Kontrolle: Insgesamt muss es Hier: n(n−1) 2 = 12·11 2 n(n−1) 2 verschiedene Paare geben. = 66 Zusammenhangsmaße für ordinale Daten betrachten nun die (geeignet normierte) Differenz von konkordanten und diskordanten Paaren; sie unterscheiden sich lediglich in der Behandlung von Bindungen und damit in der Normierung. Definition: Zusammenhangsmaße für ordinale Daten τa := heißt Kendalls Taua , C −D n·(n−1) 2 C −D τb := p (C + D + TX ) · (C + D + TY ) heißt Kendalls Taub und γ := C −D C +D heißt Goodmans und Kruskals Gamma. Eigenschaften • Die Maßzahlen liegen jeweils zwischen −1 und 1. • Der Zusammenhang ist umso stärker, je größer der Betrag ist. (0: kein Zusammenhang, -1,+1: perfekter Zusammenhang). Kapitel 5. Analyse von Zusammenhängen 99 • Das Vorzeichen gibt Auskunft über die Richtung des Zusammenhangs: +: positiver (gleichläufiger) Zusammenhang −: negativer (gegenläufiger) Zusammenhang • Allgemein gilt: |τa | ≤ |τb | ≤ |γ|. Liegen keine Bindungen vor, sind aber alle Maßzahlen gleich. • Bei Bindungen kann τa die Extremwerte −1 und 1 nicht erreichen, selbiges gilt bei asymmetrischen Tabellen (k 6= m) für τb . • Die Maßzahlen basieren auf einem etwas unterschiedlichen Verständnis des Begriffs Zusammenhang“. γ vernachlässigt Bindungen völlig und ist daher ein Maß für die ” Stärke eines schwach monotonen Zusammenhangs, während τa und τb sich eher auf stark monotone Zusammenhänge beziehen. Zum Verständnis: schwach monoton steigend: x < y =⇒ f (x) ≤ f (y) stark monoton steigend: x < y =⇒ f (x) < f (y) schwach: Leute mit gößerer formaler Bildung haben nicht weniger Einkommen als Leute mit mittlerer formaler Bildung. stark: Leute mit größerer formaler Bildung haben höheres Einkommen als Leute mit mittlerer formaler Bildung. • Wegen der Vernachlässigung von Bindungen reagiert γ sensibel auf das Zusammenfassen von Katagorien. • γ ist eine Verallgemeinerung von Yules Q. Beispiel: Aggressivität und Schichtzugehörigkeit Mit den Ergebnissen C = 5, D = 17, TY = 22, TX = 10, n = 12) ergibt sich τa = C −D n·(n−1) 2 = 5 − 17 12·11 2 =− 2 = −0.18 11 C −D 5 − 17 √ =√ τb = p 5 + 17 + 10 · 5 + 17 + 22 (C + D + TX ) · (C + D + TY ) −12 √ = −0.32 = √ 44 · 32 C −D −12 γ = = = −0.54 C +D 22 Interpretation: (Zuerst Vorzeichen, dann Wert) • Vorzeichen: negativ, also gegenläufiger Zusammenhang. Große Werte in X bewirken tendenziell kleine Werte in Y , also Tendenz: hohe Schicht −→ latent aggressiv 100 5.4. Zusammenhangsanalyse bivariater quasi-stetiger Merkmale • Stärke: Schwach (τa ), mäßig stark (τb ) bis deutlich (γ) aber beachten: γ misst auch nur schwach monotonen Zusammenhang, d.h. mit höherer Schicht nimmt die latente Aggressivität nicht ab (steigt aber auch nicht für alle Personen systematisch, sonst wären τa und τb grösser). Beispiel: Schweizer Arbeitsmarktsurvey τb = 0.332, γ = 0.533 Ähnliche Interpretation, jetzt aber positives Vorzeichen! Einkommen steigt tendenziell mit der Bildung, Bildung wirkt sich jedenfalls im Durchschnitt nicht nachteilig aus. 5.4 Zusammenhangsanalyse bivariater quasi-stetiger Merkmale Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig und mindestens ordinalskaliert sind. Teilweise wird auch der Fall gestreift, dass nur ein Merkmal quasi-stetig und das andere nominalskaliert ist. Beispiele: • Nettomiete ←→ Wohnfläche • Autoritarismusscore vor/nach einer Informationsveranstaltung • Monatseinkommen ←→ Alter in Jahren • Wochenarbeitseinkommen ←→ Wochenarbeitsstunden • Wochenarbeitsstunden ←→ Hausarbeit in Stunden pro Woche • Wochenarbeitsstunden (tatsächlich) ←→ Wochenarbeit (vertraglich) 5.4.1 Streudiagramme (Scatterplots) Sind die Merkmale stetig oder zumindestens quasi-stetig (sehr viele verschiedene Ausprägungen), werden Kontingenztabellen sehr unübersichtlich und praktisch aussagelos, da die einzelnen Häufigkeiten in den Zellen der Tabellen sehr klein sind. Alternative Darstellungsform: Scatterplot / Streudiagramm: Zeichne die Punkte (xi , yi ), i = 1, . . . , n, in ein X-Y -Koordinatensystem. =⇒ Guter optischer Eindruck über das Vorliegen, die Richtung und gegebenenfalls die Art eines Zusammenhangs. =⇒ Ausreißer werden leicht erkannt. Quelle für Beispiele: Jann (2002), p. 85 ff. Kapitel 5. Analyse von Zusammenhängen 101