Kapitel 4 Konzentrationsmaße

Transcription

Kapitel 4 Konzentrationsmaße
Kapitel 4
Konzentrationsmaße
Warum reicht die Varianz nicht zur Konzentrationsmessung aus?
Betrachtet man die Merkmale XA ( Einkommen in Land A“) und XB ( Einkommen in
”
”
Land B“) mit folgender Häufigkeitsverteilung
Land A
aj
fj
10 0.1
100 0.9
j
1
2
j
1
2
Land B
aj
fj
10 0.9
100 0.1
so gilt s̃2XA = s̃2XB , obwohl die Verteilungen ganz unterschiedlich sind.
6
A
6
r
r
B
r
Arm
r
Reich
Arm
Reich
In Land A haben Wenige ein geringes Einkommen, während in Land B Viele ein geringes
Einkommen haben.
• Gleicher Wert der Varianz / Streuung, aber ganz unterschiedliches Streuverhalten“.
”
• Die üblichen Streuungsmaße messen symmetrisch die Variabilität um das Zentrum
(arithmetisches Mittel, Median). Überschreiten und Unterschreiten des Mittelwerts
werden also gleich gewichtet, geben aber keine Auskunft über die Gleichmäßigkeit
der Verteilung bzw. über die sog. Konzentration.
• Grundfrage der Konzentrationsmessung: Wie verteilt sich die Gesamtsumme (etwa das Vermögen) unter den einzelnen Einheiten? Beispiel: Welchen Anteil am
Gesamtvermögen haben die Reichsten?
Durchgängige Annahmen in diesem Kapitel:
• X sei ein verhältnisskaliertes Merkmal mit Urliste x1 , . . . , xn .
55
56
4.1. Relative Konzentrationsmessung
• xi ≥ 0, für alle i = 1, . . . , n und
n
X
xi > 0 (d.h mindestens ein Wert ist von Null
i=1
verschieden).
• Betrachtet werden die der Größe nach geordneten Daten:
x(1) ≤ x(2) ≤ . . . ≤ x(n)
• Achtung: Die Klammern im Index werden in der Literatur oft weggelassen (z.B in
Fahrmeir et al., 2007). Dann muss man vor dem Anwenden der dortigen Formeln
die Daten ordnen. Später wird allerdings, wenn auf die Ausprägungen a1 , . . . , ak
übergegangen wird, angenommen, dass a1 < a2 < . . . < ak gilt, dass also diese
Ausprägungen bereits geordnet sind.
4.1
Relative Konzentrationsmessung
4.1.1
Lorenzkurve
• Erste und bekannteste Form der Konzentrationsmessung.
• Bezeichne mit
j
n
den Anteil der j kleinsten Merkmalsträger und mit
uj :=
j
X
x(i)
i=1
n
X
vj :=
j
X
=
xi
i=1
i=1
n
X
x(i)
x(i)
i=1
den anteiligen Beitrag dieser Einheiten ( kumulierte relative Merkmalssumme“) zur
”
Gesamtsumme
n
n
X
X
xi =
x(i) .
i=1
i=1
• Die stückweise lineare Kurve durch die Punkte (0, 0), (u1 , v1 ), (u2 , v2 ), . . ., (un , vn )
= (1, 1), heißt Lorenzkurve.
´´
´
´
´
´
´
´
´
´
´
´
´
´
´
´
1
Kapitel 4. Konzentrationsmaße
57
Interpretation der Lorenzkurve:
• Der Punkt (uj , vj ) bedeutet: Die uj · 100% Einheiten mit den kleinsten Ausprägungen (z.B. die 90% Ärmsten) haben vj · 100% des Gesamtbestandes (z.B. 8.25% des
Gesamtvermögens).
• Wie liegen die Punkte bei minimaler Konzentration? (Konzentration=0, entspricht
gleichmäßiger Verteilung)
10%
20%
kleinste haben 10%
”
”
20% usw.
Es gilt also uj = vj für alle j, d.h. die Punkte (uj , vj ) liegen auf der Winkelhalbierenden.
• Die Lorenzkurve ist nach unten gewölbt“ (konvexe Funktion). Punkte oberhalb der
”
Winkelhalbierenden kommen nicht vor.
• Ähnlich überlegt man sich: die Kurve muss monoton wachsend sein.
Gegenbeispiel: z.B. Punkte (0.6,0.8) und (0.7,0.7) würden bedeuten: die 60% Ärmsten haben 80% des Vermögens aber die 70% Ärmsten haben nur 70% des Vermögens.
• Extremfall: vollständige Konzentration
n − 1 Personen haben gar nichts
n-te
Person hat alles
1
*
©
©© ¥
©
¥
©©
¥
©
¥
©©
©
¥
©
¥
©©
©
¥
©
©
•¥
n−1
n
1
• Konzentration 0 bedeutet gleichmässige Verteilung“ in dem Sinne, dass jede Einheit
”
denselben Wert bzw. denselben Anteil an der Gesamtsumme hat. Dies bedeutet
x1 = x2 = . . . = xn und damit hj∗ = n bzw. fj∗ = 1 für eine bestimmte Ausprägung
aj∗ = x1 .
Dies ist zu unterscheiden von der sog. Gleichverteilung der Häufigkeiten. Dort ist
h1 = h2 = . . . = hk , also jede Ausprägung aj gleich häufig vertreten.
r
alle denselben Wert,
Konzentration 0
jeder Wert gleich häufig
• • • • •
58
4.1. Relative Konzentrationsmessung
• Je weiter die Kurve von der Winkelhalbierenden entfernt ist, also je tiefer ceteris
paribus vj ist, umso stärker ist die Konzentration.
• Insbesondere bei größeren Datensätzen vereinfacht sich die Berechnung wesentlich,
wenn man die relativen/absoluten Häufigkeiten f1 , . . . , fk bzw. h1 , . . . , hk der der
Größe nach geordneten Merkmalsausprägungen a1 < a2 < . . . < ak benutzt. Dann
ist für j = 1, . . . , k
j
j
X
hl X
uj =
=
fl = F (aj )
n
l=1
l=1
und
j
X
vj =
l=1
k
X
j
X
hl · al
=
hl · al
l=1
l=1
k
X
fl · al
=
fl · al
partielles arith. Mittel über die ersten j
.
x̄
l=1
• Ist bei klassierten Daten mit den Klassen [c0 , c1 ), [c1 , c2 ), . . . , [ck−1 , ck ] die Merkmalsverteilung in den Klassen nicht bekannt, so nimmt man wie bei den Berechnungen
zum arithmetischen Mittel als Approximation an, dass alle Ausprägungen in dieser
Klasse auf die Klassenmitte ml = cl−12+cl fallen und erhält:
j
X
vj =
hl · ml
l=1
k
X
.
hl · ml
l=1
(untere Abschätzung: in jeweiliger Klasse keine Konzentration).
• Während normalerweise bei Lorenzkurven nur die Punkte (0, 0), (u1 , v1 ), . . . interpretierbar sind, sind bei klassierten Daten auch die linearen Zwischenstücke interpretierbar.
Berechnung der Lorenzkurve im Beispiel:
j
X
l
aA
l
flA
j
X
flA
= uj
flA aA
l
l=1
1
2
10
100
0.1
0.9
j
X
flA aA
l
l=1
0.1
1
0.1 · 10 = 1
0.9 · 100 = 90
1
91
l=1
k
X
l=1
1
91
fl · al
= vjA
fl · al
= 0.0109
1
Kapitel 4. Konzentrationsmaße
l
aB
l
flB
1
2
10
100
0.9
0.1
j
X
l=1
59
flB = uj
j
X
flB aB
l
0.9
1
0.9 · 10 = 9
0.1 · 100 = 10
´
l=1
´
´
flB aB
l
9
19
vjB
9
19
= 0.47
1
´
´
´
´
´
´
´
´
´
´
´
´
´
4.1.2
1
Gini-Koeffizient
Will man die Konzentration durch eine einzige Maßzahl beschreiben, so liegt es nahe, die
Fläche zwischen der Winkelhalbierenden und der Kurve heranzuziehen.
Definition: Gegeben sei die geordnete Urliste x(1) , x(2) , . . . , x(n) eines verhältnisskalierten
Merkmals X. Dann heißt
P
2· ni=1 i· x(i) n + 1
P
G :=
−
n ni=1 xi
n
Gini-Koeffizient und
G∗ :=
n
·G
n−1
normierter Gini-Koeffizient (Lorenz-Münzner-Koeffizient).
Bemerkungen:
• Man kann zeigen (Herleitung über Trapezformel, z.B. Toutenburg, 2006): Es gilt
G =
Fläche zwischen Winkelhalbierender und Lorenzkurve
Fläche zwischen Winkelhalbierender und Abszisse
= 2 · Fläche zwischen Winkelhalbierender und Lorenzkurve
• Es gilt bei minimaler Konzentration G = 0 und bei maximaler Konzentration G =
n−1
.
n
• Damit ist also G∗ = 0 bei minimaler Konzentration und G∗ = 1 bei maximaler
≈ 1, also G∗ ≈ G.
Konzentration. Ist n sehr groß, so gilt n−1
n
60
4.1. Relative Konzentrationsmessung
• Betrachtet man die geordneten Ausprägungen a1 < a2 < . . . < ak mit den Häufigkeiten h1 , h2 , . . . , hk , so gilt
k
X
(ul−1 + ul )hl · al
k
X
(ul−1 + ul )fl · al
G=
l=1
k
X
−1=
l=1
k
X
fl · a l
l=1
−1
hl · al
l=1
mit
j
1X
uj =
hl
n l=1
und u0 := 0.
Beispiel:
l
Land I: al
fl
ul
fl · a l
j
X
j
X
fl al
l=1
k
X
fj aj
1
2
0.5
0.5
1
1
1
10
2
18
0.5
1
9
10
1
l
Land II: al
fl
ul
fl · al
j
X
j
X
fl al
l=1
k
X
fl al
fl al
1
10
0.9
0.9
9
9
1
2
2
90
0.1
1
9
18
1
l=1 (ul−1 + ul )fl al
Pk
l=1 fl al
−1
Die Formel
Pk
G=
vereinfacht sich hier zu
G=
(0 + u1 ) · f1 · a1 + (u1 + u2 ) · f2 · a2
−1
f1 · a1 + f2 · a2
und man erhält für
Land I:
0.5 · 0.5 · 2 + (0.5 + 1) · 0.5 · 18
−1
0.5 · 2 + 0.5 · 18
= 1.4 - 1 = 0.4
G =
fl al
Kapitel 4. Konzentrationsmaße
61
Land II:
G
0.9 · 0.9 · 10 + (0.9 + 1) · 0.1 · 90
−1
0.9 · 10 + 0.1 · 90
= 1.4 - 1 = 0.4
=
Alternativ kann man direkt mit den Flächen rechnen: G = 2 · Fläche zwischen Winkelhalbierender und Lorenzkurve.
Land I: Berechne zunächst die Fläche unter der Lorenzkurve:
0.5·0.1
2
+ 0.5 · 0.1 + 0.9·0.5
= 0.3
2
¡1
¢
⇒ G = 2 · 2 − 0.3 = 0.4
Analog für Land II:
0.9·0.5
2
+ 0.1 · 0.5 +
0.1·0.5
2
= 0.3
⇒ G = 2 · ( 12 − 0.3) = 0.4
Wie man sieht, können unterschiedliche Situationen zu demselben Gini-Index führen.
⇒ auch Lorenzkurven betrachten!
4.1.3
Quantilsbezogene relative Konzentrationsmessung
Oft werden Daten quantilsbezogen vergröbert bzw. zusammengefasst und auch nur die
entsprechenden Anteile der Merkmalssumme in den Quantilen angegeben.
Beispiel: Einkommenskonzentration in Brasilien
Quintile der Bevölkerung:
Prozent des Einkommens:
20%
2.5
z1
40%
4.9
z2
60%
9.2
z3
80%
18.3
z4
100%
65.2
z5
(Summe Prozent > 100 wegen Rundung)
Für α, 2α, 3α, . . . (α = 0.2 im Beispiel) erhält man die zugehörigen v-Werte“ der Lorenz”
kurve v1 , v2 , v3 , . . ., durch
jα·n
X
x(i)
X
i=1
=
zj
vj = n
X
l≤j
x(i)
i=1
Also im Beispiel:
u1
u2
u3
u4
u5
= α = 0.2
= 2α = 0.4
= 3α = 0.6
= 4α = 0.8
= 5α = 1
v1
v2
v3
v4
v5
= z1
= z1 + z2 = 2.5% + 4.9%
= z1 + z2 + z3
= z1 + z2 + z3 + z4
= z1 + z2 + z3 + z4 + z5
= 2.5%
= 7.4%
= 16.6%
= 34.9%
≈ 100%
62
4.1. Relative Konzentrationsmessung
Damit lässt sich die Lorenzkurve an den Punkten (α, v1 ), (2α, v2 ),. . . darstellen.
Berechnung des Gini-Koeffizienten: Beim Gini-Koeffizienten muss man sich mit einer
Zusatzannahme behelfen: Wenn im jeweiligen Quantil alle Einkommen gleich sind, so hat
man Häufigkeitsdaten mit den Ausprägungen a1 , a2 , . . . , ak vorliegen, d.h. al ist der Wert
im l-ten Quantil und man erhält
k
X
G =
(ul−1 + ul )fl · al
l=1
k
X
−1
fl · al
l=1
k
X
=
(ul−1 + ul ) ·
l=1
fl
k
X
· al
−1
fl · al
l=1
à l
!
X
(ul−1 + ul ) · zl − 1
=
l=1
Dieser so berechnete Wert von G ist eine untere Schranke für das wahre G!
(insb. Verlauf im letzten Quantil verschleiert!)
Zurück zum Beispiel Brasilien:
G ≈
=
k
X
(ul−1 + ul ) · zl − 1
l=1
(0 + 0.2) · 0.025 + (0.2 + 0.4) · 0.049+
+ (0.4 + 0.6) · 0.092+
+ (0.6 + 0.8) · 0.183+
+ (0.8 + 1) · 0.652 − 1
= 0.5562
Weitere Gini-Koeffizienten:
China
0.3460
Deutschland 0.3034
Finnland
0.2460
Kann es wirklich sein, dass die Einkommenskonzentration in Deutschland ungefähr diesselbe
ist wie in Niger? Ja, denn betrachtet wird hier nur die Verteilung der Gesamtsumme und keine
absoluten Werte.
4.1.4
Weitere relative Konzentrationsmaße
Insbesondere basierend auf der natürlichen, äquidistanten Einteilung“ mit Hilfe von
”
Quantilen lassen sich weitere relative Konzentrationsmaße definieren:
Kapitel 4. Konzentrationsmaße
63
Robin-Hood-Index (Wagschal, 1999, S.135ff)
• Idee: Wieviel müsste den Reichen weggenommen werden, um zu einer Konzentration
von 0 zu kommen?
• Ermittle jeweils für jedes j für das j · α-Quantil den Abstand seines Anteils zu α.
• Aufaddieren der positiven Abstände liefert den Robin-Hood-Index. Dieser Anteil
müsste verteilt werden, um zu einer gleichen Verteilung zu kommen!
• Grafische Bestimmung des Robin-Hood-Indexes ⇒ Wagschal (1999, S.132).
Quantilverhältnisse
• Bilde das Verhältnis von (1 − α)- und α-Quantil, zum Beispiel:
x0.9
Dezilverhältnis (falls x0.1 > 0).
x0.1
• Interpretation am Beispiel des Einkommensvergleichs: Um welchen Faktor ist der
Besitz der 10% Reichsten größer als der Besitz der 10% Ärmsten.
• Minimale Konzentration erhält man, wenn alle Beobachtungen in einem Punkt zusammenfallen. Dann gilt beispielsweise x0.1 = x0.9 und damit Dezilverhältnis = 1.
• Vorsicht: Ist das Dezilverhältnis = 1, so folgt nicht automatisch, dass minimale
Konzentration vorliegt. Beispiel: 99% besitzen praktisch gar nichts, 1% fast alles,
dann ist das Dezilverhältnis auch 1.
Problematisch bei der Betrachtung extremer Ungleichheit, beispielsweise für Einkommen in Entwicklungsländern.
• Für die Einkommensverhältnisse in OECD-Ländern dagegen sehr anschauliches Maß.
Beispiel: Dezilverhältnisse des Einkommens von Vollbeschäftigten im internationalen
Vergleich (Wagschal, 1999, S.138)
Norwegen
Schweden
Dänemark
Belgien
Finnland
Deutschland
Niederlande
Schweiz
Australien
4.2
1.98
2.13
2.17
2.25
2.29
2.32
2.59
2.71
2.79
Italien
Neuseeland
Japan
Frankreich
Großbritannien
Österreich
Kanada
Portugal
USA
2.80
3.04
3.04
3.26
3.33
3.58
4.02
4.05
4.16
Absolute Konzentrationsmessung
• Alle bisherigen Maße betrachteten die relative Konzentration: Sowohl die uj als auch
die vj waren Anteile.
64
4.2. Absolute Konzentrationsmessung
• Zu unterscheiden davon ist die absolute Konzentration, die die absolute Zahl der
Merkmalsträger miteinbezieht.
• Beispiel Duopolsituation (Markt mit nur zwei Anbietern): Haben beide denselben
Umsatz, so ist die relative Konzentration 0, es liegt aber eine sehr starke absolute
Konzentration vor.
• Es ist jeweils inhaltlich zu entscheiden, welche der beiden Arten von Konzentration
von Interesse ist.
• Relative Konzentrationsmessung ist heranzuziehen, wenn
– die Merkmalssumme auf sehr viele Einheiten verteilt wird, oder
– bei der Frage: Herrscht im Markt ein Übergewicht?
• Absolute Konzentrationsmaße werden v.a. dann verwendet, wenn die Merkmalsumme nur auf wenige Einheiten aufgeteilt wird.
Konzentrationsrate Naheliegende Idee zur Messung absoluter Konzentration: Betrachte
den Anteil, der auf die größten g Einheiten entfällt (nicht auf die größten g% Einheiten).
Definition: Sei 0 P
≤ x(1) ≤ x(2) ≤ . . . ≤ x(n) die geordnete Urliste eines verhältnisskalierten Merkmals mit ni=1 xi > 0. Mit
p(i) :=
x(i)
n
X
xj
j=1
heißt
CRg :=
n
X
p(i)
i=n−g+1
Konzentrationsrate vom Grad g.
• Bestandteile der Formel:
– p(i) Anteil der i-ten Beobachtung am gesamten Vermögen/Markt/etc.
– Summiert werden die Indizes
n − g + 1,
n − g + 2,
...,
n,
also in der Tat über die g Einheiten mit den größten Ausprägungen.
• Maximale Konzentration:
CR1 = 1
(die größte Beobachtung hat alles).
Kapitel 4. Konzentrationsmaße
65
• Minimale Konzentration: x(1) = x(2) = . . . = x(n) =: x . Dann gilt
p(i) =
x(i)
n
X
=
xi
x
n·x
i=1
und damit
CRg =
n
X
p(i) =
i=n−g+1
g
n
• Wahl von g? Typischerweise klein“: 2 oder 3
”
Beispiel: Zweitstimmenanteile politischer Parteien bei Bundestagswahlen 1949–2005 (Waagschal, 1999, S.142)
1949
1953
1965
1972
1983
1994
2002
2005
CDU/CSU 31,0% 45,2% 47,6% 44,9% 48,8% 41,5% 38,5% 35,2%
SPD
29,2% 28,8% 39,3% 45,8% 38,2% 36,4% 38,5% 34,2%
FDP
11,9% 9,5% 9,5% 8,4% 7,0% 6,9% 7,4% 9,8%
Grüne
- 5,6% 7,3% 8,6% 8,1%
Sonstige
27,9% 16,5% 3,6% 0,9% 0,4% 7,9% 7,0% 12,7%
Es ergeben sich folgende Konzentrationsraten für das Parteiensystem der Bundesrepublik
Deutschland für die untersuchten Jahre:
CR2 (1949)
CR2 (1953)
CR2 (1965)
CR2 (1972)
CR2 (1983)
CR2 (1994)
CR2 (2002)
CR2 (2005)
=
=
=
=
=
=
=
=
(31,0+29,2)/100 = 0,602
(45,2+28,8)/100 = 0,740
(47,6+39,3)/100 = 0,869
0,907
0,870
0,779
0,770
0,694
CR3 (1949)
CR3 (1953)
CR3 (1965)
CR3 (1972)
CR3 (1983)
CR3 (1994)
CR3 (2002)
CR3 (2005)
=
=
=
=
=
=
=
=
(31,0+29,2+11,9)/100 = 0,721
(45,2+28,8+9,5)/100 = 0,835
(47,6+39,3+9,5)/100 = 0,964
0,991
0,940
0,852
0,856
0,792
Herfindahl-Index: Die Konzentrationsrate berücksichtigt nur die g größten Werte. Will
man dies nicht, so empfiehlt sich der sogenannte Herfindahl-Index.
66
4.2. Absolute Konzentrationsmessung
Definition: Sei 0 P
≤ x(1) ≤ x(2) ≤ . . . ≤ x(n) die geordnete Urliste eines verhältnisskalierten Merkmals mit ni=1 xi > 0. Mit
p(i) :=
x(i)
n
X
xj
j=1
heißt
H :=
n
X
p2(i)
=
i=1
n
X
p2i
i=1
Herfindahl -Index (wobei die Reihenfolge keine Rolle spielt, wenn alle Merkmalsträger in
die Berechnung eingehen). Die Größe 1 − H wird auch als Rae-Index bezeichnet.
Eigenschaften :
• H liegt zwischen
1
n
und 1.
• Minimale Konzentration ergibt sich bei p(i) = n1 :
H=
n µ ¶2
X
1
i=1
n
=n·
1
1
=
2
n
n
• Maximale Konzentration ergibt sich bei p(n) = 1 und p(i) = 0 für alle restlichen i.
H = 1.
• In der Tat wird die absolute Konzentration gemessen: Hat man q Einheiten mit
jeweils gleichen Anteilen, so gilt:
q=1
q=2
q=3
H=1
H = ( 12 )2 + ( 12 )2 = 12
H = ( 13 )2 + ( 13 )2 + ( 13 )2 =
1
3
während für den Gini-Koeffizienten immer G = 0 gilt.
Beispiel: Herfindahl- und Rae-Index des deutschen Parteienwesens (2005).
p(i)
CDU/CSU
35,2%
SPD
34,2%
FDP
9.8%
Grüne
8.1%
Linkspartei
8.7%
Sonstige (als eine Partei) 4,0%
H = 0.2662
⇐⇒
p2(i)
0.1239
0.1169
0.9604
0.6561
0.7569
0.1600
RAE = 0.7398
Kapitel 4. Konzentrationsmaße
67
Beispiel: Durchschnittliche Fraktionalisierung von Parteiensystemen (Waagschal, 1999,
S. 145).
Land
USA
Österreich
Großbritannien
Deutschland
Schweiz
Italien
Frankreich
Niederlande
Finnland
durchschnittlicher
Rae-Index 1945-93
0.53
0.60
0.62
0.64
0.71
0.75
0.79
0.79
0.82
Kapitel 5
Analyse von Zusammenhängen
5.1
Multivariate Merkmale
Gerade in der Soziologie ist die Analyse eindimensionaler Merkmale nur der allererste
Schritt zur Beschreibung der Daten. Meist ist die Analyse von Zusammenhängen zwischen
Merkmalen von grösserem Interesse.
Beispiele für typische Fragestellung:
• Beeinflusst das Geschlecht das Erwerbseinkommen?
• Gibt es einen Zusammenhang zwischen Schichtzugehörigkeit (als etwas veralteter,
dennoch klassischer soziologischer Begriff) und Aggressionsneigung?
• Spielt die Stärke der Kirchenbindung eine Rolle bei der Parteienpräferenz?
• Haben Studierende mit guten Mathematikvorkenntnissen bessere Statistiknoten?
Hierzu werden an jeder Einheit mehrere Merkmale erhoben und ihre Ausprägungen auch
gemeinsam analysiert (z.B. wird das Geschlecht der i-ten Person mit ihrem Einkommen
in Beziehung gesetzt).
Hat man z.B. die Merkmale X, Y, Z, so nennt man das Paar (X, Y ) bzw. das Tripel
(X, Y, Z) ein zweidimensionales (bivariates) bzw. dreidimensionales Merkmal (trivariates)
Merkmal. Allgemein spricht man von mehrdimensionalen Merkmalen.
½
1 Hutträger
X=
0 kein Hutträger
½
1 Blumen ja
Y =
0 Blumen nein
(X, Y ) : Ω −→ (ω1 , ω2 )
ω 7−→ (X(ω), Y (ω))
68
Kapitel 5. Analyse von Zusammenhängen
69
Achtung:
• Die folgenden statistischen Verfahren messen die Stärke von Zusammenhängen, aber
erlauben keine Aussagen über Kausalität!
• Ob eine kausale Interpretation des Zusammenhangs zulässig ist, hängt davon ab,
wie die Daten erhoben wurden.
• Statistische Zusammenhänge können nicht klären:
– die Richtung des Zusammenhangs (was ist Ursache, was Wirkung?)
⇒ Längsschnitt-Studie, cross-lag“ Design
”
– ob eine dritte, evtl. unbeobachtete Variable den Zusammenhang verursacht
⇒ Experiment
5.2
5.2.1
Assoziationsmessung in Kontingenztafeln
Gemeinsame Verteilung, Randverteilung, Kontingenztafel
Betrachtet wird ein zweidimensionales Merkmal (X, Y ) bestehend aus den diskreten Merkmalen X und Y und die zugehörige Urliste
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ).
Wir wollen ferner annehmen, dass X und Y nur endlich viele (wenige), verschiedene Werte
a 1 , . . . , ai , . . . , a k
bzw.
b1 , . . . , b j , . . . b m
annehmen können.
Anmerkung: In vielen Büchern (v.a. zur induktiven Statistik) wird statt a1 , . . . , ak auch
x1 , . . . , xk und analog statt b1 , . . . , bm auch y1 , . . . , ym geschrieben. Bei uns sind aber die
(xi , yi ) Werte der Urliste, xi also der Wert der i-ten Einheit. Daraus ergibt sich zwar
die Doppeldeutigkeit der Laufindizes i und j, wir bleiben jedoch bei dieser Notation um
Einheitlichkeit mit Fahrmeir et al. (2007) und Jann (2002/2005) herzustellen.
(
Beispiel (fiktiv):
1,
2,
Y
latente Aggressivität
X


1,
Schichtzugehörigkeit 2,


3,
ja
nein
Unterschicht
Mittelschicht
Oberschicht
Typische Urliste des zweidimensionalen Merkmals (X, Y ):
(3, 1), (2, 2), (2, 1), (3, 1), (3, 2), (3, 1), (1, 2), (1, 1), (1, 1), (1, 2), (3, 1), (3, 1)
70
5.2. Assoziationsmessung in Kontingenztafeln
Achtung:
• Tupel sind – im Gegensatz zu Mengen – geordnete Anordnungen von Zahlen, d.h.
die erste Stelle bezieht sich immer auf X, die zweite auf Y . Also bedeutet (1, 2)
etwas anderes als (2, 1) (vgl. obiges Beispiel).
• Die Tupel sind gemeinsam indiziert, d.h. die Werte in einem Tupel beziehen sich
immer auf dieselbe Einheit. Bei (xi , yi ) sind xi und yi also die Ausprägungen derselben Einheit i (z.B. der Person i). Nur so können Zusammenhänge zwischen den
Merkmalen sichtbar werden!
Gemeinsame relative und absolute Häufigkeitsverteilung:
hij = h(ai , bj ), i = 1, . . . , k, j = 1, . . . , m,
= Anzahl von Beobachtungen mit x = ai und y = bj .
fij = hij /n = f (ai , bj ), i = 1, . . . , k, j = 1, . . . , m,
= Anteil von Beobachtungen mit x = ai und y = bj .
Man nennt (hij ), i = 1, . . . , k, j = 1, . . . , m und (fij ) die gemeinsame Verteilung von
(X, Y ) in absoluten bzw. relativen Häufigkeiten.
Kontingenztafel / Kontingenztabelle / Kreuztabelle: Darstellung der Häufigkeiten
in Form einer (k × m)-dimensionalen Häufigkeitstabelle
a1
a2
..
.
ai
..
.
b1 · · · bj
h11 · · · h1j
h21 · · · h2j
..
..
.
.
hi1 · · · hij
..
..
.
.
· · · bm
· · · h1m h1•
· · · h2m h2•
..
..
.
.
· · · him hi•
..
..
.
.
ak hk1 · · · hkj · · · hkm hk•
h•1 · · · h•j · · · h•m n
mit den Randverteilungen
hi• = hi1 + . . . + him = h(ai ), i = 1, . . . , k,
für X
h•j = h1j + . . . + hkj = h(bj ), j = 1, . . . , m,
für Y.
und
Kapitel 5. Analyse von Zusammenhängen
71
Kontigenztafel der relativen Häufigkeitsverteilung:
b1
a1 f11
a2 f21
..
..
.
.
ai fi1
..
..
.
.
ak fk1
f•1
mit relativen Häufigkeiten fij =
· · · bj · · · bm
· · · f1j · · · f1m f1•
· · · f2j · · · f2m f2•
..
..
..
.
.
.
· · · fij · · · fim fi•
..
..
..
.
.
.
· · · fkj · · · fkm fk•
· · · f•j · · · f•m 1
hij
und den Randverteilungen
n
fi• =
hi•
= fi1 + . . . + fim = f (ai ), i = 1, . . . , k,
n
für X
f•j =
h•j
= f1j + . . . + fkj = f (bj ), j = 1, . . . , m,
n
für Y.
und
Beispiel: Aggressivität und Schichtzugehörigkeit
In unserem Beispiel ist
n = 12
a1 = 1, a2 = 2, a3 = 3
b1 = 1, b2 = 2
also k = 3 und m = 2. Als Kontingenztafel ergibt sich
X
Y
1
2
3
1
2
1
5
8
2
2
1
1
4
4
2
6
12
Randhäufigkeiten: Aus der gemeinsamen Verteilung kann man die eindimensionalen
Verteilungen berechnen (aber nicht umgekehrt, s.u.). Man nennt sie in diesem Kontext
Randverteilungen.
Die absoluten Häufigkeiten von X bezeichnet man mit h1• , h2• , . . . , hi• , . . . , hk• , die von
Y mit h•1 , h•2 , . . . , h•j , . . . , h•m , analog fi• , f•j . Der Punkt steht für Summation über den
entsprechenden Index. Es gilt also:
• hi• ist die absolute Häufigkeit von ai ,
• h•j ist die absolute Häufigkeit von bj .
72
5.2. Assoziationsmessung in Kontingenztafeln
und
hi• =
m
X
hij ,
j=1
h•j =
k
X
hij .
i=1
Also ist hi• die i-te Zeilensumme, h•j die j-te Spaltensumme (daher der Name Randhäufigkeiten).
Völlig analog definiert sind die relativen Randhäufigkeiten
fi• :=
m
X
fij
und f•j :=
j=1
k
X
fij .
i=1
Beispiel: Parteipräferenz bei unterschiedlichem Einkommen (Befragung von 722 Personen, 3.5.-5.5.2004)
Unabhängige und abhängige Variable: Hat man eine Vermutung über die Richtung
einer potentiellen Wirkung, so bezeichnet man die Variablen entsprechend als unabhängige
(wirkende, erklärende) und abhängige Variable, z.B.:
möglicherweise: Schicht
eindeutig: Geschlecht
allgemein: unabhängige
−→ latente Aggresivität
−→ Einkommen
−→ abhängige Variable
Anmerkung: In einigen sozialwissenschaftlichen Büchern wird entgegen dieser Konvention die unabhängige Variable in den Spalten und die abhängige in den Zeilen abgetragen.
5.2.2
Ökologischer Fehlschluss
Es gibt sehr viele gemeinsame Verteilungen, die zu denselben Randhäufigkeiten wie im
Beispiel oben passen, u.a.:
Kapitel 5. Analyse von Zusammenhängen
X
Y
1
2
3
73
1
0
2
6
8
2
4
0
0
4
4
2
6
12
Bei dieser Konstellation wäre von den Unterschichtsangehörigen niemand latent aggressiv,
von den Mittel- und Oberschichtsangehörigen alle. Die Schichtungszugehörigkeit würde
hier also völlig die Aggressivität determinieren.
Man sieht also, wie wichtig es zur Feststellung potentieller Zusammenhänge ist, die gemeinsame Verteilung hij zu kennen, also tatsächlich die Paare (xi , yi ) zu betrachten.
Der unzulässige Schluss
• von der Randverteilung auf Eigenschaften der gemeinsamen Verteilung,
• also von zwei univariaten Ergebnissen auf ein bivariates,
• von der Kollektiv- auf die Individualebene,
heißt ökologischer Fehlschluss.
Beispiel für ökologischen Fehlschluss: Je größer der Anteil an Arbeitern in einer Region, desto mehr SPD-Wähler gibt es. =⇒ Arbeiter wählen eher SPD?
Kann man nicht aus Randverteilung schliessen! Muss gemeinsame Verteilung betrachten.
5.2.3
Grafische Darstellung der gemeinsamen Verteilung
Verschiedene Darstellungsarten, z.B. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten hij oder normale“ Säulendiagramme nach einer Variable aufgespalten, d.h. für jeden
”
Wert ai von X werden jeweils die Häufigkeiten hij bzw. fij aufgetragen.
74
5.2. Assoziationsmessung in Kontingenztafeln
0.004
0.003
0.002
0.001
500
0.000
40
5.2.4
60
Wohn
fläche80
1000
e
1500 Miet
2000
100
Bedingte Häufigkeitsverteilungen
Beispiel: Habilitationen nach Geschlecht und Fach (aus Fahrmeir et al., 2007).
Grundgesamtheit: alle Habilitationen 1993
Geschlecht:
Fächergruppe:
X
Y
Frauen 1
Männer 2
Sprachw.
Kulturw.
1
Rechtsw.
Wirts., Soz.
2
Naturw.
Kunst
Medizin
3
4
5
51
216
267
20
92
112
30
316
346
4
10
14
44
433
477
149
1067
1216
Zur Interpretation:
• In Naturwissenschaften werden nur 30 Frauen habilitiert, in Kunst sogar nur 4. Ist
das viel oder wenig?
• Das kommt ganz darauf an, wieviele Personen insgesamt dort habilitiert werden.
(30 von 346 sehr wenig, 4 von 14 nicht so wenig). Man muss also die gemeinsamen
Häufigkeiten auf die Randhäufigkeiten bedingen“.
”
• Man geht über zur sogenannten bedingten Verteilung.
– Sie gibt die Verteilung eines Merkmals an, unter der Bedingung ( wenn man
”
weiß“), dass das andere Merkmal einen bestimmten Wert hat.
Kapitel 5. Analyse von Zusammenhängen
75
– z.B. Verteilung des Geschlechts unter den in Kunst bzw. Naturwissenschaften
Habilitierten; Anteil der latent aggressiven Jugendlichen unter den Angehörigen der Oberschicht.
– Es wird also sozusagen die betrachtete Gesamtheit auf eine bestimmte Personengruppen eingeschränkt.
– Im Beispiel etwa
4
Anzahl der Habil. von Frauen in Kunst
=
Anzahl der Habil. in Kunst
14
Definition: Seien hi• > 0 und h•j > 0 für alle i, j. Für jedes i = 1, . . . , k heißt
fY (b1 |ai ) :=
hi1
h(ai , b1 )
=
,
hi•
h(ai )
...,
fY (bm |ai ) :=
him
h(ai , bm )
=
hi•
h(ai )
bedingte (relative) Häufigkeitsverteilung von Y unter der Bedingung X = ai .
Analog heißt für jedes j = 1, . . . , m
fX (a1 |bj ) :=
h1j
h(a1 , bj )
=
,
h•j
h(bj )
...,
fX (ak |bj ) :=
hkj
h(ak , bj )
=
h•j
h(bj )
bedingte (relative) Häufigkeitsverteilung von X unter der Bedingung Y = bj .
Im Beispiel:
fY (Frau | Habil. in Kunst) =
fY (Frau | Habil. in Naturw.) =
h14
4
=
≈ 0.286
h•4
14
h13
30
=
≈ 0.087
h•3
346
Zu unterscheiden von
f13 =
30
h13
=
≈ 0.025 = f (Frau und Habil. in Naturw.)
n
1216
bzw.
fX (Habil. in Kunst|Frau) =
4
h14
=
= 0.027.
h1•
149
Die Verwechslung von gemeinsamer und bedingter Verteilung ist eine häufige Fehlerquelle.
Bei Vermutung über Richtung des Zusammenhangs betrachtet man vorwiegend die bedingte Verteilung der abhängigen Variablen gegeben die festen Werte der unabhängigen
Variable. In diese Richtung geht ja auch die Prognose“! Man kennt den Wert der un”
abhängigen Variablen und will Aussagen über die abhängige machen.
76
5.2. Assoziationsmessung in Kontingenztafeln
Beispiel: Bedingte Verteilung der Fächergruppen gegeben das Geschlecht (f (bj |ai ) für
verschiedene i).
@
@ bj
ai @@
Frauen
Männer
Sprachw.
Kulturw.
1
0.34
0.20
1
2
Rechtsw.
Wirts., Soz.
2
0.13
0.09
Naturw.
Kunst
Medizin
3
0.10
0.30
4
0.03
0.01
5
0.30
0.41
1
1
h12
20
=
= 0.134
h1•
149
h24
f (Kunst|Mann) = f (b4 |a2 ) =
= 0.0094
h2•
f (Rechtsw.|Frau) = f (b2 |a1 ) =
Bedingte Verteilung des Geschlechts gegeben die Fachgruppe (f (ai |bj ) für verschiedene
j).
@ bj
a i @@
Frauen
Männer
1
2
Sprachw.
Kulturw.
1
0.191
0.809
1
Rechtsw.
Wirts., Soz.
2
0.179
0.821
1
Naturw.
Kunst
Medizin
3
0.087
0.913
1
4
0.286
0.714
1
5
0.092
0.908
1
h12
20
=
= 0.179
h•2
112
h24
f (Mann|Kunst) = f (a2 |b4 ) =
= 0.714
h•4
f (Frau|Rechtsw.) = f (a1 |b2 ) =
Nochmals zur Interpretation:
1. f (Frau | Medizin) = 0.092 · 100% = 9.2%.
9.2% aller Habilitationen in Medizin sind von Frauen.
2. f (Medizin | Frau) = 30%.
30% aller Habilitationen von Frauen sind im Fach Medizin.
3. f51 = f (Medizin und Frau) = 0.036 = 3.6%.
3.6% aller Habilitationen stammen von Frauen im Fach Medizin.
Es liegt jeweils eine andere Grundgesamtheit zu Grunde:
1. Habilitationen in Medizin
2. Habilitationen von Frauen
3. Habilitationen insgesamt
Kapitel 5. Analyse von Zusammenhängen
77
Bedingte Verteilungen werden automatisch“ durch relative Häufigkeiten ausgedrückt.
”
Für die Berechnung gilt
hij
hij
fij
f (ai |bj ) =
= hn•j =
h•j
f•j
n
und analog
f (bj |ai ) =
hij
fij
=
.
hi•
fi•
Beispiel: Parteipräferenzen.
5.2.5
(Empirische) Unabhängigkeit und χ2
Durch den Vergleich der bedingten Häufigkeiten mit den Randhäufigkeiten kann man
Zusammenhänge beurteilen
Beispiel: Aggression und Schichtzugehörigkeit.
Bedingte Häufigkeiten: f (bj |ai ) : relative Häufigkeit von bj , wenn man weiß, dass ai“.
”
Vergleiche zum Beispiel
f (b1 |a3 ):
Anteil der Personen mit Ausprägung b1 (latent aggressiv) unter
allen Personen mit Ausprägung a3 (Oberschicht)
mit
f•1 :
Anteil der Personen mit b1 (generell), also alle latent aggressiven
Personen
Gilt
f (b1 |a3 ) > f•1 ,
78
5.2. Assoziationsmessung in Kontingenztafeln
so erhöht a3 die Tendenz von b1 (erhöhte Aggressivität in der Oberschicht), gilt
f (b1 |a3 ) < f•1 ,
so verringert a3 die Tendenz von b1 (geringere Aggressivität in der Oberschicht). Wäre
hingegen
f (b1 |a3 ) = f•1 ,
so wäre im Beispiel der Anteil der latent aggressiven Personen in der Oberschicht genauso
groß wie in der Grundgesamtheit. Die Zugehörigkeit zur Oberschicht würde also nicht das
Vorhandensein latenter Aggressivität beeinflussen.
Gilt dies für alle Merkmalskombinationen, so beeinflussen sich die Variablen gegenseitig
nicht. Die Merkmale sind voneinander unabhängig.
Empirische Unabhängigkeit: Die beiden Komponenten X und Y eines bivariaten Merkmals (X, Y ) heißen voneinander (empirisch) unabhängig, falls für alle i = 1, . . . , k und
j = 1, . . . , m
f (bj |ai ) = f•j = f (bj )
(5.1)
und
f (ai |bj ) = fi• = f (ai )
(5.2)
gilt.
Also anschaulich: Genau bei empirischer Unabhängigkeit ist die Verteilung von Y in allen
bezüglich Werten von X gebildeten Subgruppen identisch und umgekehrt.
Satz:
a) Es genügt, entweder (5.1) oder (5.2) zu überprüfen: Mit einer der beiden Beziehungen
gilt auch die andere.
b) X und Y sind genau dann empirisch unabhängig, wenn für alle i = 1, . . . k und alle
j = 1, . . . m gilt:
fij = fi• · f•j
(5.3)
c) Gleichung (5.3) ist äquivalent zu
hij =
hi• · h•j
n
Beweis zu b) : i, j beliebig vorgegeben, X, Y empirisch unabhängig.
f (ai |bj ) = fi•
für alle i, j
fij
= fi•
für alle i, j
⇐⇒
f•j
⇐⇒ fij = fi• · f•j
für alle i, j
(5.4)
Kapitel 5. Analyse von Zusammenhängen
79
Zentrale Idee zur Analyse von Kontingenztafeln: Man beurteilt das Ausmaß der
Abhängigkeit von X und Y dadurch, dass man die beobachtete Kontingenztafel mit der
Tafel vergleicht, die sich bei denselben Randverteilungen ergeben würde, wenn X und
Y (empirisch) unabhängig wären. Man vergleicht also für alle i und j die beobachteten
Häufigkeiten hij mit den unter Unabhängigkeit erwarteten Besetzungszahlen h̃ij (vgl. die
rechte Seite von (5.4)):
hi• · h•j
h̃ij :=
.
n
Je größer die Unterschiede zwischen hij und h̃ij sind, umso stärker sind die Daten von der
Unabhängigkeit entfernt, d.h. umso stärker ist also der Zusammenhang zwischen X und
Y.
Als Maß verwendet man den sog. χ2 -Koeffizienten / χ2 -Abstand :
2
χ
k X
m
X
(hij − h̃ij )2
:=
(5.5)
h̃ij
i=1 j=1
¡
¢2
X
beob. Häufigk. − unter Unabh. zu erwartende Häufigk.
=
unter Unabh. zu erwartende Häufigk.
alle Zellen
Beispiel: Zusammenhang zwischen Geschlecht und Arbeitslosigkeit (fiktiv, nach Wagschal, 1999)
Sei Y der Beschäftigungsstatus einer erwerbstätigen Person, X das Geschlecht mit
(
(
1
beschäftigt
1
weiblich
Y =
und
X=
2
arbeitslos
2
männlich
Gemeinsame Häufigkeitsverteilung:
@Y
X
@
1
2
1
40
80
120
2
25
5
30
65
85
150
Zur Bestimmung des χ2 -Koeffizienten:
1. Bestimme die Randverteilung.
2. Berechne die unter Unabhängigkeit zu erwartenden Häufigkeiten h̃ij .
Indifferenztafel“(bei empirischer Unabhängigkeit zu erwartende Kontingenztafel):
”
65 · 120
h1• · h•1
=
= 52
h̃11 =
n
150
h2• · h•1
85 · 120
h̃21 =
=
= 68
n
150
etc.
80
5.2. Assoziationsmessung in Kontingenztafeln
@Y
X
@
1
2
1
52
68
120
2
13
17
30
65
85
150
Beim Vergleich der beoachteten Häufigkeitsverteilung mit der unter Unabhängigkeit zu
erwartenden erkennt man: Es gibt weniger beschäftigte Frauen und weniger arbeitslose
Männer als unter Unabhängigkeit zu erwarten wäre, aber mehr arbeitslose Frauen und
mehr beschäftigte Männer. Also hat das Geschlecht einen Einfluss; Männer sind tendenziell eher beschäftigt.
Man erhält
χ2 =
k X
m
X
(hij − h̃ij )2
h̃ij
i=1 j=1
(40 − 52)2 (25 − 13)2 (80 − 68)2 (5 − 17)2
+
+
+
52
13
68
17
= 2.769 + 11.077 + 2.118 + 8.471 = 24.435
=
Bei Vierfeldertafeln (2 Zeilen, 2 Spalten) gibt es eine handliche Alternative zur Berechnung
von χ2 :
n · (h11 h22 − h12 h21 )2
χ2 =
(5.6)
h1· h2· h·1 h·2
(Merksatz: Hauptdiagonalenprodukt − Nebendiagonalenprodukt).
Veranschaulichung der Formel: In der Hauptdiagonalen stehen die gleichgerichteten
”
(konkordanten) Paare“ (1,1), (2,2) (kleines Y zu kleinem X und hohes Y gehört zu hohem
X), in der Nebendiagonalen die entgegengerichteten (diskordanten) Paare“ (1,2), (2,1).
”
Je stärker der Zusammenhang, desto stärker überwiegt eine dieser beiden Möglichkeiten,
d.h. desto größer ist (h11 · h22 − h12 · h21 )2
Ceteris paribus Betrachtung bei gleichen Randverteilungen:
+1
−1
h•1
−1
+1
h•2
h1•
h2•
Angenommen, es ist h11 h22 > h12 h21 . Dann erhöhen sich h11 und h22 , h12 und h21 erniedrigen sich −→ χ2 wird größer.
Wegen dem Quadrieren der Differenzen gilt auch umgekehrt: ist h11 h22 < h12 h21 −→ χ2
wird größer.
Berechnung im Beispiel mit alternativer Formel:
(h11 h22 − h12 h21 )2
h1• h2• h•1 h•2
(200 − 2000)2
(40 · 5 − 80 · 25)2
= 150
= 150
120 · 30 · 65 · 85
120 · 30 · 65 · 85
1800 · 1800
· 150 = 24.434
=
120 · 30 · 65 · 85
χ2 = n ·
Kapitel 5. Analyse von Zusammenhängen
5.2.6
81
χ2 -basierte Maßzahlen
Bemerkungen zum χ2 -Abstand:
• Unter empirischer Unabhängigkeit gilt per Definition χ2 = 0. Je stärker χ2 von 0
abweicht, umso stärker ist – ceteris paribus – der Zusammenhang.
• Der χ2 -Abstand wird die Grundlage bilden für den in Statistik 2 betrachteten χ2 Test.
• Als Masszahl ist χ2 hingegen problematisch und nicht direkt interpretierbar, da sein
Wert vom Stichprobenumfang n und von der Zeilen- und Spaltenzahl abhängt =⇒
geeignet normieren.
• Es gilt: χ2 ≤ n · (min{k, m} − 1). Gleichheit gilt genau dann, wenn sich in jeder
Spalte bzw. Zeile nur ein von Null verschiedener Eintrag befindet, also z.B. nur auf
der Diagonalen (entspräche perfektem Zusammenhang, ist aber gar nicht bei allen
Randverteilungen möglich).
χ2 -basierte Zusammenhangsmaße
a) Kontingenzkoeffizient nach Pearson:
s
K :=
χ2
.
n + χ2
(5.7)
K
Kmax
(5.8)
b) Korrigierter Kontingenzkoeffizient:
K ∗ :=
mit
s
Kmax :=
min{k, m} − 1
min{k, m}
c) Kontingenzkoeffizient nach Cramér (Cramérs V):
s
χ2
V =
n · (min{k, m} − 1)
r
χ2
=
maximaler Wert
d) Bei der Vierfeldertafel (k = m = 2) gilt
s
V =
χ2
=
n · (min{k, m} − 1)
r
(5.9)
χ2
.
n
Hierfür ist auch die Bezeichnung Phi-Koeffizient Φ üblich.
82
5.2. Assoziationsmessung in Kontingenztafeln
Mit (5.6) ergibt sich also
¯
¯
¯ h11 h22 − h12 h21 ¯
¯.
Φ = ¯¯ √
(5.10)
h1• h2• h•1 h•2 ¯
Lässt man die Betragsstriche weg, so erhält man den signierten Phi-Koeffizienten oder
Punkt-Korrelationskoeffizienten
h11 h22 − h12 h21
Φs = √
,
h1• h2• h•1 h•2
der häufig ebenfalls als Phi-Koeffizient bezeichnet wird.
ΦS kann im Prinzip Werte zwischen -1 und 1 annehmen (ohne -1 und 1 immer erreichen
zu können (s.u.)).
Vorteil gegenüber Φ: Zusätzlich ist die Richtung“ des Zusammenhangs erkennbar:
”
Φs > 0 bei gleichsinnigem Zusammenhang (1 bei X bewirkt eher 1 bei Y , 2 −→ 2)
und
Φs < 0
bei gegensinnigem Zusammenhang (1 bei X bewirkt eher 2 bei Y , 2 −→ 1)
Berechnung im Beispiel : Beschäftigungsstatus und Geschlecht.
Zur Erinnerung: χ2 = 24.435,
m = k = 2,
besch.
Frauen 1
Männer 2
s
K =
Kmax =
K∗ =
V
=
Φs =
χ2
=
n + χ2
n = 150
ja
1
nein
2
40
80
120
25
5
30
65
85
150
r
24.435
= 0.3742
150 + 24.435
s
r
r
min{k, m} − 1
2−1
1
=
=
min{k, m}
2
2
√
K
= 0.3742 · 2 = 0.5292
Kmax
r
r
χ2
24.435
=
= 0.4036
Φ=
n
150
h11 h22 − h12 h21
40.5 − 80.25
√
=√
= −0.4036
h1· h2· h·1 h·2
120 · 30 · 65 · 35
• Schwerpunkt auf der Nebendiagonalen: Beschäftigte Männer, arbeitslose Frauen. Φ
=0.4, deutet auf Zusammenhangs mittlerer Stärke hin.
• K, K ∗ , V und Φ nehmen Werte zwischen 0 und 1 an, wohingegen χ2 beliebeig grosse
positive Werte annehmen kann.
Kapitel 5. Analyse von Zusammenhängen
83
• Aufgrund ihrer Unabhängigkeit von n und von k und m sind K, K ∗ , V und Φ
prinzipiell zum Vergleich verschiedener Tabellen geeignet.
• Allerdings kann – bei gegebener Randverteilung – der Wert 1 nicht immer erreicht
werden. Im Beispiel können bei insgesamt nur 30 Arbeitslosen nicht alle 80 Männer
oder alle 65 Frauen arbeitslos sein.
• Es kann deshalb aussagekräftiger sein, noch zusätzlich auf die für die gegebene
Randverteilung maximal mögliche Abhängigkeit zu normieren.
Korrekturverfahren für Φ (Wagschal)
0
1. Bilde die Extremtabelle mit Einträgen hij , d.h.
i. Ersetze die Zelle mit der kleinsten absoluten Häufigkeit durch 0
ii. Fülle die Tafel entsprechend der Randverteilung auf!
2. Berechne den zugehörigen Phi-Koeffizienten Φextrem .
3. Berechne den korrigierten Phi-Koeffizienten
Φkorr :=
Φ
Φextrem
bzw. den zugehörigen korrigierten signierten Phi-Koeffizienten
Φs,korr :=
Φs
Φextrem
.
Berechnung im Beispiel: Extremsituation: Alle Männer beschäftigt.
besch.
Frauen 1
Männer 2
ja
1
nein
2
35
85
120
30
0
30
65
85
150
Mit (5.10) erhält man
Φextrem
¯ 0 0
¯
¯ h h − h0 h0 ¯ ¯¯ 35 · 0 − 30 · 85 ¯¯
¯ 11 22
¯
¯ ≈ 0.5718
= ¯ p 0 0 012 021 ¯ = ¯¯ √
¯ h1• h2• h•1 h•2 ¯
65 · 85 · 120 · 30 ¯
und damit
Φkorr =
Φ
Φextrem
=
0.4036
≈ 0.7059
0.5718
und
Φs,korr ≈ −0.7059
Relativ zum gegebenen Geschlechterverhältnis und zur Beschäftigungsrelation ergibt sich
ein stärkerer Zusammenhang (Φkorr ≈ 0.7059). Am signierten Koeffizienten Φs,korr < 0
lässt sich auch die Richtung des Zusammenhangs ablesen: kleine Y -Werte gehören eher
zu großen X-Werten, also sind Frauen tendenziell stärker von Arbeitslosigkeit betroffen
als Männer.
84
5.2. Assoziationsmessung in Kontingenztafeln
5.2.7
Weitere Methoden für Vierfeldertafeln
Typische Fragestellung aus der Medizin:
Y
an
nicht an
Krebs
Krebs
erkrankt erkrankt
b1
b2
exponiert:
Schadstoffen
ausgesetzt
a1
h11
h12
nicht exponiert:
Schadstoffen
nicht ausgesetzt
a2
h21
h22
X
In der Medizin bezeichnet man die bedingte relative Häufigkeit f (bj |ai ) als Risiko für bj
unter Bedingung ai :
R(bj |ai ) := f (bj |ai ) =
hij
hi•
i, j = 1, 2.
In der Epidemiologie wird standardmäßig R(b1 |a1 ) betrachtet. Dies ist das Erkrankungsrisiko für Personen, die exponiert waren.
Als Zusammenhangsmaß zwischen X und Y in Vierfelder-Tafeln verwendet man auch das
darauf aufbauende relative Risiko:
Definition : Für eine Vierfelder-Tafel heißt
RR(b1 ) :=
f (b1 |a1 )
h11 /h1•
=
f (b1 |a2 )
h21 /h2•
relatives Risiko und ist das Verhältnis des Erkrankungsrisikos für Personen, die exponiert
waren (im Zähler) und für Personen, die nicht exponiert waren (im Nenner).
Eigenschaften:
• RR(b1 ) kann Werte zwischen 0 und ∞ annehmen.
• RR(b1 ) = 1 würde bedeuten: Personen, die exponiert waren, haben das gleiche
Erkrankungsrisiko wie Personen, die nicht exponiert waren. Es besteht kein Zusammenhang zwischen Exposition (Merkmal X) und Erkrankung (Merkmal Y ).
• RR(b1 ) = 5 würde bedeuten: Personen, die exponiert waren, haben ein 5-mal so
großes Erkrankungsrisiko wie Personen, die nicht exponiert waren, d.h. das Erkrankungsrisiko wäre für exponierte Personen deutlich höher.
• RR(b1 ) = 15 würde bedeuten: Personen, die exponiert waren, haben nur ein Fünftel
des Erkrankungsrisikos von Personen, die nicht exponiert waren, d.h. das Erkrankungsrisiko wäre für exponierte Personen deutlich niedriger.
Kapitel 5. Analyse von Zusammenhängen
85
In der Medizin bezieht sich Risiko“ meist auf negative Ereignisse wie z.B. Erkrankung.
”
Grundsätzlich sind Risiken aber symmetrisch verwendbar, d.h. auch für positive Ereignisse
wie z.B. Beschäftigung:
beschäftigt
Frau 1
Mann 2
ja
1
40
80
120
nein
2
25
5
30
65
85
150
Gemessen wird jetzt das Risiko“ (bzw. die Tendenz), beschäftigt zu sein, wenn man dem
”
(vermuteten) Nachteilsfaktor weiblich zu sein, ausgesetzt ist.
R(beschäftigt|Frau) = f (b1 |a1 ) =
h11
40
8
=
=
h1•
65
13
Man sieht, dass das Risiko für sich genommen noch wenig aussagekräftig ist.
R(b1 |a1 )
h11 /h1•
=
R(b1 |a2 )
h21 /h2•
8
40/65
8 17
17
2
=
= 13
·
=
= 0, 65 ≈
16 =
80/85
13 17
26
3
17
RR(beschäftigt) =
Das Risiko“, beschäftigt zu sein, ist bei den Frauen nur
”
2
3
so groß wie bei den Männern.
Hier umgekehrte Betrachtung inhaltlich naheliegender: Risiko für Arbeitslosigkeit. Die
Risiken in den beiden Gruppen sind dann genau die Arbeitslosigkeitsquoten.
RR(arbeitslos) =
25/65
h12 /h1•
25 · 85
5 · 17
=
=
=
= 6.53.
h22 /h2•
5/85
5 · 65
13
Das Arbeitslosigkeitsrisiko (die Arbeitslosigkeitsquote) ist bei den Frauen 6.53 mal so
groß wie bei den Männern. Es zeigt sich also ein deutlicher Gechlechtereinfluß. Bei den
Frauen beträgt die Arbeitslosigkeitsquote 25
= 38.5%, bei den Männern hingegen nur
65
5.88%.
Definition: Die Größe
¡
¢
d%(bj ) := f (bj |a1 ) − f (bj |a2 ) · 100,
i = 1, 2
heißt Prozentsatzdifferenz für bj .
Eigenschaften:
• d%(b1 ) ist z.B. die Differenz aus den Erkrankungsrisiken für Personen, die exponiert
waren, und für Personen, die nicht exponiert waren.
• d%(bj ) kann Werte zwischen −100 und 100 annehmen.
86
5.2. Assoziationsmessung in Kontingenztafeln
• d%(b1 ) = 0 würde bedeuten: Personen, die exponiert waren, haben das gleiche
Erkrankungsrisiko wie Personen, die nicht exponiert waren. Es besteht kein Zusammenhang zwischen Exposition (Merkmal X) und Erkrankung (Merkmal Y ).
• d%(b1 ) = 10 würde bedeuten: Personen, die exponiert waren, haben ein um 10
Prozentpunkte höheres Erkrankungsrisiko als Personen, die nicht exponiert waren.
• d%(b1 ) = −10 würde bedeuten: Personen, die exponiert waren, haben ein um
10 Prozentpunkte niedrigeres Erkrankungsrisiko als Personen, die nicht exponiert
waren.
Beispiel: Beschäftigung von Männern und Frauen
beschäftigt
Frau 1
Mann 2
ja
1
40
80
120
nein
2
25
5
30
65
85
150
d%(b1 ) = (f (b1 |a1 ) − f (b1 |a2 )) · 100
µ
¶
h11 h21
=
−
· 100
h1• h2•
40 80
8
16
−
· 100 =
−
· 100 = 0.615 − 0.941 · 100 = −32.6
=
65 85
13 17
Der Beschäftigtenanteil unter den Frauen beträgt 61.5%, der unter den Männer 94.1%.
Es ergibt sich eine Prozentsatzdifferenz von 32.6%, die auf einen deutlichen Einfluss des
Geschlechts hinweist.
d%(b2 ) = (f (b2 |a1 ) − f (b2 |a2 )) · 100 =
h12 h22
=
−
· 100 = 32.6
h1• h2•
Offensichtlich gilt bei zwei Ausprägungen
d%(b1 ) =
=
=
=
(f (b1 |a1 ) − f (b1 |a2 )) =
(1 − f (b2 |a1 )) − (1 − f (b2 |a2 ))
−(f (b2 |a1 )) − f (b2 |a1 ) =
−d%(b2 )
Bemerkungen:
• Den in diesem Abschnitt betrachteten Maßzahlen ist gemein, dass – im Gegensatz zu
den χ2 -basierten Maßzahlen – das Vertauschen von Zeilen und Spalten die Maßzahl
verändert. Das bedeutet für die Praxis: Man muss sich sehr genau überlegen, was
man als abhängige und was als unabhängige Variable wählt.
Kapitel 5. Analyse von Zusammenhängen
87
• Man kann die zwei Risiken in einer Vierfelder-Tafel auf zwei Arten vergleichen:
– durch den Quotienten: sind Zähler und Nenner eines Bruches gleich, hat er den
Wert 1 (d.h. die 1 dient als Vergleichswert)
⇒ der Bruch ist > 1, wenn der Zähler größer ist als der Nenner.
⇒ der Bruch ist < 1, wenn der Zähler kleiner ist als der Nenner.
– durch die Differenz: sind die beiden Terme einer Differenz gleich, hat sie den
Wert 0 (d.h. die 0 dient als Vergleichswert)
⇒ die Differenz ist > 0, wenn der erste Term größer ist als der zweite.
⇒ die Differenz ist < 0, wenn der erste Term kleiner ist als der zweite.
• Bei kleinen Risiken ist die Prozentsatzdifferenz nicht sensitiv, z.B.:
– f (b1 |a1 ) = 0.42, f (b1 |a2 ) = 0.41
RR(b1 ) = 1.02
d%(b1 ) = 1
– f (b1 |a1 ) = 0.02, f (b1 |a2 ) = 0.01
RR(b1 ) = 2.0
d%(b1 ) = 1
In solchen Fällen muss man inhaltlich abwägen, ob der Quotient oder die Differenz
aussagekräftiger ist.
Definition: Die Größe
O(b1 |ai ) :=
R(b1 |ai )
1 − R(b1 |ai )
i = 1, 2
heißt Odds (engl. plural) oder Chance von b1 unter der Bedingung ai .
Eigenschaften:
• Die Odds für exponierte Personen sind das Verhältnis des Risikos, krank zu werden
(im Zähler), zum Risiko, nicht krank zu werden, also 1 − dem Risiko krank zu
werden (im Nenner).
• Es gilt:
f (b1 |ai )
f (b1 |ai )
=
1 − f (b1 |ai )
f (b2 |ai )
hi1
hi1 /hi•
=
=
hi2 /hi•
hi2
O(b1 |ai ) =
• Interpretation: Odds O(b1 |a1 ) = 3 bedeuten, dass exponierte Personen 3× häufiger
krank werden, als dass sie gesund bleiben.
88
5.2. Assoziationsmessung in Kontingenztafeln
• Interpretation als Wettchance: Odds O(b1 |a1 ) = 3 bedeuten “ich wäre bereit im
Verhältnis 3 : 1 zu wetten, dass eine exponierte Person krank wird”.
Beispiel: Beschäftigung von Männern und Frauen
beschäftigt
Frau 1
Mann 2
ja
1
40
80
120
nein
2
25
5
30
O(beschäftigt|weiblich) =
65
85
150
O(beschäftigt|männlich) =
h11
40
8
=
= = 1.6
h12
25
5
h21
80
=
= 16
h22
5
Unter den Frauen gibt es 1.6 mal so viele Beschäftigte wie Arbeitslose, unter den Männern
sind es 16 mal so viele Beschäftigte wie Arbeitslose.
Eine Chance für sich sagt noch nichts über den Zusammenhang zwischen X und Y aus.
Wenn es unter den Exponierten halb so viele Kranke wie Gesunde gibt, so kann dies
gut oder schlecht sein. Dies hängt von den Odds bei den Nichtexponierten ab. Daher
verwendet man als Zusammenhangsmaß zwischen X und Y die relativen Odds, die als
Odds Ratio bezeichnet werden.
Definition: Die Größe
OR(b1 ) :=
O(b1 |a1 )
O(b1 |a2 )
heißt Odds Ratio und vergleicht die Odds von exponierten Personen (im Zähler) und nicht
exponierten Personen (im Nenner).
Eigenschaften:
• OR kann Werte zwischen 0 und ∞ annehmen.
• OR = 1 würde bedeuten: Personen, die exponiert waren, haben die gleichen Odds
wie Personen, die nicht exponiert waren. Es besteht kein Zusammenhang zwischen
Exposition (Merkmal X) und Erkrankung (Merkmal Y ).
• OR = 5 würde bedeuten: Personen, die exponiert waren, haben 5-mal so große
Odds wie Personen, die nicht exponiert waren, d.h. die “Chance” zu erkranken wäre
für exponierte Personen deutlich höher.
• OR = 15 würde bedeuten: Personen, die exponiert waren, haben nur ein Fünftel
der Odds von Personen, die nicht exponiert waren, d.h. die “Chance” zu erkranken
wäre für exponierte Personen deutlich niedriger.
• Um die Asymmetrie des Wertebereichs, [0; 1) bei gegenläufigem Zusammenhang und
(1, ∞] bei gleichgerichtetem Zusammenhang, zu umgehen, wird gelegentlich auch
ln OR betrachtet. Sein Wertebereich ist (−∞, ∞), wobei nun der Wert 0 auf keinen
Zusammenhang hinweist.
Kapitel 5. Analyse von Zusammenhängen
89
• Der Odds Ratio wird auch als Kreuzproduktverhältnis bezeichnet, denn es gilt:
R(b1 |a1 )
f (b1 |a1 )
O(b1 |a1 )
1 − R(b1 |a1 )
f (b2 |a1 )
OR(b1 ) :=
=
=
R(b1 |a2 )
f (b1 |a2 )
O(b1 |a2 )
1 − R(b1 |a2 )
f (b2 |a2 )
=
h11 /h1•
h11 /h12
h11 · h22
h12 /h1•
=
=
h21 /h2•
h21 /h22
h21 · h12
h22 /h2•
Hieraus erkennt man auch die Parallele zu den früheren Zusammenhangsmaßen Φ
und χ2 für 4-Felder-Tafeln, die ebenfalls auf dem Unterschied in den Produkten der
Diagonalelemente h11 · h22 und der Nebendiagonalelemente h12 · h21 aufbauen. Für
χ2 gilt
n · (h11 · h22 − h12 · h21 )2
χ2 =
.
h1• · h2• · h1• · h2•
An dieser Formel erkennt man, dass die Differenz im Zähler
h11 · h22 − h21 · h12
groß wird, wenn die Häufigkeiten h11 und h22 auf der Hauptdiagonalen groß, und
die Häufigkeiten h12 und h21 auf den Nebendiagonalen klein sind. Im umgekehrten
Fall wird die Differenz klein.
Durch das Quadrieren des Zählers in der Formel für χ2 (bzw. durch den Übergang
zum Betrag in der Formel für Φ) spielt die Richtung aber keine Rolle mehr, und χ2
und Φ werden insgesamt groß, wenn
h11 · h22 À h12 · h21
oder
h11 · h22 ¿ h12 · h21
gilt, d.h wenn eine Diagonalstruktur vorliegt, die auf einen Zusammenhang zwischen
den Merkmalen Y und X hinweist.
Im OR werden dieselben Häufigkeiten nicht in einer Differenz, sondern in einem
Bruch verwendet. Deshalb ist hier nicht von Interesse, ob der Koeffizient von 0
abweicht, wie bei den auf der Differenz aufbauenden Maßzahlen χ2 und Φ, sondern
uns interessiert, ob der OR von 1 abweicht.
Beispiel: Beschäftigung von Männern und Frauen
beschäftigt
Frau 1
Mann 2
ja
1
40
80
120
nein
2
25
5
30
65
85
150
OR(b1 ) :=
O(b1 |a1 )
O(b1 |a2 )
=
1
10
90
5.2. Assoziationsmessung in Kontingenztafeln
Frauen haben nur ein Zehntel so hohe Odds für die Beschäftigung im Vergleich zu Männern.
Das Verhältnis aus Beschäftigten und Arbeitslosen ist also bei den Frauen um den Faktor
10 geringer als bei den Männern.
Definition: Die Größe
Q :=
h11 · h22 − h12 · h21
h11 · h22 + h12 · h21
heißt Yules Q.
Bemerkungen
• Q ist ein Spezialfall von γ nach Goodman und Kruskal (vgl. später) und vergleicht
diskordante und konkordante Paare.
• Q nimmt Werte zwischen -1 und 1 an und ist 0 bei Unabhängigkeit.
• Ist eine Zelle mit 0 besetzt, so ist Q = 1 oder Q = −1. Q zeigt also dann bereits
eine perfekte Abhängigkeit.
Beispiel: Beschäftigung von Männern und Frauen
beschäftigt
Frau 1
Mann 2
ja
1
40
80
120
nein
2
25
5
30
Q
65
85
150
=
h11 · h22 − h12 · h21
h11 · h22 + h12 · h21
=
40 · 5 − 25 · 80
= −0.818
40 · 5 + 25 · 80
Wieder: starker Zusammenhang in Richtung Nebendiagonale: Männer ↔ Arbeit, Frauen
↔ Arbeitslos
5.2.8
PRE-Maße (Prädiktionsmaße)
• Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen.
• Grundlegendes Prinzip vieler statistischer Konzepte.
• Hängt mit Streuungszerlegung metrischer Daten zusammen.
• Anwendbar für Kreuztabellen beliebiger Größe.
• In der Soziologie sehr gebräuchlich.
Hintergrund: Ein Modell“ versucht, ein empirisches Phänomen zu beschreiben. Ein Mo”
dell ist umso besser“, je genauer es ein Phänomen reproduzieren/vorhersagen kann. Die
”
Vorhersagekraft der einen Variablen für die andere dient dann als Maß des Zusammenhangs.
Im medizinischen Kontext: Das Ergebnis eines zusätzlichen Tests (→ X) verbessert die
Diagnose (→ Prognose des Y -Werts) umso mehr, je mehr X und Y zusammenhängen.
Kapitel 5. Analyse von Zusammenhängen
91
Betrachte zwei Modelle zur Vorhersage des Wertes yi der abhängigen Variable Y einer
beliebigen Beobachtung i:
Modell 1: verwendet (ausschließlich) die Randverteilung von Y : (h•j ), j = 1, . . . , m.
Modell 2: verwendet die gemeinsame Verteilung von (X, Y ) bzw. die bedingte Verteilung
von Y gegeben X.
Im Beispiel zur Erwerbstätitgkeit berücksichtigt Modell 1 nur die Verteilung der Erwerbstätigkeit unabhängig vom Geschlecht, während Modell 2 zusätzlich noch das Geschlecht der Person i berücksichtigt.
Idee: Der Zusammenhang zwischen X und Y ist umso größer, je stärker die Kenntnis von
X die Prognose von Y im Vergleich zu Modell 1 verbessert.
Definition: PRE = P roportional Reduction in E rror
P RE =
E2
E1 − E2
=1−
E1
E1
wobei
E1 : Vorhersagefehler bei Modell 1
E2 : Vorhersagefehler bei Modell 2
PRE ist automatisch auf [0; 1] normiert:
• P RE = 1 gilt genau dann wenn E2 = 0, d.h. bei vollständiger Vorhersage bzw.
vollständigem Zusammenhang.
• P RE = 0 gilt genau dann wenn E1 = E2 , d.h. die Vorhersage wird durch Kenntnis
der unabhängigen Variablen nicht unterstützt, d.h. es besteht kein Zusammenhang.
Intuitives Beispiel:
Y : Beschäftigungsstatus
X1 : Geschlecht
X2 : Sternzeichen der Nachbarin der Schwiegermutter
Kenntnis von X1 verbessert Vorhersage von Y wohl deutlich mehr als die von X2 =⇒
stärkerer Zusammenhang zwischen X1 und Y als zwischen X2 und Y .
Guttmans Lambda Basiert auf dem Modus der Randverteilung bzw. der bedingten
Verteilungen.
• Modell 1 (nur Y ): Modus der Randverteilung.
• Modell 2 (mit X): Modi unter der Bedingung X = ai
• Fehler im Modell 1:
– Richtig vorhergesagt werden alle Einheiten, deren Ausprägungen tatsächlich
auf den Modus fallen, das sind maxj (h•j ) Einheiten.
92
5.2. Assoziationsmessung in Kontingenztafeln
– Es gilt also E1 = n − max(h•j ).
j
• Fehler im Modell 2:
– Aufspalten nach den einzelnen Werten ai , i = 1, . . . , k.
– Korrekt vorhergesagt werden jeweils diejenigen Einheiten, deren Ausprägungen tatsächlich auf den bedingten Modus“ fallen, das sind, für jedes feste i,
”
maxj (hij ) Einheiten.
– Es gilt also
k
k
X
X
(hi• − max(hij )) = n −
max(hij )
E2 =
j
i=1
i=1
j
PRE-Maß für abhängige Variable Y :
µ
λY
=
!
¶ Ã
k
X
n − max(h•j ) − n −
max(hij )
j
E1 − E2
i=1
=
E1
n − max(h•j )
j
à k
!
X
max(hij ) − max(h•j )
i=1
=
j
j
j
n − max(h•j )
j
Wenn unklar ist, welche Variable die abhängige und welche die unabhängige ist, dann
bildet man eine symmetrische Version. Dazu betrachtet man zunächst analog die Prognose
von X (ohne und mit Y ). Die entsprechende Formel ergibt sich durch Vertauschen der
Rolle von X und Y :
à m
!
X
max(hij ) − max(hi• )
j=1
λX =
i
i
n − maxi (hi• )
Symmetrische Version durch poolen“:
”
k
X
λ=
i=1
max(hij ) +
j
m
X
j=1
max(hij ) − max(h•j ) − max(hi• )
i
j
2n − maxj (h•j ) − maxi (hi• )
i
.
Beispiel: Erwerbstätigkeit von Männern und Frauen
beschäftigt
Frau 1
Mann 2
ja
1
40
80
120
nein
2
25
5
30
65
85
150
Prognose insgesamt:
ja
Prognose bei Frauen:
ja
Prognose bei Männern: ja
Kapitel 5. Analyse von Zusammenhängen
à k
X
λY =
93
!
max(hij )
− max(h•j )
j
i=1
j
=
n − max(h•j )
j
40 + 80 − 120
=0
150 − 120
Vorhersage über den Modus ist zu unspezifisch; Maß erkennt hier keinen Zusammenhang.
Manipulationsmöglichkeit? Kritisches Einsetzen von Methodenwissen! Extrem konservatives Maß, kann aber z.B. in Medizin (Frage
nach Wirksamkeit eines Medikaments mit extrem starken Nebenwirkungen) sehr wichtig sein.
Gepoolte Version:
Erlaubt? Eigentlich eindeutig: Geschlecht unabhängige Variable. Hier v.a. aus Übungsgründen.
k
X
λ =
max(hij ) +
j
i=1
m
X
j=1
max(hij ) − max(h•j ) max(hi• )
i
j
i
2n − maxj (h•j ) − maxi (hi• )
40 + 80 + 80 + 25 − 120 − 85
20
=
=
= 0.21
2 · 150 − 120 − 85
95
Eher schwacher Zusammenhang: Die Kenntnis beider Variablen reduziert die durchschnittliche Prognoseungenauigkeit
nur um 21%.
Vorsicht: Ist dies überhaupt noch ein PRE-Maß?
Goodmans und Kruskals Tau Idee: statt deterministischer Vorhersagen (immer Modus)
probabilistische Vorhersagen (mit Wahrscheinlichkeiten).
Modell 1: Vorhersage bj“ mit Wahrscheinlichkeit f•j , j = 1, . . . , m. (z.B. bei einem
”
Beschäftigtenanteil von 2/3 Personen nicht immer Beschäftigung“, sondern
”
im Durchschnitt bei 3 Personen 2-mal Beschäftigung“ und 1 mal Arbeitslo”
”
sigkeit“, Prognose: Auswürfeln mit Wahrscheinlichkeitsverteilung fi• )
h
f
ij
ij
Modell 2: Für jedes i Vorhersage b “ mit Wahrscheinlichkeit f (bj |ai ) = hi•
= fi•
.
”
Man kann zeigen (mit Hilfe der Wahrscheinlichkeitsrechnung, nächstes Semester):
(E(Treffer) = E(Treffer|1) · π1 + E(Treffer|2) · π2 + . . . E(Treffer|k) · πk = π1 ·jπ1 + π2 · π2 + . . .)
erwarteter Wert von E1 = 1 −
m
X
2
f•j
j=1
erwarteter Wert von E2 = 1 −
m X
k
X
fij2
j=1 i=1
fi•
Damit ergibt sich:
m X
k
X
fij2
τY =
j=1 i=1
fi•
1−
−
m
X
j=1
m
X
j=1
2
f•j
2
f•j
τX =
k X
k
m
X
X
fij2
−
fi•2
f
•j
i=1 j=1
i=1
1−
k
X
i=1
fi•2
94
5.2. Assoziationsmessung in Kontingenztafeln
und die symmetrische Form
m X
k
X
fij2
τ=
k X
m
m
k
X
X
X
fij2
2
+
−
f•j −
fi•2
fi• i=1 j=1 f•j
j=1
i=1
j=1 i=1
2−
m
X
2
f•j
j=1
−
k
X
fi•2
i=1
heißt Goodmans und Kruskals τ .
Beispiel: Erwerbstätigkeit von Männern und Frauen
beschäftigt
Frau 1
Mann 2
ja
1
40
80
120
nein
2
25
5
30
65
85
150
In relative Häufigkeiten umrechnen:
m X
k
X
fij2
τY
=
j=1 i=1
fi•
1−
2
f11
=
=
=
f1•
+
−
1
2
1
4
15
1
6
13
30
2
8
15
1
30
17
30
4
5
1
5
1
m
X
2
f•j
j=1
m
X
2
f•j
j=1
2
f21
f2•
2
f12
f2
2
2
)
+ f•2
+ 22 − (f•1
f1• f2•
2
2
)
+ f•2
1 − (f•1
+
(4/15)2 (8/15)2 (1/6)2 (1/30)2
+
+
+
−
13/30
17/30
13/30
17/30
õ ¶
µ ¶2 !
2
1
4
+
1−
5
5
0.732 −
8
25
17
25
≈ 0.1625
õ ¶
µ ¶2 !
2
1
4
+
5
5
Kapitel 5. Analyse von Zusammenhängen
5.3
95
Zusammenhangsanalyse bivariater ordinaler Merkmale
Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y (mindestens) ordinales Meßniveau aufweisen. Beachte: Beide Merkmale müssen ordinal sein, bei
einem ordinalen und einem nominalem Merkmal sind Methoden für nominale Merkmale
zu verwenden.
Beispiel: Schweizer Arbeitsmarktsurvey (aus Jann, 2002, S. 82)
Merkmale:
X: Bildung
Y : Einkommen
jeweils mit den Ausprägungen:
1
2
3
@Y
X
@
1
2
3
1
niedrig
mittel
hoch
2
262 125
496 837
160 361
918 1323
3
8
149
268
425
395
1482
789
2666
Ferner betrachte man die folgenden Einheiten (fiktiv):
Person
1
2
3
4
5
6
Ausprägung von Y
Einkommen
3 (hoch)
2 (mittel)
3 (hoch)
1 (niedrig)
2 (mittel)
1 (niedrig)
Ausprägung von X
Bildung
3 (hoch)
1 (niedrig)
2 (mittel)
1 (niedrig)
1 (niedrig)
3 (hoch)
Da ordinalskalierte Merkmale betrachtet werden, spielt bei Fragen nach Zusammenhängen
die Richtung eine Rolle. In Verallgemeinerung zu den Überlegungen bei den dichotomen
Merkmalen definiert man:
• gleichsinniger (gleichläufiger) Zusammenhang: hohe Y -Werte gehören zu großen XWerten und kleine Y -Werte zu kleinen X-Werten.
• gegensinniger (gegenläufiger) Zusammenhang hohe Y -Werte gehören zu niedrigen
X-Werten und umgekehrt.
Idee: Betrachte alle Paare von Einheiten und zähle, wie oft sich ein gleichsinniger und wie
oft sich ein gegensinniger Zusammenhang zeigt.
96
5.3. Zusammenhangsanalyse bivariater ordinaler Merkmale
Definition: Gegeben sei die Urliste eines bivariaten Merkmals (X, Y ), wobei X und
Y jeweils ordinales Skalenniveau besitzen. Ein Paar (i, j), i 6= j, von Einheiten mit den
Ausprägungen (xi , yi ) und (xj , yj ) heißt
a) konkordant (gleichläufig), falls entweder
xi > xj und yi > yj
oder
xi < xj und yi < yj
gilt.
Beispiele:
• (1,2), d.h. Personen 1 und 2 bilden ein konkordantes Paar, denn
3 = y1 > y2 = 2 und 3 = x1 > x2 = 1
• (3,4), d.h. Personen 3 und 4 konkordant, denn
3 = y3 > y4 = 1 und 2 = x3 > x4 = 1
• (3,6), d.h. Personen 3 und 6 nicht konkordant, denn
3 = y3 > y6 = 1 aber 2 = x3 < x6 = 3
• (2,4), d.h. Personen 2 und 4 nicht konkordant, denn
2 = y2 > y4 = 1 aber 1 = x2 = x4 = 1
b) diskordant (gegenläufig), falls entweder
xi > xj und yi < yj
oder
xi < xj und yi > yj
gilt.
Beispiele:
• (3, 6) ist diskordant:
x3 < x6 aber y3 > y6
• Nicht jedes nicht konkordante Paar ist diskordant: (2, 4) ist nicht konkordant,
aber auch nicht diskordant, denn es gilt zwar y2 > y4 , aber x2 = x4 .
c) ausschließlich in X gebunden, falls
xi = xj und yi 6= yj
Beispiel: (1, 3), denn 3 = x1 = x3 = 3, 3 = y1 6= y3 = 2)
Kapitel 5. Analyse von Zusammenhängen
97
d) ausschließlich in Y gebunden, falls
xi 6= xj und yi = yj
Beispiel: (2, 4), denn 2 = x2 6= x4 = 1, 1 = y2 = y4 = 1)
e) in X und Y gebunden, falls
xi = xj und yi = yj
Ferner bezeichne
• C die Anzahl der konkordanten Paare,
• D die Anzahl der diskordanten Paare,
• TX die Anzahl der Paare mit Bindungen ausschließlich in X,
• TY die Anzahl der Paare mit Bindungen ausschließlich in Y ,
• TXY die Anzahl der Paare mit Bindungen in X und Y .
Die Bezeichnung T“ kommt vom englischen Ties“.
”
”
Vorsicht: In der Literatur wird manchmal TXY bei TX und TY dazugezählt =⇒ andere
Formeln!
Zur Berechnung geht man die Kreuztabelle Zelle für Zelle durch und zählt jeweils die
entsprechenden Paare ab. In jedem Paar von Einheiten mit den Ausprägungen (ai , bj ) lässt
sich die Kreuztabelle zerlegen“. Sei a1 < a2 < . . . ai < . . . ak und b1 < b2 < . . . bj < . . . bm ,
”
dann gilt:
b1
b2
...
bj
...
Einheiten, die ein
diskordantes Paar erzeugen
bm
a1
..
.
ai
..
.
—————
⊗
Einheiten, die ein
konkordantes Paar erzeugen
———
Einheiten, die ein Paar mit
Bindung in X und Y erzeugen
= Zellenhäufigkeit - 1
ak
Einheiten, die ein Paar mit
Bindung nur in X erzeugen
Einheiten, die ein Paar mit
Bindung nur in Y erzeugen
Summiert man jeweils auf, so hat man jedes Paar doppelt gezählt, so dass man durch 2
teilen muss. Es gibt intelligentere, aber dafür unübersichtlichere Arten zu zählen.
Beispiel: Schichtzugehörigkeit und Aggressivität
Unter 1
Mittel 2
Ober 3
ja nein
1
2
2
2
1
1
5
1
8
4
4
2
6
12
98
5.3. Zusammenhangsanalyse bivariater ordinaler Merkmale
Zelle (ai , bj )
hij
für C
für D
für TY
für TX
TXY = hij − 1
(1,1)
(1,2)
(2,1)
(2,2)
(3,1)
(3,2)
2
2
1
1
5
1
1+1=2
0
1
2
0
2+1=3
0
1+5=6
2
5
3
0
1+5=6
1+1=2
7
2+1=3
3
2+1=3
2
2
1
1
1
5
1
1
0
0
4
0
C =
D =
TY
=
TX =
T =
1
2
1
2
1
2
1
2
1
2
· (2 · 2 + 2 · 0 + 1 · 1 + 1 · 2 + 5 · 0 + 1 · 3) = 5
· (2 · 0 + 2 · 6 + 1 · 2 + 1 · 5 + 5 · 3 + 1 · 0) = 17
· (2 · 6 + 2 · 2 + 1 · 7 + 1 · 3 + 5 · 3 + 1 · 3) = 22
· (2 · 2 + 2 · 2 + 1 · 1 + 1 · 1 + 5 · 1 + 1 · 5) = 10
· (2 · 1 + 2 · 1 + 1 · 0 + 1 · 0 + 5 · 4 + 1 · 0) = 12
Zur Kontrolle: Insgesamt muss es
Hier:
n(n−1)
2
=
12·11
2
n(n−1)
2
verschiedene Paare geben.
= 66
Zusammenhangsmaße für ordinale Daten betrachten nun die (geeignet normierte) Differenz von konkordanten und diskordanten Paaren; sie unterscheiden sich lediglich in der
Behandlung von Bindungen und damit in der Normierung.
Definition: Zusammenhangsmaße für ordinale Daten
τa :=
heißt Kendalls Taua ,
C −D
n·(n−1)
2
C −D
τb := p
(C + D + TX ) · (C + D + TY )
heißt Kendalls Taub und
γ :=
C −D
C +D
heißt Goodmans und Kruskals Gamma.
Eigenschaften
• Die Maßzahlen liegen jeweils zwischen −1 und 1.
• Der Zusammenhang ist umso stärker, je größer der Betrag ist. (0: kein Zusammenhang, -1,+1: perfekter Zusammenhang).
Kapitel 5. Analyse von Zusammenhängen
99
• Das Vorzeichen gibt Auskunft über die Richtung des Zusammenhangs:
+: positiver (gleichläufiger) Zusammenhang
−: negativer (gegenläufiger) Zusammenhang
• Allgemein gilt:
|τa | ≤ |τb | ≤ |γ|.
Liegen keine Bindungen vor, sind aber alle Maßzahlen gleich.
• Bei Bindungen kann τa die Extremwerte −1 und 1 nicht erreichen, selbiges gilt bei
asymmetrischen Tabellen (k 6= m) für τb .
• Die Maßzahlen basieren auf einem etwas unterschiedlichen Verständnis des Begriffs
Zusammenhang“. γ vernachlässigt Bindungen völlig und ist daher ein Maß für die
”
Stärke eines schwach monotonen Zusammenhangs, während τa und τb sich eher auf
stark monotone Zusammenhänge beziehen.
Zum Verständnis:
schwach monoton steigend: x < y =⇒ f (x) ≤ f (y)
stark monoton steigend: x < y =⇒ f (x) < f (y)
schwach: Leute mit gößerer formaler Bildung haben nicht weniger Einkommen als Leute
mit mittlerer formaler Bildung.
stark: Leute mit größerer formaler Bildung haben höheres Einkommen als Leute mit
mittlerer formaler Bildung.
• Wegen der Vernachlässigung von Bindungen reagiert γ sensibel auf das Zusammenfassen von Katagorien.
• γ ist eine Verallgemeinerung von Yules Q.
Beispiel: Aggressivität und Schichtzugehörigkeit
Mit den Ergebnissen C = 5, D = 17, TY = 22, TX = 10, n = 12) ergibt sich
τa =
C −D
n·(n−1)
2
=
5 − 17
12·11
2
=−
2
= −0.18
11
C −D
5 − 17
√
=√
τb = p
5 + 17 + 10 · 5 + 17 + 22
(C + D + TX ) · (C + D + TY )
−12
√ = −0.32
= √
44 · 32
C −D
−12
γ =
=
= −0.54
C +D
22
Interpretation: (Zuerst Vorzeichen, dann Wert)
• Vorzeichen: negativ, also gegenläufiger Zusammenhang. Große Werte in X bewirken
tendenziell kleine Werte in Y , also Tendenz: hohe Schicht −→ latent aggressiv
100
5.4. Zusammenhangsanalyse bivariater quasi-stetiger Merkmale
• Stärke: Schwach (τa ), mäßig stark (τb ) bis deutlich (γ)
aber beachten: γ misst auch nur schwach monotonen Zusammenhang, d.h. mit
höherer Schicht nimmt die latente Aggressivität nicht ab (steigt aber auch nicht
für alle Personen systematisch, sonst wären τa und τb grösser).
Beispiel: Schweizer Arbeitsmarktsurvey
τb = 0.332,
γ = 0.533
Ähnliche Interpretation, jetzt aber positives Vorzeichen! Einkommen steigt tendenziell
mit der Bildung, Bildung wirkt sich jedenfalls im Durchschnitt nicht nachteilig aus.
5.4
Zusammenhangsanalyse bivariater quasi-stetiger Merkmale
Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw.
quasi-stetig und mindestens ordinalskaliert sind. Teilweise wird auch der Fall gestreift,
dass nur ein Merkmal quasi-stetig und das andere nominalskaliert ist.
Beispiele:
• Nettomiete ←→ Wohnfläche
• Autoritarismusscore vor/nach einer Informationsveranstaltung
• Monatseinkommen ←→ Alter in Jahren
• Wochenarbeitseinkommen ←→ Wochenarbeitsstunden
• Wochenarbeitsstunden ←→ Hausarbeit in Stunden pro Woche
• Wochenarbeitsstunden (tatsächlich) ←→ Wochenarbeit (vertraglich)
5.4.1
Streudiagramme (Scatterplots)
Sind die Merkmale stetig oder zumindestens quasi-stetig (sehr viele verschiedene Ausprägungen), werden Kontingenztabellen sehr unübersichtlich und praktisch aussagelos,
da die einzelnen Häufigkeiten in den Zellen der Tabellen sehr klein sind.
Alternative Darstellungsform: Scatterplot / Streudiagramm:
Zeichne die Punkte (xi , yi ), i = 1, . . . , n, in ein X-Y -Koordinatensystem.
=⇒ Guter optischer Eindruck über das Vorliegen, die Richtung und gegebenenfalls die
Art eines Zusammenhangs.
=⇒ Ausreißer werden leicht erkannt.
Quelle für Beispiele: Jann (2002), p. 85 ff.
Kapitel 5. Analyse von Zusammenhängen
101