Multivariate Analyseverfahren

Transcription

Multivariate Analyseverfahren
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Multivariate Analyseverfahren
Logistische Regression
Prof. Dr. Stein
14.01.2014 & 20.01.2014
1 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Inhaltsverzeichnis
1 Grundidee
2 Interpretation der Regressionskoeffizienten
3 Modellschätzung
4 Modellgüte
5 SPSS/STATA
2 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Der Erklärungsgegenstand
Soziale Forschungsgegenstände sind häufig eher
diskreter/qualitativer Natur als metrischer/quantitativer Art:
Elternschaft
Heirat
Scheidung
Eintritt/Austritt in/aus Arbeitslosigkeit
Einkommensverluste bis unter die Armutsgrenze
Wahl einer bestimmten Partei/Person
Begehen einer Straftat
...
3 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Der Erklärungsgegenstand
Auf Ebene der Variablenumsetzung . . .
. . . nehmen soziale Erklärungsgegenstände dieser Art die
Form einer dichotomenen Variable an
. . . weisen soziale Erklärungsgegenstände dieser Art die
numerischen Werte 0 und 1 auf.
Vorteile:
1 Der Mittelwert gleicht dann dem Anteil der Fälle, welche
den Wert 1 aufweisen.
2 Der Mittelwert kann dann als Wahrscheinlichkeit
interpretiert werden.
4 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Multiple Regression?
”Naive” Vorüberlegung - Verwendung linearer Regression:
scheinbar brauchbare Interpretation
zugrunde liegende Funktionsform wird als linear
angenommen
Probleme:
nicht-lineare Funktionsform
Verletzung weiterer Modellprämissen der linearen
Regression
5 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Multiple Regression?
6 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Multiple Regression?
7 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Multiple Regression?
Zwischenresümee I:
Eine lineare Funktionsform für die Abbildung des
Zusammenhangs anzunehmen ist unangemessen. Jegliche
lineare Funktionsgleichung wird die Grenzwerte (0 & 1)
wahrscheinlich über-/unterschreiten.
8 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Funktionsform?
9 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Funktionsform?
10 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Multiple Regression?
Zwischenresümee II:
Der Zusammenhang zwischen quantitativen/qualitativen
unabhängigen Merkmalen und einem dichotomen abhängigen
Merkmal wird durch eine S-Form adäquat abgebildet.
Charakteristika:
Annähernd linearer Zusammenhang im mittleren Bereich
der statistischen Beziehung
Kleiner werdende Effekte (bei einem Fortschreiten auf der
unabhängigen Variable um eine Einheit) in den
Grenzbereichen des statistischen Zusammenhangs.
11 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Probleme stat. Inferenz
Ausgangspunkt:
Eine Dummy-Variable kann lediglich zwei numerische Werte
(0/1) annehmen. Dementsprechend, können auch nur zwei
Residualwerte für jeden X-Wert vorliegen.
1 − (b0 + b1 Xi ), wenn Yi = 1
0 − (b0 + b1 Xi ), wenn Yi = 0
Folgen:
1. Verletzung der Annahme der Normalverteilung der
Residuen.
2. Verletzung der Annahme der Homoskedastizität der
Residuen.
12 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Logistische Regression
Anforderungen an die Transformation von Y:
Wertebereich der Vorhersagewerte zwischen 0 und 1
Annahme einer S-förmigen Verlausfskurve
Sinkende Effekte von X auf Y an den Enden/Extremen
der Verlaufskurve
13 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Logistische Regression
Lösung:
Li = ln[Pi /(1 − Pi )]
Mit:
Pi : Wahrscheinlichkeit des Eintretens des Ereignisses i
Vorgehen:
1 Bildung der Odds
2 Logarithmierung der Odds
14 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Odds
Odds drücken die Chance, des Eintreten eines Ereignisses, im
Verhältnis zu dem Nicht-Eintreten des Ereignisses auf.
Formal:
Oi = Pi /(1 − Pi )
Mit:
Pi : Wahrscheinlichkeit des Eintretens des Ereignisses i
15 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Odds
Charakteristika:
Pi
0.01
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.99
1 - Pi
0.99
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.01
Odds
0.01
.111
0.25
0.429
0.667
1
1.5
2.33
4
9
99
Ist die Wahrscheinlichkeit des Eintretens und des
Nicht-Eintretens eines Ereignisses gleich groß, nehmen
Odds den Wert 1 an.
keine numerische Obergrenze von 1
immer noch: numerische Untergrenze von 0
16 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Odds
Interpretation
Odds > 1 geben an, dass es wahrscheinlicher ist, dass das
Ereignis eintritt als dass es nicht eintritt.
Odds von 1 geben an, dass auf ein Nicht-Eintreten des
Ereignisses ein Eintreten des Ereignisses zu erwarten ist.
Odds < 1 geben an, dass es wahrscheinlicher ist, das das
Ereignis nicht eintritt als dass es eintritt.
17 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Odds Ratio
Vergleich von Odds
Da Odds proportional ansteigen, können sie per Division
miteinander verglichen werden:
OddsRatio =
Oi
Oj
Es gilt:
OddsRatio > 1: die Odds der ersten Gruppe sind um x mal höher als
in der zweiten Gruppe
OddsRatio = 1: die Odds der ersten Gruppe und zweiten Gruppe
sind gleich
OddsRatio < 1: die Odds der ersten Gruppe sind um x mal geringer
als in der zweiten Gruppe
18 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Odds
Zwischenresümee:
Odds stellen den ersten Transformationsschritt der logistischen
Regression dar.
Odds liefern eine inhaltlich sinnvolle Interpretation für die
Wahrscheinlichkeit von Ereignissen.
Odds verfügen über keine numerische Grenze in ihrem
Wertebereich von 1
19 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Logarithmierte Odds
Die Logarithmierung der Odds eliminiert die untere Grenze im
Wertebereich.
Formal:
Li = ln[Pi /(1 − Pi )]
Mit:
Pi : Wahrscheinlichkeit des Eintretens des Ereignisses i
20 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Logarithmierte Odds
Es gilt:
Odds zwischen 0 und 1 entsprechen einem negativen
Wert der logarithmierten Odds.
Odds = 1 entsprechen dem Wert 0 der logarithmierten
Odds
Odds > 1 entsprechen positiven Werten der
logarithmierten Odds
21 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Logarithmierte Odds
Charakteristika:
Pi
0.1
0.2
0.3
0.4
1 - Pi
0.9
Odds
0.111
Logit
-2.20
0.5
0.6
0.8
0.7
0.25
0.429
-1.39
-0.847
0.7
0.8
0.9
0.6
0.5
0.4
0.667
1
1.5
0.3
0.2
0.1
2.33
4
9
-0.405
0
0.405
0.847
1.39
2.20
Symmetrie um den Mittelpunkt (Wahrscheinlichkeit von
0.5)
Gleiche Änderungen in Wahrscheinlichkeiten führen zu
verschiedenen Veränderungen in den Logarithmierten
Odds.
Keine numerische Ober- oder Untergrenze
22 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Zusammenfassung
Linearizing the Nonlinear
Die logarithmische Transformation . . .
. . . eliminiert die obere und untere Grenzwerte der
dichotomen Variable Y.
. . . erweitert/streckt die Wahrscheinlichkeiten von Y an
seinen Extremwertenen im Verhältnis zu dem Mittelpunkt.
Folge:
Der vormals nicht-lineare Zusammenhang wurde in einen
linearen transformiert. Gleiche Veränderungen in X führen nun
zu ähnlichen Effektveränderungen in Y.
23 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Zusammenfassung
Linearizing the Nonlinear
Die Linearisierung des nicht linearen Zusammenhangs führt zu
einer Verschiebung der Interpretation der Koeffizienten weg
von Wahrschenlichkeiten hin zu logarithmierten Odds.
Vorteil
Sparsamkeit:
Lineare Zusammenhänge
können über einen
Koeffizienten charakterisiert
werden.
Nachteil
Verlust einer einfachen,
”intuitiven” Interpretation.
24 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Übersicht
Logarithmierte Odds
- linear und additiv
- wenig intuitive Bedeutung der
Skaleninterpretation
- Ausdruck der Beziehung in einem Koeffizienten
Wahrscheinlichkeiten
- nicht linearer, nicht additiver Zusammenhang
- intuitive Bedeutung der Skaleninterpretation
- mehrere Koeffizienten notwendig; Abhängigkeit
des Zusammenhangs vom gewählten
Referenzpunkt
- Mittelpunkt als möglicher Referenzpunkt
Odds
- intuitivere Bedeutung der Skaleninterpretation als
logarithmierte Odds
- multiplikativer Zusammenhang
- Ausdruck der Beziehung in einem Koeffizienten
25 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Logarithmierte Odds
Die Koeffizienten, welche direkt aus der logistischen
Regression beobachtet werden, zeigen die Veränderung in den
vorhergesagten logarithmierten Odds hinsichtlich des
Eintretens eines Ereignisses, wenn sich der Wert der
unabhängigen Variable um eine Einheit erhöht.
Die Koeffizienten der logistischen Regression sind äquivalent
zur linearen Regression interpretierbar. Sie beziehen sich
allerdings auf logarithmierte Odds.
26 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Logarithmierte Odds
Unabhängige Dummy-Variablen:
Die Steigerung des Werte der unabhängigen Variablen
vergleicht - wie in der linearen Regression - die Referenz- und
Vergleichsgruppe miteinander.
27 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Odds
Expontentialisieren beider Seiten der logistischen Regression
löst den Logarithmus auf und bringt so den Einfluss der
Variable auf die Odds zum Ausdruck.
ln(P/1 − P) = b0 + b1 X1 + b2 X2
e ln(P/1−P)
P/1 − P
= e b0 +b1 X1 +b2 X2
= e b0 ∗ e b1 X1 ∗ e b2 X2
28 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Odds
Konsequenzen für die Interpretation:
Der Koeffizient spiegelt den Effekt wider, wenn alle
anderen Variablen den Wert 1 annehmen.
Positive Exponenten schlagen sich in Werten > 1 nieder.
Negative Exponenten schlagen sich in Werten < 1 nieder.
Es gilt:
Koeffizient > 1: die Variable steigert die Odds,
dass ein Ereignis eintritt.
Koeffizient = 1: die Variable hat keinen Einfluss darauf, dass
ein Ereignis eintritt.
Koeffizient < 1: die Variable vermindert die Odds, dass ein
Ereignis eintritt.
29 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Odds
Interpretation in Prozent:
Da der Abstand des Koeffizienten von 1 die Stärke des
Effektes zum Ausdruck bringen, kann seine Interpretation
folgendermaßen variiert werden:
%∆ = (e b − 1) ∗ 100
Ein Koeffizient von 1.14 bringt demnach zum Ausdruck, dass
die Odds des Eintretens eines Ereignisses um 14% größer sind
bei einem Anstieg der unabhängigen Variable um eine Einheit.
30 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Signifikanztest
Signifikanztest STATA:
Basis für den Signifikanztest ist die Größe des Koeffizient
in Relation zu seinem Standardfehler:
Formal:
b
Sb
Z-Verteilung
! vorausgesetzte Stichprobengröße von mindestens 100
Beobachtungen
31 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Signifikanztest
Signifikanztest SPSS:
Wald-Statistik als Signifikanztest
Grundlage ist die Größe des quadrierten Koeffizienten in
Relation zu seinem Standardfehler:
Formal:
b2
Sb
! vorausgesetzte Stichprobengröße von mindestens 100
Beobachtungen
! Mit größer werdender, absoluten Größe von b leidet der
Wald-Test an Präzision.
- Lösung: Vergleich der Log Likelihood Ratios der Modelle mit
und ohne die erklärende Variable.
32 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Signifikanztest
Baysian information criterion (BIC):
Ausgangspunkt: Anfälligkeit der Signifikanz in
Abhängigkeit des Stichprobenumfang.
Folge: Wenig Verlässlichkeit bzgl. Stärke und Relevanz
der jeweiligen Signifikanz.
Der z-wert sollte Logarithmus des Stichprobenumfangs
überschreiten:
Formal
BIC = z 2 − ln(n)
33 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Signifikanztest
Interpretation - eine Orientierung (BIC):
BIC = 0: der Einschluss der erklärenden Variablen in das Modell
erweist sich als nicht sinnvoll.
BIC 0-2:
Signifikanz des Koeffizienten ist in seiner Stärke
und Bedeutung schwach
BIC 2-6:
Signifikanz des Koeffizienten ist in seiner Stärke und
Bedeutung zufriedenstellend
BIC 6-10: Signifikanz des Koeffizienten ist in seiner Stärke und
Bedeutung stark
BIC > 10: Signifikanz des Koeffizienten ist in seiner Stärke und
Bedeutung sehr stark
34 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Standardisierte Koeffizienten
Die Effekte der logistsichen Regression sind abhängig von der
Skalierung der jeweiligen Variablen. Sie sind daher nicht direkt
miteinander vergleichbar.
Standardisierte Koeffizienten in SPSS:
Partieller Korrelationskoeffizient abgleitet aus der
Waldstatistik und dem baseline log likelihood ratio
Wertebereich zwischen -1 und +1
35 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Ein Beispiel
Erklärungsgegenstand ist der Umstand, ob eine Person raucht
(1) oder nicht (0). Insgesamt gehen vier Merkmale in die
Modellierung ein:
Bildung (in Jahren)
Alter
Geschlecht (Frau: 1; Mann: 0)
Famlienstand (Verheiratet: 1; nicht verheiratet: 0)
Datengrundlage ist der General Social Survey (GSS) 1994
36 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Ein Beispiel
Auszug aus dem SPSS-Output
Variable
B
S.E.
Wald
df
Sig.
B∗
Exp(B)
Bildung
Alter
Familienstand
Geschlecht
Konstante
-0.2085
-0.0341
-0.03746
0.0964
3.3666
0.0382
0.0067
0.2112
0.2126
0.6478
29.8742
26.1222
3.14441
0.2056
27.0112
1
1
1
1
1
0.0000
0.0000
0.0762
0.6502
0.0000
-0.2153
-0.2003
-0.0436
0.000
0.8118
0.9665
0.6875
1.1012
37 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
MLH
Als optimale Schätzer für α und β gelten die Werte, welche
die beobachteten Werte von Y in der Stichprobe mit der
höchsten Wahrscheinlichkeit reproduzieren.
→ OLS: Minimierung der Residuenquadrate
Iteratives Schätzverfahren:
Verschiedene Parameterwerte werden schrittweise ausprobiert.
Das Vorgehen wird dann abgebrochen, wenn sich die
Wahrscheinlichkeit, die Daten zu reproduzieren im Vergleich
zum vorigen Iterationsschritt nicht mehr gesteigert wird.
38 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
MLH
Der Likelihood-Wert für die beobachtete Y-Verteilung im
Sample ...
N = n1 + n2
Mit:
n1 : Personen, die das Ereignis Y = 1 realisiert haben
n2 : Personen, die das Ereignis Y = 0 realisiert haben
39 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
MLH
... ergibt sich aus der Multiplikation der
Einzelwahrscheinlichkeiten in der Likelihood-Funktion:
L(π) = (π1 )(Y1 ) × (π2 )(Y2 ) · · · × (πn1 )(Yn1 ) × (1 − πn1+1 )(Yn1+1 )
×(1 − πn+2 )(Yn+2 ) × · · · × (πn1+n2 )(Yn1+n2 )
Mit:
π:
wahre Wahrscheinlichkeit, mit der eine bestimmte Person das
Ereignis Yi = 1 realisiert
1 − π: wahre Wahrscheinlichkeit, mit der eine bestimmte Person das
Ereignis Yi = 0 realisiert
40 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
MLH
Alternativ:
L(π) =
n
Q1
n +n
1Q 2
(1 − πi )(1 − Yi )
(πi )(Yi ) ×
i=1
i=n1 +1
Durch Logarithmierung ist die so genannte
Log-Likelihood-Funktion definiert als:
n
n +n
1P 2
P1
LL(π) =
ln(πi )(Yi ) ×
ln(1 − πi )(1 − Yi )
i=1
i=n1 +1
41 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
MLH
Die wahre Wahrscheinlichkeit π, mit der eine bestimmte
Person das Ereignis Yi = 1 realisiert wird berechnet durch:
πi = Pi =
(α+
P
β X )
k kj
e
P
(α+ βk Xkj )
1+e
häufige Verwendung des −2 × LL
Das Maximum der Schätzung ist hier dann erreicht, wenn
der absolute Wert von −2 × LL am geringsten ist
42 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
MLH
Beispiel eines Iterationsprotokolls
Iteration
−2 × LL
Regressionskoeffizient bi
Schritt
Schritt
Schritt
Schritt
Schritt
2648.125
2607.061
2606.116
2606.115
2606.115
0.343
0.468
0.491
0.492
0.492
1
2
3
4
5
43 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
MLH
Parameter aus dem Vorgehen der ML-Schätzung sind
asymptotisch:
konsistent
effizient
normalverteilt
44 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
R2
Grundlegend:
Die -2LL des Modells ohne erklärende Variablen (L0) ist
ein Äquivalent für die Streuung insgesamt.
Die -2LL des Modells mit erklärenden Variablen (L1) ist
ein Äquivalent für die die nicht erklärte Streuung.
McFaddens Pseudo-R 2 :
R 2 = [(−2lnL0) − (−2lnL1)]/(−2lnL0)
Wertebereich zwischen 0 und 1
Nachteil: Kann den Wert 1 nicht erreichen.
45 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
R2
Cox & Snells R 2 :
2
R 2 = ([(−2lnL0) − (−2lnL1)]/(−2lnL0)) N
Wertebereich zwischen 0 und 1
Nachteil: Kann den Wert 1 ebenfalls nicht erreichen.
46 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
R2
Nagelkerkes R 2 :
R2 =
R2
2
Rmax
R2
=
2
([(−2lnL0)−(−2lnL1)]/(−2lnL0)) N
Wertebereich zwischen 0 und 1
Kann den Wert 1 erreichen.
47 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
R2
Resümee:
Die Maße zur Bewertung der Modellgüte in der logistischen
Regression beziehen sich nicht (!) auf die Varianz im Sinne der
quadrierten Abweichungsquadrate. Sie stellen lediglich
ähnliche Maße zu denen der linearen Regression dar (daher:
Pseudo-R 2 ).
Bisher besteht kein eindeutiger Konsens über das beste Maß
zur Bewertung der Modellgüte. Wider der gängigen Praxis ist
bei der Interpretation der verschiedenen Maße relative
Zurückhaltung angebracht.
48 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Güte der Klassifikationsergebnisse
Grundidee:
Verlgeich der empirisch beobachteten Gruppenzuordnungen
mit denen der vorhergesagten Gruppenzuordnungen.
Vorgehen:
1. Berechnung der Wahrscheinlichkeit durch die logistische
Regression.
2. Zuweisungsregel:
(
Gruppe y = 1 fallspk > 0, 5
yk =
Gruppe y = 0 fallspk < 0, 5
49 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Güte der Klassifikationsergebnisse
3. Klassifikationsmatrix
Beobachtet
Vorhergesagt
0
1 Prozent richtig
0
1
349
112
Prozent insgesamt
20
29
94.58
20.57
74.12
50 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Güte der Klassifikationsergebnisse
4. Beurteilung
a. Begutachtung des Prozentsatzes richtig vorhergesagter
Gruppenzugehörigkeit singulär
Wert = 100%: Perfekte Modellanpassung.
Wert = 50%: Inakzeptable Modellanpassung
b. Begutachtung des Prozentsatzes richtig vorhergesagter
Gruppenzugehörigkeit im Vergleich zum Nullmodell
Es gilt: Je größer der prozentualle Zuwachs, desto
sinnvoller ist der Einschluss der gewählten
Variablen ins Modell
51 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Literaturhinweise
Pampel, F. C. (2000): Logistic Regression: A Primer. Sage
University Papers 132, Series on Quantitative Applications in
the Social Sciences. Sage: Thousand Oaks.
Menard, S. (2001): Applied Logistic Regression Analysis. Sage
University Papers 106, Series on Quantitative Applications in
the Social Sciences. Sage: Thousand Oaks.
Kapitel zur logistischen Regression aus dem Handbuch der
sozialwissenschaftlichen Datenanalyse von Wolf/Best.
52 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
SPSS
Analysieren → Regression →
binär logistische Regression
53 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
SPSS
54 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
STATA
Befehlssequenz zur Ausgabe der Effekte auf die
Logarithmierten Odds:
logit aV uVs
Z.B.:
logit Abtreibung Kirchgangshäufigkeit Leben n Tod Einkommen
Befehlssequenz zur Ausgabe der Effekte auf die Odds:
logistic aV uVs
Z.B.:
logistic Abtreibung Kirchgangshäufigkeit Leben n Tod Einkommen
55 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Übung
56 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Übung
Determinanten für das Vorhandensein von Kindern (ja/nein)
57 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Übung
Determinanten für Arbeitslosigkeitserfahrungen (ja/nein)
58 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Übung
Determinanten für Arbeitslosigkeitserfahrungen (ja/nein)
59 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Übung
Determinanten für Arbeitslosigkeitserfahrungen (ja/nein)
60 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Übung
Determinanten der Befürwortung von Abtreibung (ja/nein)
61 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Übung
Determinanten der Befürwortung von Abtreibung (ja/nein)
62 / 62
Grundidee
Interpretation der Regressionskoeffizienten
Modellschätzung
Modellgüte
SPSS/STATA
Übung
Determinanten der Befürwortung von Abtreibung (ja/nein)
63 / 62