sortsinformation

Transcription

sortsinformation
Morten Frydenberg Biostatistik
version dato: 11-04-2011
Biostatistik – uge 10 mandag
Korrelation
– Pearson korrelation
- Spearman korrelation
Morten Frydenberg, Afdeling for Biostatistik©
Resume: Hvad har vi været igennem indtil nu
Lineær (normal) regression
– en kontinuert forklarende variabel
- Model
– Systematisk og tilfældig del
- Antagelser
- Parametre
- Inferens
– flere forklarende variabel
- Model
– Systematisk og tilfældig del
- Antagelser
- Parametre
- Inferens
1
2
Resume de første fire dage
Generel om inferens
Resume de første fire dage
Beskrive og sammenligne personer/grupper
Estimat
Standard error
Aprok. Sikkerhedsinterval
(eksakt sikkerhedsintervaller – nogle specielle tilfælde)
Statistik hypotese
Test og p-værdi
Emne
Binære respons
Time to event
data
Kontinuert
En gruppe
Kum. Incidens
Prævalens prop.
Uge 1
Rate
Middelværdi
Median
Uge 6
To grupper
RR, RD, OR
Uge 1
IRR IRD
Uge 4
Standard error for differens mellem to uafhængige
estimater
Standard error for samvægtede estimater
Flere grupper
(test)
X2-test
Uge 4
Korrektion v.
vægtning
Vægtning
Uge 7
Vægtning
Uge 7
Vægtning
Uge 7
Regression
Logistisk
Uge 12
Cox prop. haz.
Uge 14
Lineær
Uge 10
Prædiktionsinterval (normalfordelt data)
3
Epidemiologi og Biostatistik: Uge 10 Mandag
Uge 4
Differens
Ratio (log-data)
Uge 6
Ensidet ANOVA
Uge 6
4
Morten Frydenberg Biostatistik
version dato: 11-04-2011
Liniens ligning
Alternative præsentation/parametrisering
Liniens ligning
y = β 0 + β1 ⋅ x
y = β 0 + β1 ⋅ x
= ( β0 + β1 ⋅ x0 ) + β1 ⋅ ( x − x0 )
y
β1
1
y
β1
1
β 0 + β1 ⋅ x0
β0
0
0
x
0
0
x0
x
5
KS Example 10.1 Kropsvægt og Plasmavolumen
Model: Vol = β 0 + β1 ⋅ Weight + Error
Error ∼ N ( 0,σ 2 )
Antagelser:
3.6
1.
Plasma volumen er i middel en lineær funktion af vægten.
2.
Der til lægges, der noget tilfældig/uforklaret variation.
3.2
3.
Den tilfældige/uforklarede afvigelse er uafhængig fra
person til person.
3
4.
Den uforklarede variation antages at være normalfordelt
med middelværdi 0 og spredning σ.
3.4
Plasma volume (l)
6
2.8
Modellen indeholder TRE parametre β0 , β1 og σ
2.6
55
60
65
70
Estimater findes vha. computer.
75
Body weight (kg)
Model: Vol = β 0 + β1 ⋅ Weight + Error
7
Epidemiologi og Biostatistik: Uge 10 Mandag
8
Morten Frydenberg Biostatistik
version dato: 11-04-2011
Tolkning af parametrene
Model: Vol = β 0 + β1 ⋅ Weight + Error
Tolkning af parametrene: alternativ parametrisering
Error ∼ N ( 0,σ 2 )
Vol = α 65 + β1 ⋅ (Weight − 65) + Error Error ∼ N ( 0,σ 2 )
α 65 = β 0 + β1 ⋅ 65
β0 er middel plasmavolumen for en person, der ikke vejer
noget – det giver ingen mening! se næste slide.
α65 er middel plasmavolumen for en person, der vejer 65 kg.
β1 er middelforskellen i plasmavolumen for to personer, der
afviger 1 enhed (her 1 kg) i vægt.
β1 er middelforskellen i plasmavolumen for to personer, der
afviger 1 enhed (her 1 kg) i vægt.
Eller middelforskellen i plasma volumen for to personer, der
afviger k enheder (k kg) i vægt, er k ⋅β1
Eller middelforskellen i plasma volumen for to personer, der
afviger k enheder (k kg) i vægt, er k ⋅β1
σ kan bedst forstås vha. et prædiktions interval:
95% af observationerne vil ligge i en afstand på mindre end
1.96 ⋅ σ fra den rette linie.
σ kan bedst forstås vha. et prædiktions interval:
95% af observationerne vil ligge i en afstand på mindre end
1.96 ⋅ σ fra den rette linie.
Uændret
9
Model: Vol = β 0 + β1 ⋅ Weight + Error
Error ∼ N ( 0,σ 2 )
. regress plasma weight
Source |
SS
df
MS
Number of obs =
8
-------------+-----------------------------F( 1,
6) =
8.16
Model | .390684335
1 .390684335
Prob > F
= 0.0289
Residual | .287265681
6 .047877614
R-squared
= 0.5763
-------------+-----------------------------Adj R-squared = 0.5057
Total | .677950016
7 .096850002
Root MSE
= .21881
-----------------------------------------------------------------------------plasma |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------weight |
.0436153
.0152684
2.86
0.029
.006255
.0809757
_cons |
.0857244
1.023998
0.08
0.936
-2.419909
2.591358
------------------------------------------------------------------------------
βˆ1 = 0.0436 ( liter kg )
σˆ = 0.2188 ( liter )
αˆ 65 = 2.9207 ( liter )
4
3.5
3
( )
se ( βˆ ) = 0.0153 ( liter kg )
se βˆ0 = 1.0240 ( liter )
y = 0.0857 + 0.0436 ⋅ x
2.5
2
1.5
1
.5
1
0
4.semester
0
20
40
60
80
Body weight (kg)
se (αˆ 65 ) = 0.0824 ( liter )
11
Epidemiologi og Biostatistik: Uge 10 Mandag
Den estimerede linie (ikke den sande sammenhæng)
Plasma volume (l)
βˆ0 = 0.0857 ( liter )
10
12
Morten Frydenberg Biostatistik
version dato: 11-04-2011
Simpel linear regression: Sikkerhedsintervaller
Den estimerede linie (ikke den sande sammenhæng)
Eksakte 95% sikkerhedsintervaller for β0 og β1 findes
baseret på estimater og se ved brug af t-fordelingen
3.6
( )
⋅ se ( βˆ )
ˆ
95% CI for β1 : βˆ1 ± tn0.975
− 2 ⋅ se β1
y = 0.0857 + 0.0436 ⋅ x
3.4
95% CI for β 0 : βˆ0 ± tn0.975
−2
= 2.9207 + 0.0436 ⋅ ( x − 65 )
3.2
0
0.975
Hvor tn− 2 er den øvre 97.5 percentil i en t-fordeling med
n-2 frihedsgrader.
Det er disse sikkerhedsintervaller computeren beregner.
3
Hvis n er stor virker den sædvanlige approksimation
2.8
( )
: βˆ ± 1.96 ⋅ se ( βˆ )
Appr. 95% CI for β1 : βˆ1 ± 1.96 ⋅ se βˆ1
2.6
55
60
65
70
75
Appr. 95% CI for β 0
Body weight (kg)
0
0
13
14
Lidt om estimationsmetoden og standard errors
Simpel linear regression: Tests
Estimaterne for β0 og β1 findes vha. af Maximum Likelihood
metoden, der i denne model svarer til mindste kvadraters
metode.
Hypoteser angående β0 eller β1 kan testes på sædvanlig vil
baseret på estimat og stadard error:
Eksakt p-værdi kanfindes vha af t-fordeling :
Estimaterne kan beregnes i hånden, men det gør man aldrig.
Hypotese:
β1 = β1Η
Test størrelse:
z=
Obs. de to estimater er ikke uafhængige.
De standard errors er givet ved:
( )
se βˆ1 = σˆ
∑ ( xi − x )
2
1
se βˆ0 = σˆ
+
( )
n
x
∑( x
i
2
−x)
( )
se βˆ1
P-value:
2 ⋅ P ( tn−2 < − z )
2
De test, der står i et output fra et statistik program vil teste
hypotesen om den givne parameter er lig nul, βj=0
Hældningen er bedst bestemt hvis den tilfældig variation er
lille eller x’erne varierer meget.
Afskæringen er godt bestemt hvis: den tilfældig variation er
lille , stikprøven er stor eller gennemsnittet af x’erne er tæt
på nul.
Hvis n er stor kan p-værdien findes vha. standard
normalfordelingen, som vi plejer.
15
Epidemiologi og Biostatistik: Uge 10 Mandag
βˆ1 − β1H
16
Morten Frydenberg Biostatistik
version dato: 11-04-2011
Resume af resultaterne
Resume af resultaterne
. generate w65=weight-65
. regress plasma w65
Source |
SS
df
MS
Number of obs =
8
-------------+-----------------------------F( 1,
6) =
8.16
Model | .390684335
1 .390684335
Prob > F
= 0.0289
Residual | .287265681
6 .047877614
R-squared
= 0.5763
-------------+-----------------------------Adj R-squared = 0.5057
Total | .677950016
7 .096850002
Root MSE
= .21881
-----------------------------------------------------------------------------plasma |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------w65 |
.0436153
.0152684
2.86
0.029
.006255
.0809757
_cons |
2.920721
.082488
35.41
0.000
2.71888
3.122562
------------------------------------------------------------------------------
. generate w65=weight-65
. regress plasma w65
Source |
SS
df
MS
Number of obs =
8
-------------+-----------------------------F( 1,
6) =
8.16
Model | .390684335
1 .390684335
Prob > F
= 0.0289
Residual | .287265681
6 .047877614
R-squared
= 0.5763
-------------+-----------------------------Adj R-squared = 0.5057
Root MSE
= .21881
Total | .677950016
7 .096850002
-----------------------------------------------------------------------------plasma |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------w65 |
.0436153
.0152684
2.86
0.029
.006255
.0809757
_cons |
2.920721
.082488
35.41
0.000
2.71888
3.122562
------------------------------------------------------------------------------
Middel plasma volumen for en rask mand, der vejer 65kg,
er 2.92(2.72;3.12) liter.
Middel differensen i plasma volumen mellem to mænd, hvor
den ene vejer 10kg mere end den anden, er
0.4(0.06;0.8)liter.
Plasma volumen er statistisk signifikant associeret med
vægten (p=2.9%).
Et 95% prædiktionsinterval omkring linien vil være på
± 1.96*0.21881= ± 0.43 liter.
57.63% af variationen i plasma volumen kan ”forklares”
ved at forskel i vægt.
Dvs. r2=0.5763 – se næste slides.
17
(Pearson) korrelationskoefficient
(Pearson) korrelationskoefficient, ρ, er et mål for styrken af
den lineære sammenhæng mellem to variable x og y der
følger en bivariate normal fordeling.
•
ρ er uafhængig af enheder for x og y
•
ρ = ±1 hvis x og y ligger præcist på en ret linie.
ρ bliver estimeret ved den empiriske korrelationskoefficient r:
ρˆ = r =
• -1 ≤ ρ ≤ 1
• Hvis x og y er uafhængige, så ρ = 0
Epidemiologi og Biostatistik: Uge 10 Mandag
Korrelationskoefficienten kan bedst forstås som hvis man
kvadrerer den.
Så hvis ρ = 0.8 så er ρ 2 = 0.64 = 64% , og man kan dermed
sige at 64% af variationen i y kan forklares ved variation i x
og omvendt.
Korrelationskoeffcienten har følgende egenskaber:
ρ er symmetrisk i x og y
The (Pearson) correlation coefficient
ρ 2 = Hvor stor en andel af variationen i den ene variable kan
forklares ved variationen af den anden variabel.
Dette betyder at blandt andet at x og y skal være normal
fordelte og der skal være en lineær sammenhæng mellem x
og y.
•
18
∑( x − x ) ⋅ ( y − y )
∑( x − x ) ⋅ ∑( y − y )
i
i
19
i
2
2
i
20
Morten Frydenberg Biostatistik
version dato: 11-04-2011
The (Pearson) correlation coefficient
Spearman’s rank korrelation
Subject
Det er muligt at lave approxksimative sikkerhedsintervaller
for Pearson korrelation (se s95-96 in Kirkwood & Sterne).
Body weight
Plasma volume
Obs
Rank
Obs
Rank
1
2
3
58.0
70.0
74.0
1
5
8
2.75
2.86
3.37
2
4
7
Dette test er identisk med tested for hældning lig nul i den
simple lineære regressions models.
4
63.5
3
2.76
3
5
62.0
2
2.62
1
6
70.5
6
3.49
8
Anvendelse af korrelationskoeffcienter:
7
8
71.0
66.0
7
4
3.05
3.12
5
6
Det er muligt at lave et eksakt test for hypotesen :
ρ =0
Korrelationskoefficienter bliver anvendt i mange artikler,
desværre ofte forkert eller uden egentlig at give den
relevante information.
X og y rang- ordnes,
hver for sig.
Spearman’s rank beregnes som korrelationen mellem
rangene!
Den har samme egenskaber som korrelationen, men kan
ikke fortolkes.
Den meste udbredte misbrug er ved sammenligning af
målemetoder, hvor korrelations koeffcienter som regel er
uden mening.
Men et test baseret Spearman’s rank korrelation på for
ingen sammenhæng mellem x o y er oftest validt.
21
22
Eksempler på Pearson og Spearman korrelationer
r = .12
r = .74
Lungefunktion FEV1 hos 636 peruvianske børn
r = -.98
spearman = .067
spearman = .718
2.5
FEV1 (litres)
FEV1 (litres)
2.5
2
1.5
1
.5
spearman = -.93
2
1.5
1
.5
7
8
9
10
11
100
110
Age (years)
r = 0
r = .87
140
150
r = -.8
spearman = .752
2.5
FEV1 (litres)
FEV1 (litres)
spearman = 1
130
Height (cm)
2.5
spearman = 0
120
2
1.5
1
.5
2
1.5
1
.5
NO
Yes
boy
NO
Yes
Respiratory symptoms in previous 12 months
Husk: Lav altid en tegning af data !!!!
23
Epidemiologi og Biostatistik: Uge 10 Mandag
24
Morten Frydenberg Biostatistik
version dato: 11-04-2011
Lungefunktion FEV1 hos 636 peruvianske børn
Lungefunktion FEV1 hos 636 peruvianske børn
En multiple regressions model:
FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β 3 ⋅ boy
FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β 3 ⋅ boy
+ Error
Antagelser:
Hvor
boy = 1
Error
+ Error
hvis barnet er en dreng
og 0 hvis det er en pige.
er normal fordelt med middelværdi 0
og spredning σ
1.
FEV1 er i middel en lineær funktion af alder, højde og
køn.
2.
Der til lægges, der noget tilfældig/uforklaret variation.
3.
Den tilfældige/uforklarede afvigelse er uafhængig fra
person til person.
4.
Den uforklarede variation antages at være normalfordelt
med middelværdi 0 og spredning σ.
Modellen indeholder FEM parametre β0 , β1 , β2 , β3 og σ
Estimater findes vha. computer.
25
Lungefunktion FEV1 hos 636 peruvianske børn
FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β 3 ⋅ boy
Lungefunktion FEV1 hos 636 peruvianske børn
FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β 3 ⋅ boy
+ Error
+ Error
Middel difference mellem
A: Pige
9 år 120cm
B: Dreng
11 år 115 cm
Tolkning:
β0 Middel FEV1 for en pige, 0 cm og 0 år – ingen mening!
Men hvis vi vælger anden reference for alder og højde
giver det mening.
β1
Difference i middel FEV1 for to personer med samme køn
og højde, men hvor den ene er 1 år ældre end den anden
β2
Difference i middel FEV1 for to personer med samme køn
og alder, men hvor den ene er 1 cm højere end den anden
β3
Difference i middel FEV1 en dreng og en pige med
samme højde og alder
σ
Gang med 1.96 så har vi et prædiktions interval.
27
Epidemiologi og Biostatistik: Uge 10 Mandag
26
[ β0 + β1 ⋅ 9år + β2 ⋅120cm + β3 ⋅ 0]
− [ β 0 + β1 ⋅ 11år + β 2 ⋅115cm + β 3 ⋅ 1]
= β1 ⋅ ( 9 − 11) år + β 2 ⋅ (120 − 115 ) cm + β 3 ⋅ ( 0 − 1)
= −2år ⋅ β1 + 5cm ⋅ β 2 − β 3
28
Morten Frydenberg Biostatistik
version dato: 11-04-2011
Lungefunktion FEV1 hos 636 peruvianske børn
Lungefunktion FEV1 hos 636 peruvianske børn
FEV1 = β 0 + β1 ⋅ ( age − 9 ) + β 2 ⋅ ( height − 124 ) + β 3 ⋅ boy
FEV1 = β 0 + β1 ⋅ ( age − 9 ) + β 2 ⋅ ( height − 124 ) + β 3 ⋅ boy
+ Error
+ Error
generate h124=height
h124=height-124
generate age9=ageage9=age-9
regress fev1 age9
h124 boy
Source |
SS
df
MS
-------------+-----------------------------Model | 27.9671345
3 9.32237818
Residual | 30.8912885
632 .048878621
-------------+-----------------------------Total |
58.858423
635
.09269043
Number of obs
F( 3,
632)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
pige 9 år og 124 cm βˆ0: :1.537(1.514;1.561)
636
190.73
0.0000
0.4752
0.4727
.22109
-----------------------------------------------------------------------------fev1 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------age9 |
.0945975
.0151863
6.23
0.000
.0647758
.1244191
h124 |
.0245671
.0017502
14.04
0.000
.0211301
.0280041
boy |
.1213315
.0175778
6.90
0.000
.0868136
.1558494
_cons |
1.537472
.0120795
127.28
0.000
1.513751
1.561193
------------------------------------------------------------------------------
liter
βˆ1 : 0.095(0.065;0.124)
liter / år
βˆ2 : 0.025(0.021;0.028)
liter / cm
βˆ3 : 0.121(0.087;0.156)
σˆ : 0.221
liter
liter
Som K&S table 11.6 pånær
29
30
Lungefunktion FEV1 hos 636 peruvianske børn
FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β3 ⋅ boy
Multiple lineær regression - generelt
p
+ Error
Y = β 0 + ∑ βi ⋅ xi + Error
Estimeret middel difference mellem
A:
Pige
9 år 120cm
B:
Dreng
11 år 115 cm
dif: -dreng
-2år 5 cm
Error ∼ N ( 0,σ 2 )
i =1
Antag at person A har værdierne:
Antag at person B har værdierne:
−2år ⋅ βˆ1 + 5cm ⋅ βˆ2 − βˆ3
A
x1 , A x2 ,…, A x p
B
x1 , B x2 ,…, B x p
Middel differensen i Y mellem A og B er
= ( −2 ⋅ 0.095 + 5 ⋅ 0.025 − 0.121) liter
p
p


A 
B 
β
+
β
⋅
x
−
β
+
i
 0 ∑ i
 0 ∑ βi ⋅ xi 
i =1
i =1

 

= −0.188liter
Standard error kan ikke findes i hånden!!!
p
p
i =1
i =1
= ∑ βi ⋅ ( A xi − B xi ) = ∑ βi ⋅ ∆xi
∆xi = A xi − B xi
31
Epidemiologi og Biostatistik: Uge 10 Mandag
32