sortsinformation
Transcription
sortsinformation
Morten Frydenberg Biostatistik version dato: 11-04-2011 Biostatistik – uge 10 mandag Korrelation – Pearson korrelation - Spearman korrelation Morten Frydenberg, Afdeling for Biostatistik© Resume: Hvad har vi været igennem indtil nu Lineær (normal) regression – en kontinuert forklarende variabel - Model – Systematisk og tilfældig del - Antagelser - Parametre - Inferens – flere forklarende variabel - Model – Systematisk og tilfældig del - Antagelser - Parametre - Inferens 1 2 Resume de første fire dage Generel om inferens Resume de første fire dage Beskrive og sammenligne personer/grupper Estimat Standard error Aprok. Sikkerhedsinterval (eksakt sikkerhedsintervaller – nogle specielle tilfælde) Statistik hypotese Test og p-værdi Emne Binære respons Time to event data Kontinuert En gruppe Kum. Incidens Prævalens prop. Uge 1 Rate Middelværdi Median Uge 6 To grupper RR, RD, OR Uge 1 IRR IRD Uge 4 Standard error for differens mellem to uafhængige estimater Standard error for samvægtede estimater Flere grupper (test) X2-test Uge 4 Korrektion v. vægtning Vægtning Uge 7 Vægtning Uge 7 Vægtning Uge 7 Regression Logistisk Uge 12 Cox prop. haz. Uge 14 Lineær Uge 10 Prædiktionsinterval (normalfordelt data) 3 Epidemiologi og Biostatistik: Uge 10 Mandag Uge 4 Differens Ratio (log-data) Uge 6 Ensidet ANOVA Uge 6 4 Morten Frydenberg Biostatistik version dato: 11-04-2011 Liniens ligning Alternative præsentation/parametrisering Liniens ligning y = β 0 + β1 ⋅ x y = β 0 + β1 ⋅ x = ( β0 + β1 ⋅ x0 ) + β1 ⋅ ( x − x0 ) y β1 1 y β1 1 β 0 + β1 ⋅ x0 β0 0 0 x 0 0 x0 x 5 KS Example 10.1 Kropsvægt og Plasmavolumen Model: Vol = β 0 + β1 ⋅ Weight + Error Error ∼ N ( 0,σ 2 ) Antagelser: 3.6 1. Plasma volumen er i middel en lineær funktion af vægten. 2. Der til lægges, der noget tilfældig/uforklaret variation. 3.2 3. Den tilfældige/uforklarede afvigelse er uafhængig fra person til person. 3 4. Den uforklarede variation antages at være normalfordelt med middelværdi 0 og spredning σ. 3.4 Plasma volume (l) 6 2.8 Modellen indeholder TRE parametre β0 , β1 og σ 2.6 55 60 65 70 Estimater findes vha. computer. 75 Body weight (kg) Model: Vol = β 0 + β1 ⋅ Weight + Error 7 Epidemiologi og Biostatistik: Uge 10 Mandag 8 Morten Frydenberg Biostatistik version dato: 11-04-2011 Tolkning af parametrene Model: Vol = β 0 + β1 ⋅ Weight + Error Tolkning af parametrene: alternativ parametrisering Error ∼ N ( 0,σ 2 ) Vol = α 65 + β1 ⋅ (Weight − 65) + Error Error ∼ N ( 0,σ 2 ) α 65 = β 0 + β1 ⋅ 65 β0 er middel plasmavolumen for en person, der ikke vejer noget – det giver ingen mening! se næste slide. α65 er middel plasmavolumen for en person, der vejer 65 kg. β1 er middelforskellen i plasmavolumen for to personer, der afviger 1 enhed (her 1 kg) i vægt. β1 er middelforskellen i plasmavolumen for to personer, der afviger 1 enhed (her 1 kg) i vægt. Eller middelforskellen i plasma volumen for to personer, der afviger k enheder (k kg) i vægt, er k ⋅β1 Eller middelforskellen i plasma volumen for to personer, der afviger k enheder (k kg) i vægt, er k ⋅β1 σ kan bedst forstås vha. et prædiktions interval: 95% af observationerne vil ligge i en afstand på mindre end 1.96 ⋅ σ fra den rette linie. σ kan bedst forstås vha. et prædiktions interval: 95% af observationerne vil ligge i en afstand på mindre end 1.96 ⋅ σ fra den rette linie. Uændret 9 Model: Vol = β 0 + β1 ⋅ Weight + Error Error ∼ N ( 0,σ 2 ) . regress plasma weight Source | SS df MS Number of obs = 8 -------------+-----------------------------F( 1, 6) = 8.16 Model | .390684335 1 .390684335 Prob > F = 0.0289 Residual | .287265681 6 .047877614 R-squared = 0.5763 -------------+-----------------------------Adj R-squared = 0.5057 Total | .677950016 7 .096850002 Root MSE = .21881 -----------------------------------------------------------------------------plasma | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------weight | .0436153 .0152684 2.86 0.029 .006255 .0809757 _cons | .0857244 1.023998 0.08 0.936 -2.419909 2.591358 ------------------------------------------------------------------------------ βˆ1 = 0.0436 ( liter kg ) σˆ = 0.2188 ( liter ) αˆ 65 = 2.9207 ( liter ) 4 3.5 3 ( ) se ( βˆ ) = 0.0153 ( liter kg ) se βˆ0 = 1.0240 ( liter ) y = 0.0857 + 0.0436 ⋅ x 2.5 2 1.5 1 .5 1 0 4.semester 0 20 40 60 80 Body weight (kg) se (αˆ 65 ) = 0.0824 ( liter ) 11 Epidemiologi og Biostatistik: Uge 10 Mandag Den estimerede linie (ikke den sande sammenhæng) Plasma volume (l) βˆ0 = 0.0857 ( liter ) 10 12 Morten Frydenberg Biostatistik version dato: 11-04-2011 Simpel linear regression: Sikkerhedsintervaller Den estimerede linie (ikke den sande sammenhæng) Eksakte 95% sikkerhedsintervaller for β0 og β1 findes baseret på estimater og se ved brug af t-fordelingen 3.6 ( ) ⋅ se ( βˆ ) ˆ 95% CI for β1 : βˆ1 ± tn0.975 − 2 ⋅ se β1 y = 0.0857 + 0.0436 ⋅ x 3.4 95% CI for β 0 : βˆ0 ± tn0.975 −2 = 2.9207 + 0.0436 ⋅ ( x − 65 ) 3.2 0 0.975 Hvor tn− 2 er den øvre 97.5 percentil i en t-fordeling med n-2 frihedsgrader. Det er disse sikkerhedsintervaller computeren beregner. 3 Hvis n er stor virker den sædvanlige approksimation 2.8 ( ) : βˆ ± 1.96 ⋅ se ( βˆ ) Appr. 95% CI for β1 : βˆ1 ± 1.96 ⋅ se βˆ1 2.6 55 60 65 70 75 Appr. 95% CI for β 0 Body weight (kg) 0 0 13 14 Lidt om estimationsmetoden og standard errors Simpel linear regression: Tests Estimaterne for β0 og β1 findes vha. af Maximum Likelihood metoden, der i denne model svarer til mindste kvadraters metode. Hypoteser angående β0 eller β1 kan testes på sædvanlig vil baseret på estimat og stadard error: Eksakt p-værdi kanfindes vha af t-fordeling : Estimaterne kan beregnes i hånden, men det gør man aldrig. Hypotese: β1 = β1Η Test størrelse: z= Obs. de to estimater er ikke uafhængige. De standard errors er givet ved: ( ) se βˆ1 = σˆ ∑ ( xi − x ) 2 1 se βˆ0 = σˆ + ( ) n x ∑( x i 2 −x) ( ) se βˆ1 P-value: 2 ⋅ P ( tn−2 < − z ) 2 De test, der står i et output fra et statistik program vil teste hypotesen om den givne parameter er lig nul, βj=0 Hældningen er bedst bestemt hvis den tilfældig variation er lille eller x’erne varierer meget. Afskæringen er godt bestemt hvis: den tilfældig variation er lille , stikprøven er stor eller gennemsnittet af x’erne er tæt på nul. Hvis n er stor kan p-værdien findes vha. standard normalfordelingen, som vi plejer. 15 Epidemiologi og Biostatistik: Uge 10 Mandag βˆ1 − β1H 16 Morten Frydenberg Biostatistik version dato: 11-04-2011 Resume af resultaterne Resume af resultaterne . generate w65=weight-65 . regress plasma w65 Source | SS df MS Number of obs = 8 -------------+-----------------------------F( 1, 6) = 8.16 Model | .390684335 1 .390684335 Prob > F = 0.0289 Residual | .287265681 6 .047877614 R-squared = 0.5763 -------------+-----------------------------Adj R-squared = 0.5057 Total | .677950016 7 .096850002 Root MSE = .21881 -----------------------------------------------------------------------------plasma | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------w65 | .0436153 .0152684 2.86 0.029 .006255 .0809757 _cons | 2.920721 .082488 35.41 0.000 2.71888 3.122562 ------------------------------------------------------------------------------ . generate w65=weight-65 . regress plasma w65 Source | SS df MS Number of obs = 8 -------------+-----------------------------F( 1, 6) = 8.16 Model | .390684335 1 .390684335 Prob > F = 0.0289 Residual | .287265681 6 .047877614 R-squared = 0.5763 -------------+-----------------------------Adj R-squared = 0.5057 Root MSE = .21881 Total | .677950016 7 .096850002 -----------------------------------------------------------------------------plasma | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------w65 | .0436153 .0152684 2.86 0.029 .006255 .0809757 _cons | 2.920721 .082488 35.41 0.000 2.71888 3.122562 ------------------------------------------------------------------------------ Middel plasma volumen for en rask mand, der vejer 65kg, er 2.92(2.72;3.12) liter. Middel differensen i plasma volumen mellem to mænd, hvor den ene vejer 10kg mere end den anden, er 0.4(0.06;0.8)liter. Plasma volumen er statistisk signifikant associeret med vægten (p=2.9%). Et 95% prædiktionsinterval omkring linien vil være på ± 1.96*0.21881= ± 0.43 liter. 57.63% af variationen i plasma volumen kan ”forklares” ved at forskel i vægt. Dvs. r2=0.5763 – se næste slides. 17 (Pearson) korrelationskoefficient (Pearson) korrelationskoefficient, ρ, er et mål for styrken af den lineære sammenhæng mellem to variable x og y der følger en bivariate normal fordeling. • ρ er uafhængig af enheder for x og y • ρ = ±1 hvis x og y ligger præcist på en ret linie. ρ bliver estimeret ved den empiriske korrelationskoefficient r: ρˆ = r = • -1 ≤ ρ ≤ 1 • Hvis x og y er uafhængige, så ρ = 0 Epidemiologi og Biostatistik: Uge 10 Mandag Korrelationskoefficienten kan bedst forstås som hvis man kvadrerer den. Så hvis ρ = 0.8 så er ρ 2 = 0.64 = 64% , og man kan dermed sige at 64% af variationen i y kan forklares ved variation i x og omvendt. Korrelationskoeffcienten har følgende egenskaber: ρ er symmetrisk i x og y The (Pearson) correlation coefficient ρ 2 = Hvor stor en andel af variationen i den ene variable kan forklares ved variationen af den anden variabel. Dette betyder at blandt andet at x og y skal være normal fordelte og der skal være en lineær sammenhæng mellem x og y. • 18 ∑( x − x ) ⋅ ( y − y ) ∑( x − x ) ⋅ ∑( y − y ) i i 19 i 2 2 i 20 Morten Frydenberg Biostatistik version dato: 11-04-2011 The (Pearson) correlation coefficient Spearman’s rank korrelation Subject Det er muligt at lave approxksimative sikkerhedsintervaller for Pearson korrelation (se s95-96 in Kirkwood & Sterne). Body weight Plasma volume Obs Rank Obs Rank 1 2 3 58.0 70.0 74.0 1 5 8 2.75 2.86 3.37 2 4 7 Dette test er identisk med tested for hældning lig nul i den simple lineære regressions models. 4 63.5 3 2.76 3 5 62.0 2 2.62 1 6 70.5 6 3.49 8 Anvendelse af korrelationskoeffcienter: 7 8 71.0 66.0 7 4 3.05 3.12 5 6 Det er muligt at lave et eksakt test for hypotesen : ρ =0 Korrelationskoefficienter bliver anvendt i mange artikler, desværre ofte forkert eller uden egentlig at give den relevante information. X og y rang- ordnes, hver for sig. Spearman’s rank beregnes som korrelationen mellem rangene! Den har samme egenskaber som korrelationen, men kan ikke fortolkes. Den meste udbredte misbrug er ved sammenligning af målemetoder, hvor korrelations koeffcienter som regel er uden mening. Men et test baseret Spearman’s rank korrelation på for ingen sammenhæng mellem x o y er oftest validt. 21 22 Eksempler på Pearson og Spearman korrelationer r = .12 r = .74 Lungefunktion FEV1 hos 636 peruvianske børn r = -.98 spearman = .067 spearman = .718 2.5 FEV1 (litres) FEV1 (litres) 2.5 2 1.5 1 .5 spearman = -.93 2 1.5 1 .5 7 8 9 10 11 100 110 Age (years) r = 0 r = .87 140 150 r = -.8 spearman = .752 2.5 FEV1 (litres) FEV1 (litres) spearman = 1 130 Height (cm) 2.5 spearman = 0 120 2 1.5 1 .5 2 1.5 1 .5 NO Yes boy NO Yes Respiratory symptoms in previous 12 months Husk: Lav altid en tegning af data !!!! 23 Epidemiologi og Biostatistik: Uge 10 Mandag 24 Morten Frydenberg Biostatistik version dato: 11-04-2011 Lungefunktion FEV1 hos 636 peruvianske børn Lungefunktion FEV1 hos 636 peruvianske børn En multiple regressions model: FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β 3 ⋅ boy FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β 3 ⋅ boy + Error Antagelser: Hvor boy = 1 Error + Error hvis barnet er en dreng og 0 hvis det er en pige. er normal fordelt med middelværdi 0 og spredning σ 1. FEV1 er i middel en lineær funktion af alder, højde og køn. 2. Der til lægges, der noget tilfældig/uforklaret variation. 3. Den tilfældige/uforklarede afvigelse er uafhængig fra person til person. 4. Den uforklarede variation antages at være normalfordelt med middelværdi 0 og spredning σ. Modellen indeholder FEM parametre β0 , β1 , β2 , β3 og σ Estimater findes vha. computer. 25 Lungefunktion FEV1 hos 636 peruvianske børn FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β 3 ⋅ boy Lungefunktion FEV1 hos 636 peruvianske børn FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β 3 ⋅ boy + Error + Error Middel difference mellem A: Pige 9 år 120cm B: Dreng 11 år 115 cm Tolkning: β0 Middel FEV1 for en pige, 0 cm og 0 år – ingen mening! Men hvis vi vælger anden reference for alder og højde giver det mening. β1 Difference i middel FEV1 for to personer med samme køn og højde, men hvor den ene er 1 år ældre end den anden β2 Difference i middel FEV1 for to personer med samme køn og alder, men hvor den ene er 1 cm højere end den anden β3 Difference i middel FEV1 en dreng og en pige med samme højde og alder σ Gang med 1.96 så har vi et prædiktions interval. 27 Epidemiologi og Biostatistik: Uge 10 Mandag 26 [ β0 + β1 ⋅ 9år + β2 ⋅120cm + β3 ⋅ 0] − [ β 0 + β1 ⋅ 11år + β 2 ⋅115cm + β 3 ⋅ 1] = β1 ⋅ ( 9 − 11) år + β 2 ⋅ (120 − 115 ) cm + β 3 ⋅ ( 0 − 1) = −2år ⋅ β1 + 5cm ⋅ β 2 − β 3 28 Morten Frydenberg Biostatistik version dato: 11-04-2011 Lungefunktion FEV1 hos 636 peruvianske børn Lungefunktion FEV1 hos 636 peruvianske børn FEV1 = β 0 + β1 ⋅ ( age − 9 ) + β 2 ⋅ ( height − 124 ) + β 3 ⋅ boy FEV1 = β 0 + β1 ⋅ ( age − 9 ) + β 2 ⋅ ( height − 124 ) + β 3 ⋅ boy + Error + Error generate h124=height h124=height-124 generate age9=ageage9=age-9 regress fev1 age9 h124 boy Source | SS df MS -------------+-----------------------------Model | 27.9671345 3 9.32237818 Residual | 30.8912885 632 .048878621 -------------+-----------------------------Total | 58.858423 635 .09269043 Number of obs F( 3, 632) Prob > F R-squared Adj R-squared Root MSE = = = = = = pige 9 år og 124 cm βˆ0: :1.537(1.514;1.561) 636 190.73 0.0000 0.4752 0.4727 .22109 -----------------------------------------------------------------------------fev1 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------age9 | .0945975 .0151863 6.23 0.000 .0647758 .1244191 h124 | .0245671 .0017502 14.04 0.000 .0211301 .0280041 boy | .1213315 .0175778 6.90 0.000 .0868136 .1558494 _cons | 1.537472 .0120795 127.28 0.000 1.513751 1.561193 ------------------------------------------------------------------------------ liter βˆ1 : 0.095(0.065;0.124) liter / år βˆ2 : 0.025(0.021;0.028) liter / cm βˆ3 : 0.121(0.087;0.156) σˆ : 0.221 liter liter Som K&S table 11.6 pånær 29 30 Lungefunktion FEV1 hos 636 peruvianske børn FEV1 = β 0 + β1 ⋅ age + β 2 ⋅ height + β3 ⋅ boy Multiple lineær regression - generelt p + Error Y = β 0 + ∑ βi ⋅ xi + Error Estimeret middel difference mellem A: Pige 9 år 120cm B: Dreng 11 år 115 cm dif: -dreng -2år 5 cm Error ∼ N ( 0,σ 2 ) i =1 Antag at person A har værdierne: Antag at person B har værdierne: −2år ⋅ βˆ1 + 5cm ⋅ βˆ2 − βˆ3 A x1 , A x2 ,…, A x p B x1 , B x2 ,…, B x p Middel differensen i Y mellem A og B er = ( −2 ⋅ 0.095 + 5 ⋅ 0.025 − 0.121) liter p p A B β + β ⋅ x − β + i 0 ∑ i 0 ∑ βi ⋅ xi i =1 i =1 = −0.188liter Standard error kan ikke findes i hånden!!! p p i =1 i =1 = ∑ βi ⋅ ( A xi − B xi ) = ∑ βi ⋅ ∆xi ∆xi = A xi − B xi 31 Epidemiologi og Biostatistik: Uge 10 Mandag 32