Anova
Transcription
Anova
university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Sammenligning af grupper Faculty of Health Sciences I Basal Statistik I Sammenligning af grupper, Variansanalyse I I Lene Theil Skovgaard Sammenligning af to grupper: T-test Dimensionering af undersøgelser Sammenligning af flere end to grupper: Ensidet variansanalyse Tosidet variansanalyse Hjemmesider: http://staff.pubhealth.ku.dk/~lts/basal15_2 E-mail: ltsk@sund.ku.dk 8. september 2015 1 / 76 2 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Vitamin D eksemplet Er der forskel på vitamin D status for kvinder i Danmark og Irland? Hvis der er en forskel på 5 nmol/l, vil det være af interesse. I Har vi en rimelig normalfordeling i hver gruppe? I Er der nogenlunde lige stor variation i de to lande/grupper? 3 / 76 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Praktisk håndtering af data Der er tale om 94 datalinier, en for hver kvinde, men to variable for hver kvinde: I Land (DK, EI), repræsenteret ved country (1,4) I Vitamin D status, vitd (Serum 25(OH)D, nmol/l) proc means data=women; where country in (1,4); class country; var vitd; run; Analysis Variable : vitd Vitamin D N country Obs N Mean Std Dev Minimum Maximum ------------------------------------------------------------------------DK 53 53 47.1660377 22.7829216 11.4000000 93.6000000 EI 41 41 48.0073171 20.2221214 17.0000000 110.4000000 ------------------------------------------------------------------------- 4 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Model for uparret sammenligning university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Normalfordelingsmodel for to grupper To grupper, med hver sin normalfordeling: DK: Y1i , i = 1, . . . , 53 ∼ N (µ1 , σ 2 ) EI: Y2i , i = 1, . . . , 41 ∼ N (µ2 , σ 2 ) Antagelser: I Alle observationerne er uafhængige – personerne har ikke noget med hinanden at gøre I Der er samme spredning i de to grupper – bør checkes/sandsynliggøres I Observationerne følger en normalfordeling i hver gruppe, med hver deres middelværdi 5 / 76 6 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Uparret t-test i SAS /* udvaelg de to lande */ vitd country DK EI Diff (1-2) Diff (1-2) Method 7 / 76 Mean 47.1660 48.0073 -0.8413 Pooled Satterthwaite Method Pooled Satterthwaite Method Folded F (Vitamin D) N 53 41 Std Dev 22.7829 20.2221 21.7067 Mean 47.1660 48.0073 -0.8413 -0.8413 d e pa rt m e n t o f b i o s tat i s t i c s Std Err 3.1295 3.1582 4.5147 Variances Equal Unequal DF 92 90.213 t Value -0.19 -0.19 Pr > |t| 0.8526 0.8503 Equality of Variances The TTEST Procedure country DK EI Diff (1-2) university of copenhagen Output, fortsat proc ttest data=women; where country in (1,4); class country; var vitd; run; Variable: Bemærk: “Totalt set” er det slet ikke en normalfordeling!! men en blanding af to Minimum 11.4000 17.0000 95% CL Mean 40.8863 53.4458 41.6244 54.3902 -9.8078 8.1253 -9.6739 7.9913 Maximum 93.6000 110.4 Std Dev 22.7829 20.2221 21.7067 Num DF 52 Den DF 40 F Value 1.27 Pr > F 0.4357 Bemærk, at der er 2 forskellige udgaver af t-testet, afhængig af, om varianserne kan antages at være ens eller ej. Under alle omstændigheder er P = 0.85, dvs. vi kan ikke afvise, at middelværdierne er ens. 8 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Estimeret forskel på middelværdier Ȳ1 − Ȳ2 = 48.01 − 47.17 = 0.84 nmol/l q Estimeret St.Err(Ȳ1 − Ȳ2 ) = SD n11 + som kan aflæses direkte fra output. 1 n2 = 4.51 95% konfidensinterval bliver ca: Hvor stor er usikkerheden på dette estimat? St.Err.(Ȳ1 − Ȳ2 ) = σ d e pa rt m e n t o f b i o s tat i s t i c s Konfidensinterval for forskel Estimat µ̂1 − µ̂2 = s university of copenhagen 1 1 + n1 n2 σ estimeres ved s=SD, et poolet spredningsskøn, og antallet af frihedsgrader er df=(n1 -1)+(n2 -1)=(53-1)+(41-1)=92 9 / 76 0.84 ± 2 × 4.51 = (−8.18, 9.86) Output giver det mere eksakte interval (-8.13, 9.81), idet det “rigtige 2-tal” (t-fraktilen med 92 frihedsgrader) her er 1.986 < 2 10 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Uparret T-test for ens middelværdier Hvad betyder teststørrelsens fordeling? Hypotese: H0 : µ1 = µ2 Vi taler om fordelingen under H0 De faktiske udregninger: Vi forestiller os mange ens undersøgelser af stikprøver på 94 kvinder fra samme land (svarende til ingen landeforskel): T= Ȳ1 − Ȳ2 Ȳ1 − Ȳ2 q = St.Err.(Ȳ1 − Ȳ2 ) SD n11 + n12 0.8413 =− = −0.19 4.5147 1. 53 i en gruppe, 41 i en anden, tilfældigt valgt =⇒ t1 2. 53 i en gruppe, 41 i en anden, tilfældigt valgt =⇒ t2 3. 53 i en gruppe, 41 i en anden, tilfældigt valgt =⇒ t3 osv. osv. hvilket i en t-fordeling med 92 frihedsgrader giver P = 0.85 Alt dette ses direkte i outputtet Fordeling af t’erne? ... kan udregnes... 11 / 76 12 / 76 Vores faktiske T sammenlignes nu med denne fordeling, Passer den pænt? university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s t - fordelingen university of copenhagen Konklusion t-fordelingen (Student fordelingen) I har en parameter df , der kaldes antallet af frihedsgrader (her: 5, 10, 100). I I Der ser ikke ud til at være forskel på vitamin D status i de to lande I Mange frihedsgrader: Fordelingen ligner normalfordeling I 13 / 76 Vi fandt nemlig en teststørrelse, der passer pænt med dem, vi ville finde, hvis vi havde valgt kvinder fra samme land, altså hvor forskellene udelukkende var tilfældige Men kan vi nu være sikker på, at der ikke er nogen forskel? I Få frihedsgrader: Tungere haler. Nej, konfidensintervallet siger, at forskellen mellem de to lande med 95% sandsynlighed ligger mellem 8.13 i Danmarks favør og 9.81 i Irlands favør. I Vi kan altså ikke udelukke en forskel på 5 nmol/l, som var det, vi ønskede at finde ud af.... I Vi skal måske prøve en større undersøgelse... 14 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Teknikaliteter Rimeligheden af ens varianser undersøges ved at se på ratio: s22 22.78292 F= 2 = = 1.27 ∼ F (52, 40) ⇒ P = 0.44 20.22212 s1 (eller den reciprokke, 1/1.27=0.78, samme P-værdi.) Vi kan altså med god samvittighed anvende et poolet variansskøn. Hvad skulle vi ellers have gjort? t= Ȳ1 − Ȳ2 Ȳ1 − Ȳ2 =r ∼ t(90.213) se(Ȳ1 − Ȳ2 ) s12 s22 n1 + n2 Dette ville give os t=0.19 og P=0.85, altså præcis samme konklusion. Bemærk dog, at konfidensintervallet er en anelse bredere, nemlig (-7.99, 9.67). 15 / 76 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Signifikansbegrebet Statistisk signifikans afhænger af: I sand forskel I antal observationer I den tilfældige variation, dvs. den biologiske variation I signifikansniveau Klinisk signifikans afhænger af: I størrelsen af den påviste forskel 16 / 76 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Tænkt eksempel vs. Placebo: P Resultater fra to trials: 1. trial: A signifikant bedre end P (n=100) 2. trial: B ikke signifikant bedre end P (n=50) Konklusion: A er bedre end B ??? I At der ikke er en forskel I At forskellen er så lille, at den er vanskelig at opdage I At variationen er så stor, at en evt. forskel drukner I At materialet er for lille til at kunne påvise nogensomhelst forskel af interesse. Se på konfidensintervallet for forskellen 17 / 76 18 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Risiko for fejlkonklusioner Signifikansniveauet α (sædvanligvis 0.05) angiver den risiko, vi er villige til at løbe for at forkaste en sand nulhypotese, også betegnet som fejl af type I. accept 1-α β fejl af type II forkast α fejl af type I 1-β styrke 1-β kaldes styrken, den angiver sandsynligheden for at forkaste en falsk hypotese. 19 / 76 kan det skyldes Kan vi så konkludere, at der ikke er forskel?? Nej!!, ikke nødvendigvis Nej, ikke nødvendigvis. H0 falsk d e pa rt m e n t o f b i o s tat i s t i c s Hvis der ikke er signifikans To aktive behandlinger: A og B, H0 sand university of copenhagen university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Styrke Men hvad betyder “H0 falsk”? Hvor store forskelle er der? Styrken er en funktion af forskellen - og af antallet af observationer Styrkefunktion: ’Hvis forskellen er xx, hvad er så styrken, dvs. sandsynligheden for at opdage denne forskel – på 5% niveau’?? 20 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Vigtigt I I I Styrken udregnes for at dimensionere en undersøgelse Når resultaterne er i hus, præsenteres i stedet konfidensintervaller Post-hoc styrkebetragtninger giver kun mening, hvis man skal i gang med en ny undersøgelse - som f.eks. for vitamin D, fordi resultatet var inkonklusivt d e pa rt m e n t o f b i o s tat i s t i c s Hvordan skaffer man de nødvendige oplysninger? I Klinisk relevant forskel (MIREDIF) Dette er noget, man fastsætter ud fra teoretiske/praktiske overvejelser om, hvilken forskel, der skønnes at være stor nok til at være vigtig. Det er altså ikke noget, man skal regne sig frem til! Her var vi interesseret i at kunne påvise forskellen, hvis den oversteg 5 nmol/l Styrke: bør være stor, mindst 80% Signifikansniveau: Sædvanligvis 5% I I I tilfælde af mange sammenligninger, eller hvis det kan have fatale konsekvenser at forkaste en sand hypotese, bør det sættes lavere, f.eks. 1% Spredning: Dette er det sværeste, se næste side 23 / 76 Hvor mange patienter skal vi medtage? Dette afhænger naturligvis af datas beskaffenhed, samt af, hvad man ønsker at opnå: I Hvilken forskel i respons er vi interesserede i at opdage? Fastsæt MIREDIF (mindste relevante differens) I Med hvilken sandsynlighed (styrke = power)? I På hvilket signifikansniveau? I Hvor stor er spredningen (den biologiske variation)? 22 / 76 university of copenhagen I d e pa rt m e n t o f b i o s tat i s t i c s Dimensionering af undersøgelser 21 / 76 I university of copenhagen university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Fornuftigt gæt på spredning kan være ganske vanskeligt og kræver sædvanligvis et pilot-studie. Her har vi oplysninger fra T-testet: The TTEST Procedure Variable: vitd (Vitamin D) country DK EI Diff (1-2) N 53 41 Mean 47.1660 48.0073 -0.8413 country DK EI Diff (1-2) Diff (1-2) Method Pooled Satterthwaite Std Dev 22.7829 20.2221 21.7067 Std Err 3.1295 3.1582 4.5147 Minimum 11.4000 17.0000 Maximum 93.6000 110.4 95% CL Std Dev 19.1229 28.1887 16.6026 25.8743 18.9725 25.3688 For at være på den sikre side, bør vi vælge et spredningsskøn på 25 eller 28, hvorimod 20-22 let kan vise sig at være for lavt 24 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Dimensionering i SAS The POWER Procedure Two-sample t Test for Mean Difference Fixed Scenario Elements Distribution Method Mean Difference Alpha Normal Exact 5 0.05 Computed N Per Group Bemærk, at man kan foretage adskillige dimensioneringer på samme tid 25 / 76 Dimensionering med nomogram d e pa rt m e n t o f b i o s tat i s t i c s Output fra dimensionering i SAS proc power; twosamplemeans test=diff meandiff=5 stddev=20,28 npergroup=. power=0.8,0.9; run; university of copenhagen university of copenhagen Index Std Dev Nominal Power Actual Power N Per Group 1 2 3 4 20 20 28 28 0.8 0.9 0.8 0.9 0.801 0.901 0.801 0.900 253 338 494 660 Vi skal altså op på ca. 500 personer fra hvert land for at kunne detektere en forskel af den relevante størrelse. 26 / 76 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Dimensionering med nomogram, fortsat Forklaring til nomogrammet: I I I Venstre lodrette akse: Standardiseret forskel: MIREDIF spredning (her Højre lodrette akse: power 5 28 ≈ 0.18) På de to skrå akser aflæses N , det totale nødvendige patientantal, enten for I I signifikansniveau 5% (øverste akse) signifikansniveau 1% (nederste akse) Ikke helt så nøjagtigt, men til gengæld ret hurtigt og fleksibelt 27 / 76 28 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Nonparametrisk uparret test i SAS university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output, fortsat Mann-Whitney test eller Kruskal-Wallis test Wilcoxon Two-Sample Test Statistic 1962.5000 (approksimation for n > 25) proc npar1way wilcoxon data=women; where country in (1,4); class country; * exact hl; var vitd; run; Normal Approximation Z One-Sided Pr > Z Two-Sided Pr > |Z| 0.1106 0.4560 0.9120 t Approximation One-Sided Pr > Z Two-Sided Pr > |Z| 0.4561 0.9122 Z includes a continuity correction of 0.5. Wilcoxon Scores (Rank Sums) for Variable vitd Classified by Variable country Sum of Expected Std Dev Mean country N Scores Under H0 Under H0 Score ----------------------------------------------------------------------DK 53 2502.50 2517.50 131.157521 47.216981 EI 41 1962.50 1947.50 131.157521 47.865854 Average scores were used for ties. Men vi mangler et konfidensinterval! For små samples kan sætningen "exact hl"; give dette, men her ville det tage frygtelig lang tid 29 / 76 university of copenhagen Kruskal-Wallis Test Chi-Square 0.0131 DF 1 Pr > Chi-Square 0.9089 30 / 76 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Permutationstest Permutationstest i SAS ...et alternativt nonparametrisk test proc npar1way scores=data data=women; where country in (1,4); class country; var vitd; run; Fremgangsmåde: I Bland alle vitamin D observationer fra de to lande sammen I Fordel dem tilfældigt ud i to grupper af størrelse 53 og 41 I Udregn et passende test, f.eks. T-testet Gør ovenstående mange gange og se på fordelingen af de fremkomne størrelser: I Hvordan passer vores faktiske T-teststørrelse i denne fordeling? I Ligner den, eller ser den ekstrem ud? 31 / 76 med output: Data Scores Two-Sample Test Statistic Z One-Sided Pr > Z Two-Sided Pr > |Z| 1968.3000 0.1873 0.4257 0.8514 Data Scores One-Way Analysis Chi-Square DF Pr > Chi-Square 32 / 76 0.0351 1 0.8514 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s T-test kontra non-parametrisk alternativ Som regel gør det ingen synderlig forskel i P-værdi om man benytter parametriske eller non-parametriske metoder. I T-test giver pr. automatik et konfidensinterval for forskellen på middelværdierne Men det er vigtigt at respektere sit design! I Man skal sno sig for at få et konfidensinterval baseret på et non-parametrisk test I T-testet er lidt stærkere, dvs. man kan nøjes med lidt færre observationer - men det er jo fordi man lægger en antagelse ind i stedet for... I Man skal ikke være så bange for normalfordelingsantagelsen, for det er i virkeligheden kun gennemsnittene, der behøver at være pænt normalfordelte, og det er de sædvanligvis, når man har mange observationer i hver gruppe I Det er kun, hvis man skal udtale sig om enkeltindivider, at man skal være forsigtig med normalfordelingsantagelsen, altså ved prediktioner. Eks: Målemetoderne MF og SV (fra forelæsningen sidste uge): Parret T-test: t = 0.16, f = 20 P = 0.88 Sikkerhedsinterval: (-2.93 cm3 , 3.41 cm3 ) Uparret T-test (galt): t = 0.04, f = 40 P = 0.97 Sikkerhedsinterval: (-12.71 cm3 , 13.19 cm3 ) 33 / 76 34 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Sammenligning af alle 4 lande university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Ensidet variansanalyse, ANOVA I Vi har set, at Danmark og Irland ikke adskiller sig signifikant fra hinanden I ensidet: fordi der kun er et inddelingskriterium, f.eks. som her country I Er det simpelthen sådan, at alle landene er mere eller mindre identisk mht vitamin D status? I variansanalyse: fordi man sammenligner variansen mellem grupper med variansen indenfor grupper I Man kunne sammenligne alle landene parvis, men det er farligt pga risikoen for massesignifikans (kommer senere...) I stedet kan man se på hypotesen om ens middelværdier for alle lande under et: H 0 : µ1 = µ2 = µ3 = µ4 (= µ) Det kaldes ensidet variansanalyse eller one-way anova 35 / 76 Antagelser: I Alle observationer er uafhængige (personerne går ikke igen flere gange, er ikke tvillinger o.l.) I Der er samme spredning (samme varians, dvs. biologisk variation) i alle grupper I Inden for hver gruppe er observationerne normalfordelt 36 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Man skal tegne før man regner university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Modelantagelser på formel Ygi angiver vitamin D status for person nr. i i gruppe g. Model: Ygi = µg + εgi i’te observation i gruppe nr. g middelværdi for individuel gruppe nr. g afvigelse Observationerne antages at følge en normalfordeling (inden for hver gruppe) med samme spredning σ. εgi ∼ N (0, σ 2 ), Ygi ∼ N (µg , σ 2 ) Disse antagelser bør checkes efter estimationen, og før fortolkningen. 37 / 76 38 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Ensidet ANOVA i SAS university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output, fortsat Data skal være sat op i 2 kolonner, en med outcome (vitd) og en med klassifikationsvariablen (country). Source country proc glm data=women; class country; model vitd=country / solution clparm; run; The GLM Procedure Dependent Variable: vitd Source Model Error Corrected Total R-Square 0.126130 39 / 76 Coeff Var 43.04626 Sum of Squares 10373.99129 71874.40589 82248.39718 Root MSE 18.54445 Parameter Estimate Intercept country country country country 47.99074074 -0.82470300 0.01657633 -15.42920228 0.00000000 DK EI PL SF Parameter Vitamin D DF 3 209 212 DF 3 Mean Square 3457.99710 343.89668 F Value 10.06 Pr > F <.0001 Intercept country country country country vitd Mean 43.08028 40 / 76 Type III SS 10373.99129 B B B B B 43.01580657 -7.89343136 -7.55623632 -22.16058279 . F Value 10.06 Pr > F <.0001 Standard Error t Value Pr > |t| 2.52358020 3.58567617 3.84137747 3.41455343 . 19.02 -0.23 0.00 -4.52 . <.0001 0.8183 0.9966 <.0001 . 95% Confidence Limits DK EI PL SF Mean Square 3457.99710 52.96567491 6.24402535 7.58938899 -8.69782177 . university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Bemærkninger til output, I I F Value: Teststørrelse: F = I I MSb MSw university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Teknisk note om kvadratsummer = 10.06, hvor Tæller (MSb ) er variationen mellem (between) gruppegennemsnit Nævner (s = SD = MSw ) er en poolet variation indenfor (within) de 3 grupper, her repræsenteret ved Root MSE Opspaltning af observationer: ygi − ȳ· = (ygi − ȳg ) + (ȳg − ȳ· ) ygi i-te observation i g-te gruppe ȳg gennemsnit i g-te gruppe ȳ. totalgennemsnit Opspaltning af variation (kvadratsum, sum of squares, SS): X i,j Vi forkaster nulhypotesen om ens middelværdier, hvis F er stor, dvs. hvis variationen mellem grupper er for stor i forhold til variationen indenfor grupper. (ygi − ȳ· )2 = X i,j (ygi − ȳg )2 + | {z } indenfor grupper SStot = SSw + SSb X i,j (ȳg − ȳ· )2 | {z } mellem grupper (n − 1) = (n − k) + (k − 1) MSw = SSw /(n − k) MSb = SSb /(k − 1) 41 / 76 university of copenhagen 42 / 76 d e pa rt m e n t o f b i o s tat i s t i c s Bemærkninger til output, II university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Modelantagelse 1: Uafhængighed Estimater: I Intercept svarer til niveauet for referencegruppen (sidste gruppe, alfabetisk eller numerisk), dvs. Finland (SF) I Estimatet ud for f.eks. country DK er forskellen i niveau mellem DK og SF (referencegruppen) Bemærk: Ved omkodning af grupper kan man få vilkårlige forskelle frem. Dette er årsagen til den NOTE, der skrives sidst i outputtet fra GLM (og den er altså ikke farlig) 43 / 76 Dette er noget, man skal vide I ingen tvillinger, søskende etc. I kun en observation for hver person (ellers hører det hjemme under emnet “Korrelerede målinger”, kursets sidste emne) 44 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Modelantagelse 2: Identiske spredninger i grupperne Levenes test for identiske spredninger Kaldes som regel varianshomogenitet, og checkes ud fra hovtest i means-sætningen: I Box plot eller Scatter plot, se s. 37 I Test af hypotese om ens varianser (sædvanligvis Levenes test, se næste side) I Residualer tegnet op mod predikterede (=forventede=fittede) værdier, skal være jævnt proc glm data=women; class country; model vitd=country / solution clparm; means country /hovtest; run; Levene’s Test for Homogeneity of vitd Variance ANOVA of Squared Deviations from Group Means Source country Error DF 3 209 Sum of Squares 3934223 46968190 Mean Square 1311408 224728 F Value 5.84 Pr > F 0.0008 Ved sammenligning af de k = 4 variansestimater fås en teststørrelse på 5.84, som er F(3,209)-fordelt, svarende til P=0.0008, og altså kraftig signifikans! 45 / 76 46 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Modelantagelse 3: Normalfordelingsantagelsen Det er antaget, at observationerne følger en normalfordeling inden for hver gruppe. Dette bør checkes, f.eks.: I ved at tegne histogrammer eller fraktildiagrammer for hver gruppe (kun hvis man har rigtig mange observationer) I ved at tegne histogram eller fraktildiagram for residualerne rgi = Ygi − µ̂g = Ygi − Ȳg I Det er ikke nogen god ide at lave normalfordelingstest I I 47 / 76 Hvis man har mange observationer, bliver det stort set altid forkastet - uden at det betyder noget i praksis Hvis man har få observationer, bliver det stort set altid godkendt - uden at man derved har påvist at der er tale om en normalfordeling university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Modelkontrol i et enkelt hug ods graphics on; proc glm plots=all data=women; class country; model vitd=country / solution clparm; run; ods graphics off; producerer et såkaldt Diagnostics Panel, indeholdende bl.a. i første søjle (S1, se næste side) I Figur (R1,S1): residualer mod predikterede værdier Har de samme spredning? Næh, den stiger vist lidt med den predikterede værdi I Figur (R2-R3,S1): Fraktildiagram og histogram af residualerne: Ser de normalfordelte ud? Næsten, dog lidt “hængekøje”=skævhed=hale mod højre 48 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Diagnostics Panel university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hvad gør vi ved forskellen i spredninger? I Er det slemt? Tja, ikke at dømme ud fra grafikken.... I Kan vi slippe for forudsætningen ligesom for T-testet? Ja:, ved hjælp af option welch i means-sætningen: proc glm data=women; class country; model vitd=country / solution clparm; means country / welch; run; Welch’s ANOVA for vitd Source country Error DF 3.0000 102.3 F Value 14.64 Pr > F <.0001 Vi kan altså godt føle os sikre på den fundne forskel 49 / 76 university of copenhagen 50 / 76 d e pa rt m e n t o f b i o s tat i s t i c s Konklusion...? I Modellen er nogenlunde rimelig, men ikke helt I F -test viser helt klart en forskel på middelværdien af vitamin D i de fire lande, university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Type 1 fejl ved multiple sammenligninger men hvori består forskellen? Multiple sammenligninger (dvs. parvise t-test) giver problemer med massesignifikans Der er m = k(k − 1)/2 mulige test, reelt signifikansniveau: 1 − (1 − α)m , f.eks. for k=4: 0.26 51 / 76 I Øverste graf: Alle grupper sammenlignes med alle andre I Nederste graf: Alle grupper sammenlignes med en enkelt kontrolgruppe 52 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Korrektion for multiple sammenligninger I I I 1 α for små m benytter signifikansniveau 1 − (1 − α) m ≈ m lidt mindre konservativ, men stadig ret lav styrke Tukey I I I α benytter signifikansniveau m stærkt konservativ, dvs. for høje P-værdier (lav styrke) Sidak I I d e pa rt m e n t o f b i o s tat i s t i c s Tukey korrektion for vitamin D Bonferroni I I university of copenhagen baseres på fordeling af ’størst blandt mange’ giver større styrke Dunnett I korrigerer kun for test mod referencegruppe (typisk en kontrolgruppe eller ’tid 0’) 53 / 76 proc glm data=women; class country; model vitd=country / solution clparm; LSMEANS country / ADJUST=TUKEY pdiff cl; run; The GLM Procedure Least Squares Means Adjustment for Multiple Comparisons: Tukey-Kramer country DK EI PL SF vitd LSMEAN 47.1660377 48.0073171 32.5615385 47.9907407 LSMEAN Number 1 2 3 4 54 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output, fortsat university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hvis antagelserne ikke holder Least Squares Means for effect country Pr > |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: vitd 1 2 3 0.9963 0.0002 0.9963 0.0003 0.0002 0.0003 0.9957 1.0000 <.0001 i/j 1 2 3 4 4 0.9957 1.0000 <.0001 I Vægtet analyse (Welch’s test, som vi så tidligere) I Transformation (ofte logaritmer) kan afhjælpe såvel variansinhomogenitet som dårlig normalfordelingstilpasning I Non-parametrisk sammenligning Least Squares Means for Effect country i 1 1 1 2 2 3 j 2 3 4 3 4 4 Difference Between Means -0.841279 14.604499 -0.824703 15.445779 0.016576 -15.429202 Simultaneous 95% Confidence Limits for LSMean(i)-LSMean(j) -10.830178 9.147620 5.715969 23.493029 -10.110959 8.461553 5.867491 25.024067 -9.931900 9.965052 -24.272281 -6.586124 I I Husk: Antagelserne er ikke altid lige vigtige, vigtigst når man skal udtale sig om enkeltindivider Land nr. 3 (Polen) adskiller sig signifikant fra de 3 øvrige. 55 / 76 Kruskal-Wallis test Permutationstest 56 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Non-parametrisk Kruskal-Wallis test Nyt eksempel: Fibrinogen efter miltoperation proc npar1way wilcoxon data=women; class country; var vitd; run; 34 rotter randomiseres, på 2 måder Kruskal-Wallis Test Chi-Square DF Pr > Chi-Square 26.6819 3 <.0001 Bemærk: Man kan også få en eksakt vurdering af teststørrelsen, men pas på i tilfælde af store materialer (som f.eks. her) 57 / 76 university of copenhagen Figur med de i alt 4 grupper I 17 får fjernet milten (splenectomy=yes), 17 beholder milten (splenectomy=no) I 8/17 i hver gruppe opholder sig i stor højde (place=altitude), de resterende 9 bliver på landjorden Outcome: Fibrinogen niveau i mg% ved dag 21 Primært spørgsmål: Bliver fibrinogen påvirket af milten? Eller rettere: Af “mangel på milt” 58 / 76 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s T-test: milt vs. ingen milt Opholdssted ignoreres lige foreløbig..... The TTEST Procedure Variable: fibrinogen splenectomy N Mean no 17 401.3 yes 17 304.3 Diff (1-2) 97.0000 splenectomy Diff (1-2) Diff (1-2) Method Pooled Satterthwaite Method Pooled Satterthwaite Method Folded F 59 / 76 Variances Equal Unequal Std Dev 89.4963 84.6292 87.0968 Std Err 21.7061 20.5256 29.8739 Mean 97.0000 97.0000 DF 32 31.9 Equality of Variances Num DF Den DF F Value 16 16 1.12 Minimum 272.0 175.0 95% CL Mean 36.1488 157.9 36.1413 157.9 t Value 3.25 3.25 Maximum 575.0 528.0 Std Dev 87.0968 Pr > |t| 0.0027 0.0027 Pr > F 0.8258 Dyrene med intakt milt har et højere niveau af fibrinogen, estimeret til 97 enheder højere, med konfidensinterval (36,158). Kan vi indsnævre det konfidensinterval? 60 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Tosidet variansanalyse: Additiv model Tosidet, fordi der nu er to inddelingskriterier: university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output fra additiv model I Milt, splenectomy The GLM Procedure Dependent Variable: fibrinogen I Opholdssted, place Source DF Sum of Squares Model Error Corrected Total 2 31 33 137872.3435 184851.2153 322723.5588 Additiv betyder: Uden interaktion proc glm data=fibrinogen; class splenectomy place; model fibrinogen=place splenectomy / solution clparm; run; R-Square 0.427215 Source place splenectomy Coeff Var 21.88815 Root MSE 77.22009 DF 1 1 Mean Square F Value Pr > F 68936.1718 5962.9424 11.56 0.0002 F Value 9.71 13.41 Pr > F 0.0039 0.0009 fibrinogen Mean 352.7941 Type III SS 57895.84355 79976.50000 Mean Square 57895.84355 79976.50000 Vi vil sammenligne dyr med milt vs. dyr uden milt, for fastholdt (dvs. ens) opholdssted (vi korrigerer for opholdssted). Begge forklarende variable har en signifikant effekt (P = 0.0039 hhv. 0.0009) Estimater på næste side 61 / 76 62 / 76 university of copenhagen Parameter Intercept place place splenectomy splenectomy Parameter Intercept place place splenectomy splenectomy d e pa rt m e n t o f b i o s tat i s t i c s Standard Error 22.50900351 26.53221591 . 26.48627265 . altitude control no yes Estimate 265.3888889 82.6736111 0.0000000 97.0000000 0.0000000 altitude control no yes 95% Confidence Limits 219.4814736 311.2963042 28.5608000 136.7864222 . . 42.9808908 151.0191092 . . B B B B B university of copenhagen Modelkontrolplots (plots=all) t Value 11.79 3.12 . 3.66 . Pr > |t| <.0001 0.0039 . 0.0009 . Effekter: I Milt vs. ingen milt, for fastholdt opholdssted: 97.0, 95% CI: (43.0, 151.0) Vi får samme estimat som for T-testet, men vi fik indsnævret konfidensintervallet (før fik vi 36.1-159.9), fordi vi fjernede noget af residualvariationen I Højt vs. lavt: 82.7, 95% CI: (28.6, 136.8) 63 / 76 64 / 76 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Vurderinger af milt-effekt Vekselvirkning = Interaktion opdelt efter place, dvs. ved landjorden eller i stor højde (før antog vi, at effekten af milt var den samme de to steder) Tænkt eksempel: Fibrinogen for dyr med milt vs. uden milt: I Ved landjorden: 104.4, 95% CI: (46.0332, 162.9), P=0.002 I I stor højde: 88.6250, 95% CI: (-14.5775, 191.8), P=0.09 Er de to vurderinger af miltens betydning forskellige? I så fald siger vi, at der er interaktion 65 / 76 university of copenhagen I To inddelingskriterier: køn og rygestatus I Outcome: FEV1 I Effekten af rygning afhænger af køn I Forskellen på kønnene afhænger af rygestatus 66 / 76 d e pa rt m e n t o f b i o s tat i s t i c s Mulige forklaringer I biologisk kønsforskel på effekt af rygning – holder vist ikke i praksis, men eksemplet er jo også blot ’tænkt’ I måske ryger kvinderne ikke helt så meget – antal pakkeår confounder for køn I måske virker rygningen som en relativ (%-vis) nedsættelse af FEV1 – kunne undersøges ved en longitudinel undersøgelse 67 / 76 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel: Rygnings effekt på fødselsvægt 68 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Interaktion mellem mængden og varigheden af rygningen university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Interaktionsmodel kontra additiv model Yspr = µ + αs + βp + γsp + εspr Her specificeres en interaktion mellem splenectomy og place, dvs. effekten af ophold i stor højde tænkes at afhænge af, hvorvidt man har fået fjernet milten eller ej — og omvendt .... Kan vi reducere til den additive model I Der er effekt af mængden, men kun hvis man har røget længe. I Der er effekt af varigheden, og denne effekt øges med mængden. Yspr = µ + αs + βp + εspr og effekten af varigheden afhænger af.... hvor splenectomy (s=yes/no) og place (p=altitude/control) begge har en effekt, men hvor effekten er den samme, uanset værdien af den anden? (Det var den model, vi så på s. 61-63, svarende til γsp = 0) 69 / 76 70 / 76 Effekten af mængden afhænger af.... university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Tosidet variansanalyse med interaktion Output, fortsat proc glm data=fibrinogen; class splenectomy place; model fibrinogen=place splenectomy place*splenectomy / solution; run; Dependent Variable: fibrinogen Output: R-Square 0.428857 The GLM Procedure Class Level Information Class splenectomy place Levels 2 2 Number of observations 71 / 76 Values no yes altitude control 34 Source Model Error Corrected Total DF 3 30 33 Coeff Var 22.21804 Sum of Squares 138402.2949 184321.2639 322723.5588 Root MSE 78.38394 Mean Square 46134.0983 6144.0421 F Value 7.51 Pr > F 0.0007 fibrinogen Mean 352.7941 Source place splenectomy splenectomy*place DF 1 1 1 Type I SS 57895.84355 79976.50000 529.95139 Mean Square 57895.84355 79976.50000 529.95139 F Value 9.42 13.02 0.09 Pr > F 0.0045 0.0011 0.7710 Source place splenectomy splenectomy*place DF 1 1 1 Type III SS 57895.84355 78937.01021 529.95139 Mean Square 57895.84355 78937.01021 529.95139 F Value 9.42 12.85 0.09 Pr > F 0.0045 0.0012 0.7710 Her er interaktionen ikke signifikant (P = 0.77) 72 / 76 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output, fortsat Intercept place place splenectomy splenectomy splenectomy*place splenectomy*place splenectomy*place splenectomy*place Estimate altitude control no yes no altitude no control yes altitude yes control Parameter Intercept place place splenectomy splenectomy splenectomy*place splenectomy*place splenectomy*place splenectomy*place 261.6666667 90.5833333 0.0000000 104.4444444 0.0000000 -15.8194444 0.0000000 0.0000000 0.0000000 Pr > |t| altitude control no yes no altitude no control yes altitude yes control <.0001 0.0240 . 0.0083 . 0.7710 . . . B B B B B B B B B Betydningen af de enkelte estimater, fra outputtet på forrige side: Standard Error t Value 26.12798017 38.08774887 . 36.95054391 . 53.86421101 . . . 10.01 2.38 . 2.83 . -0.29 . . . 315.0271209 168.3688938 . 179.9075225 . 94.1859501 . . . university of copenhagen Intercept=261.6667: Det estimerede niveau (her blot gennemsnittet) af fibrinogen for referencegruppen, dvs. dyr ved landjorden (place=control) uden milt (splenectomy=yes) I place altitude=90.5833: Effekten af at opholde sig i stor højde (vs. at være på landjorden) for referencegruppen, dvs. dyr uden milt (splenectomy=yes) I splenectomy=no=104.4444: Effekten af at have sin milt i behold (vs. at have fået den fjernet), for referencegruppen, dvs. dyr ved landjorden (place=control) 74 / 76 d e pa rt m e n t o f b i o s tat i s t i c s Estimater, fortsat splenectomy*place=no altitude=-15.8194: Den ekstra effekt (her negativ) af at have sin milt i behold (vs. at have fået den fjernet), for dyr i stor højde, i forhold til for dyr ved landjorden. Den totale effekt af milt for dyr i stor højde er således 104.4444-15.8194=88.625, som vi også fandt før. Denne ekstra effekt er ikke signifikant. 75 / 76 I 95% Confidence Limits 208.3062124 12.7977729 . 28.9813664 . -125.8248390 . . . 73 / 76 I d e pa rt m e n t o f b i o s tat i s t i c s Fortolkning af estimater (svært at fortolke....) Parameter university of copenhagen university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Estimater Referenceniveauerne er: place=control, splenectomy=yes (de sidste i den alfabetiske splenectomy rækkefølge) Denne gruppe har et forventet fibrinogenniveau på intercept=261.67 yes no place control altitude 261.67 261.67 + 90.58 = 352.25 261.67 261.67 + 104.44 + 104.44 + 90.58 - 15.82 = 366.11 = 440.87 For de andre niveauer skal der adderes et eller flere ekstra led, som angivet i skemaet: Senere skal vi se, hvordan disse udregnes automatisk 76 / 76