Anova

Transcription

Anova

university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Sammenligning af grupper
Faculty of Health Sciences
I
Basal Statistik
I
Sammenligning af grupper, Variansanalyse
I
I
Lene Theil Skovgaard
Sammenligning af to grupper: T-test
Dimensionering af undersøgelser
Sammenligning af flere end to grupper:
Ensidet variansanalyse
Tosidet variansanalyse
Hjemmesider:
http://staff.pubhealth.ku.dk/~lts/basal15_2
E-mail: ltsk@sund.ku.dk
8. september 2015
1 / 76
2 / 76
Vitamin D eksemplet
Er der forskel på vitamin D status for kvinder i Danmark og Irland?
Hvis der er en forskel på 5 nmol/l, vil det være af interesse.
I
Har vi en rimelig normalfordeling i hver gruppe?
I
Er der nogenlunde lige stor variation i de to lande/grupper?
3 / 76
Praktisk håndtering af data
Der er tale om 94 datalinier, en for hver kvinde,
men to variable for hver kvinde:
I
Land (DK, EI), repræsenteret ved country (1,4)
I
Vitamin D status, vitd (Serum 25(OH)D, nmol/l)
proc means data=women; where country in (1,4);
class country;
var vitd;
run;
Analysis Variable : vitd Vitamin D
N
country Obs
N
Mean
Std Dev
Minimum
Maximum
------------------------------------------------------------------------DK
53
53
47.1660377
22.7829216
11.4000000
93.6000000
EI
41
41
48.0073171
20.2221214
17.0000000
110.4000000
-------------------------------------------------------------------------
4 / 76
Model for uparret sammenligning
Normalfordelingsmodel for to grupper
To grupper, med hver sin normalfordeling:
DK: Y1i , i = 1, . . . , 53 ∼ N (µ1 , σ 2 )
EI: Y2i , i = 1, . . . , 41 ∼ N (µ2 , σ 2 )
Antagelser:
I
Alle observationerne er uafhængige
– personerne har ikke noget med hinanden at gøre
I
Der er samme spredning i de to grupper
– bør checkes/sandsynliggøres
I
Observationerne følger en normalfordeling i hver gruppe,
med hver deres middelværdi
5 / 76
6 / 76
Uparret t-test i SAS
/* udvaelg de to lande */
vitd
country
DK
EI
Diff (1-2)
Diff (1-2)
Method
7 / 76
Mean
47.1660
48.0073
-0.8413
Pooled
Satterthwaite
Method
Pooled
Satterthwaite
Method
Folded F
(Vitamin D)
N
53
41
Std Dev
22.7829
20.2221
21.7067
Mean
47.1660
48.0073
-0.8413
-0.8413
Std Err
3.1295
3.1582
4.5147
Variances
Equal
Unequal
DF
92
90.213
t Value
-0.19
-0.19
Pr > |t|
0.8526
0.8503
Equality of Variances
The TTEST Procedure
country
DK
EI
Diff (1-2)
Output, fortsat
proc ttest data=women;
where country in (1,4);
class country;
var vitd;
run;
Variable:
Bemærk:
“Totalt set” er det slet ikke en normalfordeling!!
men en blanding af to
Minimum
11.4000
17.0000
95% CL Mean
40.8863 53.4458
41.6244 54.3902
-9.8078
8.1253
-9.6739
7.9913
Maximum
93.6000
110.4
Std Dev
22.7829
20.2221
21.7067
Num DF
52
Den DF
40
F Value
1.27
Pr > F
0.4357
Bemærk, at der er 2 forskellige udgaver af t-testet, afhængig af,
om varianserne kan antages at være ens eller ej.
Under alle omstændigheder er P = 0.85, dvs. vi kan
ikke afvise, at middelværdierne er ens.
8 / 76
Estimeret forskel på middelværdier
Ȳ1 − Ȳ2 = 48.01 − 47.17 = 0.84 nmol/l
q
Estimeret St.Err(Ȳ1 − Ȳ2 ) = SD n11 +
som kan aflæses direkte fra output.
1
n2
= 4.51
95% konfidensinterval bliver ca:
Hvor stor er usikkerheden på dette estimat?
St.Err.(Ȳ1 − Ȳ2 ) = σ
Konfidensinterval for forskel
Estimat µ̂1 − µ̂2 =
s
1
1
+
n1 n2
σ estimeres ved s=SD, et poolet spredningsskøn,
og antallet af frihedsgrader er
df=(n1 -1)+(n2 -1)=(53-1)+(41-1)=92
9 / 76
0.84 ± 2 × 4.51 = (−8.18, 9.86)
Output giver det mere eksakte interval (-8.13, 9.81), idet det
“rigtige 2-tal” (t-fraktilen med 92 frihedsgrader) her er 1.986 < 2
10 / 76
Uparret T-test for ens middelværdier
Hvad betyder teststørrelsens fordeling?
Hypotese: H0 : µ1 = µ2
Vi taler om fordelingen under H0
De faktiske udregninger:
Vi forestiller os mange ens undersøgelser af stikprøver på 94
kvinder fra samme land (svarende til ingen landeforskel):
T=
Ȳ1 − Ȳ2
Ȳ1 − Ȳ2
q
=
St.Err.(Ȳ1 − Ȳ2 )
SD n11 + n12
0.8413
=−
= −0.19
4.5147
1. 53 i en gruppe, 41 i en anden, tilfældigt valgt =⇒ t1
osv. osv.
hvilket i en t-fordeling med 92 frihedsgrader giver P = 0.85
Alt dette ses direkte i outputtet
Fordeling af t’erne? ... kan udregnes...
11 / 76
12 / 76
Vores faktiske T sammenlignes nu med denne fordeling,
Passer den pænt?
t - fordelingen
Konklusion
t-fordelingen (Student fordelingen)
I
har en parameter df , der kaldes
antallet af frihedsgrader
(her: 5, 10, 100).
I
I
Der ser ikke ud til at være forskel på vitamin D status i de to
lande
I
Mange frihedsgrader:
Fordelingen ligner
normalfordeling
I
13 / 76
Vi fandt nemlig en teststørrelse, der passer pænt med dem, vi
ville finde, hvis vi havde valgt kvinder fra samme land, altså
hvor forskellene udelukkende var tilfældige
Men kan vi nu være sikker på, at der ikke er nogen forskel?
I
Få frihedsgrader:
Tungere haler.
Nej, konfidensintervallet siger, at forskellen mellem de to lande
med 95% sandsynlighed ligger mellem 8.13 i Danmarks favør
og 9.81 i Irlands favør.
I
Vi kan altså ikke udelukke en forskel på 5 nmol/l,
som var det, vi ønskede at finde ud af....
I
Vi skal måske prøve en større undersøgelse...
14 / 76
Teknikaliteter
Rimeligheden af ens varianser undersøges ved at se på ratio:
s22
22.78292
F= 2 =
= 1.27 ∼ F (52, 40) ⇒ P = 0.44
20.22212
s1
(eller den reciprokke, 1/1.27=0.78, samme P-værdi.)
Vi kan altså med god samvittighed anvende et poolet variansskøn.
Hvad skulle vi ellers have gjort?
t=
Ȳ1 − Ȳ2
Ȳ1 − Ȳ2
=r
∼ t(90.213)
se(Ȳ1 − Ȳ2 )
s12
s22
n1 + n2
Dette ville give os t=0.19 og P=0.85, altså præcis samme
konklusion. Bemærk dog, at konfidensintervallet er en anelse
bredere, nemlig (-7.99, 9.67).
15 / 76
Signifikansbegrebet
Statistisk signifikans afhænger af:
I
sand forskel
I
antal observationer
I
den tilfældige variation, dvs.
den biologiske variation
I
signifikansniveau
Klinisk signifikans afhænger af:
I
størrelsen af den påviste forskel
16 / 76
Tænkt eksempel
vs. Placebo: P
Resultater fra to trials:
1. trial: A signifikant bedre end P (n=100)
2. trial: B ikke signifikant bedre end P (n=50)
Konklusion:
A er bedre end B ???
I
At der ikke er en forskel
I
At forskellen er så lille, at den er vanskelig at opdage
I
At variationen er så stor, at en evt. forskel drukner
I
At materialet er for lille til at kunne påvise nogensomhelst
forskel af interesse.
Se på konfidensintervallet for forskellen
17 / 76
18 / 76
Risiko for fejlkonklusioner
Signifikansniveauet α (sædvanligvis 0.05) angiver den risiko, vi er
villige til at løbe for at forkaste en sand nulhypotese,
også betegnet som fejl af type I.
accept
1-α
β
fejl af type II
forkast
α
fejl af type I
1-β
styrke
1-β kaldes styrken, den angiver
sandsynligheden for at forkaste en falsk hypotese.
19 / 76
kan det skyldes
Kan vi så konkludere, at der ikke er forskel??
Nej!!, ikke nødvendigvis
Nej, ikke nødvendigvis.
H0 falsk
Hvis der ikke er signifikans
To aktive behandlinger: A og B,
H0 sand
Styrke
Men hvad betyder “H0 falsk”? Hvor store forskelle er der?
Styrken er en funktion af forskellen - og af antallet af observationer
Styrkefunktion:
’Hvis forskellen er xx, hvad er så
styrken, dvs. sandsynligheden
for at opdage denne forskel
– på 5% niveau’??
20 / 76
Vigtigt
I
I
I
Styrken udregnes for at dimensionere en undersøgelse
Når resultaterne er i hus, præsenteres i stedet
konfidensintervaller
Post-hoc styrkebetragtninger giver kun mening, hvis man
skal i gang med en ny undersøgelse
- som f.eks. for vitamin D, fordi resultatet var inkonklusivt
Hvordan skaffer man de nødvendige oplysninger?
I
Klinisk relevant forskel (MIREDIF)
Dette er noget, man fastsætter ud fra teoretiske/praktiske
overvejelser om, hvilken forskel, der skønnes at være stor nok
til at være vigtig.
Det er altså ikke noget, man skal regne sig frem til!
Her var vi interesseret i at kunne påvise forskellen,
hvis den oversteg 5 nmol/l
Styrke: bør være stor, mindst 80%
Signifikansniveau: Sædvanligvis 5%
I
I
I tilfælde af mange sammenligninger, eller hvis det kan have
fatale konsekvenser at forkaste en sand hypotese, bør det
sættes lavere, f.eks. 1%
Spredning:
Dette er det sværeste, se næste side
23 / 76
Hvor mange patienter skal vi medtage?
Dette afhænger naturligvis af datas beskaffenhed,
samt af, hvad man ønsker at opnå:
I
Hvilken forskel i respons er vi interesserede i at opdage?
Fastsæt MIREDIF (mindste relevante differens)
I
Med hvilken sandsynlighed (styrke = power)?
I
På hvilket signifikansniveau?
I
Hvor stor er spredningen (den biologiske variation)?
22 / 76
I
Dimensionering af undersøgelser
21 / 76
I
Fornuftigt gæt på spredning
kan være ganske vanskeligt og kræver sædvanligvis et pilot-studie.
Her har vi oplysninger fra T-testet:
The TTEST Procedure
Variable:
vitd
(Vitamin D)
country
DK
EI
Diff (1-2)
N
53
41
Mean
47.1660
48.0073
-0.8413
country
DK
EI
Diff (1-2)
Diff (1-2)
Method
Pooled
Satterthwaite
Std Dev
22.7829
20.2221
21.7067
Std Err
3.1295
3.1582
4.5147
Minimum
11.4000
17.0000
Maximum
93.6000
110.4
95% CL Std Dev
19.1229 28.1887
16.6026 25.8743
18.9725 25.3688
For at være på den sikre side, bør vi vælge et spredningsskøn på 25
eller 28, hvorimod 20-22 let kan vise sig at være for lavt
24 / 76
Dimensionering i SAS
The POWER Procedure
Two-sample t Test for Mean Difference
Fixed Scenario Elements
Distribution
Method
Mean Difference
Alpha
Normal
Exact
5
0.05
Computed N Per Group
Bemærk, at man kan foretage adskillige dimensioneringer på
samme tid
25 / 76
Dimensionering med nomogram
Output fra dimensionering i SAS
proc power;
twosamplemeans test=diff
meandiff=5
stddev=20,28
npergroup=.
power=0.8,0.9;
run;
Index
Std
Dev
Nominal
Power
Actual
Power
N Per
Group
1
2
3
4
20
20
28
28
0.8
0.9
0.8
0.9
0.801
0.901
0.801
0.900
253
338
494
660
Vi skal altså op på ca. 500 personer fra hvert land for at kunne
detektere en forskel af den relevante størrelse.
26 / 76
Dimensionering med nomogram, fortsat
Forklaring til nomogrammet:
I
I
I
Venstre lodrette akse:
Standardiseret forskel: MIREDIF
spredning (her
Højre lodrette akse: power
5
28
≈ 0.18)
På de to skrå akser aflæses N ,
det totale nødvendige patientantal,
enten for
I
I
signifikansniveau 5% (øverste akse)
signifikansniveau 1% (nederste akse)
Ikke helt så nøjagtigt, men til gengæld ret hurtigt og fleksibelt
27 / 76
28 / 76
Nonparametrisk uparret test i SAS
Output, fortsat
Mann-Whitney test eller Kruskal-Wallis test
Wilcoxon Two-Sample Test
Statistic
1962.5000
(approksimation for n > 25)
proc npar1way wilcoxon data=women; where country in (1,4);
class country;
*
exact hl;
var vitd;
run;
Normal Approximation
Z
One-Sided Pr > Z
Two-Sided Pr > |Z|
0.1106
0.4560
0.9120
t Approximation
One-Sided Pr > Z
Two-Sided Pr > |Z|
0.4561
0.9122
Z includes a continuity correction of 0.5.
Wilcoxon Scores (Rank Sums) for Variable vitd
Classified by Variable country
Sum of
Expected
Std Dev
Mean
country
N
Scores
Under H0
Under H0
Score
----------------------------------------------------------------------DK
53
2502.50
2517.50
131.157521
47.216981
EI
41
1962.50
1947.50
131.157521
47.865854
Average scores were used for ties.
Men vi mangler et konfidensinterval!
For små samples kan sætningen "exact hl"; give dette,
men her ville det tage frygtelig lang tid
29 / 76
Kruskal-Wallis Test
Chi-Square
0.0131
DF
1
Pr > Chi-Square
0.9089
30 / 76
Permutationstest
Permutationstest i SAS
...et alternativt nonparametrisk test
proc npar1way scores=data data=women; where country in (1,4);
class country;
var vitd;
run;
Fremgangsmåde:
I
Bland alle vitamin D observationer fra de to lande sammen
I
Fordel dem tilfældigt ud i to grupper af størrelse 53 og 41
I
Udregn et passende test, f.eks. T-testet
Gør ovenstående mange gange og se på
fordelingen af de fremkomne størrelser:
I
Hvordan passer vores faktiske T-teststørrelse i denne
fordeling?
I
Ligner den, eller ser den ekstrem ud?
31 / 76
med output:
Data Scores Two-Sample Test
Statistic
Z
One-Sided Pr > Z
Two-Sided Pr > |Z|
1968.3000
0.1873
0.4257
0.8514
Data Scores One-Way Analysis
Chi-Square
DF
Pr > Chi-Square
32 / 76
0.0351
1
0.8514
T-test kontra non-parametrisk alternativ
Som regel gør det ingen synderlig forskel i P-værdi
om man benytter parametriske eller non-parametriske metoder.
I
T-test giver pr. automatik et konfidensinterval for forskellen
på middelværdierne
Men det er vigtigt at respektere sit design!
I
Man skal sno sig for at få et konfidensinterval baseret på et
non-parametrisk test
I
T-testet er lidt stærkere, dvs. man kan nøjes med lidt færre
observationer
- men det er jo fordi man lægger en antagelse ind i stedet for...
I
Man skal ikke være så bange for normalfordelingsantagelsen,
for det er i virkeligheden kun gennemsnittene, der behøver at
være pænt normalfordelte, og det er de sædvanligvis, når man
har mange observationer i hver gruppe
I
Det er kun, hvis man skal udtale sig om enkeltindivider, at
man skal være forsigtig med normalfordelingsantagelsen,
altså ved prediktioner.
Eks: Målemetoderne MF og SV (fra forelæsningen sidste uge):
Parret T-test:
t = 0.16,
f = 20
P = 0.88
Sikkerhedsinterval:
(-2.93 cm3 , 3.41 cm3 )
Uparret T-test (galt):
t = 0.04,
f = 40
P = 0.97
Sikkerhedsinterval:
(-12.71 cm3 , 13.19 cm3 )
33 / 76
34 / 76
Sammenligning af alle 4 lande
Ensidet variansanalyse, ANOVA
I
Vi har set, at Danmark og Irland ikke adskiller sig signifikant
fra hinanden
I
ensidet: fordi der kun er et inddelingskriterium,
f.eks. som her country
I
Er det simpelthen sådan, at alle landene er mere eller mindre
identisk mht vitamin D status?
I
variansanalyse: fordi man sammenligner variansen mellem
grupper med variansen indenfor grupper
I
Man kunne sammenligne alle landene parvis, men det er
farligt pga risikoen for massesignifikans (kommer senere...)
I stedet kan man se på hypotesen om ens middelværdier for alle
lande under et:
H 0 : µ1 = µ2 = µ3 = µ4
(= µ)
Det kaldes ensidet variansanalyse eller one-way anova
35 / 76
Antagelser:
I
Alle observationer er uafhængige
(personerne går ikke igen flere gange, er ikke tvillinger o.l.)
I
Der er samme spredning
(samme varians, dvs. biologisk variation) i alle grupper
I
Inden for hver gruppe er observationerne normalfordelt
36 / 76
Man skal tegne før man regner
Modelantagelser på formel
Ygi angiver vitamin D status for person nr. i i gruppe g.
Model:
Ygi = µg + εgi
i’te observation
i gruppe nr. g
middelværdi for individuel
gruppe nr. g
afvigelse
Observationerne antages at følge en normalfordeling
(inden for hver gruppe) med samme spredning σ.
εgi ∼ N (0, σ 2 ),
Ygi ∼ N (µg , σ 2 )
Disse antagelser bør checkes efter estimationen,
og før fortolkningen.
37 / 76
38 / 76
Ensidet ANOVA i SAS
Output, fortsat
Data skal være sat op i 2 kolonner, en med outcome (vitd)
og en med klassifikationsvariablen (country).
Source
country
proc glm data=women;
class country;
model vitd=country / solution clparm;
run;
The GLM Procedure
Dependent Variable: vitd
Source
Model
Error
Corrected Total
R-Square
0.126130
39 / 76
Coeff Var
43.04626
Sum of
Squares
10373.99129
71874.40589
82248.39718
Root MSE
18.54445
Parameter
Estimate
Intercept
country
country
country
country
47.99074074
-0.82470300
0.01657633
-15.42920228
0.00000000
DK
EI
PL
SF
Parameter
Vitamin D
DF
3
209
212
DF
3
Mean Square
3457.99710
343.89668
F Value
10.06
Pr > F
<.0001
Intercept
country
country
country
country
vitd Mean
43.08028
40 / 76
Type III SS
10373.99129
B
B
B
B
B
43.01580657
-7.89343136
-7.55623632
-22.16058279
.
F Value
10.06
Pr > F
<.0001
Standard
Error
t Value
Pr > |t|
2.52358020
3.58567617
3.84137747
3.41455343
.
19.02
-0.23
0.00
-4.52
.
<.0001
0.8183
0.9966
<.0001
.
95% Confidence Limits
DK
EI
PL
SF
Mean Square
3457.99710
52.96567491
6.24402535
7.58938899
-8.69782177
.
Bemærkninger til output, I
I
F Value:
Teststørrelse: F =
I
I
MSb
MSw
Teknisk note om kvadratsummer
= 10.06, hvor
Tæller (MSb ) er variationen mellem (between)
gruppegennemsnit
Nævner (s = SD = MSw ) er en poolet variation indenfor
(within) de 3 grupper, her repræsenteret ved Root MSE
Opspaltning af observationer: ygi − ȳ· = (ygi − ȳg ) + (ȳg − ȳ· )
ygi i-te observation i g-te gruppe
ȳg gennemsnit i g-te gruppe
ȳ. totalgennemsnit
Opspaltning af variation (kvadratsum, sum of squares, SS):
X
i,j
Vi forkaster nulhypotesen om ens middelværdier,
hvis F er stor, dvs.
hvis variationen mellem grupper er for stor i forhold til
variationen indenfor grupper.
(ygi − ȳ· )2 =
X
i,j
(ygi − ȳg )2 +
|
{z
}
indenfor grupper
SStot = SSw + SSb
X
i,j
(ȳg − ȳ· )2
|
{z
}
mellem grupper
(n − 1) = (n − k) + (k − 1)
MSw = SSw /(n − k)
MSb = SSb /(k − 1)
41 / 76
42 / 76
Bemærkninger til output, II
Modelantagelse 1: Uafhængighed
Estimater:
I
Intercept svarer til niveauet for referencegruppen (sidste
gruppe, alfabetisk eller numerisk), dvs. Finland (SF)
I
Estimatet ud for f.eks. country DK er forskellen i niveau
mellem DK og SF (referencegruppen)
Bemærk:
Ved omkodning af grupper kan man få vilkårlige forskelle frem.
Dette er årsagen til den NOTE, der skrives sidst i outputtet fra
GLM (og den er altså ikke farlig)
43 / 76
Dette er noget, man skal vide
I
ingen tvillinger, søskende etc.
I
kun en observation for hver person
(ellers hører det hjemme under emnet
“Korrelerede målinger”, kursets sidste emne)
44 / 76
Modelantagelse 2: Identiske spredninger i grupperne
Levenes test for identiske spredninger
Kaldes som regel varianshomogenitet,
og checkes ud fra
hovtest i means-sætningen:
I
Box plot eller Scatter plot, se s. 37
I
Test af hypotese om ens varianser
(sædvanligvis Levenes test, se næste side)
I
Residualer tegnet op mod predikterede
(=forventede=fittede) værdier, skal være jævnt
class country;
means country /hovtest;
run;
Levene’s Test for Homogeneity of vitd Variance
ANOVA of Squared Deviations from Group Means
Source
country
Error
DF
3
209
Sum of
Squares
3934223
46968190
Mean
Square
1311408
224728
F Value
5.84
Pr > F
0.0008
Ved sammenligning af de k = 4 variansestimater fås en
teststørrelse på 5.84, som er F(3,209)-fordelt, svarende til
P=0.0008, og altså kraftig signifikans!
45 / 76
46 / 76
Modelantagelse 3: Normalfordelingsantagelsen
Det er antaget, at observationerne følger en normalfordeling
inden for hver gruppe. Dette bør checkes, f.eks.:
I
ved at tegne histogrammer eller fraktildiagrammer
for hver gruppe (kun hvis man har rigtig mange observationer)
I
ved at tegne histogram eller fraktildiagram for residualerne
rgi = Ygi − µ̂g = Ygi − Ȳg
I
Det er ikke nogen god ide at lave normalfordelingstest
I
I
47 / 76
Hvis man har mange observationer, bliver det stort set altid
forkastet - uden at det betyder noget i praksis
Hvis man har få observationer, bliver det stort set altid
godkendt - uden at man derved har påvist at der er tale om en
normalfordeling
Modelkontrol i et enkelt hug
ods graphics on;
proc glm plots=all data=women;
class country;
run;
ods graphics off;
producerer et såkaldt Diagnostics Panel, indeholdende bl.a. i første
søjle (S1, se næste side)
I
Figur (R1,S1): residualer mod predikterede værdier
Har de samme spredning? Næh, den stiger vist lidt med den
predikterede værdi
I
Figur (R2-R3,S1): Fraktildiagram og histogram af
residualerne: Ser de normalfordelte ud? Næsten, dog lidt
“hængekøje”=skævhed=hale mod højre
48 / 76
Diagnostics Panel
Hvad gør vi ved forskellen i spredninger?
I
Er det slemt? Tja, ikke at dømme ud fra grafikken....
I
Kan vi slippe for forudsætningen ligesom for T-testet?
Ja:, ved hjælp af option welch i means-sætningen:
class country;
means country / welch;
run;
Welch’s ANOVA for vitd
Source
country
Error
DF
3.0000
102.3
F Value
14.64
Pr > F
<.0001
Vi kan altså godt føle os sikre på den fundne forskel
49 / 76
50 / 76
Konklusion...?
I
Modellen er nogenlunde rimelig, men ikke helt
I
F -test viser helt klart en forskel på middelværdien af vitamin
D i de fire lande,
Type 1 fejl ved multiple sammenligninger
men hvori består forskellen?
Multiple sammenligninger
(dvs. parvise t-test) giver problemer med massesignifikans
Der er m = k(k − 1)/2 mulige test,
reelt signifikansniveau: 1 − (1 − α)m ,
f.eks. for k=4: 0.26
51 / 76
I
Øverste graf: Alle grupper sammenlignes med alle andre
I
Nederste graf: Alle grupper sammenlignes med en enkelt
kontrolgruppe
52 / 76
Korrektion for multiple sammenligninger
I
I
I
1
α
for små m
benytter signifikansniveau 1 − (1 − α) m ≈ m
lidt mindre konservativ, men stadig ret lav styrke
Tukey
I
I
I
α
benytter signifikansniveau m
stærkt konservativ, dvs. for høje P-værdier (lav styrke)
Sidak
I
I
Tukey korrektion for vitamin D
Bonferroni
I
I
baseres på fordeling af ’størst blandt mange’
giver større styrke
Dunnett
I
korrigerer kun for test mod referencegruppe
(typisk en kontrolgruppe eller ’tid 0’)
53 / 76
class country;
LSMEANS country / ADJUST=TUKEY pdiff cl;
run;
The GLM Procedure
Least Squares Means
Adjustment for Multiple Comparisons: Tukey-Kramer
country
DK
EI
PL
SF
vitd LSMEAN
47.1660377
48.0073171
32.5615385
47.9907407
LSMEAN
Number
1
2
3
4
54 / 76
Output, fortsat
Hvis antagelserne ikke holder
Least Squares Means for effect country
Pr > |t| for H0: LSMean(i)=LSMean(j)
Dependent Variable: vitd
1
2
3
0.9963
0.0002
0.9963
0.0003
0.0002
0.0003
0.9957
1.0000
<.0001
i/j
1
2
3
4
4
0.9957
1.0000
<.0001
I
Vægtet analyse (Welch’s test, som vi så tidligere)
I
Transformation (ofte logaritmer)
kan afhjælpe såvel variansinhomogenitet som dårlig
normalfordelingstilpasning
I
Non-parametrisk sammenligning
Least Squares Means for Effect country
i
1
1
1
2
2
3
j
2
3
4
3
4
4
Difference
Between
Means
-0.841279
14.604499
-0.824703
15.445779
0.016576
-15.429202
Simultaneous 95%
Confidence Limits for
LSMean(i)-LSMean(j)
-10.830178
9.147620
5.715969
23.493029
-10.110959
8.461553
5.867491
25.024067
-9.931900
9.965052
-24.272281
-6.586124
I
I
Husk: Antagelserne er ikke altid lige vigtige, vigtigst når man skal
udtale sig om enkeltindivider
Land nr. 3 (Polen) adskiller sig signifikant fra de 3 øvrige.
55 / 76
Kruskal-Wallis test
Permutationstest
56 / 76
Non-parametrisk Kruskal-Wallis test
Nyt eksempel: Fibrinogen efter miltoperation
proc npar1way wilcoxon data=women;
class country;
var vitd;
run;
34 rotter randomiseres, på 2 måder
Kruskal-Wallis Test
Chi-Square
DF
Pr > Chi-Square
26.6819
3
<.0001
Bemærk: Man kan også få en eksakt vurdering af teststørrelsen,
men pas på i tilfælde af store materialer (som f.eks. her)
57 / 76
Figur med de i alt 4 grupper
I
17 får fjernet milten (splenectomy=yes),
17 beholder milten (splenectomy=no)
I
8/17 i hver gruppe opholder sig i stor højde
(place=altitude),
de resterende 9 bliver på landjorden
Outcome:
Fibrinogen niveau i mg% ved dag 21
Primært spørgsmål: Bliver fibrinogen påvirket af milten?
Eller rettere: Af “mangel på milt”
58 / 76
T-test: milt vs. ingen milt
Opholdssted ignoreres lige foreløbig.....
The TTEST Procedure
Variable: fibrinogen
splenectomy
N
Mean
no
17
401.3
yes
17
304.3
Diff (1-2)
97.0000
splenectomy
Diff (1-2)
Diff (1-2)
Method
Pooled
Satterthwaite
Method
Pooled
Satterthwaite
Method
Folded F
59 / 76
Variances
Equal
Unequal
Std Dev
89.4963
84.6292
87.0968
Std Err
21.7061
20.5256
29.8739
Mean
97.0000
97.0000
DF
32
31.9
Equality of Variances
Num DF
Den DF
F Value
16
16
1.12
Minimum
272.0
175.0
95% CL Mean
36.1488
157.9
36.1413
157.9
t Value
3.25
3.25
Maximum
575.0
528.0
Std Dev
87.0968
Pr > |t|
0.0027
0.0027
Pr > F
0.8258
Dyrene med intakt milt har et højere niveau af fibrinogen,
estimeret til 97 enheder højere, med konfidensinterval (36,158).
Kan vi indsnævre det konfidensinterval?
60 / 76
Tosidet variansanalyse: Additiv model
Tosidet, fordi der nu er to inddelingskriterier:
Output fra additiv model
I
Milt, splenectomy
The GLM Procedure
Dependent Variable: fibrinogen
I
Opholdssted, place
Source
DF
Sum of
Squares
Model
Error
Corrected Total
2
31
33
137872.3435
184851.2153
322723.5588
Additiv betyder: Uden interaktion
proc glm data=fibrinogen;
class splenectomy place;
model fibrinogen=place splenectomy / solution clparm;
run;
R-Square
0.427215
Source
place
splenectomy
Coeff Var
21.88815
Root MSE
77.22009
DF
1
1
Mean Square
F Value
Pr > F
68936.1718
5962.9424
11.56
0.0002
F Value
9.71
13.41
Pr > F
0.0039
0.0009
fibrinogen Mean
352.7941
Type III SS
57895.84355
79976.50000
Mean Square
57895.84355
79976.50000
Vi vil sammenligne dyr med milt vs. dyr uden milt, for fastholdt
(dvs. ens) opholdssted (vi korrigerer for opholdssted).
Begge forklarende variable har en signifikant effekt
(P = 0.0039 hhv. 0.0009)
Estimater på næste side
61 / 76
62 / 76
Parameter
Intercept
place
place
splenectomy
splenectomy
Parameter
Intercept
place
place
splenectomy
splenectomy
Standard
Error
22.50900351
26.53221591
.
26.48627265
.
altitude
control
no
yes
Estimate
265.3888889
82.6736111
0.0000000
97.0000000
0.0000000
altitude
control
no
yes
219.4814736 311.2963042
28.5608000 136.7864222
.
.
42.9808908 151.0191092
.
.
B
B
B
B
B
Modelkontrolplots (plots=all)
t Value
11.79
3.12
.
3.66
.
Pr > |t|
<.0001
0.0039
.
0.0009
.
Effekter:
I
Milt vs. ingen milt, for fastholdt opholdssted:
97.0, 95% CI: (43.0, 151.0)
Vi får samme estimat som for T-testet, men vi fik
indsnævret konfidensintervallet (før fik vi 36.1-159.9), fordi
vi fjernede noget af residualvariationen
I
Højt vs. lavt: 82.7, 95% CI: (28.6, 136.8)
63 / 76
64 / 76
Vurderinger af milt-effekt
Vekselvirkning = Interaktion
opdelt efter place, dvs. ved landjorden eller i stor højde
(før antog vi, at effekten af milt var den samme de to steder)
Tænkt eksempel:
Fibrinogen for dyr med milt vs. uden milt:
I
Ved landjorden:
104.4, 95% CI: (46.0332, 162.9),
P=0.002
I
I stor højde:
88.6250, 95% CI: (-14.5775, 191.8),
P=0.09
Er de to vurderinger af miltens betydning forskellige?
I så fald siger vi, at der er interaktion
65 / 76
I
To inddelingskriterier: køn og rygestatus
I
Outcome: FEV1
I
Effekten af rygning afhænger af køn
I
Forskellen på kønnene afhænger af rygestatus
66 / 76
Mulige forklaringer
I
biologisk kønsforskel på effekt af rygning
– holder vist ikke i praksis,
men eksemplet er jo også blot ’tænkt’
I
måske ryger kvinderne ikke helt så meget
– antal pakkeår confounder for køn
I
måske virker rygningen som en relativ
(%-vis) nedsættelse af FEV1
– kunne undersøges ved en longitudinel undersøgelse
67 / 76
Eksempel: Rygnings effekt på fødselsvægt
68 / 76
Interaktion mellem mængden og varigheden af rygningen
Interaktionsmodel kontra additiv model
Yspr = µ + αs + βp + γsp + εspr
Her specificeres en interaktion mellem splenectomy og place,
dvs. effekten af ophold i stor højde tænkes at afhænge af,
hvorvidt man har fået fjernet milten eller ej
— og omvendt ....
Kan vi reducere til den additive model
I
Der er effekt af mængden, men kun hvis man har røget længe.
I
Der er effekt af varigheden, og denne effekt øges med
mængden.
Yspr = µ + αs + βp + εspr
og effekten af varigheden afhænger af....
hvor splenectomy (s=yes/no) og place (p=altitude/control)
begge har en effekt, men hvor effekten er den samme, uanset
værdien af den anden? (Det var den model, vi så på s. 61-63,
svarende til γsp = 0)
69 / 76
70 / 76
Effekten af mængden afhænger af....
Tosidet variansanalyse med interaktion
Output, fortsat
proc glm data=fibrinogen;
class splenectomy place;
model fibrinogen=place splenectomy place*splenectomy / solution;
run;
Dependent Variable: fibrinogen
Output:
R-Square
0.428857
The GLM Procedure
Class Level Information
Class
splenectomy
place
Levels
2
2
Number of observations
71 / 76
Values
no yes
altitude control
34
Source
Model
Error
Corrected Total
DF
3
30
33
Coeff Var
22.21804
Sum of
Squares
138402.2949
184321.2639
322723.5588
Root MSE
78.38394
Mean Square
46134.0983
6144.0421
F Value
7.51
Pr > F
0.0007
fibrinogen Mean
352.7941
Source
place
splenectomy
splenectomy*place
DF
1
1
1
Type I SS
57895.84355
79976.50000
529.95139
Mean Square
57895.84355
79976.50000
529.95139
F Value
9.42
13.02
0.09
Pr > F
0.0045
0.0011
0.7710
Source
place
splenectomy
splenectomy*place
DF
1
1
1
Type III SS
57895.84355
78937.01021
529.95139
Mean Square
57895.84355
78937.01021
529.95139
F Value
9.42
12.85
0.09
Pr > F
0.0045
0.0012
0.7710
Her er interaktionen ikke signifikant (P = 0.77)
72 / 76
Output, fortsat
Intercept
place
place
splenectomy
splenectomy
splenectomy*place
splenectomy*place
splenectomy*place
splenectomy*place
Estimate
altitude
control
no
yes
no altitude
no control
yes altitude
yes control
Parameter
Intercept
place
place
splenectomy
splenectomy
splenectomy*place
splenectomy*place
splenectomy*place
splenectomy*place
261.6666667
90.5833333
0.0000000
104.4444444
0.0000000
-15.8194444
0.0000000
0.0000000
0.0000000
Pr > |t|
altitude
control
no
yes
no altitude
no control
yes altitude
yes control
<.0001
0.0240
.
0.0083
.
0.7710
.
.
.
B
B
B
B
B
B
B
B
B
Betydningen af de enkelte estimater, fra outputtet på forrige side:
Standard
Error
t Value
26.12798017
38.08774887
.
36.95054391
.
53.86421101
.
.
.
10.01
2.38
.
2.83
.
-0.29
.
.
.
315.0271209
168.3688938
.
179.9075225
.
94.1859501
.
.
.
Intercept=261.6667:
Det estimerede niveau (her blot gennemsnittet) af fibrinogen
for referencegruppen, dvs. dyr ved landjorden
(place=control) uden milt (splenectomy=yes)
I
place altitude=90.5833:
Effekten af at opholde sig i stor højde (vs. at være på
landjorden) for referencegruppen, dvs. dyr uden milt
(splenectomy=yes)
I
splenectomy=no=104.4444:
Effekten af at have sin milt i behold (vs. at have fået den
fjernet), for referencegruppen, dvs. dyr ved landjorden
(place=control)
74 / 76
Estimater, fortsat
splenectomy*place=no altitude=-15.8194:
Den ekstra effekt (her negativ) af at have sin milt i behold
(vs. at have fået den fjernet), for dyr i stor højde, i forhold til
for dyr ved landjorden.
Den totale effekt af milt for dyr i stor højde er således
104.4444-15.8194=88.625, som vi også fandt før.
Denne ekstra effekt er ikke signifikant.
75 / 76
I
208.3062124
12.7977729
.
28.9813664
.
-125.8248390
.
.
.
73 / 76
I
Fortolkning af estimater
(svært at fortolke....)
Parameter
Estimater
Referenceniveauerne er:
place=control, splenectomy=yes
(de sidste i den alfabetiske
splenectomy
rækkefølge)
Denne gruppe har et forventet fibrinogenniveau på
intercept=261.67
yes
no
place
control
altitude
261.67
261.67
+ 90.58
= 352.25
261.67
261.67
+ 104.44 + 104.44
+ 90.58
- 15.82
= 366.11 = 440.87
For de andre niveauer skal der
adderes et eller flere ekstra led,
som angivet i skemaet:
Senere skal vi se, hvordan disse udregnes automatisk
76 / 76

Anova

Transcription

Similar documents

Measuring the ability to turn

Basal statistik - Logaritmer. Kovariansanalyse

Vejledning til ESI-standard fravær