Bild 1 - Lunds universitet

Transcription

Bild 1 - Lunds universitet
Bild 1
___________________________________
Medicinsk statistik II
___________________________________
Läkarprogrammet
T5
HT 2014
Anna Jöud
Arbets- och miljömedicin, Lunds universitet
ERC Syd, Skånes Universitetssjukhus
anna.joud@med.lu.se
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 2
___________________________________
Sammanfattning Statistik I
• Grundbegrepp:
– målpopulation/stickprov
– Statistisk osäkerhet och systematiska fel
– Variabeltyper – skalnivå
•
•
•
•
Läges och spridningsmått
Normalfördelning
Konfidensintervall
Referensintervall
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 3
___________________________________
Hypotesprövning
• Man sätter upp en nollhypotes (H0) och en
mothypotes (H1)
– H0: Ingen effekt
– H1: Effekt
• H0 vill man kunna förkasta/avfärda
• Om H0 förkastas så finns mothypotesen kvar
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 4
P-värde
___________________________________
• P-värdet är en sannolikhet mellan 0 och 1
• P-värdet är sannolikheten att man får det resultat man fick
(eller ännu mer extremt) om H0 är sann
___________________________________
• Med mer extremt menar man ett värde som ligger längre ifrån
nollhypotesen än det värde som man har fått
• Om p-värdet är lågt så är det osannolikt att få det
undersökningsresultat eller mer extremt resultat om H0 är
sann
• Ju mer resultatet avviker från det förväntade (enligt H0) desto
lägre blir p-värdet
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 5
___________________________________
P-värde – Exempel vilopuls
• Frågeställning: Har män och kvinnor samma
vilopuls?
___________________________________
• Målpopulation: Alla män och kvinnor (i Sverige,
Norden, Europa etc.)
• Nollhypotes (H0): Det finns inte någon skillnad dvs.
skillnaden = 0
I hypotesprövningen antar vi att nollhypotesen
är sann i målpopulationen
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 6
___________________________________
P-värde – Exempel vilopuls
• Stickprovet består av 10 slumpmässigt valda kvinnor och
10 slumpmässigt valda män
___________________________________
• I stickprovet har kvinnor i snitt 3 bpm lägre vilopuls än män
• Det finns två möjliga förklaringar till resultatet:
___________________________________
1. Slumpen har gjort att vi har hittat en skillnad på 3 bpm även om
det inte finns någon skillnad i målpopulationen
2. Det finns en skillnad i målpopulationen dvs. nollhypotesen
stämmer inte
___________________________________
___________________________________
___________________________________
___________________________________
Bild 7
P-värde – Exempel vilopuls
• Hur ska vi veta vilket förklaring som gäller?
___________________________________
• Tittar på sannolikheten för att få resultatet
___________________________________
• Om skillnaden är 0 i målpopulationen vad är då
sannolikheten att skillnaden är minst 3 bpm i
stickprovet?
___________________________________
• Denna sannolikhet = p-värdet
• Litet p-värde
låg sannolikhet
det troligaste är att
nollhypotesen inte är sann (dvs. alternativ 2)
___________________________________
___________________________________
___________________________________
___________________________________
Bild 8
___________________________________
P-värde – Exempel vilopuls
• Hur vet vi om sannolikheten är liten?
___________________________________
• Signifikansnivån!
• Om sannolikheten/p-värdet ligger under
signifikansnivån är den liten
___________________________________
• Om den är större än signifikansnivån är
den inte liten
___________________________________
___________________________________
___________________________________
___________________________________
Bild 9
P-värde – Exempel vilopuls
• Om p > signifikansnivån
___________________________________
___________________________________
”Stor” sannolikhet att få resultatet även
om H0 är sann
”Stor” sannolikhet att hitta en skillnad på
3 bpm även om skillnaden i
målpopulationen är 0
Förkasta inte H0!
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 10
___________________________________
P-värde – Exempel vilopuls
• Om p < signifikansnivån
”Liten” sannolikhet att hitta en skillnad
på 3 bpm om skillnaden i
målpopulationen är sann
___________________________________
___________________________________
Förkasta H0!
___________________________________
___________________________________
___________________________________
___________________________________
Bild 11
___________________________________
P-värde
• Utgå från att nollhypotesen är sann
• P-värdet kan beräknas oavsett om data är
normalfördelad eller inte men då används
olika metoder
• Räknas inte ut för hand
• Jämför teststorheten med tabell
• Dator
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 12
___________________________________
Statistisk signifikans - klinisk relevans
• Lågt p-värde
Statistisk signifikans:
”Det finns en skillnad”
• Hur stor är skillnaden?
Klinisk relevans:
”Har skillnaden någon betydelse?”
Skattning av storleken på
effekten behövs!
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 13
___________________________________
Konfidensintervall
• P-värden kan tala om ifall det finns en effekt,
men inte hur stor effekten är
• Konfidensintervall visar hur stor effekten är
___________________________________
___________________________________
• Konfidensintervallets bredd beror av
– antalet individer i stickprovet
– spridningen (standardavvikelsen)
– konfidensgraden – hur säker man vill vara
___________________________________
___________________________________
___________________________________
___________________________________
Bild 14
Konfidensintervall och p-värde
• Om data är normalfördelade kan
hypotesprövning göras med konfidensintervall
och p-värde
• Båda metoderna ger samma resultat givet
samma signifikansnivå
• Konfidensgrad + signifikansnivå = 1
• Om H0 ligger utanför 95% KI är p < 5%
• Om H0 ligger innanför 95% KI är p > 5%
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 15
Sammanfattning
hypotesprövning
Förkasta H0 om
Förkasta inte H0 om
• H0 ligger utanför
konfidensintervallets gränser
• H0 ligger innanför
• p < signifikansnivån
konfidensintervallets
gränser
___________________________________
___________________________________
___________________________________
• p > signifikansnivån
___________________________________
___________________________________
___________________________________
___________________________________
Bild 16
Gruppjämförelser
för kvantitativa mätningar
• Parametriska metoder
– t-test för två oberoende grupper
– t-test för parade grupper
• Icke-parametriska metoder
– Mann-Whitney U test för två oberoende
grupper
– Wilcoxons teckenrangtest för parade grupper
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 17
t-test för två oberoende grupper
exempel
___________________________________
• (Maximala) syreupptagningsförmågan
bland studenter
___________________________________
• Två grupper
___________________________________
A: Fysisk träning med låg intensitet
B: Fysisk träning med medel/hög intensitet
___________________________________
___________________________________
___________________________________
___________________________________
Bild 18
___________________________________
Antaganden bakom t-testet
1.
Medelvärdet är ett bra sammanfattande mått
2.
Oberoende observationer (t.ex. ingen patient
förekommer mer än en gång)
3.
Mätningarna är normalfördelade i båda grupperna
___________________________________
___________________________________
eller
Båda grupperna är stora
___________________________________
___________________________________
___________________________________
___________________________________
Bild 19
___________________________________
t-test
• Testvariabel:
D = Medelvärde i grupp B – Medelvärde i grupp A
___________________________________
• H0: D = 0, Medelvärde i grupp A = Medelvärde i grupp B
• H1: D  0, Medelvärde i grupp A ≠ Medelvärde i grupp B
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 20
___________________________________
t-test för två oberoende grupper
Exempel på SPSS-output
___________________________________
• Två versioner av t-testet beroende på om man kan
anta att standardavvikelsen är lika i båda grupperna
Independent Samples Test
Lev ene's Test f or
Equality of Variances
F
Oxy gen uptake
[ml/(kg*min)]
Equal v ariances
assumed
Equal v ariances
not assumed
2.158
Sig.
.144
t-t est f or Equality of Means
95% Conf idence
Interv al of the
Dif f erence
Lower
Upper
Sig. (2-tailed)
Mean
Dif f erence
St d. Error
Dif f erence
-3.454
133
.001
-5.318
1.539
-8.363
-2.273
-3.903
80.562
.000
-5.318
1.363
-8.030
-2.607
t
df
___________________________________
P-värden för t-testet
Levene’s test:
p-värde (”Sig.”) testar H0: Varians i A = Varians i B
Konfidensintervall
___________________________________
___________________________________
___________________________________
___________________________________
Bild 21
___________________________________
Presentera resultat från t-test
• Deskriptiv statistik för de två grupperna
– Medelvärde
– Standardavvikelse
• Skillnad i medelvärde mellan grupperna
– Med 95%-konfidensintervall
• P-värde
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 22
Mann-Whitney U test
___________________________________
• Passar för
– Icke-normalfördelad data
– Ordinaldata
___________________________________
• Kallas ibland för Wilcoxons rangsummetest
• Kräver oberoende mätningar
• H0: fördelningen i grupp A = fördelningen i grupp B
• H1: fördelningen i grupp A ≠ fördelningen i grupp B
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 23
Mann-Whitney U test
___________________________________
• Rangordna alla observationerna från
den lägsta till den högsta
___________________________________
• Beräkna summan av rangerna i grupp A
(WA) respektive grupp B (WB)
___________________________________
• Ju större skillnad i medelrang, WA/nA
och WB/nB, ju lägre p-värde fås
___________________________________
___________________________________
___________________________________
___________________________________
Bild 24
Creatinine
40
43
44
46
53
55
55
57
68
74
76
83
97
102
104
115
117
127
153
158
218
323
421
485
Sex
Female
Male
Female
Female
Female
Male
Female
Female
Female
Female
Male
Female
Female
Male
Female
Male
Female
Male
Male
Male
Male
Male
Male
Female
Rank
1
2
3
4
5
6,5
6,5
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
___________________________________
Mann-Whitney U test
• Rangsummorna för de två
grupperna är
___________________________________
– WA=172.5 (män) and W B=127,5
(kvinnor)
• Medelrangerna är
___________________________________
– WA/nA=15.98 and WB/nB=9.81
• P-värde beräknas med hjälp av
datorprogram till 0.04
___________________________________
___________________________________
___________________________________
___________________________________
Bild 25
___________________________________
Presentera resultat från
Mann-Whitney U test
• Deskriptiv statistik för de två grupperna
– Median
– Min och Max (eller lämpliga percentiler)
• P-värde
• Mediankonfidensintervall finns men
används inte så ofta
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 26
Parade mätningar
• Upprepad design
– Mätningar vid olika tidpunkter för samma
patienter/djur
• Matchad design
– En kontrollperson är matchad med varje patient på
t.ex. ålder och kön
• Parad analys ökar styrkan i testet om
matchningsvariabeln är relaterad till den
variabeln vi vill undersöka
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 27
___________________________________
Antaganden bakom parat t-test
1. Parade stickprov, beroende inom paren, inget
beroende mellan paren
2. Medelvärde är ett relevant summerande mått:
H0: Medelvärdesskillnaden = 0
3. Skillnaderna mellan paren är normalfördelade
eller
Det finns så många par att det inte gör något att de
inte är normalfördelade
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 28
___________________________________
Parade data
Icke-parametriskt test
• Wilcoxons teckenrangtest
• H0: Mediandifferenserna mellan metoderna
är noll, och positiva och negativa
differenser har samma fördelning
• H1: Mediandifferenserna mellan metoderna
är inte noll, eller positiva och negativa
differenser har inte samma fördelning
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 29
___________________________________
Samvariation mellan två variabler
• Ibland vill man undersöka hur två variabler
samvarierar
• Exempel
Ålder och njurfunktion
• Bara samvariation → KORRELATION
• En påverkar den andra → LINJÄR
REGRESSION
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 30
___________________________________
Korrelationskoefficienter
• Korrelationskoefficienter används för att visa
hur två variabler samvarierar
• För normalfördelade data används Pearsons
korrelationskoefficient (r)
• För övriga data används Spearmans
korrelationskoefficient (rS)
• -1 ≤ r ≤ 1
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 31
___________________________________
Korrelationskoefficienter
r = 0.9
r = -0.7
r = -0,1
r=0
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 32
___________________________________
Linjär regression
• Används då variabeln Y beror på variabeln X
• Y kallas för den beroende variabeln
(”utfall”/”respons”)
___________________________________
___________________________________
• x kallas för den oberoende variabeln (”förklarande”)
___________________________________
___________________________________
___________________________________
___________________________________
Bild 33
Linjär regression
Y=  +βX+e
___________________________________
___________________________________
 = skärning (intercept)
β= lutningskoefficient
(slope)
___________________________________
___________________________________
e=residual (variation som inte förklaras av modellen)
___________________________________
___________________________________
___________________________________
Bild 34
___________________________________
Linjär regression
• Formel för regressionslinjen: y =  + βx
• 
– Kallas ekvationens skärning eller intercept
– Kan vara negativ
– Påverkar inte β
– y =  då x=0
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 35
___________________________________
Linjär regression
• y =  + βx
• β ekvationens lutningskoefficient (slope)
• Tolkningen av β är
– För varje enhet x ökar, ökar y β enheter
– En individ med en enhet högre x har β
enheter högre y
• β kan vara positiv = ökning
• β kan vara negativ = minskning
• β kan vara 0 = y beror inte på x
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 36
Linjär regression – villkor
• För varje värde på x
måste y vara
normalfördelad
• Samtliga
observationer måste
vara oberoende
• Variansen ska vara
konstant
Dessa villkor måste vallideras!
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 37
Linjär regression – hypotesprövning
• Man undersöker förhållandet mellan y och x,
d.v.s. β
• Nollhypotesen är hypotesen om ingen effekt
H0: β = 0
H1: β ≠ 0
• Hypotesprövningen kan göras med
konfidensintervall och p-värde
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 38
___________________________________
Linjär regression - Exempel
Påverkar vikten det diastoliska blodtrycket (DBT)?
• Beroende variabel = DBT = y (den som blir påverkad)
___________________________________
• Oberoende variabel = vikten (kg) = x (den som påverkar)
• Skattningar av α och β ger bästa regressionslinjen
y = 57.19 + 0.36x
När vikten är = 0
DBT irrelevant
___________________________________
Tolkning: För varje kilo vikten ökar så ökar det DBT med 0.36 mmHg
___________________________________
___________________________________
___________________________________
___________________________________
Bild 39
Linjär regression - Exempel
• Påverkar vikten det diastoliska blodtrycket
(DBT)?
• 95% konfidensintervall: 0.33 till 0.40
• P-värdet < 0.001
• Förkasta H0 på 5% signifikansnivå
• Det finns ett samband mellan vikten och DBT
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 40
Residualer
• I verkligheten ligger sällan observationerna på
en exakt linje
• Det finns en variation i data
• Variationen kan bero på flera faktorer
– Mätbara faktorer som t.ex. ålder och kön
– Ej mätbara faktorer som t.ex. genetisk
predisposition för viss sjukdom eller mätfel
• Variationen kan beskrivas med residualer
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 41
Variation - residualer
En residual är skillnaden mellan
1) det faktiska värdet
och
2) värdet enligt
ekvationen y =  + βx
___________________________________
___________________________________
___________________________________
residual
___________________________________
___________________________________
___________________________________
___________________________________
Bild 42
Modellvallidering
• Residualerna ska vara
– normalfördelade
– oberoende
– ha konstant varians
___________________________________
___________________________________
___________________________________
• Detta undersöks med lämpliga figurer
___________________________________
___________________________________
___________________________________
___________________________________
Bild 43
Variation – förklaringsgrad
___________________________________
• Ju bättre modell man använder desto mindre
blir residualerna
___________________________________
• Den del av variationen som förklaras av en
modell kallas modellens förklaringsgrad (R2)
___________________________________
• Flera oberoende variabler i en
regressionsmodell
___________________________________
___________________________________
___________________________________
___________________________________
Bild 44
Linjär regression. Exempel:
• Påverkar vikten det diastoliska blodtrycket (DBT)?
• R2 = 0.39
• Vikten förklarar 39% av variationen av DBT
• Förklaringsgraden är kvadraten av Pearsons
korrelationskoefficient
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Bild 45
___________________________________
Sammanfattning Statistik II
• P-värde och hypotestest
• Parametriska
– Oberoende – t-test
– Parade – parat t-test
• Icke-parametriskt
– Oberoende – Mann Whitney
– Parade – Wilcoxon
___________________________________
___________________________________
• Samvariation
– Korrelation
– Linjär regression
___________________________________
___________________________________
___________________________________
___________________________________