Bild 1 - Lunds universitet
Transcription
Bild 1 - Lunds universitet
Bild 1 ___________________________________ Medicinsk statistik II ___________________________________ Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 2 ___________________________________ Sammanfattning Statistik I • Grundbegrepp: – målpopulation/stickprov – Statistisk osäkerhet och systematiska fel – Variabeltyper – skalnivå • • • • Läges och spridningsmått Normalfördelning Konfidensintervall Referensintervall ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 3 ___________________________________ Hypotesprövning • Man sätter upp en nollhypotes (H0) och en mothypotes (H1) – H0: Ingen effekt – H1: Effekt • H0 vill man kunna förkasta/avfärda • Om H0 förkastas så finns mothypotesen kvar ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 4 P-värde ___________________________________ • P-värdet är en sannolikhet mellan 0 och 1 • P-värdet är sannolikheten att man får det resultat man fick (eller ännu mer extremt) om H0 är sann ___________________________________ • Med mer extremt menar man ett värde som ligger längre ifrån nollhypotesen än det värde som man har fått • Om p-värdet är lågt så är det osannolikt att få det undersökningsresultat eller mer extremt resultat om H0 är sann • Ju mer resultatet avviker från det förväntade (enligt H0) desto lägre blir p-värdet ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 5 ___________________________________ P-värde – Exempel vilopuls • Frågeställning: Har män och kvinnor samma vilopuls? ___________________________________ • Målpopulation: Alla män och kvinnor (i Sverige, Norden, Europa etc.) • Nollhypotes (H0): Det finns inte någon skillnad dvs. skillnaden = 0 I hypotesprövningen antar vi att nollhypotesen är sann i målpopulationen ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 6 ___________________________________ P-värde – Exempel vilopuls • Stickprovet består av 10 slumpmässigt valda kvinnor och 10 slumpmässigt valda män ___________________________________ • I stickprovet har kvinnor i snitt 3 bpm lägre vilopuls än män • Det finns två möjliga förklaringar till resultatet: ___________________________________ 1. Slumpen har gjort att vi har hittat en skillnad på 3 bpm även om det inte finns någon skillnad i målpopulationen 2. Det finns en skillnad i målpopulationen dvs. nollhypotesen stämmer inte ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 7 P-värde – Exempel vilopuls • Hur ska vi veta vilket förklaring som gäller? ___________________________________ • Tittar på sannolikheten för att få resultatet ___________________________________ • Om skillnaden är 0 i målpopulationen vad är då sannolikheten att skillnaden är minst 3 bpm i stickprovet? ___________________________________ • Denna sannolikhet = p-värdet • Litet p-värde låg sannolikhet det troligaste är att nollhypotesen inte är sann (dvs. alternativ 2) ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 8 ___________________________________ P-värde – Exempel vilopuls • Hur vet vi om sannolikheten är liten? ___________________________________ • Signifikansnivån! • Om sannolikheten/p-värdet ligger under signifikansnivån är den liten ___________________________________ • Om den är större än signifikansnivån är den inte liten ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 9 P-värde – Exempel vilopuls • Om p > signifikansnivån ___________________________________ ___________________________________ ”Stor” sannolikhet att få resultatet även om H0 är sann ”Stor” sannolikhet att hitta en skillnad på 3 bpm även om skillnaden i målpopulationen är 0 Förkasta inte H0! ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 10 ___________________________________ P-värde – Exempel vilopuls • Om p < signifikansnivån ”Liten” sannolikhet att hitta en skillnad på 3 bpm om skillnaden i målpopulationen är sann ___________________________________ ___________________________________ Förkasta H0! ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 11 ___________________________________ P-värde • Utgå från att nollhypotesen är sann • P-värdet kan beräknas oavsett om data är normalfördelad eller inte men då används olika metoder • Räknas inte ut för hand • Jämför teststorheten med tabell • Dator ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 12 ___________________________________ Statistisk signifikans - klinisk relevans • Lågt p-värde Statistisk signifikans: ”Det finns en skillnad” • Hur stor är skillnaden? Klinisk relevans: ”Har skillnaden någon betydelse?” Skattning av storleken på effekten behövs! ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 13 ___________________________________ Konfidensintervall • P-värden kan tala om ifall det finns en effekt, men inte hur stor effekten är • Konfidensintervall visar hur stor effekten är ___________________________________ ___________________________________ • Konfidensintervallets bredd beror av – antalet individer i stickprovet – spridningen (standardavvikelsen) – konfidensgraden – hur säker man vill vara ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 14 Konfidensintervall och p-värde • Om data är normalfördelade kan hypotesprövning göras med konfidensintervall och p-värde • Båda metoderna ger samma resultat givet samma signifikansnivå • Konfidensgrad + signifikansnivå = 1 • Om H0 ligger utanför 95% KI är p < 5% • Om H0 ligger innanför 95% KI är p > 5% ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 15 Sammanfattning hypotesprövning Förkasta H0 om Förkasta inte H0 om • H0 ligger utanför konfidensintervallets gränser • H0 ligger innanför • p < signifikansnivån konfidensintervallets gränser ___________________________________ ___________________________________ ___________________________________ • p > signifikansnivån ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 16 Gruppjämförelser för kvantitativa mätningar • Parametriska metoder – t-test för två oberoende grupper – t-test för parade grupper • Icke-parametriska metoder – Mann-Whitney U test för två oberoende grupper – Wilcoxons teckenrangtest för parade grupper ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 17 t-test för två oberoende grupper exempel ___________________________________ • (Maximala) syreupptagningsförmågan bland studenter ___________________________________ • Två grupper ___________________________________ A: Fysisk träning med låg intensitet B: Fysisk träning med medel/hög intensitet ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 18 ___________________________________ Antaganden bakom t-testet 1. Medelvärdet är ett bra sammanfattande mått 2. Oberoende observationer (t.ex. ingen patient förekommer mer än en gång) 3. Mätningarna är normalfördelade i båda grupperna ___________________________________ ___________________________________ eller Båda grupperna är stora ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 19 ___________________________________ t-test • Testvariabel: D = Medelvärde i grupp B – Medelvärde i grupp A ___________________________________ • H0: D = 0, Medelvärde i grupp A = Medelvärde i grupp B • H1: D 0, Medelvärde i grupp A ≠ Medelvärde i grupp B ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 20 ___________________________________ t-test för två oberoende grupper Exempel på SPSS-output ___________________________________ • Två versioner av t-testet beroende på om man kan anta att standardavvikelsen är lika i båda grupperna Independent Samples Test Lev ene's Test f or Equality of Variances F Oxy gen uptake [ml/(kg*min)] Equal v ariances assumed Equal v ariances not assumed 2.158 Sig. .144 t-t est f or Equality of Means 95% Conf idence Interv al of the Dif f erence Lower Upper Sig. (2-tailed) Mean Dif f erence St d. Error Dif f erence -3.454 133 .001 -5.318 1.539 -8.363 -2.273 -3.903 80.562 .000 -5.318 1.363 -8.030 -2.607 t df ___________________________________ P-värden för t-testet Levene’s test: p-värde (”Sig.”) testar H0: Varians i A = Varians i B Konfidensintervall ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 21 ___________________________________ Presentera resultat från t-test • Deskriptiv statistik för de två grupperna – Medelvärde – Standardavvikelse • Skillnad i medelvärde mellan grupperna – Med 95%-konfidensintervall • P-värde ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 22 Mann-Whitney U test ___________________________________ • Passar för – Icke-normalfördelad data – Ordinaldata ___________________________________ • Kallas ibland för Wilcoxons rangsummetest • Kräver oberoende mätningar • H0: fördelningen i grupp A = fördelningen i grupp B • H1: fördelningen i grupp A ≠ fördelningen i grupp B ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 23 Mann-Whitney U test ___________________________________ • Rangordna alla observationerna från den lägsta till den högsta ___________________________________ • Beräkna summan av rangerna i grupp A (WA) respektive grupp B (WB) ___________________________________ • Ju större skillnad i medelrang, WA/nA och WB/nB, ju lägre p-värde fås ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 24 Creatinine 40 43 44 46 53 55 55 57 68 74 76 83 97 102 104 115 117 127 153 158 218 323 421 485 Sex Female Male Female Female Female Male Female Female Female Female Male Female Female Male Female Male Female Male Male Male Male Male Male Female Rank 1 2 3 4 5 6,5 6,5 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 ___________________________________ Mann-Whitney U test • Rangsummorna för de två grupperna är ___________________________________ – WA=172.5 (män) and W B=127,5 (kvinnor) • Medelrangerna är ___________________________________ – WA/nA=15.98 and WB/nB=9.81 • P-värde beräknas med hjälp av datorprogram till 0.04 ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 25 ___________________________________ Presentera resultat från Mann-Whitney U test • Deskriptiv statistik för de två grupperna – Median – Min och Max (eller lämpliga percentiler) • P-värde • Mediankonfidensintervall finns men används inte så ofta ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 26 Parade mätningar • Upprepad design – Mätningar vid olika tidpunkter för samma patienter/djur • Matchad design – En kontrollperson är matchad med varje patient på t.ex. ålder och kön • Parad analys ökar styrkan i testet om matchningsvariabeln är relaterad till den variabeln vi vill undersöka ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 27 ___________________________________ Antaganden bakom parat t-test 1. Parade stickprov, beroende inom paren, inget beroende mellan paren 2. Medelvärde är ett relevant summerande mått: H0: Medelvärdesskillnaden = 0 3. Skillnaderna mellan paren är normalfördelade eller Det finns så många par att det inte gör något att de inte är normalfördelade ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 28 ___________________________________ Parade data Icke-parametriskt test • Wilcoxons teckenrangtest • H0: Mediandifferenserna mellan metoderna är noll, och positiva och negativa differenser har samma fördelning • H1: Mediandifferenserna mellan metoderna är inte noll, eller positiva och negativa differenser har inte samma fördelning ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 29 ___________________________________ Samvariation mellan två variabler • Ibland vill man undersöka hur två variabler samvarierar • Exempel Ålder och njurfunktion • Bara samvariation → KORRELATION • En påverkar den andra → LINJÄR REGRESSION ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 30 ___________________________________ Korrelationskoefficienter • Korrelationskoefficienter används för att visa hur två variabler samvarierar • För normalfördelade data används Pearsons korrelationskoefficient (r) • För övriga data används Spearmans korrelationskoefficient (rS) • -1 ≤ r ≤ 1 ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 31 ___________________________________ Korrelationskoefficienter r = 0.9 r = -0.7 r = -0,1 r=0 ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 32 ___________________________________ Linjär regression • Används då variabeln Y beror på variabeln X • Y kallas för den beroende variabeln (”utfall”/”respons”) ___________________________________ ___________________________________ • x kallas för den oberoende variabeln (”förklarande”) ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 33 Linjär regression Y= +βX+e ___________________________________ ___________________________________ = skärning (intercept) β= lutningskoefficient (slope) ___________________________________ ___________________________________ e=residual (variation som inte förklaras av modellen) ___________________________________ ___________________________________ ___________________________________ Bild 34 ___________________________________ Linjär regression • Formel för regressionslinjen: y = + βx • – Kallas ekvationens skärning eller intercept – Kan vara negativ – Påverkar inte β – y = då x=0 ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 35 ___________________________________ Linjär regression • y = + βx • β ekvationens lutningskoefficient (slope) • Tolkningen av β är – För varje enhet x ökar, ökar y β enheter – En individ med en enhet högre x har β enheter högre y • β kan vara positiv = ökning • β kan vara negativ = minskning • β kan vara 0 = y beror inte på x ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 36 Linjär regression – villkor • För varje värde på x måste y vara normalfördelad • Samtliga observationer måste vara oberoende • Variansen ska vara konstant Dessa villkor måste vallideras! ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 37 Linjär regression – hypotesprövning • Man undersöker förhållandet mellan y och x, d.v.s. β • Nollhypotesen är hypotesen om ingen effekt H0: β = 0 H1: β ≠ 0 • Hypotesprövningen kan göras med konfidensintervall och p-värde ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 38 ___________________________________ Linjär regression - Exempel Påverkar vikten det diastoliska blodtrycket (DBT)? • Beroende variabel = DBT = y (den som blir påverkad) ___________________________________ • Oberoende variabel = vikten (kg) = x (den som påverkar) • Skattningar av α och β ger bästa regressionslinjen y = 57.19 + 0.36x När vikten är = 0 DBT irrelevant ___________________________________ Tolkning: För varje kilo vikten ökar så ökar det DBT med 0.36 mmHg ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 39 Linjär regression - Exempel • Påverkar vikten det diastoliska blodtrycket (DBT)? • 95% konfidensintervall: 0.33 till 0.40 • P-värdet < 0.001 • Förkasta H0 på 5% signifikansnivå • Det finns ett samband mellan vikten och DBT ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 40 Residualer • I verkligheten ligger sällan observationerna på en exakt linje • Det finns en variation i data • Variationen kan bero på flera faktorer – Mätbara faktorer som t.ex. ålder och kön – Ej mätbara faktorer som t.ex. genetisk predisposition för viss sjukdom eller mätfel • Variationen kan beskrivas med residualer ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 41 Variation - residualer En residual är skillnaden mellan 1) det faktiska värdet och 2) värdet enligt ekvationen y = + βx ___________________________________ ___________________________________ ___________________________________ residual ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 42 Modellvallidering • Residualerna ska vara – normalfördelade – oberoende – ha konstant varians ___________________________________ ___________________________________ ___________________________________ • Detta undersöks med lämpliga figurer ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 43 Variation – förklaringsgrad ___________________________________ • Ju bättre modell man använder desto mindre blir residualerna ___________________________________ • Den del av variationen som förklaras av en modell kallas modellens förklaringsgrad (R2) ___________________________________ • Flera oberoende variabler i en regressionsmodell ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 44 Linjär regression. Exempel: • Påverkar vikten det diastoliska blodtrycket (DBT)? • R2 = 0.39 • Vikten förklarar 39% av variationen av DBT • Förklaringsgraden är kvadraten av Pearsons korrelationskoefficient ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ ___________________________________ Bild 45 ___________________________________ Sammanfattning Statistik II • P-värde och hypotestest • Parametriska – Oberoende – t-test – Parade – parat t-test • Icke-parametriskt – Oberoende – Mann Whitney – Parade – Wilcoxon ___________________________________ ___________________________________ • Samvariation – Korrelation – Linjär regression ___________________________________ ___________________________________ ___________________________________ ___________________________________