Lektionsanteckningar 11-12: Normalfördelningen
Transcription
Lektionsanteckningar 11-12: Normalfördelningen
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 Lektionsanteckningar 11-12: Normalfördelningen • När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. • Det är väsentligt att utfallsrummet omfattar alla värden variabeln kan anta. • En kontinuerlig slumpvariabel illustreras med en kurva. • Om sannolikhetsmodellen är korrekt beskriver alltså denna kurva variabelns fördelning i populationen. • När vi bestämmer kurvan anpassar vi skalan så att arean under kurvan blir lika med 1. • Då är det möjligt att göra sannolikhetsberäkningar. 1 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 11.1 Normalfördelningen • Normalfördelningen är den viktigaste fördelningen i statistik. • Normalfördelningen är kontinuerlig och den har en symmetriskt klockformad sannolikhetskurva. • Normalfördelningen har flera goda matematiska egenskaper, som gör den enkel att hantera. • Många fördelningar kan approximeras med normalfördelningen. • Variationen i medelvärden och procenttal i stickprov kan analyseras med hjälp av normalfördelningen. • Normalfördelningen är ett nödvändigt instrument vid nästan all statistisk analys. 2 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • En slumpvariabel X som kan beskrivas med uttrycket f ( x) = 1 e σ 2π −μ ⎟ − 1 ⎜⎜ xσ ⎟ 2⎝ ⎠ ⎛ ⎞ 2 där −∞ < x < ∞ (1) sägs vara normalfördelad med parametrarna μ och σ. • μ och σ är normalfördelningens väntevärde (medelvärde) och standardavvikelse. • När vi känner dessa parametrar känner vi variabelns sannolikhetsfördelning fullständigt. • Normalfördelningen är symmetrisk kring sitt väntevärde. • Detta är en egenskap som vi har nytta av vid praktiska sannolikhetsberäkningar. • Givetvis gäller också att ytan under kurvan är lika med 1. 3 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • Tre normalfördelade variabler med samma standardavvikelse men olika medelvärden 4 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • Fyra normalfördelade variabler med samma medelvärde men olika standardavvikelser 5 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • Cirka 68 procent av observationerna på en normalfördelad variabel ligger inom plus och minus en standardavvikelse från dess medelvärde. • Cirka 95 procent av observationerna på en normalfördelad variabel ligger inom plus och minus två standardavvikelser från dess medelvärde. • 99,7 procent av observationerna på en normalfördelad variabel ligger inom plus och minus tre standardavvikelser från dess medelvärde. 6 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 11.2 Standardiserade normalfördelning • När man beräknar sannolikheter för normalfördelade variabler arbetar man alltid med den standardiserade normalfördelningen. • Man brukar använda bokstaven Z för att beteckna en standardiserad normalfördelad variabel. • Om X är en normalfördelad variabel med medelvärde μ och standardavvikelsen σ är den standardiserade variabeln Z = X −μ (2) σ normalfördelad med medelvärdet noll och standardavvikelsen ett, dvs. E (Z ) ⎛ = E ⎜⎜ ⎝ X −μ ⎞ =⎜ E(X )−μ ⎟ =⎛ μ −μ ⎞ = 0 ⎛ σ ⎟ ⎟ ⎠ ⎞ σ ⎜ ⎜ ⎝ ⎟ ⎟ ⎠ ⎜ ⎝ σ ⎟ ⎠ 2 ⎛ ⎞ Var ( Z ) = Var ⎜⎜ X − μ ⎟⎟ = 12 ⋅Var ( X ) = σ 2 = 1 ⎝ σ ⎠ σ σ 7 (3) (4) Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • Den standardiserade normalfördelningen är symmetrisk kring väntevärdet noll. • Det nya i denna sats är att en normalfördelad variabel som standardiseras förblir normalfördelad. • Detta innebär att alla normalfördelade variabler, oavsett väntevärde och standardavvikelse, kan transformeras till den standardiserade normalfördelningen. • När denna standardisering är gjord kan man göra sannolikhetsberäkningar med hjälp av en Z tabell. 8 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 11.3 Stickprov • I ett slumpmässigt urval från en population där variabeln X har fördelningen p(x), medelvärdet μ och variansen σ 2 , är observationerna X1, X 2 ,......., X n oberoende slumpvariabler med samma fördelning p(x). • Speciellt gäller att: E ( X1) = E ( X 2 ) = ..... = E ( X n ) = μ (5) Var ( X1) = Var ( X 2 ) = ..... = Var ( X n ) = σ 2 (6) • De värdena som variablerna X1, X 2 ,......., X n antar i ett faktiskt stickprov betecknas x1, x2 ,......., xn . • Sammanfattningsvis konstaterar vi att slumpmässigt urval omfattar n observationer är n slumpvariabler som har alla samma fördelning som populationen. • Detta innebär inte alla stickprov är lika. 9 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • De har visserligen samma sannolikhetsfördelning men det faktiska utfallet skiljer sig från stickprov till stickprov. • En slumpvariabel kan man beskriva med medelvärdet och variansen. • För stickprovsmedelvärdet är väntevärdet ⎛ ⎞ E ( X ) = E ⎜⎜ 1 ( X1 + X 2 + ..... + X n ) ⎟⎟ = 1 E ( X1 + X 2 + ..... + X n ) ⎝n ⎠ n = 1 ⎛⎜ E ( X1 ) + E ( X 2 ) + ..... + E ( X n ) ⎞⎟ = 1 ( μ + μ + ..... + μ ) n⎝ ⎠ n = 1 ⋅ nμ = μ n (7) • Vi säger att stickprovsmedelvärdet X är en väntevärdesriktig skattning av populationsmedelvärdet μ. • Innan stickprovet är taget är X en slumpvariabel. • Vilket värde x denna variabel antar i ett konkret försök beror på vilka individer som kommer med i stickprovet, dvs. på slumpen. 10 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • Om vi bara tar ett stickprov är det troligt att medelvärdet x antingen är mindre än eller större än μ. • Någon garanti att vi ska få det exakta värdet μ finns naturligtvis inte. • Variansen i stickprovsmedelvärdet blir ( ) ⎛ ⎞ Var X = Var ⎜⎜ 1 ( X1 + X 2 + .... + X n ) ⎟⎟ ⎝n ⎠ ⎛ ⎞ = ⎜⎜ 1 ⎟⎟ ⎝n⎠ 2 ( (Var( X1) +Var( X 2 ) + .... +Var ( X n )) ) 2 1 1 σ 2 2 2 2 = 2 ⋅ σ + σ + ...... + σ = 2 ⋅ nσ = n n n (8) • Beräkningen förutsätter att variablerna X1, X 2 ,......., X n är parvisa okorrelerade. Denna förutsättning är uppfylld när urvalet kommer från en stor population. • Vi ser att variansen i stickprovsmedelvärdet är omvänt proportionellt mot stickprovets storlek. 11 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • Fördelningen för X koncentreras därför mer och mer kring värdet μ då n växer. • För ett stort stickprov är det därför troligt att x ligger nära μ. 12 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 11.4 Linjära kombinationer • Linjära kombinationer av normalfördelade variabler är normalfördelade. • Både summor och medelvärden är linjära kombinationer. • En summa av normalfördelade variabler blir normalfördelad. • För ett stickprov omfattande n observationer X1, X 2 ,......., X n på en normalfördelad variabel med medelvärdet μ och standardavvikelsen σ gäller att: Medelvärdet X är normalfördelad med E( X ) = μ och σ x = Var ( X ) = σ n Summan S = X1 + X 2 + ........ + X n är normalfördelad med E( S ) = n·μ och σ S = Var (S ) = n ⋅σ 13 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 11.5 Centrala gränsvärdessatsen • Summan av n oberoende slumpvariabler med samma fördelning är ungefär normalfördelad om n är tillräckligt stort. • En viktig följd av centrala gränsvärdessatsen blir att summor och medelvärden beräknade på stora stickprov är ungefär normalfördelade oavsett populationens fördelning. • I figur 1 presenteras samplingfördelningen för en normalfördelad variabel med väntevärde 5 och standardavvikelsen 3. • Vi ser att även om vi bara drar ett urval på en observation från denna fördelning är samplingfördelningen normalfördelad. • Men ju större urval, desto mindre blir variansen kring väntevärdet. 14 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 Figur 1 Samplingfördelning för en Normalfördelad Variabel n=1 n=5 0 0 Andel .0 2 .0 4 .0 6 .0 8 Normalfördelad Variabel Andel .0 2 .0 4 .0 6 .0 8 Normalfördelad Variabel -5 0 5 10 Medelvärde 15 0 Väntevärde 5 och Standardavvikelsen 3 2 4 6 Medelvärde 8 10 Väntevärde 5 och Standardavvikelsen 3 n=30 n=100 0 0 Andel .0 2 .0 4 .0 6 .0 8 Normalfördelad Variabel Andel .0 2 .0 4 .0 6 .0 8 Normalfördelad Variabel 3 4 5 6 Medelvärde 7 Väntevärde 5 och Standardavvikelsen 3 3.5 4 4.5 5 Medelvärde Väntevärde 5 och Standardavvikelsen 3 15 5.5 6 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • I figur 2 visas samplingfördelningen för en snedfördelad variabel med väntevärde 5 och standardavvikelsen 5. • Vi ser tydligt att samplingfördelningen går mer och mer mot en normalfördelning och redan vid urvalsstorleken n = 30, har vi en normalfördelning. • När stickprovstorleken ökar minskas variansen och fördelningen koncentreras därför mer och mer kring det förväntade värdet. 16 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 Figur 2 Samplingfördelning för en Snedfördelad Variabel Snedfördelad Variabel n=1 n=5 0 Andel 0 .0 2 .0 4 .0 6 .0 8 .1 Andel .0 2 .0 4 .0 6 .0 8 Snedfördelad Variabel 0 5 10 15 Medelvärde 20 25 2 Väntevärde 5 och Standardavvikelsen 5 4 6 8 Medelvärde 10 12 Väntevärde 5 och Standardavvikelsen 5 n=30 n=100 0 0 Andel .0 2 .0 4 .0 6 .0 8 Snedfördelad Variabel Andel .0 2 .0 4 .0 6 .0 8 Snedfördelad Variabel 3 4 5 6 Medelvärde 7 Väntevärde 5 och Standardavvikelsen 5 4 4.5 5 5.5 Medelvärde Väntevärde 5 och Standardavvikelsen 5 17 6 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 • I figur 3 visas samplingfördelningen för en binomialfördelning med andelen positiva lika med 0,30. • När vi drar en enda observation ur populationen får vi antingen en nolla eller en etta. Sannolikheten att få en nolla är 0,70 och sannolikheten att få en etta är 0,30, varför den första grafen enbart tar dessa två värden. • Sedan när vi ökar på stickprovsstorleken blir binomialfördelningen mer och mer lik en normalfördelning. • Vid stickprovstorleken n = 100 har vi en till synes normalfördelning och fördelningen koncentreras mer och mer kring det förväntade värdet. 18 Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10 Figur 3 Samplingfördelning för en Binomialvariabel n=1 n=5 Andel .2 .3 .1 0 0 .2 Andel .4 .6 .4 Binomialfördelad Variabel .8 Binomialfördelad Variabel .2 .4 .6 Medelvärde .8 1 0 .2 .4 .6 Medelvärde .8 Binomialfördelad Variabel Binomialfördelad Variabel n=30 n=100 1 0 .0 5 Andel .1 .1 5 Andel 0 .0 2 .0 4 .0 6 .0 8 .1 0 0 .2 .4 Medelvärde .6 19 .1 .2 .3 .4 Medelvärde .5