Föreläsning 11, Matematisk statistik +E

Transcription

Föreläsning 11, Matematisk statistik +E
Repetition Konfidensintervall I Fördelningar Konfidensintervall II
Föreläsning 11, Matematisk statistik Π + E
Johan Lindström
27 Januari, 2015
Johan Lindström - johanl@maths.lth.se
FMS012 F11
1/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall II
Stickprov & Skattning
Ett stickprov, x1 , x2 , . . . , xn , är observationer av s.v. X1 , . . . , Xn
från någon fördelning Xi ∈ F(θ) där θ är en okänd parameter.
En skattning av θ, θ∗ (x1 , . . . , xn ) är en observation av den s.v.
θ∗ (X1 , . . . , Xn ). Båda betecknas oftast bara med θ∗ .
θ∗
Tal
S.V.
x1
x2
X1
X2
θ∗ (x1 , . . . , xn )
θ∗ (X)
θ∗
Xi ∈ F(θ)
Funktion
Johan Lindström - johanl@maths.lth.se
FMS012 F11
2/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall II
Minsta kvadrat-metoden, MK
Om E(Xi ) = μi (θ) så fås MK-skattningen av θ genom att
minimera förlustfunktionen
Q(θ) =
n X
xi − μi (θ)
2
i=1
m.a.p. θ.
Maximum likelihood-metoden, ML
ML-skattningen av θ fås genom att maximera
likelihood-funktionen L(θ; x1 , . . . , xn ) m.a.p. θ.
L(θ) = pX (x1 ) · . . . · pX (xn )
(diskr.)
L(θ) = fX (x1 ) · . . . · fX (xn )
(kont.)
Johan Lindström - johanl@maths.lth.se
FMS012 F11
3/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
RepetitionII N(μ, σ)
Konfidensintervall
Ett konfidensintervall för en parameter θ täcker rätt värde på θ
med sannolikheten 1 − α.
1 − α kallas konfidensgrad. Vanliga värden är 0.95, 0.99 och
0.999.
Ett tvåsidigt konfidensintervall är alltså två skattningar a∗1 , a∗2
så att
P a∗1 (X1 , . . . , Xn ) < θ < a∗2 (X1 , . . . , Xn ) = 1 − α
Ett ensidigt konfidensintervall är en skattning a∗1 eller a∗2 så att
P a∗1 (X1 , . . . , Xn ) < θ < ∞ = 1 − α
eller
P −∞ < θ < a∗2 (X1 , . . . , Xn ) = 1 − α
Johan Lindström - johanl@maths.lth.se
FMS012 F11
4/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
RepetitionII N(μ, σ)
Andelen 1 − α av intervallen täcker rätt värde i långa
loppet
100 st 95% konfidensint. för µ i N(µ,σ)
100
90
90
80
80
70
70
60
60
Intervall nr
Intervall nr
100 st 95% konfidensint. för µ i N(µ,2)
100
50
40
50
40
30
30
20
20
10
10
0
0
0.5
1
1.5
2
Johan Lindström - johanl@maths.lth.se
0
0
0.5
FMS012 F11
1
1.5
2
5/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
RepetitionII N(μ, σ)
α-kvantil, xα
En kvantil, xα , till en s.v. X är en gräns som överskrids med slh
α. Den fås som lösning till någon av följande ekvationer.
Z
xα
FX (xα ) = 1 − α ⇐⇒
Z
∞
fX (x) dx = 1 − α ⇐⇒
−∞
fX (x) dx = α
xα
Sats 6.1 — Standardiserad normalfördelning
Om X ∈ N(μ, σ), E(X) = μ, V(X) = σ2 så är
X−μ
∈ N(0, 1)
σ
Johan Lindström - johanl@maths.lth.se
FMS012 F11
6/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
RepetitionII N(μ, σ)
Konfidensintervall för μ då Xi ∈ N (μ, σ), σ känd
1. En skattning av μ är:
μ∗ =
n
X
Xi
i=1
2. Med
E(μ∗ )
= μ och
D(μ∗ )
=
√σ .
n
3. Enligt Sats 6.1 är
μ∗ − μ
∈ N (0, 1) .
D(μ∗ )
4. Vi söker nu tal så att:
μ∗ − μ
P ?<
<? = 1 − α
D(μ∗ )
5. Konfidensintervallet för μ är: Iμ = μ∗ ± λα/2 D(μ∗ ).
Johan Lindström - johanl@maths.lth.se
FMS012 F11
7/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
RepetitionII N(μ, σ)
Konfidensintervall för μ då Xi ∈ N (μ, σ), σ okänd
Om σ är okänd ersätts D(μ∗ ) med medelfelet:
v
u
n
u 1 X
s
∗
t
d(μ ) = √
s=
(xi − x̄)2
n−1
n
i=1
Men, nu är
μ∗ − μ
inte N (0, 1).
d(μ∗ )
Johan Lindström - johanl@maths.lth.se
FMS012 F11
8/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
χ2 t
II
χ2 -fördelning (chi-två)
I
Y ∈ χ2 (f). f kallas antal
frihetsgrader.
I
α-kvantil: χ2α (f). Tabell 4.
Om X1 , . . . , Xn ∈ N(μ, σ) och
oberoende så gäller
χ2 − fördelning med f = 1, 3, 5, 15
0.6
0.4
←f=1
n
1 X
(Xi − μ)2 ∈ χ2 (n)
σ2
0.2
←f=3
i=1
n
1 X
(Xi − X̄)2 ∈ χ2 (n − 1)
σ2
0
0
2
4
6
8
10
12
i=1
Johan Lindström - johanl@maths.lth.se
FMS012 F11
9/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
χ2 t
II
Student’s t-fördelning
I
X ∈ t(f). f kallas antal
frihetsgrader.
I
α-kvantil: tα (f). Tabell 3.
t − fördelning med f = 1, 2, 4, 8, ∞
0.4
Om X ∈ N(0, 1) och Y ∈ χ2 (f)
är oberoende gäller
X
p
∈ t(f)
Y/f
←f=∞
0.2
f=1→
och speciellt för Xi ∈ N(μ, σ)
0
−4
X̄ − μ
√ ∈ t(n − 1)
S/ n
−2
0
2
4
där
n
1X
X̄ =
Xi
n
i=1
n
1 X
och S =
(Xi − X̄)2
n−1
Johan Lindström - johanl@maths.lth.se
2
i=1
FMS012 F11
10/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
χ2 t
II
Student — William Sealy Gosset
Johan Lindström - johanl@maths.lth.se
FMS012 F11
11/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
N(μ, σ) Ex
II 1 Sammanfattning Ex 2 Special fall
Konfidensintervall för μ i N(μ, σ)
x1 , . . . , xn observationer av Xi ∈ N(μ, σ)
σ känd:
σ
Iμ = x̄ ± λα/2 √ = μ∗ ± λα/2 D(μ∗ )
n
σ okänd:
s
Iμ = x̄ ± tα/2 (n − 1) √ = μ∗ ± tα/2 (f)d(μ∗ )
n
Där kvantilerna ges av:
I
λα/2 är N(0, 1)-fördelningens α/2-kvantil (Tabell 2)
I
tα/2 (n − 1) är t-fördelningens α/2-kvantil (Tabell 3)
Johan Lindström - johanl@maths.lth.se
FMS012 F11
12/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
N(μ, σ) Ex
II 1 Sammanfattning Ex 2 Special fall
Exempel: Sockerinnehåll i betor
Sockerbetor har i regel ett sockerinnehåll på 16 − 18% (enligt
Dansukkers hemsida). Anta att sockerinnehållet i en godtycklig
beta beskrivas av Xi ∈ N (μ, σ) med σ okänd. I ett visst betlass
undersökte man sockerhalten hos 25 slumpmässigt utvalda
betor.
25
1 X
xi = 16.8
25
i=1
25
X
(xi − x̄)2 = 4.8
i=1
Gör ett 95%-konfidensintervall för den förväntade sockerhalten i
betlasset.
Johan Lindström - johanl@maths.lth.se
FMS012 F11
13/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
N(μ, σ) Ex
II 1 Sammanfattning Ex 2 Special fall
Normalfördelad skattning, θ∗ ∈ N (θ, D(θ∗ ))
D(θ∗ ) känd:
Iθ = θ∗ ± λα/2 D(θ∗ )
D(θ∗ ) okänd:
Iθ = θ∗ ± tα/2 (f)d(θ∗ )
Normalapproximation, θ∗ ∈
N (θ, D(θ∗ ))
∼
D(θ∗ ) känd:
Iθ = θ∗ ± λα/2 D(θ∗ )
D(θ∗ ) okänd:
Iθ = θ∗ ± λα/2 d(θ∗ )
Johan Lindström - johanl@maths.lth.se
(alltid λ-kvantil)
FMS012 F11
14/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
N(μ, σ) Ex
II 1 Sammanfattning Ex 2 Special fall
Ex: Konfidensintervall för p då X ∈ Bin(n, p)
Vi vill uppskatta hur vanligt det är att det snöar i april i
Målilla och konstaterar att under de 300 aprildagarna under
perioden 1988–1997 så snöade det under 71 dagar. Antag att
olika dagar är oberoende av varandra.
Beräkna ett approximativt 95% konfidensintervall för
sannolikheten att det snöar en slumpmässigt vald aprildag i
Målilla.
Johan Lindström - johanl@maths.lth.se
FMS012 F11
15/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
N(μ, σ) Ex
II 1 Sammanfattning Ex 2 Special fall
Samanvägd variansskattning
Om vi har
x1 , . . . , xn x
obs. av Xi ∈ N (μx , σ)
y1 , . . . , yny
obs. av Yi ∈ N (μy , σ)
kan den gemensamma variansen σ2 skattas med
s2p =
(nx − 1)s2x + (ny − 1)s2y
Q
= ,
nx − 1 + ny − 1
f
(
Q
∈ χ2 (f))
σ2
Ett konfidensintervall för μx − μy blir t.ex.
s
Iμx −μy = x̄ − ȳ ± tα/2 (f) sp
1
1
+
nx ny
q
eftersom μ∗x − μ∗y = X̄ − Ȳ ∈ N(μx − μy , σ n1x +
Johan Lindström - johanl@maths.lth.se
FMS012 F11
1
ny )
16/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
N(μ, σ) Ex
II 1 Sammanfattning Ex 2 Special fall
Stickprov i par
Vid många mätsituationer är det vanligt att man mäter före
och efter en behandling på n inbördes olika föremål.
Modell:
Före: Xi ∈ N (μi , σ1 )
Efter: Yi ∈ N (μi + Δ, σ2 )
Vi vill nu skatta effekten av behandlingen (Δ). Bilda
Zi = Yi − Xi ∈ N (Δ, σ). Skatta Δ med z̄ gör konfidensintervall
som vanligt för ett stickprov, dvs
√
IΔ = z̄ ± tα/2 (n − 1)s/ n,
där
n
1 X
s =
(zi − z̄)2 .
n−1
2
i=1
Johan Lindström - johanl@maths.lth.se
FMS012 F11
17/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
N(μ, σ) Ex
II 1 Sammanfattning Ex 2 Special fall
Stickprov i par?
I
Blodtrycket hos ett antal patienter mäts förre och efter
behandling med blodtryckssänkande medicin;
konfidensintervall för sänkningen?
I
Luftkvaliteten mäts längs Hornsgatan i Stockholm vintern
2009 (dubbdäck fortfarande tillåtna) och 2010 (efter
dubbdäcksförbud); konfidensintervall för skillnaden i
luftkvalitet?
I
pH-värdet möts varje dag i Höjeå förre och efter Lunds
reningsverk; konfidensintervall för skillnaden?
Johan Lindström - johanl@maths.lth.se
FMS012 F11
18/19
Repetition Konfidensintervall I Fördelningar Konfidensintervall
N(μ, σ) Ex
II 1 Sammanfattning Ex 2 Special fall
Ensidiga konfidensintervall
Konfidensintervall kan även vara uppåt- eller nedåt begränsade.
De konstrueras allmänt genom att
1. Ta ena gränsen i ett tvåsidigt konfidensintervall
2. Byt ut α/2 −→ α för att få rätt konfidensgrad
3. Låt den andra gränsen bli så stor/liten som möjligt
Ex. Om det tvåsidiga intervallet ges av x̄ ± λα/2 √σn fås följande
ensidiga konfidensintervall
I
Nedåt begränsat intervall: (x̄ − λα √σn , ∞)
I
Uppåt begränsat intervall: (−∞, x̄ + λα √σn )
Ensidiga konfidensintervall är framförallt användbara vid
ensidiga hypotestest.
Johan Lindström - johanl@maths.lth.se
FMS012 F11
19/19