Föreläsning 8

Transcription

Föreläsning 8
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Matematisk statistik för
B, K, N, BME och Kemister
Föreläsning 8
Johan Lindström
23 september 2015
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
1/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
MapleTA — Resultat
I
Testet åter tillgängligt
om ni vill träna inför
tentan.
I
Ni som inte klarat testet,
gör det innan tentan
(godkänt höjt från 6 till
7).
I
Vanligaste problem
centrala gränsvärdessatsen
och Poissonfördelning.
Johan Lindström - johanl@maths.lth.se
Försök
Försök/student
Medel
Median
Alla
451
2.75
3.97
4.00
Bästa
143
1.00
6.82
6.50
FMS086/MASB02 F8
2/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
MapleTA — Exempel
1. Tiden det tar att betjäna en kund vid station A är en
stokastisk variabel med väntevärde 5.4 minuter och
standardavvikelse 4 minuter. Vid station B tar det i
genomsnitt 3.7 minuter att betjäna en kund och
standardavvikelsen är 1.75. Svara följande frågor med
tre decimaler.
b) Beräkna sannolikheten att det går snabbare att betjäna
50 kunder vid A än 80 kunder vid B.
2. Orterna A och B ligger på var sin sida av ett vattendrag
och förbinds av en bro. Antalet fordon som under en
minut färdas från A till B är poissonfördelat med
väntevärde 3 medan antal fordon i andra riktningen är
poissonfördelat med väntevärde 4. Beräkna
sannolikheten att det under en minut kommer minst 13
fordon på bron. Svara med tre decimaler.
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
3/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Modell Skattningar Intervall μ
Linjär regression
Modell
(Kap. 10.2)
Vi har n st par av mätvärden (xi , yi ), i = 1, . . . , n där yi är
observationer av
Yi = α + βxi + εi
där εi är oberoende av varandra, och εi ∈ N 0, σ2 .
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Modell Skattningar Intervall μ
Parameterskattningarna
α∗ ,
4/27
(Kap. 10.4–10.5)
Skattningarna av
Pn
Sxy
(x − x̄)(yi − ȳ)
∗
Pn i
β = i=1
=
2
Sxx
i=1 (xi − x̄)
β∗
σ2
∈ N β,
Sxx
1
x̄ 2
∈ N α, σ2
+
n Sxx
α∗ = ȳ − β ∗ x̄
och s2 = (σ2 )∗ är
n
2
X
Sxy
Q0
s =
där Q0 =
(yi − α∗ − β ∗ xi )2 = Syy −
n−2
Sxx
2
i=1
Q0
∈ χ2 (n − 2)
σ2
Skattningarna α∗ och β ∗ är dock inte oberoende av varandra.
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
MapleTA Repetition Exponenter Residualanalys Multipel reg.
5/27
Modell Skattningar Intervall μ
Konfidens- & Prediktionsintervall
(Kap. 10.6–10.7)
Konfidensintervall för linjen, μ0 , vid x0 :
∗
∗
Iμ0 = α + β x0 ± ta/2 (n − 2) · s ·
s
1 (x0 − x̄)2
+
n
Sxx
Prediktionsintervall för en ny mätning, Y(x0 ), vid x0 :
s
1 (x − x̄)2
∗
∗
IY(x0 ) = α + β x0 ± ta/2 (n − 2) · s · 1 + + 0
n
Sxx
Kalibreringsintervall
Kalibreringsintervall för x0∗ =
Ix0 =
x0∗
(Kap. 10.8)
−α∗
y0
β∗
givet en mätning y0 ,
s
± ta/2 (n − 2) · ∗ ·
|β |
Johan Lindström - johanl@maths.lth.se
s
1+
1 (x0∗ − x̄)2
+
n
Sxx
FMS086/MASB02 F8
6/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Linjärisering av exponentiella samband
För att få ett linjärt samband
yi = α + βxi + εi
kan vissa exponent- och potenssamband logaritmeras.
ln
zi = a · eβxi · ε0i
−→
zi = a · tiβ · ε0i
−→
ln zi = ln a +β · xi + ln ε0i
|{z} |{z}
|{z}
yi
ln
α
εi
ln zi = ln a +β ln ti + ln ε0i
|{z} |{z}
|{z} |{z}
yi
Johan Lindström - johanl@maths.lth.se
xi
α
εi
FMS086/MASB02 F8
7/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Antal transistorer hos Intelprocessorer
9
10
Intel® Itanium® 2
Intel® Itanium®
8
10
Intel® Pentium® 4
Intel® Pentium® III
7
Antal transistorer
10
Intel® Pentium® II
Intel® Pentium®
Intel486TM
6
10
Intel386TM
5
286
10
8086
4
10
3
10
8080
8008
4004
2
10
1970
1980
1990
2000
Lanseringsår
Johan Lindström - johanl@maths.lth.se
2010
2020
FMS086/MASB02 F8
8/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Exempel: Moores lag
Figuren på föregående slide är baserad på Moores Lag.
1965 framförde Gordon Moore (en av Intels grundare) tesen
att antalet transistorer på ett chip fördubblas vartannat år
(www.cs.utexas.edu/~fussell/courses/cs352h/papers/
moore.pdf).
Genom att anpassa en exponential funktion till data fås
följande
ln zi = −691 + 0.35xi
zi = 5.13 · 10−301 · exp(0.35xi )
där zi är antalet transistorer och xi är lanseringsår.
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
9/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
−301
x 10
0.35 x
⋅e
Skattat samband: y = 5.13⋅10
8
5
4.5
4
Antal transistorer
3.5
3
2.5
2
1.5
1
0.5
0
1970
1980
1990
2000
Lanseringsår
Johan Lindström - johanl@maths.lth.se
2010
2020
FMS086/MASB02 F8
10/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Samband vikt och hjärnstorlek
12
10
Elefant (Afr)
Elefant (Ind)
log(hjärnvikt) [g]
8
Människa
Giraff
Häst
Chimpans Åsna
GorillaKo
Rhesus apa
Får
Gris
Jaguar
Varg
Potar apa Get
Känguru
6
4
Brachiosaurus
( )
Triceratops
( )
( )
Diplodocus
Katt
Kanin
Ekorrbäver
Marsvin
2
Mullvad
Råtta
Hamster
0
Mus
−2
−4
−2
0
2
4
log(kroppsvikt) [kg]
Johan Lindström - johanl@maths.lth.se
MapleTA Repetition Exponenter Residualanalys Multipel reg.
6
8
10
FMS086/MASB02 F8
12
11/27
Residualplottar
Residualanalys/Modellvalidering
(Kap. 10.10)
För att undersöka hur bra modellen stämmer kan vi kan
studera residualerna, dvs avvikelserna mellan observerade
y-värden och den skattade linjen.
ei = yi − α∗ − β ∗ xi ,
i = 1, . . . , n
Dessa är observationer av εi , och residualerna bör alltså:
I
se ut att komma från en och samma normalfördelning
I
vara oberoende av varandra
I
vara oberoende av alla xi .
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
12/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Residualplottar
Residualplottar
Residualer
Residualer mot x
5
5
0
0
e
10
e
10
−5
−5
−10
0
−10
0
10
20
30
10
20
1:n
30
x
Probability
Normal Probability Plot
0.99
0.98
0.95
0.90
0.75
0.50
0.25
0.10
0.05
0.02
0.01
−5
0
Data
Johan Lindström - johanl@maths.lth.se
5
FMS086/MASB02 F8
MapleTA Repetition Exponenter Residualanalys Multipel reg.
13/27
Residualplottar
Mindre bra residualplottar
Residualer, kvadratisk trend
Residualer mot x, variansen ökar med x
300
100
200
50
e
e
100
0
0
−100
−50
0
10
20
30
−200
0
10
1:n
20
30
x
I en modellvalidering bör man även testa
H0 :
β =0
H1 :
Johan Lindström - johanl@maths.lth.se
MapleTA Repetition Exponenter Residualanalys Multipel reg.
β 6= 0
FMS086/MASB02 F8
14/27
Skattningar Ex Intervall Kolinjäritet Polynomregression
Multipel regression
(Kap. 11.2)
Modellen
yi = β0 + β1 x1i + . . . + βp xpi + εi , εi ∈ N 0, σ2 oberoende
kan skrivas på matrisform som
Y = Xβ + E
där Y och E är n × 1-vektorer, β en (p + 1) × 1-vektor och X
en n × (p + 1)-matris
 


 
 
y1
1 x11 · · · xp1
β0
ε1
y2 
1 x12 · · · xp2 
β1 


 
 .. 
 
y =  . , X = .
..
..  , β =  ..  ,E =  . 
..
 .. 
 ..
.
.
.
. 
εn
1 x1n · · · xpn
βp
yn
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
16/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Skattningar Ex Intervall Kolinjäritet Polynomregression
Skattning av β och σ2
(Kap. 11.3)
MK-skattningar av β0 , . . . , βp (elementen i β) blir
V (β∗ ) = σ2 (X > X)−1
β∗ = (X > X)−1 X > Y
och skattning av σ2 är
s2 =
Q0
n − (p + 1)
där residualkvadratsumman ges av
Q0 =
n
X
i=1
yi − β0∗ − β1∗ x1i − . . . − βp∗ xpi
= Y > Y − β∗> X > Y
Johan Lindström - johanl@maths.lth.se
MapleTA Repetition Exponenter Residualanalys Multipel reg.
2
FMS086/MASB02 F8
17/27
Skattningar Ex Intervall Kolinjäritet Polynomregression
en.wikipedia.org/wiki/Ordinary_least_squares#/media/File:
OLS_geometric_interpretation.svg
Johan Lindström - johanl@maths.lth.se
MapleTA Repetition Exponenter Residualanalys Multipel reg.
FMS086/MASB02 F8
18/27
Skattningar Ex Intervall Kolinjäritet Polynomregression
Exempel: Antal frostdagar
I West Virginia har man under ett antal år mätt antalet
frostdagar på olika orter. Följande data har registrerats
Y: Medelantalet frostdagar per år.
x1 : Ortens höjd över havet (ft).
x2 Ortens nordlig breddgrad (◦ ).
Skatta parametrarna i modellen
y − Medelantal frostdagar
Yi = β0 + β1 x1i + β2 x2i + εi
80
80
70
70
60
60
50
50
40
40
30
30
20
10
20
0
1000
2000
3000
x1 − Höjd över havet
4000
Johan Lindström - johanl@maths.lth.se
10
37
38
39
40
x2 − Nordlig latitud
FMS086/MASB02 F8
41
19/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Skattningar Ex Intervall Kolinjäritet Polynomregression
Exempel: Antal frostdagar
För data fås följande värden:


−27.0
X > Y =  1.89 · 105 
Q0 = 1.7798 · 103
3
−1.07 · 10


1.59 · 102
−1.64 · 10−3
−4.06
(X > X)−1 = −1.64 · 10−3 9.14 · 10−8 3.91 · 10−5 
−4.06
3.91 · 10−5 1.03 · 10−1
Bestäm:
1. Skattningar av β.
2. Konfidensintervall för β1 .
Johan Lindström - johanl@maths.lth.se
MapleTA Repetition Exponenter Residualanalys Multipel reg.
FMS086/MASB02 F8
20/27
Skattningar Ex Intervall Kolinjäritet Polynomregression
Det anpassade regressionplanet mellan antalet frostdagar
och h.ö.h. samt latitud.
Johan Lindström - johanl@maths.lth.se
MapleTA Repetition Exponenter Residualanalys Multipel reg.
FMS086/MASB02 F8
21/27
Skattningar Ex Intervall Kolinjäritet Polynomregression
Konfidensintervall för βi
(Kap. 11.5)
Konfidensintervall för βi blir alltså
Iβi = βi∗ ± ta/2 (n − p − 1) · d(βi∗ )
Där d(βi∗ ) är
d(βi∗ ) = s ·
q
element(ii) i (X > X)−1
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
22/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Skattningar Ex Intervall Kolinjäritet Polynomregression
Skattning av punkt på ”planet”
(Kap. 11.4–11.5)
Y-s väntevärde i en punkt x10 x20 · · · xp0 ges nu av
μ∗Y (x 0 ) = β0∗ +
k
X
i=1
V(μ∗Y (x 0 ))
2
=σ ·x
0>
βi∗ xi0 .
X >X
Ett konfidensintervall för μY (x 0 ) blir
IμY (x0 ) =
μ∗Y (x 0 )
± ta/2 (n − p − 1) · s ·
−1
r
x0
x0.
>
X >X
−1
x0
För prediktionsintervallet fås, som tidigare, genom att lägga
till en etta under kvadratroten
r
−1
>
∗
0
IY(x0 ) = μY (x ) ± ta/2 (n − p − 1) · s · 1 + x 0 X > X
x0
Johan Lindström - johanl@maths.lth.se
MapleTA Repetition Exponenter Residualanalys Multipel reg.
FMS086/MASB02 F8
23/27
Skattningar Ex Intervall Kolinjäritet Polynomregression
Exempel: Antal frostdagar
För data fås följande värden:


−27.0
Q0 = 1.7798 · 103
X > Y =  1.89 · 105 
3
−1.07 · 10


1.5945 · 102
−1.6445 · 10−3
−4.0590
(X > X)−1 = −1.6445 · 10−3 9.1434 · 10−8 3.9094 · 10−5 
−4.0590
3.9094 · 10−5 1.0346 · 10−1
Skatta medelantalet frostdagar och ett
95%-konfidensintervall då x1 = 3 000 och x2 = 39.
Johan Lindström - johanl@maths.lth.se
MapleTA Repetition Exponenter Residualanalys Multipel reg.
FMS086/MASB02 F8
24/27
Skattningar Ex Intervall Kolinjäritet Polynomregression
Kolinjäritet (ex. två variabler)
(Kap. 11.6)
Man bör om möjligt välja sina (x1i , x2i )-värden så att de blir
utspridda i (x1 , x2 )-planet och inte klumpar ihop sig längs en
linje. Detta ger ”en mer stabil grund” åt regressionsplanet.
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
25/27
MapleTA Repetition Exponenter Residualanalys Multipel reg.
Skattningar Ex Intervall Kolinjäritet Polynomregression
Polynomregression
Om y är ett polynom av x, dvs vi har
Yi = β0 + β1 xi + β2 xi2 + . . . + βp xip + εi
och funktionen är linjär i βp .
Genom att samla polynomen av x

1 x1 x12
1 x2 x 2
2

X = . .
..
 .. ..
.
i en matris

· · · x1p
· · · x2p 

.
..
. .. 
1 xn xn2 · · · xnp
kan parametrar skattas på samma sätt som tidigare.
Johan Lindström - johanl@maths.lth.se
MapleTA Repetition Exponenter Residualanalys Multipel reg.
FMS086/MASB02 F8
Skattningar Ex Intervall Kolinjäritet Polynomregression
Förstagradsmodell
Förstagradsmodell
360
4
Residualer
CO2−halt
350
340
330
320
310
0
2
0
−2
−4
0
10
20
30
Tid [år]
Andragradsmodell
380
1
360
0.5
Residualer
CO2−halt
26/27
340
320
300
0
10
20
Tid [år]
30
10
20
30
1:n
Andragradsmodell
0
−0.5
−1
0
10
20
1:n
30
Linjär y = α + βx, och kvadratisk, y = β0 + β1 x + β2 x 2 ,
anpassning av årlig CO2 -halten vid Mauna Loa som funktion
av året (sedan 1960).
Johan Lindström - johanl@maths.lth.se
FMS086/MASB02 F8
27/27