Regressions- och Tidsserieanalys - F1

Transcription

Regressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1
Kap 3: Enkel linjär regression
Linda Wänström
Linköpings universitet
May 4, 2015
Wänström (Linköpings universitet)
F1
May 4, 2015
1 / 25
Regressions- och tidsserieanalys, 7.5 hp
Mål:
Tillägna sig metodik för att analysera samt tolka statistiska modeller
för samband mellan variabler och statistiska modeller för tidsseriedata .
Innehåll:
Enkel och multipel linjär regressionsanalys
Index
Efterfrågeanalysmodeller
Modeller för tidsseriedata
Analys av data med hjälp av statistisk programvara.
Wänström (Linköpings universitet)
F1
May 4, 2015
2 / 25
Regressions- och tidsserieanalys, 7.5 hp
Ansvarig lärare
Linda Wänström
linda.wanstrom@liu.se; rum i B-huset, plan 2 (ovanför JAVA)
Examination
Projekt
Del 1: Index och efterfrågeanalys
Del 2: Tidsserieanalys
Inlämning senast 5/6
Tenta
Onsdag 3/6 kl 8-12
Får ta med: boken (utan anteckningar), miniräknare samt ett eget
"formelblad" (A4-sida (fram och bak) där ni själva skriver formler och
annat ni tycker är viktigt)
Litteratur
Bowerman, O’Connel, Koehler & Brooks (2005) 4th ed. Forecasting,
time series, and regression. Brooks.
Wänström (Linköpings universitet)
F1
May 4, 2015
3 / 25
Exempel: IT bland individer 2013 (från SCB’s hemsida)
Det blir allt vanligare att hämta information från myndigheters
webbplatser.
Wänström (Linköpings universitet)
F1
May 4, 2015
4 / 25
Exempel: Detaljhandelns försäljning, september 2013 (från
SCB’s hemsida)
Försäljningsvolymen ökade med 1,6 procent i september jämfört med
samma månad förra året. Uppgifterna är kalenderkorrigerade.
Wänström (Linköpings universitet)
F1
May 4, 2015
5 / 25
Exempel: Samband mellan storlek och pris på lägenheter
Fitted Line Plot
Pris = - 1100 + 44,14 KVM
6000
S
R-Sq
R-Sq(adj)
5000
1208,14
36,4%
35,0%
Pris
4000
3000
2000
1000
0
40
50
Wänström (Linköpings universitet)
60
70
80
90
KVM
F1
100 110
120
130
May 4, 2015
6 / 25
Exempel
Antag att vi vill veta
om det …nns något samband mellan mängden lokalt inriktad annonsering
och företags försäljning
hur stor försäljning vi kan förvänta oss vid en annonsering på 20 000 kr
Wänström (Linköpings universitet)
F1
May 4, 2015
7 / 25
Enkel linjär regressionsmodell
y = beroende variabel, responsvariabel, undersökningsvariabel
x = oberoende variabel, prediktorvariabel, förklaringsvariabel
Modellen antar att sambandet mellan x och y kan approximeras med en rät
linje
Vi kan visuellt inspektera om sambandet ser linjärt ut genom att titta på ett
spridningsdiagram (scatter plot)
Wänström (Linköpings universitet)
F1
May 4, 2015
8 / 25
Exempel:
y = försäljning (milj kr), x = annonsering (10000 kr)
Distrikt
1
2
3
4
5
6
7
8
yi
5.4
3.8
10.6
5.2
4.5
2.7
2.5
4.5
xi
5
3
9
3.5
5
2
1.8
4.7
Wänström (Linköpings universitet)
F1
May 4, 2015
9 / 25
Spridningsdiagram
12
10
Försäljning
8
6
4
2
0
0
1
Wänström (Linköpings universitet)
2
3
4
5
Annonsering
F1
6
7
8
9
May 4, 2015
10 / 25
Enkel linjär regressionsmodell
y = β0 + β1 x + e
β0 + β1 x = µy jx är medelvärdet för den beroende variabeln y när värdet
på den oberoende variabeln är x
β0 är linjens skärning med y axeln
β1 är linjens lutning
e är en felterm
Wänström (Linköpings universitet)
F1
May 4, 2015
11 / 25
Minskakvadratskattningar för skärning och lutning
Vi tar ett stickprov på n värden på x och y för att beräkna skattningar b0
och b1
n
b1 =
SSxy
=
SSxx
∑ (xi
x ) (yi
i =1
n
i =1
n
∑ xi
n
i =1
∑ xi yi
=
!
n
∑ yi
i =1
=
!
n
i =1
n
∑ xi
n
i =1
∑ xi2
!2
n
i =1
b0 = y
Wänström (Linköpings universitet)
x )2
∑ (xi
y)
F1
b1 x
May 4, 2015
12 / 25
Spridningsdiagram med inritad skattad regressionslinje
12
10
Försäljning
8
6
4
2
0
0
1
Wänström (Linköpings universitet)
2
3
4
5
Annonsering
F1
6
7
8
9
May 4, 2015
13 / 25
Summan av de kvadrerade avvikelserna från linjen (SSE)
n
n
i =1
i =1
SSE = ∑ ei2 = ∑ (yi
Wänström (Linköpings universitet)
F1
ybi )2
May 4, 2015
14 / 25
Minitab-utskrift
Regression Analysis: Försäljning versus Annonsering
The regression equation is
Försäljning = 0,436 + 1,05 Annonsering
Predictor
Constant
Annonsering
Coef
0,4357
1,0504
S = 0,821147
SE Coef
0,6425
0,1349
R-Sq = 91,0%
T
0,68
7,79
P
0,523
0,000
R-Sq(adj) = 89,5%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
6
7
Wänström (Linköpings universitet)
SS
40,914
4,046
44,960
MS
40,914
0,674
F
60,68
F1
P
0,000
May 4, 2015
15 / 25
Uppskattningar och prognoser
Anpassad regressionslinje
yb = b0 + b1 x
yb är en punktskattning för medelvärdet för y när värdet på oberoende
variabeln är x.
yb är också en punktskattning för ett enskilt värde på y när värdet på
oberoende variabeln är x.
Wänström (Linköpings universitet)
F1
May 4, 2015
16 / 25
Modellantaganden
y = β0 + β1 x + e
För varje x-värde är medelvärdet för värdena på feltermen noll.
Konstant varians. För varje x-värde har värdena på feltermen en konstant
varians. Denna varians kallas för σ2 .
Normalfördelning. För varje x-värde följer värdena på feltermen en
normalfördelning.
Oberoende. Alla värden på feltermen är statistisk oberoende av alla andra
värden på feltermen.
Wänström (Linköpings universitet)
F1
May 4, 2015
17 / 25
Variansskattning: Mean Square Error och Standard Error
(Standardfel)
Om antagandena är uppfyllda och SSE är summan av de kvadrerade
avvikelserna från linjen gäller
Punktskattning för σ2 (MSE ) är
SSE
n 2
s2 =
Punktskattning för σ (Standardfel) är
s=
Wänström (Linköpings universitet)
p
F1
s2
May 4, 2015
18 / 25
Signi…kanstest för lutning och skärning
Test för lutning (om antagandena håller)
H0 : β 1 = 0
Ha : β 1 6 = 0
t=
b1
sb1 ,
där sb1 =
Förkasta H0 om jt j > t[α/2 ](n
ps
SS xx
2)
Test för skärning (om antagandena håller)
H0 : β 0 = 0
Ha : β 0 6 = 0
t=
b0
sb0 ,
där sb0 = s
Förkasta H0 om jt j > t[α/2 ](n
Wänström (Linköpings universitet)
2)
q
1
n
F1
+
x2
SS xx
May 4, 2015
19 / 25
Kon…densintervall för lutning
Om antagandena håller är ett 100(1 α)% kon…densintervall för den
sanna lutningen β1
h
i
b1 t[α/2 ](n 2 ) sb1
Wänström (Linköpings universitet)
F1
May 4, 2015
20 / 25
Distance value
Distancevalue =
Wänström (Linköpings universitet)
F1
1 (x0 x )2
+
n
SSxx
May 4, 2015
21 / 25
Kon…densintervall för medelvärdet för y vid ett speci…kt
x-värde
yb = b0 + b1 x0
Om antagandena är uppfyllda är ett 100(1 α)% kon…densitvervall för
µ y jx 0
h
i
p
yb t[α/2 ](n 2 ) s Distancevalue
Wänström (Linköpings universitet)
F1
May 4, 2015
22 / 25
Prognosintervall för ett värde på y vid ett speci…kt x-värde
yb = b0 + b1 x0
Om antagandena är uppfyllda är ett 100(1 α)% prognosintervall för y
vid x0
i
h
p
yb t[α/2 ](n 2 ) s 1 + Distancevalue
Wänström (Linköpings universitet)
F1
May 4, 2015
23 / 25
Förklaringsgrad: Determinationskoe¢ cienten
Total variation = Förklarad variation + Oförklarad variation
SST = SSR + SSE
n
∑ (yi
i =1
n
y )2 = ∑ (ybi
i =1
r2 =
Wänström (Linköpings universitet)
n
y )2 + ∑ (yi
i =1
SSR
SST
F1
ybi )2
May 4, 2015
24 / 25
Korrelationskoe¢ cienten
Ett mått på hur starkt sambandet mellan y och x är
Wänström (Linköpings universitet)
r
=
r
=
p
r2
SSxy
p
SSxx SSyy
F1
May 4, 2015
25 / 25