Teknillinen korkeakoulu

Transcription

Teknillinen korkeakoulu
MS-C2128 Ennustaminen ja aikasarja-analyysi
1. teoriaharjoitukset
MS-C2128 Ennustaminen ja aikasarja-analyysi
1. harjoitukset / Tehtävät
Kotitehtävät: 2, 5
Demotehtävät: 1, 3, 4
Aiheet:
Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli
Tehtävä 1.1.
Olkoon
yt =  + xt + t , t = 1, 2, … , n
tavanomainen yhden selittäjän lineaarinen regressiomalli.
(a)
Johda kertoimien  ja  pienimmän neliösumman (PNS-) estimaattorit.
(b)
Mikä on kertoimen  PNS-estimaattorin odotusarvo?
(c)
Mikä on kertoimen  PNS-estimaattorin varianssi?
Tehtävä 1.1. – Mitä opimme?
Tehtävässä tarkastellaan tavanomaisen yhden selittäjän lineaarisen regressiomallin eli
regressiosuoran regressiokertoimien PNS- (pienimmän neliösumman) estimointia.
Lisäksi tehtävässä johdetaan regressiosuoran kulmakertoimen estimaattorin odotusarvo
ja varianssi sekä tarkastellaan kysymystä siitä, miten selittäjän arvot kannattaa valita.
Oletamme, että mallia koskevat ns. standardioletukset pätevät.
Tehtävä 1.1. – Ratkaisu:
(a)
Johdetaan tavanomaisen yhden selittäjän lineaarisen regressiomallin
regressiokertoimien PNS-estimaattorit.
Olkoon
yt     xt  t , t  1,2, , n
tavanomainen yhden selittäjän lineaarinen regressiomalli.
Regressiokertoimet  ja  PNS-estimaattorit a ja b saadaan minimoimalla neliösumma
n
n
t 1
t 1
t2   ( yt     xt )2
kertoimien  ja  suhteen. Derivoidaan siksi neliösumma t2 kertoimien  ja  suhteen
ja merkitään derivaatat nolliksi, jolloin saadaan kahden yhtälön ja kahden
tuntemattoman ( ja ) lineaarinen yhtälöryhmä
(1)
(2)
1  n 2 n
 
 yt     xt   ny  n  n x  0
 t  
2  t 1
t 1
n
n
1  n 2 n
 


y




x
x

x
y

n

x


xt2  0


t 


t
t
t
t t
2  t 1
t 1
t 1
t 1
MS-C2128 Ennustaminen ja aikasarja-analyysi
1. teoriaharjoitukset
jossa
y
1 n
 yt
n t 1
x
1 n
 xt
n t 1
ovat y-muuttujan ja x-muuttujan havaittujen arvojen aritmeettiset keskiarvot.
Ratkaisuksi saadaan:
a  y  bx
s
br y
sx
Estimaattoreiden a ja b lausekkeet saadaan yo. yhtälöryhmästä seuraavilla
manipulaatioilla:
(i)
Ratkaistaan kerroin  kertoimen  funktiona yhtälöstä (1):
  y x
(ii)
Sijoitetaan   y   x yhtälöön (2), jolloin kertoimen  ratkaisuksi saadaan:
n
 b
 xt yt  n x y
t 1
n
x
t 1
2
t
n

 n x2
 ( x  x )( y  y )
t
t 1
t
n
(x  x )
t 1
2

sxy
s
s
s
 xy  y  r y
2
sx sx s y sx
sx
t
jossa
sy2 = muuttujan y havaittujen arvojen otosvarianssi
sx2 = muuttujan x havaittujen arvojen otosvarianssi
sxy = muuttujien y ja x havaittujen arvojen otoskovarianssi
r
= muuttujien y ja x havaittujen arvojen otoskorrelaatiokerroin
(iii) Sijoitetaan  = b yhtälöön (1), jolloin kertoimen  ratkaisuksi saadaan:
  a  y  bx
Siten estimoidun regressiosuoran yhtälö on
y  a  bx  y  b( x  x )
Yhtälöstä nähdään mm. se, että estimoitu regressiosuora kulkee aina havaintoaineiston
painopisteen ( x , y ) kautta.
(b)
Todistetaan, että
E(b) = 
jos yhden selittäjän lineaarisen regressiomallin jäännöstermiä koskevat standardioletukset (i)-(iii) pätevät. Siten regressiosuoran kulmakertoimen  PNS-estimaattori b
on standardioletuksien pätiessä harhaton parametrille .
Jäännöstermejä t , t = 1, 2, … , n koskevasta standardioletuksesta (i) seuraa, että
MS-C2128 Ennustaminen ja aikasarja-analyysi
1. teoriaharjoitukset
E( yt )  E(   xt  t )     xt  E(t )     xt , t  1,2, , n
Satunnaismuuttujan yt odotusarvo E(yt) muodostaa yhden selittäjän lineaarisen
regressiomallin rakenneosan. Merkitään rakenneosaa seuraavalla tavalla:
E( yt )     xt  t , t  1,2, , n
Jäännöstermejä t koskevista standardioletuksista (ii) ja (iii) seuraa, että
Cov( ys , yt )  E ( ys  E( ys ))( yt  E( yt ))
 E ( ys  s )( yt  t )
 E( s t )
0 , s  t
 Cov( s ,  t )   2
 , s  t
Siten satunnaismuuttujat (selitettävän muuttujan y havaitut arvot) yt ovat
korreloimattomia satunnaismuuttujia.
Todetaan seuraavaksi, että regressiokertoimen PNS-estimaattori b voidaan esittää
selitettävän muuttujan y havaittujen arvojen yt lineaarikombinaationa:
n
b
n
n
 x y  n x y  ( x  x )( y  y )  ( x  x ) y
t
t 1
t
n
x
t 1
2
t

t
t 1
t

n
 (x  x )
nx
2
t
t 1
t 1
n
t
i
 (x  x )
t 1
2
n
  vt yt
t 1
t
jossa painokertoimet
vt 
( xt  x )
, t  1, 2,
n
 (x  x )
t 1
,n
2
t
ovat ei-satunnaisia vakioita.
Regressiokerrointa b koskevaa tulosta johdettaessa on käytetty hyväksi sitä, että
n
n
n
t 1
t 1
t 1
 ( xt  x )( yt  y )   ( xt  x ) yt  ( xt  x ) y
n
n
t 1
t 1
  ( xt  x ) yt  y  ( xt  x )
n
  ( xt  x ) yt  y  0
t 1
n
  ( xt  x ) yt
t 1
koska
n
n
n
n
t 1
t 1
t 1
t 1
 ( xt  x )   xi   x   xt  nx  0
Koska odotusarvo E() on lineaarinen operaattori, niin
MS-C2128 Ennustaminen ja aikasarja-analyysi
1. teoriaharjoitukset
n
 n
 n
E(b)  E   vt yt    vt E( yt )   vt t
t 1
 t 1
 t 1
jossa siis
t  E( yt )     xt , t  1,2, , n
ja
vt 
( xt  x )
, t  1, 2,
n
 (x  x )
,n
2
t
t 1
Sijoittamalla saadaan
n
E(b) 
 ( xt  x )(   xt )
t 1
n
(x  x )
n

t 1
t 1
n
(x  x )
2
t
t 1
n
  ( xt  x )    ( xt  x ) xt
t 1
2
t
Koska
n
n
t 1
t 1
 ( xt  x )   xt  nx  0
ja
n
n
(x  x )x   x
t 1
t
t
t 1
n
n
n
t 1
t 1
t 1
 x  xt   xt2  nx 2   ( xt  x )2
2
t
saadaan lopulta tulokseksi
E(b) = 
(c)
Johdetaan regressiosuoran kulmakertoimen  PNS-estimaattorin b varianssi, kun
oletamme, että mallia koskevat standardioletukset pätevät.
Estimaattorin b varianssiksi saadaan
2
Var(b) 
n
 x  x 
t 1
2
t
Käytämme hyväksi sitä, että regressiokertoimen  PNS-estimaattori b voidaan esittää
selitettävän muuttujan y havaittujen arvojen yt lineaarikombinaationa (ks. (b)-kohtaa):
n
b
(x  x ) y
t 1
n
t
i
(x  x )
t 1
t
jossa painokertoimet
2
n
  vt yt
t 1
MS-C2128 Ennustaminen ja aikasarja-analyysi
vt 
( xt  x )
, t  1, 2,
n
 (x  x )
t 1
1. teoriaharjoitukset
,n
2
t
ovat ei-satunnaisia vakioita.
Todetaan ensin, että
 n
 n
Var(b)  Var   vt yt    vt2 Var( yt )
 t 1
 t 1
koska (b)-kohdan mukaan satunnaismuuttujat yt ovat korreloimattomia.
Edelleen (b)-kohdan mukaan
Var( yt )   2 , t  1, 2,
,n
Siten
n
n
n
t 1
t 1
Var(b)   vt2 Var( yt )   2  vt2   2
(x  x )
t 1
2
t
 n
2
 ( xt  x ) 
 t 1

2

2
n
(x  x )
t 1
2
t
Tehtävä 1.2.
Tarkastellaan yhden selittäjän lineaarisia regressiomalleja
yt =  + xt + t , t = 1, 2, … , n
ja
xt = * + *yt + t* , t = 1, 2, … , n
Olkoot kertoimien  ja * PNS-estimaattorit b ja b*.
(a)
Todista, että
bb* = r2
jossa r on havaintojen (xt, yt), t = 1, 2, … , n otoskorrelaatiokerroin
(b)
Todista, että
b
1
b*
täsmälleen silloin, kun r = 1.
(c)
Näytä että:
Σ(𝑒) = 𝜎 2 𝑀 = 𝜎 2 (𝐼 − 𝑋(𝑋 𝑇 𝑋)−1 𝑋 𝑇 ),
Missä Σ(e) on residuaali-vektorin (e = y –Xb) kovarianssimatriisi. Vektorin b
odotusarvo oletetaan tunnetuksi ( katso tehtävä 1.4a).
MS-C2128 Ennustaminen ja aikasarja-analyysi
1. teoriaharjoitukset
Tehtävä 1.3.
Olkoon
y = X + 
yleinen lineaarinen malli, joka toteuttaa ns. standardioletukset. Todista, että regressiokertoimien vektorin  pienimmän neliösumman (PNS-) estimaattori on
b = (X´X)1X´y
Tehtävä 1.3. – Mitä opimme?
Tehtävässä tarkastellaan yleisen lineaarisen mallin regressiokertoimien muodostaman
vektorin PNS-estimointia. Oletamme, että mallia koskevat ns. standardioletukset
pätevät.
Tehtävä 1.3. – Ratkaisu:
Muodostetaan neliösumma
f() = ´ = (y  X)´(y  X) = y´y  2´X´y + ´X´X
(PNS-) estimaattori regressiokertoimien vektorille  saadaan minimoimalla neliösumma f()
vektorin  suhteen.
Derivoidaan f() vektorin :n suhteen ja merkitään derivaatta nollaksi:
f´´() = 2X´y + 2X´X = 0
Koska X on oletettu täysiasteiseksi eli r(X) = k + 1, niin matriisi X´X on epäsingulaarinen ja 
voidaan ratkaista tästä normaaliyhtälöstä. Ratkaisuna saadaan vektorin  PNS-estimaattori
b = (X´X)1X´y
Ratkaisu antaa funktion f() minimin, koska X´X on aina positiivisesti definiitti matriisi, ja
f´´´() = 2X´X
Tehtävä 1.4.
Olkoon
y = X +  , X on matriisi kokoa n(k+1)
yleinen lineaarinen malli, joka toteuttaa ns. standardioletukset ja olkoon regressiokertoimien
vektorin  PNS-estimaattori
b = (X´X)1X´y
Todista:
(a)
b on harhaton eli E(b) = 
(b)
Cov(b) = 2(X´X)1
Tehtävä 1.4. – Mitä opimme?
Tehtävässä tarkastellaan yleisen lineaarisen mallin regressiokertoimien muodostaman
vektorin PNS-estimaattorin stokastisia ominaisuuksia. Oletamme, että mallia koskevat
ns. standardioletukset pätevät.
MS-C2128 Ennustaminen ja aikasarja-analyysi
1. teoriaharjoitukset
Tehtävä 1.4. – Ratkaisu:
Olkoon
y = X +  , X on matriisi kokoa: n(k+1)
yleinen lineaarinen malli, joka toteuttaa ns. standardioletukset.
Todetaan aluksi, että regressiokertoimien vektorin  PNS-estimaattorin b lauseke voidaan
kirjoittaa seuraavaan muotoon:
b = (X´X)1X´y = (X´X)1X´(X + ) =  + (X´X)1X´
(a)
Koska regressiokertoimien vektori ja  ja matriisi X ovat ei-satunnaisia, niin
E(b) = E() + (X´X)1X´E() =  + (X´X)1X´0 = 
(b)
Kohdasta (a) seuraa, että
b  E(b) = b   = (X´X)1X´
Koska matriisi X on ei-satunnainen, niin
Cov(b) = E[(b  E(b))((b  E(b))´]
= E[(X´X)1X´´X(X´X)1]
= (X´X)1X´E(´)X(X´X)1
= (X´X)1X´( 2I)X(X´X)1
=  2(X´X)1X´X(X´X)1
=  2(X´X)1
Tehtävä 1.5.
Kirjoita noin yhden A4 pituinen esseee aiheesta aikasarjat ja niiden sovellukset.