Teknillinen korkeakoulu
Transcription
Teknillinen korkeakoulu
MS-C2128 Ennustaminen ja aikasarja-analyysi 1. teoriaharjoitukset MS-C2128 Ennustaminen ja aikasarja-analyysi 1. harjoitukset / Tehtävät Kotitehtävät: 2, 5 Demotehtävät: 1, 3, 4 Aiheet: Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli Tehtävä 1.1. Olkoon yt = + xt + t , t = 1, 2, … , n tavanomainen yhden selittäjän lineaarinen regressiomalli. (a) Johda kertoimien ja pienimmän neliösumman (PNS-) estimaattorit. (b) Mikä on kertoimen PNS-estimaattorin odotusarvo? (c) Mikä on kertoimen PNS-estimaattorin varianssi? Tehtävä 1.1. – Mitä opimme? Tehtävässä tarkastellaan tavanomaisen yhden selittäjän lineaarisen regressiomallin eli regressiosuoran regressiokertoimien PNS- (pienimmän neliösumman) estimointia. Lisäksi tehtävässä johdetaan regressiosuoran kulmakertoimen estimaattorin odotusarvo ja varianssi sekä tarkastellaan kysymystä siitä, miten selittäjän arvot kannattaa valita. Oletamme, että mallia koskevat ns. standardioletukset pätevät. Tehtävä 1.1. – Ratkaisu: (a) Johdetaan tavanomaisen yhden selittäjän lineaarisen regressiomallin regressiokertoimien PNS-estimaattorit. Olkoon yt xt t , t 1,2, , n tavanomainen yhden selittäjän lineaarinen regressiomalli. Regressiokertoimet ja PNS-estimaattorit a ja b saadaan minimoimalla neliösumma n n t 1 t 1 t2 ( yt xt )2 kertoimien ja suhteen. Derivoidaan siksi neliösumma t2 kertoimien ja suhteen ja merkitään derivaatat nolliksi, jolloin saadaan kahden yhtälön ja kahden tuntemattoman ( ja ) lineaarinen yhtälöryhmä (1) (2) 1 n 2 n yt xt ny n n x 0 t 2 t 1 t 1 n n 1 n 2 n y x x x y n x xt2 0 t t t t t t 2 t 1 t 1 t 1 t 1 MS-C2128 Ennustaminen ja aikasarja-analyysi 1. teoriaharjoitukset jossa y 1 n yt n t 1 x 1 n xt n t 1 ovat y-muuttujan ja x-muuttujan havaittujen arvojen aritmeettiset keskiarvot. Ratkaisuksi saadaan: a y bx s br y sx Estimaattoreiden a ja b lausekkeet saadaan yo. yhtälöryhmästä seuraavilla manipulaatioilla: (i) Ratkaistaan kerroin kertoimen funktiona yhtälöstä (1): y x (ii) Sijoitetaan y x yhtälöön (2), jolloin kertoimen ratkaisuksi saadaan: n b xt yt n x y t 1 n x t 1 2 t n n x2 ( x x )( y y ) t t 1 t n (x x ) t 1 2 sxy s s s xy y r y 2 sx sx s y sx sx t jossa sy2 = muuttujan y havaittujen arvojen otosvarianssi sx2 = muuttujan x havaittujen arvojen otosvarianssi sxy = muuttujien y ja x havaittujen arvojen otoskovarianssi r = muuttujien y ja x havaittujen arvojen otoskorrelaatiokerroin (iii) Sijoitetaan = b yhtälöön (1), jolloin kertoimen ratkaisuksi saadaan: a y bx Siten estimoidun regressiosuoran yhtälö on y a bx y b( x x ) Yhtälöstä nähdään mm. se, että estimoitu regressiosuora kulkee aina havaintoaineiston painopisteen ( x , y ) kautta. (b) Todistetaan, että E(b) = jos yhden selittäjän lineaarisen regressiomallin jäännöstermiä koskevat standardioletukset (i)-(iii) pätevät. Siten regressiosuoran kulmakertoimen PNS-estimaattori b on standardioletuksien pätiessä harhaton parametrille . Jäännöstermejä t , t = 1, 2, … , n koskevasta standardioletuksesta (i) seuraa, että MS-C2128 Ennustaminen ja aikasarja-analyysi 1. teoriaharjoitukset E( yt ) E( xt t ) xt E(t ) xt , t 1,2, , n Satunnaismuuttujan yt odotusarvo E(yt) muodostaa yhden selittäjän lineaarisen regressiomallin rakenneosan. Merkitään rakenneosaa seuraavalla tavalla: E( yt ) xt t , t 1,2, , n Jäännöstermejä t koskevista standardioletuksista (ii) ja (iii) seuraa, että Cov( ys , yt ) E ( ys E( ys ))( yt E( yt )) E ( ys s )( yt t ) E( s t ) 0 , s t Cov( s , t ) 2 , s t Siten satunnaismuuttujat (selitettävän muuttujan y havaitut arvot) yt ovat korreloimattomia satunnaismuuttujia. Todetaan seuraavaksi, että regressiokertoimen PNS-estimaattori b voidaan esittää selitettävän muuttujan y havaittujen arvojen yt lineaarikombinaationa: n b n n x y n x y ( x x )( y y ) ( x x ) y t t 1 t n x t 1 2 t t t 1 t n (x x ) nx 2 t t 1 t 1 n t i (x x ) t 1 2 n vt yt t 1 t jossa painokertoimet vt ( xt x ) , t 1, 2, n (x x ) t 1 ,n 2 t ovat ei-satunnaisia vakioita. Regressiokerrointa b koskevaa tulosta johdettaessa on käytetty hyväksi sitä, että n n n t 1 t 1 t 1 ( xt x )( yt y ) ( xt x ) yt ( xt x ) y n n t 1 t 1 ( xt x ) yt y ( xt x ) n ( xt x ) yt y 0 t 1 n ( xt x ) yt t 1 koska n n n n t 1 t 1 t 1 t 1 ( xt x ) xi x xt nx 0 Koska odotusarvo E() on lineaarinen operaattori, niin MS-C2128 Ennustaminen ja aikasarja-analyysi 1. teoriaharjoitukset n n n E(b) E vt yt vt E( yt ) vt t t 1 t 1 t 1 jossa siis t E( yt ) xt , t 1,2, , n ja vt ( xt x ) , t 1, 2, n (x x ) ,n 2 t t 1 Sijoittamalla saadaan n E(b) ( xt x )( xt ) t 1 n (x x ) n t 1 t 1 n (x x ) 2 t t 1 n ( xt x ) ( xt x ) xt t 1 2 t Koska n n t 1 t 1 ( xt x ) xt nx 0 ja n n (x x )x x t 1 t t t 1 n n n t 1 t 1 t 1 x xt xt2 nx 2 ( xt x )2 2 t saadaan lopulta tulokseksi E(b) = (c) Johdetaan regressiosuoran kulmakertoimen PNS-estimaattorin b varianssi, kun oletamme, että mallia koskevat standardioletukset pätevät. Estimaattorin b varianssiksi saadaan 2 Var(b) n x x t 1 2 t Käytämme hyväksi sitä, että regressiokertoimen PNS-estimaattori b voidaan esittää selitettävän muuttujan y havaittujen arvojen yt lineaarikombinaationa (ks. (b)-kohtaa): n b (x x ) y t 1 n t i (x x ) t 1 t jossa painokertoimet 2 n vt yt t 1 MS-C2128 Ennustaminen ja aikasarja-analyysi vt ( xt x ) , t 1, 2, n (x x ) t 1 1. teoriaharjoitukset ,n 2 t ovat ei-satunnaisia vakioita. Todetaan ensin, että n n Var(b) Var vt yt vt2 Var( yt ) t 1 t 1 koska (b)-kohdan mukaan satunnaismuuttujat yt ovat korreloimattomia. Edelleen (b)-kohdan mukaan Var( yt ) 2 , t 1, 2, ,n Siten n n n t 1 t 1 Var(b) vt2 Var( yt ) 2 vt2 2 (x x ) t 1 2 t n 2 ( xt x ) t 1 2 2 n (x x ) t 1 2 t Tehtävä 1.2. Tarkastellaan yhden selittäjän lineaarisia regressiomalleja yt = + xt + t , t = 1, 2, … , n ja xt = * + *yt + t* , t = 1, 2, … , n Olkoot kertoimien ja * PNS-estimaattorit b ja b*. (a) Todista, että bb* = r2 jossa r on havaintojen (xt, yt), t = 1, 2, … , n otoskorrelaatiokerroin (b) Todista, että b 1 b* täsmälleen silloin, kun r = 1. (c) Näytä että: Σ(𝑒) = 𝜎 2 𝑀 = 𝜎 2 (𝐼 − 𝑋(𝑋 𝑇 𝑋)−1 𝑋 𝑇 ), Missä Σ(e) on residuaali-vektorin (e = y –Xb) kovarianssimatriisi. Vektorin b odotusarvo oletetaan tunnetuksi ( katso tehtävä 1.4a). MS-C2128 Ennustaminen ja aikasarja-analyysi 1. teoriaharjoitukset Tehtävä 1.3. Olkoon y = X + yleinen lineaarinen malli, joka toteuttaa ns. standardioletukset. Todista, että regressiokertoimien vektorin pienimmän neliösumman (PNS-) estimaattori on b = (X´X)1X´y Tehtävä 1.3. – Mitä opimme? Tehtävässä tarkastellaan yleisen lineaarisen mallin regressiokertoimien muodostaman vektorin PNS-estimointia. Oletamme, että mallia koskevat ns. standardioletukset pätevät. Tehtävä 1.3. – Ratkaisu: Muodostetaan neliösumma f() = ´ = (y X)´(y X) = y´y 2´X´y + ´X´X (PNS-) estimaattori regressiokertoimien vektorille saadaan minimoimalla neliösumma f() vektorin suhteen. Derivoidaan f() vektorin :n suhteen ja merkitään derivaatta nollaksi: f´´() = 2X´y + 2X´X = 0 Koska X on oletettu täysiasteiseksi eli r(X) = k + 1, niin matriisi X´X on epäsingulaarinen ja voidaan ratkaista tästä normaaliyhtälöstä. Ratkaisuna saadaan vektorin PNS-estimaattori b = (X´X)1X´y Ratkaisu antaa funktion f() minimin, koska X´X on aina positiivisesti definiitti matriisi, ja f´´´() = 2X´X Tehtävä 1.4. Olkoon y = X + , X on matriisi kokoa n(k+1) yleinen lineaarinen malli, joka toteuttaa ns. standardioletukset ja olkoon regressiokertoimien vektorin PNS-estimaattori b = (X´X)1X´y Todista: (a) b on harhaton eli E(b) = (b) Cov(b) = 2(X´X)1 Tehtävä 1.4. – Mitä opimme? Tehtävässä tarkastellaan yleisen lineaarisen mallin regressiokertoimien muodostaman vektorin PNS-estimaattorin stokastisia ominaisuuksia. Oletamme, että mallia koskevat ns. standardioletukset pätevät. MS-C2128 Ennustaminen ja aikasarja-analyysi 1. teoriaharjoitukset Tehtävä 1.4. – Ratkaisu: Olkoon y = X + , X on matriisi kokoa: n(k+1) yleinen lineaarinen malli, joka toteuttaa ns. standardioletukset. Todetaan aluksi, että regressiokertoimien vektorin PNS-estimaattorin b lauseke voidaan kirjoittaa seuraavaan muotoon: b = (X´X)1X´y = (X´X)1X´(X + ) = + (X´X)1X´ (a) Koska regressiokertoimien vektori ja ja matriisi X ovat ei-satunnaisia, niin E(b) = E() + (X´X)1X´E() = + (X´X)1X´0 = (b) Kohdasta (a) seuraa, että b E(b) = b = (X´X)1X´ Koska matriisi X on ei-satunnainen, niin Cov(b) = E[(b E(b))((b E(b))´] = E[(X´X)1X´´X(X´X)1] = (X´X)1X´E(´)X(X´X)1 = (X´X)1X´( 2I)X(X´X)1 = 2(X´X)1X´X(X´X)1 = 2(X´X)1 Tehtävä 1.5. Kirjoita noin yhden A4 pituinen esseee aiheesta aikasarjat ja niiden sovellukset.