Monimuuttujamenetelmät: Yhden selittäjän lineaarinen regressiomalli
Transcription
Monimuuttujamenetelmät: Yhden selittäjän lineaarinen regressiomalli
Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Monimuuttujamenetelmät: Yhden selittäjän lineaarinen regressiomalli Ilkka Mellin 1. Yhden selittäjän lineaarinen regressiomalli, sen estimointi ja testaus 1.1. Yhden selittäjän lineaarinen regressiomalli ja mallia koskevat oletukset 1.2. Yhden selittäjän lineaarisen regressiomallin parametrien estimointi 1.3. Yhden selittäjän lineaarisen regressiomallin regressiokertoimia koskevat testit 2. Ennustaminen yhden selittäjän lineaarisella regressiomallilla 2.1. Ennustamistehtävä 2.2. Selitettävän muuttujan odotettavissa olevan arvon ennustaminen 2.3. Selitettävän muuttujan arvon ennustaminen 3. Yhden selittäjän lineaarinen regressiomalli ja stokastinen selittäjä 3.1. 3.2. 3.3. 3.4. Stokastisen selittäjän ongelma Ehdollistaminen Regressiomalleja on kaksi Korrelaation olemassaolon testaaminen TKK © Ilkka Mellin (2007) 1/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Monimuuttujamenetelmät: Yhden selittäjän lineaarinen regressiomalli 1. Yhden selittäjän lineaarinen regressiomalli, sen estimointi ja testaus 1.1. Yhden selittäjän lineaarinen regressiomalli ja mallia koskevat oletukset SELITTÄVÄ MUUTTUJA JA SEN ARVOJA KOSKEVAT OLETUKSET JÄÄNNÖSTERMIT JA NIITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMEJÄ KOSKEVIEN OLETUKSIEN TULKINTA SELITETTÄVÄ MUUTTUJA JA SEN ARVOJEN STOKASTISET OMINAISUUDET MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA REGRESSIOSUORA REGRESSIOKERTOIMET JA NIITÄ KOSKEVAT OLETUKSET VAKIOPARAMETRISUUSOLETUS REGRESSIOSUORAN KULMAKERTOIMEN TULKINTA MALLIN PARAMETRIT YHDEN SELITTÄJÄN LINEAARISTA REGRESSIOMALLIA KOSKEVAT STANDARDIOLETUKSET 1.2. Yhden selittäjän lineaarisen regressiomallin parametrien estimointi REGRESSIOKERTOIMIEN PNS-ESTIMAATTORIT REGRESSIOKERTOIMIEN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORIT ESTIMOITU REGRESSIOSUORA REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN STOKASTISET OMINAISUUDET SOVITTEET RESIDUAALIT SOVITTEIDEN JA RESIDUAALIEN OMINAISUUDET JÄÄNNÖSVARIANSSIN HARHATON ESTIMAATTORI JÄÄNNÖSVARIANSSIN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORI REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN VARIANSSIEN ESTIMOINTI REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIT VARIANSSIANALYYSIHAJOTELMA VARIANSSIANALYYSIHAJOTELMAN TULKINTA SELITYSASTE SELITYSASTEEN OMINAISUUDET 1.3. Yhden selittäjän lineaarisen regressiomallin regressiokertoimia koskevat testit TESTIT REGRESSIOKERTOIMILLE TESTI REGRESSIOSUORAN KULMAKERTOIMELLE TESTI REGRESSIOSUORAN VAKIOLLE REGRESSION OLEMASSAOLON TESTAAMINEN TKK © Ilkka Mellin (2007) 2/32 Monimuuttujamenetelmät 2. Yhden selittäjän lineaarinen regressiomalli Ennustaminen yhden selittäjän lineaarisella regressiomallilla 2.1. Ennustamistehtävä OLETUKSET ENNUSTAMISTEHTÄVÄ 2.2. Selitettävän muuttujan odotettavissa olevan arvon ennustaminen ENNUSTE ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI 2.3. Selitettävän muuttujan arvon ennustaminen ENNUSTE ENNUSTEVIRHE ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI 3. Yhden selittäjän lineaarinen regressiomalli ja stokastinen selittäjä 3.1. Stokastisen selittäjän ongelma EHDOLLINEN ODOTUSARVO KIINTEÄT JA SATUNNAISET SELITTÄJÄT MALLI REGRESSIOFUNKTIO 3.2. Ehdollistaminen MODIFIOIDUT STANDARDIOLETUKSET 3.3. Regressiomalleja on kaksi KAKSI REGRESSIOMALLIA PARAMETRIEN ESTIMOINTI 3.4. Korrelaation olemassaolon testaaminen TESTI KORRELAATIOLLE TKK © Ilkka Mellin (2007) 3/32 Monimuuttujamenetelmät TKK Yhden selittäjän lineaarinen regressiomalli © Ilkka Mellin (2007) 4/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli 1. Yhden selittäjän lineaarinen regressiomalli, sen estimointi ja testaus 1.1. Yhden selittäjän lineaarisen regressiomalli ja mallia koskevat oletukset Yhden selittäjän lineaarisessa regressiomallissa yt = β 0 + β1 xt + ε t , t = 1, 2,… , n (1) on seuraavat osat: yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t xt = selittävän muuttujan eli selittäjän x kiinteä (ei-satunnainen) ja havaittu arvo havainnossa t β0 = vakioselittäjän regressiokerroin, kiinteä (ei-satunnainen) ja tuntematon vakio β1 = selittäjän x regressiokerroin, kiinteä (ei-satunnainen) ja tuntematon vakio εt = jäännöstermin ε satunnainen ja ei-havaittu arvo havainnossa t Malli (1) kuvaa selitettävän muuttujan y havaittujen arvojen yt lineaarista riippuvuutta selittävän muuttujan eli selittäjän x havaituista arvoista xt . Mallin tavoitteena on selittää selitettävän muuttujan y havaittujen arvojen vaihtelu selittävän muuttujan x havaittujen arvojen vaihtelun avulla. Huomautus 1: Mallin (1) lineaarisuudella tarkoitetaan sitä, että malli on lineaarinen regressiokertoimien β0 ja β1 suhteen, mutta on syytä huomata, että malli on lineaarinen myös selittäjän x arvojen suhteen. Huomautus 2: Selitettävä muuttuja y oletetaan mitta-asteikollisilta ominaisuuksiltaan jatkuvaksi. Huomautus 3: Kerroin β0 on vakioselittäjän (selittäjän, jonka jokainen havaintoarvo = 1) regressiokerroin. Vakioselittäjä ei ole samassa mielessä aito selittäjä kuin muuttuja x. Huomautus 4: Mallin (1) estimointia koskevat tulokset eivät välttämättä päde tässä esitettävässä muodossa, jos mallissa ei ole vakioselittäjää. Selittävä muuttuja ja sen arvoja koskevat oletukset Yhden selittäjän lineaarisen regressiomallin (1) yt = β 0 + β1 xt + ε t , t = 1, 2,… , n selittävän muuttujan x havaitut arvot xt oletetaan kiinteiksi eli ei-satunnaisiksi. Tiukasti ottaen oletus voi päteä vain sellaisissa tilanteissa, joissa selittäjän arvot valitaan. Tietyin TKK © Ilkka Mellin (2007) 5/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli ehdoin selittävän muuttujan satunnaisuudella ei kuitenkaan ole vaikutusta jatkossa esitettäviin tuloksiin; ks. kappaletta 3. Usean selittäjän lineaarisen regressiomallin selittäjien arvoja koskeva oletus, joka takaa sen, että regressiokertoimilla on yksikäsitteiset pienimmän neliösumman estimaattorit, saa yhden selittäjän lineaarisen regressiomallin (1) tapauksessa seuraavan muodon: Selittäjän x arvot xt eivät saa olla yhtä suuria. Jäännöstermit ja niitä koskevat oletukset Yhden selittäjän lineaarisen regressiomallin (1) yt = β 0 + β1 xt + ε t , t = 1, 2,… , n jäännöstermit εt ovat ei-havaittuja satunnaismuuttujia. Jäännöstermeistä εt tehdään seuraavat oletukset: (2) E(εt) = 0 , t = 1, 2, … , n (3) D2(εt) = σ 2 , t = 1, 2, … , n (4) Cov(εs, εt) = 0 , jos s ≠ t Jos lisäksi oletetaan, että jäännöstermit εt noudattavat normaalijakaumaa, niin oletuksista (2) ja (3) seuraa, että (5) εt ∼ N(0, σ 2) , t = 1, 2, … , n Jäännöstermejä koskevien oletuksien tulkinta Oletuksen (2) mukaan kaikilla jäännöstermeillä εt on sama odotusarvo: E(εt) = 0, t = 1, 2, … , n Siten jäännöstermit εt vaihtelevat satunnaisesti havainnosta toiseen, mutta nollan ympärillä. Oletuksen (3) mukaan kaikilla jäännöstermeillä εt on sama varianssi: D2(εt) = σ 2 , t = 1, 2, … , n Tätä oletusta kutsutaan homoskedastisuusoletukseksi. Jos jäännöstermien εt varianssi vaihtelee havainnosta toiseen, jäännöstermit ovat heteroskedastisia. Jäännöstermien yhteistä varianssia σ 2 kutsutaan mallin jäännösvarianssiksi. Oletuksen (4) mukaan jäännöstermit ovat korreloimattomia. Selitettävä muuttuja ja sen arvojen stokastiset ominaisuudet Yhden selittäjän lineaarisen regressiomallin (1) yt = β 0 + β1 xt + ε t , t = 1, 2,… , n selitettävän muuttujan y havaitut arvot yt ovat satunnaisia. Jäännöstermeistä εt edellä tehdyistä oletuksista (2)-(4) ja siitä, että selittäjä x on oletettu ei-satunnaiseksi seuraa, että selitettävän muuttujan y havaituilla arvoilla yt on seuraavat stokastiset ominaisuudet: TKK (2)´ E(yt) = β0 + β1xt , t = 1, 2, … , n (3)´ D2(yt) = σ 2 , t = 1, 2, … , n (4)´ Cov(ys, yt) = 0 , jos s ≠ t © Ilkka Mellin (2007) 6/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Jos jäännöstermit εt noudattavat normaalijakaumaa, niin myös selitettävän muuttujan y havaitut arvot yt noudattavat normaalijakaumaa: yt ∼ N(E(yt), σ 2) , t = 1, 2, … , n (5)´ Mallin systemaattinen osa ja satunnainen osa Jäännöstermeistä εt tehdyistä oletuksista ja siitä, että selittäjä x on oletettu ei-satunnaisiksi seuraa, että yhden selittäjän lineaarinen regressiomalli yt = β 0 + β1 xt + ε t , t = 1, 2,… , n (1) voidaan kirjoittaa muotoon yt = E(yt) + εt , t = 1, 2, … , n jossa odotusarvo E(yt) = β0 + β1xt , t = 1, 2, … , n on vakio, joka riippuu selittäjän x saamasta arvosta havainnossa t ja jäännöstermi εt , t = 1, 2, … , n on satunnaismuuttuja, joka ei riipu selittäjän x saamasta arvosta havainnossa t. Siten yhden selittäjän lineaarisen regressiomallin (1) selitettävän muuttujan y saamat arvot yt on esitetty kahden osatekijän summana, jossa osatekijää E(yt) = β0 + β1xt , t = 1, 2, … , n kutsutaan mallin systemaattiseksi (tai selittäjän x arvoista riippuvaksi) osaksi ja osatekijää εt , t = 1, 2, … , n kutsutaan mallin satunnaiseksi (tai selittäjän x arvoista riippumattomaksi) osaksi. Systemaattinen osa E(yt) on lineaarinen sekä regressiokertoimien β0 ja β1 että selittäjän x arvojen suhteen. Regressiosuora Yhden selittäjän lineaarisen regressiomallin yt = β 0 + β1 xt + ε t , t = 1, 2,… , n (1) systemaattinen osa E(yt) = β0 + β1xt , t = 1, 2, … , n määrittelee suoran y = β0 + β1x avaruudessa 2 . Mallin systemaattisen osan määrittelemää suoraa kutsutaan regressiosuoraksi. Selittävän muuttujan x regressiokerroin β1 on suoran kulmakerroin ja vakioselittäjän regressiokerroin β0 on suoran ja y-akselin leikkauspiste. Jäännösvarianssi σ 2 mittaa selitettävän muuttujan arvojen vaihtelua regressiosuoran ympärillä. TKK © Ilkka Mellin (2007) 7/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Regressiokertoimet ja niitä koskevat oletukset Yhden selittäjän lineaarisen regressiomallin yt = β 0 + β1 xt + ε t , t = 1, 2,… , n (1) regressiokertoimet β0 ja β1 ovat ei-satunnaisia ja tuntemattomia vakioita. Vakioparametrisuusoletus Kun yhden selittäjän lineaarinen regressiomalli esitetään muodossa (1) yt = β0 + β1xt + εt , t = 1, 2, … , n oletetaan implisiittisesti, että regressiokertoimet β0 ja β1 ovat samat kaikille havainnoille t. Tätä oletusta kutsutaan vakioparametrisuusoletukseksi. Regressiosuoran kulmakertoimen tulkinta Oletetaan, että selittävällä muuttujalla x on vakioarvo x . Tällöin yhden selittäjän lineaarisen regressiomallin yt = β 0 + β1 xt + ε t , t = 1, 2,… , n (1) systemaattisella osalla E(yt) = β0 + β1xt on vakioarvo y = E( y ) = β 0 + β1 x Oletetaan, että selitettävän muuttujan x arvo x kasvaa yhdellä yksiköllä: x → x +1 Tällöin selitettävän muuttujan y saaman arvon systemaattinen osa y = E( y ) muuttuu regressiokertoimen β1 verran: y → y + β1 Siten regressiokerroin β1 kertoo paljonko sitä vastaavan selittäjän x arvossa tapahtuva yksikön kokoinen lisäys muuttaa selitettävän muuttujan y saaman arvon systemaattista osaa. Mallin parametrit Yhden selittäjän lineaarisen regressiomallin (1) parametreja ovat regressiokertoimet β0 ja β1 sekä jäännösvarianssi σ 2. Yhden selittäjän lineaarisen regressiomallin standardioletukset Yhden selittäjän lineaarisessa regressiomallissa (1) yt = β0 + β1xt + εt , t = 1, 2, … , n on seuraavat osat: yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t xt = selittäjän x ei-satunnainen ja havaittu arvo havainnossa t β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin β1 = selittäjän x ei-satunnainen ja tuntematon regressiokerroin TKK © Ilkka Mellin (2007) 8/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli εt = satunnainen ja ei-havaittu jäännöstermi Seuraavia oletuksia kutsutaan yhden selittäjän lineaarisen regressiomallin (1) standardioletuksiksi: (i) Selittäjän x havaitut arvot xt ovat ei-satunnaisia, t = 1, 2, … , n (ii) Selittäjän x havaitut arvot xt eivät ole yhtä suuria, t = 1, 2, … , n (iii) E(εt) = 0 , t = 1, 2, … , n (iv) D2(εt) = σ 2 , t = 1, 2, … , n (v) Cov(εs, εt) = 0 , jos s ≠ t Usein oletuksiin (i)-(v) liitetään vielä jäännöstermejä εt koskeva normaalisuusoletus: (vi) εt ∼ N(0, σ 2) , t = 1, 2, … , n Lisätietoja (mm. todistukset) yhden selittäjän lineaarisesta regressiomallista: ks. monistetta Tilastolliset menetelmät. Usean selittäjän lineaarista regressiomallia eli yleistä lineaarista mallia käsitellään luvussa Yleinen lineaarinen malli. 1.2. Yhden selittäjän lineaarisen regressiomallin parametrien estimointi Regressiokertoimien PNS-estimaattorit Yhden selittäjän lineaarisen regressiomallin (1) yt = β0 + β1xt + εt , t = 1, 2, … , n regressiokertoimet β0 ja β1 estimoidaan tavallisesti pienimmän neliösumman (PNS-) menetelmällä. Pienimmän neliösumman menetelmässä jäännöstermien εt neliösumma n n t =1 t =1 ∑ ε t2 = ∑ ( yt − β0 − β1 xt )2 minimoidaan regressiokertoimien β0 ja β1 suhteen. Minimi löydetään derivoimalla neliösumma ∑ ε t2 regressiokertoimien β0 ja β1 suhteen ja merkitsemällä derivaatat nolliksi. Neliösumman ∑ ε t2 derivointi johtaa regressiokertoimien β0 ja β1 suhteen lineaariseen yhtälöryhmään ∂ ∂β 0 n n t =1 t =1 ∑ ε t2 = −2∑ ( yt − β0 − β1 xt ) = 0 n ∂ n 2 ε t = −2∑ ( yt − β 0 − β1 xt ) xt = 0 ∑ ∂β1 t =1 t =1 Näillä normaaliyhtälöillä on yksikäsitteinen ratkaisu parametrien β0 ja β1 suhteen, jos yhden selittäjän lineaarista regressiomallia koskeva standardioletus (ii) pätee. Ratkaisuksi saadaan regressiokertoimien β0 ja β1 pienimmän neliösumman (PNS-) estimaattorit: b0 = y − b1 x TKK © Ilkka Mellin (2007) 9/32 Monimuuttujamenetelmät b1 = Yhden selittäjän lineaarinen regressiomalli σˆ yx σˆ = ρˆ yx y 2 σˆ x σˆ x Regressiokertoimien β0 ja β1 PNS-estimaattoreiden lausekkeissa y= 1 n ∑ yt n t =1 on selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo, x= 1 n ∑ xt n t =1 on selittävän muuttujan x havaittujen arvojen xt aritmeettinen keskiarvo, σˆ y2 = 1 n ( yt − y ) 2 ∑ n t =1 on selitettävän muuttujan y havaittujen arvojen yt otosvarianssi, σˆ x2 = 1 n ∑ ( xt − x )2 n t =1 on selittävän muuttujan x havaittujen arvojen xt otosvarianssi, σˆ yx = 1 n ∑ ( yt − y )( xt − x ) = σˆ xy n t =1 on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen yt ja xt otoskovarianssi ja ρˆ yx = σˆ yx σˆ = xy = ρˆ xy σˆ yσˆ x σˆ xσˆ y on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen yt ja xt otoskorrelaatiokerroin. Regressiokertoimien suurimman uskottavuden estimaattorit Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) yt = β0 + β1xt + εt , t = 1, 2, … , n standardioletuksien (i)-(v) lisäksi jäännöstermejä εt koskeva normaalisuusoletus (vi) pätee. Tällöin regressiokertoimien β0 ja β1 suurimman uskottavuuden estimaattorit yhtyvät kertoimien β0 ja β1 PNS-estimaattoreihin b0 ja b1 . Estimoitu regressiosuora Olkoot b0 ja b1 yhden selittäjän lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1 PNS-estimaattorit. Yhtälö (2) y = b0 + b1x määrittelee suoran avaruudessa regressiosuoraksi. TKK 2 . Suoraa (2) kutsutaan mallia (1) vastaavaksi estimoiduksi © Ilkka Mellin (2007) 10/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Olkoon y selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo ja x selittäjän x havaittujen arvojen xt aritmeettinen keskiarvo. Estimoitu regressiosuora (2) kulkee aina havaintoaineiston painopisteen (x, y) kautta eli y = b0 + b1 x Regressiokertoimien PNS-estimaattoreiden stokastiset ominaisuudet Lause 1.2.1. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v) pätevät. Tällöin n (i) E(b0 ) = β 0 Var(b0 ) = σ 2 ∑ xt2 t =1 n n∑ ( xt − x ) 2 t =1 (ii) E(b1 ) = β1 Var(b1 ) = σ2 n ∑ (x − x ) t =1 2 t Huomautus 1: Lauseesta 1.2.1. nähdään, että yhden selittäjän lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1 PNS-estimaattorit b0 ja b1 ovat harhattomia eli E(b0) = β0 ja E(b1) = β1 Huomautus 2: n ∑ (x − x ) t =1 t 2 = nσˆ x2 Huomautus 3: Lauseesta 1.2.1. ja huomautuksesta 2 nähdään, että yhden selittäjän lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1 PNS-estimaattoreiden b0 ja b1 varianssit pienenevät, jos selittäjän x saamien arvojen varianssi σˆ x2 tai havaintojen lukumäärän n annetaan kasvaa. Lause 1.2.2. Oletetaan, että yhden selittäjän lineaarista regressiomallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin regressiokertoimien β0 ja β1 PNSestimaattoreiden b0 ja b1 otosjakaumat ovat normaalisia: TKK © Ilkka Mellin (2007) 11/32 Monimuuttujamenetelmät (i) (ii) Yhden selittäjän lineaarinen regressiomalli n 2 σ xt2 ∑ b0 ∼ N β 0 , n t =1 2 n∑ ( xt − x ) t =1 σ2 b1 ∼ N β1 , n 2 − ( x x ) ∑ t t =1 Sovitteet Määritellään estimoidun mallin sovitteet kaavalla yˆt = b0 + b1 xt , t = 1, 2,… , n jossa b0 ja b1 ovat yhden selittäjän lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1 PNS-estimaattorit ja xt on selittäjän x arvo havainnossa t. Sovite yˆt on estimoidun mallin antama arvo selitettävälle muuttujalle y, kun selittäjällä x on arvo xt . Huomautus: Sovitteet määrätään niille havainnoille, joita on käytetty regressiokertoimien β0 ja β1 PNS-estimaattoreita b0 ja b1 määrättäessä. Residuaalit Määritellään estimoidun mallin residuaalit kaavalla et = yt − yˆt , t = 1, 2,… , n jossa yt on selitettävän muuttujan y arvo havainnossa t ja yˆt on vastaava sovite. Residuaali on selitettävän muuttujan y havaitun arvon yt ja estimoidun mallin antaman arvon yˆt erotus. Residuaalit et ovat ei-havaittujen jäännöstermien εt empiirisiä vastineita. Residuaalien avulla voidaan selvittää pitävätkö mallista tehdyt oletukset paikkaansa. Huomautus: Residuaalit määrätään niille havainnoille, joita on käytetty regressiokertoimien β0 ja β1 PNS-estimaattoreita b0 ja b1 määrättäessä. Sovitteiden ja residuaalien ominaisuudet Lause 1.2.3. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v) pätevät. Tällöin (i) TKK E( yˆt ) = β 0 + β1 xt , t = 1, 2,… , n © Ilkka Mellin (2007) 12/32 Monimuuttujamenetelmät (ii) (iii) E(et ) = 0 , t = 1, 2,… , n n n t =1 t =1 ∑ yˆt = ∑ yt n (iv) ∑e t =1 (v) Yhden selittäjän lineaarinen regressiomalli t =0 n ∑ yˆ e t =1 t t n (vi) ∑xe t =1 t t =0 =0 Jäännösvarianssin harhaton estimaattori Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v) pätevät. Olkoon n SSE = ∑ et2 t =1 residuaalien vaihtelua kuvaava jäännösneliösumma. Tällöin s2 = SSE n−2 on jäännösvarianssin σ2 harhaton estimaattori eli E(s2) = σ 2 Estimaattoria s2 kutsutaan residuaalivarianssiksi. Huomautus: Estimaattorin s2 kaava antaa residuaalien varianssin, koska mallissa on selittäjänä vakio, jolloin ∑et = 0. Jäännösvarianssin suurimman uskottavuuden estimaattori Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) yt = β0 + β1xt + εt , t = 1, 2, … , n standardioletuksien (i)-(v) lisäksi jäännöstermejä εt koskeva normaalisuusoletus (vi) pätee. Tällöin jäännösvarianssin σ2 suurimman uskottavuuden estimaattori on 1 n σˆ 2 = SSE Regressiokertoimien PNS-estimaattoreiden varianssien estimointi Edellä on todettu, että yhden selittäjän lineaarisen regressiomallin (1) TKK yt = β0 + β1xt + εt , t = 1, 2, … , n © Ilkka Mellin (2007) 13/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli regressiokertoimien PNS-estimaattoreilla on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet: n 2 σ xt2 ∑ b0 ∼ N β 0 , n t =1 2 n∑ ( xt − x ) t =1 σ2 b1 ∼ N β1 , n 2 − ( x x ) ∑ t t =1 Siten E(bi ) = β i , i = 0,1 Merkitään Var(bi ) = D 2 (bi ) , i = 0,1 Tällöin bi − E(bi ) ∼ N(0,1) , i = 0,1 D(bi ) zi = Tämä regressiokertoimen βi PNS-estimaattorin bi otosjakaumaa koskeva tulos on epäoperationaalinen, koska jäännösvarianssi σ 2 on normaalisti tuntematon. Korvataan σ 2 yo. kaavoissa harhattomalla estimaattorillaan s2 = 1 SSE n−2 ja olkoon D̂ 2 (bi ) , i = 0,1 näin saatava regressiokertoimen βi PNS-estimaattorin bi operationalisoitu varianssi. Voidaan osoittaa, että D̂ 2 (bi ) on regressiokertoimen bi varianssin harhaton estimaattori ja lisäksi ti = bi − E(bi ) ∼ t (n − 2) , i = 0,1 D̂(bi ) Regressiokertoimien luottamusvälit Lause 1.2.4. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin regressiokertoimien β0 ja β1 luottamusvälit luottamustasolla (1 − α) saadaan kaavoista TKK © Ilkka Mellin (2007) 14/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli 1 (i) n 2 2 x ∑ t b0 ± tα / 2 D̂(b0 ) = b0 ± tα / 2 s n t =1 n ( x − x )2 t ∑ t =1 1 (ii) 1 2 b1 ± tα / 2 D̂(b1 ) = b1 ± tα / 2 s n ∑ ( xt − x ) 2 t =1 joissa b0 ja b1 ovat regressiokertoimien β0 ja β1 PNS-estimaattorit, −tα/2 ja +tα/2 ovat luottamustasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden lukumäärä on (n−2), D̂ 2 (b0 ) on regressiokertoimen β0 PNS-estimaattorin b0 varianssin harhaton estimaattori, D̂ 2 (b1 ) on regressiokertoimen β1 PNS-estimaattorin b1 varianssin harhaton estimaattori ja s2 on jäännösvarianssin σ 2 harhaton estimaattori. Huomautus 1: n ∑ (x − x ) t =1 2 t = nσˆ x2 Huomautus 2: Lauseesta 1.2.4. ja huomautuksesta 1 nähdään, että lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1 luottamusvälit kaventuvat, jos selittäjän x saamien arvojen varianssi σˆ x2 tai havaintojen lukumäärä n kasvaa. Varianssianalyysihajotelma Mitta-asteikoltaan jatkuvien muuttujan arvojen vaihtelua mitataan tavallisesti niiden varianssilla. Yhden selittäjän lineaarisen regressiomallin (1) selitettävän muuttujan y arvojen varianssi on 1 n σˆ y2 = SST jossa n SST = ∑ ( yt − y ) 2 t =1 on selitettävän muuttujan y arvojen vaihtelua kuvaava kokonaisneliösumma. Kokonaisneliösumman SST lausekkeessa termi y= 1 n ∑ yt n t =1 on selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo. Voidaan osoittaa, että residuaalien et vaihtelua kuvaava jäännösneliösumma n SSE = ∑ et2 = (1 − ρˆ yx2 ) SST t =1 TKK © Ilkka Mellin (2007) 15/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli jossa ρˆ yx on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen otoskorrelaatiokerroin. Koska 0 ≤ | ρˆ yx | ≤ 1 tästä yhtälöstä nähdään, että jäännösneliösumma on korkeintaan yhtä suuri kuin kokonaisneliösumma: SSE ≤ SST Jäännösneliösumman SSE lausekkeessa et = yt − yˆt , t = 1, 2,… , n on estimoidun mallin residuaali, jossa yˆt = b0 + b1 xt , t = 1, 2,… , n on estimoidun mallin sovite. Yhtälöstä n SSE = ∑ et2 = (1 − ρˆ yx2 ) SST t =1 ja otoskorrelaatiokertoimen ρˆ yx ominaisuuksista nähdään, että seuraavat ehdot ovat yhtäpitäviä: (i) SSE = 0 (ii) et = 0 kaikille t =1, 2, … , n (iii) Kaikki havaintopisteet (xt, yt), t =1, 2, … , n asettuvat samalle suoralle. (iv) ρˆ yx = 1 Erotusta SSM = SST – SSE kutsutaan regressio- tai mallineliösummaksi, koska voidaan osoittaa, että n n t =1 t =1 SSM = ∑ ( yˆt − yˆ ) 2 = ∑ ( yˆt − y ) 2 Identiteettiä SST = SSM + SSE kutsutaan lineaarisen regressiomallin (1) selitettävän muuttujan y arvojen vaihtelua kuvaavan kokonaisneliösumman SST varianssianalyysihajotelmaksi. Huomautus: y= TKK 1 n 1 n y = yˆt = yˆ ∑ t n∑ n t =1 t =1 © Ilkka Mellin (2007) 16/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Varianssianalyysihajotelman tulkinta Selitettävän muuttujan y arvojen vaihtelua kuvaava kokonaisneliösumma SST on hajotettu yhden selittäjän lineaarisen regressiomallin (1) avulla kahden osatekijän summaksi: SST = SSM + SSE Mallineliösumma SSM kuvaa mallin (1) selittämää osaa selitettävän muuttujan y arvojen kokonaisvaihtelusta ja jäännösneliösumma SSE kuvaa sitä osaa kokonaisvaihtelusta, jota malli (1) ei ole pystynyt selittämään. Malli (1) selittää selitettävän muuttujan y arvojen vaihtelun sitä paremmin mitä suurempi on mallineliösumman SSM osuus kokonaisneliösummasta tai, mikä on sama asia, mitä pienempi on jäännösneliösumman SSE osuus kokonaisneliösummasta. Selitysaste Varianssianalyysihajotelma SST = SSM + SSE motivoi tunnusluvun R2 = SSM SSE = 1− SST SST käytön regressiomallin hyvyyden tai selitysvoiman mittaamisessa. Tunnuslukua R2 kutsutaan estimoidun mallin selitysasteeksi. Selitysasteen ominaisuudet Lause 1.2.5. 0 ≤ R2 ≤ 1 (i) (ii) Jos kaikki residuaalit häviävät eli et = 0 , t = 1, 2, … , n niin SSE = 0 ja R2 = 1 Tällöin malli sopii havaintoihin täydellisesti. (iii) Jos b1 = 0, residuaalit ovat muotoa et = yt − y , t = 1, 2,… , n jolloin SSE = SST ja R2 = 0 Tällöin selittäjä x ei selitä ollenkaan selitettävän muuttujan y arvojen vaihtelua. TKK © Ilkka Mellin (2007) 17/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli R 2 = [Cor( y, yˆ)]2 (iv) jossa n Cor( y, yˆ) = ∑(y t =1 t − y )( yˆt − y ) n n t =1 t =1 ∑ ( yt − y )2 ∑ ( yˆt − y )2 selitettävän muuttujan y arvojen yt ja vastaavien sovitteiden yˆt välinen otoskorrelaatiokerroin. (v) Yhden selittäjän lineaarisen regressiomallin tapauksessa R 2 = ρˆ yx2 jossa ρˆ yx on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen otoskorrelaatiokerroin. Koska Lauseen 1.2.5. kohdan (i) mukaan 0 ≤ R2 ≤ 1, selitysaste ilmoitetaan tavallisesti prosentteina: 100×R2 % Huomautus: y= 1 n 1 n yt = ∑ yˆt = yˆ ∑ n t =1 n t =1 1.3. Yhden selittäjän lineaarisen regressiomallin regressiokertoimia koskevat testit Olkoon (1) yt = β0 + β1xt + εt , t = 1, 2, … , n yhden selittäjän lineaarinen regressiomalli, jossa yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t xt = selittäjän x ei-satunnainen ja havaittu arvo havainnossa t β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin β1 = selittäjän x ei-satunnainen ja tuntematon regressiokerroin εt = satunnainen ja ei-havaittu jäännöstermi Oletetaan, että lineaarisen regressiomallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee (ks. kappale 1.1.). Testit regressiokertoimille Lineaarisen regressiomallin (1) parametrien estimoimisen jälkeen on tapana testata seuraavia mallin regressiokertoimia koskevia hypoteeseja: (i) TKK H01 : β1 = 0 © Ilkka Mellin (2007) 18/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Jos nollahypoteesi H01 pätee, regressiomallin (1) selitettävä muuttuja y ei riipu lineaarisesti selittäjästä x. (ii) H00 : β0 = 0 Jos nollahypoteesi H00 pätee, regressiomallissa (1) ei tarvita vakioselittäjää. Testi regressiosuoran kulmakertoimelle Olkoon nollahypoteesina H01 : β1 = 0 Jos nollahypoteesi H01 pätee, regressiomallin (1) selitettävä muuttuja y ei riipu lineaarisesti selittäjästä x. Nollahypoteesia H01 voidaan testata testisuureella t1 = b1 = D̂(b1 ) b1 1 n 2 s / ∑ ( xt − x ) 2 t =1 jossa b1 on regressiokertoimen β1 PNS-estimaattori, D̂ 2 (b1 ) on regressiokertoimen β1 PNSestimaattorin b1 varianssin harhaton estimaattori ja s2 on jäännösvarianssin σ2 harhaton estimaattori. Oletetaan, että lineaarista regressiomallia (1) koskevat oletukset (i)-(vi) pätevät. Tällöin testisuure t1 on jakautunut t-jakauman mukaan vapausastein (n–2), jos nollahypoteesi H01 pätee: t1 ∼ t (n − 2) H 01 Itseisarvoltaan suuret testisuureen t1 arvot viittaavat siihen, että nollahypoteesi ei päde. Jos nollahypoteesi H01 : β1 = 0 hylätään, sanotaan, että kerroin β1 ja sitä vastaava selittäjä x ovat tilastollisesti merkitseviä. Huomautus 1: n ∑ (x − x ) t =1 2 t = nσˆ x2 Huomautus 2: Testisuureen t1 arvo kasvaa, jos selittäjän x saamien arvojen varianssi σˆ x2 tai havaintojen lukumäärä n kasvaa. Testi regressiosuoran vakiolle Olkoon nollahypoteesina H00 : β0 = 0 Jos nollahypoteesi H00 pätee, regressiomallissa (1) ei tarvita vakioselittäjää. TKK © Ilkka Mellin (2007) 19/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Nollahypoteesia H00 voidaan testata testisuureella t0 = b0 = D̂(b0 ) b0 1 n 2 2 x ∑t s n t =1 n ( x − x )2 t ∑ t =1 jossa b0 on regressiokertoimen β0 PNS-estimaattori, D̂ 2 (b0 ) on regressiokertoimen β0 PNSestimaattorin b0 varianssin harhaton estimaattori ja s2 on jäännösvarianssin σ 2 harhaton estimaattori. Oletetaan, että lineaarista regressiomallia (1) koskevat oletukset (i)-(vi) pätevät. Tällöin testisuure t0 on jakautunut t-jakauman mukaan vapausastein (n–2), jos nollahypoteesi H00 pätee: t0 ∼ t (n − 2) H 00 Itseisarvoltaan suuret testisuureen t0 arvot viittaavat siihen, että nollahypoteesi ei päde. Jos nollahypoteesi H00 : β1 = 0 hylätään, mallissa (1) tarvitaan vakioselittäjää. Huomautus 1: n ∑ (x − x ) t =1 2 t = nσˆ x2 Huomautus 2: Testisuureen t0 arvo kasvaa, jos selittäjän x saamien arvojen varianssi σˆ x2 tai havaintojen lukumäärä n kasvaa. Regression olemassaolon testaaminen Yhden selittäjän regressiomallin tapauksessa edellä esitetty t-testi nollahypoteesille H01 : β1 = 0 on ekvivalentti F-testin kanssa, jossa testisuureena on SSM SSE SST − SSE = (n − 2) SSE 2 R = (n − 2) 1 − R2 ρˆ yx2 = (n − 2) 1 − ρˆ yx2 F = (n − 2) missä SST = on selitettävän muuttujan y arvojen vaihtelua kuvaava kokonaisneliösumma SSM = estimoidun mallin mallineliösumma TKK © Ilkka Mellin (2007) 20/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli SSE = estimoidun mallin jäännösneliösumma ja R2 = SSM SSE = 1− = ρˆ yx2 SST SST on estimoidun mallin selitysaste, missä ρˆ yx2 on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen otoskorrelaatiokerroin. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(vi) pätevät. Tällöin testisuure F on jakautunut F-jakauman mukaan vapausastein 1 ja (n–2), jos nollahypoteesi H01 pätee: F ∼ F (1, n − 2) H 01 Suuret testisuureen F arvot viittaavat siihen, että nollahypoteesi H01 ei päde. Huomautus: F = t1 jossa t1 on edellä esitetty t-testisuure nollahypoteesille H01 : β1 = 0 TKK © Ilkka Mellin (2007) 21/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli 2. Ennustaminen yhden selittäjän lineaarisella regressiomallilla 2.1. Ennustamistehtävä Oletukset Olkoon (1) yt = β0 + β1xt + εt , t = 1, 2, … , n yhden selittäjän lineaarinen regressiomalli, jossa yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t xt = selittäjän x ei-satunnainen ja havaittu arvo havainnossa t β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin β1 = selittäjän x ei-satunnainen ja tuntematon regressiokerroin εt = satunnainen ja ei-havaittu jäännöstermi Seuraavia oletuksia kutsutaan yhden selittäjän lineaarisen regressiomallin (1) standardioletuksiksi: (i) Selittäjän x havaitut arvot xt ovat ei-satunnaisia, t = 1, 2, … , n (ii) Selittäjän x havaitut arvot xt eivät ole yhtä suuria, t = 1, 2, … , n (iii) E(εt) = 0 , t = 1, 2, … , n (iv) D2(εt) = σ2 , t = 1, 2, … , n (v) Cov(εs , εt) = 0 , jos s ≠ t Usein oletuksiin (i)-(v) liitetään vielä jäännöstermejä εt koskeva normaalisuusoletus: (vi) εt ∼ N(0, σ2) , t = 1, 2, … , n Ennustamistehtävä Miten yhden selittäjän lineaarisen regressiomallin (1) selitettävän muuttujan y käyttäytymistä voidaan ennustaa? Tällä ennustamistehtävällä tarkoitetaan kahta toisilleen läheistä sukua olevaa ongelmaa: (i) Mikä on paras arvio eli ennuste selitettävän muuttujan y odotettavissa olevalle arvolle, jos selittäjä x saa arvon x ? (ii) Mikä on paras arvio eli ennuste selitettävän muuttujan y arvolle, jos selittäjä x saa arvon x ? 2.2. Selitettävän muuttujan odotettavissa olevan arvon ennustaminen Ennuste Mikä on paras arvio eli ennuste yhden selittäjän lineaarisen regressiomallin TKK © Ilkka Mellin (2007) 22/32 Monimuuttujamenetelmät (1) Yhden selittäjän lineaarinen regressiomalli yt = β0 + β1xt + εt , t = 1, 2, … , n selitettävän muuttujan y odotettavissa olevalle arvolle, kun selittäjä x saa arvon x , ja mitkä ovat ennusteen stokastiset ominaisuudet? Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjä x saa arvon x . Tällöin y = β 0 + β1 x + ε ja E( y | x) = β 0 + β1 x on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjä x saa arvon x . Käytetään odotusarvon E( y | x) ennusteena lauseketta (2) yˆ | x = b0 + b1 x missä b0 ja b1 ovat regressiokertoimien β0 ja β1 PNS-estimaattorit. Huomautus: Odotusarvo E( y | x) on vakio, kun taas ennuste yˆ | x on satunnaismuuttuja. Ennusteen jakauma Lause 2.2.1. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v) pätevät. Tällöin (i) (ii) E( yˆ | x) = β 0 + β1 x ( x − x )2 2 1 ˆ Var( y | x) = σ + n n ∑ ( xt − x ) 2 t =1 Huomautus 1: Lauseen 2.2.1. kohdan (i) mukaan yˆ | x = b0 + b1 x on harhaton ennuste selitettävän muuttujan y odotettavissa olevalle arvolle, kun selittäjä x saa arvon x eli E( yˆ x) = β 0 + β1 x = E( y x) Huomautus 2: Voidaan osoittaa, että yˆ | x = b0 + b1 x on paras selitettävän muuttujan y odotettavissa olevan arvon E( y | x) lineaaristen ja harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keskineliövirheen. TKK © Ilkka Mellin (2007) 23/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Huomautus 3: n ∑ (x − x ) t =1 t 2 = nσˆ x2 Huomautus 4: Lauseen 2.2.1. kohdan (ii) mukaan ennusteen yˆ | x = b0 + b1 x varianssi pienenee, jos havaintojen lukumäärä n tai selittäjän varianssi σˆ x2 kasvaa. Toisaalta ennusteen yˆ | x = b0 + b1 x varianssi on sitä suurempi mitä kauempana x on selittäjän x kertoimien β0 ja β1 PNSestimoinnissa käytettyjen havaittujen arvojen xt aritmeettisesta keskiarvosta x . Lause 2.2.2. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin yˆ | x ∼ N(E( yˆ | x) , Var( yˆ | x)) missä E( yˆ | x) = β 0 + β1 x ja 1 ( x − x )2 Var( yˆ | x) = σ 2 + n n ∑ ( xt − x ) 2 t =1 Selitettävän muuttujan odotettavissa olevan arvon luottamusväli Lause 2.2.3. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(vi) pätevät ja olkoon E( y | x) selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjä x saa arvon x . Tällöin odotusarvon E( y | x) luottamusväli luottamustasolla (1 − α) on 1 b0 + b1 x ± tα / 2 s + n 1 (x − x ) 2 n 2 ( x x ) − ∑ t t =1 2 jossa s2 on jäännösvarianssin σ2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamustasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden lukumäärä on (n−2). TKK © Ilkka Mellin (2007) 24/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Huomautus 1: n ∑ (x − x ) t =1 2 t = nσˆ x2 Huomautus 2: Lauseesta 2.2.3. nähdään, että luottamusväli kaventuu, jos havaintojen lukumäärä n tai selittäjän varianssi σˆ x2 kasvaa. Toisaalta luottamusväli on sitä leveämpi mitä kauempana x on selittäjän x kertoimien β0 ja β1 PNS-estimoinnissa käytettyjen havaittujen arvojen xt aritmeettisesta keskiarvosta x . 2.3. Selitettävän muuttujan arvon ennustaminen Ennuste Mikä on paras arvio eli ennuste lineaarisen regressiomallin (1) yt = β0 + β1xt + εt , t = 1, 2, … , n selitettävän muuttujan y arvolle, kun selittäjällä x saa arvon x , ja mitkä ovat ennusteen stokastiset ominaisuudet? Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjä x saa arvon x . Tällöin y = β 0 + β1 x + ε ja E( y | x) = β 0 + β1 x on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjä x saa arvon x . Käytetään selitettävän muuttujan y arvon y ennusteena lauseketta (3) yˆ | x = b0 + b1 x missä b0 ja b1 ovat regressiokertoimien β0 ja β1 PNS-estimaattorit. Huomautus: Sekä selitettävän muuttujan y arvo y että ennuste ŷ x ovat satunnaismuuttujia. Ennustevirhe Erotusta e = y − yˆ | x = β 0 − b0 + ( β1 − b1 ) x + ε kutsutaan ennustevirheeksi. TKK © Ilkka Mellin (2007) 25/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Ennusteen jakauma Lause 2.3.1. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v) pätevät. Tällöin (i) (ii) E( y − yˆ | x) = 0 1 Var( y − yˆ | x) = σ 2 1 + + n ( x − x )2 n 2 − ( ) x x ∑ t t =1 Huomautus 1: Lauseen 2.3.1. kohdan (i) mukaan yˆ | x = b0 + b1 x on harhaton ennuste selitettävän muuttujan y arvon y odotusarvolle E( y | x) , kun selittäjä x saa arvon x , siinä mielessä että E( y − yˆ | x) = 0 Sen sijaan yˆ | x ei ole harhaton ennuste selitettävän muuttujan y arvolle y , koska yleensä E( yˆ | x) = β 0 + β1 x ≠ y Huomautus 2: Voidaan osoittaa, että yˆ | x = b0 + b1 x on paras selitettävän muuttujan y odotettavissa olevan arvon E( y | x) lineaaristen ja harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keskineliövirheen. Huomautus 3: n ∑ (x − x ) t =1 t 2 = nσˆ x2 Huomautus 4: Lauseen 2.3.1. kohdan (ii) mukaan ennusteen yˆ | x = b0 + b1 x varianssi pienenee, jos havaintojen lukumäärä n tai selittäjän varianssi σˆ x2 kasvaa. Toisaalta ennusteen yˆ | x = b0 + b1 x varianssi on sitä suurempi mitä kauempana x on selittäjän x kertoimien β0 ja β1 PNSestimoinnissa käytettyjen havaittujen arvojen xt aritmeettisesta keskiarvosta x . TKK © Ilkka Mellin (2007) 26/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Lause 2.3.2. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin y − yˆ | x ∼ N ( 0, Var( y − yˆ | x) ) missä 1 Var( y − yˆ | x) = σ 2 1 + + n ( x − x )2 n 2 ( ) − x x ∑ t t =1 Selitettävän muuttujan arvon luottamusväli Lause 2.3.3. Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(vi) pätevät. Tällöin selitettävän muuttujan y arvon y luottamusväli luottamustasolla (1 − α) on 1 b0 + b1 x ± tα / 2 s 1 + + n 1 ( x − x )2 2 n ( xt − x ) 2 ∑ t =1 jossa s2 on jäännösvarianssin σ2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamustasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden lukumäärä on (n−2). Huomautus 1: n ∑ (x − x ) t =1 t 2 = nσˆ x2 Huomautus 2: Lauseesta 2.3.3. nähdään, että luottamusväli kaventuu, jos havaintojen lukumäärä n tai selittäjän varianssi σˆ x2 kasvaa. Toisaalta luottamusväli on sitä leveämpi mitä kauempana x on selittäjän x kertoimien β0 ja β1 PNS-estimoinnissa käytettyjen havaittujen arvojen xt aritmeettisesta keskiarvosta x . Huomautus 3: Lauseista 2.2.3. ja 2.3.3. nähdään, että selitettävän muuttujan y odotettavissa olevan arvon E( y | x) luottamusväli on kapeampi kuin selitettävän muuttujan y arvon y luottamusväli. Tämä on ymmärrettävää, koska muuttujan keskimääräisen arvon ennustaminen on helpompaa kuin sen yksittäisen arvon ennustaminen. TKK © Ilkka Mellin (2007) 27/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli 3. Yhden selittäjän lineaarinen regressiomalli ja stokastinen selittäjä 3.1. Stokastisen selittäjän ongelma Malli Olkoon (1) yt = β0 + β1xt + εt , t = 1, 2, … , n yhden selittäjän lineaarinen regressiomalli, jossa yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t xt = selittäjän x satunnainen ja havaittu arvo havainnossa t β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin β1 = selittäjän x ei-satunnainen ja tuntematon regressiokerroin εt = satunnainen ja ei-havaittu jäännöstermi Huomautus: Selittäjän x arvot xt on (toisin kuin kappaleissa 1 ja 2) oletettu satunnaisiksi. Kiinteät ja satunnaiset selittäjät Yhden selittäjän lineaarisen regressiomallin (1) standardioletuksissa selittäjän x havaitut arvot xt on oletettu kiinteiksi eli ei-satunnaisiksi (ks. kappale 1.1.). Tiukasti ottaen tämä oletus voi päteä vain sellaisissa tilanteissa, joissa selittäjän arvot päästään valitsemaan. Selittäjän arvot päästään valitsemaan puhtaissa koeasetelmissa, mutta muulloin oletus on vaikeasti perusteltavissa. Tarkastellaan seuraavassa tilannetta, jossa selittäjän x arvot xt on oletettu satunnaisiksi. Miten tämä vaikuttaa lineaarisen regressiomallin (1) soveltamiseen? Täydellisen vastauksen antaminen tähän kysymykseen on monimutkainen tehtävä eikä siihen tässä edes pyritä. Tietyin ehdoin satunnaisen selittäjän tapauksessa voidaan kuitenkin toimia samalla tavalla kuin kiinteän, ei-satunnaisen selittäjän tapauksessa. Täydellisen kuvauksen usean satunnaismuuttujan käyttäytymisestä antaa niiden yhteisjakauma. Satunnaismuuttujien riippuvuutta voidaan tutkia niiden yhteisjakauman muodostamassa kehikossa tarkastelemalla niiden regressiofunktioita. Koska regressiofunktiot ovat yleensä epälineaarisia, joudutaan tällaisissa tilanteissa yleensä soveltamaan epälineaarista regressioanalyysia; sivuutamme epälineaaristen regressiomallien käsittelyn tässä esityksessä. Jos tarkasteltavien satunnaismuuttujien yhteisjakauma on multinormaalijakauma, lineaaristen regressiomallien soveltaminen perusteltua, koska kaikki multinormaalijakauman regressiofunktiot ovat lineaarisia. Lineaarisen regressiomallin soveltaminen on perusteltua myös sellaisissa tilanteissa, joissa epälineaarista regressiofunktiota voidaan approksimoida lineaarisella lausekkeella. TKK © Ilkka Mellin (2007) 28/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli 3.2. Ehdollistaminen Modifioidut standardioletukset Oletetaan, että seuraavat, yhden selittäjän lineaarisen regressiomallin yt = β0 + β1xt + εt , t = 1, 2, … , n (1) modifioidut standardioletukset ovat voimassa: (i)´ Selittäjän x havaitut arvot xt ovat satunnaisia, t = 1, 2, … , n (ii)´ Selittäjän x havaitut arvot xt eivät ole yhtä suuria, t = 1, 2, … , n (iii)´ E(εt | xt) = 0 , t = 1, 2, … , n (iv)´ D2(εt | xt) = σ 2 , t = 1, 2, … , n (v)´ Cov(εs, εt | xs, xt) = 0 , jos s ≠ t Usein oletuksiin (i)´-(v)´ liitetään vielä jäännöstermejä εt koskeva normaalisuusoletus: (vi)´ (εt | xt) ∼ N(0, σ 2) , t = 1, 2, … , n Oletukset (i)´-(v)´ ovat yhtäpitäviä seuraavien oletusten kanssa: (i)´´ Selittäjän x havaitut arvot xt ovat satunnaisia, t = 1, 2, … , n (ii)´´ Selittäjän x havaitut arvot xt eivät ole yhtä suuria, t = 1, 2, … , n (iii)´´ E(yt | xt) = β0 + β1xt , t = 1, 2, … , n (iv)´´ D2(yt | xt) = σ 2 , t = 1, 2, … , n (v)´´ Cov(ys, yt | xs, xt) = 0 , jos s ≠ t Tällöin normaalisuusoletusta (vi)´ vastaa oletus (vi)´´ (yt | xt) ∼ N(0, σ 2) , t = 1, 2, … , n Huomautus 1: Oletuksen (iii)´´ mukaan selitettävän muuttujan y havaittujen arvojen ehdollinen odotusarvo eli regressiofunktio on lineaarinen selittävän muuttujan x havaittujen arvojen suhteen. Tämä merkitsee ehdollistamista selittävän muuttujan x havaittujen arvojen suhteen. Huomautus 2: Koska selitettävän muuttujan y ehdollinen odotusarvo eli regressiofunktio selittävän muuttujan x suhteen on yleensä epälineaarinen, oletus (iii)´´ regressiofunktion lineaarisuudesta on hyvin voimakas oletus. Huomautus 3: Jos satunnaismuuttujien y ja x yhteisjakauma on 2-ulotteinen normaalijakauma, sekä muuttujan y regressiofunktio muuttujan x suhteen että muuttujan x regressiofunktio muuttujan y suhteen ovat lineaarisia. TKK © Ilkka Mellin (2007) 29/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli 3.3. Regressiomalleja on kaksi Kaksi regressiomallia Jos muuttujat y ja x ovat molemmat satunnaisia, saattaa olla mielekästä muodostaa kaksi kappaletta yhden selittäjän lineaarisia regressiomalleja: (1) yt = β0 + β1xt + εt , t = 1, 2, … , n (2) xt = α0 + α1yt + δt , t = 1, 2, … , n Tämä on mahdollista esimerkiksi silloin, kun satunnaismuuttujien y ja x yhteisjakauma on 2-ulotteinen normaalijakauma. Malli (1) selittää muuttujan y havaittujen arvojen vaihtelun muuttujan x havaittujen arvojen vaihtelun avulla, kun taas malli (2) selittää muuttujan x havaittujen arvojen vaihtelun muuttujan y saamien arvojen vaihtelun avulla. Jos modifioidut standardioletukset (i)´-(vi)´ ovat voimassa mallille (1) ja vastaavalla tavalla modifioidut standardioletukset ovat voimassa mallille (2), kaikki kappaleissa 1. ja 2. esitetty teoria pätee molemmille malleille. Huomautus: Sovellus määrää usein miten tutkittavaa ilmiötä kuvaavat muuttujat on mielekästä jakaa selitettäviksi ja selittäviksi muuttujiksi. Regressioanalyysia sovelletaan kuitenkin myös sellaisissa tilanteissa, joissa jako ei ole itsestään selvä tai, joissa voidaan samanaikaisesti soveltaa useampia näkökulmia. Parametrien estimointi Yhden selittäjän lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1 PNSestimaattorit ovat b0 = y − b1 x b1 = σˆ yx σˆ y = ρˆ yx 2 σˆ x σˆ x Siten mallin (1) estimoitu regressiosuora on (3) y = b0 + b1x Suoran (3) yhtälö voidaan esittää muodossa (4) y − y = ρˆ yx σˆ y (x − x ) σˆ x Yhden selittäjän lineaarisen regressiomallin (2) regressiokertoimien α0 ja α1 PNSestimaattorit ovat a0 = x − a1 y a1 = σˆ yx σˆ = ρˆ yx x 2 σˆ y σˆ y Siten mallin (2) estimoitu regressiosuora on (5) TKK x = a0 + a1y © Ilkka Mellin (2007) 30/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Suoran (5) yhtälö voidaan esittää muodossa (6) x − x = ρˆ yx σˆ x ( y − y) σˆ y Jos yhtälö (6) ratkaistaan muuttujan y suhteen, saadaan yhtälö (7) y− y = 1 σˆ y ⋅ (x − x ) ρˆ yx σˆ x Yhtälöistä (4) ja (7) nähdään välittömästi, että muuttujan y regressiosuora muuttujan x suhteen ja muuttujan x regressiosuora muuttujan y suhteen eivät yleensä ole samat. Regressiosuorat (4) ja (7) yhtyvät täsmälleen silloin, kun 1 = ρˆ yx ρˆ yx eli ρˆ yx2 = 1 mikä on yhtäpitävää sen kanssa, että kaikki havaintopisteet (xt, yt), t =1, 2, … , n asettuvat samalle suoralle. Regressiosuorien yhtälöistä (4) ja (7) nähdään myös, että molemmat regressiosuorat kulkevat havaintoarvojen painopisteen (x, y) kautta. 3.4. Korrelaation olemassaolon testaaminen Testi korrelaatiolle Oletetaan, että satunnaismuuttujien y ja x yhteisjakauma on 2-ulotteinen normaalijakauma ja olkoon ρ yx = Cor( y, x) = σ yx = ρ xy σ yσ x satunnaismuuttujien y ja x korrelaatiokerroin, missä σ yx = Cov(y, x) σ y2 = Var(y) = Cov(y, y) σ x2 = Var(x) = Cov(x, x) Asetetaan nollahypoteesi H0 : ρyx = 0 Jos nollahypoteesi H0 pätee, satunnaismuuttujat y ja x ovat korreloimattomia. TKK © Ilkka Mellin (2007) 31/32 Monimuuttujamenetelmät Yhden selittäjän lineaarinen regressiomalli Testi nollahypoteesille H0 voidaan perustaa testisuureeseen t = n−2 ρˆ yx 1 − ρˆ yx2 jossa ρˆ yx on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen otoskorrelaatiokerroin. Em. testisuure t on jakautunut t-jakauman mukaan vapausastein (n–2), jos nollahypoteesi H0 pätee: t ∼ tn − 2 H0 Itseisarvoltaan suuret testisuureen t arvot viittaavat siihen, että nollahypoteesi H0 ei päde. Jos nollahypoteesi H0 : ρyx = 0 hylätään, sanomme, että satunnaismuuttujien y ja x korrelaatio ρyx on tilastollisesti merkitsevää. Testisuureen t neliö t2 yhtyy kappaleessa 1.3. esitettyyn F-testisuureeseen eli t2 = F Siten testi nollahypoteesille H0 : ρyx = 0 ja kappaleessa 1.3. esitetty t-testi regressiosuoran kulmakertoimelle β1, jossa nollahypoteesina on H01 : β1 = 0 ovat ekvivalentteja. Tästä nähdään, että yhden selittäjän lineaarisessa regressiomallissa muuttuja y ei riipu lineaarisesti muuttujasta x ja muuttuja x ei riipu lineaarisesti muuttujasta y, täsmälleen silloin, kun muuttujat y ja x ovat korreloimattomia. TKK © Ilkka Mellin (2007) 32/32