Regressions- och Tidsserieanalys - F1
Transcription
Regressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys, 7.5 hp Mål: Tillägna sig metodik för att analysera samt tolka statistiska modeller för samband mellan variabler och statistiska modeller för tidsseriedata . Innehåll: Enkel och multipel linjär regressionsanalys Index Efterfrågeanalysmodeller Modeller för tidsseriedata Analys av data med hjälp av statistisk programvara. Wänström (Linköpings universitet) F1 May 4, 2015 2 / 25 Regressions- och tidsserieanalys, 7.5 hp Ansvarig lärare Linda Wänström linda.wanstrom@liu.se; rum i B-huset, plan 2 (ovanför JAVA) Examination Projekt Del 1: Index och efterfrågeanalys Del 2: Tidsserieanalys Inlämning senast 5/6 Tenta Onsdag 3/6 kl 8-12 Får ta med: boken (utan anteckningar), miniräknare samt ett eget "formelblad" (A4-sida (fram och bak) där ni själva skriver formler och annat ni tycker är viktigt) Litteratur Bowerman, O’Connel, Koehler & Brooks (2005) 4th ed. Forecasting, time series, and regression. Brooks. Wänström (Linköpings universitet) F1 May 4, 2015 3 / 25 Exempel: IT bland individer 2013 (från SCB’s hemsida) Det blir allt vanligare att hämta information från myndigheters webbplatser. Wänström (Linköpings universitet) F1 May 4, 2015 4 / 25 Exempel: Detaljhandelns försäljning, september 2013 (från SCB’s hemsida) Försäljningsvolymen ökade med 1,6 procent i september jämfört med samma månad förra året. Uppgifterna är kalenderkorrigerade. Wänström (Linköpings universitet) F1 May 4, 2015 5 / 25 Exempel: Samband mellan storlek och pris på lägenheter Fitted Line Plot Pris = - 1100 + 44,14 KVM 6000 S R-Sq R-Sq(adj) 5000 1208,14 36,4% 35,0% Pris 4000 3000 2000 1000 0 40 50 Wänström (Linköpings universitet) 60 70 80 90 KVM F1 100 110 120 130 May 4, 2015 6 / 25 Exempel Antag att vi vill veta om det …nns något samband mellan mängden lokalt inriktad annonsering och företags försäljning hur stor försäljning vi kan förvänta oss vid en annonsering på 20 000 kr Wänström (Linköpings universitet) F1 May 4, 2015 7 / 25 Enkel linjär regressionsmodell y = beroende variabel, responsvariabel, undersökningsvariabel x = oberoende variabel, prediktorvariabel, förklaringsvariabel Modellen antar att sambandet mellan x och y kan approximeras med en rät linje Vi kan visuellt inspektera om sambandet ser linjärt ut genom att titta på ett spridningsdiagram (scatter plot) Wänström (Linköpings universitet) F1 May 4, 2015 8 / 25 Exempel: y = försäljning (milj kr), x = annonsering (10000 kr) Distrikt 1 2 3 4 5 6 7 8 yi 5.4 3.8 10.6 5.2 4.5 2.7 2.5 4.5 xi 5 3 9 3.5 5 2 1.8 4.7 Wänström (Linköpings universitet) F1 May 4, 2015 9 / 25 Spridningsdiagram 12 10 Försäljning 8 6 4 2 0 0 1 Wänström (Linköpings universitet) 2 3 4 5 Annonsering F1 6 7 8 9 May 4, 2015 10 / 25 Enkel linjär regressionsmodell y = β0 + β1 x + e β0 + β1 x = µy jx är medelvärdet för den beroende variabeln y när värdet på den oberoende variabeln är x β0 är linjens skärning med y axeln β1 är linjens lutning e är en felterm Wänström (Linköpings universitet) F1 May 4, 2015 11 / 25 Minskakvadratskattningar för skärning och lutning Vi tar ett stickprov på n värden på x och y för att beräkna skattningar b0 och b1 n b1 = SSxy = SSxx ∑ (xi x ) (yi i =1 n i =1 n ∑ xi n i =1 ∑ xi yi = ! n ∑ yi i =1 = ! n i =1 n ∑ xi n i =1 ∑ xi2 !2 n i =1 b0 = y Wänström (Linköpings universitet) x )2 ∑ (xi y) F1 b1 x May 4, 2015 12 / 25 Spridningsdiagram med inritad skattad regressionslinje 12 10 Försäljning 8 6 4 2 0 0 1 Wänström (Linköpings universitet) 2 3 4 5 Annonsering F1 6 7 8 9 May 4, 2015 13 / 25 Summan av de kvadrerade avvikelserna från linjen (SSE) n n i =1 i =1 SSE = ∑ ei2 = ∑ (yi Wänström (Linköpings universitet) F1 ybi )2 May 4, 2015 14 / 25 Minitab-utskrift Regression Analysis: Försäljning versus Annonsering The regression equation is Försäljning = 0,436 + 1,05 Annonsering Predictor Constant Annonsering Coef 0,4357 1,0504 S = 0,821147 SE Coef 0,6425 0,1349 R-Sq = 91,0% T 0,68 7,79 P 0,523 0,000 R-Sq(adj) = 89,5% Analysis of Variance Source Regression Residual Error Total DF 1 6 7 Wänström (Linköpings universitet) SS 40,914 4,046 44,960 MS 40,914 0,674 F 60,68 F1 P 0,000 May 4, 2015 15 / 25 Uppskattningar och prognoser Anpassad regressionslinje yb = b0 + b1 x yb är en punktskattning för medelvärdet för y när värdet på oberoende variabeln är x. yb är också en punktskattning för ett enskilt värde på y när värdet på oberoende variabeln är x. Wänström (Linköpings universitet) F1 May 4, 2015 16 / 25 Modellantaganden y = β0 + β1 x + e För varje x-värde är medelvärdet för värdena på feltermen noll. Konstant varians. För varje x-värde har värdena på feltermen en konstant varians. Denna varians kallas för σ2 . Normalfördelning. För varje x-värde följer värdena på feltermen en normalfördelning. Oberoende. Alla värden på feltermen är statistisk oberoende av alla andra värden på feltermen. Wänström (Linköpings universitet) F1 May 4, 2015 17 / 25 Variansskattning: Mean Square Error och Standard Error (Standardfel) Om antagandena är uppfyllda och SSE är summan av de kvadrerade avvikelserna från linjen gäller Punktskattning för σ2 (MSE ) är SSE n 2 s2 = Punktskattning för σ (Standardfel) är s= Wänström (Linköpings universitet) p F1 s2 May 4, 2015 18 / 25 Signi…kanstest för lutning och skärning Test för lutning (om antagandena håller) H0 : β 1 = 0 Ha : β 1 6 = 0 t= b1 sb1 , där sb1 = Förkasta H0 om jt j > t[α/2 ](n ps SS xx 2) Test för skärning (om antagandena håller) H0 : β 0 = 0 Ha : β 0 6 = 0 t= b0 sb0 , där sb0 = s Förkasta H0 om jt j > t[α/2 ](n Wänström (Linköpings universitet) 2) q 1 n F1 + x2 SS xx May 4, 2015 19 / 25 Kon…densintervall för lutning Om antagandena håller är ett 100(1 α)% kon…densintervall för den sanna lutningen β1 h i b1 t[α/2 ](n 2 ) sb1 Wänström (Linköpings universitet) F1 May 4, 2015 20 / 25 Distance value Distancevalue = Wänström (Linköpings universitet) F1 1 (x0 x )2 + n SSxx May 4, 2015 21 / 25 Kon…densintervall för medelvärdet för y vid ett speci…kt x-värde yb = b0 + b1 x0 Om antagandena är uppfyllda är ett 100(1 α)% kon…densitvervall för µ y jx 0 h i p yb t[α/2 ](n 2 ) s Distancevalue Wänström (Linköpings universitet) F1 May 4, 2015 22 / 25 Prognosintervall för ett värde på y vid ett speci…kt x-värde yb = b0 + b1 x0 Om antagandena är uppfyllda är ett 100(1 α)% prognosintervall för y vid x0 i h p yb t[α/2 ](n 2 ) s 1 + Distancevalue Wänström (Linköpings universitet) F1 May 4, 2015 23 / 25 Förklaringsgrad: Determinationskoe¢ cienten Total variation = Förklarad variation + Oförklarad variation SST = SSR + SSE n ∑ (yi i =1 n y )2 = ∑ (ybi i =1 r2 = Wänström (Linköpings universitet) n y )2 + ∑ (yi i =1 SSR SST F1 ybi )2 May 4, 2015 24 / 25 Korrelationskoe¢ cienten Ett mått på hur starkt sambandet mellan y och x är Wänström (Linköpings universitet) r = r = p r2 SSxy p SSxx SSyy F1 May 4, 2015 25 / 25