732G71 Statistik B
Transcription
732G71 Statistik B
732G71 Statistik B Föreläsning 2 Bertil Wegmann IDA, Linköpings universitet November 13, 2015 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 1 / 26 Kap. 4.1-4.5, multipel linjär regressionsanalys y = µy |x1 ,x2 ,...,xk + e = β 0 + β 1 x1 + β 2 x2 + · · · + β k xk + e I stället för en förklarande variabel kan vi inkludera era. Det är dock viktigt att inte inkludera variabler som inte har någon eller endast marginell betydelse för den beroende variabeln Återigen inkluderas en felterm e y. i modellen, som står för den del av variationen i y som inte kan förklaras med hjälp av regressionsmodellen. Enligt modellantagandena ska följande egenskaper vara uppfyllda: 1. För varje kombination av värden värdena på feltermen noll . 2. Konstant varians . För varje x1 , x2 , . . . , xk är medelvärdet för kombination av värden x1 , x2 , . . . , xk har σ2 . värden x1 , x2 , . . . , xk värdena på feltermen konstant varians. Denna varians kallas för 3. Normalf ördelning . För varje kombination av följer värdena på feltermen en normalfördelning. 4. Oberoende. Alla värden på feltermen är statistiskt oberoende av alla andra värden på feltermen. e ∼ N (0, σ ) Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 2 / 26 Minstakvadratskattningar för multipel linjär regression Även i multipel linjär regression används minstakvadratmetoden för att hitta skattningar på parametrarna β0 , β1 , β2 , . . . , βk , och det som ska minimeras är: SSE = ∑ (yi − yˆi )2 = ∑ (yi − (b0 + b1 x1 + b2 x2 + · · · + bk xk ))2 SSE brukar även kallas för den oförklarade variationen. Formlerna för att skatta regressionsparametrarna blir väldigt omständiga, så därför förlitar vi oss till statistiska programpaket för detta. Statistiska programpaket beräknar även dessa kvadratsummor: Total variation i y = SST = ∑ (yi − ȳ )2 F örklarad variation i y = SSR = Bertil Wegmann (IDA, LiU) 732G71, Statistik B ∑ (yˆi − ȳ )2 November 13, 2015 3 / 26 Kap. 4.4, F-testet (the overall F-test) F-testet testar om den linjära regressionsmodellen är signikant eller inte. Om vi bara har en förklarande variabel är det samma som att testa om parametern till denna variabel är signikant skild från noll. Om vi har era förklarande variabler används dessa hypoteser: H0 : β 1 = β 2 = · · · = β k = 0 Ha : åtminstone någon av β 1 , β 2 , . . . , β k är inte lika med noll Testvariabel: F = där k MSR SSR/k = , SSE / (n − k − 1) MSE är antalet förklarande variabler i modellen. Förkasta H0 på signikansnivån α om F > F[α],k,n−k −1 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 4 / 26 Kap. 4.5, t-testet Om F-testet är signikant innebär det att minst en förklaringsvariabel signikant påverkar den beroende variabeln y. Det är då intressant att undersöka vilken/vilka förklaringsvariabler som påverkar y signikant. Detta görs med hjälp av enskilda t-test för varje variabel j: H0 : β j = 0 Ha : β j 6 = 0 Testvariabel: t= Förkasta H0 på signikansnivån α bj sbj om |t | > t[α/2],n−k −1 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 5 / 26 Exempel Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA. Column Name Count Description Variabel C1 Price C2 Area 150 Price 150 Area in square feet y x1 x2 x3 x4 C3 Acres 150 Acres C4 Rooms 150 Number of rooms C5 Baths 150 Number of baths Översättning pris bostadsyta tomtyta antal rum antal badrum Källa: MTBWIN/Student12/HOMES.MTW Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 6 / 26 Spridningsdiagram (scatterplot) Pris mot bostadsyta: Scatterplot of Price vs Area 300000 Price 250000 200000 150000 100000 500 1000 1500 2000 2500 3000 3500 4000 Area Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 7 / 26 Spridningsdiagram (scatterplot) Pris mot tomtyta: Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 8 / 26 Spridningsdiagram (scatterplot) Pris mot antal rum: Scatterplot of Price vs Rooms 300000 Price 250000 200000 150000 100000 2 4 6 8 10 12 14 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 9 / 26 Spridningsdiagram (scatterplot) Pris mot antal badrum: Scatterplot of Price vs Baths 300000 Price 250000 200000 150000 100000 1,0 1,5 2,0 2,5 3,0 3,5 4,0 Baths Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 10 / 26 Exempel, regressionsmodell Vi börjar med en modell som inte inkluderar alla förklarande variabler, utan endast de som verkar viktigast: bostadsyta och antal rum. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 11 / 26 Exempel, skattad regressionsmodell från Minitab Regression Analysis: Price versus Area; Rooms Analysis of Variance Source Regression Area Rooms Error Lack-of-Fit Pure Error Total DF 2 1 1 147 122 25 149 Adj SS 1,25273E+11 39528404917 2071358 1,32715E+11 1,07866E+11 24848918333 2,57989E+11 Adj MS 62636682991 39528404917 2071358 902824574 884149951 993956733 F-Value 69,38 43,78 0,00 P-Value 0,000 0,000 0,962 0,89 0,673 Model Summary S 30047,0 R-sq 48,56% R-sq(adj) 47,86% R-sq(pred) 45,43% Coefficients Term Constant Area Rooms Coef 64221 49,67 -141 SE Coef 12766 7,51 2934 T-Value 5,03 6,62 -0,05 P-Value 0,000 0,000 0,962 VIF 3,21 3,21 Regression Equation Price = 64221 + 49,67 Area - 141 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 12 / 26 Förklaringsgraden R 2 Vi kommer ihåg kvadratsummorna: SST = Total variation i y SSR = Förklarad variation i y y SSE = Oförklarad variation i Med hjälp av dessa kan förklaringsgraden beräknas på samma sätt som för enkel linjär regression: R2 = SSR SST Förklaringsgraden beskriver hur stor andel av den totala variationen i den beroende variabeln y som kan förklaras med hjälp av de förklarande variablerna i regressionsmodellen. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 13 / 26 Justerad förklaringsgrad R̄ 2 När man anpassar en regressionsmodell har man oftast två mål: 1) att hitta en modell som beskriver datamaterialet så bra som möjligt (de anpassade värdena ŷ faktiska observationerna från regressionsmodellen ska ligga nära de y .) 2) att hitta en modell som kan göra bra prognoser för nya observationer, d.v.s. göra bra punktprediktioner. Genom att inkludera er och er förklarande variabler i regressionsmodellen kan man ofta få en bättre och bättre anpassning till datamaterialet. Men, detta till bekostnad på att prognoserna för nya observationer blir ofta sämre (överanpassning). Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 14 / 26 Justerad förklaringsgrad R̄ 2 Förklaringsgraden R2 ökar alltid då man lägger till er förklarande variabler. Den justerade förklaringsgraden R̄ 2 ökar inte alltid om man lägger till er förklarande variabler, eftersom denna innehåller en korrektion för antalet förklarande variabler k och antalet observationer n i modellen. Den justerade förklaringsgraden beräknas som 2 R̄ = Bertil Wegmann (IDA, LiU) k R − n−1 2 732G71, Statistik B n−1 n−k −1 November 13, 2015 15 / 26 Exempel, regressionsmodell Vi återgår till exemplet med fastigheterna med bostadsyta och antal rum som förklarande variabler i regressionsmodellen. Regression Analysis: Price versus Area; Rooms Analysis of Variance Source Regression Area Rooms Error Lack-of-Fit Pure Error Total DF 2 1 1 147 122 25 149 Adj SS 1,25273E+11 39528404917 2071358 1,32715E+11 1,07866E+11 24848918333 2,57989E+11 Adj MS 62636682991 39528404917 2071358 902824574 884149951 993956733 F-Value 69,38 43,78 0,00 P-Value 0,000 0,000 0,962 0,89 0,673 Model Summary S 30047,0 R-sq 48,56% R-sq(adj) 47,86% R-sq(pred) 45,43% Coefficients Term Constant Area Rooms Coef 64221 49,67 -141 SE Coef 12766 7,51 2934 T-Value 5,03 6,62 -0,05 P-Value 0,000 0,000 0,962 VIF 3,21 3,21 Regression Equation Price = 64221 + 49,67 Area - 141 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 16 / 26 Exempel, regressionsmodell − α)% kondensintervall för medelvärdet av y och ett − α)% prognosintervall för ett enskilt värde på y beräknas Ett 100(1 100(1 på liknande sätt som för den enkla linjära regressionsmodellen: Konfidensintervall : Prognosintervall : Men, Distance value h h i √ ŷ ± t[α/2],(n−k −1) s Distance value ŷ ± t[α/2],(n−k −1) s √ 1 + Distance value i kan inte beräknas lika enkelt som i fallet enkel linjär regression. Däremot kan man ta den direkt från datorutskriften i Minitab. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 17 / 26 Exempel, kondens- och prediktionsintervall från Minitab Nu vill vi göra en prognos (prediktion) för priset på en fastighet med bostadsytan 3000 square feet och antal rum lika med 6 med tillhörande 95% prognosintervall (prediktionsintervall) i MINITAB. Prediction for Price Regression Equation Price = 64221 + 49,67 Area - 141 Rooms Variable Area Rooms Fit 212396 Setting 3000 6 SE Fit 12306,7 95% CI (188076; 236717) 95% PI (148229; 276564) XX XX denotes an extremely unusual point relative to predictor levels used to fit the model. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 18 / 26 Exempel, varning för extrema värden från Minitab Varning för att den typ av fastighet vi valt har extrema värden på förklaringsvariablerna. Vi kan endast göra tillförlitliga prognoser på fastigheter där vi har liknande fastigheter med i ursprungliga datamaterialet. Bostadsyta med 3000 feet square är inte särskilt ovanligt i datamaterialet. Fastighet med 6 stycken rum är inte alls ovanligt i datamaterialet. Vad är då problemet? Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 19 / 26 Exempel, varning för extrema värden från Minitab Om vi tittar på datamaterialet så ser vi att de fastigheter som ingår och har exakt 6 rum har en bostadsyta mellan 1008 och 1900 square feet. Det är alltså kombinationen 3000 square feet och 6 stycken rum som är extrem i datamaterialet. Vi måste därför ta ställning till om det är rimligt att anta att modellen är giltig även för denna typ av fastighet. Annars måste vi ta bort denna extrema observation från datamaterialet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 20 / 26 Kap. 4.7, kvadratisk regressionsmodell Om sambandet till en variabel inte är linjärt så kan vi även inkludera en kvadratisk term i regressionsmodellen. Exempel, fastighetsdatat: antag att vi misstänker att antalet rum inte påverkar priset på fastigheter i USA på ett linjärt sätt. Därför lägger vi till variabeln antalet rum i kvadrat för att testa om ett krökt samband är lämpligare för regressionsmodellen. x3 = antal rum och x5 = x32 variabeln y = pris . Alltså vill vi undersöka hur variablerna förklarar variationen i den beroende Som jämförelse börjar vi dock först med att skatta en enkel linjär regressionsmodell med endast antal rum som förklarande variabel. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 21 / 26 Exempel, enkel linjär regressionsmodell Vi börjar med en enkel linjär regressionsmodell utan kvadratisk term. y = β 0 + β 3 x3 + e Regression Analysis: Price versus Rooms Analysis of Variance Source Regression Rooms Error Lack-of-Fit Pure Error Total DF 1 1 148 8 140 149 Adj SS 85744961064 85744961064 1,72244E+11 11542276823 1,60701E+11 2,57989E+11 Adj MS 85744961064 85744961064 1163808224 1442784603 1147866717 F-Value 73,68 73,68 P-Value 0,000 0,000 1,26 0,271 Model Summary S 34114,6 R-sq 33,24% R-sq(adj) 32,78% R-sq(pred) 31,33% Coefficients Term Constant Rooms Coef 37969 15966 SE Coef 13776 1860 T-Value 2,76 8,58 P-Value 0,007 0,000 VIF 1,00 Regression Equation Price = 37969 + 15966 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 22 / 26 Exempel, enkel linjär regressionsmodell Fitted Line Plot Price = 37969 + 15966 Rooms S 34114,6 R-Sq 33,2% R-Sq(adj) 32,8% 300000 Price 250000 200000 150000 100000 2 4 6 8 10 12 14 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 23 / 26 Exempel, kvadratisk regressionsmodell Multipel linjär regressionsmodell med kvadratisk term. Vi behåller x3 originalvariabeln för att göra modellen mer exibel. y = β 0 + β 3 x3 + β 5 x32 + e Regression Analysis: Price versus Rooms; RoomsSquared Analysis of Variance Source Regression Rooms RoomsSquared Error Lack-of-Fit Pure Error Total DF 2 1 1 147 7 140 149 Adj SS 91722934386 16224550005 5977973322 1,66266E+11 5564303501 1,60701E+11 2,57989E+11 Adj MS 45861467193 16224550005 5977973322 1131058802 794900500 1147866717 F-Value 40,55 14,34 5,29 P-Value 0,000 0,000 0,023 0,69 0,678 Model Summary S 33631,2 R-sq 35,55% R-sq(adj) 34,68% R-sq(pred) 33,31% Coefficients Term Constant Rooms RoomsSquared Coef -45920 39680 -1606 SE Coef 38935 10477 699 T-Value -1,18 3,79 -2,30 P-Value 0,240 0,000 0,023 VIF 32,64 32,64 Regression Equation Price = -45920 + 39680 Rooms - 1606 RoomsSquared Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 24 / 26 Exempel, kvadratisk regressionsmodell Fitted Line Plot Price = - 45920 + 39680 Rooms - 1606 Rooms^2 S 33631,2 R-Sq 35,6% R-Sq(adj) 34,7% 300000 250000 Price 200000 150000 100000 50000 2 4 6 8 10 12 14 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 25 / 26 Exempel, kvadratisk regressionsmodell Kvadratisk regression ger dock svårtolkade parametrar. I modellen ŷ = b0 + b3 x3 kan vi säga att priset för en fastighet förväntas öka med b3 USD för varje ytterligare rum. I modellen ŷ = b0 + b3 x3 + b5 x5 förväntas priset för fastigheten öka för varje ytterligare rum, men bara upp till ett visst antal rum, sen stabiliseras priset. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 26 / 26