Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110
Transcription
Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110
Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015 R-kode for alle oppgaver er gitt bakerst. Oppgave 1 (a) Boksplottet antyder at verdiene er høyere for kvinner enn for menn. (b) QQ-plot antyder at normalfordeling er ganske rimlig, selv om noen av de høye verdiene er litt for høye (litt for tung hale til høyere). Det er dog veldig få målinger, noe som gjør det vanskelig å si om det er et veldig avvik. (c) Vi har at T = X̄ − Ȳ − (µX − µY ) q Sp2 m1 + n1 er t-fordelt med m + n − 2 frihetsgrader. Dermed kan vi bruke T med µX − µY = 0 for å teste H0 : µX = µY og forkaste H0 hvis den observerte T er større enn t0.025;m+n−2 i absoluttverdi. Tilsvarende kan vi bruke at Pr(−t0.025;m+n−2 < X̄ − Ȳ − (µX − µY ) q < t0.025;m+n−2 ) = 0.95 Sp2 m1 + n1 q for å vise at X̄ −Ȳ ±t0.025;m+n−2 Sp2 m1 + n1 er et 95% konfidensintervall for µX −µY . Bruker vi direkte t.test funksjonen i R, får vi Two Sample t−t e s t data : x and y t = −2.5901 , df = 1 8 , p−v a l u e = 0 . 0 1 8 4 8 a l t e r n a t i v e h y p o t h e s i s : t r u e d i f f e r e n c e i n means i s not equal t o 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : −0.59767869 −0.06232131 sample e s t i m a t e s : mean o f x mean o f y 36.60 36.93 som da gir at vi forkaster H0 på 5% signifikansnivå. vi får også et 95% konfidensintervall som er lik [−0.59767869 − 0.06232131]. (d) I dette tilfellet må vi bruke at Vi har at T = X̄ − Ȳ − (µX − µY ) q S12 S2 + n2 m 1 er tilnærmet t-fordelt med ν frihetsgrader (der ν er gitt ved formelen på side 499 i boka). Dermed kan vi bruke T med µX − µY = 0 for å teste H0 : µX = µY og forkaste H0 hvis den observerte T er større enn t0.025;ν i absoluttverdi. Tilsvarende kan vi bruke at Pr(−t0.025;ν < X̄ − Ȳ − (µX − µY ) q < t0.025;ν ) = 0.95 S12 S22 + n m q S2 S2 for å vise at X̄ − Ȳ ± t0.025;ν m1 + n2 < t0.025;ν er et 95% konfidensintervall for µX − µY . Bruker vi direkte t.test funksjonen i R, får vi Welch Two Sample t−t e s t data : x and y t = −2.5901 , df = 1 7 . 7 3 4 , p−v a l u e = 0 . 0 1 8 6 3 a l t e r n a t i v e h y p o t h e s i s : t r u e d i f f e r e n c e i n means i s not equal t o 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : −0.59796699 −0.06203301 sample e s t i m a t e s : mean o f x mean o f y 36.60 36.93 som da gir at vi forkaster H0 på 5% signifikansnivå. vi får også et 95% konfidensintervall som er lik [−0.59767869 − 0.06232131]. (e) Vi har at F = S12 2 σX S22 2 σY = (m−1)S12 2 (m−1) σX (n−1)S22 2 (n−1) σY er F -fordelt med m − 1 og n − 1 frihetsgrader. Dette følger av proposisjon på side 320 i boka, at de to utvalgene er uavhengige samt definisjonen av F -fordelingen. En utskrift av var.test() i R gir F t e s t t o compare two v a r i a n c e s data : x and y F = 1 . 2 7 9 3 , num df = 9 , denom df = 9 , p−v a l u e = 0 . 7 1 9 7 a l t e r n a t i v e h y p o t h e s i s : t r u e r a t i o o f v a r i a n c e s i s not equal t o 1 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0.3177479 5.1502577 sample e s t i m a t e s : ratio of variances 1.279251 2 2 som ikke gir noen grunn til å forkaste H0 : σX = σY2 . Dette gir også en forklaring på hvorfor vi får så like resultater i (c) og (d). (f ) Vi har at E[X11 − Y11 ] = µX − µY som kan estimeres ved x̄ − ȳ. Videre er uavh V [X11 − Y11 − (X̄ − Ȳ )] = = V [X11 ] + V [Y11 ] + V [X̄] + V [Ȳ ] 2 2 =σX + σY2 + m−1 σX + n−1 σY2 = [2 + m−1 + n−1 ]σ 2 Vi har da at T = X11 − Y11 − (X̄ − Ȳ ) √ Sp 2 + m−1 + n−1 er t-fordelt med m√ + n − 2 frihetsgrader, noe som gir et prediksjonsintervall [X̄ − Ȳ ) ± t0.025;m+n−2 Sp 2 + m−1 + n−1 . Innsatt data får vi [−1.220.56]. Vi får her et mye bredere intervall da vi må ta hensyn til usikkerheten i de nye observasjonene. Oppgave 2 Siden eneggede tvillinger har samme genetiske materiale, brukes såkalte tvilling-studier til å kartlegge hvordan miljøet virker inn på ulike egenskaper. I en bok av den amerikanske forskeren Susan Faber finner vi data for n = 31 tvillingpar der den ene tvillingen vokste opp hos biologiske foreldre (Twin A) og den andre vokste opp hos andre familiemedlemmer, foster- eller adoptiv-foreldre (Twin B). Nedenfor finnes en oppsummering av målt IQ for disse personene. Spørsmålet vi ønsker å belyse er om det er forskjell i IQ hos eneggede tvillinger der den ene tvillingen har vokst opp hos biologiske foreldre, og den andre ikke. Twin A Twin B Difference N 31 31 31 Mean 93.32 96.58 -3.26 StDev 15.41 13.84 8.81 SE Mean 2.77 2.49 1.58 I tabellen er STDev empirisk standard avvik regnet fra enkeltobservasjoner mens SE Mean er standardfeilen til gjennomsnittet. (a) Her vil det være urimelig å anta at observasjoner fra to tvillinger er uavhengige. Dette vil resultere i at differansene har mindre varians og dermed kan gi mer nøyaktige resultater. 3 (b) Vi bruker her vanlige metoder for ett-utvalgstest, dvs t= d¯ − ∆0 √ sD / n som sammenliknes med kvantil i t-fordelingen med n − 1 frihetsgrader. I dette tilfellet blir t = 2.06 og en P-verdi 0.048, dvs vi vil forkaste H0 = ∆0 = 0 på 5% signifikantnivå, men bare såvidt. Det er således endel usikkerhet rundt konklusjonen. Kall forventet forskjell mellom Twin A og Twin B for µD . √ (c) d¯ ± t.025;n−1 sD / n vil være et 95% konfidensintervall for µD . Her blir det [−6.49 − 0.03]. Vi har sammenhengen med at hvis konfidensintervallet ikke dekker ∆0 så kan vi forkaste H0 mot det to-sidige alternativet. Vi får dermed samsvar med resultatet ovenfor. Oppgave 3 (a) Kryssplott gir en ganske klar sammenheng mellom Strength og temperature, men noe mer uklart med Pressure. Det viser også at Pressure ikke har så mange forskjellige verdier. (b) Den lineære tilpasningen ser ganske god ut. (c) Bruk av confint rutinen gir 2.5 % 97.5 % ( I n t e r c e p t ) −55.0060934 −4.6898163 Temperature 0.1436597 0.3511781 Da intervallet for Temperature ikke dekker 0, indikerer det at denne variabelen er viktig, (d) Ikke like klar sammenheng med Pressure, men vi får konfidensintervallene 2.5 % 97.5 % ( Intercept ) 37.769722 69.0254340 Pressure −2.810991 −0.6118466 som også indikerer at denne variabelen er viktig (siden vi igjen får et intervall som ikke dekker 0). (e) Temperature gir Ra2 = 0.76 mens Pressure gir Ra2 = 0.57. Dvs vi får forklart mest av variasjonen gjennom Temperature, og denne er dermed å foretrekke. (f ) Her får vi følgende: Coefficients : Estimate Std . E r r o r t v a l u e Pr ( >| t | ) ( I n t e r c e p t ) −0.72907 4 . 5 6 7 0 4 −0.160 0.878 4 Temperature 0 . 1 8 7 6 1 Pressure −1.06551 0.01496 0.11714 1 2 . 5 4 3 4 . 7 2 e −06 −9.096 3 . 9 8 e −05 R e s i d u a l s t a n d a r d e r r o r : 1 . 1 3 1 on 7 d e g r e e s o f freedom M u l t i p l e R−s q u a r e d : 0 . 9 8 3 7 , Adjusted R−s q u a r e d : 0 . 9 7 9 F−s t a t i s t i c : 211 on 2 and 7 DF, p−v a l u e : 5 . 5 5 2 e −07 Dvs begge variablene får nå lavere P-verdier og forklaringsgraden øker dramatisk. Vi ser også at σ̂ er blitt kraftig redusert. Dette resulterer i at også sβ̂j blir mye mindre noe som igjen gir en mye større t-verdi. Dette har noe sammenheng med at de to variablene er korrelerte (negativt). (g) Vi får Coefficients : Estimate Std . E r r o r z v a l u e Pr ( >| z | ) ( I n t e r c e p t ) −31.12936 1 9 . 9 9 2 4 8 −1.557 0.119 Temperature 0.12915 0.08188 1.577 0.115 ( D i s p e r s i o n parameter for binomial family taken t o be 1 ) N u l l deviance : 1 3 . 8 6 2 9 R e s i d u a l deviance : 5 . 3 8 5 1 AIC : 9 . 3 8 5 1 on 9 on 8 d e g r e e s o f freedom d e g r e e s o f freedom Her blir altså P-verdien tilhørende Temperature mye større og dermed blir forklaringsvariabelen mindre viktig. Dette har sammenheng med at vi nå bruker mindre informasjon fra responsvariabelen. 5 #Oppgave 1 d <− read . table ( ” . . / o b l i g e r / o b l i g 2 1 . dat ” , header=T) x <− d$Menn ;m <− length ( x ) y <− d$Kvinner ; n <− length ( y ) #a boxplot ( d ) #b par ( mfrow=c ( 1 , 2 ) ) qqnorm( x ) ; qqline ( x ) qqnorm( y ) ; qqline ( y ) #c s 2 . p <− ( (m−1)∗var ( x)+(n−1)∗var ( y ) ) / (m+n−2) t <− (mean( x)−mean( y ) ) /sqrt ( s2 . p∗ ( 1 /m + 1/n ) ) t . t e s t ( x , y , var . equal=TRUE) nu <− m+n−2 p . v a l u e <− 2∗(1−pt ( abs ( t ) , nu ) ) a lp h a <− 0 . 0 5 mean( x)−mean( y)+qt ( c ( alpha /2,1− alpha / 2 ) , nu ) ∗sqrt ( s2 . p∗ ( 1 /m + 1/n ) ) t . t e s t ( x , y , var . equal=EQUAL) #d s e 1 <− sd ( x ) /sqrt (m) s e 2 <− sd ( y ) /sqrt ( n ) t <− (mean( x)−mean( y ) ) /sqrt ( s e 1 ˆ2+ s e 2 ˆ2 ) nu <− ( s e 1 ˆ2+ s e 2 ˆ2)ˆ2 / ( s e 1 ˆ4/ (m−1) + s e 2 ˆ4/ ( n−1)) p . v a l u e <− 2∗(1−pt ( abs ( t ) , nu ) ) #KI a lp h a <− 0 . 0 5 mean( x)−mean( y)+qt ( c ( alpha /2,1− alpha / 2 ) , nu ) ∗sqrt ( s e 1 ˆ2+ s e 2 ˆ2 ) t . t e s t ( x , y , var . equal=FALSE) #e f <− var ( x ) /var ( y ) p . v a l u e <− 2∗(1−pf ( f ,m−1,n−1)) #f v <− s 2 . p∗ ( 2 + 1/m + 1/n ) mean( x)−mean( y)+qt ( c ( alpha /2,1− alpha / 2 ) , nu ) ∗sqrt ( v ) #Oppgave 2 #a #b m <− −3.26 6 se <− 1 . 5 8 n <− 31 t <− −m/se p . v a l u e <− 2∗(1−pt ( abs ( t ) , n−1)) #c a lp h a <− 0 . 0 5 m + qt ( c ( alpha /2,1− alpha / 2 ) , n−1)∗se #Oppgave 3 d <− read . table ( ” . . / o b l i g e r / p l a s t i c sub . dat ” , header=T) #a #b f i t <− lm( S t r e n g t h ˜Temperature , data=d ) summary( f i t ) plot ( d$Temperature , d$ S t r e n g t h ) abline ( f i t $coef ) #c confint ( f i t ) #d ) f i t 2 <− lm( S t r e n g t h ˜ P r e s s u r e , data=d ) summary( f i t 2 ) plot ( d$ P r e s s u r e , d$ S t r e n g t h ) abline ( f i t 2 $coef ) confint ( fit2 ) #f ) f i t 3 <− lm( S t r e n g t h ˜Temperature+P r e s s u r e , data=d ) summary( f i t 3 ) plot ( d$ P r e s s u r e , d$ S t r e n g t h ) abline ( f i t 2 $coef ) #g ) d$ t r e s h <− as . integer ( d$ Strengt h >30) f i t . glm <− glm( t r e s h ˜Temperature , data=d , family=” b i n o m i a l ” ) plot ( d$ P r e s s u r e , d$ t r e s h ) plot ( d$Temperature , d$ t r e s h ) 7