Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110

Transcription

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110
Løsningsforsalg til andre sett med obligatoriske
oppgaver i STK1110 høsten 2015
R-kode for alle oppgaver er gitt bakerst.
Oppgave 1
(a) Boksplottet antyder at verdiene er høyere for kvinner enn for menn.
(b) QQ-plot antyder at normalfordeling er ganske rimlig, selv om noen av de høye verdiene er litt for høye (litt for tung hale til høyere). Det er dog veldig få målinger, noe
som gjør det vanskelig å si om det er et veldig avvik.
(c) Vi har at
T =
X̄ − Ȳ − (µX − µY )
q
Sp2 m1 + n1
er t-fordelt med m + n − 2 frihetsgrader. Dermed kan vi bruke T med µX − µY = 0 for
å teste H0 : µX = µY og forkaste H0 hvis den observerte T er større enn t0.025;m+n−2
i absoluttverdi. Tilsvarende kan vi bruke at
Pr(−t0.025;m+n−2 <
X̄ − Ȳ − (µX − µY )
q
< t0.025;m+n−2 ) = 0.95
Sp2 m1 + n1
q
for å vise at X̄ −Ȳ ±t0.025;m+n−2 Sp2 m1 + n1 er et 95% konfidensintervall for µX −µY .
Bruker vi direkte t.test funksjonen i R, får vi
Two Sample t−t e s t
data : x and y
t = −2.5901 , df = 1 8 , p−v a l u e = 0 . 0 1 8 4 8
a l t e r n a t i v e h y p o t h e s i s : t r u e d i f f e r e n c e i n means i s not equal t o 0
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
−0.59767869 −0.06232131
sample e s t i m a t e s :
mean o f x mean o f y
36.60
36.93
som da gir at vi forkaster H0 på 5% signifikansnivå. vi får også et 95% konfidensintervall som er lik [−0.59767869 − 0.06232131].
(d) I dette tilfellet må vi bruke at Vi har at
T =
X̄ − Ȳ − (µX − µY )
q
S12
S2
+ n2
m
1
er tilnærmet t-fordelt med ν frihetsgrader (der ν er gitt ved formelen på side 499
i boka). Dermed kan vi bruke T med µX − µY = 0 for å teste H0 : µX = µY og
forkaste H0 hvis den observerte T er større enn t0.025;ν i absoluttverdi. Tilsvarende
kan vi bruke at
Pr(−t0.025;ν <
X̄ − Ȳ − (µX − µY )
q
< t0.025;ν ) = 0.95
S12
S22
+ n
m
q
S2
S2
for å vise at X̄ − Ȳ ± t0.025;ν m1 + n2 < t0.025;ν er et 95% konfidensintervall for
µX − µY . Bruker vi direkte t.test funksjonen i R, får vi
Welch Two Sample t−t e s t
data : x and y
t = −2.5901 , df = 1 7 . 7 3 4 , p−v a l u e = 0 . 0 1 8 6 3
a l t e r n a t i v e h y p o t h e s i s : t r u e d i f f e r e n c e i n means i s not equal t o 0
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
−0.59796699 −0.06203301
sample e s t i m a t e s :
mean o f x mean o f y
36.60
36.93
som da gir at vi forkaster H0 på 5% signifikansnivå. vi får også et 95% konfidensintervall som er lik [−0.59767869 − 0.06232131].
(e) Vi har at
F =
S12
2
σX
S22
2
σY
=
(m−1)S12
2 (m−1)
σX
(n−1)S22
2 (n−1)
σY
er F -fordelt med m − 1 og n − 1 frihetsgrader. Dette følger av proposisjon på side
320 i boka, at de to utvalgene er uavhengige samt definisjonen av F -fordelingen. En
utskrift av var.test() i R gir
F t e s t t o compare two v a r i a n c e s
data : x and y
F = 1 . 2 7 9 3 , num df = 9 , denom df = 9 , p−v a l u e = 0 . 7 1 9 7
a l t e r n a t i v e h y p o t h e s i s : t r u e r a t i o o f v a r i a n c e s i s not equal t o 1
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
0.3177479 5.1502577
sample e s t i m a t e s :
ratio of variances
1.279251
2
2
som ikke gir noen grunn til å forkaste H0 : σX
= σY2 . Dette gir også en forklaring på
hvorfor vi får så like resultater i (c) og (d).
(f ) Vi har at
E[X11 − Y11 ] = µX − µY
som kan estimeres ved x̄ − ȳ. Videre er
uavh
V [X11 − Y11 − (X̄ − Ȳ )] = = V [X11 ] + V [Y11 ] + V [X̄] + V [Ȳ ]
2
2
=σX
+ σY2 + m−1 σX
+ n−1 σY2
= [2 + m−1 + n−1 ]σ 2
Vi har da at
T =
X11 − Y11 − (X̄ − Ȳ )
√
Sp 2 + m−1 + n−1
er t-fordelt med m√
+ n − 2 frihetsgrader, noe som gir et prediksjonsintervall [X̄ −
Ȳ ) ± t0.025;m+n−2 Sp 2 + m−1 + n−1 . Innsatt data får vi [−1.220.56].
Vi får her et mye bredere intervall da vi må ta hensyn til usikkerheten i de nye
observasjonene.
Oppgave 2
Siden eneggede tvillinger har samme genetiske materiale, brukes såkalte tvilling-studier til
å kartlegge hvordan miljøet virker inn på ulike egenskaper. I en bok av den amerikanske
forskeren Susan Faber finner vi data for n = 31 tvillingpar der den ene tvillingen vokste
opp hos biologiske foreldre (Twin A) og den andre vokste opp hos andre familiemedlemmer,
foster- eller adoptiv-foreldre (Twin B). Nedenfor finnes en oppsummering av målt IQ for
disse personene. Spørsmålet vi ønsker å belyse er om det er forskjell i IQ hos eneggede
tvillinger der den ene tvillingen har vokst opp hos biologiske foreldre, og den andre ikke.
Twin A
Twin B
Difference
N
31
31
31
Mean
93.32
96.58
-3.26
StDev
15.41
13.84
8.81
SE Mean
2.77
2.49
1.58
I tabellen er STDev empirisk standard avvik regnet fra enkeltobservasjoner mens SE Mean
er standardfeilen til gjennomsnittet.
(a) Her vil det være urimelig å anta at observasjoner fra to tvillinger er uavhengige. Dette
vil resultere i at differansene har mindre varians og dermed kan gi mer nøyaktige
resultater.
3
(b) Vi bruker her vanlige metoder for ett-utvalgstest, dvs
t=
d¯ − ∆0
√
sD / n
som sammenliknes med kvantil i t-fordelingen med n − 1 frihetsgrader. I dette tilfellet blir t = 2.06 og en P-verdi 0.048, dvs vi vil forkaste H0 = ∆0 = 0 på 5%
signifikantnivå, men bare såvidt. Det er således endel usikkerhet rundt konklusjonen.
Kall forventet forskjell mellom Twin A og Twin B for µD .
√
(c) d¯ ± t.025;n−1 sD / n vil være et 95% konfidensintervall for µD . Her blir det [−6.49 −
0.03]. Vi har sammenhengen med at hvis konfidensintervallet ikke dekker ∆0 så kan
vi forkaste H0 mot det to-sidige alternativet. Vi får dermed samsvar med resultatet
ovenfor.
Oppgave 3
(a) Kryssplott gir en ganske klar sammenheng mellom Strength og temperature, men noe
mer uklart med Pressure. Det viser også at Pressure ikke har så mange forskjellige
verdier.
(b) Den lineære tilpasningen ser ganske god ut.
(c) Bruk av confint rutinen gir
2.5 %
97.5 %
( I n t e r c e p t ) −55.0060934 −4.6898163
Temperature
0.1436597 0.3511781
Da intervallet for Temperature ikke dekker 0, indikerer det at denne variabelen er
viktig,
(d) Ikke like klar sammenheng med Pressure, men vi får konfidensintervallene
2.5 %
97.5 %
( Intercept ) 37.769722 69.0254340
Pressure
−2.810991 −0.6118466
som også indikerer at denne variabelen er viktig (siden vi igjen får et intervall som
ikke dekker 0).
(e) Temperature gir Ra2 = 0.76 mens Pressure gir Ra2 = 0.57. Dvs vi får forklart mest av
variasjonen gjennom Temperature, og denne er dermed å foretrekke.
(f ) Her får vi følgende:
Coefficients :
Estimate Std . E r r o r t v a l u e Pr ( >| t | )
( I n t e r c e p t ) −0.72907
4 . 5 6 7 0 4 −0.160
0.878
4
Temperature 0 . 1 8 7 6 1
Pressure
−1.06551
0.01496
0.11714
1 2 . 5 4 3 4 . 7 2 e −06
−9.096 3 . 9 8 e −05
R e s i d u a l s t a n d a r d e r r o r : 1 . 1 3 1 on 7 d e g r e e s o f freedom
M u l t i p l e R−s q u a r e d : 0 . 9 8 3 7 ,
Adjusted R−s q u a r e d : 0 . 9 7 9
F−s t a t i s t i c :
211 on 2 and 7 DF, p−v a l u e : 5 . 5 5 2 e −07
Dvs begge variablene får nå lavere P-verdier og forklaringsgraden øker dramatisk. Vi
ser også at σ̂ er blitt kraftig redusert. Dette resulterer i at også sβ̂j blir mye mindre
noe som igjen gir en mye større t-verdi. Dette har noe sammenheng med at de to
variablene er korrelerte (negativt).
(g) Vi får
Coefficients :
Estimate Std . E r r o r z v a l u e Pr ( >| z | )
( I n t e r c e p t ) −31.12936
1 9 . 9 9 2 4 8 −1.557
0.119
Temperature
0.12915
0.08188
1.577
0.115
( D i s p e r s i o n parameter for binomial family taken t o be 1 )
N u l l deviance : 1 3 . 8 6 2 9
R e s i d u a l deviance : 5 . 3 8 5 1
AIC : 9 . 3 8 5 1
on 9
on 8
d e g r e e s o f freedom
d e g r e e s o f freedom
Her blir altså P-verdien tilhørende Temperature mye større og dermed blir forklaringsvariabelen mindre viktig. Dette har sammenheng med at vi nå bruker mindre
informasjon fra responsvariabelen.
5
#Oppgave 1
d <− read . table ( ” . . / o b l i g e r / o b l i g 2 1 . dat ” , header=T)
x <− d$Menn ;m <− length ( x )
y <− d$Kvinner ; n <− length ( y )
#a
boxplot ( d )
#b
par ( mfrow=c ( 1 , 2 ) )
qqnorm( x ) ; qqline ( x )
qqnorm( y ) ; qqline ( y )
#c
s 2 . p <− ( (m−1)∗var ( x)+(n−1)∗var ( y ) ) / (m+n−2)
t <− (mean( x)−mean( y ) ) /sqrt ( s2 . p∗ ( 1 /m + 1/n ) )
t . t e s t ( x , y , var . equal=TRUE)
nu <− m+n−2
p . v a l u e <− 2∗(1−pt ( abs ( t ) , nu ) )
a lp h a <− 0 . 0 5
mean( x)−mean( y)+qt ( c ( alpha /2,1− alpha / 2 ) , nu ) ∗sqrt ( s2 . p∗ ( 1 /m + 1/n ) )
t . t e s t ( x , y , var . equal=EQUAL)
#d
s e 1 <− sd ( x ) /sqrt (m)
s e 2 <− sd ( y ) /sqrt ( n )
t <− (mean( x)−mean( y ) ) /sqrt ( s e 1 ˆ2+ s e 2 ˆ2 )
nu <− ( s e 1 ˆ2+ s e 2 ˆ2)ˆ2 / ( s e 1 ˆ4/ (m−1) + s e 2 ˆ4/ ( n−1))
p . v a l u e <− 2∗(1−pt ( abs ( t ) , nu ) )
#KI
a lp h a <− 0 . 0 5
mean( x)−mean( y)+qt ( c ( alpha /2,1− alpha / 2 ) , nu ) ∗sqrt ( s e 1 ˆ2+ s e 2 ˆ2 )
t . t e s t ( x , y , var . equal=FALSE)
#e
f <− var ( x ) /var ( y )
p . v a l u e <− 2∗(1−pf ( f ,m−1,n−1))
#f
v <− s 2 . p∗ ( 2 + 1/m + 1/n )
mean( x)−mean( y)+qt ( c ( alpha /2,1− alpha / 2 ) , nu ) ∗sqrt ( v )
#Oppgave 2
#a
#b
m <− −3.26
6
se <− 1 . 5 8
n <− 31
t <− −m/se
p . v a l u e <− 2∗(1−pt ( abs ( t ) , n−1))
#c
a lp h a <− 0 . 0 5
m + qt ( c ( alpha /2,1− alpha / 2 ) , n−1)∗se
#Oppgave 3
d <− read . table ( ” . . / o b l i g e r / p l a s t i c sub . dat ” , header=T)
#a
#b
f i t <− lm( S t r e n g t h ˜Temperature , data=d )
summary( f i t )
plot ( d$Temperature , d$ S t r e n g t h )
abline ( f i t $coef )
#c
confint ( f i t )
#d )
f i t 2 <− lm( S t r e n g t h ˜ P r e s s u r e , data=d )
summary( f i t 2 )
plot ( d$ P r e s s u r e , d$ S t r e n g t h )
abline ( f i t 2 $coef )
confint ( fit2 )
#f )
f i t 3 <− lm( S t r e n g t h ˜Temperature+P r e s s u r e , data=d )
summary( f i t 3 )
plot ( d$ P r e s s u r e , d$ S t r e n g t h )
abline ( f i t 2 $coef )
#g )
d$ t r e s h <− as . integer ( d$ Strengt h >30)
f i t . glm <− glm( t r e s h ˜Temperature , data=d , family=” b i n o m i a l ” )
plot ( d$ P r e s s u r e , d$ t r e s h )
plot ( d$Temperature , d$ t r e s h )
7