DET JYSKE MESTERSKAB I TIPNING

Transcription

DET JYSKE MESTERSKAB I TIPNING
Almindelige kontinuerte
fordelinger
Den uniforme fordeling




Symbol: X  Uniforma, b
Beskrivelse: Et tilfældigt tal mellem a og b.
Støtte: V X  a, b.
Tæthedsfunktion:
fx  1/b − a for x ∈ a, b
 Fordelingsfunktion:
Fx  x − a/b − a for a ≤ x ≤ b
 Middelværdi og varians:
EX  a  b
2
b − a 2
VarX 
12
 Eksempler:
1. Kontinuert roulette: X  Uniform0, 2. F.eks. vinklen
på viseren på et ur som er gået i stå ved en
naturkatastrofe.
2. Et job afbrydes helt tilfældigt af en strømafbrydelse. Så
angiver X  Uniform0, 1 den del af jobbet som var
færdiggjort.
 R funktioner:
dunifx, a, b
punifx, a, b
qunifprob, a, b runifn, a, b
Eksponentialfordelingen




Symbol: X  E
Beskrivelse: Ventetiden mellem to successive sjældne hændelser.
Støtte: V X  R 
Tæthedsfunktion:
fx  e −x for x  0
 Fordelingsfunktion:
Fx  1 − e −x for x  0
 Middelværdi og varians:
EX  1

VarX  12

0
1
2
3
x
4
5
0.0
0.5
1.0
Density
1.5
2.0
 Eksempel: Tid mellem kraftige jordskælv
Ventetiden (i dage) mellem kraftige jordskælv (over 7.5 på
Richterskalaen) kan modelleres med en eksponentialfordeling
med rate   0. 00229. Så er
EX  436. 68
VarX  190 690
 X  436. 68.
Udregn sandsynligheden for at der
 kommer et kraftigt jordskælv inden for 10 dage. Svar:
PX  10  1 − exp−0. 00229  10  0. 02264
 går mere end 100 dage til næste kraftige jordskælv. Svar
PX  100  1 − 1 − exp−0. 00229  100  0. 7953
 R funktioner:
dexpx, 
pexpx, 
qexpprob,  rexpn, 
Standard normalfordelingen
 Symbol: Z  N0, 1
 Beskrivelse: Den normalfordeling, som har middelværdi 0 og
varians 1.
 Støtte: V Z  R
 Tæthedsfunktion:
2 /2
1
−z
z 
e
for z ∈ R
2
Bemærk symmetri:
−z  z
  er en pæn klokkeformet tæthedsfunktion:
-4
-2
0
x
2
4
0.0
0.1
0.2
dnorm(x)
0.3
0.4
 Middelværdi og varians:
EZ  0
VarZ  1
 Fordelingsfunktion: Findes i tabel D.3, side 482,
z
1 e −t 2 /2 dt for z ∈ R
z  
−
2
1. Bemærk symmetri:
−z  1 − z.
2. Bemærk at  er i familie med error function erf
z
2
−t 2 dt.
erf z 
e

 0
(udled selv sammenhængen med , brug at 0  ½).
Normalfordelingen
Generelt
 Symbol: X  N,  2 , parametre  ∈ R og  2  0.
Kaldes også den Gaussiske fordeling, efter C.F. Gauss.
 Beskrivelse: En sum af uendeligt mange uendeligt små
uafhængige stød (den centrale grænseværdisætning).
 Støtte: V X  R
 Tæthedsfunktion:
x−
1
fx   

− 1 2 x− 2
1

e 2
for x ∈ R
2 2
 Fordelingsfunktion:
x−
Fx  
for x ∈ R

 Middelværdi og varians:
EX   VarX   2
 Eksempler: En tilfældig organismes højde i en population.
 R funktioner:
dnormx, , 
pnormx, , 
qnormprob, ,  rnormn, , 
 Eksempler på tæthedsfunktioner:
-4
-2
0
x
2
4
0.0
0.2
0.4
Density
0.6
0.8
 Se også følgende histogrammer med indlagte tætheder.
0.4
0.0
0.2
Density
0.4
0.2
0.0
Density
0.6
100 simulerede N(0,1)
0.6
25 simulerede N(0,1)
-4
-2
0
2
4
-4
-2
.x1
2
4
.x2
0.4
0.2
0.0
0.0
0.2
Density
0.4
0.6
10000 simulerede N(0,1)
0.6
1000 simulerede N(0,1)
Density
0
-4
-2
0
.x3
2
4
-4
-2
0
.x4
2
4
 Standardisering: Hvis X  N,  2  gælder
X−
Z    N0, 1.
 Hvis Z  N0, 1 gælder
X    Z  N,  2 
 For standard normalfordelingen Z  N0, 1:
Pa  Z ≤ b  b − a.
 For en generel normalfordeling X  N,  2 :
b−
a−
−
.
Pa  X ≤ b  


 Giver samme resultat for alle kombinationer af  og ≤.
 Eksempel 3.5 Studerendes højde
 Lad os antage, at en tilfældigt udtrukket studerendes højde har
fordeling
X  N175, 10 2 .
 Udregn sandsynligheden for, at en tilfældigt udtrukket studerende
er højere end 180 cm. Svar:
PX  180  1 − PX ≤ 180
 1 −  180 − 175
10
 1 − 0. 6915 (tabel)
 0. 3085
 Find det tal x, så PX ≥ x  0. 1. Svar: så er PX ≤ x  0. 9, og
0. 9  PX ≤ x
  x − 175
10
Fra tabel fås
x − 175  1. 28
10
så x  187. 8.
 Lineære transformationer: Hvis X  N,  2  gælder
aX  b  Na  b, a 2  2 .
 Specielt gælder
− X  N−,  2 .
 Summer af normalfordelte variable: Hvis X 1 og X 2 er
uafhængige og X 1  N 1 ,  21  og X 2  N 2 ,  22 , så gælder
X 1  X 2  N 1   2 ,  21   22 .
 Denne egenskab gør det meget let at regne med
normalfordelingen.
Den centrale grænseværdisætning
 Antag at X 1 , X 2 , … , X n uafhængige, identisk fordelte stokastiske
variable alle med middelværdi  og varians  2 .
 Afsnitssum: S n  X 1  X 2    X n
ES n   n
VarS n   n 2
 Standardiseret sum:
S n − n

Zn 
 n
n
∑
i1
Xi − 
 n
 For n stor: sum af mange små uafhængige variable.
 Den centrale grænseværdisætning (CLT): for alle z ∈ R
for
n → .
F Z n z → z
 Praktisk brug af CLT
1. For Z n gælder
EZ n   0
VarZ n   1
Z n ≈ N0, 1.
(≈ betyder approksimativt fordelt som).
2. For S n gælder tilsvarende
ES n   n
VarS n   n 2
S n  n   n Z n ≈ Nn, n 2 .
 Huskeregel: Brug den normalfordeling, som har den samme
middelværdi og varians, som det du ønsker at approximere.
 Følgende grafer illustrerer konvergensen i to tilfælde.
Gennemsnit af 2 Uniform(0,1)
0.4
0.0
Density
0.8
0.0 0.2 0.4 0.6 0.8
Density
Uniform(0,1)
-3
-2
-1
0
1
2
3
-3
-2
-1
.x
Density
.x
3
1
2
0.0 0.5 1.0 1.5 2.0
1.5
1.0
Density
0.5
0
2
Gennemsnit af 8 Uniform(0,1)
0.0
-1
1
.x
Gennemsnit af 4 Uniform(0,1)
-2
0
-1.0
-0.5
0.0
.x
0.5
1.0
0.0
0.4
Density
0.4
0.0
Density
0.8
Gennemsnit af 2 E(1)
0.8
Eksponential(1)
-2
0
2
4
-2
0
.x
2
.x
4
0.0 0.5 1.0 1.5 2.0
Density
0.4
Density
0.8
Gennemsnit af 16 E(1)
0.0
0
4
.x
Gennemsnit af 4 E(1)
-2
2
-1
0
1
.x
2
3
Approximation til binomialfordeling: X  bn, p
 Betingelse: n stor. I praksis skal np1 − p være mindst 5.
 Approximation: Hvis x er et heltal mellem 0 og n,
PX ≤ x ≃ 
x − np  0. 5
np1 − p
Leddet 0. 5 er en kontinuitetskorrektion. Baseret på CLT.
Approximation til Poissonfordeling: X Poisson
 Betingelse:  stor. I praksis skal  være mindst 10.
 Approximation: Hvis x er et heltal større end 0
x −   0. 5

Leddet 0. 5 er en kontinuitetskorrektion. Baseret på CLT.
PX ≤ x ≃ 
Modelcheck med QQ-plot
 Passer modellen godt til data x 1 , … , x n ?
 Sammenlign F med empirisk fordelingsfunktion:
antal x i mindre end eller lig x
F n x 
n
 Lad x 1 ≤  ≤ x n betegne de ordnede data.
 Bemærk at x i er en slags empirisk i/n-kvantil,
i ,
F n x i   ni ≈
n1
i
 For N,  2  er den teoretiske n1
-kvantil
x i ≈   z i ,
(ret linie med hældning ), hvor
i
z i  
n1





QQ-plot: Tegn punkterne z i , x i  op for i  1, … , n.
Afvigelserne fra den rette linie bliver mindre, jo større n er.
De største afvigelser ses i halerne.
Man bør se efter S-formede afvigelser eller krumning.
Har man flere datasæt, bør man se efter systematiske afvigelser
plottene.
Normal Q-Q Plot
-1
0
1
1
0
-1
2
-2
-1
0
1
Theoretical Quantiles
Normal Q-Q Plot
Normal Q-Q Plot
2
-3
-1
0
1
Theoretical Quantiles
2
3
0
-2
-4
-1
Sample Quantiles
2
1 2 3
Theoretical Quantiles
-3
Sample Quantiles
-2
-2
Sample Quantiles
0.0
-1.0
-2.0
Sample Quantiles
1.0
2
Normal Q-Q Plot
-4
-2
0
Theoretical Quantiles
2
4
 2 -fordelingen
 Symbol: X   2 
 Beskrivelse: Lad X  U 21    U 2 , hvor U 1 , … , U  er
uafhængige N0, 1 variable. Så er X   2   Ga/2, 1/2, dvs.
et specialtilfælde af gammafordelingen.
 Støtte: V X  R 
 Tæthedsfunktion:
fx  /2 1
x /2−1 e −x/2 for x  0,
2 Γ/2
hvor Γ er gammafunktionen.
 Fordelingsfunktion: Tabel D.6 side 485.
 Middelværdi og varians:
EX  
VarX  2
 Eksempler: Bruges f.eks. til  2 -test.
 R funktioner:
dchisqx, 
pchisqx, 
qchisqprob,  rchisqn, 
Students t-fordeling
 Symbol: X  t
 Beskrivelse: Lad U 1  N0, 1 og U 2   2  være uafhængige,
og lad
X  U1
U 2 /
Så er X  t.
 Støtte: V X  R
 Tæthedsfunktion:
2
Γ½  1
x
1 
fx 
 Γ½
−1/2
 Fordelingsfunktion: Tabel D.5 side 484.
 Middelværdi og varians:
for x ∈ R
EX  0 for   1
VarX   for   2
−2
 Eksempler: Bruges f.eks. til t-test.
 R funktioner:
dtx, 
ptx, 
qtprob,  rtn, 
Fishers F-fordeling
 Symbol: X  F 1 ,  2 
 Beskrivelse: Lad U 1 og U 2 være uafhængige  2 -variable  2  1 
og  2  2 , respektivt, og lad
U 1 / 1
X
U 2 / 2
Så gælder X  F 1 ,  2 .
 Støtte: V X  R 
 Tæthedsfunktion:
 1 /2−1
 1 / 2   1 /2
x
for x  0
fx 


/2

x
1
2
B½ 1 , ½ 2  1  1
2
 Fordelingsfunktion: Tabel (f.eks. Erlang S) eller R.
 Middelværdi og varians:
 2 for   2
2
2 − 2
2 22  1   2 − 2
VarX 
for  2  4
2
 1  2 − 2  2 − 4
EX 
 Eksempler: Bruges til F-test.
 R funktioner:
dfx,  1 ,  2 
pfx,  1 ,  2 
qfprob,  1 ,  2  rfn,  1 ,  2 
Andre kontinuerte fordelinger
Trekantfordelingen




Symbol:
Beskrivelse: Tæthedsfunktionen er en ligesidet retvinklet trekant.
Støtte: V X  −1, 1
Tæthedsfunktion:
fx  1 − |x | for |x |  1
 Fordelingsfunktion:
Fx 
1
2
1−
1  x 2
1
2
 Middelværdi og varians:
1 − x 2
for
−1 ≤ x ≤ 0
for
0x≤1
EX  0
VarX  1/6
 Eksempler: Bruges til at modellere måleusikkerhed. Indføres
position  og skala  fås tætheden
1 1− x−
fx  
for |x −  |  

Betafordelingen
 Symbol: X  Beta, 
 Beskrivelse: Lad U 1 og U 2 være uafhængige gamma variable
Ga, 1 og Ga, 1, respektivt, og lad
U1
X
U1  U2
Så gælder der X  Beta, .
 Støtte: V X  0, 1
 Tæthedsfunktion:
1 x −1 1 − x −1 for 0  x  1
fx 
B, 
hvor B,  er betafunktionen.
 Fordelingsfunktion: Tabel eller R.
 Middelværdi og varians:
EX 



VarX 
   2 1    
 Eksempler: Bruges til at modellere proportioner, f.eks. andelen af
udvundet kobber i minedrift.
 R funktioner:
dbetax, , 
pbetax, , 
qbetaprob, ,  rbetan, , 
Gammafordelingen
 Symbol: X  Ga, 
 Beskrivelse: Gammafordelingen X  Ga,  generaliserer både
 2 -fordelingerne og eksponentialfordelingen.
 Støtte: V X  R 
 Tæthedsfunktion:


fx 
x −1 e −x for x  0
Γ
 Fordelingsfunktion: Tabel eller R.
 Middelværdi og varians:
EX  

VarX  2

 Eksempler: Bruges til at modellere positive variable, som f.eks.
størrelsen af en forsikringsudbetaling.
 R funktioner:
dgammax, , 1/
pgammax, , 1/
qgammaprob, , 1/ rgamman, , 1/
Cauchyfordelingen
 Symbol: X  C, 
 Beskrivelse: Lad X  U 1 /U 2 , hvor U 1 og U 2 er uafhængige
N0, 1 variable. Så gælder X  C0, 1.
 Støtte: V X  R
 Tæthedsfunktion:
1
fx 
for x ∈ R
x− 2
 1    
 Fordelingsfunktion:
x−
1
1
−1
Fx 
  tan

2
 Middelværdi og varians:
for x ∈ R
EX findes ikke
VarX findes ikke
 Eksempler: Alternativ til normalfordelingen når variationen er
meget stor.
 R funktioner:
dcauchyx, , 
pcauchyx, , 
qcauchyprob, ,  rcauchyn, , 
Laplacefordelingen
 Symbol: X  Lap, 
 Beskrivelse: Forskellen mellem to uafhængige
exponentialfordelte variable.
 Støtte: V X  R
 Tæthedsfunktion:
fx  1 e −|x−|/ for x ∈ R
2
 Fordelingsfunktion:
Fx 
1
2
1−
 Middelværdi og varians:
e x−/
1
2
e −x−/
for
x
for
x≥
EX  
VarX  2 2
 Eksempler: Alternativ til normalfordelingen, når der bruges
median i stedet for gennemsnit.
Weibullfordelingen
 Symbol: X  W, 
 Beskrivelse: Grænsefordeling for minimum af uafhængige og
identisk fordelte variable.
 Støtte: V X  R 
 Tæthedsfunktion:

fx  x −1 e −x for x  0
 Fordelingsfunktion:

Fx  1 − e −x for x  0
 Middelværdi og varians:
EX   −1/ Γ1  1/
VarX   −2/ Γ1  2/ − Γ 2 1  1/
 Eksempler: Modellering af ekstremer (en kædes svageste led).
Paretofordelingen




Symbol: X  Par, 
Beskrivelse: Fordeling med tyk hale.
Støtte: V X  R 
Tæthedsfunktion:
 1  x/ −−1 for x ∈ R  .
fx  
 Fordelingsfunktion:
Fx  1 − 1  x/ − for x ∈ R  .
 Middelværdi og varians:
EX   for   1
−1
2

for   2
VarX 
2
 − 1  − 2
 Eksempler: Bruges til at modellere ekstremer.
Lognormalfordelingen
 Symbol: X  LogN,  2 .
 Beskrivelse: Lad X  expV, hvor V  N,  2 . Så gælder der
X  LogN,  2 .
 Støtte: V X  R 
 Tæthedsfunktion:
2
log
x
−

1
fx 
exp −
for x  0
2
2
x 2 2
 Fordelingsfunktion:
Fx  
 Middelværdi og varians:
log x − 

for x  0.
EX  exp  ½ 2 
VarX  exp2 
2

2

e
−1
 Eksempler: Bruges til at modellere positive variable.
 R funktioner:
dlnormx, , 
plnormx, , 
qlnormprob, ,  rlnormn, , 
Den todimensional normalfordeling
 Beskrivelse: Modellering af korrelerede normalfordelte variable.
 Støtte: V X,Y  R 2
 Tæthedsfunktion: For x, y ∈ R 2 er fx, y lig med
1
2 X  Y 1 −  2
1
 exp −
21 −  2 
x − X
X
2
x − X
− 2
X
 Fordelingsfunktion:
 Marginale fordelinger:
X  N X ,  2X 
Y  N Y ,  2Y 
y − Y
Y

y − Y
Y
2
 Betinget fordeling:
Y|X  x  N Y|x ,  2Y|x 
hvor
 Y x −  
 Y|x   Y   
X
X
 2Y|x   2Y 1 −  2 
 Middelværdi, varians, kovarians og korrelation:
EX   X og EX   Y
VarY   2X og VarY   2Y
CovX, Y   X  Y
X, Y  
 Eksempler: Modellering af korrelerede målinger, som f.eks.
højde og vægt for samme person.