Föreläsning 2 Introduktion Tabeller och diagram

Transcription

Grunder i statistisk metodik, ht 2015
Föreläsning 2
Genomsnitt och spridning
Jörgen Säve-Söderbergh
jorgen.save-soderbergh@liu.se
16 augusti 2015
F2
Numerisk sammanfattning av datamaterial
Tabeller utgör en sammanfattning av ett datamaterial. Vi har
reducerat data
i någon mån när vi åstadkommer en tabell.
Graska sammanfattningar utgör också sammanfattningar. T. ex.
histogrammet över vikterna för de fyrtio Cloetta konfektyrerna.
Nu vill vi göra en ännu starkare reduktion av ett datamaterial. Vi
vill göra en numerisk sammanfattning.
Vi skiljer på
lägesmått
och
spridningmått
efter vilken information vi
önskar från dem.
16 augusti 2015
F2
Numerisk sammanfattning av datamaterial
Ni är redan bekanta med några mått från tidigare studier.
Varje lägesmått hänger ihop med ett spridningsmått enligt följande
tabell:
Lägesmått
Spridningsmått
(Aritmetiskt) medelvärde
x
Standardavvikelse
Median
Kvartilavstånd
Typvärde
Variationsvidd
Typvärde och variationsvidd är konstruerade för variabler på
nominalskalenivå.
16 augusti 2015
F2
Ordnat stickprov
Antag att vi har
n=4
observationer
x1 = 9.34 x2 = 4.22 x3 = 0.56 x4 = 22.33.
Låt oss ordna dem i storleksordning, från minst till störst
x3 = 0.56 x2 = 4.22 x1 = 9.34 x4 = 22.33.
Det minsta värdet kallas
y4 .
y1 ,
det näst minsta
Dessa variabler benämns ibland
y2 .
Det största kallas
ordningsstatiskor.
Här har vi alltså
y1 = x3 y2 = x2 y3 = x1 y4 = x4 .
Det gäller alltid att
y1 ≤ y2 ≤ y3 ≤ y4 .
16 augusti 2015
F2
Percentiler
Antag att vi har ett datamaterial
För ett datamaterial
x1 , . . . , xn
x1 , . . . , xn
med
n
observationer.
önskar vi nna ett tal sådant
att 50% av observationerna benner sig till vänster om det.
Eller sådant att 25% av observationerna ligger till vänster.
I allmänhet önskar vi ett tal sådant att för en godtycklig
proportion 0
<p<1
är
Ett sådant tal kallas en
(100p)%
av observationerna mindre.
percentil.
Kända specialfall är
Kvartilerna (medianen)
Deciler (används ibland i samband med inkomster)
16 augusti 2015
F2
Att beräkna percentiler
Antag att vi har ett datamaterial
Beräkna ordningstatistikorna
Välj ett
p.
x1 , . . . , xn
med
n
observationer.
y1 , . . . , yn .
För att nna percentilen gör vi följande
Beräkna
(n + 1)p .
Om heltal, låt den
(n + 1)p :a
ordningstatistikan utgöra
percentilen.
Om
r :te
(n + 1)p = r + ba så används ett viktat
och (r + 1):a ordningstatistikorna:
Percentil = yr +
16 augusti 2015
F2
medelvärde av den
a
(yr +1 − yr )
b
Exempel: medianen md
(y1 = 0.56, y2 = 4.22, y3 = 9.34, y4 = 22.33)
Låt oss hitta medianen med denna metod. Då
p = 0.5,
1
1
2
2
blir
(n + 1)p = (4 + 1) = 2.5 = 2 + ,
alltså är
r =2
och
md = y2 +
1
2
a/b = 1/2.
(y3 − y2 ) = 4.22 +
16 augusti 2015
F2
1
2
(9.34 − 4.22) = 6.78.
Exempel: undre kvartilen q1
(y1 = 0.56, y2 = 4.22, y3 = 9.34, y4 = 22.33)
Låt oss nu hitta den undre kvartilen.
1
1
4
4
(n + 1)p = 5 = 1.25 = 1 + .
Därmed blir
r =1
q1 = y 1 +
1
4
och
a/b = 1/4.
(y2 − y1 ) = 0.56 +
16 augusti 2015
F2
1
4
(4.22 − 0.56) = 1.475.
Exempel: övre kvartilen q3
(y1 = 0.56, y2 = 4.22, y3 = 9.34, y4 = 22.33)
Slutligen, övre kvartilen.
3
3
4
4
(n + 1)p = 5 = 3.75 = 3 + ,
alltså
r =3
samt
q3 = y3 +
Med hjälp av
3
4
a/b = 3/4.
3
(y4 − y3 ) = 9.34 +
q1
och
q3
4
(22.33 − 9.34) = 19.0825.
kan vi beräkna
kvartilsavståndet
som
q3 − q1 = 19.0825 − 1.475 = 17.6075
Vi beräknar även
variationsvidden:
16 augusti 2015
22.33
F2
− 0.56 = 21.77
Boxplot (lådagram) I
En metod för att illustrera spridningen i datamaterial är
boxplot.
Vi ska rita en låda, där lådans vänsterkant ges av undre kvartilen
och högerkanten av den övre kvartilen.
Markera medianen med ett lodrätt streck genom lådan.
Drag linjer till det minsta värdet och det största värdet.
16 augusti 2015
F2
Boxplot (lådagram) II
16 augusti 2015
F2
Boxplot (lådagram) III - uteliggare
Om det nns extrema värden i datamaterialet, så måste detta
anges.
Vad betyder extremt ?
Observationer som ligger mer än 1.5 kvartilavstånd från
kallas
q1
eller
q3
uteliggare.
Om avståndet överstiger 3 kvartilavstånd kallas sådana
observationer för
avlägsna uteliggare.
16 augusti 2015
F2
Boxplot (lådagram) IV
I vårt datamaterial har vi
q1 = 1.475, q3 = 19.0825,
En uteliggare måste alltså vara mindre än
q1 − 1.5 (q3 − q1 ) = 1.475 − 1.5 (19.0825 − 1.475) = −24.9362
eller större än
q3 + 1.5 (q3 − q1 ) = 19.0825 + 1.5 (19.0825 − 1.475) = 45.4937.
Några sådana observationer nns inte i vårt datamaterial.
Men, nu lägger vi till 50
16 augusti 2015
F2
Boxplot (lådagram) V
Enligt Körner borde uteliggaren markeras med
använt
R
∗.
Här har jag
som markerar med en ring istället.
Det borde även nnas en linje från lådan till 22.33.
16 augusti 2015
F2
Exempel på följder av tal
Låt
x1 , x2 , . . . , xn
vara
n
st tal. Här följer några exempel på följder
av tal:
x1
x2
x3
x4
x5
1
2
3
4
5
x1
x2
x3
x4
x5
1
1
1
1
1
x1
x2
x3
x4
x5
1
2
4
8
16
eller
eller
Beteckningen
x1 , x2 , . . . , xn
kan alltså rymma många olika följder av
tal.
16 augusti 2015
F2
Summatecknet
Summan av
x1 , x2 , . . . , x5
skrivs som
x1 + x2 + x3 + x4 + x5 .
Hur ska vi skriva upp summor av väldigt många tal? Vi använder
den grekiska bokstaven stora sigma,
P
, på följande sätt
x1 + x2 + x3 + x4 + x5 =
5
X
xi .
i=1
Symbolkombinationen utläses som summan av
till 5.
Σ
kallas då
xi ,
då
i
går från 1
summatecknet.
16 augusti 2015
F2
Ytterligare exempel
Vi kvadrerar varje tal och adderar dem:
x12 + x22 + x32 + x42 + x52 =
5
X
xn2 .
n=1
Vi subtraherar det aritmetiska medelvärdet från varje observation
och adderar:
(x1 − x) + (x2 − x) + (x3 − x)
5
X
+ (x4 − x) + (x5 − x) =
(xk − x) = 0.
k=1
Vi kommer att möta summan
P5
16 augusti 2015
k=1 (xk
F2
− x)2
senare.
Lägesmått: aritmetiskt medelvärde: ogrupperat material
Antag att vi har
n
observationer
x1 , . . . , xn .
Ogrupperat material
x=
1
n
n
X
xi .
i=1
xi = värdena på observationerna, i = 1, 2, . . . , n
n = antalet observationer
Exempel: Sjutton observationer på
4
Här blir
7
2
9
17
X
i=1
7
2
1
20
xi = 135,
7
5
3
45
6
2
6
5
4
så x = 135
= 7.94
17
16 augusti 2015
F2
Egenskaper hos det aritmetiskta medelvärdetextremvärden
Nu visar det sig att de bägge observationerna 20 och 45 var
felregistrerade. De skulle vara 2 och 5 istället.
Då har vi:
17
X
i=1
xi = 77,
77
så x = 17
= 4.53
Ni kan bekräfta att medianen är 5 i bägge dessa fall.
Det aritmetiska medelvärdet påverkas mycket starkt av extrema
variabelvärden.
Om fördelningen är sned, så kommer medelvärdet att dras upp
(eller ner) av de höga variabelvärdena.
16 augusti 2015
F2
Lägesmått: aritmetiskt medelvärde: grupperat material
Antag att vi har
n
observationer
x1 , . . . , xn .
Om vi har skapat en
frekvenstabell av våra observationer, så har vi
grupperat
vårt
material.
Grupperat material
x=
1
n
n
X
fi x i .
i=1
xi = olika variabelvärden, i = 1, 2, . . . , n
fi = frekvensen för det i:te variabelvärdet, i = 1, 2, . . . , k
16 augusti 2015
F2
Exempel på ett grupperat material
Vi återvänder till vårt exempel angående matematikbetygen.
Betyg (xi )
Frekvens (fi )
1
2
2
5
3
9
4
6
5
3
25
16 augusti 2015
F2
Grupperade data - lägesmåttmotivering
För medelvärdet ska vi ju beräkna
Summan av observationerna
Antalet observationer, d v s n .
Den önskvärda summan kommer vi åt genom konstruktionen
f1 x1 + f2 x2 + · · · + fk xk =
k
X
fi xi .
i=1
Alltså erhåller vi medelvärdet genom kvoten
Pk
x=
16 augusti 2015
i=1 fi xi
n
F2
.
Grupperade data - lägesmått - exempel
Låt oss beräkna det genomsnittliga matematikbetyget i vårt
exempel.
xi
fi
1
2
2
2
5
10
3
9
27
4
6
24
5
Av tabellen vet vi att
fi xi
3
15
25
78
Pk
i=1 fi xi
= 78.
Pk
x=
i=1 fi xi
n
16 augusti 2015
=
F2
Alltså blir
78
25
= 3.12.
Spridningsmått
Variationen i alla datamaterial är (förstås) inte lika stor.
Två datamaterial kan ha samma medelvärde, men ändå vara olika
spridda.
Vi behöver ett mått på spridningen.
16 augusti 2015
F2
Kvadratsumman kring det aritmetiska medelvärdet
P5
i=1 (xi − x) = 0, men detta öde gäller inte
2
i=1 (xi − x) om inte alla observationerna är exakt lika.
Som
P
5
vi såg ovan är
Låt oss meditera över uttrycket
n
X
(xi − x)2 = (x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2
i=1
Om alla
xi = a
blir
Pn
i=1 (xi
− x)2 = 0.
Det nns ingen
spridning, så det är rimligt.
Om alla
xi
ligger nära
x
blir
Pn
i=1 (xi
− x)2
liten. Då nns liten
spridning och vi får ett (mindre) tal.
Om alla
xi
ligger långt från
x
blir
Pn
i=1 (xi
− x)2
större än i de
andra fallen. Då nns större spridning och vi får ett större tal
(än tidigare).
Alltså verkar detta uttryck fungera som vi vill.
16 augusti 2015
F2
Variansen och standardavvikelsen
Om vi delar kvadratsumman med antalet observationer som den
bygger på
Pn
i=1 (xi
erhåller vi det som kallas
− x)2
n
genomsnittlig avvikelse.
n − 1 så
Pn
(xi − x)2
2
s = i=1
n−1
Av olika skäl delar vi med
som kallas
(stickprovs)variansen.
För att bli av med eekten av att vi kvadrerar tar vi kvadratroten
ur variansen
sP
s=
och erhåller därmed
n
i=1 (xi
− x)2
n−1
standardavvikelsen.
16 augusti 2015
F2
Beräkningsformel
Pn
2
s =
i=1 (xi
− x)2
n−1
I vårt exempel ovan såg vi att
att
n
X
2
i=1 xi = 2829.
Pn
2
(xi −x) =
n
X
2
xi −
i=1
i=1
Då
Pn
=
Pn
n = 17
1
n
n
X
2
i=1 xi
i=1 xi
P
− n1 ( ni=1 xi )2
n−1
= 135.
!2
xi
Man kan även visa
blir
= 2829−
i=1
1
17
×1352 = 1756.941176
Alltså blir
s2 =
1756.941176
16
= 109.8088235 ⇒ s = 10.47897
16 augusti 2015
F2
Grupperade data - spridningsmått
Vi ska deniera variansen och standardavvikelsen i fallet med
grupperade data.
Variansen mäter ju
Summan av de kvadrerade avvikelserna fran medelvardet .
n−1
Summan ges i detta fall av
2
2
2
f1 (x1 − x) + f2 (x2 − x) + · · · + fk (xk − x) =
k
X
fi (xi − x)2 .
i=1
Kvoten
2
s =
Pk
(xi − x)2
n−1
i=1 fi
stickprovsvariansen.Tar vi den positiva kvadratroten
erhåller vi standardavvikelsen som betecknas s .
ges oss
16 augusti 2015
F2
ur
s2
Grupperade data - spridningsmått - beräkningsformel
Det är ansträngande och oklokt att beräkna
Pk
i=1 fi
(xi − x)2
precis som ovan. Med liknande metoder kan man visa att
k
X
2
fi (xi − x) =
k
X
2
fi x i −
i=1
i=1
1
n
k
X
!2
fi xi
i=1
Vi återvänder till exemplet med betygen:
fi x i
xi2
2
2
1
2
5
10
4
20
3
9
27
9
81
4
6
24
16
96
5
3
15
25
25
78
xi
fi
1
2
16 augusti 2015
fi xi2
75
274
F2
Grupperade data - spridningsmått - exempel
Kvadratsumman blir alltså
k
X
2
fi (xi − x) =
k
X
2
fi x i −
i=1
i=1
1
k
X
n
!2
fi xi
= 274 −
i=1
78
2
25
= 30.64
och därmed har vi
s2 =
samt
30.64
25
−1
= 1.2767,
s = 1.1299.
16 augusti 2015
F2
Lägesmått: aritmetiskt medelvärde: klassindelat material
Antag att vi har
n
observationer
x1 , . . . , xn
(som vi inte kan få tag
i) och som redan är klassindelade.
x=
1
n
k
X
fi x i .
i=1
xi = klassmitten i den i :te klassen, i = 1, 2, . . . , n
fi = frekvensen för den i :te klassen, i = 1, 2, . . . , k
k = antalet klasser
16 augusti 2015
F2
Man har mätt etthundrafemtio telefonsamtal som är slumpmässigt
utvalda under en månad hos ett företag. Vi mäter i minuter.
Vi bestämmer
Samtalets
Antal
längd
samtal
1.02.9
9
3.04.9
39
5.06.9
45
7.08.9
42
9.010.9
11
11.012.9
4
klassmitterna:
x1 =
0.95
+ 2.95
2
= 1.95,
alltså medelvärdet av undre och övre klassgränsen.
16 augusti 2015
F2
Vi beräknar
Pk
i=1 fi xi genom nedanstående tabell:
fi
xi
fi xi
1.02.9
9
1.95
17.55
3.04.9
39
3.95
154.05
5.06.9
45
5.95
267.75
7.08.9
42
7.95
333.90
9.010.9
11
9.95
109.45
11.012.9
4
11.95
47.80
150
930.50
Alltså blir medelvärdet
x=
1
n
k
X
i=1
fi x i =
1
150
16 augusti 2015
6
X
fi xi =
i=1
F2
930.50
150
= 6.20
Variationskoecienten
Genom att använda standardavvikelsen kan vi deniera ett mått på
en variabels
relativa spridning.
Variationskoecient=
standardavvikelse
medelvärde
× 100%
Alltså i formler
Variationskoecient=
16 augusti 2015
F2
s
x
× 100%
Tolkning av standardavvikelsen
Normalfördelningsregeln
säger att ca 68% av observationerna
benner sig mellan gränserna
x −s
och
x + s.
Omkring 95% av observationerna ligger mellan
x − 2s
och
x + 2s .
Datamaterialets histogram måste ungefär se ut som
normalfördelningen(klockform).
16 augusti 2015
F2

Föreläsning 2 Introduktion Tabeller och diagram

Transcription

Similar documents

Föreläsning 1 Introduktion Tabeller och diagram

LOGONOMPROGRAMMET TERMINSPLAN Vårtermin 2015

Länk - Statistiska institutionen

Matematikprov – Tabeller, diagram och lägesmått - Årbyskolan 4-6b

Välkommen till Statistiska institutionen HT 2012 Welcome to

Schema klinisk kemi 5hp VT. 2015 - Ping-Pong

TREDJE AP-FONDEN ERBJUDER EXAMENSARBETE

Checklista inför det nationella provet i Matematik B

Framgångsrik agil kravhantering (PDF – 323 kB).

Tio-i-topp