1 (Mean, Sample mean, Average) 標本平均 3,4
Transcription
1 (Mean, Sample mean, Average) 標本平均 3,4
国際教養学部数理統計第 3,4 回 火曜 4 時限 担当 宮田 標本平均 (Mean, Sample mean, Average) 1 データ x1 , x2 , ..., xn に対して, 全てのデータを足して, それをデータの個数で割ったもの x ¯= x1 + x2 + · · · + xn n (1) 1∑ xi と表せる. n n を標本平均という. ここで Σ 記号を用いると x ¯= i=1 標本平均はデータが大体 どこを中心に分布 しているかを表しています. 【例 1】 データ 5, 7, 1, 2, 4 の標本平均は, x1 = 5, x2 = 7, ..., x5 = 4 とすると x ¯= x1 + x2 + · · · + x5 5+7+1+2+4 = = 3.8 5 5 となります. 次にデータの散らばりの度合いを表す指標として, 標本分散というものを紹介します. 標本分散 (Variance of a sample) 2 データ x1 , ..., xn が与えられたとき, 標本分散 s2 = s2 は次のように定義する. (x1 − x ¯)2 + (x2 − x ¯)2 + · · · + (xn − x ¯ )2 n−1 1∑ 1 ∑ ここで x ¯= xi とする. Σ 記号を用いると s2 = (xi − x ¯)2 と表せる. また n n−1 n n i=1 i=1 v u √ u 2 s= s =t 1 ∑ (xi − x ¯ )2 n−1 n i=1 とおき,この s のことを x1 , ..., xn の標準偏差 (Standard deviation) と呼ぶ. 標準偏差もデー タのばらつきを表す 1 つの指標です. 2.1 標本分散の意味 ) 1 ( (x1 − x ¯)2 + (x2 − x ¯)2 + · · · + (xn − x ¯)2 において,(x1 − x ¯)2 という項は x ¯ n−1 と x1 がどれだけ離れているかを表しています. 例えば x ¯ = 3.8 としたときには x1 = 5 に対して は (5 − 3.8)2 = 1.44 となりますが,x2 = 7 に対しては (7 − 3.8)2 = 10.24 となります. つまり x ¯ 2 から離れていればいるほど大きな値をとるということです. 同様にして (x2 − x ¯) , · · · , (xn − x ¯)2 も x2 , ..., xn が x ¯ からどれだけ離れているかを表しています. 標本分散 s2 = 1 このため, 標本分散は 標本平均からだいたい平均的に見てどれくらい離れているか を表します. ここで標本分散のイメージとしては下のヒストグラムを見てください. 標本分散が小さい 標本分散が大きい 【例 2】 【例 1】のデータにおいて 標本分散 s2 は (x1 − x ¯)2 + (x2 − x ¯)2 + · · · + (x5 − x ¯)2 5−1 2 (5 − 3.8) + (7 − 3.8)2 + · · · + (4 − 3.8)2 = 4 1.44 + 10.24 + 7.84 + 3.24 + 0.04 22.8 = = = 5.7 4 4 s2 = 2.2 となります. 標本分散の計算公式 上の例を見てもらうとわかるように, 標本分散 s2 の計算は意外と大変です. この計算を若干簡 単にするための計算公式があります. 1 x21 + · · · + x2n − (x1 + · · · + xn )2 n s2 = . n−1 問 1 (p65, 2.16. c.) You are given n = 8 measurements: 3, 1, 5, 6, 4, 4, 3, 5. Then, calculate the sample variance and standard deviation. z-スコア (z-score), 標準化 (standardization):試験範囲外 3 データ x1 , ..., xn に対して, x ¯= n n 1 ∑ 1 ∑ xi で s2 = (xi − x ¯)2 とします. この時, 次の変換 n i=1 n − 1 i=1 を考えます. x1 − x ¯ x2 − x ¯ xn − x ¯ , z2 = , · · · , zn = s s s この変換を標準化と呼び, z1 , ..., zn のことを z-スコアと呼びます. また分母 s は標準偏差になっ ていることに注意してください. 式から分かるように, z-スコアは平均値 x ¯ からどれだけずれてい るかを表しています. 特に zi > 0 で大きな値をとればとるほど, データ xi は平均値 x ¯ より大きく 離れていることがわかり, zi < 0 で小さな値をとればとるほど, データ xi は平均値 x ¯ より低い点数 で離れていることがわかります. z1 = 3.1 なぜ標準偏差 s で割る必要があるのですか? 20 人のクラスに対して, 数学と英語のテストを行った時, 以下の結果が得られたとしましょう. 2 A B C D E 数学 英語 47 73 68 79 70 58 70 65 73 69 F G H I J 数学 英語 61 63 87 76 69 64 66 82 72 68 K L M N O 数学 英語 56 30 63 60 82 62 50 67 65 78 数学 英語 88 65 69 98 56 75 68 70 80 58 P Q R S T ここで数学と英語の平均は共に 68 点となります. この時 O さんの数学 82 点と H さんの英語 82 点どちらが価値があるのかを考えて見ましょう. 実は数学と英語の平均点を直線上に点をうってい くと, 以下のようになります。 つまり英語の方はたいていの生徒が 68 点付近の点数を取っている中での 82 点であって, 一方で数 学の方は 68 点からの散らばり具合が大きいので, 80 点台をとった人も何人かいるなかでの 82 点 ということになります. つまりは英語の 82 点の方が価値があるということになります. z-スコア では, データの散らばり具合も考慮にいれた上での平均値 x ¯ からの離れ具合を測っていることにな ります。実際, 数学の標準偏差は 14.9, 英語の標準偏差は 7.5 から 82 − 68 = 0.94 (O さんの数学の z-スコア) 14.9 82 − 68 z= = 1.87 (H さんの英語の z-スコア) 7.5 z= となり, 英語の 82 点の方が価値が高いことが分かります。 問 2 プリントの【例 1】のデータ 5, 7, 1, 2, 4 に対して, 観測値 1 の z-score を求めよ. (ただし x ¯ = 3.8,s2 = 5.7 は分かっている) 3.2 z-score の応用 z-score は平均値からの離れ具合を表しているので, 外れ値を発見するために用いられことがあ ります。これは z-score の絶対値 > 3 =⇒ 3 >z-score の絶対値 > 2 =⇒ その測定値はほとんど起こらない (very unlikely) → 外れ値の可能性が高い その測定値は起こりずらい (somewhat unlikely) 値である となります. ただしこれはデータの数が少ないとうまくいきません。(つまり外れ値であっても z-score は 2 より小さい値をとります) 問3 ⃝ ¯ ≑ 2.1 で標準偏差は s ≑ 2.46 で 1 14 個のデータ 1,1,3,2,1,1,0,10,2,3,2,0,1,2 の平均値は x あった. このとき観測値 10 の z-score を求めよ. また 10 は外れ値かどうか? ⃝ 2 (データ数が少ないときの例) データ 0, 1, 2, 1, 16 における観測値 16 の z-score を求めよ. 3 3.3 z-score のその他の性質 どんなデータであっても標準化することにより平均 0, 分散 1 のデータに変換できます. 即ち 1∑ zi = 0, n n z¯ = 1 ∑ (zi − z¯)2 = 1. n−1 n s2z = i=1 i=1 より具体的な例として、アサガオの丈の長さを測ったところ 38cm, 74cm, 80cm, 86cm, 122cm だったとしましょう. この時, 標本平均 x ¯ = 80 で, 分散 s2x = 900 より最初のデータ 38 は 7 38 − 80 √ =− 5 900 となります. 残りの 74, 80, 86, 122 も同様にして変換すると左下の表のようになります. 元のデータ (cm) z-score 元のデータ (m) z-score 38(x1 ) − 75 0.38(y1 ) − 75 74(x2 ) − 15 0.74(y2 ) − 15 80(x3 ) 0 0.8(y3 ) 0 1 1 86(x4 ) 0.86(y4 ) 5 5 7 7 122(x5 ) 1.22(y ) 5 5 5 一方で、このデータをメートルを使って表すと 0.38m, 0.74m, 0.8m, 0.86m, 1.22m となります. この時, 標本平均 y¯ = 0.8 で, 分散 s2y = 0.09(これはメートルで表されたデータの分散) となること から最初のデータ 0.38 は 7 0.38 − 0.8 √ =− 5 0.09 となります. 残りの 0.74, 0.8, 0.86, 1.22 も同様にして変換すると右上の表のようになります. 結局、何が分かったかというと、標準化されたデータ (つまり z-score) は単位の影響を受けない ということです. 総和記号 4 Σ 記号を用いて a1 + a2 + · · · + an を n ∑ (ai )2 = (a1 )2 + (a2 )2 + · · · + (an )2 , i=1 n ∑ ai という記号で省略して書く. この記号を用いると, i=1 n ∑ (ai + 5) = (a1 + 5) + (a2 + 5) + · · · + (an + 5) となる. i=1 解答 p65 2.16 a. R = 6 − 1 = 5. b. 表より x ¯= 31 . c. 表より, 8 137 − (31)2 /8 分散の計算公式を用いると, s2 = ≑ 2.41. これより 8−1 √ s = 2.41 ≑ 1.55. d. 5/1.55 ≑ 3.23. 1 − 3.8 問 2 s ≑ 2.39 より z-score= ≑ −1.17. 問 3 ⃝ 1 z = 2.39 10 − 2.1 = 3.21. これより 10 は外れ値の可能性が高い. 2.46 16 − 4 ⃝ ¯ = 4, 標準偏差 s ≑ 6.75 より, z = = 1.78. ここで 16 と 2 x 6.75 いう観測値は外れ値の可能性が高いのに, z-score がうまく働いてい ない点に注意! 計 x 1 3 3 4 4 5 5 6 31 x2 1 9 9 16 16 25 25 36 137 連絡先 E-mail:ymiyatagbt@tcue.ac.jp URL:http://www1.tcue.ac.jp/home1/ymiyatagbt/solution.html セメスターを通じての注意点 • course navi で連絡するとき (特に試験前) があるので、Waseda-net で適宜確認すること. • 返却された宿題は, 成績が確定するまで捨てないこと. 4