標準偏差および分散は、データのばらつき具合を数値化する指標として活用されるものです。
データを要約して把握するのに平均値は大変役に立ちますが、それだけだとデータを一点でのみしか示すことができません。平均値とデータのばらつきを示す標準偏差の2つを知れば、どのようなデータなのかをより把握することができます。
この記事では、標準偏差とは何をあらわすものなのか、その意味や計算方法について説明します。その次に例題をあげて計算の流れをたどります。
長い文章になりますので、ゆっくりとお読みください。
標準偏差の意味
標準偏差とはデータのばらつき度合いを示すものです。
たとえば、ある高校の100点満点のテスト結果で考えてみます。このテストの平均は60点でした。
各学生の点数を見ていくと、平均点と同じ60点の人もいれば、平均点よりも低い50点の人、40点の人もいます。逆に平均点よりも高い70点の人、80点の人もいます。
テストの点数はさまざま値で、分布していますよね。
これが「ばらつき」です。テストの点数は、ばらついています。
平均から離れた値である30点や20点などの低い得点、また90点や100点の高い得点をとった人が多くなればなるほど、ばらつき度合いが大きくなります。
逆に、全員が50点、60点、70点など、平均点の60点に近い点数をとったのであれば、ばらつきは小さいです。
このような「ばらつきが大きいのか小さいのか」を一つの数値で示す指標が、標準偏差です。
標準偏差の計算方法
標準偏差\(s\)の計算式は、こちらです。
$$s=\sqrt{\frac{1}{n}\sum_{i=1}^n (x_i -\bar{x})^2}$$
\(a\)、\(b\)、\(c\) の3つのデータの標準偏差を求めてみましょう。
まず、平均値\(\bar{x}\) を求めます。
$$\bar{x}=\frac{(a+b+c)}{3}$$
次に、各データの偏差を計算します。偏差は、あるデータの値から平均値の差のことです。
$$a-\bar{x}, b-\bar{x}, c-\bar{x}$$
次に、各データの偏差を二乗し、足し合わせます。偏差を二乗せずに足し合わせると、0 になってしまいますので、二乗をしてそうならないようにします。
$$(a-\bar{x})^2+(b-\bar{x})^2+(c-\bar{x})^2$$
そして、データ個数で割ります。この値が分散と呼ばれるものです。
$$\frac{(a-\bar{x})^2+(b-\bar{x})^2+(c-\bar{x})^2}{3}$$
最後に、平方根をとったものが、標準偏差です。最初に二乗をしたぶん、もとに戻す意味合いがあります。
$$\sqrt{\frac{(a-\bar{x})^2+(b-\bar{x})^2+(c-\bar{x})^2}{3}}$$
これが標準偏差 \(s \)の計算方法です。
データ数が\(n\)個のときの標準偏差の計算式は、
$$s=\sqrt{\frac{1}{n}\sum_{i=1}^n (x_i -\bar{x})^2}$$
となります。
シグマ記号 \(\sum_{i=1}^n \) の意味
そのあとにあるものをi個目から \(n\)個目まで足し合わせるという意味の記号です。
\(\sum \)の記号の下に書かれた数字がデータの何個目から計算開始するるかという始まりを指していて、i=○○と書かれます。記号の上に書かれた数値が、何個目のデータで計算終了にするかという終わりを指しています。
\(\sum\)の記号の真上と真下に数字が書かれることもあれば、\(\sum_{i=1}^n\) のように右側の上と下に書かれることもあります。
\(\sum_{i=1}^n\) は、i=1 ですから、データの1個目から \(n\)番目まで足し合わせるという意味になります。
$$\sum_{i=1}^n (x_i -\bar{x})^2$$
は、データ1個目の偏差を二乗したもの、データ2個目の偏差を二乗したもの、…データ \(n\)個目の偏差を二乗したものを、すべて足し合わせる意味です。
それでは、実際に例題をつかって標準偏差を計算してみましょう。登場してもらうのは、井上君と木下君の二人です。二人のテスト点数の標準偏差を計算してみます。
平均値だけでなく、ばらつきも評価の対象となる
平均は同じでも内容は違う
普段とても仲の良い井上君と木下君は、一緒に同じ英会話教室に通っています。
これまでに5回ほど行った英語テストの結果を見せ合うことにしました。100点満点のテストです。まず、平均点を出して見てみることとなりました。それぞれの平均点は、
- 井上君 平均点 80点
- 木下君 平均点 80点
平均点は、2人とも同じ80点です。なかなかの得点ですね。5回行ったのテストの結果を見てみると平均点は同じ80点といえども、個別の点数には違いが見られました。
5回のテストの得点を並べてみました。
名前 | 1回目 | 2回目 | 3回目 | 4回目 | 5回目 |
---|---|---|---|---|---|
井上君 | 80点 | 70点 | 85点 | 83点 | 82点 |
木下君 | 85点 | 70点 | 95点 | 60点 | 90点 |
1回目、2回目では両者ともに同じくらいの点数ですが、 3回目、4回目、5回目には点数に違いが見られます。
井上君は、安定的に80点前後の点数を取り続けています。
一方、木下君は、3回目に95点の高得点をマークしたり、その反動で勉強しなかったのか4回目には点数を落として60点となっています。
木下君の方が気分にムラがあってテスト前の勉強量が変わるのでしょうか、点数にばらつきが出るようですね。
二人の平均点は80点で同じです。平均点が同じなのだから二人の成績や実力も同じなのでしょうか?
平均点だけで二人のテスト結果を理解しようとすると、2人の実力は同じであると結論づけることになりそうです。
しかし、それは間違いです。
5回のテストの点数をそれぞれ見ていくと…、
- 安定的に80点を取る井上君
- よくなったり悪くなったりする木下君
この二人には、能力の違いがあることがわかります。
言い換えると、井上君は点数のばらつきが小さく、木下君の点数のばらつきは大きい、ということです。
標準偏差で、ばらつき度合いを知る
平均値ではなく生のデータを個別にみていくと、この違いがわかります。
でも、データがどの程度ばらついているのかは、データ数が多くなると読み取りにくくなるのですよね。
データ数が5個や10個くらいであれば容易に読み取ることができるのですが、 データ数が50個、100個と多くなると、データを一つ一つ見ていくのは骨が折れますし、どのくらいバラついているのか理解が難しくなります。
こんなときに活躍するのが、ばらつきを表すことができる数値である「標準偏差」です。
$$s=\sqrt{\frac{1}{n}\sum_{i=1}^n (x_i -\bar{x})^2}$$
※\(s\)は標準偏差を表す記号です
標準偏差を計算し、見てみることで、データのばらつき度合いを知って、評価をすることができるようになります。
この二人の点数の標準偏差を計算してみましょう。
計算の順番としては、まず分散とよばれるものを計算した後に、そこから標準偏差を計算することになります。
「標準偏差」と「分散」は密接な関係があります。「標準偏差」の二乗が「分散」です。
ふつう、データのばらつきは標準偏差で確認することになりますが、統計学の計算で分散が活用されることが多々ありますから、両方とも知っておきましょう。
標準偏差を計算する
まずは分散の計算をする
データのばらつき度合を計算するにはどうしたらいいのでしょうか。
平均からどの程度ばらついているのか、各データが平均からどれだけ離れているのかをまとめて、その平均をとってみればいいのです。
ちょうど分散という数値を計算する方法が、そのような計算方法になっています。
分散の計算方法は、
- データから平均値を引いて偏差を出す
- 偏差を二乗する
- その数値を合計する
- データの数で割る
です。
そして、分散の平方根(二乗根)をとったものが標準偏差です。
偏差を計算する
まず各データの値から平均値を引いた値を計算します。これを「偏差」といいます。
井上君と木下君のそれぞれのテスト結果から平均点の80点引いて、偏差を出してみましょう。
\(0 ,-10 ,5 ,3 ,2\)
\(5 ,-10 ,15 ,-20 ,10\)
と、なりました。
これを足し合わせればよさそうですが、ちょっと待ってください。
このまま足し合わせてしまうと、プラスの偏差とマイナスの偏差が打ち消しあって、値が0 になってしまうだけです。
偏差は、すべて足し合わせると値が0 になる性質があるのです。
\(0+(-10)+5+3+2=0\)
\(5+(-10)+15+(-20)+10=0\)
0 になってしまいました。さて、どうしたものでしょう。
偏差を二乗して合計する
この対策としては、二乗をすることです。
プラスとマイナスが足し合わされて0 にならないようにするため、偏差を二乗して全てプラスの符号へと変えてしまいます。これを足し合わせましょう。
できあがる値のことを、偏差を二乗したものを足し合わせるので「偏差平方和」といいます。
偏差を二乗して足し合わせます。
\(0^2+(-10)^2+5^2+3^2+2^2\)
\(5^2+(-10)^2+15^2+(-20)^2+10^2\)
すると
\(0+100+25+9+4=138\)
\(25+100+225+400+100=850\)
偏差平方和は、
- 井上君 \(138\)
- 木下君 \(850\)
となりました。
データの数で割ると分散になる
この偏差平方和は、テストの回数が増えるほど数字は大きくなってしまいますよね。
10回テストを受ければ、上記した数値の2倍くらいの数値になってしまいそうです。
テストの回数に関わらず、ばらつき度合が同じであれば、その指標も同じ数値が出るようにしたいですね。
偏差平方和を受けたテストの回数で割ってやります。
平均をとるようなイメージです。
ですから、次の値になります。
- 井上君 \(27.6\)
- 木下君 \(170.0\)
これがデータのばらつき度合いを示す「分散」です。
分散\(s^2\)を計算するまでの流れのおさらい
- データから平均値を引いて偏差を出す
- 偏差を二乗する
- その数値を合計する
- データの数で割る
$$s^2=\frac{1}{n}\sum_{i=1}^n (x_i -\bar{x})^2$$
※\(s^2\)は、分散をあらわす記号です。
分散から標準偏差の計算
木下君の分散は 170.0 の数値が出ています。この 170.0 という数値がテストの点数のばらつきを示しています。
しかし、100点満点のテストで、とった点数が70点や90点であったのに 170.0 という数値が点数のばらつきを示していると言われても、しっくりこない数値に思えますよね。
分散の計算をはじめて最初のほうで、偏差を足し合わせても0 になってしまわないように、偏差を二乗してマイナス符号を消したのでしたね。
分散の数値のままでは二乗をしている状態であるから、大きな数値になっているのです。
平方根をとって元に戻しましょう。
これが標準偏差です。
それぞれのテストの点数の散らばり度合、ばらつき度合を表す指標になります。井上君のテストの点数は 5.25 のばらつき度合で、木下君のテストの点数は 13.03 のばらつき度合です。
平均と標準偏差を見て評価をする
両者の点数は、
名前 | 1回目 | 2回目 | 3回目 | 4回目 | 5回目 |
---|---|---|---|---|---|
井上君 | 80点 | 70点 | 85点 | 83点 | 82点 |
木下君 | 85点 | 70点 | 95点 | 60点 | 90点 |
でしたね。平均点は80点です。
井上君の標準偏差は 5.25 です。5回のテスト点数は、平均点の80点から5.25点ばらついています。
木下君の標準偏差は 13.03 です。5回のテスト点数は、平均点の80点から13.03点ばらついています。
2人の各データを見て、この標準偏差の数値が、ばらつき度合を示すちょうど良い数値に感じませんか。
平均と標準偏差の2つの数値で、データがどのようなものなのか、大まかに把握することができるのです。
- 井上君 平均 80、 標準偏差 5.2
- 木下君 平均 80、 標準偏差 13.0
これを見ただけでもわかることがあります。
- 井上君は、90点を越えることは多くはなさそうだけど、調子が悪くても70点以上の点数は取っているかな。
- 木下君は、90点を越えることもありそうだけど、調子が悪いと60点台をとることもあるのだろうな。
2人がどんな点数のとり方をしているか、どんな違いがあるかを、平均値と標準偏差が示してくれます。
まとめ
標準偏差とはデータのばらつき度合いを示す指標。
データを見るときには、平均値に加えて、標準偏差も見ることで、データの中身をより把握できるようになります。
標準偏差\(s\) を計算するまでの流れのおさらい
- データから平均値を引いて偏差を出す
- 偏差を二乗する
- その数値を合計する
- データの数で割る
- 平方根(二乗根)をとる
標準偏差\(s\) の計算式は、
$$s=\sqrt{\frac{1}{n}\sum_{i=1}^n (x_i -\bar{x})^2}$$
です。
分散\(s^2\) の平方根が標準偏差\(s\) であるので、分散\(s^2\) の計算式は、
$$s^2=\frac{1}{n}\sum_{i=1}^n (x_i -\bar{x})^2$$
です。
コメント
55年ぶりに統計の勉強にはまりました。月日の経過は忘却という結論に辿り着きました。突然救いの神がおりてきました。このサイトの小さな子に教えるような解説に驚き公文式の勉強のようです。こんな教え方の先生が全国の学校にいるなら、不登校0の可能性は100%でしょう。統計学が十分理解できない学生が一人でもこのサイトに辿り着くことを祈るばかりです。
コメントありがとうございます。役に立ててうれしいです。わかりやすい記事を書けるようより精進していきます。
上記の方が記されているように素晴らしくよくわかる解説です。
月並みな表現ですあ「目からうろこが落ちる」です。
社員の説明に使わせて頂きます。ありがとうございました。
コメントありがとうございます。よくわかると思ってくださり、役に立ててもらえて、うれしいです。
なんとなく知ったつもりでいた標準偏差が、きわめてよく理解でき、感動してしまいました。普段、こういうメールはしない方なのですが、あまりに素晴らしいのでお便りしました。この論調で統計学の本でも出版されたらいがかでしょうか?ありがとうございました。