分散と標準偏差

シェアする

データのばらつき具合を数値化する指標として、活用されるのが分散および標準偏差です。 データを要約して把握するのに、平均値は大変役に立ちますが、データを一点でのみしか示すことができません。平均値とデータのばらつきの 2つを知ると、どのようなデータなのかを把握することができます。

ばらつきも評価の対象となる

普段とても仲の良い井上君と木下君は、一緒に同じ英会話教室に通っています。これまでに何度か行ったテストの結果を見せ合うことにしました。100点満点のテストです。まず、平均点を出してみることとなりました。それぞれの平均点は、

  • 井上君  平均点 80点
  • 木下君  平均点 80点

平均点は、2人とも同じ80点です。なかなかの得点ですね。 5回行ったのテストの結果を見てみると、平均点は同じ80点といえども、個別の点数には違いが見られました。

  • 井上君 80点 70点 85点 83点 82点
  • 木下君 85点 70点 95点 60点 90点

1回目、2回目では同じくらいの点数ですが、 木下君は、3回目に95点の高得点をマークしたり、その反動で勉強しなかったのか4回目には点数を落として60点となっています。 木下君の方が気分にムラがあってテスト前の勉強量が変わるのでしょうか、点数にばらつきが出るようですね。

平均点は80で同じですので、平均点だけで2人のテスト結果を理解しようとすると、2人の実力は同じであると結論づけることになりそうですね。 しかし、5回のテストの点数をそれぞれ見ていくと、安定的に80点を取る井上君、よくなったり悪くなったりする木下君には、能力の違いがあります。

平均値ではなく、生のデータを個別にみていくとこの違いがわかります。データがどれだけばらついているのかは、データ数が5個や10個くらいであれば容易に読み取ることができるのですが、 データ数が50個、100個と多くなると、データを一つ一つ見ていくのは骨が折れますし、どのくらいバラついているのか理解が難しくなります。

こんなときに、ばらつきを表すことができる数値が、「標準偏差」です。

hyoujyunhensa

「標準偏差」と「分散」は密接な関係があります。「標準偏差」の2乗が「分散」になります。

hyoujyunhensa2

ふつう、データのばらつきは標準偏差で確認することになりますが、いろいろと計算する際に分散が活用されることが多々ありますから、両方とも知っておきましょう。

ばらつきを算出する

まずは分散の計算

では、このデータのばらつき度合を計算するにはどうしたらいいか。平均からどれだけばらついているのか、各データが平均からどれだけ離れているのか、まとめてみればいいのです。 平均からの差は、データの値から平均値を引いた値です。これを「偏差」といいます。

井上君と木下君のそれぞれのテスト結果の偏差を出してみましょう。

井上君 0 ,-10 ,5 ,3 ,2

木下君 5 ,-10 ,15 ,-20 ,10

となります。これを足し合わせればよさそうですが、ちょっと待ってください。 このまま足し合わせてしまうと、プラスの偏差とマイナスの偏差が打ち消しあって、値が0になってしまいます。偏差は、すべて足し合わせると値が0になる性質があるのです。

井上君 0+(-10)+5+3+2=0

木下君 5+(-10)+15+(-20)+10=0

0になってしまいました。このなようにプラスとマイナスが足し合わされて0にならないようにするため、偏差を2乗して全てプラスの符号に変えてしまい、これを足し合わせましょう。できあがる値は、偏差を2乗したものを足し合わせるので、「偏差平方和」といいます。

井上君 0+100+25+9+4=138

木下君 25+100+225+400+100=883

偏差平方和は、

  • 井上君 138
  • 木下君 833

です。この偏差平方和は、テストの回数が増えるほど数字は大きくなってしまいます。 10回テストを受ければ、上記した数値の2倍くらいの数値になってしまいそうです。何度テストを受けても同じばらつき度合であれば、同じ数値が出るように、 偏差平方和を受けたテストの回数で割ってやります。

井上君 138÷5

木下君 833÷5

ですから、分散は次のようになります。

  • 井上君 27.6
  • 木下君 166.6

これがデータのばらつき度合いを示す「分散」になります。

分散を計算するまでの流れのおさらい

  1. データから平均値を引いて偏差を出す
  2. 偏差を2乗する
  3. その数値を合計する
  4. データの数で割る

分散から標準偏差の計算

木下君の分散は、166.6の数値が出ています。100点満点のテストで、とった点数が70点をとったり90点なのに、166.6という数値がテストの点数のばらつきを示していますと言われても、しっくりこない数値に思えます。

分散の計算をはじめて最初のほうで、偏差を足し合わせても0になってしまわないように、偏差を2乗してマイナス符号を消したのでしたね。分散の数値のままでは2乗をしている状態ですから、大きな数値になっているのです。平方根をとって元に戻しましょう。

井上君 √27.6=5.2535

木下君 √166.6=12.9073

これが標準偏差となり、それぞれのテストの点数の散らばり度合、ばらつき度合を表す指標になります。井上君のテストの点数は、5.25のばらつき度合で、木下君のテストの点数は、12.90のばらつき度合です。

平均と標準偏差を見る

両者の点数は、

  • 井上君 80点 70点 85点 83点 82点
  • 木下君 85点 70点 95点 60点 90点

でしたね。平均点は80点です。

井上君の標準偏差は5.25です。5回のテスト点数は、平均点の80点から5.25点ばらついています。

木下君の標準偏差は12.90です。5回のテスト点数は、平均点の80点から12.90点ばらついています。

2人の各データを見て、この標準偏差の数値がばらつき度合を示すちょうど良い数値に感じますね。平均と標準偏差の2つの数値で、データがどのようなものなのか、大まかに把握することができるのです。

  • 井上君 平均 80、 標準偏差 5.2
  • 木下君 平均 80、 標準偏差 12.9

これを見ただけでもわかることがあります。

井上君は、90点を越えることは多くはなさそうだけど、調子が悪くても70点くらいの点数を取っているのかな。

木下君は、90点を越えることもあるけど、調子が悪いと60点台をとることもあるのだろうな。

2人がどんな点数の取り方をしているか、どんな違いがあるかを把握することができるのです。