データの偏差の絶対値をとり、それらを平均した値が平均偏差です。絶対偏差ともいいます。
これは、データのばらつき度合いをあらわす指標。
計算をしながら、どのような指標なのかを見ていきます。
平均偏差の求め方
次のような5人の身長データがあります。絶対平均を計算のために、5つの身長データをこしらえてきました。
まず、各データの偏差をとります。偏差とは、各データから平均値を引いたものです。
この5つのデータの平均は、173cmです。
168、169、172、175、181
の各データから平均値の173cmを引くと
-5、-4、-1、 2、 8
となります。各データから平均値を引くと、このように正の値ができたり、負の値ができたりします。このまますべてを足し合わせると、0となってしまいます。平均値とはそういう性質のものです。
(-5)+(-4)+(-1)+ 2+ 8 = 0
そこで、絶対値をつかってみましょう。正(プラス)、負(マイナス)を関係なく考えた値が絶対値です。各偏差の絶対値は、
5 + 4 + 1 + 2 + 8
となりますね。これら各データの偏差の絶対値を足し合わせます。偏差の絶対値5つ分が足し合わさったので、それをデータ数5で割ってやると、平均偏差の値となります。
(5 + 4 + 1 + 2 + 8) / 5
= 20 / 5
= 4.0
これが絶対平均の値です。もともとの身長データは、
168、169、172、175、181
でしたから、4.0のばらつきがあると言われれば、そのくらいかなと思えますね。
まとめると、
- 各データから平均値を引いて偏差をだす
- 各データの偏差の絶対値を足し合わせる
- データ数で割る
で平均偏差を計算できます。
\(n\) 個のデータがあり、1個目のデータを\(x_1\)、2個目のデータは\(x_2\)、…\(n\) 個目のデータが\(x_n\) としたら、
$$平均偏差=\frac{|x_1 -\bar{x}|+…+|x_n -\bar{x}|}{n}$$
$$=\frac{1}{n}\sum_{i=1}^n |x_i -\bar{x}|$$
です。
絶対値は、0からの距離を意味するもので、\(|x_1 -\bar{x}|\)のように縦棒をつけてあらわします。\(a\) と\(-a\) のようにプラスであってもマイナスであっても、絶対値は同じになります。
$$|a|=a$$
$$|-a|=a$$
$$|10|=10$$
$$|-10|=10$$
となります。
統計学では平均偏差よりも標準偏差が使われる
ちなみに上に記載した身長データの“標準偏差”は、4.69です。
標準偏差は、偏差の絶対値はつかわず、偏差を2乗したものをつかいます。
各データの偏差を2乗し、それらを足し合わせたものを、データ数5で割ります。さらに 2乗をした分、もとに戻す意味で平方根をとります。それで出てきた値が標準偏差です。
$$\sqrt{\frac{1}{n}\sum_{i=1}^n (x_i -\bar{x})^2}$$
平均偏差と標準偏差の値には違いがあるのです。標準偏差に比べると、平均偏差は平均値から離れた値のばらつき評価が弱くなります。標準偏差は2乗をするので、偏差が大きな値だと、2乗によってさらに大きな値になるからです。
統計学では、平均偏差よりも標準偏差がよくつかわれます。平均偏差は数学的に扱いにくく、統計学でつかう諸々の計算は、標準偏差を用います。
参考記事 標準偏差・分散の意味と計算方法