代表値とは?平均値、中央値、最頻値の違いと使い分けを紹介

データ全体を代表する値、あるいはデータの分布の中心的に位置する値のことを代表値といいます。

代表値には、平均値、中央値、最頻値などがありますが、これらには、どういった違いがあって、どのように使い分けるのがよいのか?

この記事では、その疑問の答えていきます。

代表値とは何か

なにかのデータを集めたとしましょう。たくさんのデータがある場合、ずらずらと並んだデータを個別に見ていても、何がどうなっているのかよくわかりませんよね。

そこでまず使われるのが、代表値です。

代表値とは、データの分布をひとつの値で表すことができる値。

「このデータたちは、こういったデータなのだ」と、ひとことで表すことができ、データの内容を把握する助けになります。

便利な道具なのです。

もっともよく使われるのが、平均値。世の中で目にするデータのほとんどは、平均値が計算され、提示されていますよね。

人の身長・体重、月平均の気温、店舗の月平均の売上などなど、どんなデータにも平均があります。

代表値となるものには、平均値のほかにも、中央値、最頻値などがありますね。

次は、平均値、中央値、最頻値の違いと使い分けについて、説明していきます。

平均値の意味

平均値とは、各データを全て足し合わせて、データの数で割った数値です。

この平均値の計算方法はよく知られているとおりですよね。さきほどお伝えしたように、私たちがもっともよく使う代表値が、平均値です。

実は、平均にも種類がいくつかあり、この方法で計算した平均は、正確には算術平均と呼ばれるものです。

平均とはデータの重心であって、観測されていない値になることがほとんどです。

たとえば、身長が170cm、175cm、172cm、168cm、170cmの人たちがいて、この5人の平均身長を計算すると、171cmになりますが、171cmの人はこの5人のうちの誰の身長でもありません。

6面のサイコロを振ったら、平均的にいくつの数値が出るかというと、3.5になるのですが、これも同じで、サイコロ面には3.5はありません。観測値には存在しない数値となります。

※(1+2+3+4+5+6)÷ 6 = 3.5

平均値の長所と短所

平均値には、長所もあり短所もあります。それらを知って、平均値、中央値、最頻値の使い分けに役立てましょう。

長所

1.全ての分布に存在する

2.ひとつだけ存在する値である

3.計算が簡単である

4.全てのデータ活用する

5.意味がわかりやすい

6.統計計算に必要となる

短所

1.外れ値や極端値に影響を受ける

極端に大きな数値、小さな数値があると平均値がそちらへ引っ張っられます。

2.適切な代表値でない場合がある

外れ値に引っ張られすぎると、実際のデータの中心部分を示さないことがあります。

 中央値(メディアン)の意味

中央値とは、データを大きなものから小さなものへと順番に並べたときに、ちょうど中央に位置するデータです。

たとえば、5個のデータがあったとしたら、小さいほうから(または大きいほうから)3番目のデータが中央値です。

データの個数が奇数のときと偶数のときで算出方法が変わります。

  • 奇数の場合  『(n+1)/2』番目のデータ
  • 偶数の場合   『n/2』番目と『(n/2)+1』番目のデータの平均をとる

これが中央値の計算方法です。試しに計算をしてみます。

データ数が7個の場合の計算

8、10、12、14、15、16、16

データ数n=7、奇数ですから、『(7+1)/2』番目は、4番目の数字です。 上記の並びで4番目のデータを見ると14ですから、中央値は14。

データ数が8個の場合の計算

8、10、12、14、15、16、16、18

n=8で奇数ですから、『(8/2)』番目と『(8/2)+1』番目の数値の平均ですから、4番目の数字と5番目の数字の平均値が中央値になります。

上記の並びで4番目は14、5番目は5ですから、

(14+15)/ 2 = 14.5

14.5 が中央値ですね。

中央値の長所と短所

長所

1.外れ値や極端値の影響を受けない

データを順番に並べた時に、端の方に外れ値や異常値があっても、中央値では何番目か数えるだけで、外れ値を計算に活用しません。

2.ひとつだけ存在する値である

3.複雑な計算がない

短所

1.大量のデータがあると序列をつけるのは簡単ではない(コンピュータを使用すれば簡単ですが。)

2.全てのデータを活用していない

 最頻値(モード)の意味

最頻値は、頻度が最大となるデータの値です。

データの中で、個数が一番多い値。

データが『8、8、9、9、9、9、10、10、11、12、12』の場合、個数が最も多いのは、9 です。

9 が最頻値となります。

長所

1.外れ値や極端値の影響を受けない

2.複雑な計算がない

短所

1.最頻値が存在しない場合がある

データが『8、10、12、14、15、16、17、18』の場合、全ての値が1ずつであるから、最頻度が無いことになります。(あるいは全データが最頻度といえてしまう)

2.最頻値が2つ存在する場合がある

『8、8、10、12、13、14、16、18、18』

この場合、最頻値は8と18の二つが最頻値になります。二つあるうえ、離れた8と18では異なる数字であり、この2つの数字からはとくに読みとれるデータ特徴がありません。

3.データ数が少ないと、あまり意味がない

データが少なくて、各データが1個ずつしかないといった場合、飛び飛びのデータしかない場合など、最も多い数の値を見ても、得られるものはありません。

平均値・中央値・最頻値の使い分け

まず、代表値とは、たくさんのデータを一つの数値であらわすものなのですから、完全なものではないことを理解しましょう。

平均値は、計算が簡単で意味がわかりやすいので、基本的に計算をしてみて、確認するものですね。

また、データ分析を進めていくときには、平均値が必要となることばかりなので、計算するのが当たり前と言う感じです。

平均値の短所は、極端に小さな値・大きな値に影響を受ける点ですね。

ですから、極端に小さな値・大きな値があるときには、平均値がそちらに引っ張られていることを理解したうえで平均値を見る。または、極端に小さな値・大きな値が異常なもの・不要なものであれば、削除してから平均を計算するといったことが必要です。

参考:外れ値と異常値の違い

参考:外れ値と判定する方法と、外れ値の除去について

分布に歪みがなく、正規分布に近いのであれば、平均値を使って問題ありません。分布に歪みがあると、平均値と中央値が離れることになります。

参考:分布の歪みとはなにか。また、右に歪んだ分布とはなにか

参考:グラフで見る平均値-中央値-最頻値

分布が歪んでいる場合には、平均値ではなくて、中央値や最頻値を参考にします。

たとえば、よくある例として、日本人の平均年収や貯蓄額があります。

2016年のデータでは、日本の世帯の平均貯蓄額は、1820万円です!

と聞くと「えっ、平均的にそんなに持っているの?」と驚いてしまいますが、これにはワケがあります。

お金の額は、下限は0 円ですが、上限は存在していません。お金持ちはとんでもない金額の貯蓄額があるでしょうから、平均値を計算すると、大きな値のほうに寄ってしまうのです。

この場合、中央値や最頻値を見た方が、実際の状況を把握できるはずです。

中央値は1064万円。

100万円刻みで見ると、世帯数の最頻値は100万円未満です。100万円未満の世帯が最も多くて、次に貯蓄額100万円以上~200万未満とか、200万円以上~300万円未満の世帯が多いです。

こちらのほうが実社会の現状を把握するのに、見るべき指標になりますよね。

分布に歪みがあるかどうかを知るには、データをグラフにして見てみるのがよいです。

まとめ

一般的に、データの代表値には、とにかく平均値が使われやすいですが、上記したように、外れ値や極端な値があるとそちらに引っ張られやすい、という短所があります。

そういった場合、中央値が代表値として適していることもありますので、これらの代表値の違いについて理解をして使い分けできるようにしておくといいでしょう。

フォローする



コメント

  1. 松本 新 より:

    なかなかわかりやすいまとめだと思います。
    数値に騙されやすいことが多いので、きちんとした理解が大切だと思います。
    どうも、ありがとうございます。