データ全体を代表する値、あるいはデータの分布の中心的に位置する値のことを代表値といいます。
代表値には、平均値、中央値、最頻値などがありますが、これらには、どういった違いがあって、どのように使い分けるのがよいのか?
この記事では、その疑問に答えていきます。
代表値とは何か
なにかのデータを集めたとしましょう。たくさんのデータがある場合、ずらずらと並んだデータを個別に見ていても、何がどうなっているのかよくわかりませんよね。
170,176,177,166,174,157,171,172,168,164,172,170…
このようなデータを眺めていても、いろいろなデータがあるなくらいしかわかりません。
そこでまず使われるのが、代表値です。
代表値とは、データの分布をひとつの値で表すことができる値。
「このデータたちは、こういったデータなのだ」と、ひとことで表すことができ、データの内容を把握する助けになります。
便利な道具なのです。
もっともよく使われるのが、平均値。世の中で目にするデータのほとんどは、平均値が計算され提示されていますよね。
人の身長・体重、月平均の気温、店舗の月平均の売上などなど、どんなデータにも平均があります。
代表値の種類(平均値・中央値・最頻値)
代表値となるものには、
- 平均値
- 中央値
- 最頻値
などがあります。
「平均値」は各データを全て足し合わせて、データの数で割った数値です。データの重心となる値です。
「中央値」とは、データを大きな値から小さな値へと順番に並べたときに、ちょうど中央に位置するデータです。
「最頻値」は、頻度が最大となるデータの値(個数が一番多い値)です。
それでは、平均値、中央値、最頻値の違いと使い分けについて説明していきます。
平均値
平均値の意味
平均値とは、各データを全て足し合わせて、データの数で割った数値です。
この平均値の計算方法はよく知られているとおりですよね。さきほどお伝えしたように、私たちがもっともよく使う代表値がこの平均値です。
平均とはデータの重心であって、観測されていない値になることがほとんどです。
その他には加重平均、幾何平均などがあり、計算方法が異なります。
参考記事 平均値の種類はひとつだけじゃない。算術平均、加重平均、幾何平均、移動平均の違いと使い分け
たとえば、身長が170cm、175cm、172cm、168cm、170cmの人たちがいて、この5人の平均身長を計算すると、171cmになりますが、171cmの人はこの5人のうちの誰の身長でもありません。
6面のサイコロを振ったら平均的にいくつの数値が出るかというと、3.5になるのですが、これも同じで、サイコロ面には3.5はありません。観測値には存在しない数値となります。
平均値の長所と短所
平均値には、長所もあり短所もあります。それらを知って、平均値、中央値、最頻値の使い分けに役立てましょう。
長所
1.全ての分布に存在する
2.ひとつだけ存在する値である
3.計算が簡単である
4.全てのデータ活用する
5.意味がわかりやすい
6.統計計算に必要となる
短所
1.外れ値や極端値に影響を受ける
極端に大きな数値、小さな数値があると平均値がそちらへ引っ張っられます。
2.適切な代表値でない場合がある
外れ値に引っ張られすぎると、実際のデータの中心部分を示さないことがあります。
中央値(メディアン)
中央値(メディアン)の意味
中央値とは、データを大きなものから小さなものへと順番に並べたときに、ちょうど中央に位置するデータです。
たとえば、5個のデータがあったとしたら、小さいほうから(または大きいほうから)3番目のデータが中央値です。
データの個数が奇数のときと偶数のときで算出方法が変わります。
- 奇数の場合 『(n+1)/2』番目のデータ
- 偶数の場合 『n/2』番目と『(n/2)+1』番目のデータの平均をとる
これが中央値の計算方法です。試しに計算をしてみます。
中央値(メディアン)の計算方法
データ数が7個の場合の計算
8、10、12、14、15、16、16
データ数n=7、奇数ですから、『(7+1)/2』番目は、4番目の数字です。 上記の並びで4番目のデータを見ると14ですから、中央値は14。
データ数が8個の場合の計算
8、10、12、14、15、16、16、18
n=8で奇数ですから、『(8/2)』番目と『(8/2)+1』番目の数値の平均ですから、4番目の数字と5番目の数字の平均値が中央値になります。
上記の並びで4番目は14、5番目は5ですから、
(14+15)/ 2 = 14.5
14.5 が中央値ですね。
中央値の長所と短所
長所
1.外れ値や極端値の影響を受けない
データを順番に並べた時に、端の方に外れ値や異常値があっても、中央値では何番目か数えるだけで、外れ値を計算に活用しません。
2.ひとつだけ存在する値である
3.複雑な計算がない
短所
1.大量のデータがあると序列をつけるのは簡単ではない(コンピュータを使用すれば簡単ですが。)
2.全てのデータを活用していない
最頻値(モード)
最頻値(モード)の意味
最頻値は、頻度が最大となるデータの値です。
データの中で、個数が一番多い値。
データが『8、8、9、9、9、9、10、10、11、12、12』の場合、個数が最も多いのは、9 です。
9 が最頻値となります。
長所
1.外れ値や極端値の影響を受けない
2.複雑な計算がない
短所
1.最頻値が存在しない場合がある
データが『8、10、12、14、15、16、17、18』の場合、全ての値が1ずつであるから、最頻度が無いことになります。(あるいは全データが最頻度といえてしまう)
2.最頻値が2つ存在する場合がある
『8、8、10、12、13、14、16、18、18』
この場合、最頻値は8と18の二つが最頻値になります。二つあるうえ、離れた8と18では異なる数字であり、この2つの数字からはとくに読みとれるデータ特徴がありません。
3.データ数が少ないと、あまり意味がない
データが少なくて、各データが1個ずつしかないといった場合、飛び飛びのデータしかない場合など、最も多い数の値を見ても、得られるものはありません。
平均値・中央値・最頻値の使い分け
平均値・中央値・最頻値の特徴を理解しておく
平均値は計算が簡単で意味がわかりやすいもの。必ずといってよいほど計算をしてみてその値を確認するのが当たり前になっています。
また、データ分析を進めていくときには平均値を利用して分析をすることがほどんとです。
ただし、代表値を使う前に理解しておくことがあります。
たくさんのデータを一つの数値であらわすものなのですから、データのすべてを解説できるような完全なものではないということです。
上記したように長所と短所を持ち合わせています。
極端に小さい値・大きな値がある場合
平均値の短所は、極端に小さな値・大きな値に影響を受ける点です。
ですから、極端に小さな値・大きな値があるときに平均値を見るのでしたら、平均値がそちらに引っ張られていることを理解して見るようにします。
極端に小さな値・大きな値が異常なもの・不要なものであれば、削除してから平均値を計算したり、平均値は使わずに中央値を使ったほうがよいですね。
参考記事 外れ値と異常値の違い
分布に歪みがある場合・ない場合
分布に歪みがなくて正規分布に近いのであれば、平均値を使って問題ありません。
正規分布であれば、平均値と中央値と最頻値がまったく同じ値になり、正規分布に近い分布であれば、平均値と中央値と最頻値がほぼ近い値になります。
上記したように極端に小さな値・大きな値に注意して、平均値を活用すればよいでしょう。
しかし、分布に歪みがある場合には平均値と中央値が離れて異なる値になります。分布を代表する値として、平均値はふさわしくなくなってしまいます。
ですので、分布が歪んでいる場合には、平均値ではなくて中央値や最頻値を参考にします。
参考記事 分布の歪みとはなにか。また、右に歪んだ分布とはなにか
参考記事 グラフで見る平均値-中央値-最頻値
たとえば、よくある例として日本人の平均年収や貯蓄額があります。
と聞くと「えっ、平均的にそんなに持っているの?」と驚いてしまいますが、これにはワケがあります。
お金の額は、下限は0 円ですが上限は存在していません。
どんなにお金が無い人でも0円を下回ることはありません。しかし、お金持ちであればあるほど貯蓄額はどこまでも上がります。上限がありません。
世の中の富豪の貯蓄額はとんでもない金額でしょうから、平均値を計算すると大きな値のほうに寄ってしまうのです。
この場合は平均値を見るのではなくて、中央値や最頻値を見た方が実際の状況を把握できるはずです。
日本の世帯の平均貯蓄額は、
- 平均値 1820万円
- 中央値 1064万円
- 最頻値 100万円未満(100万刻みで見た場合)
です。
中央値または最頻値のほうが実社会の現状を把握するのに、見るべき指標になりそうですよね。
分布に歪みがあるかどうかを知るには、データをグラフにして見てみるのがよいです。
まとめ
一般的に、データの代表値にはとにかく平均値が使われやすいですが、上記したように、外れ値など極端な値があるとそちらに引っ張られやすいという短所があります。
平均値・中央値・最頻値の特徴や違いについて理解をしておき、外れ値がある場合や分布に歪みがある場合には、その分布に適した代表値を選んで活用しましょう。
コメント
なかなかわかりやすいまとめだと思います。
数値に騙されやすいことが多いので、きちんとした理解が大切だと思います。
どうも、ありがとうございます。
いいね