代表値とは?平均値、中央値、最頻値の特徴を紹介

データ全体を代表する値、あるいはデータの分布の中心的に位置する値のことを代表値といいます。

何個ものデータがある場合、個別にそれをみていても何がどうなっているのかよくわかりませんよね。それらのデータの分布をひとつの値で表すことができる代表値は、便利な道具なのです。もっともよく使われるのが、平均値でけれども、世の中で目にするデータのほとんどは、平均値が計算、提示されています。

平均値のほかにも、中央値、最頻値などが、代表値として使われます。その特徴や計算方法を紹介します。

平均値

私たちがもっともよく使う代表値である、平均値です。

平均値の計算方法はよく知られているとおりで、各データを全て足し合わせてデータの数で割った数字が平均値です。平均にも種類がいくつかあり、この方法で計算した平均は、正確には算術平均と呼ばれるものです。

平均とはデータの重心であって、観測されていない値になることがほとんどです。たとえば、身長が170cm、175cm、172cm、168cm、170cmの人たちの平均身長を計算すると、171cmになりますが、171cmの人はこの5人のうちの誰の身長でもありません。

6面のサイコロを振ったら、平均的にはいくつの数値が出るかというと、3.5なわけですが、これも同じで、サイコロ面には3.5はありません。観測値には存在しない数値となります。

平均値の長所と短所

長所

1.全ての分布に存在する

2.唯一無二の値である

3.計算が簡単

4.全てのデータ活用する

5.意味がわかりやすい

6.統計計算に必要となる

短所

1.外れ値や極端値に影響を受ける

・・・極端に大きな数値、小さな数値があると平均値がそちらへ引っ張っられます。

2.適切な代表値でない場合がある

・・・外れ値に引っ張られすぎると、実際のデータの中心部分を示さないことがあります。

 中央値(メディアン)

データを大きなものから小さなものへと順番に並べたときに、ちょうど中央に位置するデータです。たとえば、5個のデータがあったとしたら、小さいほうから(または大きいほうから)3番目のデータが中央値です。

データの個数が奇数のときと偶数のときで算出方法が変わります。

・奇数の場合  『(n+1)/2』番目のデータ

・偶数の場合   『n/2』番目と『(n/2)+1』番目のデータの平均をとる

これが中央値の計算方法です。

データ数が7個の場合

8、10、12、14、15、16、16

データ数n=7、奇数ですから、『(7+1)/2』番目は、4番目の数字です。 上記の並びで4番目のデータを見ると、中央値は14です。

データ数が8個の場合

8、10、12、14、15、16、16、18

n=8で奇数ですから、『(8/2)』番目と『(8/2)+1』番目の数値の平均ですから、4番目の数字と5番目の数字の平均値が中央値になります。

上記の並びで4番目は14、5番目は5ですから(14+15)/2=14.5が中央値ですね。

中央値の長所と短所

長所

1.外れ値や極端値の影響を受けない

・・・データを順番に並べた時に、端の方に外れ値や異常値があっても、中央値では何番目か数えるだけで、外れ値を計算に活用しません。

2.唯一無二の値

3.計算が簡単(少ないデータの場合)

短所

1.大量のデータがあると序列をつけるのは簡単ではない(コンピュータを使用すれば簡単ですが。)

2.全てのデータを活用していない

 最頻値(モード)

頻度が最大となるデータの値です。データの中で個数の一番多い値を最頻値といいます。

長所

1.外れ値や極端値の影響を受けない

2.計算が簡単

短所

1.最頻値が存在しない場合がある

データが『8、10、12、14、15、16、16、18』の場合、全ての値が1ずつであるから、最頻度が無いことになります。(あるいは全データが最頻度といえてしまう)

2.最頻値が2つ存在する場合がある

『8、8、10、12、14、15、16、16、18、18』

この場合、最頻値は8と18の二つが最頻値になります。二つあるうえ、離れた8と18では異なる数字であり、この2つの数字からはとくに読みとれるデータ特徴がありません。

まとめ

一般的に、データの代表値には、とにかく平均値が使われやすいですが、上記したように、外れ値や極端な値があるとそちらに引っ張られやすい、という短所があります。そういった場合、中央値が代表値として適していることもありますので、これらの代表値の違いについて理解をして使いわけできるようにしておくといいでしょう。

>>グラフで見る平均値-中央値-最頻値