代表値とは、言葉通りデータ全体を代表する値

シェアする

データの分布の中心的に位置する値、データ全体を代表する値を、代表値といいます。代表値である平均値、中央値、最頻値について、その特徴や計算方法を紹介します。

平均値

私たちが最もよく使う代表値は、平均値ですね。

平均値の計算方法はよく知られているとおりです。各データを全て足し合わせてデータの数で割った数字が平均値です。平均にも種類がいくつかあり、この方法で計算した平均は、正確には算術平均と呼ばれるものです。

平均値を記号を表すと、

kigou-heikinti1

または、

kigou-heikinti2

となります。

説明していきます。左式のxの上に横棒がある記号は、平均値を示しています。 各データはxで表し、xの右下につけたられたiの文字はi番目のxということを表しています。

x1は、1番目のデータを表します。

x2 は、2番目のデータを表します。

データの数はnで表しますから、データの1番目からn番目(最後のデータ)の合わせると足し算の式は、

x1-xn

となります。

平均値を計算するときには全データを足し合わせるので、数が多くなるほど長い式になってしまいます。このようなときに、式を省略させてすっきりさせることができるのが、Σの記号です。Σは合計(sum)の意味で、足し算を繰り返して合計する式を簡単に表すための記号で、下記のように用います。

Σの記号の下にある「i=1」は、1番目から計算を始めることを示しています。「i=2」であれば2番目のデータから、「i=3」であれば、3番目のデータから計算を開始します。Σの記号の上にある「n」は、n番目まで計算をすることを示しています。

siki-siguma-nmade

例えば、1番目のデータから5番目のデータを合計するとこうなります

siki-siguma-5made

また、最初から最後まで計算する場合は、Σの下には「i=1」、Σの上は「n」は書かれますが、これらは省略してもいいルールがあります。何もない場合は、Σの下は「i=1」、Σの上は「n」として考えます。

siki-siguma-syouryaku

siki-siguma-nmade-syouryaku

しかし、最初から最後まで足し合わせる場合以外はΣの上と下に数値を必ず記載しないといけません。最初から途中まで合する場合、途中から途中まで計算する場合、途中から最後まで合計する場合、です。Σの記号の上にどこからどこまでなのか書く必要があります。 例えばこんな式。

siki-siguma-3kara7

3番目のデータから7番目のデータを合計する、この場合は省略はできません。

よって、平均値は下記のように表します。

kigou-heikinti2

平均値の長所と短所

長所

1.全ての分布に存在する

2.唯一無二の値である

3.計算が簡単

4.全てのデータ活用する

5.意味がわかりやすい

6.統計計算に必要となる

短所

1.外れ値や極端値に影響を受ける

・・・極端に大きな数値、小さな数値があると平均値がそちらへ引っ張っられます。

2.適切な代表値でない場合がある

・・・外れ値に引っ張られすぎると、実際のデータの中心部分を示さないことがあります。

 中央値(メディアン)

データを大きな順に並べたときに、中央に位置するデータです。データの個数が奇数のときと偶数のときで算出方法が変わります。

・奇数の場合  『(n+1)/2』番目のデータ

・偶数の場合   『n/2』番目と『(n/2)+1』番目のデータの平均をとる

これが中央値の計算方法です。

データ数が7個の場合

8、10、12、14、15、16、16

データ数n=7、奇数ですから、『(7+1)/2』番目は、4番目の数字です。 上記の並びで4番目のデータを見ると、中央値は14です。

データ数が8個の場合

8、10、12、14、15、16、16、18

n=8で奇数ですから、『(8/2)』番目と『(8/2)+1』番目の数値の平均ですから、4番目の数字と5番目の数字の平均値が中央値になります。

上記の並びで4番目は14、5番目は5ですから(14+15)/2=14.5が中央値ですね。

中央値の長所と短所

長所

1.外れ値や極端値の影響を受けない

・・・データを順番に並べた時に、端の方に外れ値や異常値があっても、中央値では何番目か数えるだけで、外れ値を計算に活用しません。

2.唯一無二の値

3.計算が簡単(少ないデータの場合)

短所

1.大量のデータがあると序列をつけるのは簡単ではない(コンピュータを使用すれば簡単ですが。)

2.全てのデータを活用していない

 最頻値(モード)

頻度が最大となるデータの値です。データの中で個数の一番多い値を最頻値といいます。

長所

1.外れ値や極端値の影響を受けない

2.計算が簡単

短所

1.最頻値が存在しない場合がある

データが『8、10、12、14、15、16、16、18』の場合、全ての値が1ずつであるから、最頻度が無いことになります。(あるいは全データが最頻度といえてしまう)

2.最頻値が2つ存在する場合がある

『8、8、10、12、14、15、16、16、18、18』

この場合、最頻値は8と18の二つが最頻値になります。二つあるうえ、離れた8と18では異なる数字であり、この2つの数字からはとくに読みとれるデータ特徴がありません。

まとめ

一般的にデータの代表値にはとにかく平均値が使われやすいですが、平均値の短所に書いたように、外れ値や極端な値があるとそちらに引っ張られやすいです。そういった場合、中央値が代表値として適していることもありますので、これらの代表値の違いについて理解をしておくといいでしょう。

>>グラフで見る平均値-中央値-最頻値