データ全体を代表する値やデータの分布の中心に位置する値のことを代表値といいます。
代表値には、平均値、中央値、最頻値があります。
「平均値」は各データを全て足し合わせて、データの数で割った数値です。データの重心となる値です。
「中央値」とは、データを大きな値から小さな値へと順番に並べたときに、ちょうど中央に位置するデータです。
「最頻値」は、データのなかで頻度が最大となるものの値です(個数が一番多い値です)。
正規分布をグラフにした場合と歪みのある分布をグラフにした場合では、平均値、中央値、最頻値の位置が変わってきます。
正規分布であれば、平均値はグラフの中央になりますが、片方の裾が伸びた歪みのあるグラフだと平均値はグラフ中央からズレます。
これを知ることが、平均値、中央値、最頻値の性質を理解する助けになるでしょう。分布・グラフの形によって平均値、中央値、最頻値の位置がどのように変わるかを見てみましょう。
正規分布では、平均値と中央値と最頻値が一致する
正規分布のグラフの場合は、平均値、中央値、最頻値の位置が一致します。
グラフの真ん中が一番データ個数が多く、そこから左右多少にデータが少なくなりながら分布しています。
左右対称にデータがあるのですから、平均値と中央値も、グラフの真ん中になりますね。
グラフの真ん中のデータが一番多いのですから、最頻値にもなります。
たとえば、人の身長の分布は正規分布にほとんど同じになり、上記に似たグラフとなるでしょう。これを「正規分布に近似する」といいます。
横軸が身長の階級(165cmとか170cmとか)、縦軸がその身長である人の人数です(度数)。
グラフの真ん中の部分が、平均身長になります。
順番で見てもちょうど中央にありますから、平均値と中央値は同じ。
また、データの数量も一番多い部分ですから、最頻値も同じです。
完全な正規分布ではないので、多少の違いは出るかもしれませんが、ほとんど一緒だと言える、かなり近い値になるでしょう。
歪みのある分布では、平均値と中央値と最頻値は一致しない
正規分布とは異なり、片方だけの裾が長く伸びた分布を、歪みのある分布といいます。
歪みのある分布では、平均値と中央値と最頻値の位置は一致しません。
分布の歪みについてはこちらの記事で説明しています。
参考記事 分布の歪みとはなにか。また、右に歪んだ分布とはなにか
それでは、右側だけの裾が長く伸びたグラフで、平均値、中央値、最頻値の位置を見てみます。
最頻値は、グラフの山の頂点です。
平均値は、伸びた右側の裾にあるデータの影響で、グラフの頂点よりも、右側に寄っています。
中央値は、右裾のデータの影響を、平均値よりも受けないので、最頻値と平均値の間になっていますね。
右裾が長く長く伸びていればいるほど、平均値もグラフの右側に寄っていきます。平均値を見るときには、分布グラフのどのようにな形になっているか注意しましょう。
データを見るだけではなくて、グラフをつくってみるといいですね。
このような分布となるのは、たとえば、日本の世帯の平均貯蓄額がそうです。
総務省による家計調査の結果を掲載します。
横軸を世帯数、縦軸を貯蓄額とすると、上記したような右裾が長く伸びたグラフになっています。
貯蓄額の下限は0円と決まっていますが、上限にはキリがありません。とんでもない貯蓄額のお金持ちがいるのですよね。上限は無いようなものです。
数は少なくても非常に多くの貯蓄額をもった世帯が存在しているため、平均値が上のほうへ引っ張られてしまいます。
右裾だけが長く伸びたグラフでなく、逆に左裾だけが長く伸びたグラフの場合、最頻度、中央値、平均値の位置は、逆になります。
まとめ
いかがでしたか。
今回は、正規分布のグラフ、歪みのある分布のグラフで、平均値、中央値、最頻値の違いを説明しました。
正規分布の場合は、平均値、中央値、最頻値が一致します。
正規分布に近い分布であれば、平均値、中央値、最頻値が完全一致しなくても、かなり近い値になります。
歪みのある分布では、裾が伸びたほうにデータがある分、そちらに平均値が寄ります。最頻値はグラフの頂点で、中央値は平均値と最頻値の間になることが多いでしょう。
それぞれの違いがイメージしていただけましたら、うれしく思います。
最後まで読んでくれて、ありがとうございました!