データ全体を代表する値や、データの分布の中心に位置する値を代表値といい、平均値、中央値、最頻値があります。
分布をグラフにして見てみたときに、どのようなグラフなのかによって、平均値、中央値、最頻値の位置が変わってきます。
これを知ることが、平均値、中央値、最頻値の性質を理解する助けになるでしょう。
正規分布であれば、平均値はグラフ中央になりますが、片方の裾が伸びた歪みのあるグラフだと平均値はグラフ中央からズレます。
分布グラフの形によって平均値、中央値、最頻値の位置がどのように変わるかを見てみましょう。
正規分布では、平均値と中央値と最頻値が一致する
正規分布のグラフの場合は、平均値、中央値、最頻値の位置が一致します。
グラフの真ん中が一番データ個数が多く、そこから左右多少にデータが少なくなりながら分布しています。
グラフの真ん中のデータが一番多いのですから、最頻値になります。
左右対称にデータがあるのですから、平均値と中央値も、グラフの真ん中になりますね。
たとえば、人の身長の分布は正規分布にほとんど同じになり、上記に似たグラフとなるでしょう。これを正規分布に近似する、といいます。
横軸が身長の階級(165cmとか170cmとか)、縦軸がその身長である人の人数です(度数)。
グラフの真ん中の部分が、平均身長になります。
順番で見てもちょうど中央にありますから、平均値と中央値は同じ。
また、データの数量も一番多い部分ですから、最頻値も同じです。
完全な正規分布ではないので、多少の違いは出るかもしれませんが、ほとんど一緒と言える、かなり近い値になるでしょう。
歪みのある分布では、平均値と中央値と最頻値は一致しない
正規分布とは異なり、片方だけの裾が長く伸びた分布を、歪みのある分布といいます。
歪みのある分布では、平均値と中央値と最頻値の位置は一致しません。
分布の歪みについてはこちらの記事で説明しています。
それでは、右側だけの裾が長く伸びたグラフで、平均値、中央値、最頻値の位置を見てみます。
上記のグラフは、縦軸が世帯数、横軸が貯蓄額となっています。
最頻値は、グラフの山の頂点です。
平均値は、伸びた右側の裾にあるデータの影響で、グラフの頂点よりも、右側に寄っています。
中央値は、右裾のデータの影響を、平均値よりも受けないので、最頻値と平均値の間になっていますね。
右裾が長く長く伸びていればいるほど、平均値もグラフの右側に寄っていきます。平均値を見るときには、分布グラフのどのようにな形になっているか注意しましょう。
グラフをつくってみるといいですね。
このような分布となるのは、たとえば、日本の世帯の平均貯蓄額がそうで、右裾が長く伸びたグラフになっています。
その理由は、上限にはキリがないからです。数は少なくても非常に多くの貯蓄額をもった世帯が存在してます。
貯蓄額の下限は0円と決まっていますが、とんでもない貯蓄額のお金持ちがいるのですよね。上限は無いようなものです。
まとめ
いかがでしたか。
今回は、正規分布のグラフ、歪みのあるグラフで、平均値、中央値、最頻値の違いを説明しました。
正規分布の場合は、平均値、中央値、最頻値が一致します。
正規分布に近い分布であれば、平均値、中央値、最頻値が完全一致しなくても、かなり近い値になります。
歪みのある分布では、裾が伸びたほうにデータがある分、そちらに平均値が寄ります。最頻値はグラフの頂点で、中央値は平均値と最頻値の間になることが多いでしょう。
それぞれの違いがイメージしていただけましたら、うれしく思います。
最後まで読んでくれて、ありがとうございました!