貯蓄額などの裾の長い分布は平均値だけを見ていてはいけない【実感とズレが起こる理由について解説します】




いきなりですけど、日本の世帯の平均貯蓄残高は1820万円らしいです。これを知ってどう思いますか?私は「みんなお金貯めているんだな~」と思ってしまいましたね。

でも、なんだか実感と合わないような気もします。周囲にはこんなに貯めている人は少ないように思うのです。

実は、これには平均値の特性が関係していて、算出された平均値と実感が合わない場合が出てくることがあるのです。

片側の裾が長い分布の場合、平均値は実感と合わない

代表値とは?平均値、中央値、最頻値の特徴を紹介の記事に書いたように、平均値は極端に大きな値のデータ、または極端に小さな値のデータがあると、それに引っ張られてしまう傾向があります。

とても大きな値のデータがあったら、平均値も大きめの値になってしまうのです。

「すべてのデータの値を足し合わせて、データ個数で割る」という平均値の計算方法を考えればそれはそうですよね。

平均値が私たちの実感と合うのは正規分布のときだけです。

右の裾が長い分布の場合、平均値は実感よりも大きくなりやすいです。こういった分布ですね。

逆に左の裾が長い分布であれば、算出された平均値は実感より小さくなりやすいです。

貯蓄額や資産の分布

貯蓄額や資産の分布、所得の分布などは正規分布とはならず、分布の右裾が伸びた形となります。

総務省統計局が公開しているデータを見てみましょう。


引用:http://www.stat.go.jp/data/sav/1.htm

棒グラフの幅が違う理由

階級は、1000万円台までは100万円刻みの間隔です。1000~2000万円の間は200万円の間隔になっています。それ以上ではさらに幅が大きくなっています。階級の間隔が広くなったぶんを加味して、1000~1200万円からはグラフの棒が2倍に太くなっています。

1000~2000万円の貯蓄額を持った世帯は5.6%となっていて、本当はもっと高い棒グラフになるはずなのですが、間隔幅が2倍になっていて割合%は当然増えるのだから、そのぶん棒の幅を広くして、棒の高さが低くなるようにしているのです。面積で比較すると、5.6%分あります。グラフの棒の高さを正しく比べることができるようにこのような処理をしているのです。

まず、平均値を見ると1820万円です。これだけ見るとやっぱり「みんなそんなに貯めているのか!」と思ってしまいますよね。

平均値が高く感じるのは、貯蓄額に下限はあるのに上限はないからです。

貯蓄をまったく持っていないなら0 円であって、それよりは小さくならないですよね。それに対して、貯金をどれだけ持っているかについては、上を見ればキリがなく上限がありません。所得に関しても同じです。

貯金額がものすごい額である一部の人たちが、平均値を引っ張り上げているのです。

持てる人と持たざる人の差がつけばつくほど、平均値と、みんなの貯蓄額はこのくらいだろうという実感との乖離が大きくなりそうです。

片側に制約があるデータの平均値には注意
貯貯蓄額のデータの下限には制約がありますが上限には制約がありません。
このように片側に制約があるような分布では、平均値だけを見てそれを鵜呑みにしてしまうと、間違った認識あるいは判断をしてしまうことになります。

平均値よりも中央値や最頻値のほうが実感と合う

中央値を見てみると1064万円ですね。さきほどの平均値よりは低くなりましたが、私のような一般人からみるとまだ高い金額に思えてしまいます。

この場合は、最頻値を見るのが実感と合いそうですね。最頻値とはデータ個数がもっとも多い値です。最頻値は100万円未満です。

  • 100万円未満の世帯割合は、10.5%
  • 100~200万円の世帯割合は、6.2%
  • 200~300万円の世帯割合は、5.6%

貯蓄額が100~300万円の世帯割合だけで22.3%も占めています。貯蓄額ってこのくらいだよねと言われるほうが、多くの人の実感に合うかもしれません。

このような右裾が長く伸びた分布では、値の大きさは、

最頻値 < 中央値 < 平均値

となります。

逆に左裾が長く伸びた分布では、値の大きさは、

平均値 < 中央値 < 最頻値

となります。

貯蓄・資産額や所得額など、片側の裾の長い分布の場合は、平均値だけを見ていては現実をうまく捉えることはできません。分布の形、中央値や最頻値、個別の数値を合わせて見ていくようにすべきです。