平均値や分散・標準偏差の性質

シェアする

標準偏差は、各データをa倍すると、標準偏差はa倍になります。これは、平均値からのばらつき度合いを表す標準偏差が、測定単位の変化によって、平均値と比例して変わることを意味しています。

測定単位を変換しても変わらないばらつきを表す数値、測定単位に依存しないばらつきを表す数値として、変動係数があります。

測定単位が変わると、標準偏差も変わる

分散、標準偏差には下記のような性質があります。

  • データに定数aを加えても標準偏差は変化しない
  • データをa倍すると、標準偏差はa倍になり、分散はaの二乗倍になる
  • データをa倍し、定数bを加えると、標準偏差はa倍しただけのものになる

「平均値や分散・標準偏差の性質」のページに書いた例を取りあげてみましょう。ある5人の高校生の身長を計測すると、

1.62m、1.64m、1.68m、1.71m、1.74m

となりました。

  • 平均は1.68
  • 標準偏差は0.044

です。

このデータの単位はm表記でした。単位をcmに変換すると、1m=100cmですから、データの数値は100倍になるので、

162cm、164cm、168cm、171cm、174cm

となります。この数値から平均値と標準偏差を計算すると、

  • 平均は168
  • 標準偏差は4.4

となりました。

測定単位がmからcmに変わることで、標準偏差が0.044から4.44と変わりました。mからcmに変換したことで、高校生5人の身長のばらつきが大きくなったわけではもちろんありません。単に測定単位が変わっただけです。バラつき度合を示す標準偏差の数値が大きくなってしまい、数字だけみれば、「cmのデータのほうがばらつきが大きい」と誤った認識してしまいそうです。

測定単位に依存しない変動係数

数字自体は確かに大きくなっていますが、実際の身長のバラつきが変わったわけではありません。測定単位を変換しても変わらることのないばらつきの指標がほしいものです。 そこで登場するのが変動係数です。変動係数とは、標準偏差を平均値で割った値で、測定単位が変換されても、変動係数はまったく影響を受けません。

hendoukeisuu

※CV=confficient of variation

m単位の場合は、標準偏差0.044、平均身長が1.68ですから、

0.044÷1.68=0.02619

cm単位の場合は、標準偏差が4.4、平均身長が168ですから、

4.4÷168=0.02619

変動係数は、m単位のときでも、cm単位のときでも0.02619となります。両者ともに同じ数値となりました。これは、平均値1単位あたりのばらつきの測度として考えることができます。ばらつき0.44は1.68あたりで0.02619の数値であり、ばらつき4.4は、168あたりで0.02619ということです。

異なる平均値を持つ集団のばらつきを比較する

異なる平均値をもつ2組以上の集団のデータについて、ばらつき度合を比較するときに変動係数が活用できます。同じくらいの平均値をもつ集団であれば標準偏差で比較ができますが、平均値が大きく異なる場合は単純に標準偏差では比較することができません。その場合に、変動係数を活用します。

たとえば、

  • 日本人の平均体重と標準偏差
  • 中国人の平均体重と標準偏差

この2つを比較するときには、そのままの値で比較しても問題ないでしょう。 わずかな違いはあれど、日本人の体重と中国人の体重の平均と標準偏差はほとんど近しい値であり、そのままの数値で比較できそうです。

では、

  • ヒトの平均体重と標準偏差
  • ゾウの平均体重と標準偏差

を比較する場合はどうでしょうか。大人のヒトの平均体重が70Kg、大人のゾウの平均体重が5000kgであるとしたら、ヒトの体重の標準偏差よりも、ゾウの体重の標準偏差のほうが圧倒的に大きな数値のはずです。

ヒトとゾウの体重の標準偏差をそのままの数字で比較すれば、絶対値としてはゾウの体重のほうがばらつきが大きいといえます。しかし、何倍も大きいゾウの平均体重を差し引いて考えるとどうなるのかを確認しないといけません。

それぞれの体重の標準偏差をそのまま比較するのではなく、標準偏差を平均体重で割った変動係数で比較することで、体重の大きさに対する相対的なばらつきを見ることができます。変動係数は、ばらつきの基準化です。

こうすることで平均体重の値に対してどのくらいのばらつきがあるのかを示すことができ、晴れてヒトとゾウの体重の標準偏差を対等に扱って比較することが可能になります。