歪度の意味・解釈と求め方




分布の形状を見るときに利用されるものとして、歪度があります。この記事では、歪度の意味や求め方について説明します。

歪度とはなにか

「歪度」とは、分布の歪み度合いを示すものです。

正規分布のように左右対称であるのか、それとも片方の裾だけだ伸びたような歪んだ分布なのか、その度合いを示します。

$$歪度=\frac{E[(X-μ)^3]}{\sigma^3}$$

これを歪度(または歪度係数)といって、歪度が0 よりも大きければ右の裾が長い分布、歪度が0 よりも小さければ左の裾が長い分布となります。

通常$z$値を計算(平均が0、標準偏差が1 の標準化)をするときには、

$$\frac{X-μ}{\sigma}$$

で計算しますよね。これを3乗した値の平均が、歪度の値となります。

歪度の数値と分布の形

歪度が0より大きい場合の分布、歪度が0の分布、歪度が0より小さい場合の分布について見ていきましょう。

 歪度 > 0

歪度係数が0より大きい場合は、右の裾が長い分布です。

歪度 = 0

歪度が0の場合は、分布の形が左右対称。正規分布のときに0になります。

歪度 < 0

歪度係数が0より小さい場合は、左の裾が長い分布です。

ただ、歪度 = 0であったとしても、分布が必ずしも左右対称であるということではなく、標準化した\(z\) 値の平均値(=0)の右側にある\(z^3\)の和と、左側にある\(z^3\)の和が一致しているということです。

歪度の絶対値が小さければ、標準化した\(z\) 値の平均値(=0)の右側にある\(z^3\)の和と、左側にある\(z^3\)の和の差が、小さいことになります。

なぜ3乗で計算し、歪度が0を越えると右の裾が長い分布を示すことになるのか

歪度は、なぜこのように3乗して計算し、0を越えると右の裾が長い分布、0より小さいと左の裾が長い分布を示すことなるのでしょうか。

まず、歪度がプラスの値なのかマイナスの値なのかは、もともとの\(z\) 値(=\(\frac{X-μ}{\sigma}\))によります。

\(\frac{X-μ}{\sigma}\)の値がプラスの値であれば、3乗をしてもプラスの値です。しかし\(\frac{X-μ}{\sigma}\)の値がマイナスであれば、2乗であれば、マイナスが消えてプラスの値となりますが、3乗をすると、またマイナスの値となります。

右の裾が長い分布だと、\(z\) 値(=\(\frac{X-μ}{\sigma}\))の平均から遠く離れたデータが右の裾の先にあります。

歪度の計算では、それらの値を3乗します。

$$\frac{1}{n}\ \sum(\frac{X_i -μ}{\sigma})^3$$

すると大きな値となりますから、他の結果として歪度の値もプラス方面に大きくなりやすいのです。

逆に左の裾が長い分だと、左の裾の先に平均から離れたマイナスのデータがありますから、結果として歪度の値がマイナス方面に数値が出ます。

データの値が平均値から絶対値1を越えて、平均値から離れるほど、3乗した値は大きくなります。

ですから、右の裾が長い分布であるほど、歪度も大きな値となるのです。

引き続き、右裾の長い分布の図を見ながら考えてみましょう。

長く伸びた右裾の部分にあるデータから計算した、\((\frac{X-μ}{\sigma})^3\)の値は3乗される効果によって大きくなりますよね。逆に左裾は長くないのですから、\((\frac{X-μ}{\sigma})^3\)の値も、あまり大きくならないでしょう。

それらの値を平均すると、右裾が長ければ長いほど、大きなプラスの値になるはずです。

■歪度係数と分布の形の関係

  • 歪度>0(歪度が0より大きい)・・・右の裾が長い分布
  • 歪度=0・・・左右対称の分布、中心から左の\(z^3\) の和、右の\(z^3\) の和が一致
  • 歪度<0(歪度が0より小さい)・・・左の裾が長い分布

 

■非対称性の程度

  • 歪度の絶対値の大きさで、非対称性の程度を示すことができる
  • 片側の裾が長く伸びた分布など、片側だけに平均から離れているデータが多いと、歪度の絶対値は大きくなる

歪んだ分布の例(どんなグラフが、どんな歪度係数になるか)

次のグラフは、右裾が長い分布です。この歪度を、エクセル関数SKEWで調べると、0.795でした。

■歪度=0.795

次は、正規分布に近い分布です。この歪度を、エクセル関数SKEWで調べると、0.035でした。

■歪度=0.035

正規分布のように左右対称であれば、歪度=0 となり、このグラフのように左右対称に近ければ、歪度も0 付近になります。

とはいえ、歪度が0 または0 に近いことは、分布が必ずしも左右対称であるということではなく、標準化した$z$値の平均値(=0)の右側にある$z^3$の和と、左側にある$z^3$の和が一致しているということです。

たとえば、ひとつ上に掲載した右裾の長い分布は、歪度 0.795 でした。ここに75g、76gのデータを少し加えてみると、歪度係数は 0.075 となり、0 に近くなってしまいました。

■歪度 = 0.074

歪度が0に近いですが、左右対称という感じではありません。

次は、歪度=0.795 の右裾が伸びた分布に、77gのデータをいくつか加えてみたものです。歪度係数はマイナスに傾きました。

■歪度= -0.595

片側の裾が伸びているわけではなく、大きく外れた値の影響であっても、歪度係数は変わってしまうようですね。