偏差平方和と分散、偏差積和と共分散の計算式と関係性

偏差平方和と分散、偏差積和と共分散の関係について書きました。

偏差平方和

まずは、偏差を計算します。偏差は、あるデータの値から平均値の差のことです。

偏差平方和とは、各データの偏差を2乗し、足し合わせたもののことです。「偏差」は、データと平均の差、「平方」は二度掛け合わせること、「和」は足すことを示していますね。

$$\sum_{i=1}^n (x_i -\bar{x})^2$$

$x_i$・・・i番目のデータ。何番目のデータなのかをiで示します。

$\bar{x}$・・・$x$の平均値

分散

分散を計算するときには、このプロセスを経て計算します。偏差平方和をデータの数nで割れば、分散の値が得られます。

$$\frac{\sum_{i=1}^n (x_i -\bar{x})^2}{n}$$

分散の意味とその計算手順はこちらの記事に書いています。

参考:分散と標準偏差の意味と計算方法

偏差積和

2つの変数$x$、$y$のn組のデータがあったとします。

2つの変数とは、たとえば、

  • A君の身長と体重
  • B君の身長と体重
  • C君の身長と体重

であったり、

  • 一昨日の気温とオデンの売上
  • 昨日の気温とオデンの売上
  • 今日の気温とオデンの売上

といったものです。

まず偏差積を計算します。

  • 各観測データ$x_i$と$x$の平均値($\bar{x}$)の差が$x_i$の偏差
  • 各観測データ$y_i$と$y$の平均値($\bar{y}$)の差が$y_i$の偏差

です。

$x_i$の偏差と$y_i$の偏差を掛けたものを、偏差積といいます。各観測データの偏差積の総和が、偏差積和です。

$$\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})$$

共分散

共分散は、偏差積和をデータ数nで割ったものです。共分散は、偏差積の平均値ということになります。

$$\frac{\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})}{n}$$

偏差平方和・分散、偏差積和・共分散の関係性

上記したA君、B君、C君の3人の身長・体重データでいうと、

  • A君の身長と3人の身長の平均の差が、偏差
  • A君の身長の偏差を二乗すると、偏差平方
  • A君の身長の偏差平方、B君の身長の偏差平方、C君の身長の偏差平方を足し合わせると、偏差平方和
  • 偏差平方和を3で割れば、分散
  • A君の身長の偏差と体重の偏差を掛けたものが、(A君の)偏差積
  • A君、B君、C君の偏差積を足し合わせたもの、偏差積和
  • その偏差積和を3で割れば、共分散

となります。

統計学で、これらを使うのは、相関係数を計算するときですね。相関係数の計算方法で書いていますので、よろしければどうぞ。

フォローする