偏差平方和と分散、偏差積和と共分散の計算式と関係性




偏差平方和と分散、偏差積和と共分散の関係について書きました。

偏差平方和

まずは、偏差を計算します。偏差は、あるデータの値から平均値の差のことです。

偏差平方和とは、各データの偏差を2乗し、足し合わせたもののことです。「偏差」は、データと平均の差、「平方」は二度掛け合わせること、「和」は足すことを示していますね。

$$\sum_{i=1}^n (x_i -\bar{x})^2$$

\(x_i\)・・・ \(i\) 番目のデータ。何番目のデータなのかを\(i\) で示します。

\(\bar{x}\)・・・ \( x\) の平均値

分散

分散を計算するときには、このプロセスを経て計算します。偏差平方和をデータの数\(n\( で割れば、分散の値が得られます。

$$\frac{\sum_{i=1}^n (x_i -\bar{x})^2}{n}$$

分散の意味とその計算手順はこちらの記事に書いています。

参考記事 分散と標準偏差の意味と計算方法

偏差積和

2つの変数\(x\)と\(y\) の\(n\( 組のデータがあったとします。

2つの変数とは、たとえば、

  • A君の身長と体重
  • B君の身長と体重
  • C君の身長と体重

であったり、

  • 一昨日の気温とオデンの売上
  • 昨日の気温とオデンの売上
  • 今日の気温とオデンの売上

といったものです。

まず偏差積を計算します。

  • 各観測データ\(x_i\) と\(x\) の平均値(\(\bar{x}\))の差が\(x_i\) の偏差
  • 各観測データ\(y_i\) と\(y\) の平均値(\(\bar{y}\))の差が\(y_i\) の偏差

です。

\(x_i\) の偏差と\(y_i\) の偏差を掛けたものを、偏差積といいます。各観測データの偏差積の総和が偏差積和です。

$$\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})$$

共分散

共分散は、偏差積和をデータ数\(n\( で割ったものです。共分散は、偏差積の平均値ということになります。

$$\frac{\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})}{n}$$

偏差平方和・分散、偏差積和・共分散の関係性

上記したA君、B君、C君の3人の身長・体重データでいうと、

  • A君の身長と3人の身長の平均の差が、偏差
  • A君の身長の偏差を二乗すると、偏差平方
  • A君の身長の偏差平方、B君の身長の偏差平方、C君の身長の偏差平方を足し合わせると、偏差平方和
  • 偏差平方和を3で割れば、分散
  • A君の身長の偏差と体重の偏差を掛けたものが、(A君の)偏差積
  • A君、B君、C君の偏差積を足し合わせたもの、偏差積和
  • その偏差積和を3で割れば、共分散

となります。

統計学で、これらを使うのは、相関係数を計算するときですね。相関係数の計算方法で書いていますので、よろしければどうぞ。