偏差平方和と分散、偏差積和と共分散の関係について書きました。
偏差平方和
まずは、偏差を計算します。偏差は、あるデータの値から平均値の差のことです。
偏差平方和とは、各データの偏差を2乗し、足し合わせたもののことです。「偏差」は、データと平均の差、「平方」は二度掛け合わせること、「和」は足すことを示していますね。
$$\sum_{i=1}^n (x_i -\bar{x})^2$$
$x_i$・・・i番目のデータ。何番目のデータなのかをiで示します。
$\bar{x}$・・・$x$の平均値
分散
分散を計算するときには、このプロセスを経て計算します。偏差平方和をデータの数nで割れば、分散の値が得られます。
$$\frac{\sum_{i=1}^n (x_i -\bar{x})^2}{n}$$
分散の意味とその計算手順はこちらの記事に書いています。
偏差積和
2つの変数$x$、$y$のn組のデータがあったとします。
2つの変数とは、たとえば、
- A君の身長と体重
- B君の身長と体重
- C君の身長と体重
であったり、
- 一昨日の気温とオデンの売上
- 昨日の気温とオデンの売上
- 今日の気温とオデンの売上
といったものです。
まず偏差積を計算します。
- 各観測データ$x_i$と$x$の平均値($\bar{x}$)の差が$x_i$の偏差
- 各観測データ$y_i$と$y$の平均値($\bar{y}$)の差が$y_i$の偏差
です。
$x_i$の偏差と$y_i$の偏差を掛けたものを、偏差積といいます。各観測データの偏差積の総和が、偏差積和です。
$$\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})$$
共分散
共分散は、偏差積和をデータ数nで割ったものです。共分散は、偏差積の平均値ということになります。
$$\frac{\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})}{n}$$
偏差平方和・分散、偏差積和・共分散の関係性
上記したA君、B君、C君の3人の身長・体重データでいうと、
- A君の身長と3人の身長の平均の差が、偏差
- A君の身長の偏差を二乗すると、偏差平方
- A君の身長の偏差平方、B君の身長の偏差平方、C君の身長の偏差平方を足し合わせると、偏差平方和
- 偏差平方和を3で割れば、分散
- A君の身長の偏差と体重の偏差を掛けたものが、(A君の)偏差積
- A君、B君、C君の偏差積を足し合わせたもの、偏差積和
- その偏差積和を3で割れば、共分散
となります。
統計学で、これらを使うのは、相関係数を計算するときですね。相関係数の計算方法で書いていますので、よろしければどうぞ。