偏差平方和と分散、偏差積和と共分散の関係について書きました。
偏差平方和
まずは、偏差を計算します。偏差は、あるデータの値から平均値の差のことです。
偏差平方和とは、各データの偏差を2乗し、足し合わせたもののことです。「偏差」は、データと平均の差、「平方」は二度掛け合わせること、「和」は足すことを示していますね。
$$\sum_{i=1}^n (x_i -\bar{x})^2$$
\(x_i\)・・・ \(i\) 番目のデータ。何番目のデータなのかを\(i\) で示します。
\(\bar{x}\)・・・ \( x\) の平均値
分散
分散を計算するときには、このプロセスを経て計算します。偏差平方和をデータの数\(n\( で割れば、分散の値が得られます。
$$\frac{\sum_{i=1}^n (x_i -\bar{x})^2}{n}$$
分散の意味とその計算手順はこちらの記事に書いています。
参考記事 分散と標準偏差の意味と計算方法
偏差積和
2つの変数\(x\)と\(y\) の\(n\( 組のデータがあったとします。
2つの変数とは、たとえば、
- A君の身長と体重
- B君の身長と体重
- C君の身長と体重
であったり、
- 一昨日の気温とオデンの売上
- 昨日の気温とオデンの売上
- 今日の気温とオデンの売上
といったものです。
まず偏差積を計算します。
- 各観測データ\(x_i\) と\(x\) の平均値(\(\bar{x}\))の差が\(x_i\) の偏差
- 各観測データ\(y_i\) と\(y\) の平均値(\(\bar{y}\))の差が\(y_i\) の偏差
です。
\(x_i\) の偏差と\(y_i\) の偏差を掛けたものを、偏差積といいます。各観測データの偏差積の総和が偏差積和です。
$$\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})$$
共分散
共分散は、偏差積和をデータ数\(n\( で割ったものです。共分散は、偏差積の平均値ということになります。
$$\frac{\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})}{n}$$
偏差平方和・分散、偏差積和・共分散の関係性
上記したA君、B君、C君の3人の身長・体重データでいうと、
- A君の身長と3人の身長の平均の差が、偏差
- A君の身長の偏差を二乗すると、偏差平方
- A君の身長の偏差平方、B君の身長の偏差平方、C君の身長の偏差平方を足し合わせると、偏差平方和
- 偏差平方和を3で割れば、分散
- A君の身長の偏差と体重の偏差を掛けたものが、(A君の)偏差積
- A君、B君、C君の偏差積を足し合わせたもの、偏差積和
- その偏差積和を3で割れば、共分散
となります。
統計学で、これらを使うのは、相関係数を計算するときですね。相関係数の計算方法で書いていますので、よろしければどうぞ。