偏相関係数とは、見かけ上の相関であるときに、第3の因子の影響を除いた相関係数のことです。
変数\(x\)、変数\(y\)、変数\(z\) の三つの変数があり、変数\(x\) 変数\(y\) の相関には、変数\(z\) の影響があるとします。
このとき変数\(z\) は第3因子です。\(x\) と\(y\) の関係が見かけ上の相関であり、変数\(z\)の影響を受けているとします。
見かけ上の相関とは
データの見かけ上は相関関係があっても、実は関係がないものを「見かけ上の相関」といいます。または「見せかけの相関」、「擬似相関」ともいいます。
変数\(z\) の影響を除いたうえでの、変数\(x\) と変数\(y\) の相関係数が、偏相関係数 \(r_{xy・z}\) です。
次の式で計算することができます。
$$r_{xy・z}=\frac{r_{xy}-r_{xz}\times r_{yz}}{\sqrt{1-r_{xz}^2}\times \sqrt{1-r_{yz}^2}}$$
ある会社のビジネスマンの体重と年収のデータを見てみたら、その間に相関関係がありました。
年収を\(x\)、体重を\(y\)、年齢\(z\)
としましょう。
年収\(x\)、体重\(y\) の相関係数は、0.90 でした。
体重があるほうが年収が高いといえるのでしょうか…。そうではなくて、ここには、双方に影響を与える第3因子がありました。それが年齢$z$です。年齢が高くなるほど、年功序列で年収が高くなり、男性は中年太りになる人がいる。
年齢\(z\) が、年収\(x\) にも、体重\(y\) にも影響を与えています。
年収\(x\)、年齢\(z\) の相関係数は、0.82
体重\(y\)、年齢\(z\) の相関係数は、0.84
です。
年収\(x\)、体重\(y\) の相関係数は0.90 でしたが、年齢\(z\) の影響を取り除いた年収\(x\)、体重\(y\) の偏相関係数を計算すると、
$$r_{xy・z}=\frac{0.90-0.82\times 0.84}{\sqrt{1-0.82^2}\times \sqrt{1-0.84^2}}$$
$$=0.68$$
0.68 となりました。