相関係数の数式の意味は?なぜその数式になるの?理由を解説します

「相関係数の数式、計算方法は理解した。だけど、なぜそのような数式になるのか、どんな意味があるのかが、わからない」

という方のために、この記事では、相関係数の数式で、なぜ偏差積和と偏差平方和を用いるのかなど、その意味を説明してきます。

まだ相関係数の数式についてよくわからない方は、下記の記事を読んでから、この記事を読んでいただくといいかと思います。

参考:相関関係の意味と相関係数の計算方法

相関係数の計算式と散布図

最初に相関係数の数式を記載しておきます。

$$r=\frac{\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})}{\sqrt{\sum_{i=1}^n (x_i -\bar{x})^2}\times\sqrt{\sum_{i=1}^n (y_i -\bar{y})^2}}$$

なぜ上に記載したような式で、2つのことの関係性を表す数値が出てくるのか。少し長くなりますが書いていきます。

相関関係の意味と相関係数の計算方法の記事では、ペーパーテストの点数と仕事の実力の相関係数を計算しました。

転載します。

ある会社の経営者が、勉強によって知識を増やしてもらうのを狙いとして、従業員に対してペーパーテストを実施しました。

また、各従業員のテストの結果と仕事の実力・評価を見て、それらに関係があれば、定期的にテストを実施して勉強するように促したり、新たな人材の採用試験でペーパーテストを実施するのもいいのでないかと経営者は考えました。

テスト実施後に、得られたペーパーテストの結果と普段の仕事の実力・評価に関係があるのかを見てみました。

テストを受けた従業員は、Aさん、Bさん・・・Jさんの10人がいます。

soukankeisuuhyou1

テストの結果と仕事の実力を一覧にし、合わせてテストの点数を横軸、仕事の実力・評価を縦軸として散布図を書いてみました。

散布図とは、2つの変数の関係を見るために、横軸・縦軸の目盛りをつくって打点をした図です。
散布図は2つの変数関係性をパッと把握することができます。

soukankeisuusanpuzu1

横軸がペーパーテストの点数、縦軸が仕事の実力です。

打点が右肩上がりになっていて、ペーパーテストの点数が高い人ほど、仕事の実力も高い人が多いように見えます。

テストの点数で80点以上の高得点をとっている人は仕事の実力も比較的良く、テストの点数が30点、40点と悪い人は仕事の実力もないようです。ただし、テストの点数は50点なのに、仕事の実力がずば抜けている人が1人いることがわかります。

この散布図を見ながら説明をしていきます。

右肩上がりに打点されているということは、横軸のペーパーテストの点数が高いと、縦軸の仕事の実力・評価も高く、

横軸のペーパーテストの点数が低いと、縦軸の仕事の実力・評価も低くなっている。

こういう傾向があることを意味しています。

散布図上の打点の位置によって相関係数のプラス・マイナスがわかる

まず、散布図に平均の線を引いてみましょう。

  • ペーパーテスト$x$の平均は、70
  • 仕事の実力$y$の平均は、6

ですので、縦軸の実力6に横線を、横軸の70点に縦線を引きます。

soukankeisuusanpuzu2

平均値の線によって4分割されたエリアをそれぞれ

  • 第1エリア
  • 第2エリア
  • 第3エリア
  • 第4エリア

と呼ぶことにします。

soukankeisuusanpuzu3

正の相関がある場合、

  • テストの点数が高い人ほど、仕事の実力も高くなる傾向
  • テストの点数が低い人ほど、仕事の実力も低くなる傾向

があります。

テストの点数が平均よりも高い人は、仕事の実力も平均より高くなるはずので、第1エリアに打点されるでしょう。

テストの点数が平均よりも低い人は、仕事の実力も平均より低くなるはずなので、第3エリアに打点されるでしょう。

ということで、正の相関があるときには、第1エリアと第3エリアに多く打点されることになります。

今度は逆に、負の相関があり、

  • テストの点数が高い人ほど、仕事の実力は低くなる傾向
  • テストの点数が低い人ほど、仕事の実力は高くなる傾向

が見られるとしたらどうでしょうか。

負の相関がありそうな、テストの点数と、仕事の実力のデータを意図的に作成してみました。

soukankeisuuhyou2

テストの点数が平均よりも高い人は、仕事の実力が平均より低くなるはずなので、第4エリアに打点されるでしょう。

テストの点数が平均よりも低い人は、仕事の実力が平均より高くなるはずなので、第2エリアに打点されるでしょう。

負の相関がある場合は、打点に右肩下がりの傾向が見られ、第2エリアと第4エリアに多く打点がされることになります。

soukankeisuusanpuzu5

乱暴な言い方かもしれませんが、

  • 正の相関が強いと、第1エリアと第3エリアにたくさん打点される
  • 負の相関が強いと、第2エリアと第4エリアにたくさん打点される

というわけです。

これを数値としてあらわすのが、相関係数なのです。

横軸を$x$、縦軸は$y$とし、

それぞれのエリアに入る打点の特徴は、

  • 第1エリアに入るのは、$x$と$y$ともに平均よりも大きい
  • 第2エリアに入るのは、$x$は平均よりも小さく、$y$は平均よりも大きい
  • 第3エリアに入るのは、$x$と$y$ともに平均よりも小さい
  • 第4エリアに入るのは、$x$は平均よりも大きく、$y$は平均よりも小さい

です。

ここで、相関係数の計算式を思い出してみましょう。

$$r=\frac{\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})}{\sqrt{\sum_{i=1}^n (x_i -\bar{x})^2}\times\sqrt{\sum_{i=1}^n (y_i -\bar{y})^2}}$$
$$r=\frac{xとyの偏差積和}{\sqrt{xの偏差平方和}\times\sqrt{yの偏差平方和}}$$

でした。

分母の偏差平方和は、偏差を二乗して足し合わせたものです。偏差がプラスであってもマイナスの値であっても、二乗をすれば必ずプラスの値になります。

つまり偏差平方和は必ずプラスの値です。

一方、分子の偏差積和は、$x$の偏差と$y$の偏差を掛け合わせて、それらを合計したものです。

ある一組の$x$と$y$の偏差積($x$の偏差と$y$の偏差を掛け合わせたもの)がプラスの値になるか、マイナスの値になるかは、当たり前ですが次のとおりです。

  • $x$の偏差がプラスで、$y$の偏差がプラスのときは、偏差積はプラス
  • $x$の偏差がプラスで、$y$の偏差がマイナスのときは、偏差積はマイナス
  • $x$の偏差がマイナスで、$y$の偏差がプラスのときは、偏差積はマイナス
  • $x$の偏差がマイナスで、$y$の偏差がマイナスのときは、偏差積はプラス

となります。

散布図上のエリアと偏差積和のプラス・マイナスの関係

何人かの偏差積を計算してみましょう。

■Jさんの場合
点数$x$の偏差は、$100-70=30$
仕事力$y$の偏差は、$8-6=2$
$x$の偏差と$y$の偏差を掛け合わせて偏差積を求めると、$30\times2=60$となります。
$x$の偏差はプラス、$y$の偏差もプラスですから、偏差積はプラスになります。
■Aさんの場合
点数$x$の偏差は$30-70=-40$
仕事力$y$の偏差は$3-6=-3$
偏差積は$-40\times-3=120$となります。$x$の偏差はマイナス、$y$の偏差もマイナスですから、偏差積はプラスになります。
■Cさんの場合
点数$x$の偏差は$50-70=-20$
仕事力$y$の偏差は$10-6=4$
偏差積は$-20\times4=-80$となります。
$x$の偏差はマイナス、$y$の偏差はプラスですから、偏差積はマイナスになります。

全員の偏差積を計算すると次のようになります。

プラスの偏差積は、第1エリアと第3エリアに打点。

マイナスの偏差積は、第2エリアと第4エリアに打点。

soukankeisuusanpuzu4

横軸を$x$、縦軸を$y$として、

■第1エリアは、$x$と$y$ともに平均よりも大きい
⇒$x$と$y$の偏差は両方ともプラスの値で、それらを掛け合わせた偏差積もプラスの値になる

■第2エリアは、$x$は平均よりも小さく、$y$は平均よりも大きい
⇒$x$の偏差はマイナスの値、$y$の偏差はプラスの値なので、それらを掛け合わせた偏差積はマイナスの値になる

■第3エリアは、$x$と$y$ともに平均よりも小さい
⇒$x$と$y$の偏差は両方ともマイナスの値で、それらを掛け合わせた偏差積はプラスの値になる

■第4エリアは、$x$は平均よりも大きく、$y$は平均よりも小さい
⇒$x$の偏差はプラスの値、$y$の偏差はマイナスの値なので、それらを掛け合わせた偏差積はマイナスの値になる

つまり偏差積の値は、

  • 第1エリアでは、プラス
  • 第2エリアでは、マイナス
  • 第3エリアでは、プラス
  • 第4エリアでは、マイナス

となります。

そして、プラスになったりマイナスになったりする、いろいろな偏差積の値を合計したものが、偏差積和です。これは、相関係数の数式の分子に位置していましたね。

$$r=\frac{\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})}{\sqrt{\sum_{i=1}^n (x_i -\bar{x})^2}\times\sqrt{\sum_{i=1}^n (y_i -\bar{y})^2}}$$
$$r=\frac{xとyの偏差積和}{\sqrt{xの偏差平方和}\times\sqrt{yの偏差平方和}}$$

散布図上で、第1エリア・第3エリアへたくさん打点されると、偏差の積を合計した数値(偏差積和)がプラスの値で、より大きくなる。

⇒“正の相関”が強いと言える

第2エリア・第4エリアへたくさん打点されると、偏差の積を合計した数値(偏差積和)がマイナスの値で、より小さくなる

⇒“負の相関”が強いと言える

偏差積和がプラスなのかマイナスなのかによって、相関係数のプラス・マイナスが決まる

各データの偏差積をすべて足し合わせたものが、偏差積和です。

ですから、偏差積にプラスの値が多いと、偏差積和はプラスになり、偏差積にマイナスの値が多いと偏差積和はマイナスになることはすでに書きました。

そして、偏差積を合計した数値(偏差積和)をみることで、どれだけ正の相関があるか、あるいはどれだけ負の相関があるか、はかることができそうですね。

偏差積和がプラスで大きな値であるほど正の相関があり、偏差積和がマイナスで小さな値であるほど負の相関があります。

偏差積和は、$x$と$y$の偏差積を合計すればいいですから、

$$120+90+(-80)+10+0+(-10)+0+20+75+60=285$$

偏差積和は、285となりました。

偏差積和の値を基準化する

偏差積和が、相関の程度をはかる数値のなるかもしれませんが、でもちょっと待ってください。

データの数値の単位が変わるなどして数値が大きくなると、$x$と$y$のデータの関係性は変わっていないのに偏差積和が大きくなってしまいますよね。 逆に小さくなることもありえます。

身長と体重の関係を見るときに、身長単位をmにしていたものをcmにすると、関係性は変化無いはずなのに、各データの値は100倍になってしまいます。偏差積和の数値も大きくなってしまいます。

ペーパーテストの点数と実力の関係でいえば、ペーパーテストの点数が100点満点ではなく、10点満点の採点だとしたらどうでしょう。

100点満点のときと比較して、10分の1で表すことになっただけですから、ぺーパーテストと仕事の実力の関係は変わらないはずなのに、偏差積和の数値は小さくなってしまいます。

※テストを10点満点であらわした。

ペーパーテストの結果を10点満点にして、偏差積和を計算すると、28.5になってしまいました。

このように偏差積和の数値が変わってしまうと、あるデータの偏差積和と、他のデータの偏差積和を、比較するといったことができませんよね。この問題を解決するには、偏差積和の基準化が必要になります。

たびたびですが、相関係数の計算式を記載しますと、

$$r=\frac{\sum_{i=1}^n (x_i -\bar{x})(y_i -\bar{y})}{\sqrt{\sum_{i=1}^n (x_i -\bar{x})^2}\times\sqrt{\sum_{i=1}^n (y_i -\bar{y})^2}}$$
$$r=\frac{xとyの偏差積和}{\sqrt{xの偏差平方和}\times\sqrt{yの偏差平方和}}$$

分子が偏差積和、分母が「$x$の偏差平方和のルート」と「$y$の偏差平方和のルート」を掛け合わせた式、になっていますね。この分母によって、基準化がなされます。

こうすることで、どんなデータであっても相関係数が ̠-1.00~0~1.00の範囲におさまるようになります。

計算してみましょう。

ペーパーテストが「100点」満点の場合

$$r=\frac{xとyの偏差積和}{\sqrt{xの偏差平方和}\times\sqrt{yの偏差平方和}}$$

$$=\frac{285}{\sqrt{5250}×\sqrt{54}}$$

$$=\frac{285}{72.46×7.348}$$

$$=0.535$$

ペーパーテストが「10点」満点の場合

$$=\frac{28.5}{\sqrt{52.5}×\sqrt{54}}$$

$$=\frac{28.5}{7.246×7.348}$$

$$=0.535$$

100満点の場合だと、$\sqrt{xの偏差平方和}$は72.46、

10点満点の場合だと、$\sqrt{xの偏差平方和}$は7.246 となり、10分の1 の値になりました。

そのため、分子の偏差積和が変わっても、相関係数は、どちらとも0.535 となりました。

データの単位が変わり、偏差積和が285から28.5へと10分の1 になっても、分母の$\sqrt{xの偏差平方和}$も同様に10分の1の値になるので、結果出てくる数値は同じになるのです。

偏差積和を基準化したこの数値が相関係数です。

あらゆるデータで、-1.00~0~1.00の数値になるので、比較することができるようになります。$x$の偏差平方和と$y$の偏差平方和を掛け合わせた数値は、偏差積和がとることができる最大値になっています。

つまりこの式では、完全な相関がある場合は、 分子の偏差積和が最も大きな値になり、分母の値と同じになりますから、相関係数は、1.00となります。

フォローする