相関係数の計算方法

シェアする

ペーパーテストと仕事の実力の関係

ペーパーテストと仕事の実力は関係ないと言われることもありますが、ペーパーテストでは、知識の量、基礎的な計算能力や読解力などをはかることができます。

知識だけがあれば仕事ができるわけではありませんが、知識の量と仕事の能力とはいくらかの関係があるのではないでしょうか。

ある会社では、従業員に勉強してもらい知識を増やしてもらうのを狙いとして、ペーパーテスト実施しました 。また、各従業員のテストの結果と仕事の実力に関係があれば、定期的にテストを行って勉強するように促したり、新たな人材の採用試験でペーパーテストを実施するのもいいのでないかと考え、得られたペーパーテストの結果と普段の仕事の実力に関係があるのかを見てみました。

従業員は、A~Jの10人がいます。テストの点数を横軸、仕事の実力を縦軸として散布図書いてみました。散布図は2つの変数関係性をパッと把握することができます。

打点が右肩上がりになっていて、ペーパーテストの点数が高い人ほど、仕事の実力も高い人が多いように見えます。テストの点数で80点以上の高得点をとっている人は仕事の実力も比較的良く、テストの点数が30点、40点と悪い人は仕事の実力もないようです。また、テストの点数は50点なのに、仕事の実力がずば抜けている人が1人いることがわかります。

soukankeisuuhyou1

soukankeisuusanpuzu1

仮にペーパーテスト点数xが増加すると、仕事の実力yも増える関係にあるとしたら、 右肩上がりに打点がされるはずです。

今回の結果でも概ねそうなっていますね。 このようにxが増えるとyも増えるというように、xとyの値に連動する傾向があるとき、 「xとyの値の間には相関がある」といいます。

  • xが大きくなるにしたがって、yも大きくなる傾向を「正の相関」
  • xが大きくなるにしたがって、yが小さくなる傾向を「負の相関」

と呼びます。

散布図を見れば、ペーパーテストの点数が高い人ほど仕事の実力もあることがなんとなくわかりますが、 何かはっきりとした数値が欲しいものです。こんなときに使える指標として相関係数があります。 相関係数は2つのものごとの関係性を数値で把握することできるものです。

ふつう相関係数というと、このピアソンの積率相関係数のことを指しますので、相関係数と呼んでいきたいと思います。

相関係数は「r」の記号で表し、計算式はこのようになります。

soukankeisuusiki1

また言葉で書くとこのようになります。

soukankeisuusiki3

また、こちらの式でもよいです。

soukankeisuusiki4

テストの点数と仕事の実力の相関係数を計算すると、0.54となりました。

なぜこのような式になるのか

なぜ上に記載したような式で、2つのことの関係性を表す数値が出てくるのか、少し長くなりますが書いていきます。

まず、散布図に平均の線を引いてみましょう。

  • ペーパーテストxの平均は、70
  • 仕事の実力yの平均は、6

ですので、縦軸の実力6に横線を、横軸の70点に縦線を引きます。

soukankeisuusanpuzu2

正の相関があるときには、第1エリアと第3エリアに多く打点されることになります。
平均値の線によって4分割されたエリアをそれぞれ

  • 第1エリア
  • 第2エリア
  • 第3エリア
  • 第4エリア

と呼ぶことにします。

soukankeisuusanpuzu3

仮の話ですが、逆にペーパーテストの点数が高い人ほど、仕事の実力は低くなる という傾向、つまり負の相関が見られるとしたらどうでしょうか。 打点に右肩下がりの傾向が見られ、第2エリアと第4エリアに多く打点がされることになります。

※仮の表と散布図

soukankeisuuhyou2

soukankeisuusanpuzu5

乱暴な言い方かもしれませんが、

  •  第1エリアと第3エリアにたくさん打点されるほど、正の相関が強くなり
  •  第2エリアと第4エリアにたくさん打点されるほど、負の相関が強くなる

というわけです。

これを数値として表すのが、相関係数なのです。

横軸がx、縦軸はyとし、

それぞれのエリアに入る打点の特徴は、

  • 第1エリアに入るのは、xとyともに平均よりも大きい
  • 第2エリアに入るのは、xは平均よりも小さくyは平均よりも大きい
  • 第3エリアに入るのは、xとyともに平均よりも小さい
  • 第4エリアに入るのは、xは平均よりも大きくyは平均よりも小さい

です。

平均よりもどのくらい大きな数値なのか、あるいはどのくらい小さな数値なのかを見るには、 データの値から平均値を引いて、偏差を求めるのが常套手段です。

■100点をとったJさんの場合

xの偏差は、100 – 70 = 30
yの偏差は、8 – 6 = 2

となります。

2つの変数の偏差を表すには、xの偏差とyの偏差を掛け合わせて偏差の積を求めます。

30 × 2=60

となります。

■30点をとったAさんの場合

xの偏差は30 – 70= -40
yの偏差は3 – 6= -3

xの偏差とyの偏差を掛け合わせて偏差の積を求めると、
-40 × -3= 120
となります。

xの偏差はマイナス、yの偏差もマイナスですから、偏差の積はプラスになります。

■50点なのに仕事の実力はピカイチのCさんの場合は、

xの偏差は50 – 70= -20
yの偏差は10 – 6= 4
-20 × 4= -80
となります。

xの偏差はマイナス、yの偏差はプラスですから、偏差の積はマイナスになります。

全員の偏差の積を計算すると次の表のようになります。

soukankeisuuhyou3

soukankeisuusanpuzu4

■第1エリアは、xとyともに平均よりも大きい
⇒xとyの偏差は両方ともプラスの値で、それらを掛け合わせた偏差の積もプラスの値になる

■第2エリアは、xは平均よりも小さく、yは平均よりも大きい
⇒xの偏差はマイナスの値、yの偏差はプラスの値なので、それらを掛け合わせた偏差の積はマイナスの値になる

■第3エリアは、xとyともに平均よりも小さい
⇒xとyの偏差は両方ともマイナスの値で、それらを掛け合わせた偏差の積はプラスの値になる

■第4エリアは、xは平均よりも大きく、yは平均よりも小さい
⇒xの偏差はプラスの値、yの偏差はマイナスの値なので、それらを掛け合わせた偏差の積はマイナスの値になる

つまり偏差の積の値は、

  • 第1エリアでは、プラス
  • 第2エリアでは、マイナス
  • 第3エリアでは、プラス
  • 第4エリアでは、マイナス

第1エリアと第3エリアへの打点は、偏差の積がプラスの値となり、打点が多くなるほどに合計した数値も大きくなります。

第2エリアと第4エリアへの打点は、偏差の積はマイナスの値となり、打点が多くなるほど合計した数値もどんどんマイナスになります。

乱暴な言い方を再度しますが、

  •  第1エリアと第3エリアにたくさん打点されるほど、正の相関が強くなり
  •  第2エリアと第4エリアにたくさん打点されるほど、負の相関が強くなる

というわけでした。

偏差の積を合計した数値(偏差積和)をみることで、どれだけ正の相関があるか、あるいはどれだけ負の相関があるか、はかることができそうですね。

第1エリアと第3エリアへたくさん打点される⇒偏差の積を合計した数値が、プラスの値でより大きくなる⇒“正の相関”が強くなる

第2エリアと第4エリアへたくさん打点される⇒偏差の積を合計した数値が、マイナスの値でより小さくなる⇒“負の相関”が強くなる

ということです。

偏差積和は、xとyの共分散を合計すればいいですから、

120+90+(-90)+10+0+(-10)+0+20+75+60=285

偏差積和は285となりました。

偏差積和の値を基準化する

偏差積和が、相関をはかる数値のひとつではあるのですが、でもちょっと待ってください。

データの数値の単位が変わるなどして数値が大きくなると、xとyのデータの関係性は変わっていないのに偏差積和が大きくなってしまいますよね。 逆に小さくなることもありえます。

身長と体重の関係を見るときに、身長単位をmにしていたものをcmにすると、関係性は変化無いはずなのに、偏差積和の数値も大きくなってしまいます。

上記のペーパーテストの点数と実力の関係でいえば、ペーパーテストの点数が100点満点ではなく、10点満点の採点だとしたらどうでしょう。100点満点のときと比較して、1/10で表すことになっただけですから、ぺーパーテストと仕事の実力の関係は変わらないはずなのに、偏差積和の数値は小さくなってしまいます。

※テストを10点満点で表した。

soukankeisuuhyou4

偏差積和は28.5になってしまいました。

これでは異なるデータでは比較ができないことになってしまいます。

この問題を解決するには、偏差積和の基準化が必要になります。

冒頭に記載した数式を再度見てみましょう。

soukankeisuusiki1

soukankeisuusiki3

soukankeisuusiki4

分子が偏差積和、分母がxの偏差平方和とyの偏差平方和を掛け合わせた式になっていますね。

こうすることで、-1.00~0~1.00の数値に収まるようになります。

ペーパーテストが「100点」満点の場合

soukankeisuuhyou5

ペーパーテストが「10点」満点の場合

soukankeisuuhyou6

■ペーパーテストが「100点」満点の場合

偏差積和 / (√(xの偏差平方和)×√(yの偏差平方和))
=285 / √(5250)×√(54)
=285 / (7.246×7.348)
=0.535・・・

■ペーパーテストが「10点」満点の場合

偏差積和 / (√(xの偏差平方和)×√(yの偏差平方和))
=28.5 / √(52.5)×√(54)
=28.5 / (7.246×7.348)
=0.535・・・

100満点の場合だと、√(xの偏差平方和)は72.46、

10点満点の場合だと、√(xの偏差平方和)は7.246となり、1/10になっています。

データの単位が変わり、偏差積和が285から28.5へと1/10になっても、分母の√(xの偏差平方和)も同様に1/10の値になるので、結果出てくる数値は同じになるのです。

偏差積和を基準化したこの数値が相関係数です。あらゆるデータで、-1.00~0~1.00の数値になるので、比較することができるようになります。Xの偏差平方和とyの偏差平方和を掛け合わせた数値は、偏差積和がとることができる最大値になっています。

つまりこの式では、全く完全な相関がある場合は、 分子の偏差積和が最も大きな値になり、分母の値と同じになりますから、相関係数は、1.00となります。

コメント

  1. r-de-r より:

    誤読する人はいないと思いますが

    > 下記の式でも同じ結果がでます。
    の下にある式の分母の /n の部分は ルートの中にないといけませんね。

    • tourou より:

      ご指摘ありがとうございます。
      読み返して確認、修正いたします。