相関比の意味と計算方法

2つの量的データがあったとき、片方が大きくなれば、もう片方も大きくなる、あるいは小さくなるといったような関係性のことを相関関係といいます。

散布図を描いたり、相関係数を計算することで、数字で2つのデータの関係性をとらえることができます。

参考:散布図の作り方

参考:相関関係の意味と相関係数の計算方法

量的データを扱う場合はこれでいいのですが、質的データを扱う場合は、相関係数の計算はできません。名義尺度データと間隔尺度のデータの場合であれば、相関比をつかって相関関係がどの程度なのか数値化します。

参考:データの種類。尺度での分類と、質的と量的での分類

会社で社員旅行の行き先のアンケートをとってみました。次の3つの候補がありました。

  • 北海道
  • 軽井沢
  • ハワイ

年齢によって、好む行き先が違うのかどうか、

年齢(才) 行きたい場所
1 28 ハワイ
2 24 ハワイ
3 29 北海道
4 35 北海道
5 42 北海道
6 45 軽井沢
7 55 軽井沢
8 47 軽井沢
9 37 北海道
10 32 ハワイ
11 31 北海道
12 51 軽井沢
13 49 軽井沢
14 30 ハワイ
15 29 ハワイ

行き先事に年齢データをまとめると、

北海道 29、35、42、37、31
軽井沢 45、55、47、49、51
ハワイ 28、24、32、30、29

となりました。

平均をとると、

北海道 34.8
軽井沢 49.4
ハワイ 28.6

です。

年齢によって、好む旅行先が変ってくるのか。グラフをつくって見てみましょう。

北海道を旅行先として好む年代、軽井沢を旅行先として好む年代、ハワイを旅行先としてこのむ年代には、違いがあるように見えますね。

  • 北海道は30代~40代前半
  • 軽井沢は40代から50代
  • ハワイは20代~30代前半

から好まれるようですね。

これを数値で捉えるために、相関比があります。

相関比は、グループ内のバラつきと、グループ間のバラつきを見るものです。

グループ内での年齢のバラつきが小さくて、グループ間の年齢のバラつきが大きいほど、グループと年齢の関係は強いことになります。たとえば、ハワイは20代~30代前半の人に好まれていて、他のグループ(軽井沢、ハワイ)とは年齢幅がほとんど重複していません。これは、年齢層によって、好む旅行先が違っているということになります。

年齢層によって、好む旅行先が違っていないとしたら、グループ間のバラつきは無くなります。

こんなふうになるはず。

相関比を計算する

相関比の計算式

グループ内の変動を級内変動、グループとクループの間の変動を級間変動といって、これらを利用して、相関関係を数値化するのが、相関比です。

変動は、級内変動、級間変動に分けられます。級内変動と級間変動を足し合わせると、全変動になります。

相関比 = 級間変動 / 全変動

全変動 = 級間変動 + 級内変動

変動に関して記号であらわすと、

S = Sw + Sb

となります。※wは、withinの頭文字、bは、betweenの頭文字だと思います。

級内変動を計算する

北海道グループ、軽井沢グループ、ハワイグループ、それぞれのグループの中での変動を計算します。

  • グループ内の各データからグループの平均値を引く。すると偏差が得られる。
  • 偏差を偏差を二乗する。
  • すべて足し合わせる。

つまり偏差平方和を計算します。

軽井沢グループ、またハワイグループでもそれぞれ、偏差平方和を計算し、その3つを合計すると、級内変動となります。

級内変動 = 北海道グループの偏差平方和 + 軽井沢グループの偏差平方和 + ハワイグループの偏差平方和

北海道グループのデータをx、軽井沢グループのデータをy、ハワイグループのデータをzとします。

  • 北海道のグループの級内変動は、104.8
  • 軽井沢グループの級内変動は、59.2
  • ハワイのグループの級内変動は、35.2

です。これらを合計すると、199.2 となります。

級内変動 = 199.2

です。

全変動を計算する

グループを分けずに考えて、すべてのデータの偏差の2乗を足し合わせます。

全データの偏差平方和です。


全変動 = 1339.6

となりました。

全変動 = 級内変動 + 級間変動

ですから、1から(級内変動 / 全変動)を引けば、残りは(級間変動 / 全変動)、つまり相関比となります。

1 - 級内変動 / 全変動 = 級間変動 / 全変動

1 - 199.2 / 1339.6 = 1140.4 / 1339.6

相関比 ≒ 0.85

となりました。