データ尺度の違いによる相関関係を数値化する方法の種類

相関分析とは、2個の変量の関係がどれだけあるのかを判断する分析です。

  • 一方の変量が増加すると、もう一方の変量も増加する
  • 一方の変量が増加すると、もう一方の変量は減少する
  • 一方の変量が減少すると、もう一方の変量も減少する
  • 一方の変量が減少すると、もう一方の変量は増加する

データやグラフを見るだけでも傾向はわかるかもしれませんが、どれだけの相関関係があるのか、はっきりとした数値が欲しいものです。数値で表すことができる指標が、相関係数です。相関係数によって、2つのものごとの関係性を数字で把握することができます。

量的データなのか質的データによって分析方法が変わる

変量が量的データなのか質的データなのか、どういった尺度のデータなのかによって、分析の仕方が変わります。

量的データと質的データ、尺度についてはこちらの記事を参考に。

参考:データの種類。尺度での分類と、質的と量的での分類

間隔尺度(量的データ)と間隔尺度(量的データ)

ピアソンの積率相関係数で相関関係を数値化します。

相関係数 = xとyの共分散 / (xの標準偏差 × yの標準偏差)

  • xが増えると、yも増えるという関係を、正の相関関係
  • xが増えると、yは減るという逆に動く関係を、負の相関関係

といいます。

相関係数は、-1 ~ 0 ~ 1 の間の値となります。

正の相関関係が強いほど、相関係数は1 に近づき、負の相関係数が強いほど、相関係数は1 に近づきます。

参考:相関関係の意味と相関係数の計算方法

間隔尺度(量的データ)と名義尺度(質的データ)

相関比で相関関係を数値化します。相関比は、グループ内のバラつきと、グループ間のバラつきを見るものです。

旅行先の候補として、北海道、軽井沢、ハワイがあったとしましょう。年齢によって、好む行き先が違うのかどうか、アンケートをとってみました。

年齢(才) 行きたい場所
1 28 ハワイ
2 24 ハワイ
3 29 北海道
4 35 北海道
5 42 北海道
6 45 軽井沢
7 55 軽井沢
8 47 軽井沢
9 37 北海道
10 32 ハワイ
11 31 北海道
12 51 軽井沢
13 49 軽井沢
14 30 ハワイ
15 29 ハワイ

行き先事に年齢データをまとめると、

北海道 29、35、42、37、31
軽井沢 45、55、47、49、51
ハワイ 28、24、32、30、29

となりました。

北海道を選んだ人たちの年齢、軽井沢を選んだ人たちの年齢、ハワイを選んだ人たちの年齢に違いがあるのかどうかを調べます。

グラフをつくって見てみましょう。

北海道を旅行先として好む年代、軽井沢を旅行先として好む年代、ハワイを旅行先としてこのむ年代には、違いがあるように見えますね。

  • 北海道は30代~40代前半
  • 軽井沢は40代から50代
  • ハワイは20代~30代前半

から好まれるようですね。

これを数値で捉えるために、相関比があります。

北海道のグループ、軽井沢のグループ、ハワイのグループ、グループの間での変動が、全体の変動と比較して大きければ、それぞれのグループに違いがあると言えそです。

グループ内の変動を級間変動、グループ間の変動を級間変動といいます。

相関比 = 級間変動 / 全変動

で相関比計算することができます。

名義尺度(質的データ)と名義尺度(質的データ)

クラメールの連関係数で相関関係を数値化します。

名義尺度と名義尺度のデータである場合は、クラメールの連関係数をつかって関係性を数値化します。

軽井沢は行きたいと思うか?と各年代にアンケートをとってみました。

20代 30代 40代 50代 合計
行きたい 2 2 5 7 16
行きたくない 6 6 1 0 13
合計 8 8 6 7 29

回答者には、回答者の年代と行きたいかどうかを答えてもらいました。これらの2つの質的データを行と列の項目として、かけあわせたところに記入をします。

たとえば、30代で、軽井沢に行きたくない人は、8人いたということです。

クロス集計表のデータ数をn、行列の短い方をkとすると、次の式でクラメールの連関係数を計算できます。(この表の場合はn=29、k=2)、

クラメールの連関係数 = √( χ2 / (n(k-1)))

順位尺度(質的データ)と順位尺度(質的データ)

スピアマンの順位相関係数で相関関係を数値化します。

行きたい旅行先を順位をつけて選んでください。と2人の回答を得ました。

北海道 軽井沢 ハワイ 中国
Aさん 2 1 3 4
Bさん 4 3 2 1

AさんとBさんの好みに相関があるのかどうか調べる、スピアマンの順位相関係数です。

2人のつけた順位の差の2乗を計算します。

北海道 軽井沢 ハワイ 中国
Aさん 2 1 3 4
Bさん 4 3 2 1
順位の差 -2 -2 1 3
(順位の差)2 4 4 1 9

1位から4位までの順位を与えました。順位の数をnとして、次の式でスピアマンの順位相関係数を計算できます。

Σ(順位の差)2 / n(n2-1)

まとめ

2つのものごとの相関関係を求めるには、データの種類に着目して、それに合った相関の数値化方法を選びます。

  • 間隔尺度と間隔尺度の場合は、ピアソンの積率相関係数で相関関係
  • 間隔尺度と名義尺度の場合は、相関比で相関関係
  • 名義尺度と名義尺度の場合は、クラメールの連関係数で相関関係
  • 順位尺度と順位尺度の場合は、スピアマンの順位相関係数

となります。

フォローする