データ尺度の違いによる相関関係を数値化する方法の種類




相関分析とは、2個の変量の関係がどれだけあるのかを判断する分析です。

  • 一方の変量が増加すると、もう一方の変量も増加する
  • 一方の変量が増加すると、もう一方の変量は減少する
  • 一方の変量が減少すると、もう一方の変量も減少する
  • 一方の変量が減少すると、もう一方の変量は増加する

データやグラフを見るだけでも傾向はわかるかもしれませんが、どれだけの相関関係があるのか、はっきりとした数値が欲しいものです。

そんなときに相関係数が役立ちます。相関係数とは、数値で表すことができる指標です。相関係数によって、2つのものごとの関係性を数字で把握することができます。

相関関係の数値化は、扱うデータが量的データなのか、質的データなのかによって、またはどういった尺度なのかによって、計算する方法が変わります。

  • 間隔尺度と間隔尺度の場合は、ピアソンの積率相関係数
  • 間隔尺度と名義尺度の場合は、相関比
  • 名義尺度と名義尺度の場合は、クラメールの連関係数
  • 順位尺度と順位尺度の場合は、スピアマンの順位相関係数

の4種類があります。この記事では、この4種類の相関関係の数値化方法について解説します。

量的データ・質的データまた尺度について

相関関係の数値化方法の前に、データの分類について、まとめておきます。

データの分類すると、数字で測ることができるかどうかで、質的データと量的データに分けることができます。

  • 質的データは、数字で測ることができないデータ
  • 量的データは、身長とかモノの値段のように、数字で測ることができるデータ

となっています。

データの尺度としては、

  • 単に名称として使われている名義尺度
  • 数字の順位や順番のみが意味を持つ順位尺度
  • 数値の間隔に意味がある間隔尺度
  • 間隔に加えて比率にも意味がある比率尺度

があります。

質的・量的の分類と、尺度を合わせて考えると、

質的データは、名義尺度と順序尺度

量的データは、間隔尺度と比率尺度

となります。

相関関係の数値化をするときには、扱うデータがどこに属しているかで、やり方が変わります。

量的データと質的データ、尺度についてはこちらの記事を参考にしてください。

参考記事 データの種類。尺度での分類と、質的と量的での分類

それでは、データの種類ごとに相関関係の数値化方法を解説していきます。

量的データと量的データの場合は、ピアソンの積率相関係数

量的データ(間隔尺度、比率尺度)同士の場合は、ピアソンの積率相関係数で相関関係を数値化します。

相関係数 = xとyの共分散 / (xの標準偏差 × yの標準偏差)

  • xが増えると、yも増えるという関係を、正の相関関係
  • xが増えると、yは減るという逆に動く関係を、負の相関関係

といいます。

相関係数は、-1 ~ 0 ~ 1 の間の値となります。

正の相関関係が強いほど、相関係数は1 に近づき、負の相関係数が強いほど、相関係数は1 に近づきます。

参考記事 相関関係の意味と相関係数の計算方法

量的データと名義尺度(質的データ)の場合は相関比

量的データ(間隔尺度、比率尺度)と名義尺度(質的データ)の場合は、相関比で相関関係を数値化します。相関比は、グループ内のバラつきと、グループ間のバラつきを見るものです。

旅行先の候補として、北海道、軽井沢、ハワイがあったとしましょう。年齢によって、好む行き先が違うのかどうか、アンケートをとってみました。

年齢(才)行きたい場所
128ハワイ
224ハワイ
329北海道
435北海道
542北海道
645軽井沢
755軽井沢
847軽井沢
937北海道
1032ハワイ
1131北海道
1251軽井沢
1349軽井沢
1430ハワイ
1529ハワイ

行き先事に年齢データをまとめると、

北海道29、35、42、37、31
軽井沢45、55、47、49、51
ハワイ28、24、32、30、29

となりました。

北海道を選んだ人たちの年齢、軽井沢を選んだ人たちの年齢、ハワイを選んだ人たちの年齢に違いがあるのかどうかを調べます。

グラフをつくって見てみましょう。

北海道を旅行先として好む年代、軽井沢を旅行先として好む年代、ハワイを旅行先としてこのむ年代には、違いがあるように見えますね。

  • 北海道は30代~40代前半
  • 軽井沢は40代から50代
  • ハワイは20代~30代前半

から好まれるようですね。

これを数値で捉えるために、相関比があります。

北海道のグループ、軽井沢のグループ、ハワイのグループ、グループの間での変動が、全体の変動と比較して大きければ、それぞれのグループに違いがあると言えそです。

グループ内の変動を級間変動、グループ間の変動を級間変動といいます。

相関比 = 級間変動 / 全変動

で相関比計算することができます。

名義尺度(質的データ)と名義尺度(質的データ)の場合は、クラメールの連関係数

名義尺度(質的データ)と名義尺度(質的データ)の場合は、クラメールの連関係数で相関関係を数値化します。

名義尺度と名義尺度のデータである場合は、クラメールの連関係数をつかって関係性を数値化します。

軽井沢は行きたいと思うか?と各年代にアンケートをとってみました。

20代30代40代50代合計
行きたい225716
行きたくない661013
合計886729

回答者には、回答者の年代と行きたいかどうかを答えてもらいました。これらの2つの質的データを行と列の項目として、かけあわせたところに記入をします。

たとえば、30代で、軽井沢に行きたくない人は、8人いたということです。

クロス集計表のデータ数をn、行列の短い方をkとすると、次の式でクラメールの連関係数を計算できます。(この表の場合はn=29、k=2)

クラメールの連関係数 = \(\sqrt{\frac{\chi^2}{n(k-1)}}\)

順位尺度(質的データ)と順位尺度(質的データ)の場合は、スピアマンの順位相関係数

順位尺度(質的データ)と順位尺度(質的データ)の場合は、スピアマンの順位相関係数で相関関係を数値化します。

行きたい旅行先を順位をつけて選んでください。と2人の回答を得ました。

北海道軽井沢ハワイ中国
Aさん2134
Bさん4321

AさんとBさんの好みに相関があるのかどうか調べる、スピアマンの順位相関係数です。

2人のつけた順位の差の2乗を計算します。

北海道軽井沢ハワイ中国
Aさん2134
Bさん4321
順位の差-2-213
(順位の差)24419

1位から4位までの順位を与えました。順位の数をnとして、次の式でスピアマンの順位相関係数を計算できます。

Σ(順位の差)2 / n(n2-1)

まとめ

2つのものごとの相関関係を求めるには、データの種類に着目して、それに合った相関の数値化方法を選びます。

  • 量的データ(間隔尺度、比率尺度)同士の場合は、ピアソンの積率相関係数
  • 量的データ(間隔尺度、比率尺度)と名義尺度の場合は、相関比
  • 名義尺度と名義尺度の場合は、クラメールの連関係数
  • 順位尺度と順位尺度の場合は、スピアマンの順位相関係数

となります。