相関分析と回帰分析の違い




相関分析と回帰分析の違いについて書きました。

相関分析とは

2つの変数に関係性があるかどうか、どのくらいの関係性があるのかを調べるのが相関分析です。

\(x\) と\(y\) の2つの変数があったときに、\(x\) が増えると\(y\) も増えるといったような2つの変数間の関係のことを相関関係といいます。

\(x\) と\(y\) の値に連動する傾向があるとき、「\(x\) と\(y\) の値の間には相関がある」といいます。

  • \(x\) が大きくなるにしたがって、\(y\) も大きくなる傾向を「正の相関」
  • \(x\) が大きくなるにしたがって、\(y\) が小さくなる傾向を「負の相関」

と呼びます。

相関関係を数値としてあらわしたものが、相関係数です。相関係数を見ることで、2つのできごとにどれだけ相関関係があるかを数値で捉えることができます。

コンビニを展開している会社が、その地域の人口と店舗の売上の相関関係を調べると、地域の人口が多いほど、店舗の売上も多かった。これは、正の相関関係があるといえますね。

このように2つの変数間の関係性を調べようとするのが、相関分析です。

回帰分析とは

一方、回帰分析とは、原因と結果の関係を法則性として定量的にあらわす方法です。

原因を\(x\) 、結果を\(y\) とすると、

$$Y=a+bX$$

という式であらわされます。

原因である説明変数\(x\) が変われば、結果である目的変数\(y\) も変わるわけですから、\(x\) から\(y\) を説明することになります。

コンビニを展開している会社が、その地域の人口と店舗の売上の相関関係を調べると、地域の人口が多いほど、店舗の売上も多かった。正の相関関係があった。

ここまでは相関分析の話ですが、その関係性について、

$$Y=a+bX$$

という数式モデルをつくって、\(x\) から\(y\) を説明しようとするのであれば回帰分析です。

ビジネスの予測をするときに、よく用いられます。

たとえば、新しい店舗をこれから出店しようと計画しているときに、

  • 出店地域の人口が○○人だと、新しい店舗の売上は○○円程度になりそうだ。
  • 人口があと1万人多い地域であれば、新しい店舗の売上は○○円程度になりそうだ。

と、地域の人口\(x\) から、新しい店舗の売上\(y\) の売上を予測する。これは\(x\) から\(y\) を説明しようとしているのですから回帰分析となります。