見かけ上の相関(見せかけの相関)

データの見かけ上は相関関係があっても、実は関係がないものを「見かけ上の相関」といいます(あるいは見せかけの相関)。 統計的な数字だけをみて現実を考えない人は、見かけ上のの相関にだまされて、間違った理解をして意味のない行動をしてしまいます。

たとえば、このような場合です。ある会社のビジネスマンの体重と年収のデータを見てみたら、その間に相関関係がありました。

soukankeisuuhyou7-taijyuu-nensyuu

soukankeisuusanpuzu6-taijyuu-nensyuu

相関係数はR = 0.61です。相関係数としては「正の相関がある」といえますし、なにか関係がありそうな数値です。なるほど、ビジネスマンは体重があって体が大きいほうが相手に安心感を与えるとか、 信頼されやすいとかあるのかもしれない。よくご飯を食べて体を大きくしよう、と考えてしまうかもしれませんね。

しかしこんなふうに考えてしまうのは間違いの可能性があります。年収を挙げているのも、体重を増やしているのも、ひょっとしたら…、

“加齢”が原因なのかもしれません。

それは、こういうことです。

  • 年齢が上がると、お腹が出てきて、体重が増加する人が多い
  •  年齢が上がると、新人のときよりも仕事ができるようになり、収入も増加する人が多い (あるいは年功序列で収入が増加する)

年をとることによって、体重も増加するし、収入も増加することから、体重と年収に相関関係が見られた可能性があります。まあ、そうでしょう。

でも、体重と年収にほんとうに関係がないと言い切ることはできません。もしかすると、あるのかもしれません。年齢は関係ない!ということを証明するにはどうしたらいいのでしょうか。それには年齢の要因を除去する必要があります。

各年代別で体重と年収の関係性を見てみましょう。

20~24歳のデータ、25~29歳のデータ・・・55~59歳のデータ、60歳以上のデータという具合で、年齢で区分けをしてそれぞれ見てみるのです。その各年代の中でも、体重と年収に相関係数が見られたのであれば、年齢は関係がないと言うことができます。

上に書いたような単純な例であればわかりやすいのですが、仕事の現場で発生する現実の問題は、さまざまな要因が入りまじって発生しますから、気をつける必要があります。

上手いこと相関のある数値が出てきて、「おっ、これは関係があるのか!」と喜びたくなっても、ちょっと立ち止まりましょう。相関係数の数値だけで物事を判断するのでなく、その裏にどういった現象があるのかもしっかりと考えないと、見かけ上の相関にだまされて、間違った理解をしてしまいます。