統計学のバイアス(偏り)の意味。認知バイアスとは違います

統計学では、「バイアス」という言葉を見聞きします。このバイアスについて、また心理学の認知バイアスという言葉との違いについて書きました。

バイアスとは

統計学で言うバイアスとは日本語でいえば「偏り」で、観測値から得た母集団の推定値と、真の値との間にある偶然にできたものではないズレのことです。これは、偶然の誤差とは異なるもので、系統的に発生してしまう誤差です。

心理学でいう認知バイアスとは、事実を正確に認知できず、歪んだ捉え方をすること、判断が偏ることですので、別物です。

誤差は

  • バイアス=系統誤差
  • ばらつき=偶然誤差

に分けることができます。系統的誤差とは、偶然に発生したものではなくて、出るべくして出た誤差ですね。

精度と正確度

観測したデータにどれだけ信頼がおけるか、精度と真度で考えることができます。

精度

観測した値の中心は、真の値に近いけれども、観測値のばらつきが大きい。これは、精度が悪いといいます。

  • 偶然誤差が大きい=精度が悪い
  • 偶然誤差が小さい=精度がよい

となります。

真度

一方、観測値のばらつきは小さいですが、観測値の中心が真の値からズレてしまっている。これは、真度が悪いといいます(真度は正確度ともいいます)。

  • 系統誤差が大きい=真度が悪い
  • 系統誤差が小さい=真度がよい

となります。

データは精度がよく、真度もよいことが望ましいわけです。バイアスがあるということは、真度が悪いということになってしまいます。

バイアスの種類

バイアスには主なものとして選択バイアスと情報バイアスがあります。

選択バイアス

選択バイアスとは、調査対象に選ばれたものと選ばれなかったもので、大きな違いがあるときに発生するバイアスです。

とある高校で、学生の身長測定をして、平均値を算出したとします。学生をランダムに選んで測定したのですが、それは、放課後になってから行われました。その日、3年生は大学受験勉強で学校が早く終わる日であったため、3年生はすでに帰宅している人が大半でした。そんななかで、高校生の身長測定をしたのでした。

そこで得られた標本のデータは偏りが生じており、本当のその学校の高校生の平均身長(真の値)とは異なっているでしょう。高校生1年、2年、3年のなかでは3年生の身長が高いはずであり、3年生がいないなかで身長を測定したので、真の値よりも、標本の平均値のほうが低く偏るはずだからです。

あるいはこんな例もあります。占いに関する雑誌に、「あなたの占いへの関心度合いを教えてください」と、アンケートはがきがついていました。「内容には占いを信じますか?」「占いへ行く頻度は?」といった内容です。

このアンケート結果は、日本のみんなの占いへの関心度を正確にあらわすでしょうか?あらわしせんよね。そもそもその雑誌を買って読む人というのは、占いに興味がある人々だけであり、さらにわざわざアンケートに答えるような人は、この占いの雑誌が大好きな人です。

日本全体の占いへの関心度を調べたいのであれば、これではダメです。

情報バイアス

情報バイアスとは、観測方法によって生じるバイアスです。

調査対象者にその人自身の情報を質問をしたとき、正直に答えにくいことは、過小、あるいは過大に答えることがあります。

たとえば、「あなたの貯金額はいくらですか?」の問いにたいして、私であれば、その額が少ないですから、多少盛って答えてしまいそうです。

「あなたはタバコを吸いますか?吸うのであればどのくらい吸いますか?」という問いはどうでしょう。タバコの吸っているのを隠したいと思う人もいそうです。

年齢をサバ読みするのもこの一種といえそうです。

あるいは、医学におけるバイアス。Aという病気があって、その病気を患ったことがある人の家族にもそのAの病気が多いかどうかを調べるために、「あなたの家族にAの病気になった人はいますか?」と質問するとします。

  • Aの病気にかかったことがある人に質問したとき
  • Aの病気にかかったことがない人に質問したとき

の2つの結果を比較すると、前者のほうがYesと答える率が上がります。なぜなら、Aの病気になったことがある人のほうが、Aの病気に関して情報を持っているので、家族がその病気になっていることに気が付きやすいです。

家族が病気にかかったことがあるかどうかの割合は、Aの病気にかかったことがある人の場合のほうが、家族もその病気になったことがあると答える率が高くなるという偏りが生じます。これは家族情報バイアスと呼ばれます。

測定作業のバイアスもあります。

たとえば、ある工場で温度計をつかって、液体の温度を毎日測定をしているとしましょう。この温度計が故障していて、本当に正しい温度よりも、1℃だけ高く表示されてしまっているとしたら、常に偏りが発生していることになります。

また、測定機器は問題がなくても、測定機器を正しくつかっている作業者、測定機器を正しくつかえていない作業者がいたら、後者の場合だけ常に測定結果に偏りがでます。

バイアスが出てこないやり方を設計段階から考えておく

偶然に発生している誤差、いわゆる、ばらつきは、それを考慮して分析し結論を出せるのですが、というか、ばらつきがあることを前提にして分析手法があるのですが、バイアスに関しては、「この分析手法をつかえば修正できる」といったことはなく、分析でどうこうできるものではありません。

こういった選択バイアス、情報バイアスを避けるためには、調査や実験を開始する前の調査・実験設計段階で、どのように標本データを集めるかよく考えないといけません。標本データを集めたあとではどうしようもありませんから。

フォローする