統計学では、「バイアス」という言葉を見聞きします。このバイアスについて、また心理学の認知バイアスという言葉との違いについて書きました。
バイアスとは
統計学で言うバイアスとは日本語でいえば「偏り」で、観測値から得た母集団の推定値と、真の値との間にある偶然にできたものではないズレのことです。
これは、偶然の誤差とは異なるもので、系統的に発生してしまう誤差です。
心理学でいう認知バイアスとは、事実を正確に認知できず、歪んだ捉え方をすること、判断が偏ることですので、別物です。
誤差は
- バイアス=系統誤差
- ばらつき=偶然誤差
に分けることができます。系統的誤差とは、偶然に発生したものではなくて、出るべくして出た誤差ですね。
精度と真度(精度と正確度)
観測したデータにどれだけ信頼がおけるか、精度と真度で考えることができます。
精度
観測した値の中心は、真の値に近いけれども、観測値のばらつきが大きい。これは、精度が悪いといいます。
- 偶然誤差が大きい=精度が悪い
- 偶然誤差が小さい=精度がよい
となります。
真度(正確度)
一方、観測値のばらつきは小さいですが、観測値の中心が真の値からズレてしまっている。これは、真度が悪いといいます(真度は正確度ともいいます)。
- 系統誤差が大きい=真度が悪い
- 系統誤差が小さい=真度がよい
となります。
データは精度がよく、真度もよいことが望ましいわけです。バイアスがあるということは、真度が悪いということになってしまいます。
バイアスの種類
具体的なバイアスを紹介します。
選択バイアス
選択バイアスとは、調査対象に選ばれたものと選ばれなかったもので、大きな違いがあるときに発生するバイアスです。
たとえば、人々の健康に関して調査を行うときに、病院内だけで行ったらどうなるでしょう。
どちらかというと、健康ではない人々ばかりを調査対象に選択してしまうことになります。
参考記事 選択バイアスとは
情報バイアス
情報バイアスとは、観測方法によって生じるバイアスです。
調査対象者にその人自身の情報を質問をしたとき、正直に答えにくいことは、過小、あるいは過大に答えることがあります。
たとえば、「あなたの貯金額はいくらですか?」と問われたら、多少盛って答えてしまう気がします。
参考記事 情報バイアスとは
測定作業のバイアスとは
測定作業のバイアスとは、測定によってデータを得るときに、測定機器や測定方法に問題があって発生するバイアスです。
機械が故障していて正しく値を測定できない、作業者の測定のやり方に間違いがあって正しい測定値を得られなかった、といったものです。
出版バイアス
調査・分析をしたときに、自分が考えていた仮説とは違うこと、自分の考えを否定するようにな結果が得られたとき、発表するのを止めてしまうことがあるでしょう。
失敗したことは公表されにくく、上手くいったことだけが公表されやすいので、世に出ているのは偏った情報だというバイアスがあります。
これを出版バイアスといいます。
本当は、失敗してしまったことも、有用な情報なのですが。
バイアスが出てこないやり方を設計段階から考えておく
偶然に発生している誤差、いわゆる、ばらつきは、それを考慮して分析し結論を出せるのですが、というか、ばらつきがあることを前提にして分析手法があるのですが、バイアスに関しては、「この分析手法をつかえば修正できる」といったことはなく、分析でどうこうできるものではありません。
こういった選択バイアス、情報バイアスを避けるためには、調査や実験を開始する前の調査・実験設計段階で、どのように標本データを集めるかよく考えないといけません。標本データを集めたあとではどうしようもありませんから。