選択バイアスとは




選択バイアスとは調査対象に選ばれたものと選ばれなかったもので、大きな違いがあるときに発生するバイアスです。

とある高校で、学生の身長測定をして、平均値を算出したとします。学生をランダムに選んで測定したのですが、それは、放課後になってから行われました。その日、3年生は大学受験勉強で学校が早く終わる日であったため、3年生はすでに帰宅している人が大半でした。そんななかで、高校生の身長測定をしたのでした。

そこで得られた標本のデータは偏りが生じており、本当のその学校の高校生の平均身長(真の値)とは異なっているでしょう。

高校生1年、2年、3年のなかでは3年生の身長が高いはずであり、3年生がいないなかで身長を測定したので、真の値よりも、標本の平均値のほうが低く偏るはずだからです。

あるいはこんな例もあります。占いに関する雑誌に、「あなたの占いへの関心度合いを教えてください」と、アンケートはがきがついていました。「内容には占いを信じますか?」「占いへ行く頻度は?」といった内容です。

このアンケート結果は、日本のみんなの占いへの関心度を正確にあらわすでしょうか?あらわしせんよね。

そもそもその雑誌を買って読む人というのは、占いに興味がある人々だけであり、さらにわざわざアンケートに答えるような人は、この占いの雑誌が大好きな人です。

日本全体の占いへの関心度を調べたいのであれば、これではダメです。

参考記事 統計学のバイアス(偏り)の意味。認知バイアスとは違います

統計学で言うバイアスとは日本語でいえば「偏り」で、観測値から得た母集団の推定値と、真の値との間にある偶然にできたものではないズレのことです。これは、偶然の誤差とは異なるもので、系統的に発生してしまう誤差です。