標本誤差と非標本誤差の違い




標本調査とは、母集団全体を調べるのではなく、標本を抜きとって調査をすることです。

母集団とは対象全体のことで、そのなかで調査対象とした一部分が標本、あるいはサンプルといいます。

たとえば、1000人の従業員が在籍する会社で100人に対して従業員の意識調査をしたとしましょう。このとき、1000人が母集団、調査対象になった100人が標本(サンプル)です。

調査には次の2つの誤差がともないます。

  • 標本誤差
  • 非標本誤差

です。

標本誤差とは

上記した例で、1000人の従業員が在籍する会社で100人に対して従業員の意識調査をしたとしましょう。このとき、1000人が母集団、調査対象になった100人が標本(サンプル)です。

調査の結果で知ることができるのは、100人分の意識調査の結果です。しかし、ここで実際に知りたいのは、1000人分の意識についてです。

100人の結果から、1000人の意識がどうなっているのかを推測することになります。このように全数を調査せずに、標本調査をするのは、データを収集する労力を低減させるためですが、標本の調査結果から、母集団全体の意識についてを精度よく推測できるのであれば、それで問題はありません。

ただ注意点といて、真の値である1000人の調査結果と、実際に調査した100人の調査結果は、まったく同じになることはありえず、差が出てくるのが普通です。

標本調査において、標本抽出をするときには偶然的なバラつきによって誤差が発生します。この誤差が標本誤差です。

母集団から抜きとった標本は、母集団の縮図となるような標本となるようにすべきです。上記の例で、会社の従業員1000人は、60代が50人、50代が50人、40代が100人、30代が400人、20代が400人、であったとしましょう。

ここでランダムサンプリング(無作為抽出)が役にたちます。ランダムサンプリングとは、標本抽出をする人の意思に左右されない方法、無作為に標本のデータを選ぶ方法のことです。母集団の各人が標本に抽出される確率が等しくなるようなやり方で標本を抽出します。

無作為に選ぶためには、人が操作できない偶然によって選び出すようにしないといけませんから、たとえば、従業員と乱数をつかって選ぶ人を決定するなどの方法があります。

この会社で、調査結果が年齢によって変化しやすいと考えられるならとくにそうですが、標本の各年代の割合を、母集団の各年代の割合と同様にすべきなのです。そうはせずに、調査実施者が50代の人であって、身近な40~60代の人ばかりに対して調査を実施したら、そこで得られるのは、この会社の40~60代の意識調査の結果です。この会社全体を推測できるようなものではありませんね。

つまり、年齢を考慮して100人を選ぶのであれば、60代が5人、50代が5人、40代が10人、30代が40人、20代が40人、となるようにするということです。

ランダムサンプリングを行えば、これにピタリと合うことはないにしても、近くなるだろうと予測できます。

また、あらかじめ母集団を区分けする層があることがわかっているときに使える方法があります。それぞれの層に分けてから、抽出を行う方法である層別抽出法と呼ばれる方法です。

ちょうど60代から5人、50代から5人、40代から10人、30代から40人、20代から40人を、それぞれの年代からランダムに選ぶようにする方法です。

標本調査においては、標本誤差が発生してしまうものなのですが、無作為抽出を行うことによって、標本誤差がどの程度になるのかは、確率的に評価することができます。どのくらいの確率で、どのくらいの範囲で誤差が発生するかを計算することができるのです。

たとえば、「会社の福利厚生に満足していますか、それともしていませんか?」と質問があって70%が満足していると答えたとしましょう。これはあくまでの標本調査の対象となった100人のうちの70人が満足しているということであって、1000人全体では70%からは多かれ少なかれずれているでしょう。誤差があるということです。

それがどのくらい誤差になるのか?「70%±10%の範囲に95%の確率で収まるだろう」といったように、この範囲になるだろうと確率的に表現されます。

視聴率はどのように計算されているのかの記事で、視聴率を題材にして、誤差の計算について説明していますので、もしよろしければ参考にしてください。

非標本誤差とは

標本誤差は、標本調査において偶然的なバラつきによって発生する誤差でした。

一方、非標本誤差は標本誤差以外の誤差です。意識的・無意識的に調査の流れの中で手順、やり方を間違えて発生する誤差と言えます。

回答者の無回答や誤解・ウソによる非標本誤差

たとえば、アンケート調査であれば、観測値は、必ずしも正確なものが得られるわけではありません。意図的であるにせよ、意図的でないにせよ、無回答があることによって誤差が生まれてしまうことがあります。

回答者が誤解をして間違った記入をしてしまうこともありえます。

調査対象者が答えにくい質問に対しては、回答者が嫌がって答えない場合があるでしょう。また、過小・過大に答えてしまうことがあります。要はウソをつくということです。それは、統計学のバイアス(偏り)の意味の記事に書きましたが、情報バイアスと呼ばれる偏りです。

調査担当者のデータの扱いによる非標本誤差

調査担当者がヒアリングをして記録をとるのであれば、誤解をして話を受け取ってしまうこともありますし、回答者が誤解することよりかは少ないはずですが、記入間違いをする可能性もあるでしょう。

また、データをパソコンに入力する際に、間違った記号なり言葉なりを入力してしまうこともありえます。

非標本誤差を生じさせない対策

調査実施側に関すること、たとえば、データ入力に関しては、調査の実施者側によるデータの2度打ち、チェックの実施など、間違えないための対策をとることができます。

しかし、回答者側の回答方法の間違いは対策をとるのは簡単ではありません。アンケート用紙の内容が間違いの起こりえないようなものを作ったとしても、すべてを防げるわけではないですし、回答者のうっかりミスもあるでしょう。

とはいっても、回答者に誤解を生じさせない、また回答者が間違った記入をしてしまわないようなアンケート用紙づくりは必須となります。

明らかにミスだとわかるものは除外すればいいのですが、そもそも調査の設計段階から、非標本誤差を生じさせないような設計をしてから、調査を進めていくことが必要です。

標本誤差は、どのくらいの確率でどのくらいの誤差になるか、計算をすることができました。どの程度発生しているのかを数字で表すことができ、そのなかで、ものごとを判断することができるのです。

しかし、非標本誤差は、理論的な扱いは困難で、観測値から誤差の大きさを判断することは難しいです。