標本(サンプル)の誤差を小さくする方法

母集団から抜き取った標本から、母集団の平均や比率を推定するときには、誤差が発生します。これを標本誤差といいます。

この記事では、標本の平均から推定した母集団の平均との誤差について、またその誤差の減らし方について考えてみましょう。

とある高校の男子学生の身長を測定した結果から、考えていきます。

サンプルの誤差

とある高校で、この高校の男子学生の身長を調査しようと、たまたま近くにいた5人の学生に声をかけ、身長を測りました。その結果、

170cm、175cm、172cm、178cm、168m

この5つのデータが得られました。平均は175cmですから、この高校生男子の平均身長は175cmくらいなのかなと思いかけましたが、高校生にしては平均身長175cmはちょっと高い気がしてきました。

この5人の男子学生の話を聞いていたら理由がわかりました。

なんとこの5人はたまたま、バスケットボール部に所属している学生だったのです。どうりで、みんな身長が高めだったのでした。

これでは、サンプルデータの平均値の175cmは、私たちが知りたい“この高校の男子学生の平均身長”よりも大きな数値になっているはずでしょう。

データの数が少ないと、このように偶然に大きな値のデータばかりを選んでしまう可能性が大きくなります。あるいは逆に偶然に小さな値のデータばかりを選んでしまうこともあるでしょう。

もしも、身長を測った学生の学年が、たまたま全員1年だったら、実際のこの高校全体の男子学生の平均値より低い値がでてくるでしょうし、たまたま全員3年だったら逆に高い値が出てくるでしょう。

こんなふうにしてによって得られた平均身長は、“この高校全体の男子学生の平均身長”からは、離れた値になってしまうのです。

この高校の男子学生全員が母集団、そこから実際に身長を測定した男子学生が標本です。母集団から標本を抜き取るときには、この標本誤差がつきまといます。

では、どうすればよいのか。

もっと、身長を測る学生の数を増やしたり、校内の一か所だけでなく、いろいろなところで、いろいろな人の身長を測った方がよさそうなことがわかりますね。1年生、2年生、3年生からまんべんなく人を選んで、また、いろいろば部活の学生を選んで、身長を測るのがよさそうです。

完璧な平均身長を得るには、高校内全員の身長を測ることです。でもそれはとても大変ですからしたくない。できれば身長を測る人数を少なくして、かつ誤差も大きくならないようにするにはどしたらいいのか、悩みどころです。

どうしたらいいでしょう。

標本誤差を小さくするために

標本誤差を小さくするためには、

  • データの数を増やすこと
  • 適切な標本の取り方をすること

です。

データの数を増やすこと

標本のなかのデータの数を増やせば増やすほど、誤差は減っていきます。

抜き取った標本のなかのデータ個数のことを、標本の大きさといいます。言い換えると、この標本の大きさを大きくすると、誤差は減っていく、ということになります。

上記した高校生の身長を測る話では、何十人もの慎重を測定していけば、背の高いバスケットボール部員以外の男子学生の身長も、自然と測ることになっていきます。

要するに、たまたま背の高い男子学生だけを測ってしまう可能性が減ります。背の高い人も、背の低い人も、いろんな人を測れるようになり、母集団との誤差が減っていきます。

適切なサンプリングをすること

サンプリングとは、標本(サンプル)を抜き取ることです。適切なサンプリングとして、一番わかりやすいのはランダムサンプリングです。

文字通りランダムなサンプリングで、自分の意図を含ませずに無作為にデータを取る方法です。

ランダムに身長を測る男子学生を選べば、背の高い男子学生も、背の低い男子学生も、自然と測定対象になるでしょう。

サンプリングの方法としては、いくつか種類があります。下記の記事で、ランダムサンプリングや、その他のサンプリング方法について説明しています。

参考記事 色々あるサンプリング方法の種類(ランダム、多段、層別、集落、系統)

標本誤差を減らすのには統計学が役に立つ

これらは、なにか調査をするときには、特に統計学を知らなくても、みんな自然と行っていることではあると思います。高校の男子学生の身長を測るのであれば、

  • 「成長期になっていない150cmの人もいれば、大人のように背の伸びた人もいるから、少なくとも30人くらいの身長は測ったほうがいいかな」
  • 「各学年から○○人ずつ選んで、いろんなクラスから人を選ぼう」

などと考えて実践すると思います。

でも、はっきりとわかりませんね。色々考えることになります。

  • なんとなく30人くらい測ればいいかなとは思ったものの、30人で大丈夫なのか。実際には何人測るのがいいのか
  • データ数をいくつ増やしたら、どのくらい誤差が減るのか
  • 各学年から選ぶのはいいけどどのような割合で選べばいいのか
  • サンプリングの方法は、なんとなくテキトウにランダムにはできるけど、厳密なランダムサンプリングの方法はあるのか
  • もっと効率的なサンプリング方法で、かつ誤差を減らせる方法はないか

このようなことを考えたり計算したりするときに統計学が役に立ちます。誤差の範囲とそこに収まる%を数字であらわすことができるのです。

たとえば、

  • 各学年から選ぶのはいいけど何人ずつ選べばいいのか

という問いについて統計学的に考えると、必ずしも均等して選べばいいわけではありません。

標本(サンプル)は、母集団を代表しているようにすることが望ましいです。それはどういうことかというと、標本を構成している割合が、母集団の割合と同じであることです。

高校の1年生、2年生、3年生の人数の割合が1/3ずつであるならば、標本も1年生、2年生、3年生の割合が1/3ずつでいいです。

しかし、1年生が3割、2年生が3割、3年生が4割という人数構成なのであれば、標本も1年生が3割、2年生が3割、3年生が4割の割合とするほうがよいでしょう。そして、1年生、2年生、3年生それぞれの中でランダムサンプリングをします。

私たちが調査によって知りたいのは、母集団がどのようになっているのか、です。

でも、母集団は未知であり、私たちが知ることができるのは標本として得られたデータだけです。ですから、標本が母集団を偏りなく表し、標本として得られたデータと母集団のデータの誤差を小さくすることを目指すのです。