サンプルの誤差を小さくする方法

母集団と標本の意味とその違いの記事で、母集団と標本には誤差が出ると書きました。ある高校の男子学生の身長を測定し、平均値を算出するときの誤差と、誤差の減らし方について考えてみましょう。

サンプルの誤差

さっそく身長を調べようと、たまたま近くにいた5人の学生に声をかけ、身長を測りました。その結果、

170cm、175cm、172cm、178cm、168m

この5つのデータが得られました。平均は175cmですから、この高校生男子の平均身長は175cmくらいなのかなと思いかけましたが、高校生にしては平均身長175cmはちょっと高い気がしてきました。

この5人の男子学生の話を聞いていたら理由がわかりました。なんとこの5人はたまたま、バスケットボール部に所属している学生だったのです。どうりで、みんな身長が高めだったのでした。これでは、サンプルデータの平均値の175cmは、私たちが知りたい“この高校の男子学生の平均身長”よりも大きな数値になっているはずでしょう。

データの数が少ないと、このように偶然大きな値のデータ、あるいは逆に偶然小さな値のデータを選んでしまう可能性が大きくなります。

身長を測った学生の学年が、たまたま全員1年だったら、実際のこの高校全体の男子学生の平均値より低い値がでてくるでしょうし、たまたま全員3年だったら逆に高い値が出てくるでしょう。

こんなふうにして得られた平均身長は、“この高校全体の男子学生の平均身長”からは、離れた値になってしまうのです。

では、どうすればよいのか。

もっと、身長を測る学生の数を増やしたり、校内の一か所だけでなく、いろいろなところで、いろいろな人の身長を測った方がよさそうなことがわかりますね。1年生、2年生、3年生からまんべんなく人を選んで、また、いろいろば部活の学生を選んで、身長を測るのがよさそうです。

完璧な平均身長を得るには、高校内全員の身長を測ることです。でもそれはとても大変ですからしたくない。できれば身長を測る人数を少なくして、かつ誤差も大きくならないようにするにはどしたらいいのか、悩みどころです。どうしたらいいでしょう。

誤差を小さくするために

誤差を小さくするためには、

  • データの数を増やすこと
  • 適切なサンプルの取り方をすること

です。

データの数を増やすこと

サンプルとして得るデータの数を増やせば増やすほど、誤差は減っていきます。

上記した高校生の身長を測る話では、何十人もの慎重を測定していけば、背の高いバスケットボール部員以外の男子学生の身長も、自然と測ることになっていきます。要するに、たまたま背の高い男子学生だけを測ってしまう可能性が減ります。背の高い人も、背の低い人も、いろんな人を測れるようになります。

適切なサンプルの取り方をすること

適切なサンプリングとして、一番わかりやすいのはランダムサンプリングです。文字通りランダムなサンプリングで、自分の意図を含ませずに無作為にデータを取る方法です。

ランダムに身長を測る男子学生を選べば、背の高い男子学生も、背の低い男子学生も、自然と測定対象になるでしょう。

母集団と標本の誤差を減らすのには統計学が役に立つ

これらは、なにか調査をするときには、特に統計学を知らなくても、みんな自然と行っていることではあると思います。高校の男子学生の身長を測るのであれば、

  • 「成長期になっていない150cmの人もいれば、大人のように背の伸びた人もいるから、少なくとも30人くらいの身長は測ったほうがいいかな」
  • 「各学年から○○人ずつ選んで、いろんなクラスから人を選ぼう」

などと考えて実践すると思います。

でも、はっきりとわかりませんね。色々考えることになります。

  • なんとなく30人くらい測ればいいかなとは思ったものの、30人で大丈夫なのか。実際には何人測るのがいいのか
  • データ数をいくつ増やしたら、どのくらい誤差が減るのか
  • 各学年から選ぶのはいいけどどのような割合で選べばいいのか
  • サンプリングの方法は、なんとなくテキトウにランダムにはできるけど、厳密なランダムサンプリングの方法はあるのか
  • もっと効率的なサンプリング方法で、かつ誤差を減らせる方法はないか

このようなことを考えたり計算したりするときに統計学が役に立ちます。誤差の範囲とそこに収まる%を数字であらわすことができるのです。

たとえば、

  • 各学年から選ぶのはいいけど何人ずつ選べばいいのか

という問いについて統計学的に考えると、必ずしも均等して選べばいいわけではありません。

サンプルは、母集団を代表しているようにすることが望ましいです。それはどういうことかというと、サンプルを構成している割合が、母集団の割合と同じであることです。

高校の1年生、2年生、3年生の人数の割合が1/3ずつであるならば、サンプルも1年生、2年生、3年生の割合が1/3ずつでいいです。

しかし、1年生が3割、2年生が3割、3年生が4割という人数構成なのであれば、サンプルも1年生が3割、2年生が3割、3年生が4割の割合とするべきです。そして、それぞれの中でランダムサンプリングをします。

私たちが調査によって知りたいのは、母集団がどのようになっているのか、です。でも、母集団は未知であり、私たちが知ることができるのはサンプルとして得られたデータだけです。ですから、サンプルが母集団を偏りなく表し、サンプルとして得られたデータと母集団のデータの誤差を小さくすることを目指すのです。