母集団と標本の違いと誤差を小さくする方法

シェアする

調査には、身の周りの人へのアンケートのような小規模なものもあれば、社会全体や自然を対象にした調査など大規模なものもあります。日本国民に関する調査、ある山での野生動物の調査といったような対象が大きい調査では、そのすべてを調べるとなると、途方もない時間と労力がかかってしまい、実行することが現実的に難しいですよね。こういったときにサンプリングが活用されます。

母集団と標本

ある化粧品会社が、30代の女性向けの化粧品開発のために、30代の女性にアンケートをとる計画を立てたとします。 日本の30代女性全員にアンケートを実施するのは、現実的ではないですよね。どれだけの時間とお金がかかってしまうのか、想像がつきません。

そのため、このような調査を行う場合は通常、30代女性の中から数百人なり数千人なりを選び出して、そのアンケート結果から30代女性全体が求めている化粧品は何かを考えます。調査対象の全体の集団から、一部を取り出して調べ、その一部から調査対象全体を推定するのです。

調査対象全体のことを母集団といい、そこからデータを得るために選び出した一部分を、標本あるいはサンプルといいます。 母集団から標本を取り出すことを標本抽出、またサンプリングといいます。

この30代の女性向けの化粧品開発のためのアンケートでいえば、

  • 日本の30代女性全体が母集団
  • 実際にアンケートをとった30代女性が標本

です。

テレビの視聴率、世論調査などの社会調査、工場での製品チェックなどでも、このサンプリングが使われています。全体を調べることが不可能だったり、可能であっても時間も費用もかかる場合は、一部分だけを調べて、その一部分の特性値を求めます(特性値とは、平均値や標準偏差、割合%などです)。

その特性値は、全体の母集団の特性値とまったく同じではないにしても、きっと近いはずだと考え、母集団の特性値を理解しようとするのです。

ただ、実際にはサンプルの特性値と母集団の特性値が同じになることはまずありません。データをとるときに何らかの偏りがでてしまったり、上手くデータをとったとしても、母集団データを全て調べたわけではないので、誤差が生まれるのです。

 サンプルの偏りと誤差

母集団と標本には誤差が出ると書きました。ある高校の男子学生の平均身長を出す時のことを考えてみましょう。

さっそく身長を調べようと、たまたま近くにいた5人の学生に声をかけ、身長を測りました。その結果、

170cm、175cm、172cm、178cm、168m

この5つのデータが得られました。平均は175cmですから、この高校生男子の平均身長は175cmくらいなのかなと思いかけましたが、高校生にしては平均身長175cmはちょっと高い気がしてきました。

この5人の男子学生の話を聞いていたら理由がわかりました。なんとこの5人はたまたま、バスケットボール部に所属している学生だったのです。どうりで、みんな身長が高めだったのでした。これでは、サンプルデータの平均値の175cmは、私たちが知りたい“この高校の男子学生の平均身長”よりも大きな数値になっているはずでしょう。

データの数が少ないと、このように偶然大きな値のデータ、あるいは逆に偶然小さな値のデータを選んでしまう可能性が大きくなります。

身長を測った学生の学年が、たまたま全員1年だったら、実際のこの高校全体の男子学生の平均値より低い値がでてくるでしょうし、たまたま全員3年だったら逆に高い値が出てくるでしょう。

こんなふうにして得られた平均身長は、“この高校全体の男子学生の平均身長”からは、離れた値になってしまうのです。

では、どうすればよいのか。

もっと、身長を測る学生の数を増やしたり、校内の一か所だけでなく、いろいろなところで、いろいろな人の身長を測った方がよさそうなことがわかりますね。1年生、2年生、3年生からまんべんなく人を選んで、また、いろいろば部活の学生を選んで、身長を測るのがよさそうです。

完璧な平均身長を得るには、高校内全員の身長を測ることです。でもそれはとても大変ですからしたくない。できれば身長を測る人数を少なくして、かつ誤差も大きくならないようにするにはどしたらいいのか、悩みどころです。どうしたらいいでしょう。

誤差を小さくするために

誤差を小さくするためには、

  • データの数を増やすこと
  • 適切なサンプルの取り方をすること

です。

データの数を増やすこと

サンプルとして得るデータの数を増やせば増やすほど、誤差は減っていきます。

上記した高校生の身長を測る話では、何十人もの慎重を測定していけば、背の高いバスケットボール部員以外の男子学生の身長も、自然と測ることになっていきます。要するに、たまたま背の高い男子学生だけを測ってしまう可能性が減ります。背の高い人も、背の低い人も、いろんな人を測れるようになります。

適切なサンプルの取り方をすること

適切なサンプリングとして、一番わかりやすいのはランダムサンプリングです。文字通りランダムなサンプリングで、自分の意図を含ませずに無作為にデータを取る方法です。

ランダムに身長を測る男子学生を選べば、背の高い男子学生も、背の低い男子学生も、自然と測定対象になるでしょう。

母集団と標本の誤差を減らすのには統計学が役に立つ

これらは、なにか調査をするときには、特に統計学を知らなくても、みんな自然と行っていることではあると思います。高校の男子学生の身長を測るのであれば、

  • 「成長期になっていない150cmの人もいれば、大人のように背の伸びた人もいるから、少なくとも30人くらいの身長は測ったほうがいいかな」
  • 「各学年から○○人ずつ選んで、いろんなクラスから人を選ぼう」

などと考えて実践すると思います。

でも、はっきりとわかりませんね。色々考えることになります。

  • なんとなく30人くらい測ればいいかなとは思ったものの、30人で大丈夫なのか。実際には何人測るのがいいのか
  • データ数をいくつ増やしたら、どのくらい誤差が減るのか
  • 各学年から選ぶのはいいけどどのような割合で選べばいいのか
  • サンプリングの方法は、なんとなくテキトウにランダムにはできるけど、厳密なランダムサンプリングの方法はあるのか
  • もっと効率的なサンプリング方法で、かつ誤差を減らせる方法はないか

このようなことを考えたり計算したりするときに統計学が役に立ちます。誤差の範囲とそこに収まる%を数字であらわすことができるのです。

たとえば、

  • 各学年から選ぶのはいいけど何人ずつ選べばいいのか

という問いについて統計学的に考えると、必ずしも均等して選べばいいわけではありません。

サンプルは、母集団を代表しているようにすることが望ましいです。それはどういうことかというと、サンプルを構成している割合が、母集団の割合と同じであることです。

高校の1年生、2年生、3年生の人数の割合が1/3ずつであるならば、サンプルも1年生、2年生、3年生の割合が1/3ずつでいいです。

しかし、1年生が3割、2年生が3割、3年生が4割という人数構成なのであれば、サンプルも1年生が3割、2年生が3割、3年生が4割の割合とするべきです。そして、それぞれの中でランダムサンプリングをします。

私たちが調査によって知りたいのは、母集団がどのようになっているのか、です。でも、母集団は未知であり、私たちが知ることができるのはサンプルとして得られたデータだけです。ですから、サンプルが母集団を偏りなく表し、サンプルとして得られたデータと母集団のデータの誤差を小さくすることを目指すのです。