母集団と標本の関係

シェアする

調査には、友人へのアンケートのような小規模なものもあれば、社会や自然調査など大規模なものもあります。日本国民への調査、ある山での野生動物の調査といったような対象が大きい調査では、そのすべてを調べるとなると、途方もない時間と労力がかかってしまい、実行することが現実的に難しいですよね。こういったときにサンプリングが活用されます。

サンプリングとは母集団から一部分を抜き取ること

たとえば、ある化粧品会社が、30代の女性向けの化粧品開発のために、30代の女性にアンケートを取る経過うをもっているとします。 日本の30代女性全員にアンケートを実施するのは、現実的ではないですよね。どれだけの時間とお金がかかってしまうのか、想像がつきません。

そのため、このような調査を行う場合は通常、30代女性の中から数百人なり数千人なりを選び出して、そのアンケート結果から30代女性全体が求めている化粧品は何かを考えます。調査対象の全体の集団から、一部を取り出して調べ、その一部から調査対象全体を推定するのです。

この調査対象全体のことを母集団といい、そこからデータを得るために選び出した一部分を、標本あるいはサンプルといいます。 母集団から標本を取り出すことを標本抽出、またサンプリングといいます。

テレビの視聴率、世論調査などの社会調査、工場での製品チェックなどでも、このサンプリングが使われています。全体を調べることが不可能だったり、可能であっても時間も費用もかかる場合は、一部分だけを調べて、その一部分の特性値を求めます。(特性値とは、平均値や標準偏差、割合%などです。)その特性値は、全体の母集団の特性値に同じではなくても近いはずだと考えます。

ただ、実際にはサンプルの特性値と母集団の特性値が同じになることはまずありません。データをとるときに何らかの偏りがでてしまったり、上手くデータをとったとしても、母集団データを全て調べたわけではないので、誤差が生まれるのです。

 サンプルの偏りと誤差

サンプルには誤差が出ると書きました。ある高校の男子学生の平均身長を出す時のことを考えてみましょう。

さっそく身長を調べようと、たまたま近くにいた5人の学生に声をかけ、身長を測りました。その結果、

170cm、175cm、172cm、178cm、168m

この5つのデータが得られました。平均は175cmですから、この高校生男子の平均身長は175cmくらいなのかなと思いかけましたが、高校生にしては平均身長175cmはちょっと高い気がしてきました。

この5人の男子学生の話を聞いていたら理由がわかりました。なんとこの5人はたまたま、バスケットボール部に所属している学生だったのです。どうりで、みんな身長が高めだったのでした。これでは、サンプルデータの平均値の175cmは、私たちが知りたい“この高校の男子学生の平均身長”よりも大きな数値になっているはずでしょう。

データの数が少ないと、このように偶然大きな値のデータ、あるいは逆に偶然小さな値のデータを選んでしまう可能性が大きくなります。

身長を測った学生がたまたま全員1年だったら、実際のこの高校全体の男子学生の平均値より低い値がでてくるでしょうし、たまたま全員3年だったら逆に高い値が出てくるでしょう。

こんなふうにして得られた平均身長は、“この高校全体の男子学生の平均身長”からは、離れた値になってしまうのです。

もっと、身長を測る学生の数を増やしたり、校内の一か所だけでなく、いろいろなところで、いろいろな人の身長を測った方がよさそうなことがわかりますね。1年生、2粘性、3年生からまんべんなく人を選んで、また、いろいろば部活の学生を選んで、身長を測るのがよさそうです。

完璧な平均身長を得るには、高校内全員の身長を測ることです。でもそれはとても大変ですからしたくない。できれば身長を測る人数を少なくして、かつ誤差も大きくならないようにするにはどしたらいいのか、悩みどころです。

誤差を小さくするために

誤差を小さくするためには、

  • データの数を増やすこと
  • 適切なサンプルの取り方をすること

です。

サンプルとして得るデータの数を増やせば増やすほど、誤差は減っていきます。 適切なサンプリング として、一番わかりやすいのはランダムサンプリングです。文字通りランダムなサンプリングで、自分の意図を含ませずに無作為にデータを取る方法です。

なにか調査をするときには、特に統計学を知らなくても、みんな自然と行っていることではあると思います。先ほどの話で、高校の男子学生の身長を測るのであれば、

「成長期になっていない150cmの人もいれば、大人のように背の伸びた人もいるから、少なくとも30人くらいの身長は測ったほうがいいかな」

「各クラスから○○人ずつ選んで、いろんなクラスから人を選ぼう」

などと考えて実践すると思います。

でも、なんとなく30人くらい測ればいいかなとは思ったものの、実際には何人測ればいいのか?各クラスから選ぶのはいいけど何人ずつ選べばいいのか、どのようにすればいいのでしょうか。

データ数をいくつ増やしたら、どのくらい誤差が減るのか、サンプリングの方法は、なんとなくランダムにはできるけど、厳密なランダムサンプリングの方法はないのか、もっと効率的なサンプリング方法で、かつ誤差を減らせる方法はないか・・・

このようなことを考えたり計算したりするときに統計学が役に立ちます。誤差の範囲とそこに収まる%を数字であらわすことができるのです。

サンプルは、母集団を代表していることが望ましいのです。それはどういうことかというと、サンプルを構成している割合が、母集団のそれと同じであることです。たとえば、上記したある高校の1年生、2年生、3年生の割合が1/3ずつであるならば、サンプルも1年生、2年生、3年生の割合が1/3ずつにすべきです。

私たちが調査によって知りたいのは、母集団がどのようになっているのか、です。でも、母集団は未知であり、私たちが知ることができるのはサンプルとして得られたデータだけです。ですから、サンプルとして得られたデータと母集団のデータの誤差を小さくすること、サンプルが母集団を偏りなく表していることが望まれます。