母集団と標本(サンプル)とその違い。また標本抽出・サンプリングの意味




統計学を学ぶうえでは、母集団と標本は重要な考えです。母集団と標本の意味、標本から母集団を推定することについて書きました。

母集団と標本の意味

調査をして知りたいと思っている集団全体のことを母集団といいます。

母集団を調査するために、選んで抜き取った一部分のことを、標本またはサンプルといいます。

母集団と標本の違い又は関係性について解説します。

ある生徒数300人の学校で、生徒が好きな食べものを調べるためにアンケート調査をするとしましょう。好きな食べ物ランキングをつくってみようと考えました。

300人全体が、母集団です。

300人中 50人を対象にしてアンケートをするなら、その50人が標本です。

母集団から標本を抜き取ることを標本抽出またはサンプリングといいます。

もうひとつ例を出します。

ある化粧品会社が、30代の女性向けの化粧品開発のために、30代の女性にアンケートをとる計画を立てたとします。 日本の30代女性全員にアンケートを実施するのは、現実的ではないですよね。どれだけの時間とお金がかかってしまうのか、想像がつきません。

そのため、このような調査を行う場合は通常、30代女性の中から3000人を選び出して、アンケートをとり、その結果から30代女性全体が求めている化粧品は何かを考えることにしました。

調査対象の全体の集団から、一部を取り出して調べ、その一部から調査対象全体を推定するのです。

この30代の女性向けの化粧品開発のためのアンケートでいえば、

  • 日本の30代女性全体が母集団
  • 実際にアンケートをとった30代女性が標本

です。

標本から母集団を推定する

ある生徒数300人の学校で、生徒が好きな食べものについて50人の生徒にアンケート調査をするときにわかることは、50人の好きな食べものです。

実際に調査するのは50人の好きな食べ物ランキングであり、300人の好きな食べ物ランキングではないということです。

しかし、調査によって知りたいことは、あくまでも学生300人の好きな食べ物です。

ですから、50人の調査でわかった50人の好きな食べ物ランキングから、300人の好きな食べ物ランキングを推定することになります。50人がこんな食べ物を好きだったのだから、他の人たちもこの食べ物が好きだろうな、という具合です。

50人の回答と300人の回答は似たようなものにはなるはずです。しかし、まったく同じになることはほとんど無いでしょう。50人だけの調査結果と300人の調査結果では、多少異なる結果となるはずです。

では、なぜ標本を抜き取って調査するのでしょうか。

なぜ標本抽出(サンプリング)をするのか

データを集める労力を減らすために標本抽出をする

このように、母集団全体を調査するのではなく、一部分だけを抜き取って調査することはよく行われます。

なぜ、そのそうするかというと、母集団全部を調べるのは大変だからですよ。

労力を減らしたいからです。

さきほどの例でいえば、学生300人全員にアンケートをとるのは非常に手間がかかります。

50人であれば、がんばればなんとかなりそうです。

調査には、身の周りの人へのアンケートのような小規模なものもあれば、社会全体や自然を対象にした調査など大規模なものもあります。

大変なのは大規模な調査です。

日本国民に対する調査や、ある山での野生動物の調査といったような対象が大きい調査では、そのすべてを調べるとなると途方もない時間と労力がかかってしまいます。実行することが現実的に難しいですよね。こういったときに標本抽出(サンプリング)が活用されます。

母集団データ全体と標本抽出したデータにズレがあるほど、精度が低いと言うとしたら、

目的は、精度を犠牲にしても、データを集める手間を省くことです。

調査結果の誤差は小さく、労力を大きく減らすことができる

テレビの視聴率、世論調査などの社会調査、工場での製品チェックなどでも、この標本抽出(サンプリング)が使われています。

全体を調べることが不可能だったり、可能であっても時間も費用もかかる場合は、一部分だけを調べてその一部分の特性値を求めます(特性値とは、平均値や標準偏差、割合%などです)。

その特性値は、全体の母集団の特性値とまったく同じではないにしても、きっと近いはずだと考え、母集団の特性値を理解しようとするのです。

サンプルの特性値と母集団の特性値が同じになることはまずありません。データをとるときに何らかの偏りがでてしまったり、上手くデータをとったとしても、母集団データを全て調べたわけではないので、誤差が生まれるのです。

しかし、です。標本調査の設計にもよりますが、標本抽出のすごいところは、手間を省くので、そのぶん誤差もかなり出てきて精度が落ちるのではないかと思いきや、案外そこまで誤差が大きくならないことですね。

誤差が大きくならないようにできるというか、自分が許容できる誤差の範囲になるように調査数を決めてデータを集める手間を省く、そういう調査設計をするのです。

データの精度に満足はしつつ、データを集める手間を減らすことができます。

精度と手間はトレードオフです。しかし、データ集めには、手間をかければかけるほど、精度が上がりにくくなっていく性質があります。これは知っておきたいところです。調査をするときだけでなく、別のこと、たとえば情報収集をするといったことにも通じる話です。

参考記事 たくさん調査して標本のデータ数を増やすと誤差が減りにくくなっていく

まとめ

  • 調査対象全体が、母集団
  • そこからデータを得るために選び出した一部分が、標本あるいはサンプル
  • 母集団から標本を取り出すことが本抽出、またサンプリング

です。

標本調査において、標本と母集団はイコールではなく、差ができてしまいます。ですから、標本から母集団を推測するということになります。

標本抽出に関係した話として、誤差を小さくする方法を書いていますので、よろしければ読んでみてください。

参考記事 サンプルの誤差を小さくする方法