色々あるサンプリング方法の種類(ランダム、多段、層別、集落、系統)




調査をしたいと思う全体が母集団、そのなかで実際に調査をするために抜き取った一部を標本(またはサンプル)といいます。

母集団から標本を抜き取ることが、サンプリングです。

サンプリングをする際は、調査対象に適したサンプリング方法を選ばなくてはいけません。

また、サンプルの量を減らして作業の軽減し、かつ誤差を小さく精度を高めるようにしたいものです。そのために、どのようなサンプリング方法があるのか知っていきましょう。

まず、数学的にもっとも精度が高いと言われている無作為抽出法から紹介します。

単純ランダムサンプリング(無作為サンプリング)

単純ランダムサンプリングとは、サンプリングをする人の意思に影響されない、無作為に標本を選ぶ方法です。ランダムサンプリングともいいますね。

ある大学の学生1000人に、住まいや通学について調査することになったとします。

1000人全員に対して調査をするのは、大変な労力がかかります。もちろん1000人全員に調査をすれば、正確な結果を得ることができますが、そんなに時間や労力をかけたくないので、100人に対して調査をすることにしました。

1000人から100人をランダムに選び出すのが、ランダムサンプリングです。

ランダム、無作為に選ぶためには、人が操作できない偶然によって選び出すようにしないといけませんから、例えばこんなようにします。

学生全員に1から1000の番号を振り、1から1000番までの番号を書いたクジを作りよく混ぜ合わせた後に、クジを100個引く。 選び出されたクジに書かれている番号の学生を、調査対象とする。あるいは乱数表を用いて番号を決める。

といったように、人の意思が入り込まないようにします。

乱数表は、統計学の本には付録として記載がありますし、日本工業規格から乱数表が出されていてインターネットで見つけることもできます。

また、エクセルの関数、「RAND()」でも乱数を作り出すことができます。エクセルなどのコンピューターで作り出した乱数は、完全なる乱数とは言えないので、疑似乱数と呼ばれたりますが、使用にあたってはとくに問題はありません。

下記の記事に書いたようなやり方があります。

参考記事 エクセルRAND関数で乱数をつくり、ランダム(無作為)に標本を抽出する方法

多段サンプリング(二段・三段サンプリング)

多段サンプリングとは、第一段階として母集団をいくつかの部分に分け、その部分をランダムに選び出し、その部分からさらにランダムサンプリングを行う方法です。

段階を踏んで複数回ランダムサンプリングを行うことから多段サンプリングといいます。

上に書いた大学1年生1000人に調査の例で、学部の数が10あるとしましょう。さらに、10の学部にはそれぞれ100人の学生がいるとします。(1学部100人×10学部で計1000人)

最初のステップとしてランダムに学部を5つ選び出します。次のステップとして、選び出された学部から、ランダムに20人ずづ選び出します。

こうすることで、第一ステップで選ばれなかった残りの5つの学部のリストは必要なくなり、10の学部全てではなく、5つの学部に調査に行けばよいことになります。ランダムサンプリングに比べると、労力が軽減されるのです。

ただし、厳密なランダムサンプリングとは言えず、バイアスが生まれる可能性があります。

参考記事 統計学のバイアス(偏り)の意味。認知バイアスとは違います

調査内容は、住まいや通学についてでした。そのなかに、一人暮らしか否かの質問があったとしましょう。

選んだ5つの学部にたまたま一人暮らししている学生が多かった場合、全体を調査して得られた結果よりも一人暮らししている学生の割合が多く出てしまいます。

この場合は、上記の方法では、多段サンプリングは使えません。全10学部から、10人選んで調査をするという多段サンプリングであればいいでしょう。全10学部の人を均等に調査することができます。ただし、そのぶん手間はかかります。

段階を踏んで複数回ランダムサンプリングを行うのが、多段サンプリングです。その中で、二段ステップでサンプルを選び出す方法を二段サンプリングといい、三段ステップであれば、三段サンプリングといいます。

層別サンプリング

層別サンプリングとは、母集団をいくつかの層に分けて、その中からランダムサンプリングする方法です。

母集団の中にいくつかの構成の違いがある場合、単純なランダムサンプリングでは、サンプルが、母集団の構成を必ずしも上手く表せられない場合があります。

無作為に選んだとすると、どのサンプルも選び出される確率は同じですが、結果として偶然偏ったサンプルになってしまうこともありえるためです。サンプルのなかのデータ数が少なければ少ないほど、それは起こりやすくなります。

このような偏りがでないようにするために、母集団を構成を見て、いくつかの属性によってグループ分けし、その中からランダムにサンプリングを方法があります。

この属性のことを層といい、各層ごとにランダムサンプリングするこの方法を層別サンプリングといいます。

引き続き大学生の住まいや通学調査の話を続けます。

今度は違う大学に行って住まいや通学について調査をすることになりました。この大学の学生数も1000人でしたが、男女の比率が、8:2となっていました。ここから100人を選んで調査をします。

男性か女性かによって住まいや通学事情に差がありそうですね。男性の方が一人暮らしが多いとか何らかの違いがあるかもしれません。

100人の調査結果から母集団である大学生1000人の実態を推測するとしたら、男80人:女20人の数で調べるべきです。

仮に、よかれと思って男50人:女50人の半々で調査をしてしまったらどうなるでしょうか。調査から得られた結果は、母集団の1000人全員を調査したときの結果よりも女性の影響が大きくなってしまいます。

男子学生から80人をランダムサンプリングで選び出し、女子学生から20人を同じくランダムサンプリングで選び出すようにすれば、サンプルの男女構成が、母集団の男女構成と同じにできます。

男子学生という層と、女子学生という層に分けてサンプリングするわけです。

層の分け方によって、

  • 層内のばらつきを小さく
  • 層間のばらつきを大きく

することができると、層別サンプリングの効果がよく得られて、標本誤差が小さくなります。

男性か女性なのかによって調査結果が異なるのであれば、標本の男女比率を母集団と同じに合わせたほうが、層内のばらつきは小さく、層間のばらつきは大きくなります。

男性の層の中では当然男性だけで同質、女性の層の中では当然女性だけで同質となり、男性の層と女性の層は異質となるからです。

母集団の男女比率から、標本の男女比率がズレていると、標本誤差も大きくなります。

集落サンプリング

集落サンプリングとは、第一段階として母集団をいくつかの部分に分け、その部分をランダムに選び出します。その後、選んだ部分を全て調査対象とする方法です。

多段サンプリングと選んだ部分のなかでランダムサンプリングをしましたが、集落サンプリングでは、選んだ部分を全て調査するところが違います。

ここに、みかんが好きで好きで、毎年冬前になると、みかんを何箱も買いだめするオジサンの話をしましょう。

今年、オジサンが買い入れたみかんは30箱です。1箱には50個のみかんが入っていて、50×30で、1500個のみかんを買い入れたことになります。 品質にこだわるこのオジサンは、みかんの品質チェックをして、品質の悪いみかんがあったら、ちゃんとしたみかんに交換をしてもらおうと考えました。

30箱分のすべてをチェックするのは大変ですから、サンプリングでチェックするみかんを選ぶことにしました。 30箱のうち3箱を選び、その中のみかんをひとつずつすべてチェックを行い、品質には問題はないこと確認をしました。

これが、集団サンプリングですね。 全数が1500個で、箱でみると30のグループに分かれています。そこから3グループを選んで、そのすべてをチェックしたわけです。

系統サンプリング

系統サンプリングは、一定の間隔でサンプルをとる方法です。

生産順で並んでいる製品のサンプリングなどに使われます。

工場内で製造している製品の話でいえば、製品がコンベアの上などを順次流れているときに、製品100個ごとに1個を抜きとるのは、系統サンプリングとなります。

また、学校内で調査を行うときに、学生1000人から100人を系統サンプリングするのであれば、次のようになります。

1から1000の番号をつけ、最初はランダムに数を選ぶ。たとえば5を選んだとしたら、 次は15番の人、その次は25番の人、と10番ごとにずらした番号の人をサンプリングします。

※母集団をN 、標本サイズをn とすると、N /n が抽出間隔になります。1000/100=10 ですから、10人に1人の割合で選べばよいのです。

系統サンプリングの利点は、発生させる乱数が最初のひとつだけでいい点です。母集団において、並び順に意味がある場合、 隣り合わせの順番など近い順番のサンプルが選ばれることがなくなります。

注意すべき点としては、母集団が生み出すデータに周期性があり、それとサンプルを抜き取る周期が一緒になってしまうと、 サンプルに偏りが生まれてしまう点です。サンプリング周期を変更していくのが望ましいです。