色々なサンプリング方法

シェアする

サンプリングをする際は、調査対象に適したサンプリング方法を選択します。また、サンプルの量を減らして作業の軽減し、かつ誤差を小さくし精度を高めるようにしたいものです。そのために、どのようなサンプリング方法があるのか知っていきましょう。

まず、数学的にもっとも精度が高いと言われている無作為抽出法から紹介します。

単純ランダムサンプリング(無作為サンプリング)

サンプリングをする人の意思に影響されない、無作為に標本を選ぶ方法です。

ある大学の学生1000人に、住まいや通学について調査することになったとします。1000人全員に対して調査をするのは、大変な労力がかかります。もちろん1000人全員に調査をすれば、正確な結果を得ることができますが、そんなに時間や労力をかけたくないので、100人に対して調査をすることを決めました。

1000人から100人をランダムに選び出すのが、ランダムサンプリングです。

ランダム、無作為に選ぶためには、人が操作できない偶然によって選び出すようにしないといけませんから、

例えばこんなようにします。

学生全員に1から1000の番号を振り、1から1000番までの番号を書いたクジを作りよく混ぜ合わせた後に、クジを100個引く。 選び出されたクジに書かれている番号の学生を、調査対象とする。あるいは乱数表を用いて番号を決める。

10の目があるサイコロを振って、1回目を4桁目、3桁目、2回目を2桁目、1桁目の数字として、その番号の学生を調査対象とする。

などです。

乱数表は、統計学の本には付録として記載がありますし、日本工業規格から乱数表が出されていてインターネットで見つけることもできます。 また、エクセルの関数、「RAND()」でも乱数を作り出すことができます。エクセルなどのコンピューターで作り出した乱数は、完全なる乱数とは言えないので、疑似乱数と呼ばれたりますが、使用にあたってはとくに問題はありません。

多段サンプリング

第一段階として母集団をいくつかの部分に分け、その部分をランダムに選び出し、その部分からさらにランダムサンプリングを行う方法です。段階を踏んで複数回ランダムサンプリングを行うことから多段サンプリングといいます。

上に書いた大学1年生1000人に調査の例で、学部の数が10あるとしましょう。さらに、10の学部にはそれぞれ100人の学生がいるとします。(1学部100人×10学部で計1000人)

最初のステップとしてランダムに学部を5つ選び出します。次のステップとして、選び出された学部から、ランダムに20人ずづ選び出します。こうすることで、第一ステップで選ばれなかった残りの5つの学部のリストは必要なくなり、10の学部全てではなく、5つの学部に調査に行けばよいことになります。ランダムサンプリングに比べると、労力が軽減されるのです。

ただし、厳密なランダムサンプリングとは言えませんし、選んだ5つの学部にたまたま学校の近くに一人暮らししている学生が多い学部であった場合、全体を調査して得られた結果よりも学校の近くに一人暮らししている学生の割合が多く出てしまいます。そういった恐れがある場合は、多段サンプリングは使えません。

段階を踏んで複数回ランダムサンプリングを行うのが、多段サンプリングです。その中で、二段ステップでサンプルを選び出す方法を二段サンプリングといい、三段ステップであれば、三段サンプリングといいます。

層別サンプリング

母集団をいくつかの層に分けて、その中からランダムサンプリングする方法です。

母集団の中にいくつかの構成の違いがある場合、サンプルが、母集団の構成を必ずしも上手く表せられない場合があります。無作為に選んだとすると、どのサンプルも選び出される確率は同じですが、結果として偶然偏ったサンプルになってしまうこともありえるためです。サンプルの数が少なければ少ないほど、それは起こりやすくなります。

このような偏りがでないようにするために、母集団を構成を見て、いくつかの属性によってグループ分けし、その中からランダムにサンプリングを方法があります。この属性のことを層といい、各層ごとにランダムサンプリングするこの方法を層別サンプリングといいます。

引き続き大学生の調査を続けます。今度は違う大学に行って住まいや通学について調査をすることになりました。この大学の学生数も1000人でしたが、男女の比率が、8:2となっていました。ここから100人を選んで調査をします。

男性か女性かによって差がありそうですね。男性の方が一人暮らしが多いとか何らかの違いがあるかもしれません。

100人の調査結果から母集団である大学生1000人の実態を推測するとしたら、男80人:女20人の数で調べるようにすべきです。仮に男女半々で調査をしようとか考えてしまい、男50人:女50人で調査をしてしまうと、1000人全員を調査したときの結果よりも女性の影響が大きくなってしまいます。

男子学生は80人をランダムサンプリングで選び出し、女子学生同じくランダムサンプリングで20人選び出すようにすれば、サンプルの男女構成が、母集団の男女構成と同じにすることができます。

集落サンプリング

多段サンプリングと似ているのですが、第一段階として母集団をいくつかの部分に分け、その部分をランダムに選び出します。その後、選んだ部分を全て調査対象とする方法です。

ここに、みかんが好きで好きで、毎年冬前になると、みかんを何箱も買いだめするオジサンの話をしましょう。

今年、オジサンが買い入れたみかんは30箱です。1箱には50個のみかんが入っていて、50×30で、1500個のみかんを買い入れたことになります。 品質にこだわるこのオジサンは、みかんの品質チェックをして、品質のないないみかんがあったら、ちゃんとしたみかんに交換をしてもらおうと考えました。

30箱分のすべてをチェックするのは大変ですから、サンプリングでチェックするみかんを選ぶことにしました。 30箱のうち3箱を選び、その中のみかんをひとつずつすべてチェックを行い、品質には問題はないこと確認をしました。

これが、集団サンプリング方法ですね。 全数が1500個あるうち、箱でみると30のグループに分かれています。そこから3グループを選んで、そのすべてをチェックしたわけです。

系統サンプリング

一定の間隔でサンプルをとることで、生産順で並んでいる製品のサンプリングなどに使われます。

・製品がコンベアの上などを順次流れているときに、製品100個ごとに抜き取って検査をする

・学生1000人から100人を選ぶときに、1から1000の番号をつけ、最初はランダムに数を選ぶ。たとえば5を選んだとしたら、 次は15番の人、その次は25番の人、と10番ごとにずらした番号の人をサンプリングする

系統サンプリングの利点は、発生させる乱数が最初のひとつだけでいい点です。母集団において、並び順に意味がある場合、 隣り合わせの順番など近い順番のサンプルが選ばれることがなくなります。

注意すべき点としては、母集団が生み出すデータに周期性があり、それとサンプルを抜き取る周期が一緒になってしまうと、 サンプルに偏りが生まれてしまう点です。サンプリング周期を変更していくのが望ましいです。