有限母集団修正での標準誤差の計算

母集団のデータ数を有限かどうかで分類すると、有限母集団と、無限母集団に分けることができます。

  • 有限母集団は、母集団(調査対象全体)のデータ数に限りがある
  • 無限母集団は、母集団のデータ数に限りがない

です。

参考:有限母集団と無限母集団の意味とその違い

標準誤差を計算するときに、母集団が有限母集団であるのか、無限母集団であるのか、気をつけておかなくてはいけません。無限母集団の場合は、修正を行うための係数を掛けなくてはいけないためです。

標準誤差は、標本平均の標準偏差で、

σ / √n

で計算することができます。

有限母集団の場合、そこから標本を抜き取っていくと、母集団に残るデータ数は減っていきます。それがサンプリングに影響を与えてきます。

よって、有限母集団で、とくに母集団全体が小さい場合、あるいは、母集団全体Nのうちで標本サイズnが大きいときは、それを考慮した計算をする必要があります。

  • 母集団N が小さいほど
  • n / N が大きいほど

母集団から得られた標本から、標準誤差を計算する場合、計算方法が変わってきます。標本誤差に(N-n/N-1)を掛けて修正する必要があるのです。これを、有限母集団修正といいます。

標本平均の分散ならこうです。

(N-n)/(N-1)は、標本平均の分散を修正する係数です。次のようにもあらわせますね。

有限母集団であっても、Nがとても大きいと(母集団のデータ数が多いと)、 (N-n)/ (N-1) の係数の値は、1に近くなります。

N →∞ のとき、(N-n)/ (N-1) → 1

となります。

試しに簡単に計算してみましょう。

母集団に1000個データがあって、100個の標本を抜きとるとしたら、修正のための係数(N-n)/ (N-1) は、

(1000-100)/(1000-1)

=0.9009

となり、√は、

√0.9009 = 0.9491

となります。

さらに標本数を増やして500個の標本を抜きとるとしたら、

(1000-500)/(1000-1)

=0.5005

となり、√ は、

√0.5005 = 0.7074

となります。この値を掛ければ標準誤差は7割にもなってしまいますから、係数を用いないとぜんぜん違った値になってしまいすね。

でも、同じ500個の標本を抜きとるにしても、母集団に10000個のデータがあれば、

(10000-500) / (10000-1)

=0.9509

となり、√は、

√0.9509 = 0.9747

と1に近い値になります。

標本のデータ個数n が変わらなければ、母集団がかかえるデータ個数N が多いほど、有限母集団修正をしてもしなくても、違いが出なくなっていきます。

2017年の日本の人口推計は、約1億2600万人です。日本国内の人たちを母集団として、3000人の標本を選んで調査をするのであれば、

(N-n)/ (N-1)

(126,000,000-3000)/(126,000,000-1)

=0.999976

そして、√は、

√0.99976 = 0.99998

となりますから、(N-n)/ (N-1) の係数を用いなかったしても、ほとんど違いがありません。