有限母集団修正とは、有限母集団から抜き取った標本があったとして、その標本平均の分散を計算するときに、$\frac{N-n}{N-1}$の係数をかけて修正をすることです。
この記事では、有限母集団修正をもちいた、標準誤差、標本平均の分散の計算について書きました。
有限母集団と無限母集団
母集団のデータ数が有限かどうかで、有限母集団と、無限母集団に分けることができます。
- 有限母集団は、母集団(調査対象全体)のデータ数に限りがある
- 無限母集団は、母集団のデータ数に限りがない
です。
参考記事 有限母集団と無限母集団の意味とその違い
有限母集団修正
標準誤差または標本平均の分散を計算するときに、母集団が有限母集団であるのか、無限母集団であるのかによって、計算方法が変わります。
標準誤差とは、標本平均の標準偏差のことです。
$$\frac{\sigma}{\sqrt{n}}$$
で計算できます。
標本平均の分散は、
$$\frac{\sigma^2}{n}$$
計算できます。
有限母集団からの非復元抽出の場合には、計算した標準誤差、標本平均の分散に、修正を行うための係数を掛ける必要があります。
有限母集団の場合は、なぜ修正を行うのでしょうか。
有限母集団の場合、そこから標本のデータを抜き取っていくごとに、母集団に残るデータ数は減っていきます。それが、サンプリングに影響を与えます。
そのため、有限母集団であり、とくに母集団全体が小さい場合、あるいは、母集団の大きさNのなかの標本サイズnが大きいときは、それを考慮した計算をする必要があります。
- 母集団の大きさN が小さい
- \(\frac{n}{N} \)が大きい
場合は、標本から計算した標本平均の分散には、\(\frac{N-n}{N-1}\)を掛けて修正をすべきです。
これを有限母集団修正といいます。
標本平均の分散\(V(\bar{X})\)は、
$$V(\bar{X})=\frac{N-n}{N-1}\times\frac{\sigma^2}{n}$$
となります。\(\frac{N-n}{N-1}\)は、標本平均の分散を修正する係数です。
(標本平均の標準偏差である)標準誤差を修正する式は次のようになります。
$$標準誤差=\sqrt{\frac{N-n}{N-1}\times\frac{\sigma^2}{n}}$$
または、
$$標準誤差=\sqrt{\frac{N-n}{N-1}}\times\frac{\sigma}{\sqrt{n}}$$
母集団の大きさNがとても大きいと(母集団のデータ数が多いと)、\(\frac{N-n}{N-1}\)の係数の値は、1に近くなります。
\(N →∞\) のとき、\(\frac{N-n}{N-1}→1\)
となり、修正をしてもしなくても、ほとんど同じ値になります。
母集団・標本の大きさと有限母集団修正の係数の変化
試しに、母集団の大きさNと、標本の大きさnを変えていって、\(\frac{N-n}{N-1}\)がどう変わっていくか計算してみましょう。
母集団に1000個データがあって、100個の標本を抜きとるとしたら、修正のための係数\(\frac{N-n}{N-1}\)は、
$$\frac{1000-100}{1000-1}$$
$$=0.9009$$
となり、\(\sqrt{ }\)は、
$$\sqrt{0.9009}=0.9491$$
となります。
さらに標本数を増やして500個の標本を抜きとるとしたら、
$$\frac{1000-500}{1000-1}$$
$$=0.5005$$
となり、\(\sqrt{ }\)は、
$$\sqrt{0.5005}=0.7074$$
となります。
標準誤差にこの値を掛ければ7割の値になってしまうのですから、係数を用いないとぜんぜん違った値になってしまいすね。
でも、同じ500個の標本を抜きとるにしても、母集団に10000個のデータがあれば、
$$\frac{10000-500}{10000-1}$$
$$=0.9509$$
となり、\(\sqrt{ }\)は、
$$\sqrt{0.9509}=0.9747$$
と、1に近い値になります。
標本のデータ個数n が変わらなければ、母集団がかかえるデータ個数N が多いほど、有限母集団修正をしてもしなくても、違いがなくなっていきます。
2017年の日本の人口推計は、約1億2600万人です。日本国内の人たちを母集団として、3000人の標本を選んで調査をするのであれば、
$$\frac{N-n}{N-1}$$
$$=\frac{126,000,000-3000}{126,000,000-1}$$
$$=0.999976$$
となり、\(\sqrt{ }\)は、
$$\sqrt{0.999976}=0.99998$$
と。ほぼ1 になりますから、\(\frac{N-n}{N-1}\)の係数を用いても用いなくても、ほとんど違いがありません。
有限母集団ではあるので、有限母集団修正\(\frac{N-n}{N-1}\)は、厳密には用いるものかもしれませんが、実際にはあってもなくてもほとんど変わらないので、実用上では差がありません。