有限母集団修正をもちいた標準誤差、標本平均の分散の計算

有限母集団修正とは、有限母集団から抜き取った標本があったとして、その標本平均の分散を計算するときに、$\frac{N-n}{N-1}$の係数をかけて修正をすることです。

この記事では、有限母集団修正をもちいた、標準誤差、標本平均の分散の計算について書きました。

有限母集団と無限母集団

母集団のデータ数が有限かどうかで、有限母集団と、無限母集団に分けることができます。

  • 有限母集団は、母集団(調査対象全体)のデータ数に限りがある
  • 無限母集団は、母集団のデータ数に限りがない

です。

参考記事 有限母集団と無限母集団の意味とその違い

有限母集団修正

標準誤差または標本平均の分散を計算するときに、母集団が有限母集団であるのか、無限母集団であるのかによって、計算方法が変わります。

標準誤差とは、標本平均の標準偏差のことです。

$$\frac{\sigma}{\sqrt{n}}$$

で計算できます。

標本平均の分散は、

$$\frac{\sigma^2}{n}$$

計算できます。

有限母集団からの非復元抽出の場合には、計算した標準誤差、標本平均の分散に、修正を行うための係数を掛ける必要があります。

非復元抽出とは、抜き取ったものを母集団に戻さず次の抜き取りを行うこと

有限母集団の場合は、なぜ修正を行うのでしょうか。

有限母集団の場合、そこから標本のデータを抜き取っていくごとに、母集団に残るデータ数は減っていきます。それが、サンプリングに影響を与えます。

そのため、有限母集団であり、とくに母集団全体が小さい場合、あるいは、母集団の大きさNのなかの標本サイズnが大きいときは、それを考慮した計算をする必要があります。

  • 母集団の大きさN が小さい
  • \(\frac{n}{N} \)が大きい

場合は、標本から計算した標本平均の分散には、\(\frac{N-n}{N-1}\)を掛けて修正をすべきです。

これを有限母集団修正といいます。

標本平均の分散\(V(\bar{X})\)は、

$$V(\bar{X})=\frac{N-n}{N-1}\times\frac{\sigma^2}{n}$$

となります。\(\frac{N-n}{N-1}\)は、標本平均の分散を修正する係数です。

(標本平均の標準偏差である)標準誤差を修正する式は次のようになります。

$$標準誤差=\sqrt{\frac{N-n}{N-1}\times\frac{\sigma^2}{n}}$$

または、

$$標準誤差=\sqrt{\frac{N-n}{N-1}}\times\frac{\sigma}{\sqrt{n}}$$

母集団の大きさNがとても大きいと(母集団のデータ数が多いと)、\(\frac{N-n}{N-1}\)の係数の値は、1に近くなります。

\(N →∞\) のとき、\(\frac{N-n}{N-1}→1\)

となり、修正をしてもしなくても、ほとんど同じ値になります。

母集団・標本の大きさと有限母集団修正の係数の変化

試しに、母集団の大きさNと、標本の大きさnを変えていって、\(\frac{N-n}{N-1}\)がどう変わっていくか計算してみましょう。

母集団に1000個データがあって、100個の標本を抜きとるとしたら、修正のための係数\(\frac{N-n}{N-1}\)は、

$$\frac{1000-100}{1000-1}$$

$$=0.9009$$

となり、\(\sqrt{ }\)は、

$$\sqrt{0.9009}=0.9491$$

となります。

さらに標本数を増やして500個の標本を抜きとるとしたら、

$$\frac{1000-500}{1000-1}$$

$$=0.5005$$

となり、\(\sqrt{ }\)は、

$$\sqrt{0.5005}=0.7074$$

となります。

標準誤差にこの値を掛ければ7割の値になってしまうのですから、係数を用いないとぜんぜん違った値になってしまいすね。

でも、同じ500個の標本を抜きとるにしても、母集団に10000個のデータがあれば、

$$\frac{10000-500}{10000-1}$$

$$=0.9509$$

となり、\(\sqrt{ }\)は、

$$\sqrt{0.9509}=0.9747$$

と、1に近い値になります。

標本のデータ個数n が変わらなければ、母集団がかかえるデータ個数N が多いほど、有限母集団修正をしてもしなくても、違いがなくなっていきます。

2017年の日本の人口推計は、約1億2600万人です。日本国内の人たちを母集団として、3000人の標本を選んで調査をするのであれば、

$$\frac{N-n}{N-1}$$

$$=\frac{126,000,000-3000}{126,000,000-1}$$

$$=0.999976$$

となり、\(\sqrt{ }\)は、

$$\sqrt{0.999976}=0.99998$$

と。ほぼ1 になりますから、\(\frac{N-n}{N-1}\)の係数を用いても用いなくても、ほとんど違いがありません。

有限母集団ではあるので、有限母集団修正\(\frac{N-n}{N-1}\)は、厳密には用いるものかもしれませんが、実際にはあってもなくてもほとんど変わらないので、実用上では差がありません。