まず、最初に書いておきたいことは、サンプル数とサンプルサイズは別物だということです。
サンプル数とサンプルサイズの違い
母集団から無作為にサンプルをとりだしたとき、観測データの個数が「サンプルサイズ」、サンプルの群の数が「サンプル数」となります。
母集団から一度に100個のデータを取りだすとしたら、サンプルサイズが100 であり、サンプル数は1 です。
100個のデータをとることを5回繰り返した場合、サンプル数が5 となります。
こういった違いがあります。
「サンプル数」を算出したいと検索してこのページに来られた方は、ひょっとしたら「サンプルサイズ」のことを考えていませんか?
もしそうでしたら、サンプルサイズの算出方法について書いていきますので、そのまま読み進めてください。
標本(サンプル)の平均値から、母集団の平均値を区間推定するときに、サンプルサイズをどのくらいにすればよいのかを考えてみます。
区間推定についてはこちらの記事を参考にしてください。
参考記事 点推定と区間推定の意味と違い
サンプルサイズn はどのくらい必要なのかを求める前に
サンプルサイズはどのくらいにすればいいのか?それを求める前に、次の2点を決める必要があります。
- 信頼係数は何%にするのか
- 誤差はどの程度まで許容できるか
これらを決定すれば、サンプルサイズn をどのくらいにすればいいのかを計算することができます。
信頼係数は、90%や95%を考えることが多いです。ここでは95%と設定しましょう。95%の確率で、区間推定の範囲に真の値である母集団平均値が入るようになります。
母集団から、何度もサンプルを取りだしたとします。母集団の標準偏差をσとすると、そのときのサンプルの平均値の標準偏差は(つまり標準誤差)は、
$$\frac{\sigma}{\sqrt{n}}$$
となります。σが1.96個分で、95%信頼区間となりますから、
$$1.96\times\frac{\sigma}{\sqrt{n}}$$
の式で、95%信頼区間を求めることができます。
信頼区間とは
信頼区間とは、○○%の確率で母平均(真の値)があるだろう推定する区間のことです。標準誤差を用いる場合は、
- 「標本平均 ± 標準誤差」の範囲に、68.26% の確率で母平均(真の値)がある
- 「標本平均 ± 2 × 標準誤差」の範囲に、95.44% の確率で母平均(真の値)がある
- 「標本平均 ± 3 × 標準誤差」の範囲に、99.74% の確率で母平均(真の値)がある
となっています。
95%の信頼区間は、「標本平均 ± 1.96 × 標準誤差」の範囲です。
サンプルサイズn の求め方
信頼係数95%でよしとしたら、
\(1.96\times\frac{\sigma}{\sqrt{n}}\)=許容できる誤差
となりますので、ここから逆算していけば、サンプルサイズn を決定することができます。
サンプルサイズn を計算するには、許容できる誤差、信頼係数とσ の数字がわかればいいのです。95%信頼係数とすれば、誤差範囲は1.96×標準誤差。
σ はもともとわかっているならその値を、わかっていないなら標本データから計算した値を用います。許容できる誤差は、プラスマイナス同じ幅で、どちらか一方側の範囲の数値とします。
ある工場の製品のサイズを計測して、母集団平均を推定するときのことを考えてみましょう。
この製品は毎日毎日製造をし続けているので、母集団は無限母集団であるといえます。平均値は、140mmくらいになるだろうとわかっています。また、標準偏差はもともと6mmです。
サンプルサイズn をどの程度にすべきか、つまり何個測定すべきなのか決めるときには、
\(1.96\times\frac{\sigma}{\sqrt{n}}\)=許容できる誤差mm
から考えていけばよいのです。σ=6 ですから、
\(1.96\times\frac{6}{\sqrt{n}}\)=許容できる誤差mm
となります。
次に、許容できる誤差mmを設定します。
実際に測ってみないとわかりませんが、仮に標本平均が140mmになるとして母集団の平均を区間推定するときに、
$$138.0\leq μ\leq 142.0$$
の精度が欲しいとしましょう。± 2mmくらいであれば、推定値と実際の母集団の平均がズレてしまってもよいかなと考えたわけです。
$$1.96\times\frac{6}{\sqrt{n}}=2mm$$
と式をつくれば、ここから、サンプルサイズn の大きさを算出できます。
$$1.96\times\frac{6}{\sqrt{n}}=2$$
$$\frac{1.96\times 6}{\sqrt{n}}=2$$
$$\sqrt{n}=\frac{1.96\times 6}{2}$$
$$\sqrt{n}=5.88$$
$$n=5.88^2$$
$$n=34.5744$$
± 2mm の範囲で区間推定をするためには、35個のデータを抜きとればよいとわかりました。
このようにサンプルサイズn を求めることができます。
$$1.96\times\frac{\sigma}{\sqrt{n}}=許容できる誤差$$
$$\frac{1.96\times \sigma}{\sqrt{n}}=許容できる誤差$$
$$\sqrt{n}=\frac{1.96\times \sigma}{許容できる誤差}$$
$$n=\left(\frac{1.96\times \sigma}{許容できる誤差}\right)^2$$
以上は、母集団の標準偏差σ がわかっているときの話でした。
母集団の標準偏差がわからないときには、不偏分散の平方根、
$$\frac{s}{\sqrt{n-1}}$$
をつかいます。
また、母平均の「比率」を推定する場合も、やり方は同じです。
どのような使用場面があるかというと、たとえば、標本調査を行って、日本全国の視聴率を推定する。誤差を○○%以内におさえたい。このときに、どのくらいの世帯にたいして調査を行えばよいのかを算出したい場合などがあります。
誤差は、比率を\(p\)、サンプルサイズを\(n\) としたら、比率の標準偏差は、
$$\sqrt{p(1-p)}$$
です。
標本比率の誤差は、
$$\sqrt{\frac{p(1-p)}{n}}$$
です。
信頼係数95%で、母比率を許容できる誤差範囲におさめるために、必要なサンプルサイズnは、
$$1.96\times\sqrt{\frac{p(1-p)}{n}}=許容できる誤差$$
$$1.96\times \frac{\sqrt{p(1-p)}}{\sqrt{n}}=許容できる誤差$$
$$\frac{1.96\times \sqrt{p(1-p)}}{\sqrt{n}}=許容できる誤差$$
$$\sqrt{n}=\frac{1.96\times\sqrt{p(1-p)}}{許容できる誤差}$$
$$n=\left(\frac{1.96\times\sqrt{p(1-p)}}{許容できる誤差}\right)^2$$
で計算できます。
コメント
素晴らしい記事。ここまで分かりやすい統計の記事はなかなか無いです。ありがとうございました。あとサンプル数とサンプルサイズの違いも理解しました。間違えてたけど、恥は断捨離!