標本から母平均を推定する「点推定」、また区間を推定する「区間推定」について書きました。
点推定とは
標本のデータから母集団の平均値を推定することを点推定といいます。
平均値の1点を推定するので、点推定です。
あるメーカーにて。つくられた製品が、どのくらいの重量なのだろうと製作者は思い、秤にのせてはかってみることにしました。製品の集団は、毎日毎日つくられており、これからもつくられていくものですので、無限母集団と考えます。
重さをはかった5つの製品gの平均値を見てみると、100gとなりました。
しかし、これが製品の平均値なのかというとそうではありません。
この製品の平均重量について知りたい場合、ほんとうであれば母集団のすべてのデータをはかってみないとわかりません。
つくられたすべての製品の重さをはかって結果を出すのが、正しい値を得るための唯一の方法です。
参考記事 母集団と標本(サンプル)とその違い。また標本抽出・サンプリングの意味
平均値を知りたいときに、標本5つの重さの平均値を見ても、イコールその製品の母集団の平均値にはならないのがふつうです。
重さをはかるために製品を抜き取ったら、製品が偶然にも軽いものばかりを選んでしまうとか、逆に重い製品ばかりを選んでしまう可能性があります。極端に軽いものばかり、重いものばかりを選んでしまう確率はものすごく低くても、平均値よりも多少軽め、多少重めの製品を選んでしまうことは、ふつうにありえます。
私たちが知りたいのは、この5個の平均値ではなく、製品全体の平均値を知りたいのです。
しかし、今ある情報としては、この5つしかありませんので、ここから母集団の値を推定推定することになります。
方法としては、“標本5個の平均値”を“母集団の平均値の推定値”として扱います。
1点を推定しているので、これを「点推定」といいます。
データの数が5個しかなくても、10個でも、100個でも、標本から母集団の平均値を推測する場合には、 標本の平均値を母数団の平均値の推定値として使用します。ほかに推定値として使用する数値がないからです。
区間推定とは
区間推定とは、標本のデータから母集団の平均値がどのくらいの範囲におさまりそうなのかを推定することです。
点推定では1点を推定しますが、標本データから計算した平均値が、母集団の平均値とぴしゃりと一致することはまずないと考えられます。
では、どのくらいのズレがあるものなのでしょうか。
それは、標本のなかのデータ数(標本サイズ)や標本のデータのばらつき具合によって変わります。
この二つから、推定値がどれだけ当たっているのか、ズレがあるとしたらどのくらいのズレがあるのかその範囲も推定するのです。
- 標本サイズが少ないほど推定値に自信がなくなり、標本サイズが多いほど推定値に自信がでてきます。
- 標本データのがばらつきが大きいほど推定値に自信がなくなり、標本データのばらつきが小さいほど自信がでてきます。
この自信の程度は、推定値がどのくらいの範囲に存在しているかであらわすことができます。
推定値に自信があるほど、狭い範囲を指定することができ、推定値に自信がないほど広い範囲を指定することになります。
まあ、予測に自信がなければ、広い範囲を指定しておこうという感じです。
100%の確率でこの範囲内になります、と予測するためには、その範囲を0~∞にしないと無理な話ですよね。
ですから、範囲を予測するときには、90%や95%の確率で収まる範囲を推定することが多いです。
95%の確率で収まる範囲ということは、「20回に19回はこの範囲に収まるけど、20回に1回は、この範囲から外れることがあるだろう」と予測していることを意味します。
さきほど計測をした5個の製品の平均重量は100gであったので、母集団の平均重量の推定値も100gになります。しかし、さきほどお伝えしたように母集団の平均値も100gで一致するということはまずありません。
ですから、母集団の平均値は、100g±何gの間に収まっていそうなのか?も予測するのです。
この範囲を推定することを「区間推定」といいます。
仮に母集団の標準偏差\(\sigma\)がわかっていて、2であるとします。(実際には、母集団の平均値がわからず、標準偏差だけわかっていることは少ないですが)
母集団の平均値はわからないので、\(μ\) gとします。平均値が不明な母集団から標本を取り出してはかってみたとしましょう。
その標本の平均値は、68.26%の確率で未知である母集団の平均値から標準誤差1つ分の範囲に収まることがわかっています。これは確率的にそういえるのです。
また、95%の確率では標準誤差1.96個分に収まります。
標準誤差とは、標本平均の標準偏差のことです。
参考記事 標準誤差の意味
これを、逆の立場からみると、母集団の平均値は、68.26%の確率で標本の平均値から標準誤差1つ分の範囲に収まることがわかります。また、95%の確率では標準誤差1.96個分に収まります。
母集団の平均\(μ\)が95%の確率で収まる範囲は、
$$標本平均±1.96\times\frac{\sigma}{\sqrt{n}}$$
で計算できます。
$$1.96\times\frac{2}{\sqrt{5}}=1.753$$
母集団の平均が95%の確率で収まる範囲は、95%の確率で標本平均から±1.753の範囲に収まります。
統計学的な言い方をすると、
- 95%信頼係数のもとでの母平均の区間推定結果は98.247g~101.753g
(98.247g≦μ≦101.753g) - 母平均の95%信頼区間は、98.247g~101.753g
- 母平均の95%上方信頼係数は100g+1.753g、下方信頼係数は100-1.753g
このようになります。
また、記号を使って表すとこのようになります。
\(P(98.247\leq μ\leq101.753)=0.95\)
まとめ
標本のデータから、母集団の平均値を推定することが、点推定です。
といっても、1点を正確に推定することはできませんから、「その点からズレるだろうけどこのくらいの範囲に収まりますよ」と区間の推定も行われます。これが区間推定です。
区間の推定をするときには、「100%の確率でこの範囲になる」と推定するのは無理なので、90%や95%の確率など、高い確率でこの範囲におさまるだろう、と範囲を推定します。