点推定と区間推定

シェアする

点推定

あるメーカーにて。つくられた製品は、どのくらいの重量なのだろうと製作者は思い、秤にのせてはかってみることにしました。製品の集団は、毎日毎日つくられており、これからもつくられていくものですので、無限母集団と考えます。

97g、98g、100g、102g、103g

重さをはかった5つの製品gの平均値を見てみると、100gとなりました。
母集団と標本にあるように、 この製品の重量について知りたい場合、つくられたすべての製品の重さをはかって結果を出すのが、正しい値を得るための唯一の方法です。

平均値を知りたいときに、標本5つの重さの平均値を見ても、イコールその製品の母集団の平均値にはならないのがふつうです。重さをはかるために製品を抜き取ったら、製品が偶然にも軽いものばかりを選んでしまうとか、逆に重い製品ばかりを選んでしまう可能性があります。極端に軽いものばかり、重いものばかりを選んでしまう確率はものすごく低くても、平均値よりも多少軽め、多少重めの製品を選んでしまうことは、ふつうにありえます。

私たちが知りたいのは、この5個の平均値ではなく、製品全体の平均値を知りたいのです。

しかし、今ある情報としては、この5つしかありませんので、ここから母集団の値を推定するしか方法がありませんので、 “標本5個の平均値”を“母集団の平均値の推定値”として扱います。1点を推定しているので、これを「点推定」といいます。

データの数が5個しかなくても、10個でも、100個でも、標本から母集団の平均値を推測する場合には、 標本の平均値を母数団の平均値の推定値として使用します。ほかに推定値として使用する数値がありませんから。

区間推定

点推定は、1点だけを推定しており、母集団の平均値とぴしゃりと一致することはまずないと考えられます。 では、どのくらいのズレがあるものなのでしょうか。

それは、標本数や標本のデータのばらつき具合によって変わります。これらから推定値がどれだけ当たっていそうなのか、ズレがありそうか計算することができます。

標本の数が少ないほど推定値に自信がなくなり、標本の数が多いほど自信がでてきます。 標本データのがばらつきが大きいほど推定値に自信がなくなり、標本データのばらつきが小さいほど自信がでてきます。

この自信の程度は、推定値がどのくらいの範囲に存在しているかで表すことができます。 推定値に自信があるほど、狭い範囲を指定することができ、推定値に自信がないほど広い範囲を指定することになります。 さきほど計測をした5個の製品の平均重量は100gでした。母集団の平均重量の推定値も100gですが、 ここから、母集団の平均値は100g±何gの間に収まっていそうなのか?

この範囲を推定することを「区間推定」といいます。

仮に母集団の標準偏差がわかっているとします。(実際には、母集団の平均値がわからず、標準偏差だけわかっていることは少ないですが)

母集団の平均値はわからないので、??gとし、平均値??gの平均値が不明な母集団から1つの標本を取り出したとしましょう。

その標本の値は、68.26%の確率で母集団の平均値の??gから標本誤差1つ分の範囲に収まります。

逆の立場からみると、母集団の??g平均値は、68.26%の確率で標本の平均値から標本誤差1つ分の範囲に収まることがわかります。

68.26%の確率では小さいので95%の確率で考えます。標本誤差は、σ/√nで、標本誤差1.96個分に収まりますから、

95%の確率で収まる範囲は、「標本平均±1.96×σ/√n」で計算できます。

1.96×2/√5 = 1.753

母平均は、95%の確率で標本平均から±1.753の範囲に収まります。

統計学的な言い方をすると、

  • 95%信頼係数のもとでの母平均の区間推定結果は98.247g~101.753g(98.247g≦μ≦101.753g)
  • 母平均の95%信頼区間は、98.247g~101.753g
  • 母平均の95%上方信頼係数は100g+1.753g、下方信頼係数は100-1.753g

記号を使って表すとこのようになります。

P (98.247≦μ≦101.753) = 0.95