母集団の標準偏差の不偏推定値

シェアする

標本の標準偏差は、母集団の標準偏差と比べて小さいほうへ偏る

点推定と区間推定のページでは、標本5個から母平均を推定しています。ここで一つ問題があります。

母集団の平均値の区間推定で使用したのは母集団の標準偏差σでしたが、母集団の平均値がわからないので推定をするときに、σだけがわかっていることは実際には少ないです。 標本のデータを使って標本の標準偏差sは計算することができますが、も母集団の標準偏差σとはズレが出る可能性があります。標本から得られた標準偏差は、母集団の標準偏差と比べて、小さいほうへ偏ってしまう性質があります。 そのため、標本の標準偏差σは、そのまま母集団の標準偏差としては使用せず、補正をかける必要があります。

97g、98g、100g、102g、103g

この5つの値の平均値は、100gです。これを母集団の平均値の推定値としますが、実際には、100gよりも大きいかもしれないですし、小さいかもしれません。それは神のみぞ知ることです。私たちがわかるのは、この5つのデータとそこから得られる平均値100gという数値です。

標本のデータからこの100gの数値を使って計算します。こうして計算されて出てきた標準偏差は、母集団の標準偏差と比べて、小さいほうへ偏ってしまう・・・これは、なぜなのでしょうか。

標準偏差は、各データの偏差をだして、2乗して・・・と計算していくので、偏差をもとにして計算されます。ですので、各偏差を2乗して足し合わせた数値(偏差平方和)が大きいほど、標本の標準偏差は大きくなり、偏差平方和が小さいほど標本の標準偏差は小さくなります。

平均値は自動的に、偏差平方和がもっとも小さくなるような数値になります。つまり、偏差平方和をnで割り平方根をとった数値である標準偏差も同様にもっとも小さくなってしまうのです。そうなるように、標本の各データが平均値を決めてしまうわけです。

さきほどの5つの製品の重量を再掲します。

97g、98g、100g、102g、103g

この5つのデータの平均値は100gですから、この値を使って、標準偏差を計算してみましょう。

まず分散を計算すると、

☆平均値を100としてみると

hyoujyunhensajikken1

((97-100)2 +(98-100)2 +(100-100)2 +(102-100)2 +(103-100)2)/5
=5.2

標準偏差は、√5.2=2.28

となります。

母集団の平均値は、100であるとは限りません。仮に101であったとすると、 まず分散を計算すると、

☆仮に平均値を101としてみると

hyoujyunhensajikken2

分散は、6.2
標準偏差は、√6.2=2.49

になり、標本の平均値である100を使って計算するよりも標準偏差が大きくなります。
これは、平均値を99で計算しても同じ値になります。

☆仮に平均値を99としてみると

hyoujyunhensajikken3

このように、標本の平均値は、標準偏差が一番小さくなるように決められる数値なのです。 よって、標本標準偏差sは、母標準偏差σよりも小さいほうへ偏りがちになるので、そのままではσの不偏推定値としては使えません。σの不偏推定値として使うためには、補正をかける必要があります。

標本の標準偏差に補正をかける

その補正の方法は、下記の計算でできます。

☆母集団の標準偏差σの不偏推定値

fuhenhoyujyunhensa2

または、

fuhenhoyujyunhensa1
どちらも同じ数値になります。 σの上についているとんがり帽みたいな記号は、「ハット」といい、シグマと合わせて「シグマハット」と読みます。母集団の標準偏差がσ、標本の標準偏差がs、母集団の標準偏差の推定値が「シグマハット」です。

☆標本の平均値の100を使って標準偏差を計算すると・・・(再掲)

hyoujyunhensajikken1

標本の標準偏差は、2.28です。母標準偏差の推定値は、標本nが5個ですから、標本標準偏差に√5 / √(5-1)をかけた数値が公平な推定値になります。

2.28×√5 / √(5-1) = 2.55

これが、母集団の標準偏差の推定値になります。

となります。

標本の平均値を使って標準偏差を計算した後に、√n / √(n-1)を掛けて補正をしましたが、他の計算方法もあります。標準偏差の計算途中で、偏差平方和をデータ数nで割るときに、「n」ではなく「n-1」で割って計算する方法でも同じ値が得られます。

これを計算すると、

分散=偏差平方和 / (n-1) = 26 / (5-1) = 6.5

標準偏差は、√6.5 = 2.55

ただし、nが大きくなれば、標本の標準偏差sをそのまま、母集団の標準偏差のσの推定値として使用しても大丈夫になります。なぜなら、標本の数が増えるので、「母集団の標準偏差」と「標本の平均値」の誤差が小さくなりやすくなります。

母集団の分散の推定値は、下記の計算式になります。

☆母集団の分散の不偏推定値

fuhenbunsan2

fuhenbunsan1

母集団の分散の不偏推定値の平方根をとると、母集団の標準偏差の不偏推定値となります。標本通り、平均値100を使って分散を計算すると、

分散=偏差平方和 / (n-1) = 26 / 5 = 5.2

母集団の分散の不偏推定値は、n / (n-1)をかけますから、
5×5 / (5-1)  =6.5

6.5の平方根をとると、
√6.5 = 2.55

標本の標準偏差に√n/√(n-1)をかけた値と同じになります。
2.28×√5 / √(5-1) = 2.55