「標準誤差」とは、標本平均の標準偏差のことです。
以下の式で計算します。
$$標準誤差=\frac{\sigma}{\sqrt{n}}$$
母集団から標本データとして10個のデータを抜きとって、標本平均を計算します。これを100回繰り返すことを考えてみましょう。
30人の身長の平均値とその ばらつき
道行く男性をランダムに選んで、身長を測らせてもらい、30の身長データを集めたとします。その平均は170.6cmでした。
もう1回、道行く男性30人の身長を測らせてもらってその平均を出すと、今度は171.8cmでした。さっきよりも、背の高い人が多く含まれていたのでしょう。
こんな具合で、「男性30人の身長を測って平均を出す」ことを100回繰り返します。すると、30人の平均身長が、100個分できますよね。
標本平均である30人の平均身長は、100個つくられ、大小さまざまな値となり、分布をします。ばらつきを持っているわけです。「標本平均である30人の平均身長」の標準偏差が、標準誤差です。
で、この標本誤差は、もともとの母集団の標準偏差よりも、小さい値になります。もともとの母集団、男性一人一人の身長を見れば、160cmの人もいれば、180cmの人もいるわけです。※5.5cmくらいの標準偏差のようです。
しかし、30人分ひとくくりにした平均値は、160cmの人も、180cmの人もうまい具合にまざって、だいたい日本全体の平均身長である170cm前後くらいになるでしょう。
この平均値は、160cmとか180cmになることはまずなさそうですよね。170cm前後で分布しそうです。
標本の大きさ(抜きとるデータ数)が小ければ、この例では、身長を測る人数が2人とか、3人であれば、たまたま背の低い人だけを選んでしまい、その標本平均が低めに出てしまうことは発生するでしょう。
でも、標本の大きさを大きくし、測る人数を10人、20人と増やしていくほど、計算した標本の平均身長が低めに出ることは少なくなっていくのはわかりますよね。逆に大きく出ることも減ります。
標本平均と標準誤差
標本の大きさ(サンプルサイズ)が30個の場合、標本平均は、
- 標本平均値は、\(μ\)
- 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{30}}\)
の分布をすることがわかっています。この標本平均の標準偏差のことを「標準誤差」と呼びます。
標本の大きさ(サンプルサイズ)がn とすれば、標本平均は、
- 標本平均値は、\(μ\)
- 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{n}}\)
の分布に従います。標準誤差は、もとの母集団の標準偏差にくらべて、\(\frac{1}{\sqrt{n}}\)の値に小さくなるのです。
標準偏差と標本平均の違い
標準偏差は、得られたデータがどの程度ばらついているかを示すものです。上記の例で、道行く男性をランダムに30人選んで身長を測った場合には、その30人のそれぞれの身長がどの程度ばらついているのかを見るものです。
標準誤差は、標本の平均値の標準偏差です。道行く男性をランダムに30人選んで身長を測って平均値を計算したときに、171cmになることもあれば、173cmになることもあれば、168cmになるときもありそうです。
繰り返すごとにその平均値は少し違いが出ます。
その平均値の標準偏差が標準誤差です。
その平均値がどの程度ばらついているかが標準誤差です。