「中心極限定理」とは、母集団がどのような分布であっても、標本の大きさn が大きければ、標本平均の確率分布は平均値\(μ\)、分散\(\frac{\sigma^2}{n}\)の正規分布で近似されるようになることです。
まず標準誤差について、その後に中心極限定理についてを書きました。
標準誤差とは
母集団から標本を抜き取り、標本平均の値を出すとします。この作業をなんども繰り返すと、いくつもの標本平均の値が計算され、大小さまざまな値となり、分布をします。
ある分布N(μ,σ)から標本として2個のデータを抜きとってみましょう。その2つのデータの平均値を出します。標本データがたまたま大きな数値であれば、平均値も大きくなり、標本データがたまたま小さな数値であれば、標本の平均値も小さくなります。
これを何度も繰り返して、その標本の平均値を記録していけば、標本平均の分布がつくられます。繰り返すほど、平均的には母集団の平均値μ 近い値になっていくでしょう。
で、その標本平均の標準偏差はどうなるかというと、もともとの母集団の標準偏差より小さくなっていくのです。
この標本平均の標準偏差のことを、標準誤差といいます。
母集団から標本を取りだすときのことを考えてみます。標本として取りだしたデータの個数のことを、標本の大きさ(またはサンプルサイズ)といいます。
標本の大きさが2 の場合、
- 標本の平均値は、\(μ\)
- 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{2}}\)
の分布に従うことがわかっています。
また、標本の大きさをn とすれば、
- 標本の平均値は、\(μ\)
- 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{n}}\)
の分布に従います。標本の大きさ(標本としてで抜きとったデータの個数)がn 個であれば、\(\frac{1}{\sqrt{n}}\)で標本の平均値の標準偏差は小さくなっていくのです。
中心極限定理とは
母集団がどのような分布であっても、標本の大きさn が大きければ、標本平均の確率分布は平均値\(μ\)、分散\(\frac{\sigma^2}{n}\)の正規分布で近似されることが、中心極限定理です。
中心極限定理を説明するのに、まず母集団からデータを2つ抜き取って、その合計値や平均値がどうなるのか見てみます。
その後に標準誤差、そして中心極限定理について説明していきます。
標本の合計値とその標準偏差の計算
同じひとつの集団から2つの標本を抜きとって、合計値を記録する行為を何度も繰り返してみましょう。同じμと同じσですから、分散の加法性より
- 合計値の平均は、μ+μ = 2μ
- 分散は、σ2 + σ2 = 2σ2
となることがわかります。
分散の加法性とは
2つの集団からそれぞれ一つずつ標本を取り出し、その合計値を記録する行為を何度も繰り返してみましょう。
- 集団① N(μ1,σ12)
- 集団② N(μ2,σ22)
この場合、できあがる2つの標本の合計値の分布は、
- 合計値の平均は、μ1+μ2
- 分散は、σ12+σ22
となる法則があり、分散の加法性と呼ばれます。
同じ母集団分布 N(μ,σ2)から取り出されるのであれば、
- 合計値の平均は、μ+μ
- 分散は、σ2+σ2
つまり、
- 合計値の平均は、2 μ
- 分散は、2 σ2
となります。
参考記事 分散の加法性
たとえば、N(100,42)から、2個のデータを抜き取ることを繰り返します。
2個のデータの合計値がたくさんつくられるわけです。すると2個のデータの合計値は、平均的に200となります。 分散は42=16ですから、2個のデータの合計値の分散は、16+16=32 となります。
そこから標準偏差を計算すれば、√32=5.656 となります。
これは標本で抜き取った2個のデータの合計値とその標準偏差の話でした。
標本の平均値とその平均値の標準偏差の計算
標本のデータの平均値(標本平均)の標準偏差のことを、標準誤差といいます。
標準誤差を計算したい場合はどうするか。
標本の大きさ(サンプルサイズ)n=2であれば、
- 標本平均の平均値は、\(\frac{X_1 +X_2}{2}\)
- 標本平均の標準偏差は、\(\frac{\sigma}{\sqrt{2}}\)
ですね。
標本内の2つのデータの平均値は、2で割れば計算できますから、先ほどの例と同じように、正規分布 N(100,42)から2個のデータを抜きとるのであれば、
- 標本平均の平均値 200 / 2=100
となります。
標本平均の標準偏差は、\(\frac{\sigma}{\sqrt{2}}\)で計算しますが、これは、\(\sqrt{\frac{\sigma^2}{2}}\)と同じことです。
- 標準偏差を√2 で割って計算するか
- 分散を2で割って出た値の√ を計算するか
の違いで、同じ値になります。先ほどの例と同じように、正規分布 N(100,42)から標本内のデータが2の標本を抜きとるのであれば、次のようになります。
標準偏差を√2 で割って計算する
標準偏差が4 で、データは2個ですから、標本平均の標準偏差は、
- 4 ÷ √2 = 2.828
となります。
分散を2で割って出た値の√ を計算する
- 2個の標本平均の分散は、16 / 2 = 8
- 2個の標本平均の標準偏差 √8 = 2.828
と、ひとつ上の計算の結果と同じになりましたね。
N(100,42)から抜き取ったn=2の標本の平均値の分布は、
- μ=100
- σ=2.828
となります。
さらに標本の大きさnを大きくすると
標本の大きさ(標本として抜き取るデータ個数)を大きくしていくと、どうなるでしょうか。
n=3とすると、
- 標本平均値は、\(μ\)
- 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{3}}\)
n=4とすると、
- 標本平均値は、\(μ\)
- 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{4}}\)
で計算することができます。
N(μ,σ2)からn個のデータを抜きとったとき、
- 標本の平均値は、\(\frac{X_1 +X_2}{2}\)
- 標本の平均値の分散は、\(\frac{\sigma^2}{n}\)
- 標本の平均値の標準偏差は、\(\frac{\sigma}{\sqrt{n}}\)
ここから言えることは、標本サイズを大きくする、つまり抜きとるデータ個数nを増やすほど、標本平均値のばらつきが小さくなっていくことがわかります。
そして、標本の大きさnを大きくしていたっとき、
確率変数X の和 \(X_1 +X_2 +…+X_n\)
確率変数Xの平均 \(\frac{X_1 +X_2 +…+X_n}{n}\)
は、両方ともに、正規分布になると考えてよいのです。
(\(X_1 +X_2 +…+X_n\)がそれぞれ独立、平均値をμ、分散をσ2とします。)
このとき、母集団がどのような分布であっても、標本の大きさが大きければ(抜きとるデータ個数nが大きければ)、標本平均の確率分布は平均値\(μ\)、分散\(\frac{\sigma^2}{n}\)の正規分布で近似されるようになります。
これを「中心極限定理」といいます。
ここで重要なのは、母集団が正規分布をしていなくても、標本の平均値は正規分布をするということです。正規分布の理論を用いて推計したり、検定したりできるようになります。