中心極限定理の意味

「中心極限定理」とは、母集団がどのような分布であっても、標本の大きさｎが大きければ、標本平均の確率分布は平均値\(μ\)、分散\(\frac{\sigma^2}{n}\)の正規分布で近似されるようになることです。

まず標準誤差について、その後に中心極限定理についてを書きました。

標準誤差とは

母集団から標本を抜き取り、標本平均の値を出すとします。この作業をなんども繰り返すと、いくつもの標本平均の値が計算され、大小さまざまな値となり、分布をします。

ある分布Ｎ(μ，σ)から標本として2個のデータを抜きとってみましょう。その2つのデータの平均値を出します。標本データがたまたま大きな数値であれば、平均値も大きくなり、標本データがたまたま小さな数値であれば、標本の平均値も小さくなります。

これを何度も繰り返して、その標本の平均値を記録していけば、標本平均の分布がつくられます。繰り返すほど、平均的には母集団の平均値μ 近い値になっていくでしょう。

で、その標本平均の標準偏差はどうなるかというと、もともとの母集団の標準偏差より小さくなっていくのです。

この標本平均の標準偏差のことを、標準誤差といいます。

母集団から標本を取りだすときのことを考えてみます。標本として取りだしたデータの個数のことを、標本の大きさ（またはサンプルサイズ）といいます。

標本の大きさが2 の場合、

標本の平均値は、\(μ\)
標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{2}}\)

の分布に従うことがわかっています。

また、標本の大きさをｎとすれば、

標本の平均値は、\(μ\)
標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{n}}\)

の分布に従います。標本の大きさ(標本としてで抜きとったデータの個数）がｎ個であれば、\(\frac{1}{\sqrt{n}}\)で標本の平均値の標準偏差は小さくなっていくのです。

中心極限定理とは

母集団がどのような分布であっても、標本の大きさｎが大きければ、標本平均の確率分布は平均値\(μ\)、分散\(\frac{\sigma^2}{n}\)の正規分布で近似されることが、中心極限定理です。

中心極限定理を説明するのに、まず母集団からデータを2つ抜き取って、その合計値や平均値がどうなるのか見てみます。

その後に標準誤差、そして中心極限定理について説明していきます。

標本の合計値とその標準偏差の計算

同じひとつの集団から2つの標本を抜きとって、合計値を記録する行為を何度も繰り返してみましょう。同じμと同じσですから、分散の加法性より

合計値の平均は、μ＋μ ＝ 2μ
分散は、σ²＋ σ²＝ 2σ²

となることがわかります。

分散の加法性とは

2つの集団からそれぞれ一つずつ標本を取り出し、その合計値を記録する行為を何度も繰り返してみましょう。

集団①　　Ｎ（μ₁，σ₁²）
集団②　　Ｎ（μ₂，σ₂²）

この場合、できあがる2つの標本の合計値の分布は、

合計値の平均は、μ₁＋μ₂
分散は、σ₁²＋σ₂²

となる法則があり、分散の加法性と呼ばれます。

同じ母集団分布　Ｎ（μ，σ²）から取り出されるのであれば、

合計値の平均は、μ＋μ
分散は、σ²＋σ²

つまり、

合計値の平均は、2 μ
分散は、2 σ²

となります。

参考記事　分散の加法性

たとえば、Ｎ（100，4²）から、2個のデータを抜き取ることを繰り返します。

2個のデータの合計値がたくさんつくられるわけです。すると2個のデータの合計値は、平均的に200となります。分散は4²＝16ですから、2個のデータの合計値の分散は、16+16＝32 となります。

そこから標準偏差を計算すれば、√32＝5.656 となります。

これは標本で抜き取った2個のデータの合計値とその標準偏差の話でした。

標本の平均値とその平均値の標準偏差の計算

標本のデータの平均値（標本平均）の標準偏差のことを、標準誤差といいます。

標準誤差を計算したい場合はどうするか。

標本の大きさ（サンプルサイズ）ｎ＝2であれば、

標本平均の平均値は、\(\frac{X_1 +X_2}{2}\)
標本平均の標準偏差は、\(\frac{\sigma}{\sqrt{2}}\)

ですね。

標本内の2つのデータの平均値は、2で割れば計算できますから、先ほどの例と同じように、正規分布Ｎ（100，4²）から2個のデータを抜きとるのであれば、

標本平均の平均値　200 / 2＝100

となります。

標本平均の標準偏差は、\(\frac{\sigma}{\sqrt{2}}\)で計算しますが、これは、\(\sqrt{\frac{\sigma^2}{2}}\)と同じことです。

標準偏差を√2 で割って計算するか
分散を2で割って出た値の√ を計算するか

の違いで、同じ値になります。先ほどの例と同じように、正規分布Ｎ（100，4²）から標本内のデータが2の標本を抜きとるのであれば、次のようになります。

標準偏差を√2 で割って計算する

標準偏差が4 で、データは2個ですから、標本平均の標準偏差は、

4 ÷ √2 ＝ 2.828

となります。

分散を2で割って出た値の√ を計算する

2個の標本平均の分散は、16 / 2 ＝ 8
2個の標本平均の標準偏差　√8 = 2.828

と、ひとつ上の計算の結果と同じになりましたね。

Ｎ（100，4²）から抜き取ったｎ＝2の標本の平均値の分布は、

μ＝100
σ＝2.828

となります。

さらに標本の大きさｎを大きくすると

標本の大きさ（標本として抜き取るデータ個数）を大きくしていくと、どうなるでしょうか。

ｎ＝3とすると、

標本平均値は、\(μ\)
標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{3}}\)

ｎ＝4とすると、

標本平均値は、\(μ\)
標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{4}}\)

で計算することができます。

Ｎ（μ，σ²）からｎ個のデータを抜きとったとき、

標本の平均値は、\(\frac{X_1 +X_2}{2}\)
標本の平均値の分散は、\(\frac{\sigma^2}{n}\)
標本の平均値の標準偏差は、\(\frac{\sigma}{\sqrt{n}}\)

ここから言えることは、標本サイズを大きくする、つまり抜きとるデータ個数ｎを増やすほど、標本平均値のばらつきが小さくなっていくことがわかります。

そして、標本の大きさｎを大きくしていたっとき、

確率変数X の和　\(X_1 +X_2 +…+X_n\)

確率変数Xの平均　\(\frac{X_1 +X_2 +…+X_n}{n}\)

は、両方ともに、正規分布になると考えてよいのです。

（\(X_1 +X_2 +…+X_n\)がそれぞれ独立、平均値をμ、分散をσ²とします。）

このとき、母集団がどのような分布であっても、標本の大きさが大きければ（抜きとるデータ個数ｎが大きければ）、標本平均の確率分布は平均値\(μ\)、分散\(\frac{\sigma^2}{n}\)の正規分布で近似されるようになります。

これを「中心極限定理」といいます。

ここで重要なのは、母集団が正規分布をしていなくても、標本の平均値は正規分布をするということです。正規分布の理論を用いて推計したり、検定したりできるようになります。