中心極限定理の意味




中心極限定理」とは、母集団がどのような分布であっても、標本の大きさn が大きければ、標本平均の確率分布は平均値\(μ\)、分散\(\frac{\sigma^2}{n}\)の正規分布で近似されるようになることです。

まず標準誤差について、その後に中心極限定理についてを書きました。

標準誤差とは

母集団から標本を抜き取り、標本平均の値を出すとします。この作業をなんども繰り返すと、いくつもの標本平均の値が計算され、大小さまざまな値となり、分布をします。

ある分布N(μ,σ)から標本として2個のデータを抜きとってみましょう。その2つのデータの平均値を出します。標本データがたまたま大きな数値であれば、平均値も大きくなり、標本データがたまたま小さな数値であれば、標本の平均値も小さくなります。

これを何度も繰り返して、その標本の平均値を記録していけば、標本平均の分布がつくられます。繰り返すほど、平均的には母集団の平均値μ 近い値になっていくでしょう。

で、その標本平均の標準偏差はどうなるかというと、もともとの母集団の標準偏差より小さくなっていくのです。

この標本平均の標準偏差のことを、標準誤差といいます。

母集団から標本を取りだすときのことを考えてみます。標本として取りだしたデータの個数のことを、標本の大きさ(またはサンプルサイズ)といいます。

標本の大きさが2 の場合、

  • 標本の平均値は、\(μ\)
  • 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{2}}\)

の分布に従うことがわかっています。

また、標本の大きさをn とすれば、

  • 標本の平均値は、\(μ\)
  • 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{n}}\)

の分布に従います。標本の大きさ(標本としてで抜きとったデータの個数)がn 個であれば、\(\frac{1}{\sqrt{n}}\)で標本の平均値の標準偏差は小さくなっていくのです。

中心極限定理とは

母集団がどのような分布であっても、標本の大きさn が大きければ、標本平均の確率分布は平均値\(μ\)、分散\(\frac{\sigma^2}{n}\)の正規分布で近似されることが、中心極限定理です。

中心極限定理を説明するのに、まず母集団からデータを2つ抜き取って、その合計値や平均値がどうなるのか見てみます。

その後に標準誤差、そして中心極限定理について説明していきます。

標本の合計値とその標準偏差の計算

同じひとつの集団から2つの標本を抜きとって、合計値を記録する行為を何度も繰り返してみましょう。同じμと同じσですから、分散の加法性より

  • 合計値の平均は、μ+μ = 2μ
  • 分散は、σ2 + σ2 = 2σ2

となることがわかります。

分散の加法性とは

2つの集団からそれぞれ一つずつ標本を取り出し、その合計値を記録する行為を何度も繰り返してみましょう。

  • 集団①  N(μ1,σ12
  • 集団②  N(μ2,σ22

この場合、できあがる2つの標本の合計値の分布は、

  • 合計値の平均は、μ1+μ2
  • 分散は、σ12+σ22

となる法則があり、分散の加法性と呼ばれます。

同じ母集団分布 N(μ,σ2)から取り出されるのであれば、

  • 合計値の平均は、μ+μ
  • 分散は、σ2+σ2

つまり、

  • 合計値の平均は、2 μ
  • 分散は、2 σ2

となります。

参考記事 分散の加法性

たとえば、N(100,42)から、2個のデータを抜き取ることを繰り返します。

2個のデータの合計値がたくさんつくられるわけです。すると2個のデータの合計値は、平均的に200となります。 分散は42=16ですから、2個のデータの合計値の分散は、16+16=32 となります。

そこから標準偏差を計算すれば、√32=5.656 となります。

これは標本で抜き取った2個のデータの合計値とその標準偏差の話でした。

標本の平均値とその平均値の標準偏差の計算

標本のデータの平均値(標本平均)の標準偏差のことを、標準誤差といいます。

標準誤差を計算したい場合はどうするか。

標本の大きさ(サンプルサイズ)n=2であれば、

  • 標本平均の平均値は、\(\frac{X_1 +X_2}{2}\)
  • 標本平均の標準偏差は、\(\frac{\sigma}{\sqrt{2}}\)

ですね。

標本内の2つのデータの平均値は、2で割れば計算できますから、先ほどの例と同じように、正規分布 N(100,42)から2個のデータを抜きとるのであれば、

  • 標本平均の平均値 200 / 2=100

となります。

標本平均の標準偏差は、\(\frac{\sigma}{\sqrt{2}}\)で計算しますが、これは、\(\sqrt{\frac{\sigma^2}{2}}\)と同じことです。

  • 標準偏差を√2 で割って計算するか
  • 分散を2で割って出た値の√ を計算するか

の違いで、同じ値になります。先ほどの例と同じように、正規分布 N(100,42)から標本内のデータが2の標本を抜きとるのであれば、次のようになります。

標準偏差を√2 で割って計算する

標準偏差が4 で、データは2個ですから、標本平均の標準偏差は、

  • 4 ÷ √2 = 2.828

となります。

分散を2で割って出た値の√ を計算する

  • 2個の標本平均の分散は、16 / 2 = 8
  • 2個の標本平均の標準偏差 √8 = 2.828

と、ひとつ上の計算の結果と同じになりましたね。

N(100,42)から抜き取ったn=2の標本の平均値の分布は、

  • μ=100
  • σ=2.828

となります。

さらに標本の大きさnを大きくすると

標本の大きさ(標本として抜き取るデータ個数)を大きくしていくと、どうなるでしょうか。

n=3とすると、

  • 標本平均値は、\(μ\)
  • 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{3}}\)

n=4とすると、

  • 標本平均値は、\(μ\)
  • 標本平均値の標準偏差は、\(\frac{\sigma}{\sqrt{4}}\)

で計算することができます。

N(μ,σ2)からn個のデータを抜きとったとき、

  • 標本の平均値は、\(\frac{X_1 +X_2}{2}\)
  • 標本の平均値の分散は、\(\frac{\sigma^2}{n}\)
  • 標本の平均値の標準偏差は、\(\frac{\sigma}{\sqrt{n}}\)

ここから言えることは、標本サイズを大きくする、つまり抜きとるデータ個数nを増やすほど、標本平均値のばらつきが小さくなっていくことがわかります。

そして、標本の大きさnを大きくしていたっとき、

確率変数X の和 \(X_1 +X_2 +…+X_n\)

確率変数Xの平均 \(\frac{X_1 +X_2 +…+X_n}{n}\)

は、両方ともに、正規分布になると考えてよいのです。

(\(X_1 +X_2 +…+X_n\)がそれぞれ独立、平均値をμ、分散をσ2とします。)

このとき、母集団がどのような分布であっても、標本の大きさが大きければ(抜きとるデータ個数nが大きければ)、標本平均の確率分布は平均値\(μ\)、分散\(\frac{\sigma^2}{n}\)の正規分布で近似されるようになります。

これを「中心極限定理」といいます。

ここで重要なのは、母集団が正規分布をしていなくても、標本の平均値は正規分布をするということです。正規分布の理論を用いて推計したり、検定したりできるようになります。