中心極限定理の意味

シェアする

中心極限定理」とは、母集団がどのような分布であっても、標本の大きさn が大きければ、標本平均の確率分布は平均値μ、分散σ2/nの正規分布で近似されるようになることです。

まず標準誤差について、その後に中心極限定理についてを書きました。

標準誤差とは

母集団から標本を抜き取り、標本平均の値を出すとします。この作業をなんども繰り返すと、いくつもの標本平均の値が計算され、大小さまざまな値となり、分布をします。

ある分布N(μ,σ)から標本として2個のデータを抜きとってみましょう。その2つのデータの平均値を出します。標本データがたまたま大きな数値であれば、平均値も大きくなり、標本データがたまたま小さな数値であれば、標本の平均値も小さくなります。

これを何度も繰り返して、その標本の平均値を記録していけば、標本の平均値の分布がつくられます。繰り返すほど、平均的には母集団の平均値μ 近い値になっていくでしょう。

で、その標本平均の標準偏差はどうなるかというと、もともとの母集団の標準偏差より小さくなっていくのです。

この標本平均の標準偏差のこと、標準誤差とよびます。

標本の大きさ(サンプルサイズ)が2つの場合、

  • 標本の平均値は、μ
  • 標本平均値の標準偏差は、σ/√2

の分布に従うことがわかっています。また、標本の大きさ(サンプルサイズ)をn とすれば、

  • 標本の平均値は、μ
  • 標本平均値の標準偏差は、σ/√n

の分布に従います。標本の大きさ(標本としてで抜きとったデータの個数)がn 個であれば、1 / √n で標本の平均値の標準偏差は小さくなっていくのです。

同じ集団から複数の標本を抜きとる

標本のデータの合計値とその標準偏差

同じひとつの集団から2つの標本を抜きとって、合計値を記録する行為を何度も繰り返してみましょう。同じμと同じσですから、分散の加法性より

  • 合計値の平均は、μ+μ = 2μ
  • 分散は、σ2 + σ2 = 2σ2

となることがわかります。

!分散の加法性とは

2つの集団からそれぞれ一つずつ標本を取り出し、その合計値を記録する行為を何度も繰り返してみましょう。

  • 集団①  N(μ1,σ12
  • 集団②  N(μ2,σ22

この場合、できあがる2つの標本の合計値の分布は、

  • 合計値の平均は、μ1+μ2
  • 分散は、σ12+σ22

となる法則があり、分散の加法性と呼ばれます。

同じ母集団分布 N(μ,σ2)から取り出されるのであれば、

  • 合計値の平均は、μ+μ
  • 分散は、σ2+σ2

つまり、

  • 合計値の平均は、2 μ
  • 分散は、2 σ2

となります。

参考:分散の加法性

たとえば、N(100,42)から2個のデータを抜き取ることを繰り返します。2個のデータの合計値がたくさんつくられるわけです。すると2個のデータの合計値は、平均的に200となります。 分散は42=16ですから、2個のデータの合計値の分散は、16+16=32 となります。

そこから標準偏差を計算すれば、√32=5.656 となります。これは標本で抜き取った2個のデータの合計値とその標準偏差の話でした。

標本のデータの平均値と標準偏差

標本のデータの平均値(標本平均)を計算したい場合はどうするか。これは、この記事の一番最初に書いた標本誤差の話です。標本平均の標準偏差のこと標準誤差とよびます。

標本の大きさ(サンプルサイズ)n=2であれば、

  • 標本平均の平均値は、(X1+X2)/ 2
  • 標本平均の標準偏差は、σ/√2

ですね。

2つの標本の平均値は、2で割れば計算できますから、先ほどの例と同じように、正規分布 N(100,42)から2個のデータを抜きとるのであれば、

  • 標本平均の平均値 200 / 2=100

となります。

標本平均の標準偏差は、σ / √2 で計算しますが、これは、√(σ2 / 2 ) と同じことです。

  • 標準偏差を√2 で割って計算するか
  • 分散を2で割って出た値の√ を計算するか

の違いで、同じ値になります。先ほどの例と同じように、正規分布 N(100,42)から2個の標本を抜きとるのであれば、次のようになります。

標準偏差を√2 で割って計算する

標準偏差が4 で、標本は2個ですから、2個の標本平均の標準偏差は、

  • 4 ÷ √2 = 2.828

となります。

分散を2で割って出た値の√ を計算する

  • 2個の標本平均の分散は、16 / 2 = 8
  • 2個の標本平均の標準偏差 √8 = 2.828

と、ひとつ上の計算の結果と同じになりましたね。

N(100,42)から抜き取ったn=2の標本平均値の分布は、

  • μ=100
  • σ=2.828

となります。

さらに標本の大きさnを大きくすると

標本の大きさ(標本として抜き取るデータ個数)を大きくしていくと、

n=3とすると、

  • 標本平均値は、μ
  • 標本平均値の標準偏差は、σ/√3

n=4とすると、

  • 標本平均値は、μ
  • 標本平均値の標準偏差は、σ/√4

で計算することができます。

N(μ,σ2)からn個のデータを抜きとったとき、

  • 標本の平均値は、(X1+X2)/ 2
  • 標本の平均値の分散は、σ2/n
  • 標本の平均値の標準偏差は、σ/√n

ここから言えることは、標本サイズを大きくする、つまり標本として抜きとるデータ個数nを増やすほど、標本平均値のばらつきが小さくなっていくのです。これが標本誤差の特徴です。

中央極限定理

そして、標本の大きさnを大きくしていたっとき、

確率変数X の和 (X1+X2+X3…X

また

確率変数Xの平均(X1+X2+X3…X)/ n

ともに、正規分布になると考えてよいのです。

X1+X2+X3…Xがそれぞれ独立、平均値をμ、分散をσ2とします。このとき、母集団がどのような分布であっても、標本の大きさが大きければ(抜きとるデータ個数nが大きければ)、標本平均の確率分布は平均値μ、分散σ2/nの正規分布で近似されるようになります。

これを「中心極限定理」といいます。

ここで重要なのは、母集団が正規分布をしていなくても、標本の平均値は正規分布をするということです。正規分布の理論を用いて推計したり、検定したりできるようになります。