基本的な検定の種類と使い分け方法をまとめてみた




基本的な検定の種類、使い方についてまとめてみました。まず目次を見ていただいて、その後、内容を見ていただいて、全体像をつかんでいただければと思います。

母集団の平均の検定

σ2が既知のとき

母分散 σ2 が既知のときには、母分散σ2 を用いて検定を行います。

$$z=\frac{\bar{x}-μ}{\sqrt{\sigma^2 /n}}$$

z検定量は、標準正規分布に従うことを利用して検定をします。

σ2が未知のとき(t検定)

母分散 σ2 が既知のときには、標本から得られた標準偏差s を用いて、スチューデントのt統計量をつかって検定を行います。

$$t=\frac{\bar{x}-μ}{\sqrt{s^2 /n}}$$

母集団の平均の検定には、両側検定、片側検定があります。

参考記事 両側検定と片側検定の違い

母集団の分散の検定

標本から得られた分散をσ2 、母分散をσ02として、

帰無仮説 H0:σ2 ≠ σ02

を設定して検定をします。

$$\chi^2=\frac{s^2 \times(n-1)}{\sigma^2}$$

\(\chi^2\) 検定量が、\(\chi^2\) 分布に従うことを利用して検定を行います。

s2(n-1)は、偏差平方和です。

偏差平方和 ÷(データ個数n-1) = 標本分散s2

ですから、

標本分散s2 ×(データ個数n-1)= 偏差平方和

となります。

参考記事 偏差平方和と分散、偏差積和と共分散

参考記事 母集団の分散や標準偏差の推定値を計算するときにn-1で割る理由

2つの集団の母分散の検定(F検定)

2つの集団があって、その2つの母分散が等しいかどうか検定します。等しければ、母分散の比=1 となるはずです。

1つ目の分散をσ12 、2つ目の分散をσ22とし、

  • 帰無仮説 H0:σ12 = σ22
  • 対立仮説 H0:σ12 ≠ σ22

と、2つの集団の等しいと仮説を立てるのです。

$$F=\frac{S_1^2}{S_2^2}$$

とし、F検定量はF分布に従うことを利用して検定を行います。母分散が等しいかとうかは、次の母集団の平均の差の検定に関わってきます。

s2 は標本の分散で、下記の式をつかって計算します。

$$\frac{\sum(x_i -\bar{x})^2}{n-1}$$

母集団の平均の差の検定(2標本検定)

2つの母集団があり、それぞれの標本の平均値に有意な差があるかどうかを検定するものです。

  • 2標本のデータに対応があるかないか
  • 母分散が未知か既知か
  • 母分散が等しいかどうか

によって、検定方法が変わります。

まず対応のあるデータのときの検定方法として、母分散が既知の場合と、未知の場合の方法を示します。

次に対応がないデータのときの検定方法を示します。母分散が既知が未知なのかによって検定方法が変わります。

母分散が未知で、t検定を行うためには、2つの集団の分散が等しいかどうかの確認をしないといけません。ひとつ上に書いたF検定によって、分散に有意な差があるのかどうか調べ、有意な差が認められないのであれば分散は等しい、とします。分散が等しいかどうかによって、検定方法が変わります。

対応のあるデータの場合

10人の血圧を2つの時期にわけて測定して、違いを見てみるとしましょう。夏の時期、冬の時期で、10人の血圧を測定し、差を検定します。夏に測定した10人と同じ10人の血圧を、また冬に測定しました。

これは同じ人々の血圧を測定しているのですから、対応のあるデータとなります。同一被験者に対する時期を変えた観測の結果です。

夏と冬で血圧に差は無い、とするばらば、それぞれ個人の夏と冬のデータの差をみたら、0になると考えることができます。

0であるかどうかを検定し、0と言えず、有意な差があるかを調べます。

H:μ=0

を帰無仮説として、

母分散σ2 が既知の場合と、未知の場合で、それぞれ次のように検定をします。

母分散σ2 が既知

  • 各データの差の平均値
  • 母分散

を用いて検定量を算出します。母分散は測定をする前からわかっていることになります。

$$z=\frac{\bar{d}}{\sqrt{\sigma_d^2 /n}}$$

この検定量は、標準正規分布に従います。

dは、差を表す記号で、dの上にバーが付いて_ となっているのですから、これは各データの差の平均を表しています。10人それぞれの夏期の血圧から、冬期の血圧を引いて、差を出します。その個人個人の差を合計して10で割ったということです。

σ2は、各データの差の分散を表しています。

母分散σ2 が未知

母分散が未知の場合は、

  • 各データの差の平均値
  • 各データの差の分散

を用いて、検定をします。標本のデータから計算した分散s2を用いて、

$$t=\frac{\bar{d}}{\sqrt{s_d^2 /n}}$$

の統計量を算出します。この統計量はt分布に従うことを利用して検定を行います。

対応のないデータ

対応のないデータとは、上記の血圧の測定の例でいえば、男性10人、女性10人の2グループをつくり、各個人の血圧を測定し、男グループと女性グループの血圧に差があるかどうかを見るとなると、対応のないデータとなります。

それぞれのグループをAとBとして、

男性グル―プの平均を$\bar{x}_A$、分散を$\sigma_A ^2$、サンプルサイズを$n_A$

女性グル―プの平均を$\bar{x}_B$、分散を$\sigma_B ^2$、サンプルサイズを$n_B$

と表記しています。

母分散σ2が既知

母分散が既知の場合は、

$$z=\frac{\bar{x}_A-\bar{x}_B}{\sqrt{\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B}}}$$

の検定量を計算して、検定を行います。

母分散が未知

母分散が等しいかどうか検定をして、母分散が等しい場合は、2つの集団の母分散を合わせたものを用います。

母分散が等しい場合

σ1 = σ2  である場合は、分散を次の式で合併します。

$$s=\frac{\sum(x_{Ai}-\bar{x_A})^2 +\sum(x_{Bi}-\bar{x}_B)^2}{n_A +n_B -2}$$

これをs として、

$$t=\frac{\bar{x}_A-\bar{x}_B}{s\times \sqrt{\frac{1}{n_A}+\frac{1}{n_B}}}$$

を用いてt検定をします。

母分散が等しくない場合

それぞれの標本の分散S2A、S2B をつかってt検定をします。

$$t=\frac{\bar{x}_A-\bar{x}_B}{\sqrt{\frac{s_A^2}{n_A}+\frac{s_B^2}{n_B}}}$$

χ2検定

χ2 検定には、適合度のχ2 検定、独立性のχ2 検定があります。

適合度のχ2検定

標本から得られたデータが、理論値や期待値に適合するかどうかを検証するものです。

実際に得られた観測度数をA1、A2、・・・Ai として、理論確率をpとしたら、

帰無仮説は、 H0:P(Ai)=pi

と立てて、観測値が理論値に適合していると言えるかどうかを調べます。そう言えないのであれば、ズレが生じているということです。

観測値をO、理論値をEとし、検定量は次の式で計算します。

$$\chi=\sum(O-E)^2/E$$

\(\chi^2\) 検定量が、\(\chi^2\) 分布に従うことを利用して、検定を行います。

独立性のχ2検定

分割表において、AのカテゴリーBのカテゴリーがあった場合に、AがBに依存していないかなど、独立であるかどうかを検定します。

魚を食べるかどうかと、健康かどうか、2つの属性について度数を集計した分割表です。

魚を食べる魚を食べない合計
健康20222
健康でない6814
合計261036

魚を食べることが健康につながらないのであれば、魚を食べることは健康に影響を与えておらず、魚を食べることと健康状態は独立していることになります。

実際に得られた結果を見て、魚を食べる人のほうが健康であるように思えます。実際には何も差が無いのに、偶然によって、この差が出てしまう確率を計算します。誤差によって多かれ少なかれ差はできるわけで、小さな誤差であればよくある話、大きな誤差になるほどあまり起こらない話になります。

差がなく、魚を食べる・食べないと、健康・健康でないは関係がなく独立しているのであれば、次のような期待値が考えられます。

健康な人は、合計22人いて、魚を食べる人の合計が26人、魚を食べない人が合計10人いるのですから、健康な人を26:10の比で分けます。

健康でない人も同じように考えると期待値が計算できます。

魚を食べる魚を食べない合計
健康15.886.1122
健康でない10.113.8814
合計261036 

このようになる。

これを期待値 Eとし、観測値を Oとして、次の式でχ2検定量を求めます。Oij は、i行目、j列のところにある観測値を示しています。Eij は、i行目、j列のところにある期待値を示しています。

$$\chi=\sum(O_{ij}-E_{ij})^2/E$$

\(\chi^2\) 検定量が、\(\chi^2\) 分布に従うことを利用して、検定を行います。

自由度がいくつなのかによって発生確率が変わりますから、自由度を確認しましょう。自由度は、行をr、列をcとすると、(r-1)(c-1)で計算できます。

(r-1)(c-1)

(2-1)(2-1)

= 1

2行×2列のクロス集計表では、自由度は1となります。

まとめ

検定方法には色々と種類が多いです。主なものだけでもまとめた一覧を見ると、全体像がつかめてよいかと思います。