基本的な検定の種類と使い分け方法をまとめてみた

基本的な検定の種類、使い方についてまとめてみました。まず目次を見ていただいて、その後、内容を見ていただいて、全体像をつかんでいただければと思います。

母集団の平均の検定

σ²が既知のとき

母分散 σ² が既知のときには、母分散σ² を用いて検定を行います。

$$z=\frac{\bar{x}-μ}{\sqrt{\sigma^2 /n}}$$

ｚ検定量は、標準正規分布に従うことを利用して検定をします。

σ²が未知のとき（ｔ検定）

母分散 σ²が既知のときには、標本から得られた標準偏差ｓを用いて、スチューデントのｔ統計量をつかって検定を行います。

$$t=\frac{\bar{x}-μ}{\sqrt{s^2 /n}}$$

母集団の平均の検定には、両側検定、片側検定があります。

参考記事　両側検定と片側検定の違い

母集団の分散の検定

標本から得られた分散をσ² 、母分散をσ₀²として、

帰無仮説 H₀：σ² ≠ σ₀²

を設定して検定をします。

$$\chi^2=\frac{s^2 \times(n-1)}{\sigma^2}$$

$\chi^2$ 検定量が、$\chi^2$ 分布に従うことを利用して検定を行います。

s²（ｎ－1）は、偏差平方和です。

偏差平方和 ÷（データ個数ｎ－1）＝標本分散ｓ²

ですから、

標本分散ｓ² ×（データ個数ｎ－1）＝偏差平方和

となります。

参考記事　偏差平方和と分散、偏差積和と共分散

参考記事　母集団の分散や標準偏差の推定値を計算するときにｎ-1で割る理由

2つの集団の母分散の検定（F検定）

2つの集団があって、その2つの母分散が等しいかどうか検定します。等しければ、母分散の比＝1 となるはずです。

1つ目の分散をσ₁²、2つ目の分散をσ₂²とし、

帰無仮説 H₀：σ₁²＝ σ₂²
対立仮説 H₀：σ₁²≠ σ₂²

と、2つの集団の等しいと仮説を立てるのです。

$$F=\frac{S_1^2}{S_2^2}$$

とし、Ｆ検定量はF分布に従うことを利用して検定を行います。母分散が等しいかとうかは、次の母集団の平均の差の検定に関わってきます。

s² は標本の分散で、下記の式をつかって計算します。

$$\frac{\sum(x_i -\bar{x})^2}{n-1}$$

母集団の平均の差の検定（2標本検定）

2つの母集団があり、それぞれの標本の平均値に有意な差があるかどうかを検定するものです。

2標本のデータに対応があるかないか
母分散が未知か既知か
母分散が等しいかどうか

によって、検定方法が変わります。

まず対応のあるデータのときの検定方法として、母分散が既知の場合と、未知の場合の方法を示します。

次に対応がないデータのときの検定方法を示します。母分散が既知が未知なのかによって検定方法が変わります。

母分散が未知で、ｔ検定を行うためには、2つの集団の分散が等しいかどうかの確認をしないといけません。ひとつ上に書いたＦ検定によって、分散に有意な差があるのかどうか調べ、有意な差が認められないのであれば分散は等しい、とします。分散が等しいかどうかによって、検定方法が変わります。

対応のあるデータの場合

10人の血圧を2つの時期にわけて測定して、違いを見てみるとしましょう。夏の時期、冬の時期で、10人の血圧を測定し、差を検定します。夏に測定した10人と同じ10人の血圧を、また冬に測定しました。

これは同じ人々の血圧を測定しているのですから、対応のあるデータとなります。同一被験者に対する時期を変えた観測の結果です。

夏と冬で血圧に差は無い、とするばらば、それぞれ個人の夏と冬のデータの差をみたら、0になると考えることができます。

0であるかどうかを検定し、0と言えず、有意な差があるかを調べます。

Ｈ：μ＝0

を帰無仮説として、

母分散σ² が既知の場合と、未知の場合で、それぞれ次のように検定をします。

母分散σ² が既知

各データの差の平均値
母分散

を用いて検定量を算出します。母分散は測定をする前からわかっていることになります。

$$z=\frac{\bar{d}}{\sqrt{\sigma_d^2 /n}}$$

この検定量は、標準正規分布に従います。

ｄは、差を表す記号で、ｄの上にバーが付いてｄ＿となっているのですから、これは各データの差の平均を表しています。10人それぞれの夏期の血圧から、冬期の血圧を引いて、差を出します。その個人個人の差を合計して10で割ったということです。

σ_ｄ²は、各データの差の分散を表しています。

母分散σ² が未知

母分散が未知の場合は、

各データの差の平均値
各データの差の分散

を用いて、検定をします。標本のデータから計算した分散ｓ²を用いて、

$$t=\frac{\bar{d}}{\sqrt{s_d^2 /n}}$$

の統計量を算出します。この統計量はｔ分布に従うことを利用して検定を行います。

対応のないデータ

対応のないデータとは、上記の血圧の測定の例でいえば、男性10人、女性10人の2グループをつくり、各個人の血圧を測定し、男グループと女性グループの血圧に差があるかどうかを見るとなると、対応のないデータとなります。

それぞれのグループをＡとＢとして、

男性グル―プの平均を$\bar{x}_A$、分散を$\sigma_A ^2$、サンプルサイズを$n_A$

女性グル―プの平均を$\bar{x}_B$、分散を$\sigma_B ^2$、サンプルサイズを$n_B$

と表記しています。

母分散σ² が既知

母分散が既知の場合は、

$$z=\frac{\bar{x}_A-\bar{x}_B}{\sqrt{\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B}}}$$

の検定量を計算して、検定を行います。

母分散が未知

母分散が等しいかどうか検定をして、母分散が等しい場合は、2つの集団の母分散を合わせたものを用います。

母分散が等しい場合

σ₁ ＝ σ₂ である場合は、分散を次の式で合併します。

$$s=\frac{\sum(x_{Ai}-\bar{x_A})^2 +\sum(x_{Bi}-\bar{x}_B)^2}{n_A +n_B -2}$$

これをｓとして、

$$t=\frac{\bar{x}_A-\bar{x}_B}{s\times \sqrt{\frac{1}{n_A}+\frac{1}{n_B}}}$$

を用いてｔ検定をします。

母分散が等しくない場合

それぞれの標本の分散S²_A、S²_B をつかってｔ検定をします。

$$t=\frac{\bar{x}_A-\bar{x}_B}{\sqrt{\frac{s_A^2}{n_A}+\frac{s_B^2}{n_B}}}$$

χ²検定

χ² 検定には、適合度のχ² 検定、独立性のχ² 検定があります。

適合度のχ²検定

標本から得られたデータが、理論値や期待値に適合するかどうかを検証するものです。

実際に得られた観測度数をＡ₁、Ａ₂、・・・Ａ_i として、理論確率をｐとしたら、

帰無仮説は、 H₀：P（Ａ_i）＝ｐ_i

と立てて、観測値が理論値に適合していると言えるかどうかを調べます。そう言えないのであれば、ズレが生じているということです。

観測値をＯ、理論値をＥとし、検定量は次の式で計算します。

$$\chi=\sum(O-E)^2/E$$

$\chi^2$ 検定量が、$\chi^2$ 分布に従うことを利用して、検定を行います。

独立性のχ²検定

分割表において、AのカテゴリーBのカテゴリーがあった場合に、AがBに依存していないかなど、独立であるかどうかを検定します。

魚を食べるかどうかと、健康かどうか、2つの属性について度数を集計した分割表です。

	魚を食べる	魚を食べない	合計
健康	20	2	22
健康でない	6	8	14
合計	26	10	36

魚を食べることが健康につながらないのであれば、魚を食べることは健康に影響を与えておらず、魚を食べることと健康状態は独立していることになります。

実際に得られた結果を見て、魚を食べる人のほうが健康であるように思えます。実際には何も差が無いのに、偶然によって、この差が出てしまう確率を計算します。誤差によって多かれ少なかれ差はできるわけで、小さな誤差であればよくある話、大きな誤差になるほどあまり起こらない話になります。

差がなく、魚を食べる・食べないと、健康・健康でないは関係がなく独立しているのであれば、次のような期待値が考えられます。

健康な人は、合計22人いて、魚を食べる人の合計が26人、魚を食べない人が合計10人いるのですから、健康な人を26：10の比で分けます。

健康でない人も同じように考えると期待値が計算できます。

	魚を食べる	魚を食べない	合計
健康	15.88	6.11	22
健康でない	10.11	3.88	14
合計	26	10	36

このようになる。

これを期待値 Eとし、観測値を Oとして、次の式でχ²検定量を求めます。O_ijは、ｉ行目、ｊ列のところにある観測値を示しています。E_ijは、ｉ行目、ｊ列のところにある期待値を示しています。

$$\chi=\sum(O_{ij}-E_{ij})^2/E$$

$\chi^2$ 検定量が、$\chi^2$ 分布に従うことを利用して、検定を行います。

自由度がいくつなのかによって発生確率が変わりますから、自由度を確認しましょう。自由度は、行をｒ、列をｃとすると、（ｒ－1）（ｃ－1）で計算できます。

（ｒ－1）（ｃ－1）

（2－1）（2－1）

＝ 1

2行×2列のクロス集計表では、自由度は1となります。

まとめ

検定方法には色々と種類が多いです。主なものだけでもまとめた一覧を見ると、全体像がつかめてよいかと思います。

母集団の平均の検定

σ2が既知のとき

σ2が未知のとき（ｔ検定）

母集団の分散の検定

2つの集団の母分散の検定（F検定）

母集団の平均の差の検定（2標本検定）

対応のあるデータの場合

母分散σ2 が既知

母分散σ2 が未知

対応のないデータ

母分散σ2 が既知

母分散が未知

母分散が等しい場合

母分散が等しくない場合

χ2検定

適合度のχ2検定

独立性のχ2検定

まとめ

σ²が既知のとき

σ²が未知のとき（ｔ検定）

母分散σ² が既知

母分散σ² が未知

母分散σ² が既知

χ²検定

適合度のχ²検定

独立性のχ²検定