符号検定とは、勝ちと負け、表と裏といった2つの相反する性質のものが、50%の割合であるかどうか、あるいは、そうではなく違いがあるかどうかを判定する検定です。
2つの相反するものに、+記号と、-記号をつけて、その数から判定をしてきます。
この記事では、符号検定がどのような検定なのか、またその検定方法について紹介します。
符号検定はどのような検定か、例をあげて説明
2つの相反するものに、+記号と、-記号をつけて、その数から違いがあるかを判定
「果物のリンゴとナシは、どちらが好きですか?」
とアンケートをとるとします。仮にリンゴとナシの人気に優劣がなければ、リンゴが好きな人50%、ナシが好きな人50%くらいになりそうですよね。
実際にアンケートをとってみると、
- 70%の人がリンゴが好き
- 30%の人がナシが好き
という結果が得られました。ここから、「リンゴのほうが人気がある」と判定できるのでしょうか?
すぐに判定できるものでもありません。
アンケート対象者の人数、そのうちリンゴ好きであった人数がどのくらいなのかにもよりますが、少しのリンゴが好きな人が多かったくらいでは、「リンゴのほうが人気がある」と判定はできません。
ではどうするか?
それを判定できる方法として、符号検定があります。
符号検定によって、この「リンゴが好きな人70%」と「ナシが好きな人30%」が偶然に生まれた結果なのかどうかを判定することができるのです。
相反するものだけでなくて、計量値データにも活用できる
また、勝ちと負け、表と裏、YESとNOといった相反する二択のものでなくて、計量値であっても符号検定を活用できます。
なんらかの基準値よりも大きいか小さいかで、+と-に符号化して、+と-の符号の数を使用して検定ができます。
計量値とは、連続的な値をとるもののことです。有る無しを数えるのではなくて、“量る”ものですね。長さや重さのデータ、所要時間のデータなどが、計量値です。
対応のあるデータにも活用できる
対応のあるデータについても符号検定を活用できます。
対応のあるデータとは、条件を変えて同じものを繰り返し測定したデータのことです。
たとえば、10人の学生を対象にしてある教育を1週間行った後、その同じ10人の学力に変化があったかどうかを調べたとします。
対象とする10人の学生は同じで、ある教育を行う前と行った後の違いを見ているので、これは対応したデータとなります。
10人それぞれの学力が上がったら“+”、下がったら“-”の記号をつけ、+の数、-の数をどのくらいなのかを見て判定していきます。
このように、+(プラス)、-(マイナス)の記号をつけて、その数から、優劣があるのかないのか、あるいは違いがあるのかないのかを判定するのが符号検定です。
では、次に符号検定のやり方について説明していきます。
符号検定のやり方
符号検定の流れ
符号検定の流れはつぎのとおりです。有意水準5%で検定を進めていきます。
- +(プラス)、-(マイナス)の記号をつける
- +、-記号で少ない方の数を選ぶ
- 符号検定表で有意水準5%のときの数値と比べる
- 差はあるのかないのか、判定を下す
こういった流れになります。
2つの相反する性質のものが、それぞれ50%ずつの割合で発生する仮説を立て、実際に発生した割合が、どのくらいの確率で起こることなのかを調べます。
もしも、その発生確率が5%以下であれば、2つの相反する性質のものは50%ずつの割合で発生するのではなくて差があるのだ、と判定します。
つまり、仮説を棄却します。
相撲の対戦成績を例としてやってみましょう。
20回の対戦の勝敗から、力量に差があるかを符号検定
力士Aが力士Bと、これまで20回対戦してきた結果は、13勝7敗です。この2人の強さは、差があると言えるのか、それとも同じと言えるのか。
同じ力量であるなら、10勝10敗、11勝9敗とか、そういった結果になるはずですが、力士Aの勝ちが多くて13勝となっていて、力士A が強いような気がする。
といっても、ほんとうは同じ力量なのに、たまたま多く勝てただけ…という可能性もありそう。
これが、20勝0敗といった結果であれば、力士Aが強いと文句なしで言えそうですが、13勝7敗では、どう判断したらよいでしょうか。
ここで活用できるのが、符号検定です。
力士Aの勝ちが +(プラス)で、負けが-(マイナス)であるとして、
- +のデータ個数は、n+
- -のデータ個数は、n-
- 合計のデータ個数は、n
と、あらわすことにします。すると、
- n+ = 13
- n- = 7
- n = 20
となります。
n+ とn- のどちらでもいいので、「少ない方の数」に着目します。
「少ない方の数」は7 です。この数字と、符号検定表なるものを活用して検定を行います。
符号検定表とは、n にたいして、「少ない方の数」がいくつであったら発生確率が有意水準以下となるか?がわかる一覧表です。
ここでは、有意水準1 %、5 %を記載しています。
符号検定表
n | 有意水準α=1% | 有意水準α=5% |
---|---|---|
10 | 0 | 1 |
11 | 0 | 1 |
12 | 1 | 2 |
13 | 1 | 2 |
14 | 1 | 2 |
15 | 2 | 3 |
16 | 2 | 3 |
17 | 2 | 4 |
18 | 3 | 4 |
19 | 3 | 4 |
20 | 3 | 5 |
1%、5%の有意水準で有意と言えるかどうか判断するための数字が一覧になっています。
「少ない方の符号の数」が、表の中の数字以下であれば、差があると判定します。
ここでは、有意水準を5%として見ていきます。
仮説検定をするときに、仮説を棄却するかどうかを判断するための基準です。
20回の相撲勝負をしてますから、n=20の行で、5%の発生確率となる数字を見ると、
5
と書かれています。
符号検定表 再掲
n | 有意水準α=1% | 有意水準α=5% |
---|---|---|
20 | 3 | 5 |
20回勝負のうち、13勝と7敗で、少ない方の数は、
7
ですね。
この少ない方の数 7 は、符号検定表の数値 5 よりも大きくなっています。
符号検定表の数字以下であれば差があるいえますが、それよりも大きな数字ですから、差があるとはいえません。強さは五分五分の域であり、たまたま力士Aと力士Bの勝敗に差が出ただけだろうと判定されたことになります。
では、20戦のうちどのくらい勝っていれば、符号検定で差があるといえるのでしょうか。
少ない方の数が5 以下であればいいのですから、15勝5敗の成績であれば、実力は五分五分ではなく、差があるだろうと判定することができます。
その場合、n=20の場合、15,5 といった具合に記載されています。
プラス+、マイナス-が無い場合(等しい・差が無い場合)
上記した相撲勝負の話では、基本的に勝ち負けがつくので、+か-のどちらかをつけることができます。
そんななかで、引き分けが合った場合はどうしたらようでしょうか。勝ち負けがつきませんから、+も-もつけることができません。
この場合は、
- 無いものとして無視する削除
- +とマイナスの数に比例して振り分ける
などの方法があります。
20 回の対戦で、力士A が13勝・6敗・1引き分け。その引き分けの勝負を無いものとして削除するのであれば、
- n+ 13
- n- = 6
- n = 19
として考えます。
まとめ
今回は、力士の勝負を例にして、符号検定を紹介しました。
符号検定とは、勝ちと負け、表と裏といった2つの相反する性質のものが、50%の割合であるか、違いがあるかどうかを判定する検定です。
2つの相反するものに、+記号と、-記号をつけ、その少ない方の記号の数が、符号検定表に記載された数値以下であれば、仮説を棄却し、2つのものには違いがあると判定をします。
符号検定をするときには、符号検定表を参考にしてください。
参考記事 符号検定表 有意水準1%、5%