ダミー変数とは、「あるかなしか」、「ある状態をとるかとらないか」といったような、2つに1つとなる状況を、数値化して「1」か「0」かで表すことです。
もともと数字ではないデータを数字に変換できるわけです。
「アンケートで朝食は食べますか?」
と4人にアンケートをとったとします。
「はい」、「いいえ」の回答が得られました。
氏名 | 回答 |
斉藤 | はい |
西村 | いいえ |
田中 | いいえ |
木田 | はい |
これらの「はい」、「いいえ」の回答を、「1」、「0」をとるものとして扱います。
氏名 | はい | いいえ |
斉藤 | 1 | 0 |
西村 | 0 | 1 |
田中 | 0 | 1 |
木田 | 1 | 0 |
はい → 1、いいえ → 0
あり → 1、なし → 0
男 → 1、女 → 0
やる → 1、やらない → 0
などなど。
ダミーとして、「1」か「0」を用いるので、ダミー変数なのでしょう。「はい」、「いいえ」のままでは、データ分析に活用することができませんが、回答を「1」、「0」をとるものとし、(ダミーの)変数が存在しているかのようにすれば、機械的に計算をすることが可能となります。
主に、回帰分析をするときに用いられることが多いです。
質問のことをアイテム「はい」や「いいえ」など質問の答えをことをカテゴリーといいます。
データ分析をするときには、カテゴリー数から1 マイナスした数のダミー変数を使用します。上記の表でいえば、「いいえ」の列の「0,1,1,0」 のデータは使いません。「はい」の列 0,1,1,0 のデータがあれば、「いいえ」の列のデータもわかることですから不要となるのです。