ダミー変数の意味

ダミー変数とは、「あるかなしか」、「ある状態をとるかとらないか」といったような、2つに1つとなる状況を、数値化して「1」か「0」かで表すことです。

もともと数字ではないデータを数字に変換できるわけです。

「アンケートで朝食は食べますか?」

と4人にアンケートをとったとします。

「はい」、「いいえ」の回答が得られました。

 氏名 回答
斉藤 はい
西村 いいえ
田中 いいえ
木田 はい

これらの「はい」、「いいえ」の回答を、「1」、「0」をとるものとして扱います。

 氏名 はい いいえ
斉藤 1 0
西村 0 1
田中 0 1
木田 1 0

はい → 1、いいえ → 0

あり → 1、なし → 0

男 → 1、女 → 0

やる → 1、やらない → 0

などなど。

ダミーとして、「1」か「0」を用いるので、ダミー変数なのでしょう。「はい」、「いいえ」のままでは、データ分析に活用することができませんが、回答を「1」、「0」をとるものとし、(ダミーの)変数が存在しているかのようにすれば、機械的に計算をすることが可能となります。

主に、回帰分析をするときに用いられることが多いです。

質問のことをアイテム「はい」や「いいえ」など質問の答えをことをカテゴリーといいます。

データ分析をするときには、カテゴリー数から1 マイナスした数のダミー変数を使用します。上記の表でいえば、「いいえ」の列 0,1,1,0 のデータは使いません。「はい」の列 0,1,1,0 のデータがあれば、「いいえ」の列のデータもわかることですから不要となるのです。