「ガーベッジ・イン、ガーベッジ・アウト」
「ゴミを入れれば、ゴミが出てくる」
このようなデータ分析に関連した格言があります。英語では、garbage in, garbage out. で、GIGO と略されることもあります。
もとはコンピューターに関する言葉で、コンピュータープログラムのロジックに一切の間違いがなく、それが正しいものであったとしても、そこへ入力するデータが間違っていたら、出力される結果も間違ったものになる、という意味です。出力の質は、入力の質によります。
データ分析においても同じことがいえるでしょう。
「ゴミのようなデータを入力すれば、ゴミのような結果しか出てこない」
「ガラクタのようなデータしかなければ、結果もガラクタのようなものだ」
統計学のバイアス(偏り)の意味の記事に書いたように、データに大きなバイアスが生じると、分析結果は正常なものではなくなってしまいます。
- 調査対象に選ばれたものと選ばれなかったもので、大きな違いがあるときに発生する「選択バイアス」
- 調査対象者が正直に答えにくいことは、過小、あるいは過大に答えてしまうなど、観測方法によって生じる「情報バイアス」
といったバイアスがあります。
データの分析をしていると、
データ分析の結果を見るとどうもおかしい…。調べてみると入力データに間違いがあった。
ということがあります。
あとから、そのゴミデータを探したり、処理をしたりするのは大変です。
ゴミデータを集めてしまわないためには、データを収集し分析をする前に、どんなデータをどうやって集めるか、そもそもデータを分析する目的はなにで、その目的を達成する最適なやり方はどのようなものなのかを、まずじっくりと考えるべきなのですね。
このような示唆に富んだガーベッジ・イン、ガーベッジ・アウトの言葉は、頭の隅でもよいので入れておくべきでしょう。