ガーベッジ・イン、ガーベッジ・アウト

シェアする

「ガーベッジ・イン、ガーベッジ・アウト」

「ゴミを入れれば、ゴミが出てくる」

このようなデータ分析に関連した格言があります。英語では、garbage in, garbage out. で、GIGO と略されることもあります。

もとはコンピューターに関する言葉で、コンピュータープログラムのロジックに一切の間違いがなく、それが正しいものであったとしても、そこへ入力するデータが間違っていたら、出力される結果も間違ったものになる、という意味です。出力の質は、入力の質によります。

データ分析においても同じことがいえるでしょう。

「ゴミのようなデータを入力すれば、ゴミのような結果しか出てこない」

「ガラクタのようなデータしかなければ、結果もガラクタのようなものだ」

統計学のバイアス(偏り)の意味の記事に書いたように、データに大きなバイアスが生じると、分析結果は正常なものではなくなってしまいます。

  • 調査対象に選ばれたものと選ばれなかったもので、大きな違いがあるときに発生する「選択バイアス」
  • 調査対象者が正直に答えにくいことは、過小、あるいは過大に答えてしまうなど、観測方法によって生じる「情報バイアス」

といったバイアスがあります。

データ分析の結果を見ると、どうもおかしい。調べてみると、入力データに間違いがあったということはあります。あとから、そのゴミデータを探したり、処理をしたりするのは大変です。データを収集し分析をする前に、どんなデータをどうやって集めるか、そもそもデータを分析する目的はなにで、その目的を達成する最適なやり方はどのようなものなのかをまずじっくりと考えるべきなのですね。

このような示唆に富んだガーベッジ・イン、ガーベッジ・アウトの言葉は、頭の隅でもよいので入れておくべきでしょう。