ガーベッジ・イン、ガーベッジ・アウト




「ガーベッジ・イン、ガーベッジ・アウト」

「ゴミを入れれば、ゴミが出てくる」

このようなデータ分析に関連した格言があります。英語では、garbage in, garbage out. で、GIGO と略されることもあります。

もとはコンピューターに関する言葉で、コンピュータープログラムのロジックに一切の間違いがなく、それが正しいものであったとしても、そこへ入力するデータが間違っていたら、出力される結果も間違ったものになる、という意味です。出力の質は、入力の質によります。

データ分析においても同じことがいえるでしょう。

「ゴミのようなデータを入力すれば、ゴミのような結果しか出てこない」

「ガラクタのようなデータしかなければ、結果もガラクタのようなものだ」

統計学のバイアス(偏り)の意味の記事に書いたように、データに大きなバイアスが生じると、分析結果は正常なものではなくなってしまいます。

  • 調査対象に選ばれたものと選ばれなかったもので、大きな違いがあるときに発生する「選択バイアス」
  • 調査対象者が正直に答えにくいことは、過小、あるいは過大に答えてしまうなど、観測方法によって生じる「情報バイアス」

といったバイアスがあります。

データの分析をしていると、

データ分析の結果を見るとどうもおかしい…。調べてみると入力データに間違いがあった。

ということがあります。

あとから、そのゴミデータを探したり、処理をしたりするのは大変です。

ゴミデータを集めてしまわないためには、データを収集し分析をする前に、どんなデータをどうやって集めるか、そもそもデータを分析する目的はなにで、その目的を達成する最適なやり方はどのようなものなのかを、まずじっくりと考えるべきなのですね。

このような示唆に富んだガーベッジ・イン、ガーベッジ・アウトの言葉は、頭の隅でもよいので入れておくべきでしょう。