分析前にデータのクリーニングをしよう

シェアする

データ分析を行うときには、当然のことながらデータが必要になります。データを取集したあとには、統計分析専用のソフトやオフィスソフトのエクセルなどにデータを入力することになります。

現代では、紙に数字を書き、電卓で計算をしてなどと行うことはしませんよね。コンピュータを活用して、統計分析を行っていきます。

  • データに欠損がある
  • 異常値が含まれている
  • 重複データがある

といった点がないか確認します。そのポイントについてお伝えします。

データに欠測がある

その箇所にもともとデータがなかった データはあったのだが、入力時に入力をしそこなった あるいは入力しないことにした、入力すべきデータではなかった 「0」のデータを空欄に置き換えた

などです。対応は、その行を削除したり、全データの平均値を入れたりします。

異常値が含まれている

・入力間違い
人の身長のデータなのに1700cmというデータがあった場合、170cmと入力するつもりが、0をもう一つ足してしまった。

・あり得ない値
年齢のデータがマイナスになっているなど。これも入力間違いによるものであったり、たとえば、誕生日から現在の日付をマイナスする数式を設定したが、それが間違っていたなどです。

・想定していない値
たとえば、アンケート調査で、「1.そう思わない 2.あまり思わない 3.ややそう思う 4.そう思う」 といった項目から選択して、番号のデータを取得したときに、 「5」という数値があった場合などです。アンケートを答えた人が間違って回答したか、入力する段階で間違えたか、です。「有」か「無」なのに、「有り」とか「あり」がまざっている。

間違って入力された異常値だと思っても、実は正常なデータの場合もありえます。 体重が150kgというデータがあった場合、間違って入力されたのでは?と思ってしまうかもしれないですが、 相撲取りであれば、150kgの体重もふつうにありえる数値です。確認する必要があります。

チェック方法

まず、最小値、最大値を調べます。あり得ないような小さな数値、大きな数値がないかをチェックします。 統計ソフトであれ、エクセルであれ、最少値・最大値は簡単に算出できます。

また、アンケート調査で「1、2、3、4」の答えがあったとき、
1.まったく思わない
2.あまり思わない
3.ややそう思う
4.そう思う

とあった場合、下記のような結果が得られるはずです。

1 ・・・ 75人
2 ・・・ 121人
3 ・・・ 167人
4 ・・・ 134人

しかし、1~4の選択しかないのに、次のように5を選んだ人がいたらどうでしょう。

1 ・・・ 75人
2 ・・・ 121人
3 ・・・ 167人
4 ・・・ 131人
5 ・・・ 3人

5番目を選んだ3人は、間違えて選択しまったと考えられます。

エクセルであれば、IF関数を使用して、「この範囲に5以上の数字があったら、NGと表示する」 などの設定をすれば、間違いがあるかどうかチェックできます。

重複データがある

たとえば、アンケートのデータで1人1回の答えをもらったはずなのに、同じ人の答えが2行ある、 顧客データでIDを振っているのに、同じIDの顧客データが複数ある、 といったことです。

順番に並べてみたり、IDなどがそれぞれのIDの個数を表示してみます。普通であれば、すべてのIDが1個になりますが、あるIDが2個ある、といったように重複データがわかります。