分析をする前にデータをとる目的をはっきりさせることが大事

言うまでもなく、データ分析をするときには、多かれ少なかれデータを集めることになります。かんたんにデータをとることがで場合もあれば、ひとの身体をつかった作業によって1個ずつデータをとっていくこともあります。

とくに後者のときにそうなのですが、何の目的もなくデータをとることは、基本的にNGです。「とりあえずデータをとって見てみようよ。何かわかるかもしれないし。」などと言ってデータをとり始めることは避けなくてはいけません。

簡単に取得できたり、自動で取得できるデータであればいいのですが、データをとる作業はやはり時間、労力がかかる大変なことが多いです。

・分析の結果を○○意思決定に使うために、データをとる
・○○の問題の原因を探るために、データをとる

など、こういった目的がなければ、せっかく集めたデータを上手く活用できなかったりして、データをとった意味がなくなってしまうことがあります。

しかし実際は、何を目的としてデータをとるのか、データから何を得たいのかがはっきりせずにデータをとることが少なくないのです。そうすると、結局まともにデータが活用されず、データを集める時間だけがかかった、意味がなかった・・・となるのがオチです。

メーカーでの仕事の話です。ある製品の重量とサイズを手作業で計測しデータ集めるように依頼されたことがありました。

時間をかけて取得したデータをさらにエクセルに時間をかけて入力しました。依頼者に結果を報告しましたが、とくにデータは活用されず、話もうやむやになったことがありました。もともと集めたデータをどうしたいのか決めていなかったので、そうなってしまったのです。

とりあえずはデータを集めてみて、それから何ができるか考えようという流れは間違っています。目的を先に考えるには、仮説をたてることが必要です。結果はどうなるかわからないのですから、仮説、となるのですね。

  • もしかしたらこういった主張できるのではないか
  • それを根拠をもって集めるには、こういうデータが必要だ
  • だからデータを集めよう

あるいは、

  • この問題の原因はここだと思う
  • はっきり言うためにはデータ、数字が必要だ
  • だからデータを集めよう

といった流れが正しいです。得られたデータが仮説を証明できるようなものだったら、自分が事前に立てた仮説が結論になります。得られたデータが仮説をうまく説明できないようなものであったら、それは仮説が間違っていたことになります。

間違ったら意味がないじゃないか、と思うかもしれませんが、ただやみくもにデータを集めてそこから「何か出てこないかな」というやり方のほうが、答えに辿りつくまでに時間がかかってしまいます。仮説を立ててからそれを検証するためにデータをとるほうが、早く答えにたどりつけます。何度もこういったことを行っているうちに仮説の精度も上がってきます。

データをどのように活用するのか、データを集める前にはっきりと決めておくべきです。もちろんデータをとって分析をしている最中に、当初の予定どおりでなくなることはあるでしょうが、そうなったら変更をすればよいのです。

フォローする