言うまでもなく、データ分析をするときには、データを集めることになります。かんたんにデータをとることがで場合もあれば、ひとの身体をつかった作業によって1個ずつデータをとっていくこともあります。
とくに後者のときにそうなのですが、何の目的もなくデータをとることはNGです。
「とりあえずデータをとって見てみようよ。何かわかるかもしれないし。」などと言ってデータをとり始めることは避けなくてはいけません。
簡単に取得できたり、自動で取得できるデータであればいいのですが、データをとる作業はやはり時間、労力がかかる大変なことが多いです。
- 分析の結果を○○意思決定に使うために、データをとる
- ○○の問題の原因を探るために、データをとる
など、目的がなければ、せっかく集めたデータを上手く活用できなかったりして、データをとった意味がなくなってしまうことがあります。
しかし実際は、何を目的としてデータをとるのか、データから何を得たいのかがはっきりせずにデータをとることが少なくないのです。そうすると、結局まともにデータが活用されず、データを集める時間だけがかかった、意味がなかった・・・となるのがオチです。
データを集める前に、分析の目的をきちんと言語化してみることです。もし、上手く言語化できない、何にどうやってつかって役立てるのかを説明できないのであれば、そもそも分析をする必要がないかもしれません。
メーカーでの仕事の話です。
ある製品の重量とサイズを手作業で計測しデータ集めるように依頼されたことがありました。
時間をかけて取得したデータをさらにエクセルに時間をかけて入力、依頼者に結果を報告しましたが、とくにデータは活用されず、話もうやむやになったことがありました。もともと集めたデータをどうしたいのか決めていなかったので、そうなってしまったのです。
とりあえずはデータを集めてみて、それから何ができるか考えようという流れは間違っています。目的を先に考えるには、仮説をたてることが必要です。結果はどうなるかわからないのですから、仮説、となるのですね。
- もしかしたらこういった主張できるのではないか
- それを根拠をもって集めるには、こういうデータが必要だ
- だからデータを集めよう
とか、
- この問題の原因はここだと思う
- その根拠となるデータ、数字が必要だ
- だからデータを集めよう
といった流れが正しいです。
得られたデータが仮説を証明できるようなものだったら、自分が事前に立てた仮説が結論になります。得られたデータが仮説をうまく説明できないようなものであったら、それは仮説が間違っていたことになります。
間違ったら意味がないじゃないか、と思うかもしれませんが、ただやみくもにデータを集めてそこから「何か出てこないかな」というやり方のほうが、答えに辿りつくまでに時間がかかってしまいます。
それに、仮説が間違っていたことがわかった、これにも意味があります。次の一歩を進めることができるわけです。
仮説の精度が上がれば、立てた仮説を検証するためにデータをとるほうが、早く答えにたどりつけます。何度もこういったことを行っているうちに仮説の精度も上がってくるでしょう。
データをどのように活用するのか、データを集める前にはっきりと決めておくべきです。もちろんデータをとって分析をしている最中に、当初の予定どおりでなくなることはあるでしょうが、そうなったら変更をすればよいのです。