統計学をつかった予測は外れることがあるのか




統計学は、今あるデータを用いて、少ないデータでもとの調査対象の特性を推測したり、AかBどちらの案がよいのかを判断したり、将来がどうなるか計算したりします。これらは、推定、検定、予測ですね。

これらは、間違えることはあるのでしょうか。

それは「間違え」の定義によります。推定や予測の場合、この程度になるだろうと計算した値から、実際の結果が大きく外れることはありえます。検定であれば、A案とB案を比較してB案がよいと判断したのに、実はAもBも違いはなかった、なんて事態もありえます。

それらが間違いというのであれば、間違えることはあるといえそうです。

予測には範囲と%がある

予測をするときのことを考えてみます。ふつう「過去のデータから計算すると将来はこの値になりそうだ」と予測すると同時に、「○○%の確率でこの範囲の結果になるよね」と予測をします。違う捉え方をすると、100-○○%の確率で間違えます、と言及しているのです。

たとえば、メーカーでの製品出荷数の予測の話。ある商品の来月の出荷数を予測するときには、95%の確率で10万個±1万個になるだろう、といった具合で予測します。95%の確率で9万個~11万個の出荷数になるけれども、5%の確率で、その範囲以外になることがあるよ、と言っているわけです。外れることも加味したものなのです。

結果が予測範囲から外れても「間違えた」とはいえない

上に、予測値から実際の値が大きく外れることもありえる。それが間違いというのであれば、統計学をつかった予測に間違いはあるといえそうだ、と書きました。

でも、ここでの予測では、95%の確率で9万個~11万個の結果となり、5%の確率でそこから外れる、と言っています。ですから、もし実際の結果が、9万個~11万個から外れてしまっても、それは5%のことが起きたと説明できているわけで、予測が間違えたわけではないといえます。「間違えた」とはいえないでしょう。

5%は外れるということも含めての予測であるし、その予測内容をつかって意思決定および行動をするのであれば、5%の間違う可能性を受け入れての意思決定と行動ということになるでしょう。

これは、検定でも同じです。ビジネスでなにかの意思決定をするとき、たとえば、WEBサイトで商品を販売している会社で、あるページでA/Bテストをしたときのことを考えてみます。A/Bテストとは、AとBの2パターンのページをつくって、どちらのほうが高い成果を出せるのかをデータによって検証する方法のことです。

この結果、B案のページのほうがより高い成果を出すことができたと、検定によって判断したとしましょう。でも、実はA案とB案にとくに違いは無く、A案にしてもB案にしても変わりはないのに、テスト実施にだけ偶然そういう結果が出てしまった。なんてこともありえます。

仮説検定では、棄却率を設定します。棄却率とは、A案とB案の違いが偶然に発生したものなのか、それともなにか原因があって発生したものなのかを判断する基準の値です。

棄却率を5%で仮説検定をして、A案とB案の違いは偶然ではない、と判断したとします。その場合、5%の確率で判断を間違える可能性があります。

検定の結果を見て、なにか意思決定をするときには、実は同じなのに違いがあると判断を間違えてしまうことが20回中に1回はあるのです。

ビジネスの判断としては間違いになりますが、統計学的には間違ったというよりも、5%の確率ではそうなるよねと、言えるわけです。

予測をしたり、仮説検定を用いて意思決定をするなら、このことを受け入れたうえで、決断をしなくてはなりません。

統計学をつかわないと予測とはいえない

将来どうなるか?に対して答えを出すときに、統計学を“用いない”場合は、勘、感覚、経験といったもので、答えを出すことになります。

才覚があってするどい人なら当たるのかもしれませんね。しかしそれには再現性がありません。なぜ当たったのかもわからないし、他の人には同じことができません。

また、外れたときには、「外れちゃったね」でオシマイになってしまいます。勘や感覚、経験から出した答えが間違っていても、なにも議論できないでしょう。「お前が悪いんだ」と、その予測者を批判するだけで終わってしまいます。

これでは予測ではなく、予想です。予想には数字の裏付けがありません。

統計学をつかって不確かな将来に挑む

一方、統計学を用いた予測が外れたときには、予測をした人ではなくて、考え方を批判できます。

予測のためにつかった数式モデルのここがよくなかったのではないか、この手法ではなくてこっちの手法がよかったのではないかと、どうやって答えを出したのかの部分について議論ができます。それを次の分析、予測に活かすことができるのです。

不確かなものを判断するためにあります。将来がどうなるかわかっていれば、予測など不要です。将来がどうなるかわからないから、予測をし決断をし、行動をしていくわけですけれども、予測には範囲があって、実際の結果がそこから外れることもありえます。これを理解したうえで、予測を活用していくのです。