調査数を増やすと誤差が減りにくくなっていく

シェアする

誤差は1/√nで小さくなる

視聴率調査の記事に書いたように、調査をするときには、標本抽出したデータ数が少ないほど誤差は大きくなり、データ数が多いほど誤差は小さくなるのが原則です。

テレビの視聴率調査では、日本全国の家庭の全てを調べるのでなく、一部の家庭でどんな番組が見られているのかを調査し、その数値から全国の家庭の視聴率を推定しています。当然ながら、標本の調査結果の視聴率と実際の日本全国の視聴率には誤差が発生します。

調査結果から得られた視聴率の95%の信頼区間は、

標本の平均値±1.96×√(p×(1-p)/n)

で計算することができます。

※母集団が有限母集団の場合、母集団のデータ数をN、標本のデータ数(標本サイズ)をnとして、1.96×√(p×(1-p)/n)に「(N-n)/(N-1)」を掛け算するのが正しいのですが、Nが大きく、それに比べてnが小さい場合は、 (N-n)/(N-1)≒1となるので、省略してもほとんど変わりません。ここでは省略します。

例えば、600世帯の調査を行って、ある番組の視聴率が20%という結果が得られたとしたら、

1.96×√(0.2×(1-0.2)/600)ですから、0.032なります。つまり、日本全国の視聴率は、95%の確率で20%から±3.2%の範囲に収まることになります。

標本数を増やしていくと誤差が小さくなるのは、式を見てもわかるように、1/√n分だけ小さくなります。

標本数を2倍に増やしたら、誤差範囲も2倍分減少するのかなと思いきや、√2倍分減少するのです。標本数を3倍に増やしたら、誤差範囲は√3倍分減少します。

n=2になれば、1/1.4に
n=4になれば、1/2に
n=100になれば、1/10に

誤差は小さくなります。

標本比率が20%の場合で話を進めていきます。標本比率20%の95%信頼区間を表にしました。

gosaheriguai-hyou

標本数が増えていくほど、誤差の減り具合が減っていきます。たとえば、 95%信頼区間の誤差は、標本数n=2では55.4%もありますが、n=30になると14.3%にぐっと減少します。

さらにn=100に増やすと、7.8%に減少します。 n=400~600にかけては、標本数を増やしても減少が緩くなってくることがグラフをみるとよくわかります。

n 1~1,000

gosaheriguai-gurafu1
さらにnを1~10,000まで表示するとこのようになります。

gosaheriguai-gurafu2

nを10から100に増やすと、誤差は24.8%から7.8%になりますから、14%分も減少したことになります。 しかし、nを3000から6000にした場合、nが3000増えたのにも関わらず、n=3000で誤差1.4%、n=6000で誤差1.0%ですから、 誤差の減り具合はたったの0.4%です。

統計調査での充分なnは3000などと言われています。n=100の調査では、誤差が大きく、n=600くらいにすれば誤差が許容できる範囲に落ち着いてはきますが、まだある程度の誤差があるといえばあります。しっかりとした統計調査では、さらに誤差が少なくなるまで標本数を増やし、これ以上nの数を増やしても、効果がほとんど出なくなってくるn=3000を目安にしているのでしょう。

標本サイズnを2倍にすると、誤差は1/√2になる

ある標本のデータ数nをある数から、nを2倍にすると、誤差は1/√2になります。 nを増やしてa倍数にすると、誤差は1√a倍となるのです。 調査・分析をするときに、2倍の量のデータを取れば、データの精度も2倍くらいよくだろうと考えてしまうかもしれませんが、それは間違いです。

上記のグラフで見たようにデータをとればとるだけ、誤差は無くなり精度は高まるには高まるのですが、 その精度は高まりづらくなっていくのです。標本をa倍にすると誤差は1/√aになるので、増やした分そのまま効果があるのではなく、√a分の効果しかないのです。

やみくもにたくさんデータを集めればいいわけではないことがわかります。

600人で誤差は3.2%でした。それを2倍の1200人に増やしてみましょう。1200人の場合、誤差は2.3%になります。

誤差が1/√2に小さくなっていることがわかります。

3.2%×(1/1.4)=2.3%

です。

600人から追加で5400人に頑張って調査、標本数を6000にすると、誤差が3.2%から1.0%へ、2.2%減少します。

そこから、同じくらい頑張って5400人に追加調査をしました。合計11400人の調査をするとどうなるか。6000人調査して誤差が1.0%だったところから、11400人では誤差が0.7%に減少します。同じように5400人追加して調査を実施したのですが、0.3%しか減少しませんでした。

データは必要な量だけを集める

このように、標本数を増やしていくほど、誤差が小さくなる効果が無くなっていきます。 とにかくデータの数を増やせば正確な調査結果が得られるのだ!と増やしてばかりいると、 労力の割に、誤差は小さくなっていかず、疲れてしまうだけです。

ほどよいところで、調査、データ収集を切り上げるようにします。必要以上にデータを集めないことです。 ほどよいところって、どこなのか?

データを集めて分析するのは、いうまでもなく分析自体が目的ではありません。分析の結果を見て、何かしらの判断や意思決定をしてアクションを起こすために、データを集めて分析するのです。

だとすると、調査結果の精度はやみくもに求める必要はなく、正しい判断をするのに必要なデータの精度を知り、そのデータの精度を出すのに必要な調査量を決め、その分だけ調査を実施すればいいのです。