分散を計算する関数VAR.PとVAR.Sの違い

エクセルで分散を計算する関数として、VAR.P とVAR.S の2つがあります。

両方とも分散を計算する関数なのですが、お尻についた「P」と「S」によって計算結果が変わってきます。

その違いについて説明していきます。

VAR.P とVAR.Sの違い

VAR.Pは、母集団の共分散を計算します。母集団のデータが100個あって、その100個をすべて得て、分散を求めるのであれば、こちらを使います。

VAR.Sは、母集団から抜き取った標本の分散を計算する場合につかいます。

母集団と標本の意味については、こちらの記事に書いています。

参照:母集団と標本の意味とその違い

エクセルでVAR.P/VAR.S 関数を使った分散の計算方法

VAR.S 関数を使う場合

VAR.S 関数をつかうのは、計算につかうデータが標本データの場合です。

他の記事で、共分散を計算するCOVARIENCE 関数について書いておりまして、そこで母集団と標本について説明していますので、引用します。

共分散の計算をするときに、母集団・標本の考え方について書いていますが、共分散を→分散として読み替えて、参考にしてください。

メーカーで、とある製品を毎日毎日つくり続けているとします。30個ぶん、この製品のサイズ・重量をはかって、それらの共分散を計算するときのことを考えてみましょう。

メーカは、この製品をずっとつくり続けてきており、これからもつくり続けます。

ある日、30個だけのサイズと重量をはかるといっても、その30個についてだけを知りたいのではありません。ずっとつくり続けている製品すべてのサイズ・重量について知りたいのです。

そのような調査対象全体のことを母集団といいます。

過去から未来にかけてのすべての製品が母集団となるでしょう。こういった、数は無限であると考えられる母集団は、無限母集団といいます。

製品30個は、その無限母集団から取り出した一部分であり、これが標本です。

母集団から取り出した一部分(この場合であれば30個)の分散を計算するなら、VAR.S をつかいます。

VAR.S の「S」は、sample(標本)の「S」で、英語で言うと母集団はpopulationです。VAR.P の「P」は population の「P」でしょう。

  • 標本のデータで計算するならVAR.S を使います。
  • 母集団全体のデータで計算するならVAR.P を使います。

標本のデータで分散を計算するときでも、私たちが知りたいのは母集団全体の分散です。標本のデータからそのまま分散を計算する場合に、問題点があります。

それは、母集団全体のデータをつかって計算した分散よりも、値が小さくなってしまいやすいことです。

そこで役立つのが、VAR.S 関数です。

VAR.P 関数で出した値よりも、VAR.S 関数で出した値のほうが大きくなります。(標本のデータで計算した分散は小さくなってしまいやすい。VAR.S 関数をつかうと値が大きくなって補正されます。)

標本のデータをつかってVAR.S 関数で分散を求めるということは、母集団の分散を推測するという意味あいになります。

こちらの記事で書いていますので、参考にしてください。

参考:母集団の標準偏差の不偏推定値を計算するときに√n-1で割る理由

VAR.P 関数を使う場合

一方で、VAR.P 関数をつかうのは、計算につかうデータが母集団全体のデータの場合です。

ある高校で学生300人分の身長・体重を測定したとします。この300人のデータの特性を知りたいという考えであれば、母集団が300人だということになります。

得られたデータが母集団全体のデータであるときには、VAR.P 関数をつかいます。

データ数が多ければ、PとS、どちらを使ってもいい

データ分析をする際には、母集団すべてのデータを集められることは少ないはずです。標本を集めて、母集団の特性を推定することが多くなるので、VAR.S 関数を選ぶ場面のほうが多いでしょう。

ですが、データが多いのであれば、結局どちらをつかってもよくなります。

なぜなら、データが多くなればなるほど、結果に差がほとんど出なくなるからです。

データの数が少ない場合

とある10人の身長と体重のデータがあります。この分散をVAR.P 関数、VAR.S 関数で計算してみましょう。

  • VAR.P → 33.61
  • VAR.S → 37.34

VAR.P のほうが小さな値、VAR.Sのほうが大きな値になりました。

この10人が標本で、母集団のデータの数がもっと多いとしたら、VAR.P 関数で算出した33.61 の値は、母集団全体のデータをつかって計算した分散よりも、小さい値になっているだろうと思われます。

そこで、VAR.S 関数で算出した37.34 の値は、補正されて大きな値になっており、こちらのほうが母集団全体の分散に近いだろうと推測できるのです。

データの数が多い場合

データ数を増やして100人の身長・体重データ(エクセルでランダムにつくったデータ)で計算すると、データ掲載は割愛しますが、

  • VAR.P → 37.99
  • VAR.S → 38.38

となりました。0.39の差しかありませんね。さらにデータが増えれば、ほとんど差がなくなっていきます。

VAR.P 関数とVAR.S 関数で計算結果の数値に違いはあるのですが、ほんのわずかな数値の違いなので、データ数が多い場合は、どちらをつかってもいいかと思います。

ただし、標本のデータ個数がほんとうに少ないときに、分散を計算する場合は、VAR.S 関数をつかったほうがよいです。

フォローする