記述統計学と推測統計学の違い




記述統計学と推測統計学。統計学を学び始めると見聞きする言葉で、統計学はこの2つに分類できます。記述統計学と推測統計学には、どんな違いがあるのでしょうか。

記述統計学は、得られたデータを要約し、わかりやすく表現する方法。

推測統計学は、得られたデータから、データを得た元の集団がどのようなものなのかを推測する方法です。

記述統計学

記述統計学とは、観測して得られた各データを整理したり要約したりする方法です。

観測を行うとたくさんのデータが得られます。室内で実験をしてデータを集めたり、または、街へ出て調査をしてデータを集めたりしますよね。観測とは、自然科学の分野では実験、社会科学の分野では調査のことです。

観測して得られたデータをひとまずエクセルなんぞに入力してみる。その時点ではそれはデータの羅列でしかありません。それをみて、この集団に関して何か説明してみろと言われても困ってしまいます。データの個数が多ければ多いほど、ようわからん事態になります。

データがどのようなことを示しているか、正しく、かつ効率的に読みたいものです。そのためには、表やグラフにしてみたり、平均値や標準偏差を計算してみたりするのです。

下記は、ヒストグラム(QC7つ道具)の用語と作り方の記事に書いた、とある製品の重量データです。

とあるメーカーでの製品重量に関する話です。製品の重量を計測すると、次のような240個のデータが得られました。

113、109、109、113、103、109、108、119、116、114、117、111、113、110、116、118、111、111、109、114、110、107、112、108、113、107、109、113、113、118、108、115、116、113、115、106、116、114、111、111、116、109、120、110、110、117、107、114、112、116、117、116、110、110、118、111、105、103、107、114、111、111、111、107、105、104、112、112、109、112、114、116、116、118、101、108、107、112、108、105、113、110、114、117、106、113、116、101、96、115、113、110、107、127、123、106、124、110、103、110、111、102、100、111、115、114、114、118、102、111、119、111、108、123、121、110、101、112、115、107、105、115、107、105、110、105、117、103、117、116、110、119、120、109、112、118、121、107、109、112、114、115、115、99、108、114、112、116、105、124、112、117、111、114、112、108、102、112、105、115、96、105、111、104、107、107、111、121、118、118、117、117、114、116、119、121、117、110、109、111、113、116、110、117、115、118、109、109、111、109、105、102、107、107、110、114、112、109、105、118、108、109、110、119、105、115、113、113、111、122、111、116、109、110、111、107、97、104、110、111、110、118、116、104、116、107、118、112、112、112、116、113、108、115、118、116、114、116、104、112

※単位: g

このデータをエクセルに入力してみます。

データを眺めているだけでは、この製品の重量がどのように分布しているのか、どんな特徴があるのか、さっぱりわかりません。これらを整理し、要約する方法として、度数分布表を作成してみます。

区画度数
~99g 3
99~102g 5
102~105g 13
105~108g 31
108~111g 46
111~114g 54
114~117g 47
117~120g 29
120~123g 7
123g~ 5

度数分布表をグラフにしたものが、ヒストグラムです。

どのような分布をしているのかがわかるようになりましたね。

それから、

  • 平均値は、111.7
  • 標準偏差は、5.4

です。この数値をみるだけでも、どんな分布をしているのかがわかります。

推測統計学

一方、推測統計学は、得られたデータの外への推論といえます。集めたデータは標本であるとき、それはあくまで母集団の一部でしかありません。

本来、私たちが知りたいのは、母集団の特徴です。そこで、標本から母集団のどのようなものなのかを推論します。母集団に対する推定、あるいは仮説検定です。それから将来の事象を予測するのもそうです。今得られたデータから将来を予測することになり、いずれも、得られたデータの外のことを考えるものです。

母集団とは調査対象全体のことで、そこからデータを得るために選び出した一部分を、標本あるいはサンプルといいます。通常、なにか調査をするときには、母集団すべてを調べることは不可能に近いことが多いです。

たとえば、テレビ番組の視聴率。日本全国の家庭でどんなテレビ番組が見られているかを調べているのではなく、一部の家庭でどんなテレビ番組が見られているかを調べてます。そこから視聴率を推定して、この番組は○○%の視聴率があると言っているわけです。

母集団の一部である標本を調べて、その結果から母集団を推測しているのです。

記述統計によって標本の特徴をつかみ、そこから母集団を推測していく。記述統計と推測統計はそういった関係もあります。