分布と度数分布表の書き方

シェアする

分布とは

ある事象が大小さまざまな大きさで発生することを「分布をする」といいます。それは、あるデータが様々な値をとるということです。

たとえば、

  • 成人女性は身長160cmの人もいれば、身長170cmの人もいます。これを「成人女性の身長は分布する」
  • 喫煙家が1日に吸うタバコの本数、5本の人もいれば、1ダース吸う人もいます。これを「喫煙家が1日に吸うタバコの本数は分布をする」

といいます。

データがどのようなものなのか、そのもののことを指すのであれば、

  • 「成人女性の身長の分布」
  • 「1日に吸うタバコの本数の分布」

です。

分布の表し方 度数分布表

データの値が並んだだけのものを見ても、そこから何かを見出すのは難しいです。ふつうは表やグラフにして、どのような分布なのかを見ます。 観測されたデータの最小値から最大値をいくつかに区切って、その区画の中にカウントされたものを度数、または頻度といいます(frequency)。度数や頻度のことを記号fで表し、変数xの度数を表すときには、f(x)と表されることもあります。

たとえばこんなようなデータがあるとしましょう。あるオニギリ屋さんで販売されているオニギリの値段です。種類は30種類あり、シンプルで安価なオニギリは100円、具材をふんだんに使ったオニギリは200円します。

100、100、110、115、120、120、130、130、135、135、135、140、150、150、150、150、150、155、155、155、160、160、170、170、170、175、190、200、200、200
※単位: 円

このデータを度数分布表にまとめてみましょう。まず100円から20円ごと区画をつくります。データを分類するための区画を「階級」といい、それぞれのデータを当てはまる階級にカウントしていきます。

dosuubunpuhyou1

度数には絶対度数と相対度数があります。絶対度数とは観測されたそのままの数です。単に度数という場合は、絶対度数のことを指しています。相対度数とは、全体の中での割合を示すもので、上記表で100円~120円未満の飲み物の相対度数は、30品中、4品ありますから0.13となります。

また、度数分布表に要約されたデータの分布状況をグラフにしたものをヒストグラムといいます。

(histogram:柱状分布)

histgram1

このように分布は表されます。