スタージェスの公式(ヒストグラムの階級数の決め方)

ヒストグラムの階級数を決めるときには、スタージェスの公式が参考になります。

ヒストグラム(QC7つ道具)の用語と作り方にヒストグラムの作り方を書きました。

度数分布表およびヒストグラムを作るときには、階級数、階級幅をどうするかが問題です。

階級数が少なすぎてグラフがドテッとしてもダメで、

逆に、階級数が多すぎて歯抜け型になってもいけない。

ヒストグラムの目的とは、得られたデータに関しての理解を手助けをすることであり、現象の背景にどういったことがあるか見ていきたいわけで、それにかなうグラフにしないといけませんよね。

設定に決まったルールはないですが、参考として

スタージェスの公式

があります。データ数をnとして、階級数をkとすると次の式となります。

k=1+log2n

64個のデータの場合、

k=1+log264

k=1+6

k=7

100個のデータの場合、

k=1+log2150

k=1+7.228

k≒8

となります。

データ数nと、スタージェスの公式で計算した階級数は下記のようになります。

データ数n 階級数
 10  4.3
 20  5.3
 30  5.9
 40  6.3
 50  6.6
 100  7.6
 200  8.6
 300  9.2
 400  9.6
 500 9.9
 1000 10.9

対数の計算は、手計算できるものは手計算で、難しくなってきたらエクセルのLOG関数が使えます。あるいは、関数電卓ですね。

※logについては、log(ログ)を使った対数の意味と表し方に簡単に書いています。

まあ、スタージェスの公式をつかって計算しなくても、いろいろ試してみて決めるもよいです。さほど時間もかかりませんから。

昔は手書きでグラフをつくっていたのでしょうから、まず正しい階級数をしっかり決めてからグラフをつくりださないと、後でやり直しになってしまい大変だったでしょう。現代は、コンピューターをつかってヒストグラムをつくれます。階級数を間違えたな、と思っても、すぐに作り直すことができますから、そうやって決めるのもよいでしょう。

フォローする