ヒストグラムの作り方と用語(階級や度数)の意味




ヒストグラムとは、データを度数分布表にまとめ、この度数分布表を柱状図として表示したものです。

度数分布表とは、観測されたデータの値の範囲をいくつかに区切り、その中に含まれたデータの数(度数)をまとめた表です。

ヒストグラムは、横軸に測定値、縦軸に区間の度数をとり、柱を立てた柱状図をつくります。

ヒストグラムの作り方

とあるメーカーでの製品重量に関する話です。製品の重量を計測すると、次のような240個のデータが得られました。

113、109、109、113、103、109、108、119、116、114、117、111、113、110、116、118、111、111、109、114、110、107、112、108、113、107、109、113、113、118、108、115、116、113、115、106、116、114、111、111、116、109、120、110、110、117、107、114、112、116、117、116、110、110、118、111、105、103、107、114、111、111、111、107、105、104、112、112、109、112、114、116、116、118、101、108、107、112、108、105、113、110、114、117、106、113、116、101、96、115、113、110、107、127、123、106、124、110、103、110、111、102、100、111、115、114、114、118、102、111、119、111、108、123、121、110、101、112、115、107、105、115、107、105、110、105、117、103、117、116、110、119、120、109、112、118、121、107、109、112、114、115、115、99、108、114、112、116、105、124、112、117、111、114、112、108、102、112、105、115、96、105、111、104、107、107、111、121、118、118、117、117、114、116、119、121、117、110、109、111、113、116、110、117、115、118、109、109、111、109、105、102、107、107、110、114、112、109、105、118、108、109、110、119、105、115、113、113、111、122、111、116、109、110、111、107、97、104、110、111、110、118、116、104、116、107、118、112、112、112、116、113、108、115、118、116、114、116、104、112

※単位: g

・・・集まったデータを単なる数字の羅列のままで見ていても、なにがなんなのかさっぱりわかりません。 ヒストグラムを作成して、どのような分布をしているのか確認することにします。

ヒストグラムをつくる理由はここにあります。

ヒストグラムの用語

ヒストグラムをつくるにあたっては、まずデータを度数分布表にまとめるのですが、その前に、ヒストグラムの用語を理解しておきましょう。

データを分類するための区画を「階級といいます。階級の柱の高さのことを「度数といいます。

度数とはデータ数量のことになります。

☆ヒストグラムの用語

histgramyougo

ヒストグラの区間の(柱)の数は、少なすぎても、多すぎてもダメで、10個前後になるのがようどいいです。それぞれのデータを当てはまる区画(階級)にカウントしていきます。

区間の数を10個にするために、区間の幅を何gにしたらよいかは、

データの範囲 ÷ 区間の数 = 区間の幅

で計算できます。上記のあるメーカー製品の重量データは、最大値が124、最小値が96で、範囲は28ですから、区間の数を10にするとしたら、

28 ÷ 10 = 2.8

になります。区画の幅を3としましょう

まず3gごとに区間を設定し、度数分布表を作成します。「99~102」とは「99以上~102未満」のことです。

dosuubunpuhyou2
単位:g

この度数分布表をそのままグラフにすれば・・・、

histgram2
※横軸が重量g、縦軸が度数

ヒストグラムの完成です。データの分布がどうなっているか、パッと見て把握することができます。

ヒストグラムの区間(柱)の数

ヒストグラム区間(柱)の数は10前後がちょうどよいと書きました。

それはなぜかというと、少なすぎる場合は、 ヒストグラム自体はすっきりするのですが、ヒストグラムから読み取れる情報が減ってしまいます。 逆に、区画の数が多すぎると、柱状が歯抜け型になってしまい、ヒストグラム全体の形がわかりづらくなります。

区間の数が少ないヒストグラム

区画の数を5つのヒストグラムを見てみましょう。図太い形のヒストグラムになってしまい、得られるデータ情報が少ないです。

histgram3

区間の数が多いヒストグラム

区画の数を増やすと、歯抜け型になってしまうことがあります。すると、下のグラフのように、分布の形が読み取りづらくなってしいます。

histgram4

度数(データ数量)が不足している階級(g)があって、歯抜け型になってしまうなら、もっと区画の数が少ないほうがいいでしょう。

ただし、階級の範囲が1gでも、データ数多ければ歯抜けもなくなり、きちんとした山型の分布が得られるはずです。

データの数を増やすと下図のようになります。多少ガタガタはしていますが、歯抜けが減少して山の形が見えてきました。

histgram4-240ko

さらに製品を計測してデータ数を増やすと、きれいな山型になりました。

histgram4-480ko

まとめ

以上、ヒストグラムの用語や作り方について説明しました。

  • 観測されたデータの値の範囲をいくつかに区切り、その中に含まれたデータの数をまとめた表が、度数分布表
  • データを度数分布表にまとめ、この度数分布表を柱状図として表示したものが、ヒストグラム

です。

ヒストグラムは色々な形をとるかと思いますが、その形からデータが得られた背景を読むことができます。

参考記事 ヒストグラムの見方。その形から背景を読む

エクセルで度数分布表を作るには、FREQUENCY 関数を使うことができます。

FREQUENCY 関数で度数を計算して、度数分布表としてまとめ、それを表にすればヒストグラムになります。下記の記事を参考にしてください。

参考記事 エクセルFREQUENCY 関数による度数の計算方法と度数分布表とヒストグラムの作り方