ヒストグラムとは、データを度数分布表にまとめ、この度数分布表を柱状図として表示したものです。
度数分布表とは、観測されたデータの値の範囲をいくつかに区切り、その中に含まれたデータの数(度数)をまとめた表です。
ヒストグラムは、横軸に測定値、縦軸に区間の度数をとり、柱を立てた柱状図をつくります。
ヒストグラムの作り方
とあるメーカーでの製品重量に関する話です。製品の重量を計測すると、次のような240個のデータが得られました。
113、109、109、113、103、109、108、119、116、114、117、111、113、110、116、118、111、111、109、114、110、107、112、108、113、107、109、113、113、118、108、115、116、113、115、106、116、114、111、111、116、109、120、110、110、117、107、114、112、116、117、116、110、110、118、111、105、103、107、114、111、111、111、107、105、104、112、112、109、112、114、116、116、118、101、108、107、112、108、105、113、110、114、117、106、113、116、101、96、115、113、110、107、127、123、106、124、110、103、110、111、102、100、111、115、114、114、118、102、111、119、111、108、123、121、110、101、112、115、107、105、115、107、105、110、105、117、103、117、116、110、119、120、109、112、118、121、107、109、112、114、115、115、99、108、114、112、116、105、124、112、117、111、114、112、108、102、112、105、115、96、105、111、104、107、107、111、121、118、118、117、117、114、116、119、121、117、110、109、111、113、116、110、117、115、118、109、109、111、109、105、102、107、107、110、114、112、109、105、118、108、109、110、119、105、115、113、113、111、122、111、116、109、110、111、107、97、104、110、111、110、118、116、104、116、107、118、112、112、112、116、113、108、115、118、116、114、116、104、112
※単位: g
・・・集まったデータを単なる数字の羅列のままで見ていても、なにがなんなのかさっぱりわかりません。 ヒストグラムを作成して、どのような分布をしているのか確認することにします。
ヒストグラムをつくる理由はここにあります。
ヒストグラムの用語
ヒストグラムをつくるにあたっては、まずデータを度数分布表にまとめるのですが、その前に、ヒストグラムの用語を理解しておきましょう。
データを分類するための区画を「階級」といいます。階級の柱の高さのことを「度数」といいます。
度数とはデータ数量のことになります。
☆ヒストグラムの用語

ヒストグラの区間の(柱)の数は、少なすぎても、多すぎてもダメで、10個前後になるのがようどいいです。それぞれのデータを当てはまる区画(階級)にカウントしていきます。
区間の数を10個にするために、区間の幅を何gにしたらよいかは、
データの範囲 ÷ 区間の数 = 区間の幅
で計算できます。上記のあるメーカー製品の重量データは、最大値が124、最小値が96で、範囲は28ですから、区間の数を10にするとしたら、
28 ÷ 10 = 2.8
になります。区画の幅を3としましょう
まず3gごとに区間を設定し、度数分布表を作成します。「99~102」とは「99以上~102未満」のことです。
この度数分布表をそのままグラフにすれば・・・、
ヒストグラムの完成です。データの分布がどうなっているか、パッと見て把握することができます。
ヒストグラムの区間(柱)の数
ヒストグラム区間(柱)の数は10前後がちょうどよいと書きました。
それはなぜかというと、少なすぎる場合は、 ヒストグラム自体はすっきりするのですが、ヒストグラムから読み取れる情報が減ってしまいます。 逆に、区画の数が多すぎると、柱状が歯抜け型になってしまい、ヒストグラム全体の形がわかりづらくなります。
区間の数が少ないヒストグラム
区画の数を5つのヒストグラムを見てみましょう。図太い形のヒストグラムになってしまい、得られるデータ情報が少ないです。

区間の数が多いヒストグラム
区画の数を増やすと、歯抜け型になってしまうことがあります。すると、下のグラフのように、分布の形が読み取りづらくなってしいます。

度数(データ数量)が不足している階級(g)があって、歯抜け型になってしまうなら、もっと区画の数が少ないほうがいいでしょう。
ただし、階級の範囲が1gでも、データ数多ければ歯抜けもなくなり、きちんとした山型の分布が得られるはずです。
データの数を増やすと下図のようになります。多少ガタガタはしていますが、歯抜けが減少して山の形が見えてきました。

さらに製品を計測してデータ数を増やすと、きれいな山型になりました。

まとめ
以上、ヒストグラムの用語や作り方について説明しました。
- 観測されたデータの値の範囲をいくつかに区切り、その中に含まれたデータの数をまとめた表が、度数分布表
- データを度数分布表にまとめ、この度数分布表を柱状図として表示したものが、ヒストグラム
です。
ヒストグラムは色々な形をとるかと思いますが、その形からデータが得られた背景を読むことができます。
参考記事 ヒストグラムの見方。その形から背景を読む
エクセルで度数分布表を作るには、FREQUENCY 関数を使うことができます。
FREQUENCY 関数で度数を計算して、度数分布表としてまとめ、それを表にすればヒストグラムになります。下記の記事を参考にしてください。