ヒストグラム(QC7つ道具)の用語と作り方

シェアする

ヒストグラムとは、データを度数分布表にまとめ、この度数分布表を柱状図として表示したものです。 度数分布表とは、観測されたデータの値の範囲をいくつかに区切り、その中に含まれたデータの数(度数)をまとめた表です。

ヒストグラムは、横軸に測定値、縦軸に区間の度数をとり、柱を立てた柱状図をつくります。

ヒストグラムの作り方

とあるメーカーでの製品重量に関する話です。製品の重量を計測すると、次のような120個のデータが得られました。

105、115、107、105、110、105、117、103、117、116、110、119、 120、109、112、118、121、107、109、112、114、115、115、99、 108、114、112、116、105、124、112、117、111、114、112、108、 102、112、105、115、96、105、111、104、107、107、111、121、 118、118、117、117、114、116、119、121、117、110、109、111、 113、116、110、117、115、118、109、109、111、109、105、102、 107、107、110、114、112、109、105、118、108、109、110、119、 105、115、113、113、111、122、111、116、109、110、111、107、 97、104、110、111、110、118、116、104、116、107、118、112、 112、112、116、113、108、115、118、116、114、116、104、112

※単位: g

・・・集まったデータを単なる数字の羅列のままで見ていても、なにがなんなのかさっぱりわかりません。 ヒストグラムを作成して、どのような分布をしているのか確認することにします。

ヒストグラムをつくる理由はここにあります。

ヒストグラムの用語

ヒストグラムをつくるにあたっては、まずデータを度数分布表にまとめるのですが、その前に、ヒストグラムの用語を理解しておきましょう。

データを分類するための区画を「階級」といいます。階級の柱の高さ(データ数量)のことを「度数」といいます。

☆ヒストグラムの用語

histgramyougo

ヒストグラの区間の(柱)の数は、少なすぎても、多すぎてもダメで、10個前後になるのがいいです。それぞれのデータを当てはまる区画(階級)にカウントしていきます。

区間の数を10個にするために、区間の幅を何gにしたらよいかは、

データの範囲 ÷ 区間の数 = 区間の幅

で計算できます。上記のあるメーカー製品の重量分布は、最大値が124、最小値が96で、範囲は28ですから、区間の数を10にするとしたら、

28 ÷ 10 = 2.8

になります。区画の幅を3としましょう

まず3gごとに区間を設定し、度数分布表を作成します。「99~102」とは「99以上~102未満」のことです。

dosuubunpuhyou2

単位:g

この度数分布表をそのままグラフにすれば・・・、

histgram2

ヒストグラムの完成です。データの分布がどうなっているか、パッと見て把握することができます。

ヒストグラムの区間(柱)の数

ヒストグラム区間(柱)の数は10前後がいいと書きました。それはなぜかというと、少なすぎる場合は、 ヒストグラム自体はすっきりするのですが、ヒストグラムから読み取れる情報が減ってしまいます。 逆に、区画の数が多すぎると、柱状が歯抜け型になってしまい、ヒストグラム全体の形がわかりづらくなります。

区画の数を5つにしてみると、図太い形のヒストグラムになってしまい、得られるデータ情報が少ないです。

histgram3

区画の数を1gごとにして28にしてみると、歯抜け型になってしまい、分布の形が読み取りづらくなってしまいました。

histgram4

もっと区画の数が少ないほうがいいでしょう。

ただし、区間の幅が1gでも、データ数をもっと増やせば、歯抜けもなくなり、きちんとした山型の分布が得られるはずです。

240個の製品を計測すると、下図のようになります。多少ガタガタはしていますが、歯抜けが減少して山の形が見えてきました。

※240個計測

histgram4-240ko

480個の製品を計測すると、きれいな山型になりました。

※480個計測

histgram4-480ko