パーセンタイルと四分位点、その計算方法について説明していきます。が、その前に中央値を理解しておきましょう。
中央値とは
中央値とは、データを小さなものから大きなものへと順番に並べたときに、ちょうど中央に位置するデータです。
たとえば、5個のデータがあったとしたら、小さいほうから(または大きいほうから)3番目のデータが中央値です。
パーセンタイル、分位点とは
この中央値の考え方を広げたものに「パーセンタイル」または「分位点」があります。
パーセンタイルと分位点は同じものです。データを小さいものから大きいものに並べて 1/100に区切ります。その分割する点は99の値になり、小さい方から、1%パーセンタイル、2%パーセンタイル、3%パーセンタイル・・・・といいます。30%の箇所にあるデータの値であれば、30パーセントタイルです。
英語では、Percentileです。
または、パーセンタイルを日本語でいうと分位点ですから、1%分位点、2%分位点、3%分位点・・・・30%分位点ともいいます。
四分位点とは
パーセンタイルでは、データを100分の1に分割したわけですが、分位点は4等分して考える方法がよく用いられます。これが「四分位点」です。「四分位数」ともいいます。
データを順番に並べて4等分したときに、その分割する点を四分位点といい、その数は3つになるはずです。
これをデータの小さい方から
- 第1四分位点(Q1)
- 第2四分位点(Q2)
- 第3四分位点(Q3)
とよびます。第1四分点をQ1の記号で表します。これは、四分位点を英語quartileといいまして、その頭文字ですね。
それぞれを%で表すと、
- 第1四分位点 ⇒ 25%分位点
- 第2四分位点 ⇒ 50%分位点
- 第3四分位点 ⇒ 75%分位点
となります。第2四分位点=50%分位点はつまり、中央値のことです。
あるいはこう考えてもいいでしょう。データを小さい方から数えて1/4の値が第1四分位点、2/4の値が第2四分位点(中央値)、3/4の値が第3四分位点です。
パーセンタイルの求め方
簡易的な計算方法
簡易的な計算方法として、まず中央値を計算し、その下半分の中央値を第1四分位、上半分の中央値を第3四分位とする方法があります。
データ数が奇数の場合
データ数が9個で奇数の場合の計算をしてみます。
102、104、101、98、99、105、97、94、101
この重量データを小さいものから順番に並べかえます。
94、97、98、99、101、101、102、104、105
まず第2四分位点つまり中央値の値を計算します。データ数が奇数の場合 『(n+1)/2』番目のデータが中央値です。
94、97、98、99、101、101、102、104、105
第2四分位点=101
中央値を除いた残りデータを下半分と上半分に分けます。
下半分・・・94、97、98、99
上半分・・・101、102、104、105
それぞれのなかでの中央値を計算します。データ数が偶数の場合 は、『n/2』番目と『(n/2)+1』番目のデータの平均をとる
下半分側の中での中央値が第1四分位点です。
(97+98)/ 2 = 97.5
上半分の中での中央値が第3四分位点です。
(102+104)/ 2 = 103
- 第1四分位点(Q1)=97.5
- 第2四分位点(Q2)=101
- 第3四分位点(Q3)=103
となります。
データ数が偶数の場合
データ数は、10個で偶数です。
102、104、101、98、99、105、97、94、101、100
この重量データを小さいものから順番に並べかえます。
94、97、98、99、100、101、101、102、104、105
まず第2四分位点つまり中央値の値を計算します。データ数が偶数の場合 は、『n/2』番目と『(n/2)+1』番目のデータの平均が中央値です。
94、97、98、99、100、101、101、102、104、105
第2四分位点=(100+101)/ 2
=100.5
全データを下半分と上半分に分けます。
下半分・・・94、97、98、99、100
上半分・・・101、101、102、104、105、
それぞれのなかでの中央値を計算します。データ数が奇数の場合 『(n+1)/2』番目のデータが中央値です。下半分は5個、上半分も5個ですから、
(5+1)/ 2 = 3
の計算で、5個のうち3個目の数値を選べばよいとわかりました。結果、
- 第1四分位点(Q1)=98
- 第2四分位点(Q2)=100.5
- 第3四分位点(Q3)=102
エクセルで計算する
エクセルでは、QUARTILE関数で計算することができます。QUARTILE関数厳密な計算方法であって、簡易的な四分位計算とは値が変わってきます。
=QUARTILE(データ範囲,戻り値)
で、戻り値は0~4の数値を入れまして、得られる数値は、次のようになっております。
- 0・・・最小値
- 1・・・第1四分位点
- 2・・・第2四分位点
- 3・・・第3四分位点
- 4・・・最大値
「=QUARTILE(データ範囲,1」と入力すれば、データの第1四分位点が表示されます。