外れ値と判定する方法と、外れ値の除去について

外れ値と異常値の違い、データの中にひそむ外れ値の対策について書きました。

このデータは外れ値であると判定する方法

極端に値が大きなデータ、または小さなデータがあったとき、「これは外れ値だろうから除去してしまえ」と分析者が主観で判断するわけにはいきません。

外れ値であると判断する方法としては、

  • スミルノフ・グラブス検定をつかう方法
  • 四分位範囲(IQR)を利用した方法

があります。

スミルノフ・グラブス検定

スミルノフ・グラブス検定は、極端に大きいまたは小さい値が外れ値であるかどうかを検定するものです。グラブスの検定ともいいます。

仮説として、

H0:その値は外れ値ではない

外れ値 - 平均値 / σ

の値を、有意水準5%で検定します。検定には、スミルノフ・グラブスの統計数値表を用います。

たとえば、n=20の場合であれば、2.557より大きな値となると、外れ値であると判断します。

四分位範囲(IQR)を利用

四分位範囲とは、四分位点をみたときに、第1四分位点から、第3四分位点の範囲を指しています。IQRとも呼ばれます。

データを順番に並べて4等分したときに、その分割する点が四分位点です。その数は3つになります。

これをデータの小さい方から

  • 第1四分位点(Q1)
  • 第2四分位点(Q2)
  • 第3四分位点(Q3)

とよびます。四分位範囲は、

第3四分位点(Q3) - 第1四分位点(Q1)

です。

参考:パーセンタイルと四分位点、記号Q、計算方法(簡易方法とエクセル)

参考:四分位範囲と四分位偏差の違い

これを利用して、

  • 「第3四分位数から四分位範囲×1.5倍を足した値」以上のデータ
  • 「第1四分位数から四分位範囲×1.5倍を引いた値」以下のデータ

を外れ値とするのです。

  • Q3+( IQR × 1.5 )
  • Q1-( IQR × 1.5 )

上位数%、下位数%を除去してしまい、そのうえで平均値を算出する方法があります。トリム平均です。

外れ値の対策

異常値であるかどうか考察する

他のデータからみて、極端に大きな値、または極端に小さな値が、外れ値です。これは上記の方法で判断します。

外れ値のなかで、測定をミスや、データの入力ミスなど、原因がわかっているものが異常値です。

極端に小さい値であるからといって、異常値とは限りません。発生原因をよく考察する必要があります。

測定ミス、入力ミスとわかるものは除外する

異常値があったら取り除かなければいけません。収集したデータのなかで「これは測定のミスだな」、「これは入力のミスだな」とはっきりとわかるのデータがあったら、除外してしまいましょう。

たとえば、身長測定をした記録のなかに、17505cmと記録があったときにはどうでしょうか。おそらく身長データ入力する際に入力ミスしてしまったことが考えられますよね。このように原因が特定できるもの、明らかに異常値だろうといえるものは、除外してしまって問題ありません。

平均値を計算することに関しては、データ全体に占める両端の割合が十分に小さいのであれば、外れ値を除去してしまうほうが望ましい場合もあります。判定で審査員が得点をつける競技では、最低点と最高得点を取り除いて、得点をまとめる方法が使われことがあります。

ただ、データ分析においても、いつでもトリム平均を使えばいいわけではありません。

有益な外れ値もあるのでなんでも除去すればよいわけではない

身長測定をして得られたデータのなかに、200cmのデータがひとつあったとしましょう。これは異常値となってしまうのでしょうか。たしかに、分布の中心からかなり離れていて、めったにお目にかからないものではありますが、ありえないものではありません。

外れ値だからといって、分析する際に除外してしまうのではなく、外れ値が発生した原因を考察すべきです。ひょっとしたら、なんらかの意味のあるデータなのかもしれません。

製薬会社での薬に関するデータで、副作用というのは外れ値ということになるでしょう。
これを除去してしまえば、副作用のないすばらしい薬ということになってしまいますが、
むしろ、その外れ値に関して、じっくりと分析する姿勢が必要です。

他のデータとは違った原因が働いているかもしれません。それを知ることで新たな発見もありえるのですから、なぜ外れ値となっているのか、調べたり考えたりする必要があります。