世の中にあふれるデータにはさまざまな顔があります。
ナンバーであったり、人の名前であったり、%であったり、個数であったります。
これらの様々なデータについて、どんな種類があるか、どんな特徴があるのを理解しておきましょう。
そして、データ分析をするときには、得られるデータがどの種類のデータなのかを把握するようにしましょう。
なぜかというと、どんな種類のデータなのかによって分析方法が変わってくるからです。
この記事では、
- 尺度で分類する方法
- 質と量で分類する方法
で、データの種類や特徴について説明します。
尺度での分類(名義・順序・間隔・比率尺度の違い)
尺度とは、ものごとを評価したり判断したりする時の、ものさし、基準のことです。
尺度によってデータを次の4つに分類することができます。
- 名義尺度
- 順序尺度
- 間隔尺度
- 比率尺度
尺度水準は低い・高いという言い方をします。低い水準から、名義尺度⇒順序尺度⇒間隔尺度⇒比尺度の順で並んでいます。
名義尺度が一番低い水準、比尺度が一番高い水準。高い水準はそれより低い水準の性質を含むような形になっています。
1.名義尺度
名義尺度は、単に名称として使われているだけで、間隔や順位にも意味がないものです。
名称そのものを使用したり、分類するために整理番号を割り当てたもの。
たとえば、ユニフォーム背番号、電話番号、会員番号、都道府県につける番号などがありますね。
これらの数字には順位などの意味は無く、個別のデータを区別するためにつけている数字なので、名義尺度となります。
スポーツをする時には、「10番が○○のプレーをした」、「7番が○○のファウルをした」とユニフォームの番号で選手を判断し、記録も残されるでしょう。しかし、データとして見るとその番号自体には何も意味がないですよね。このような目盛りを名義尺度といいます。
2.順序尺度
順序尺度は、数値の間隔には意味がなく、数字の順位や順番のみが意味を持つ目盛りです。
文字通り順位や順番を割り当てたもの。1、2、3・・・と順番が付けられ、その順番は意味をもちます。
- 高校のクラス内でのテスト試験の順位
- クラス40人中で体育の授業で行われた持久走での順位
- あるアイドルグループの中での人気順
などは、1番目、2番目、3番目と順番がつけられますよね。
より上位のものに意味や価値のある数字が与えられます。それは小さな数字が上位になるときもあれば、逆に大きな数字が上位になることもあります。
順番には意味が生まれますが、その各順位の間隔には何も意味がありません。
高校のクラス内でテスト結果で競争をしているとしたら、着目するのは順位ですよね。1位なのか、2位なのか、3位なのかが問題なのであって、テストの得点は大差でも僅差でも、その差は順位に関係が無いわけです。
3.間隔尺度
間隔尺度は、数値の間隔に意味がある尺度です。 順位だけでなく、その間隔も定量化したものです。
ただし間隔は定量化されているのですが、その比率には意味がないです。
たとえば、温度「10℃」と「20℃」の違いは10の間隔があるというだけで、「20℃」は「10℃」の2倍熱いというこでは無いですね。
また「0℃」は数字は0ですが、温度が何もないということではないです。
このように数字の間隔に意味がありますが、数字の比率には意味がないものが間隔尺度です。
4.比率尺度
比率尺度は、間隔が定量化され、原点が設定され、比率にも意味があるものです。
たとえば、お金は0円は何もない状態であり、1円刻みで増えていくと、100円は10円の10倍、1000円は10円の100倍となり、比率にも意味が出てきます。
0円という原点にも意味がありますね。
比尺度は、上記した間隔尺度や順位尺度の性質も含んだものになっています。
以上、尺度で分類したデータの種類についての解説でした。次は、質と量の観点からデータを分類してみます。
質か量かでの分類(質的データ・量的データの違い)
データは、数字ではかることができるかという観点から、質的データと量的データに分けることができます。
1.質的データ
質的データとは、数字ではかることがでないデータです。足し算、引き算、掛け算、割り算の四則演算ができません。
- 男性なのか女性なのかという性別
- レストランのメニュー
- 今日の天気
などのデータは、そのままでは数値で表すことができないですよね。
あるいはアンケートデータもそうです。
ある商品を購入した人にたいして、「その商品の気にいったところ」を聞き、返ってきた「デザインがカッコよくてオシャレ」という意見。これは、そのままでは数字であらわすことのできないデータです。
5 段階評価のアンケートの結果も同じです。
- 「たいへん満足した」
- 「やや満足した」
- 「どちらでもない」
- 「あまり満足しなかった」
- 「満足しなかった」
これら1~2と2~3などの間隔は等しいとはいえず、そのままでは数字で推し量ることのできるものではありません。
無理やり間隔を等しいことにしてしまい、1 ~ 5 という数に数値化してしまうこともできますが…。無理やりになってしまいます。
2.量的データ
量的データは、直接数字ではかることができるデータです。
たとえば、
- 身長体重
- 店の売上金額も数値
などは、はかって数値で示すことがであり、量的データです。
まとめ
はかることができるかどうかで分類される「質的、量的」と、尺度で分類されるデータの種類である「名義尺度、順序尺度、間隔尺度、比率尺度」と合わせて考えると、
質的データは、
- 名義尺度
- 順序尺度
量的データは、
- 間隔尺度
- 比率尺度
と分類することができます。
統計分析をするにあたって、データがどのような種類なのかによって、分析手法が変わってきます。
これらの尺度などのこと踏まえて分析手法を選んだり考えたりする必要があるので、データの種類ついて把握・理解をしておきましょう。