データには、量的データと質的データがああります。
量的データとは、数字で測ることのできるデータです。人の身長や体重のデータ、気温、1日の店舗の売上などは質的データとなります。
質的データとは、数字で測ることができず、足し算、引き算、掛け算、割り算ができないデータです。血液型、好きな俳優、商品の購入者が男・女どちらなのかのデータといったものです。
参考記事 データの種類。尺度(名義・順序・間隔・比率尺度)と質的・量的での分類
2つのデータの間にある関係を見るときは、2つのデータが量的データである場合、散布図を描いたり、相関係数を計算します。
質的データであるときは、分割表にまとめる方法をつかいます。分割表は、クロス表、あるいはクロス集計表とも呼ばれます。
分割表とは
分割表とは、とある変数を行におき、別の変数を列におき、その交わる箇所にそれが起こった数を記入し、集計する表です。
とあるお店である商品が男性に購入されたのか、女性に購入されたのかをまとめた分割表(クロス集計)は、どのようなものになるか見てみましょう。
購入者のデータを取ってみると、
1人目 男性 購入した
2人目 女性 購入した
3人目 女性 購入した
4人目 男性 購入しなかった
5人目 女性 購入した
6人目 女性 購入しなかった
・・・
こんなようにデータが得られました。
購入したのが男性なのか・女性なのか、というデータは質的データです。
購入した・購入しなかった、というのも数字で測るものではないので質的データです。
それを分割表にまとめると、
男性 | 女性 | 合計 | |
---|---|---|---|
購入した | 5 | 26 | 31 |
購入しなかった | 58 | 41 | 99 |
合計 | 63 | 67 | 130 |
となりました。
男性・女性の項目がある表の上部分を表頭といい、購入した・購入しなかったの項目がある側部分を表測といいいます。
【表側の項目数×表頭の項目数】分割表といい、この例であれば、2×2分割表です。
分割表の作り方
表頭に2項目、表側に2項目ですから、2×2分割表であり、4つに分割されたそれぞれの欄に、度数を記入していきます。度数とはそれが発生した数のことです。
男性で購入した人の数を、“男性”と“購入した”がクロスする欄に記入します。
男性で購入しなかった人の数を、“男性”と“購入した”がクロスする欄に記入します。
女性の場合も、同様です。
度数を記入すると、次のような表ができました。
男性 | 女性 | 合計 | |
---|---|---|---|
購入した | 5 | 26 | 31 |
購入しなかった | 58 | 41 | 99 |
合計 | 63 | 67 | 130 |
分割表の見方
この分割表は、
- 男性は、来店したのが全部で63人、そのうち5人が購入した
- 女性は、来店したのが全部で67人、そのうち26人が購入した
- 購入した人は、男性5人、女性26人で合計31人
- 購入しなかった人は、男性58人、女性41人で99人
- 購入した人としなかった人の合計数(=来店した人数)は、130人
- 来店した男性と女性の合計人数(=来店した人数)は、130人
このようなことを表しています。性別、購入したか否かの2つの軸でデータを分割しています。
分割表の活用
男性と女性によって、購入する・しないに差が生まれるのかを調べることができます。
もし、男性と女性とで、購入結果にまったく差がないのであれば、男性のなかでの購入者の割合と、女性のなかでの購入者の割合は同じになるはずです。それは、性別が購入には関連していないということです。
女性のほうが購入しやすい商品なのであれば、女性のなかでの購入者の割合は高くなり、男性のなかでの購入者割合とは差がでます。
このような性別と購入結果に関連性があるかどうかを検証するために、独立性の χ2 検定をつかいます。
性別が購入には関連しておらず、性別によって購入に差はない(独立している)という仮説を立てる。
そして、検定を行い、仮説が棄却できるかどうか。
棄却できたならば、性別と購入には関連があり、性別によって購入に差があると結論づけることができます。
分割表は、社会調査、アンケート調査などでは、よく用いられます。調査の項目が、質的データとなることが多いからです。