クロス集計表(分割表)の意味と作り方

データには、量的データと質的データがああります。

量的データとは、数字で測ることのできるデータです。人の身長や体重のデータ、気温、1日の店舗の売上などは質的データとなります。

質的データとは、数字で測ることができず、足し算、引き算、掛け算、割り算ができないデータです。血液型、好きな俳優、商品の購入者が男・女どちらなのかのデータといったものです。

データの種類。尺度での分類と、質的と量的での分類

2つのデータの間にある関係を見るときは、2つのデータが量的データである場合、散布図を描いたり、相関係数を計算します。

質的データであるときは、分割表にまとめる方法をつかいます。分割表は、クロス表、あるいはクロス集計表とも呼ばれます。

分割表の作り方

分割表とは

行にある変数、列にある変数をおき、かけ合わせた集計をします。その交わる箇所にそれが起こった数を記入します。

お店である商品が男性に購入されたのか、女性に購入されたのかをまとめたクロス集計では、次のように分割された表になります。

まず、

№1 男性 購入した

№2 女性 購入した

№3 女性 購入した

№4 男性 購入しなかった

№5 女性 購入した

№6 女性 購入しなかった

・・・

こんなようにデータが得られました。

購入したのが男性なのか・女性なのか、というデータは質的データです。

購入した・購入しなかった、というのも数字で測るものではないので質的データです。

それをクロス表にまとめると、

男性 女性 合計
購入した 5 26 31
購入しなかった 58 41 99
合計 63 67 130

となります。

男性・女性の項目がある表の上部分を表頭といい、購入した・購入しなかったの項目がある側部分を表測といいいます。

【表側の項目数×表頭の項目数】分割表といい、この例であれば、2×2分割表です。

分割表への記入

男性で購入した人の数を、“男性”と“購入した”がクロスする欄に記入します。表頭に2項目、表側に2項目ですから、2×2分割表であり、4つに分割されたそれぞれの欄に、度数を記入していきます。度数とはそれが発生した数のことです。

上記分割表は、

  • 男性は、来店したのが全部で63人、そのうち5人が購入した
  • 女性は、来店したのが全部で67人、そのうち26人が購入した
  • 購入した人は、男性5人、女性26人で合計31人
  • 購入しなかった人は、男性58人、女性41人で99人
  • 購入した人としなかった人の合計数(=来店した人数)は、130人
  • 来店した男性と女性の合計人数(=来店した人数)は、130人

このようなことを表しています。性別、購入したか否かの2つの軸でデータを分割しています。

分割表の活用

男性と女性によって、購入する・しないに差が生まれるのかを調べることができます。

もし、男性と女性とで、購入結果にまったく差がないのであれば、男性のなかでの購入者の割合と、女性のなかでの購入者の割合は同じになるはずです。それは、性別が購入には関連していないということです。

女性のほうが購入しやすい商品なのであれば、女性のなかでの購入者の割合は高くなり、男性のなかでの購入者割合とは差がでます。

このような性別と購入結果に関連性があるかどうかを検証するために、独立性の χ2 検定をつかいます。

性別が購入には関連しておらず、性別によって購入に差はない(独立している)という仮説を立てる。

そして、検定を行い、仮説が棄却できるかどうか。

棄却できたならば、性別と購入には関連があり、性別によって購入に差があると結論づけることができます。

分割表は、社会調査、アンケート調査などでは、よく用いられます。調査の項目が、質的データとなることが多いからです。