統計学では、分布あるいは分布をするという言葉がよく出てきます。分布をするとは、現象が大小さまざまな大きさで発生することをいいます。
人の身長を見れば170cmの人、160cmの人、180cmの人もいて、いろいろな身長の人が存在していますよね。このことを身長は分布すると表現します。
決まった確率規則がある分布のことを確率分布といい、統計学では、観測されたデータは、ある想定される確率分布から一定の確率で観測されたもの、とみなします。
人の身長を測って170cmのデータが得られたのは、おおもとに人の身長の確率分布が存在し、170cmの人は○○%の確率で存在している。ランダムに人の身長を測定すれば、その○○%の確率で170cmのデータが得られるということです。
この確率分布は、離散型確率分布と連続型確率分布に分けることができます。
- 個数、有無、正誤などのとびとびの値や状態をはかるものは離散型
- 重さ、長さ、強さなどの量をはかるものは連続型
と分けることができます。
離散型確率分布
離散的データを生成する分布です。離散的データとは、個数、性別、正・誤であらわされるデータです。
- 二項分布
- ポワソン分布
- 幾何分布
- 離散型一様分布
などがあります。
二項分布
成功・失敗や表・裏など、2つに1つの結果となる試行を行った時の、成功数を表す分布です。
コイン投げで考えてみます。コインを投げると、表面が出る確率は1/2、裏面が出る確率も1/2で、それぞれ1/2の確率で発生しますよね。
表が出ることを成功とすれば、1/2の確率で成功であり、10回投げたときに何回成功するか(表が出るか)をあらわす分布が二項分布です。
参考記事 ベルヌーイ試行と二項分布の違いと関係性
ポワソン分布
まれにしか起きないような出来事の発生確率や回数をあらわす分布です。
たとえば、ある都市で交通事故にあう人の数の確率モデル、ある救急病院に夜間訪れる患者数などに利用できます。
幾何分布
成功・失敗や表・裏など、2つに1つの結果となる試行を行った時の、成功数までに必要となった回数を表す分布です。
コイン投げで表が出ることを成功とすれば、コイン投げを行った回数のうち、何回成功するか(表が出るか)をあらわすのが二項分布でした。
幾何分布では、視点を変えて、コイン投げをし始めてから、最初に成功する(表が出る)までの試行回数をあらわす分布です。
離散型一様分布
一様分布とは、確率変数$(x$)の値がどんな値でもそれに関わらず。確率密度関数が一定の値をとる分布です。
その一様分布のうちで、対象が離散型データである場合、離散型一様分布となります。
離散データとは、人数や個数、枚数などのように数えることができるもの。
参考記事 離散型の一様分布、連続型の一様分布とその平均と分散
連続型確率分布
離散的確率分布から、ある確率変数が発生する確率は、特定の値が出てくる確率です。一方、連続的確率分布から、ある確率変数が発生する確率は、分布の中のある区間にその変数が入る確率として考えます。
連続的データは、「重さ」、「長さ」、「強さ」などですが、これは「○○個」、「コインの表・裏」などとは異なり、はっきりと区切って捉えられるデータではありません。
たとえばパン1個の重さをはかるとき、秤の上にパンをのせれば50gなどの表示はされますが、ほんとうは50.21354・・・gといった具合で、どこまでも数値が続いていくはずです。秤の表示には50gまでしか表示されませんが、50g、51gと区切れるものではないのです。
そういった意味で、測定尺度をいくらでも細かくできる変数は、連続的なデータとして扱われます。
連続的確率変数は、ある特定の値をとる確率は0として、区画を対象にして確率を考えます。上記したパンの話でいれば、50g~51gの区画に入る確率はいくつか?となるのです。
あるいは、連続的確率分布をつかって、50g以上になる確率は?、平均値から±○○gの間の確率は?といったことを計算します。
連続型確率分布には、このような分布があります。
- 正規分布
- 指数分布
- 連続一様分布
- カイ二乗分布
正規分布
正規分布は、中央が一番頻度が大きく、左右対称で滑らかで美しい形をしています。
平均値と中央値と最頻値が同じであり、釣鐘や富士山の形のような分布です。
自然現象や社会現象は、正規分布に近い形をとるものが多く、たとえば、ヒトやそのほか動物の身長、植物のサイズ、製品のサイズなどが、正規分布に近くなります。
指数分布
ポアソン分布に従う事象が発生するまでの待ち時間の分布です。
ポアソン分布の例で、「ある都市で交通事故にあう人の数の確率モデル」と書きました。
ある都市で交通事故があったら、そこから、次に交通事故が発生するまでの時間(期間)が従う分布が、指数分布となります。
連続型一様分布
上記したように、一様分布とは、確率変数\(x\)の値がどんな値でもそれに関わらず。確率密度関数が一定の値をとる分布です。
その一様分布のうちで、対象が連続型データである場合、連続型一様分布となります。
連続データとは、身長や体重などの観測値や時間などがあります。数えることができず、連続的なものです。
参考記事 離散型の一様分布、連続型の一様分布とその平均と分散
カイ二乗分布
基準化変量\(z\)を二乗し、合計したものが\(\chi^2\)で、\(\chi^2\)が従う分布がカイ二乗分布\(\chi^2\)分布です。自由度によって分布が変わります。
母集団から標本を取り出し、
↓
各データの基準化変量\(z\)を計算する。
↓
\(z\)を二乗して足し合わせると、
↓
\(\chi^2\)が得られる。
標本から得られたデータが、理論値や期待値に適合するかどうかを検証する場合や、分割表において、AのカテゴリーBのカテゴリーがあった場合に、それぞれが依存していなくて独立であるかどうかを検定するときにつかいます。