確率分布には離散型と連続型がある

シェアする

統計学では、分布あるいは分布をするという言葉がよく出てきます。分布をするとは、現象が大小さまざまな大きさで発生することをいいます。

ひとの身長を見れば170cmの人、160cmの人、180cmの人もいて、いろいろな身長の人が存在している。このことを身長は分布すると表現します。自宅から会社までの車で通勤時間は、道路の込み具合やどのくらい信号に捕まるかによって変わりますから、早くつくこともあれば、遅くなってしまうこともあります。通勤時間は大小さまざまに分布をします。

世の中で観測される現象は、確率的に大小分布をします。

統計学では、観測されたデータに対して、データを生成した確率分布を想定し、その分布から一定の確率でデータが観測されたとみなします。確率分布に従って発生する変数を確率変数といいます。

確率分布は、離散的確率分布と連続的確率分布に分けることができます。

  • 離散的とは、個数、有無、正誤などのとびとびの値や状態をはかるもの
  • 連続的とは、重さ、長さ、強さなどの量をはかるもの

です。

離散型確率分布

離散的データを生成する分布です。離散的データとは、個数、性別、正・誤で表されるデータです。

二項分布

結果が成功・失敗である試行を行った時の成功数を表す分布です。コイン投げで表面が出る確率は1/2、裏面が出る確率も1/2で、それぞれ1/2の確率で発生します。表が出ることを成功とすれば、1/2の確率で成功であり、10回投げたときに表が何回出るかを表す分布。

ポワソン分布

まれにしか起きないような出来事の発生確率や回数を表す分布です。 たとえば、ある都市で交通事故にあう人の数の確率モデル、ある救急病院に夜間訪れる患者数などに利用できます。

連続的確率分布

離散的確率分布から、ある確率変数が発生する確率は、特定の値が出てくる確率です。しかし、連続的確率分布から、ある確率変数が発生する確率は、分布の中のある区間にその変数が入る確率として考えます。

連続的データは、「重さ」、「長さ」、「強さ」などですが、これは「○○個」、「コインの表・裏」などとは異なり、はっきりと区切って捉えられるデータではありません。

たとえばパン1個の重さをはかるとき、秤の上にパンをのせれば50gなどの表示はされますが、ほんとうは50.21354・・・gとどこまでも数値が続いていくはずです。秤の表示には50gまでしか表示されませんが、50g、51gと区切れるものではないのです。

そういった意味で、測定尺度をいくらでも細かくできる変数は、連続的なデータとして扱われます。

連続的確率変数は、ある特定の値をとる確率は0として、区画を対象にして確率を考えます。上記したパンの話でいれば、50g~51gの区画に入る確率はいくつか?となるのです。

50g以上になる確率は?、平均値から+○○gの間の確率は?、と考えます。

連続的確率分布には、このような分布があります。

  • 正規分布
  • カイ二乗分布
  • t分布
  • F分布

たとえば、人々の身長を測定した結果をまとめると、平均身長を中心として左右に均等に散らばったような分布が得られます。これは正規分布に近似した分布として扱われます。