確率変数、確率分布とはなにか

確率変数」とは、その値をとる確率が与えられている変数です。

たとえば、1から6の面があるサイコロのことを考えてみます。サイコロを振って1の面が出るのは、1/6の確率ですよね。2の面がでるのも1/6の確率です。他の面でも同じです。これは、サイコロの構造上、それぞれの面が1/6の確率で出現するようになっています。

サイコロを振って1の面が出てくることには、1/6の確率が与えられていることになります。他の面も同じことであり、この1~6(の面)はサイコロを振る前から確率が与えられている変数ということになります。

これが、確率変数です。

確率変数はのように大文字で表し、実際に出現して観測された値は と小文字で表し、区別しています。

確率変数には、決まった確率規則があり、サイコロであれば、それぞれの面が1/6で出現するよう割り当てられています。これが「確率分布」となります。分布とは、ある事象が大小さまざまな大きさで発生することで、それに決まった確率規則があるものが確率分布です。

サイコロを振るたびに1の面が出たり、3の面が出たりと、データが得られますが、これは、確率分布から決まった確率でデータが観測されたもの、となります。

確率分布には、大きく分けて離散的確率分布と連続的確率分布があります。

離散的確率分布」は、個数、性別、正・誤で表されるデータなどの離散的データを生成する分布であり、とびとびの値だけ現れるような分布です。サイコロを振って出る目は、1、2、3、4、5、6 のいずれかの目がでますから、離散的確率分布といえます。

連続的確率分布」は、連続的データを生成する分布です。たとえば、身長です。身長は170cm、174cm、178cmといった具合に測定結果があらわされます。でも実は、精度の高い測定機で測ったとしたら、170.12…、174.45、178.07とより小数まで数字があらわされるでしょう。

本当は、さらに170.12478…、174.45596…、178.07743…、といった具合にどこまでも数字が存在しているはずで、ずっと連続的に続いているデータです。ふだんの身長測定は、区切りよいところで、170cm、174cm、178cmと表示しているにすぎません。

現実の様々な事象が確率分布をしています(あるいは確率分布に近似しています)。この確率分布に従って起こる変数が、確率変数となります。

フォローする