確率変数、確率分布とはなにか




確率変数とは

「確率変数」とは、その値をとる確率が与えられている変数です。

たとえば、1から6の面があるサイコロのことを考えてみます。サイコロを振って1の面が出るのは、1/6の確率ですよね。2の面が出るのも1/6の確率です。他の面でも同じです。これは、サイコロの構造上、それぞれの面が1/6の確率で出現するようになっています。

サイコロを振って1の面が出てくることには、1/6の確率が与えられていることになります。他の面も同じことであり、この1~6(の面)はサイコロを振る前から確率が与えられている変数ということになります。

これが、確率変数です。

確率変数は$X$のように大文字で表し、実際に出現して観測された値は$x$は小文字で表し、区別しています。

確率分布とは

確率変数には、決まった確率規則があります。サイコロであれば、それぞれの面が1/6で出現するよう割り当てられていますよね。

このサイコロの出る面の分布が「確率分布」となります。

分布とは、ある事象が大小さまざまな大きさで発生することであり、分布に決まった確率規則があるものが「確率分布」です。

サイコロを振るたびに1の面が出たり、3の面が出たりと、データが得られたとしましょう。これは、「確率分布に従って発生したデータ」と考えます。

「確率分布」とは、確率変数を発生させる分布、というようなイメージです。

参考記事 「確率分布に従う」の意味はなにか

決まった確率でデータが観測されていることになります。そのなかで、たまたま1の面が出たり、3の面が出たりしているだけです。

離散的確率分布と連続的確率分布

確率分布には、大きく分けて離散的確率分布と連続的確率分布があります。

離散的確率分布」は、個数、性別、正・誤で表されるデータなどの離散的データを生成する分布であり、とびとびの値だけ現れるような分布です。

サイコロを振って出る目は、1、2、3、4、5、6 のいずれかの目がでますから、離散的確率分布といえます。

連続的確率分布」は、連続的データを生成する分布です。

たとえば、身長です。身長は170cm、174cm、178cmといった具合に測定結果があらわされます。でも実は、精度の高い測定機で測ったとしたら、170.12…、174.45、178.07とより小数まで数字があらわされるでしょう。

本当は、さらに170.12478…、174.45596…、178.07743…、といった具合にどこまでも数字が存在しているはずで、ずっと連続的に続いているデータです。ふだんの身長測定は、区切りよいところで、170cm、174cm、178cmと表示しているにすぎません。

現実の様々な事象が確率分布をしています(あるいは確率分布に近似しています)。この確率分布に従って起こる変数が、確率変数です。