[統計学]21. 2変数の離散型確率分布

広告

前回の記事→正規分布を実際に使ってみよう

前回までは主に1変数の確率分布に対して、学んできました。そして重要なことは正規分布やこれを標準化した標準正規分布でありました。なぜこれが重要かというと、標本数が多ければ、その標本平均は正規分布に近似できるからです。これを中心極限定理と言います。この証明はモーメント母関数を使用するハイレベルな証明なので、今回はざっくり説明していきたいと思います。そのためにも、多変数の確率分布の話は不可欠です。まずは2変数の確率分布からやっていきましょう!

二つの離散型確率変数を

X=x(i=1,2,3,…,n)

Y=yj  (j=1,2,3,…,m)

とします。

このとき、(X,Y)=(xi,yj)となる確率をPijや、PXY(xi,yj)や、P(X=xi,Y=yj)と表します。もちろん確率の定義を満たすために、すべての値は0以上1以下ですし、すべての確率シグマで足し合わせると1になります。

例えば、身長を1cm刻みで測定すると離散型になりますね、これを確率に直してXとします。体重も同様に1kg刻みで測定すると離散型となり、これを確率に直してYとします。これで身長、体重の2変数となりますね。身長170cm体重60kgの確率は

P170 60=P(X=170,Y=60)と表します。

それでは150cm以上160cm以下かつ40kg以上55kg以下の確率を知りたいときは、


というように表します。2変数の情報がPijに含まれているわけですが、このうち1変数だけの情報Piを取り出すときを考えて見ましょう。

例えば身長の情報だけを取り出したいとき、つまり身長xicmとなる確率を求めるときは

身長xicmで体重が1kg→Pi1(こんな体重軽い人はいないと思いますが)

身長xicmで体重が2kg→Pi2

身長xicmで体重がmkg→Pim

をすべて足し合わせると身長xicmとなる確率が求まりますね。

これを数式で表すと、


となります。Xの確率分布を求めたわけですから、これをXの周辺確率分布と言います。覚えなくていいですね。もちろんYについての周辺確率分布を求めるときも同様です。

2変数の情報から1変数だけ取り出せるということは、Xの期待値や分散を求めることも可能です。

Xの期待値は

Xの分散は

と計算できます。いつもと同じですね。Yの期待値、分散も同様です。

続いて、2変数ならではの概念である共分散を計算していきましょう。このへんは今までの求め方と同じです。

XとYの共分散は

というように計算できますね。

最後に、XとYに対して、aX+bY+c (a,b,cは定数)の期待値と分散を考えて見ましょう!

期待値については線型性が成り立つので

となります。分散は

となります。共分散が結果に現れることに注意が必要です。

今回は計算がメインになりました。丸暗記するよりも理解すればいずれも導けることなので、イメージをつかむことの方が重要だと思います。

次回は2変数連続型確率分布に対しても同じような計算をします。

次の記事→2変数の連続型確率分布

統計学のおすすめ本はマセマの確率統計がおすすめです、式変形が丁寧で何回な教科書に比べ理解がスムーズになるのでおすすめです!数学的にちゃんと理解したい方にはうってつけの一冊になるでしょう。

 

プログラミングのための確率統計も良いですね。プログラミングのためのとは書いてありますが、実際はプログラマでなくても読みやすい内容で直感的に理解できる説明でおすすめです。初学者にはこちらをおすすめします。

関連記事