2. ベイズの定理

まず初めに、ベイズの定理を学びます。あくまで導入の部分ですから本格的なところまではここではやりません。条件付き確率が分かっていれば今回の話は難しくないと思います。

まず、事前確率事後確率について学びましょう。例えば事象AとBがあって、

A:会社に遅刻する
B:電車に乗り遅れる

とします。事象Aが起こる確率はP(A)ですね。これが事前確率となります。
電車に乗り遅れたということを知った上で、会社に遅刻する確率はP(A|B)と表し、これを事後確率といいます。
電車に乗り遅れたという情報を知った上では、会社に遅刻する確率が上がることが予想されます。

ここでP(B)P(A|B)を考えてみましょう。
これは電車に乗り遅れる確率に、電車に乗り遅れた上で会社に遅刻する確率をかけていますから、この意味は電車に乗り遅れるかつ会社に遅刻する確率、P(A∩B)という意味ですね。

逆にP(A)P(B|A)を考えてみると、会社に遅刻する確率に、会社に遅刻した上で電車に乗り遅れる確率をかけていますから、結局これもP(A∩B)を表すことになります。よって次のことが言えますね。

P(B)P(A|B) = P(A)P(B|A)=P(A∩B)

これがベイズの定理になります。この式は覚えるというより意味を考えればわかることですから覚える必要はありません。大事なことは事前確率から事後確率を求めることができるということです。

月並みな例ですが、袋の中に1,2,3の数字が割り振られた赤玉3個と1,2の数字が割り振られた白玉2個あります。これらを取り出す確率は全て同様に確からしいとします。
袋から一個取り出したときに、玉に書かれた数字をxとします。
x=2となる確率と、赤玉を取ったと知った上でx=2となる確率を比べてみましょう。

玉が5つあって数字の2が書かれているのは2つありますから、
P(x=2)=
というのは簡単です。

赤玉を取った上ならば、赤玉は3つあって、数字の2が書かれているのは1つありますから、

P(x=2|赤玉を取る)=
ということになります。

もう一つ例題として、どの参考書も取り上げているHIV検査薬のやつをやってみましょう。

HIVの有病率は0.01%(1万人に1人)とします。
HIVに有病者が検査で陽性となる確率は99.9%
HIVではない人が検査で陰性となる確率は99.0%とします。

検査で陽性が出た時に、実際にHIVにかかっている確率を求めましょう。
という問題です。これを全部記号を使って機械的に解いていきましょう。

A:HIV有病
B:検査で陽性
とすると

であり、HIVではない人が検査で陽性となる確率は1%ですから

ここでベイズの定理を使って解くためにP(B)を求めましょう。
検査で陽性となるのは、HIV有病者が陽性と出るHIVでない人が陽性と出るなので

求める確率はP(A|B)ですから、ベイズの定理より、

P(B)P(A|B) = P(A)P(B|A)

パーセント表示にすると、だいだい1%くらいだということがわかりました。
つまりHIV検査で陽性が出てもHIV有病者の割合は1%ほどなんですね。
ベイズの定理を使えばこんなこともわかるわけです。

だから1万人が検査を受ければ、陽性と出るのは100人くらいで、そのうち1人だけがHIV有病者ということが予想されます。(これはあくまで統計的側面から見た解釈です。)

この結果を知ったからといって、もしあなたが検査を受けて陽性が出ても大丈夫だろうと思ってはいけません。というか陽性が出ても大丈夫なんだったら検査を受ける意味がありません。

最近は検査の精度も上がっているだろうし、何かHIVに感染するような行為をしてやべえと思って検査を受けるわけですから、実際に検査を受けて陽性であれば多分やばいです。

というわけでベイズの定理の解説をしました。ベイズの定理の良いところは、結果から原因を探れるところであります。

次回は3. 尤度関数の計算と最尤推定法