[統計学]24. 超重要!中心極限定理の意味!

広告

前回の記事→2変数の独立の調べ方とその意味

今回は統計学の定理の中でも重要な中心極限定理について説明します。

まずは前回学んだ、2変数が独立の場合に成り立つ式をもう一度書きます。

ここで、2変数から多変数(変数がn個)へと拡大してましょう。離散型でも連続型でもいいですがn個の独立な確率変数X1,X2,…,Xnがあるときの期待値や分散を考えてみましょう。

期待値には線型性があるので、

となりますね。分散は先ほどの式から

となることがわかります。これと同じ考え方で、確率変数X1,X2,…,Xnの平均である、

確率変数X1,X2,…,Xnを丸ごと足すと、すべての確率の和がnになってしまいますが、これをnで割ると1になるので、も確率分布になります。

それではの期待値と分散を求めてみましょう。

 

となりますね。それではこのn個の独立な確率変数X1,X2,…,Xnがすべて同じ期待値と分散(μとσ2)だった場合を考えてみましょう。つまり、

となるので、

というようになります。さらに復習ですが、これを標準化してみましょう。

標準化の式は

ですから、期待値μ、分散σ2/nを標準化するZは

となりますね。これでを変換したZは期待値=0、分散=1の分布になりましたね。しかし、期待値=0、分散=1といっても標準正規分布とは限りません。

ここで次の中心極限定理が成立します。

「互いに独立な確率変数X1,X2,…,Xnが平均μ、分散σ2の同じ確率分布に従うとき、確率変数Zをとすると、n→∞のときにZは標準正規分布に従う」

というのが中心極限定理となります。X1,X2,…,Xnどんな分布であっても、nが大きければ、Zは標準正規分布になるということを言っています。別の言い方で中心極限定理を説明すると、

「期待値μ、分散σ2をもつ母集団から大きさnの標本を取り出したとする。n→∞のとき、その標本平均の分布は期待値=μ、分散=σ2/nの正規分布に従う」

残念ながら証明はハイレベルなので上級編に回しますが、どんな変てこな分布であっても標本数が多ければ、その標本平均は正規分布に従うので、確率を計算することができるようになります。これは超大事です。それとnが∞とかありえないからこの定理に大きな意味はないと思う方もおられるかもしれませんが、実際に使うときはnが十分大きいときには使っても大丈夫だと思います。そうすると調査するのにもコストがかかるので、どこまでいけば十分なのかは次回の信頼区間などの話でやりたいと思います。

次回は推定と信頼区間とは?仮説検定がこれでわかる!

統計学のおすすめ本はマセマの確率統計がおすすめです、式変形が丁寧で何回な教科書に比べ理解がスムーズになるのでおすすめです!数学的にちゃんと理解したい方にはうってつけの一冊になるでしょう。

 

プログラミングのための確率統計も良いですね。プログラミングのためのとは書いてありますが、実際はプログラマでなくても読みやすい内容で直感的に理解できる説明でおすすめです。初学者にはこちらをおすすめします。

関連記事