3.基本編 記述統計と推測統計

統計学を学んでくると色々な分析をしたくなると思います。

まず、分析しようにもデータを集めなければいけません。例えば選挙速報なんか思い浮かべてみるとわかりますが、あれは開票作業中で得票率が50%に至ってないのに当選確実と報道されることがあります。どうして過半数を取るとまだ決まっていないのに当選確実ができるのでしょうか?

よく投票所前でアンケートを取る方がいますね。アンケートに答えない方(私はこの集団に入ります。)が一定数いますし、すべての投票所に調査員を派遣するのは現実的ではありません。

それでもある程度のサンプル(標本)があれば、選挙結果がどうなるのか、高い精度で推測することができます。これを推測統計といいます。

この場合、投票した人全員の集合を母集団といいます、しかしこの母集団を全て調べるのはちょっと無理だから、ある程度の標本を集めて予測しようというのが推測統計です。

逆に母集団が全数調査できるとき、母集団の分布はどうなってるのかであったり、平均値や中央値はいくらだろう、というのを調べるのを記述統計といいます。国勢調査やあるクラスの試験の得点など、全数調査したデータを表現するのが記述統計学ですね。

記述統計と推測統計ってどっちが大事なの?

と思われる方もいるかと思いますが、

圧倒的に推測統計が重要です!

世の中に全数調査できることなんて実はあまりなくて、高いコストのかかる全数調査するより、ある程度サンプルを取って母集団を推測することの方が多いです。それに全数調査したデータがあるなら、統計学の知識を使わなくてもなんとなくで分析できそうです。

記述統計では母集団の平均値や分散を調べたり、グラフの書き方や見方を習います。これはデータをどうやってまとめるとか図示しようかとか言うときに役に立ったりします。内容もあまり難しくないので、そこまで頭を悩ませることはないでしょう。

というわけで、記述統計を軽視しがちですが、世の中の色々なデータがグラフやヒストグラムで表されていますから、ごまかしを見抜くためにも記述統計を学んだ方がいいと思います。

このサイトでは、まず記述統計でも推測統計でも共通する事項(分散や相関係数など)を学んで、その後記述統計のメインである、ヒストグラム(階級分布図)などの図表の書き方、見方を解説します。そしてその次に推測統計の話に入ります。

図表の見方とかほぼわかるし、推測統計学を優先したいという方は、記述統計の部分を飛ばしても支障がないと思います。

次回は4.(1次元データ)代表値