[統計学]4.代表値とは?平均値だけじゃない!

広告

あるデータに対してどういう分析をするのかですが、まず統計の最も基本的な統計量である平均値(算術平均)などの代表値を学んでいきましょう。

実はですね、今まで私たちが「真ん中」の尺度として使っているのは、平均値(mean)が一般的ですが、他にも使えるものはあります。

それは中央値(median)と最頻値(mode)です。

平均値というのはデータを全部足してデータの個数で割る、というものでありました。

中央値は例えばデータを小さい順または大きい順に並べてちょうど半分にあたるデータのことをいいます。例えば15人のクラスの身長の中央値とは、小さい順(大きい順でもいい)に並べて前から8番目の人の身長のことを言います。

最頻値は簡単です。漢字そのままで一番多く現れたデータのことをいいます。

例を用意してみましょう。

5人の生徒が数学のテストを受けて、結果が、80、45、60、75、60だったとします。

平均値は

となることがわかります。
中央値はまず点数を小さい順に並べて
45、60、60、75、80
この真ん中は一番左から3番目の60になりますから、中央値は60です。

次に最頻値ですね。この中で一番多く現れた数字は60ですね。それ以外は1回しか出てきてないですが、60だけ2回あります。
よって最頻値は60となります。

ちなみに、もしデータが4つしかなかったら例えば

45、50、60、85

の時に中央値はどうなるんだろうと気になったかたはセンスがあると思います。

このときは真ん中の二つ、つまり50と60の平均を取った55が中央値となります。

なぜ平均値以外にもあるのか、実は平均値には弱点があります。

それは平均値というのは異常値(外れ値)に大きく影響されるのに対して、中央値や最頻値は外れ値に対して影響がありません。なので外れ値がある場合、平均ではなくて中央値や最頻値が代表値として適切だということになります。(やや乱暴です。実際には外れ値を除外して平均を取ることも多い)

この3つ以外にも代表値として

覚えなくてもいいことですが、下のように左右対称の分布の場合、

平均値=中央値=最頻値となります。

e

逆に、右に裾野が広い分布の場合、

最頻値<中央値<平均値となります。

ds

学問としては平均値を一番使います。おそらく実際の解析でも平均値が最も使います。

中央値、最頻値の出番は正直もう来ないかと思いますが、実用では知っていると便利なので覚えておいてください。

次の記事→分散、標準偏差の計算仕方から意味まで徹底解説

統計学のおすすめ本はマセマの確率統計がおすすめです、式変形が丁寧で何回な教科書に比べ理解がスムーズになるのでおすすめです!数学的にちゃんと理解したい方にはうってつけの一冊になるでしょう。

 

プログラミングのための確率統計も良いですね。プログラミングのためのとは書いてありますが、実際はプログラマでなくても読みやすい内容で直感的に理解できる説明でおすすめです。初学者にはこちらをおすすめします。

関連記事