4.基本編(1次元データ)代表値

これからは記述統計と推測統計で共通する基本事項を解説していきます。

前々回の流れを汲んで、扱うデータは比例尺度としますね。

それではあるデータに対してどういう分析をするのかですが、まず統計の最も基本的な統計量である平均値(算術平均)などの代表値を学んでいきましょう。

実はですね、今まで私たちが「真ん中」の尺度として使っているのは、平均値(mean)が一般的ですが、他にも使えるものはあります。

それは中央値(median)と最頻値(mode)です。

平均値というのはデータを全部足してデータの個数で割る、というものでありました。

中央値は例えばデータを小さい順または大きい順に並べてちょうど半分にあたるデータのことをいいます。例えば15人のクラスの身長の中央値とは、小さい順(大きい順でもいい)に並べて前から8番目の人の身長のことを言います。

最頻値は簡単です。漢字そのままで一番多く現れたデータのことをいいます。

それではデータの例を用意してみましょう。5人のクラスで数学の試験がありました。この5人は記述統計ですから母集団になります。その結果が、80、45、60、75、60だったとします。

5人の生徒が数学のテストを受けて、結果が、80、45、60、75、60だったとします。

平均値は

となることがわかります。
中央値はまず点数を小さい順に並べて
45、60、60、75、80
この真ん中は一番左から3番目の60になりますから、中央値は60です。

次に最頻値ですね。この中で一番多く現れた数字は60ですね。それ以外は1回しか出てきてないですが、60だけ2回あります。
よって最頻値は60となります。

ちなみに、もしデータが4つしかなかったら例えば

45、50、60、85

の時に中央値はどうなるんだろうと気になったかたはセンスがあると思います。

このときは真ん中の二つ、つまり50と60の平均を取った55が中央値となります。

平均値というのは異常値(外れ値)に大きく影響されるのに対して、中央値や最頻値は対して影響がありません。なので外れ値がある場合、平均ではなくて中央値や最頻値が代表値として適切だということになります。(データの質や欲しい情報にもよりますが)

この3つ以外にも代表値として

覚えなくてもいいことですが、下のように左右対称の分布(左右対称と思い込んでください)の場合、

平均値=中央値=最頻値となります。

e

逆に、右に裾野が広い分布の場合、

最頻値<中央値<平均値となります。

ds

学問としては平均値を一番使います。中央値、最頻値の出番はもう来ないかと思いますが、実用では知っていると便利なので覚えておいてください。

次回は5. (1次元データ)分散、標準偏差