[統計学]5. 分散、標準偏差の計算仕方から意味まで徹底解説

広告

前回の記事→代表値とは?平均値だけじゃない!

さて、本題に入る前に前回学んだ平均値を数学の記号を使って表していきたいと思います。

データ(身長でも体重でもなんでもいいです)がn個あってそのデータの値がそれぞれ

{  x1 ,  x2, …  ,xn }となっているとき平均値μ(ミュー)は数学の記号を使って以下のように表すことができます。

右にあるΣ(シグマ)記号の意味がわからないときはググって確かめておいてください。

平均値の表し方には、μの他にもとかがありますが、ここでは母平均はμで表して行きたいと思います。

それでは今回は分散と標準偏差を学びたいと思います。

例としてAくんとBくんの2人がテストを受けました。

取った点数をしたの表になりました。

A B
国語 1 7
数学 10 4
物理 9 5
化学 1 8
地理 9 6

AくんとBくんの取った点数に注目してみましょう。

前回学んだ方法でAくんとBくんの平均値を求めると

Aの総得点 = (1+10+9+1+9) = 30

Bの総得点 = (7+4+5+8+6) = 30

30を科目数の5で割ると6になるので、

AくんとBくんの平均は同じ6ということがわかります。

しかしAくんとBくんには大きな違いがあります。

Aくん:得意科目と不得意科目の差が激しい

Bくん:どの科目もそれなりの点を取る

といった違いです。

この違いは平均値ではわかりません。

どうすればこの違いを数式で表すことができますか?

ここで分散という分布のばらつきの指標を用います。

分散はよくsの二乗という記号を使って表します。

分散の式は以下の通りです。

img_0004

ここで右辺の方ですがΣ記号を使って表すと下のようになります。

img_0005

この式の形を見ますと、各データの値と平均値との差を2乗しているため、平均値と乖離しているデータが多いほど、分散の値が大きくなることがわかります。

よって分散の意味は分布のばらつきの大きさを示す指標として優秀で、

分散が大きければ大きいほど分布はバラついています。

今回ではAくんの方がバラついていますからAくんとBくんではAくんの方が分散の値が大きくなるというわけですね。

それでは実際に分散を計算して確かめてみましょう。

Aくんの分散は

img_0006

img_0011

となります。

Bくんの分散は

img_0008

img_0010

となってAくんの方が分散が大きいことを確かめられました。

平均値では調べることができなかったばらつきは分散を使うと実数で表すことができますね。しかし、分散はばらつきを調べるのにはいいんですが、一つだけ不便なところがあります。

それは、単位が二乗されてしますことです。

この場合、点数を二乗しているので分散の単位は「点の二乗」となり、やや気持ち悪いですし、「AくんとBくんの分散の差は16.8だよ」と言われてもあまり実感がわきません。

この問題を解決するのは簡単です。

分散の単位が二乗されてしまうならルート(平方根)をとればいいのです。

これが標準偏差となります。(細かいことですが、分散は二乗の足し算なので常に0以上となるので平方根をとっても問題ありません。)

標準偏差は一般にsで表され、

img_0012

となりますね。

標準偏差の意味は分散と同じで

大きければ大きいほど分布がバラついている

という意味になります。

ついでに標準偏差の値を電卓で計算してみると

Aくんの標準偏差≒4.34

Bくんの標準偏差≒1.41

となりまして、やはりAくんの標準偏差の方が大きいことが確かめられます。

今回は分散と標準偏差を学びました。

実はばらつきの指標として、この他にも平均偏差、レンジ、四分位偏差などあるのですが、どれもあまり使い勝手がよくないので割愛させていただきます。

次の記事→変動係数でばらつきを比較しよう

統計学のおすすめ本はマセマの確率統計がおすすめです、式変形が丁寧で何回な教科書に比べ理解がスムーズになるのでおすすめです!数学的にちゃんと理解したい方にはうってつけの一冊になるでしょう。

 

プログラミングのための確率統計も良いですね。プログラミングのためのとは書いてありますが、実際はプログラマでなくても読みやすい内容で直感的に理解できる説明でおすすめです。初学者にはこちらをおすすめします。

関連記事