[統計学]7.偏差値の意味を説明できる?分布の標準化と偏差値

広告

前回の記事→変動係数でばらつきを比較しよう

前回は変動係数を用いて、異なる大きさを持つ分布に対しても、ばらつきを比較することができました。

今回は、どんな分布でも平均0、分散1の分布に変換する方法を学びます。(これを標準化と言います。)

これで何がわかるかというと、例えばあなたがテストで70点を取りました。嬉しいですか?

喜んだり悲しんだりするのはまだ早いですね。そのテストの平均点を知らないと、あなたがよくできてる方なのかできていない方なのかわからないからです。

しかし、平均点と分散を把握したとしても、あなたの立ち位置はよく考えないとわからないものです。

ですので毎回毎回平均と分散からだいたいこの辺だろうと推測するよりも、「平均0、分散1の分布だったらあなたはここらへんだよ」と教えてもらえるとわかりやすくなりますね。これを発展させると、受験のときにおなじみの偏差値の求め方がわかります。

平均μ、分散s2 の分布{  x1 ,  x2, …  ,xn }のすべてのデータに対して、

次の新しい分布zを考えてやります。

img_0017

各データを平均値で引いた後、標準偏差で割ったものを考えているわけですね。

なんのこっちゃって感じだとは思いますが、このzの平均値と分散を計算して見ましょう。

img_0018

img_0019

img_0020

(カッコの中ですが、各データの和をnで割っているところは平均値の定義と同じです)

と平均値が0になりました!

この調子で分散も計算してやると、

img_0023

img_0024       (  {}の中は分散の定義と同じです)

img_0025

というわけでzは平均0、分散1の分布だということがわかりました!

これをz得点と言います。

(なぜこういう風に変換を施すといいのかというのは最後に挙げますので参考にしてください。)

z得点は結構便利で、このままでもいいのですが、これをさらに変換して、みなさんの馴染み深い偏差値を求めます。

その変換は、下のようになります。

img_0026

これが偏差値であり、T得点とも言います。

また、このTの平均及び分散を計算してやるとわかるのですが、Tは

平均50   分散100(標準偏差10)

の分布となります。

つまり偏差値というのは平均50点、標準偏差10点に直すとあなたの立ち位置はどこかという指標になります。(もしそのテストが正規分布に近似できるとなると、偏差値がわかるだけであなたが上位何%なのかまで求めることができます。)

これで偏差値がどのように求められるかわかりました。

最後にデータの集合x(平均μ、分散s2)に対して、z=ax+bと変換すると(1次式なので1次変換と言います)

zの平均μz分散s2はどのようになるのかを計算してみましょう。

よって、

[zの平均値] = aμ+b

[zの分散] = a2 s2

となります。ここから、うまくaとbの値を調整すると、z得点やT得点が求められます。

これまで色々学んできましたが、実際に問題を解いてみることで理解を深められると思うので次は演習問題をしようかなと思います。

次の記事→超基本内容のおさらい

統計学のおすすめ本はマセマの確率統計がおすすめです、式変形が丁寧で何回な教科書に比べ理解がスムーズになるのでおすすめです!数学的にちゃんと理解したい方にはうってつけの一冊になるでしょう。

 

プログラミングのための確率統計も良いですね。プログラミングのためのとは書いてありますが、実際はプログラマでなくても読みやすい内容で直感的に理解できる説明でおすすめです。初学者にはこちらをおすすめします。

関連記事