9.基本編(2次元データ)共分散1

今までは1つの対象に対して1つの変数を扱って来ましたが、これからは1つの対象に2つの変数を同時に扱って行きます。

例えば、1番、2番、3番・・・とn人の身長と体重を計りました。今までは身長の平均、体重の平均などを求めてきましたが、2次元データを扱う上では、身長と体重の関係を調べていきます。ここでは身長、体重としましたが、一般に2変数x,yがあって、xがyをある程度決定する関係があるとき、xからyを見ることを回帰と言います。xとyのどちらかが、どちらかを決定しないとき、これらを対等に見ることを相関と言います。

身長と体重の例では、体重を増やせば身長が伸びるわけではなく、身長で体重が決まってくるわけではないですから、相関関係を調べます。

人口とコンビニの店舗数では、人口が増えるほどコンビニの店舗数が増えそうですから、回帰分析を用います。

回帰分析は後ほど学びますので、今回は相関関係を調べていきます。

身長が大きくなれば体重は増えるのか?

身長が大きくなれば体重は減るのか?

身長と体重は関係ないのか?

ということを調べていきましょう。

それでは例に戻って、n人の身長と体重を計った結果、

i番目の身長xi、体重yiだったとします。

そして身長の平均値をμx、体重の平均値をμyとします。

このとき、xとyの関係を調べるのに共分散(covariance)というものを計算します。

共分散はcov(x,y)やCxyなどと表され、

と定義されます。

分散は2乗されていたので、常に正ですが、共分散はマイナスの値もとれます。そしてこの数式の意味をまとめると

共分散>0→xとyの一方が大きいと他方も大きくなりがち(正の相関)

共分散<0→xとyの一方が大きいと他方は小さくなりがち(負の相関)

共分散が0に近い→xとyに相関関係は見られない

という意味になります。

ここでまず身長と体重の共分散はどういう値になるか予想して見ましょう。

身長が大きいと体重も重くなりがちですよね、同様に体重が重いと身長が高い人が多いですよね(当然例外はありますが、全体として見たときの話です。)

なので、この共分散はゼロより大きくなることが予想されます。

もちろん高身長でガリガリの人と低身長で太った人ばっかがサンプルだったら、共分散はマイナスの値になってしまいます。

具体的な計算は後回しにして、まずはグラフにしてイメージを掴みましょう。2変数があるとき、これらをグラフで表す時に散布図を用います。

ここでは身長と体重を縦軸、横軸に取って、サンプルをグラフ上にプロットしていったものが散布図です。表計算ソフトを使えば一瞬で出せますね。

共分散の値は散布図にどういう影響を与えるのかというと、だいたい下の図のようになります。

これでなんとなくイメージがつかめたと思うので、これを踏まえた上で次は共分散と相関係数の計算をしていきたいと思います。

次回は10. (2次元データ)共分散2