[統計学]9.徹底解説!共分散と相関係数の計算と意味

広告

前回の記事→超基本内容のおさらい

今までは1つの対象に対して1つの変数を扱って来ましたが、これからは1つの対象に2つの変数を同時に扱って行きます。

例えば、1番、2番、3番・・・とn人の身長と体重を計りました。今までは身長の平均、体重の平均などを求めてきましたが、2次元データを扱う上では、身長と体重の関係を調べていきます。ここでは身長、体重としましたが、一般に2変数x,yがあって、xがyをある程度決定する関係があるとき、xからyを見ることを回帰と言います。xとyのどちらかが、どちらかを決定しないとき、これらを対等に見ることを相関と言います。

身長と体重の例では、体重を増やせば身長が伸びるわけではなく、身長で体重が決まってくるわけではないですから、相関関係を調べます。

人口とコンビニの店舗数では、人口が増えるほどコンビニの店舗数が増えそうですから、回帰分析を用います。

回帰分析は後ほど学びますので、今回は相関関係を調べていきます。

身長が大きくなれば体重は増えるのか?

身長が大きくなれば体重は減るのか?

身長と体重は関係ないのか?

ということを調べていきましょう。

それでは例に戻って、n人の身長と体重を計った結果、

i番目の身長xi、体重yiだったとします。

そして身長の平均値をμx、体重の平均値をμyとします。

このとき、xとyの関係を調べるのに共分散(covariance)というものを計算します。

共分散はcov(x,y)やCxyなどと表され、

と定義されます。

分散は2乗されていたので、常に正ですが、共分散はマイナスの値もとれます。そしてこの数式の意味をまとめると

共分散>0→xとyの一方が大きいと他方も大きくなりがち(正の相関)

共分散<0→xとyの一方が大きいと他方は小さくなりがち(負の相関)

共分散が0に近い→xとyに相関関係は見られない

という意味になります。

ここでまず身長と体重の共分散はどういう値になるか予想して見ましょう。

身長が大きいと体重も重くなりがちですよね、同様に体重が重いと身長が高い人が多いですよね(当然例外はありますが、全体として見たときの話です。)

なので、この共分散はゼロより大きくなることが予想されます。

もちろん高身長でガリガリの人と低身長で太った人ばっかがサンプルだったら、共分散はマイナスの値になってしまいます。

具体的な計算は後回しにして、まずはグラフにしてイメージを掴みましょう。2変数があるとき、これらをグラフで表す時に散布図を用います。

ここでは身長と体重を縦軸、横軸に取って、サンプルをグラフ上にプロットしていったものが散布図です。表計算ソフトを使えば一瞬で出せますね。

共分散の値は散布図にどういう影響を与えるのかというと、だいたい下の図のようになります。

これでなんとなくイメージがつかめたと思うので、これを踏まえた上で実際に共分散の計算をやってみましょう。

まず共分散の式をもう一度書きます。

こうでしたね。計算が結構めんどそうですが、ちょっと楽する方法があります。共分散の式をちょっと変形してみましょう。

この結果を使って計算すると、引き算しなくていいのでだいぶ楽になるわけですね。

それでは5人の身長と体重を計ると下の表のようになったとします。

1 2 3 4 5
身長[cm] 165 158 172 154 176
体重[kg] 60 54 70 62 84

これで実際に共分散を求めてみます。簡単のため、身長をx、体重をyとすると、

身長の平均μxと体重の平均μy

というようになります。さらに

よって共分散は

これで共分散が求まりました。5つのデータだけなので見かけほどしんどくはないですね。

この共分散は正の値なのでこの場合、身長と体重には正の相関があるということができます。

しかし、どれほどの相関があるかというのは正直よくわかりません。70.8という数字は大きいのか小さいのかを比べる基準がないからです。

分散や標準偏差があまり実感がわかないときに分布の標準化を使って偏差値やz得点を使えばわかりやすくなりましたよね。今回使うのはそれとまったく同じ考え方です。

共分散はプラスやマイナスの値を取るのですが、この共分散の範囲を-1から1までに収めることができます。これが相関係数です。
まずは相関係数の式を示します。(xとyの相関係数はrxyと表されます。)

共分散を標準偏差の積で割ったものだと覚えておけば、導けると思います。

なぜ-1≦rxy≦1になるかは最後の方に証明します。(結構簡単です)
相関係数は分母は2変数x,yの標準偏差で、分子に共分散が来てますね。
この相関係数の値はあくまで私の実感ですが、

-1≦rxy≦-0.7 強い負の相関
-0.7≦rxy≦-0.4 そこそこの負の相関
-0.4≦rxy≦-0.2 弱い負の相関
-0.2≦rxy≦0.2 ほとんど相関はない
0.2≦rxy≦0.4 弱い正の相関
0.4≦rxy≦0.7 そこそこの正の相関
0.7≦rxy≦1 強い正の相関

といった感じに思っていただければいいと思います。(これを覚える必要はありません)

前回と同じ表を用いて実際に相関係数を求めてみましょう。まず下の表がありまして

1 2 3 4 5
身長[cm] 165 158 172 154 176
体重[kg] 60 54 70 62 84

身長xの平均値μx=165
体重yの平均値μy=66
共分散cov(x,y)=70.8
でしたね。
相関係数を求めるために、xとyの標準偏差を求めてみましょう。

よって相関係数は

よって相関係数は0.83となりました。このデータは架空のデータですが、身長と体重の相関は強いそうです。この相関係数という意味はあくまで相関関係であって因果関係を示しているわけではないことに注意してください。この相関係数を見て、体重を増やせば身長が伸びるとかそういうわけではありませんから食べ過ぎにも注意してくださいね。

しょうもないことを言いましたが、なぜ相関係数が-1から1までの範囲におさまるのかということを証明します。まずコーシー・シュワルツの不等式と呼ばれる有名な不等式があります。Σを用いた場合以下のようになります。

とすると

左辺は分散の定義、右辺は共分散の定義ですから

両辺を左辺で割ると

よって相関係数が-1から1までの範囲になることが示ました。

これで長かった基本編は終わりです。次は記述統計学をやっていきます。

次の記事→記述統計学〜図表の見方とヒストグラム〜

統計学のおすすめ本はマセマの確率統計がおすすめです、式変形が丁寧で何回な教科書に比べ理解がスムーズになるのでおすすめです!数学的にちゃんと理解したい方にはうってつけの一冊になるでしょう。

 

プログラミングのための確率統計も良いですね。プログラミングのためのとは書いてありますが、実際はプログラマでなくても読みやすい内容で直感的に理解できる説明でおすすめです。初学者にはこちらをおすすめします。

関連記事