2.基本編 データの分類

統計学を学ぶに当たって用語があるので、覚えておいた方がいいものだけ解説して行きたいと思います。

まずはデータを分類していきます。

世の中には色んな種類のデータがあります。

今日の気温、顧客の性別、アンケート結果、売上高、等々多くのことはデータになります。

でも顧客の性別と売上高ってなんだかジャンルが違う気がしませんか?

性別は男性、女性の2つですが、売上高は取りうる値がいっぱいありますよね。

このようにデータはすべて同列に扱うのではなく、データによって扱い方が違います。

それではデータの分類ですが、大きく分けて2つあります。

それは質的データ(カテゴリデータ)と量的データです。

質的データとは、性別や名前や順位が質的データとなります。

さらに質的データには名義尺度順序尺度があります。

大会の順位は1位、2位、…となりますが、この1と2には順番という意味がありますね。このように順番があるのが順序尺度と言います。

これに対して名義尺度というのは、

例えばマークシートなどの番号で男性を1、女性を2という数字を割り振ったとしましょう。でもこの1、2という数字は単に割り振っただけで、別に3でも7でも良かったわけです。このように数字に意味がなく、単に区別するためのデータを名義尺度と言います。

続いて量的データですが、これもまた2つに分類できます。

比例尺度間隔尺度です。

これは比率に意味があるかないかという違いがあります。

例えば、今朝の気温は6度で昼間には12度まで上がりました。ここで6から12へと数字が2倍になりましたが、この2倍には意味がありません。このように比率に意味がなく、目盛りが等間隔で間隔に意味があるのが間隔尺度といいます。同じように日付も間隔尺度になります。

逆に身長や体重や売上高などは比に意味がありますよね。身長が100センチから120センチに伸びれば20%身長が伸びたと言えます。こういう比率にも意味がある量的データを比例尺度といいます。

以上がデータの分類です。

ここで、順序尺度と間隔尺度を混同されやすいですが、目盛りが等間隔であるかに注目してください。100m走で1位と2位のタイムの差と2位と3位のタイムの差は常に同じではありません。当然ながら温度などは1度の間隔などは常に1度です。

syakudo

このようになるわけですね。

データの分類をまとめると下の表になります。

bunrui

当然ながら、データの種類が違えば、アプローチも違って来ます。

例えば、みんなの購買額の平均値を出すと、一人当たりどれくらいのお金を使うのかわかるはずです。顧客ナンバーも数字ですから、顧客ナンバーの平均値を取ってみれば、、、意味がないですね笑

実際に経済学、理工学、ビジネスの応用シーンでは皆さん「数字」を気になさるのではないでしょうか。やはりよく分析の対象にするのは比例尺度です。なのでこれからは比例尺度について多く解説していますが、比例尺度の考え方が他の種類のデータにも応用することができますので、「おれ5段階評価のアンケート結果分析したいから、間隔尺度の分析について教えてくれよ~」と思っている方も、ひとまず比例尺度の分析を学ぶことをお勧めします。

以上でデータの分類の話が終わりました!

次回は3.記述統計と推測統計