投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

ゴールデンウィーク特集:データ解析入門 (3)

1.二つの変量間の相関 データ解析においては、二つの変量の間にどのような関連があるかを調べることはよくある。 この図は、1998年における日本の都道府県別の県民所得指数と預貯金指数の関連を示した散布図である。データの個体は都道府県である。 県民所得が多いほど預貯金が多いであろうことは容易に想像される。その関連性を示す指標が「相関係数」である。この場合相関係数は0.68であり、やや高めの正の相関があることを示している。 相関係数は、あくまでも直線的な関連の強さを示すものであることに注意する必要がある。また「相関」と「因果関係」の違いにも注意が必要である(詳しくは別ブログを参照されたい)。
2.回帰分析 このような二変数の間の直線的な相関関係を直線(一次式)で近似すると以下のようになる。この直線を回帰線といい、このような分析を回帰分析という。 ここでの場合は最も基本的な単回帰式と呼ばれるもので、回帰分析には様々なモデルがある。 回帰分析は通常、X軸の値からY軸の値を予測する場合に用いられる(例えば別ブログ「賃貸マンションの家賃の予測式」を参照されたい)。 このデータに回帰線をあてはめる場合に注意すべきなのは、右端の一つ離れた点(この場合は東京都)である。回帰線は各データから線に下ろした垂線の長さの自乗和が最小になるように引かれるので、このような離れた点になるべく近づくように線が引かれる。この場合はそれほどでもないが、場合によっては他のデータとはかなり外れた所に線が引かれてしまうこともある。