投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

身近な統計(4):相関

身近な統計(4):相関

前回は学力テストデータを題材にしたので、しばらくその関連のテーマについて話をする。以下のデータは16名の架空の中学生の「数学」「理科」「英語」の試験の点数である。

3科目テストデータ

以下の図は「数学」と「理科」の点数の関連性をみるための散布図である。

数学理科散布図

両変数の関連の強さを示す指標が、(ピアソンの積率)相関係数である。通常はrが用いられる(-1≦r≦1)。Excelの関数はcorrel()である。この場合はr=0.96と非常に高い。

相関係数式

尚、よく知られていることであるが、rは直線的な関連の強さを示すものである。下のようなデータでは強い関連があるにも関わらずr=0となる。

2次曲線散布図