投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

スプレッドシートによるデータアナリティクス(7):相関係数表の出力

数多くの特徴量がある場合に、それらが相互にどのように関連しているかを把握することは様々な場面で必要になります。特に社会経済分野においては、各特徴量が経済成長率や人口などの「交絡要因」を媒介として相互に高い直線的関連性を有しているケースが多く、後に述べる回帰分析での多重共線性の問題を引き起こすため、注意が必要です。前回同様、アドイン(アドオン)をインストールしてあれば、複数の特徴量の相関係数を表形式で出力することができます。さらに、カラースケール書式を活用すれば、数値の大きさを色の違いで表した図(ヒートマップという)にすることができます。

Excelによる相関係数表の出力】

  • (アドイン追加後)画面上側のメニューから「データ」→「データ分析」→「相関」を選択してOKボタンを押す
  • 相関の設定画面で、「入力範囲」の右側の四角の中にデータのセル範囲をセル番地で指定する(例:C1:H48)。あるいは、入力範囲指定の右側のアイコンをクリックし、(ラベルを含む)データ列をドラッグして指定する
  • 「データ方向」は、各特徴量が列に対応している(通常はこちら)場合は「列」を選択し、その逆の場合は「行」を選択する。データの先頭がラベルになっている場合は「先頭行をラベルとして使用」にチェックを入れる
  • 「出力先」の右側の四角の中に結果の表の出力先セルの番地(左上隅になるところ)を指定する

f:id:nicjps230:20210215180849j:plain

  • 「OK」ボタンを押すと相関係数表が表示される

f:id:nicjps230:20210215180928j:plain

  • ヒートマップ表示にしたい場合は、相関係数表の数値部分のセルを選択して、「ホーム」→「条件付き書式」→「カラースケール」から好みのカラースケールを選択する

f:id:nicjps230:20210215181015j:plain

Googleスプレッドシートによる相関係数表の出力】

  • (アドオン追加後)画面上側のメニューから「アドオン」→「XLMiner Analysis Toolpak」→「Start」を選択する
  • 「Correlation」をクリックして設定画面を開き、「Input Range」の右側の四角の中にデータのセル範囲をセル番地で指定する(例:C1:H48)
  • 「Group By」は、各特徴量が列に対応している(通常はこちら)場合は「Columns」を選択し、その逆の場合は「Rows」を選択する。データの先頭がラベルになっている場合は「Labels in First Row」にチェックを入れる
  • 「Output Ragnge」の右側の四角の中に結果の表の出力先セルの番地(左上隅になるところ)を指定する

f:id:nicjps230:20210215181219j:plain

  • 下の「OK」ボタンを押すと相関係数表が表示される

f:id:nicjps230:20210215181307j:plain

  • ヒートマップ表示にしたい場合は、相関係数表の数値部分のセルを選択して、「表示形式」→「条件付き書式」→「カラースケール」を選択して、「最小値の色」と「最大値の色」を指定する

f:id:nicjps230:20210215181347j:plain