投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

身近な統計(5):相関と因果

身近な統計(5):相関関係と因果関係

2つの変数間に相関関係があるからといって、その変数に対応する事象間に因果関係があるとは限らない。これはネット上でもさまざまな解説がなされている。問題はこのような相関関係と因果関係の混同が知識不足だけでなく意図的に(因果関係があるかのように見せるために)なされることが「しばしば」あることである。

ちなみにこのような「因果関係の誤謬」とは具体的には以下のようなタイプのものがある。

因果関係の誤謬

上記のうち、最も頻繁に現れて混乱を招くのは「交絡変数の存在」であろう。複数の変数間の関連を読み解く場合には、この交絡変数の存在に十分注意する必要がある。

以下の図は、前回用いた3教科のテスト得点のうち、「英語」と「数学」の散布図である。

数学英語散布図

これは架空のデータであるが、おそらく実際のデータもこのような相関を示していると思われる。これは「交絡」とは若干意味合いが異なるが、実務上は、「英語の得点と数学の得点に関連がある」と見るよりも、「背後に『基本的学力』という変数があり、この変数の値の高い生徒はどのテストの得点も高く、低い生徒はどのテストの得点も低い」と解釈する場合が大部分であろう。この「基本的学力」のような潜在的な尺度を見える化するために、「主成分分析」「因子分析」「数量化Ⅲ類」などの多変量解析手法が用いられる(多変量解析については「身近な統計」とは別枠で解説する)。