ゴールデンウィーク特集：データ解析入門 (4) - 投資のためのデータサイエンス

１．クロス集計表 前回は連続な２つの変量の間の関連について話したが、カテゴリカル（離散的）な２つの変量の間の関連を示すのがクロス集計表である。以下の例は、その中でも最も基本的な２×２クロス集計表である。

（夫婦別姓に関するアンケートの集計結果）性別　　同姓がよい　　　別姓でよい　合計男性　　　　　331　　　　　217　　　548 女性　　　　　315　　　　　352　　　667 合計　　　　　646　　　　　569　　 1215

この場合の「変量」は、「性別」と「夫婦別姓に関する意見」であり、どちらも二値のカテゴリカル変数である。これら2つの変量間に関連性があるかどうかを見たいとする。そのためには、関連性がない、つまり二変量は互いに独立であるとすればどうなるかを見る必要がある。性別と夫婦別姓に関する意見に関連性がないとは、「同姓がよい」と答えた人と「別姓でよい」と答えた人の比率が男性も女性も同じ、結局男女合わせた合計の比率と同じということになる。この場合に上の表の合計以外の数値欄にはいる数字を「期待度数」といい、以下の式で計算する。（「男性×同姓がよい」の期待度数）＝（「男性」の合計）×（「同姓がよい」の合計）÷（総合計）他の3つの欄についても同様に計算する。期待度数は以下のようになる。性別　　同姓がよい　　　別姓でよい　合計男性　　　　291.4　　　　256.6 　　548 女性　　　　354.6　　　　312.4 　　667 合計　　　　　646　　　　　569　　 1215 期待度数は整数になるとは限らないので小数点一桁まで表示してある。この期待度数と実現度数がかなり食い違っていれば、二変量間に関連性があるといえるだろう。

２．独立性の検定 ここで独立性を判断するために、統計的検定という方法を用いる。この場合、二変量が独立であると仮定すると（これを帰無仮説という）、（実現度数－期待度数）^2/（期待度数）の和は近似的に自由度1のカイ二乗分布に従うことが知られている（^2は2乗すること）。そこでこの統計量を計算し、その値が自由度1のカイ二乗分布としては非常に起こりにくい値であった場合、独立であると仮定したことが適切ではなかった、つまり二変量間に関連性があると判断する（これを帰無仮説が棄却されたという）。この例の場合、統計量の値は20.97となる。自由度1のカイ二乗分布でこれ以上の値をとる確率（p値という）は4.66E-06である。これは一応有意性の目安とされている0.05よりもはるかに小さい。そこで「性別」と「夫婦別姓に関する意見」は関連性があると判断する。期待度数と実現度数の比較でわかるように、男性は「同姓がよい」が多く、女性は「別姓でよい」が多い。