投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

身近な統計:ワールドカップ2014のまともな分析予測レポート(1)

身近な統計(特):ワールドカップ勝敗分析の「まとも」なレポート(1)

ネットでワールドカップに関する分析について探していたら、米国ゴールドマンサックス社による事前分析レポートがスポーツナビのブログに紹介されていた(原文レポートもそこから入手可能)。このレポートの内容の概要はそのブログに書かれている通りだが、ここではもう少し統計学的側面から見てみたい(内容ややテクニカル)。

レポートの最初にある「2014ワールドカップのための統計モデル」では、ワールドカップ出場32チームの過去の真剣勝負公式試合のゴール数を種々の要因で説明する「回帰分析モデル」を構築している。通常の基本的な回帰分析と違う所は、各チーム・試合におけるゴール数がポアソン分布に従うと仮定した「ポアソン回帰分析」である点にある。当ブログの2日前の記事で、出場チームの1試合毎のゴール数の分布を紹介したが、この分布がポアソン分布であると仮定しているわけである。ポアソン回帰は、「一般化線形モデル(GLIM)」の一種であり、推定方法が確立されていて、一部の統計パッケージソフトで計算することができる。一般化線形モデルについては(文献3)などで解説されている。

上記ブログにも書かれているが、この回帰分析の被説明変数は各チームの過去の真剣勝負公式試合のゴール数、説明変数は、(1)各試合で対戦した両チームの実力差を表わす「Eloランキング」の差, (2)そのチームの直近10試合の平均ゴール数, (3)対戦チームの直近5試合の平均ゴール数, (4)その試合がW杯の試合であったかどうかのダミー変数(W杯常連国のみ), (5)その試合が自国開催であったかどうかのダミー変数, (6)その試合が自大陸開催であったかどうかのダミー変数、の6つである。データとして採用したのは1960年からの試合で、データ数は約1万4千である。

(文献3)丹後俊郎「統計モデル入門(医薬統計学シリーズ)」朝倉書店

以下ではポアソン分布とポアソン回帰について整理する。

※数式の体裁を一部修正しました(2014/8/28)。

ポアソン分布とポアソン回帰r2