投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

身近な統計:ワールドカップ勝敗分析の「まともな」レポート(2)

身近な統計(特)ワールドカップ勝敗分析の「まともな」レポート(2)

前回紹介した米国ゴールドマンサックス社によるレポート(スポーツナビのブログから入手可能)についてもう少し説明しよう。

前回記述したポアソン回帰モデルによって、2014年ワールドカップブラジル大会の各試合毎に、両チームの期待ゴール数が計算できる。しかしこれはあくまで期待ゴール数であり、0.7とか1.25とかいった整数でない値になる。実際のゴール数はこの期待ゴール数をパラメータとするポアソン分布にしたがって分布する。

そこでこのレポートでは、10万回の「モンテカルロ・シミュレーション」を行っている。例えば日本✕コートジボワール戦を例にとって、その手順を見てみよう。

(1)日本とコートジボワールの両チームについて、モデルの説明変数となるデータを用意する。

(2)モデルにデータを当てはめて、ポアソン分布のパラメータを推定する。

(3)各チームのゴール数を乱数を用いた確率実験により算出する。まず、区間(0,1)の一様乱数を発生させて一つの値を得る。次に、ポアソン分布の分布関数をF(x)としたとき、F(x)の逆関数に上で得た一様乱数の値をあてはめ、ゴール数を得る。

(4)両チームのゴール数により、「日本勝利」「コートジボワール勝利」「引き分け」が決まる。

上記作業を実際のワールドカップの試合スケジュールに沿って実施して、決勝戦まで行う。これを1セットとして、コンピュータ上で10万セット(または10万試合)のシミュレーションを行う。

尚、本レポートは「ワールドカップの国別勝敗と株式市場」についての分析が主目的である。この種のレポートは「株式市場予測」という性格上公開とするのが原則であるが、実際にはかなりの部分趣味でやっていると思えるようなレポートになっている。