投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

ワールドカップの得点分布(2)

ワールドカップの得点分布(その2:テクニカル)

ワールドカップ・ブラジル大会も明日でグループリーグ終了である。日本にとっては大変厳しい結果となったが、ここでは今大会のゴール数を中心にデータの読み解きをしてみよう。今日はその準備段階である。今大会のデータ分析は次回行う。

6月16日の当ブログで、前回W杯南ア大会のグループリーグ試合のゴール数の分布をとりあげた。これが2012年の統計検定の問題に用いられたことを述べたが、この問題は、このデータ(下の表参照)がポアソン分布とどの程度適合しているかを検定し、パラメータの信頼区間を求めよ、というものであった(文献1)。

上記データにポアソン分布を当てはめた場合、ポアソン分布の唯一のパラメータ(平均及び分散)λの最尤推定量は各チーム・試合を1ケースとした時の全ケースについての算術平均である。これは前に述べたように101/96=1.052であった。

次に、このデータ分布がどの程度ポアソン分布に近いかを調べるためには、「適合度検定」を用いる。まず、ゴール数毎に、実測値と期待値(全ケース数×そのゴール数となる確率)を列挙する。適合度検定統計量は、

Σ{(実測値-期待値)^2}/(期待値)である。ただし期待値が4以下のセルはひとまとめにしている。カイ二乗分布の自由度は、(カテゴリー数)-(推定パラメータ数)-1 = 3 である。以下にエクセルを用いた計算結果を示す。尚、期待値の計算にはポアソン分布の確率を求める=poisson()関数を、カイ二乗分布のp値の計算にはカイ二乗分布の上側確率を求める=chidist()関数を用いている。南ア大会の得点分布はポアソン分布にきわめてよく適合していた。

WC適合度検定

さらに、4年後にも得点分布が変わらないとして、ブラジル大会での平均ゴール数λの95%信頼区間を求める。文献にある中での「ワルド型区間推定」は以下の通りである。

最初に掲載した数式に誤りがありました。お詫びして訂正いたします(2014/7/6)。

(文献1)「統計検定 問題と解説(2012年)1級・RSS/JSS試験」実務教育出版

ポアソン区間推定r1