投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

統計学の基本数式 (1) 平均値と期待値

一般にn個のデータがある場合、「平均値」と言えば以下の式で表される算術平均を想像する方が大多数であろう。


\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i

一方、「期待値」というと、あるタレントやスポーツ選手の今後の活躍の度合いの予想値といった意味に使われることが多い。統計学での期待値の意味に近いのは、例えば宝くじを一本買った時の期待利得である。宝くじなどのギャンブルは、掛け金総額の何割かを胴元が取って残りを配分するので、期待利得はマイナスであることは少し考えればわかる。ウェブサイトによれば、サマージャンボ宝くじ連番10枚3,000円の平均払い戻し額は1,430円で、期待利得はマイナス1,570円である。

連続分布の場合の期待値は以下の式で表される。


E(X)=\int xf(x)dx

ここで、f(x)確率密度関数、すなわち値が非負で全区間積分すると1になる関数、積分f(x)が正の値をとる全ての区間について行うものとする。データが正規分布に従っている場合に、分布の期待値の最もよい推定量は算術平均である。