投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

統計学の基本数式 (3) チェビシェフの不等式

「平均値」がなぜ重要かといえば、サンプルサイズが大きくなると算術平均が期待値に近づくという「大数の法則」があるからといえよう。 その大数の法則の証明など統計の要所で用いられるのが「チェビシェフの不等式」である。 正規分布では、平均プラスマイナス2σから外にはみ出る確率は約5%である。チェビシェフの不等式は、分布がどのような形であっても、平均プラスマイナス2σから外にはみ出る確率は25%より大きくはならないことを保証する。これは以下のチェビシェフの不等式で、 \epsilon = 2 \sqrt{V(Z)} を代入することにより確認できる。

(チェビシェフの不等式) 任意の確率変数Zと正の実数εに対して、以下の不等式が成り立つ。


P(|Z-E(Z)| \geq \epsilon ) \leq \frac{V(Z)}{\epsilon ^2}

(証明) Zがとる値のうち、|Z-E(Z)| \geq \epsilon が成り立っていれば1、成り立っていなければ0を返す関数(Zの関数で真偽関数と呼ぶ)をI(|Z-E(Z)| \geq \epsilon ) と書けば、以下の2つの不等式が成り立つ。


\epsilon ^2 I(|Z-E(Z)| \geq \epsilon ) \leq |Z-E(Z)|^2 I(|Z-E(Z)| \geq \epsilon ) \leq |Z-E(Z)|^2

(1番目の不等式) 真偽関数が1であるところでは|Z-E(Z)| \geq \epsilon なのであるから、両辺を2乗する(同じものをかける)と、|Z-E(Z)|^2 \geq \epsilon ^2 、それ以外(真偽関数がゼロ)のところでは0 \leq 0、よって1番目の不等式は常に成り立つ。 (2番目の不等式) 真偽関数は常に1以下であるから、2番目の不等式は常に成り立つ。

ここで上記不等式の両端の期待値をとる。真偽関数の期待値は、真偽関数が1となる確率である。つまりこの場合、


E(I(|Z-E(Z)| \geq \epsilon ) ) = P(|Z-E(Z)| \geq \epsilon )

となる。また、


E|Z-E(Z)|^2 = V(Z)

したがって、


\epsilon ^2 P(|Z-E(Z)| \geq \epsilon ) \leq V(Z)

P(|Z-E(Z)| \geq \epsilon ) \leq \frac{V(Z)}{\epsilon ^2}

となる(証明終)。