統計学の基本数式 (3) チェビシェフの不等式 - 投資のためのデータサイエンス

「平均値」がなぜ重要かといえば、サンプルサイズが大きくなると算術平均が期待値に近づくという「大数の法則」があるからといえよう。その大数の法則の証明など統計の要所で用いられるのが「チェビシェフの不等式」である。正規分布では、平均プラスマイナス2σから外にはみ出る確率は約5%である。チェビシェフの不等式は、分布がどのような形であっても、平均プラスマイナス2σから外にはみ出る確率は25%より大きくはならないことを保証する。これは以下のチェビシェフの不等式で、 $\epsilon = 2 \sqrt{V(Z)}$ を代入することにより確認できる。

（チェビシェフの不等式）任意の確率変数Zと正の実数εに対して、以下の不等式が成り立つ。

$P(|Z-E(Z)| \geq \epsilon ) \leq \frac{V(Z)}{\epsilon ^2}$

（証明） Zがとる値のうち、 $|Z-E(Z)| \geq \epsilon$ が成り立っていれば1、成り立っていなければ0を返す関数（Zの関数で真偽関数と呼ぶ）を $I(|Z-E(Z)| \geq \epsilon )$ と書けば、以下の2つの不等式が成り立つ。

$\epsilon ^2 I(|Z-E(Z)| \geq \epsilon ) \leq |Z-E(Z)|^2 I(|Z-E(Z)| \geq \epsilon ) \leq |Z-E(Z)|^2$

（1番目の不等式）真偽関数が1であるところでは $|Z-E(Z)| \geq \epsilon$ なのであるから、両辺を2乗する（同じものをかける）と、 $|Z-E(Z)|^2 \geq \epsilon ^2$ 、それ以外（真偽関数がゼロ）のところでは $0 \leq 0$ 、よって1番目の不等式は常に成り立つ。（2番目の不等式）真偽関数は常に1以下であるから、2番目の不等式は常に成り立つ。