投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

統計学の基本数式 (2) 確率分布のもう一つの特性値:分散

前回述べた「期待値」は、確率分布の位置(location)を表す特性値である。 もう一つの重要な特性値は分布の幅・ばらつきの大きさ(scale)である。 これは例えば、あるクラスの生徒の身長をメートル単位で表すかセンチメートル単位で表すかという単位の問題がある。 また、個人で余剰資金を貯めて運用するのに、銀行預金などのいわゆる無リスク資産として持つより、株や投資信託などのリスク資産として持つ方が、価格の変動がより大きい。これも確率分布の分散の大きさの違いと捉えることができる。 n個のデータがあった時の標本分散は以下の式で表される。


\hat{\sigma}^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2

一方、連続分布の場合の分散(二次のモーメント)は以下となる。


V(X)=\int (x-E(X))^2 f(x)dx

データが正規分布に従っている場合に、分布の分散パラメータ\sigma ^2最尤推定量は上記の標本分散であるが、この推定量の確率変数としての平均値は真の平均値と一致しない。真の平均値と一致する推定量(不偏推定量)は以下のようにnでなくn-1で割ったものとなる。


s^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2