投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

統計学の基本数式 (8) 回帰の分散分析

単回帰モデル


Y=\alpha + \beta X

において、Yの算術平均のまわりの総変動S_{yy}は以下のように分解できる。


S_{yy}=\sum _{i=1}^{n} (y_i -\bar{y})^2 = \sum _{i=1}^{n} (y_i -(\hat{\alpha}+\hat{\beta} x_i )+(\hat{\alpha} +\hat{\beta} x_i)-\bar{y})^2


=\sum _{i=1}^{n} (\hat{\alpha}+\hat{\beta} x_i -\bar{y})^2 + \sum _{i=1}^{n} (y_i -(\hat{\alpha} + \hat{\beta} x_i))^2

ここで計算の際に、交互作用項は、 \hat{\beta}=\frac{S_{xy}}{S_{xx}} , \ \hat{\alpha}=\bar{y}-\hat{\beta}\bar{x} を代入することによりゼロとなる。

この変動和の分解における第1項は回帰変動平方和である。


S_R = \sum_{i=1}^{n} (\hat{\alpha}+\hat{\beta} x_i -\bar{y})^2 = \frac{S_{xy}^2}{S_{xx}}

これは\hat{\alpha} =\bar{y}-\hat{\beta} \bar{x} を上式に代入することにより導かれる。

また変動和の分解における第2項は残差平方和である。これも同様の代入により導かれる。


S_e = \sum _{i=1}^{n} (y_i -(\hat{\alpha} + \hat{\beta} x_i))^2=S_{yy}-\frac{S_{xy}^2}{S_{xx}}

回帰変動和を総変動和で割ったものを決定係数と呼ぶ。その平方根はxとyの相関係数である。


R^2 =\frac{S_R}{S_{yy}}=\frac{S_{xy}^2}{S_{xx} S_{yy}} =1-\frac{S_e}{S_{yy}}

以上の変動の分解を分散分析表にて整理する。