投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

統計学の基本数式 (9) 重回帰分析

以前の専門ブログで、賃貸マンションの家賃の決定要因についての分析を行った。その事例を用いて解説する。 賃貸マンションの平米あたりの月極め家賃Yは、駅から徒歩分数X_1, 築年数X_2に依存して変動する。各要因が家賃に線形に影響を及ぼすとすると、以下のように書ける。

 Y=\alpha +\beta_1 X_1 + \beta_2 X_2

より一般的に説明変数をp個として、n個の個体(ケース)についてのデータが得られているとする。 i番目の個体についての被説明変数はy_i、説明変数はx_{i1} , x_{i2} , \cdots, x_{ip} である。以下の構造式を考える。

 y_i=\alpha +\beta_1 x_{i1} +\beta_2 x_{i2} + \cdots +\beta_p x_{ip} +\epsilon _i

ただし\epsilon _iは互いに独立に正規分布N(0,\sigma ^2 )にしたがう。残差平方和

 S_e = \sum_{i=1}^n e_i\ ^2


=\sum_{i=1}^{n}(y_i-(\alpha+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}))^2

を最小にする\alpha , \beta _1 ,\beta _2 ,\cdots ,\beta _pを求めるために、S_e\alpha , \beta _1 ,\beta _2 ,\cdots ,\beta_ pそれぞれで偏微分した式を0と置くと、\alpha , \beta _1 ,\beta _2 ,\cdots ,\beta _pに関するp+1次元連立一次方程式

 X'X\boldsymbol{\beta}=X'\boldsymbol{y}

を得る。最小二乗解は、

 \hat{\boldsymbol{\beta}}=(X'X)^{-1} X'\boldsymbol{y}

である。yの総変動の分解は単回帰と同様に、

 S_{yy}=S_R + S_e =\sum_{i=1}^n (\hat{y}_i -\bar{y})^2 +\sum_{i=1}^n (y_i -\hat{y}_i)^2

となる。ここでの回帰係数は「偏回帰係数」とも呼ばれ、「他の説明変数の値を固定したとき、j番目の説明変数を1単位増やしたら、被説明変数の値がどれだけ増えるか」を表す。