投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

統計まとめ:因子分析(その2:改訂版)

今更ですが、2014年の記事の続きです。

前回の記事で、観測される変数 u_{j} を、因子負荷量 b_{jk} 、共通因子 f_{k} 及び独自因子 \epsilon_{j} の線形関係の式で表しました。
 \displaystyle u_{i1}=b_{11}f_{i1}+b_{12}f_{i2}+\epsilon _{i1} \\u_{i2}=b_{21}f_{i1}+b_{22}f_{i2}+\epsilon _{i2} \\u_{i3}=b_{31}f_{i1}+b_{32}f_{i2}+\epsilon _{i3} \\u_{i4}=b_{41}f_{i1}+b_{42}f_{i2}+\epsilon _{i4}

【主因子法】

次に、因子負荷量を求める古典的な方法である主因子法について見てみましょう。前回記事の最後の式より以下が成り立ちます。
 \displaystyle \Pi -D = \left( \begin{matrix} 1-d_{1}^{2} & \rho_{12} & \rho_{13} & \rho_{14} \\ \rho_{21} & 1-d_{2}^{2} & \rho_{23} & \rho_{24} \\ \rho_{31} & \rho_{32} & 1-d_{3}^{2} & \rho_{34} \\ \rho_{41} & \rho_{42} & \rho_{43} & 1-d_{4}^{2} \end{matrix} \right)

ここで d_{j}^{2}は独自因子 \epsilon _{j}の分散を表しています。

上記のうち、対角線以外の要素は、 \widehat{\rho _{jk}}=r_{jk} (標本相関係数)で推定することとします。

また、1-d_{1}^{2} の推定量として、目的変数を u_{1} 、説明変数を u_{2},u_{3},u_{4} とした場合の重回帰分析の寄与率を用いることが考えられます。

このように設定した \widehat{\Pi -D} 固有値固有ベクトルを計算します。固有値の大きい方から2つを \lambda _{1},\lambda _{2} とし、対応する長さ1の固有ベクトル



c_{1}=\left( \begin{array}{c}c_{11} \\ c_{21} \\ c_{31} \\ c_{41} \end{array} \right) ,\ \ \ \

c_{2}=\left( \begin{array}{c}c_{12} \\ c_{22} \\ c_{32} \\ c_{42} \end{array} \right)

とするとき、 B を、

 

\hat{B}=\left( \begin{array}{c}

\sqrt{\lambda_{1}}c_{11} & \sqrt{\lambda_{2}}c_{12} \\

\sqrt{\lambda_{1}}c_{21} & \sqrt{\lambda_{2}}c_{22} \\

\sqrt{\lambda_{1}}c_{31} & \sqrt{\lambda_{2}}c_{32} \\

\sqrt{\lambda_{1}}c_{41} & \sqrt{\lambda_{2}}c_{42} \\

\end{array} \right)

と推定します(式1)。

そして以下の反復計算を行って推定値の精度を高めます。

(1)   \widehat{\Pi -D} の対角要素を \hat {B} \hat{B}' の対角要素で置き換える

(2) 置き換えた行列の固有値固有ベクトルを求める

(3) (式1)により \hat{B} を推定する

【バリマックス回転】

2次元平面の原点から点 (x,y)' へのベクトルを角度 \theta 回転させる行列は、

 

T = \left(

\begin{array}{cc}

\cos \theta & -\sin \theta \\

\sin \theta & \cos \theta \\

\end{array}

\right)

ですが、因子負荷量の推定量 \hat{B} について \hat{B}^* =\hat{B}T'  とおくと、  T'T=I より、

  \hat{B}^{*}\hat{B}^{*'}=\hat{B}T'T\hat{B}' =\hat{B}\hat{B}' となり、因子負荷量の行列は回転に対して不定(回転を施したものも同様に解としての条件を満たす)であることがわかります。そこで、因子の解釈が容易になるように回転を施します。最も有名な方法が「バリマックス回転」で、因子負荷量行列(ここでの例では4×2行列)の各要素を2乗してできた行列の各列の分散を最大にする回転です。この各列の平方の値のばらつきが大きいということは、ゼロに近い項目とゼロから離れた項目に分離される傾向があることになります。