Pythonで学ぶ統計学(6)：条件付分布（改訂版） - 投資のためのデータサイエンス

2つの連続型確率変数 $X,Y$ の同時確率密度関数を $f_{XY}(x,y)$ とするとき、確率変数 $X$ のみの分布を「周辺分布」といい、以下により求められます。

$f_{X}(x)=\int_{-\infty}^{\infty}f_{XY}(x,y)dy$

確率変数 $Y$ のみの周辺分布についても同様です。ここでのポイントは、「一つの確率変数の分布は、世の中に数多ある確率変数の周辺分布なのだ」と見るのではなく、「ある二つの確率変数の同時分布を仮定した時に、片方だけの確率分布はどのように表されるか」を見るということです。中学校のあるクラスの35人の生徒は身長・体重など様々な特性を個々に持っていますが、直近のテストにおける国語の点数と数学の点数の関連を分析するのであれば、これら二つの得点がある同時確率分布に従うと仮定し（モデルを作り）、実際のテストの得点データから二つの変数の関連性を探ります。

次に、 $X=x$ が与えられた時の $Y$ の条件付確率密度関数は以下のように表されます。

$f_{Y|X}(y|x)=\frac{f_{XY}(x,y)}{f_{X}(x)}$

ただし、 $f_{X}(x)>0$ です。ここで注意すべきは、この式はあくまでも確率変数 $Y$ の確率密度関数についての式であり、 $x$ の値は「与えられている」ということです。

次に、正規分布の条件付き分布についての性質を導き出すための準備をします。尚、ベクトルは太字で表記することが多いですが、ここではスカラー量と同じく通常の細い文字で表記します。

いま、 $p$ 次元の正規分布 $N(\mu ,\Sigma)$ にしたがう確率変数ベクトル $X$ があり、 $X$ を $q$ 次元のベクトル $X_{1}$ と、 $p-q$ 次元のベクトル $X_{2}$ に分割して表します。 $\mu, \Sigma$ も同様に分割して表します。

$X=\begin{pmatrix}X_{1} \\X_{2} \end{pmatrix},\ \mu =\begin{pmatrix}\mu _{1} \\ \mu _{2} \end{pmatrix},\ \Sigma =\begin{pmatrix}\Sigma_{11} & \Sigma _{12} \\ \Sigma _{21} & \Sigma _{22} \end{pmatrix}$

であるとします。まず以下の定理SWP-1は、正規分布の線形結合がやはり正規分布になることを示しています（SWPはStatistics with Pythonの略）

【定理SWP-1】 $A$ 及び $b$ をそれぞれ $q\times p$ 行列及び $q$ 次元ベクトルとする。 $p$ 次元確率ベクトル $X$ が $N(\mu ,\Sigma)$ 　に従っているならば、

$AX+b \sim N(A\mu +b,A\Sigma A')$

である。

次の定理SWP-2は、多次元正規分布の周辺分布もまた多次元正規分布になることを示しています。

【定理SWP-2】 $X \sim N(\mu ,\Sigma )$ のとき、 $X_{1} \sim N(\mu _{1},\Sigma _{11})$ 及び $X_{2} \sim N(\mu _{2},\Sigma _{22})$ である。

二つの正規分布が「無相関」であることと「独立」であることが同値であることはよく知られていますが、次の定理SWP-3はその一般化となっています。

【定理SWP-3】 $X \sim N(\mu ,\Sigma )$ とする。 $\Sigma _{12}=O_{q,p-q}$ （零行列）のとき、 $X_{1}$ と $X_{2}$ は独立である（逆も真である）

次に、以下の2つの行列を定義します。

$A=\begin{pmatrix}I_{q} & -\Sigma _{12}\Sigma _{22}^{-1} \\ O_{p-q,q} & I_{p-q} \end{pmatrix},\ \Sigma _{11|2}=\Sigma _{11}-\Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21}$

そうすると以下の式が成り立ちます。

$AX=\begin{pmatrix}X_{1}-\Sigma _{12}\Sigma _{22}^{-1}X_{2} \\ X_{2} \end{pmatrix},\ A\Sigma A'=\begin{pmatrix}\Sigma _{11|2} & O_{q,p-q} \\ O_{p-q,q} & \Sigma _{22} \end{pmatrix}$

(定理SWP-1)及び(定理SWP-3)により、 $X_{1}-\Sigma _{12}\Sigma _{22}^{-1}X_{2}$ と $X_{2}$ は互いに独立に正規分布に従います。これより以下の定理が導かれます。

【定理SWP-4】 $\Sigma$ は正定値とする。 $X \sim N(\mu ,\Sigma )$ ならば $X_{1}|X_{2}=x_{2} \sim N(\mu _{1}+\Sigma _{12}\Sigma _{22}^{-1}(x_{2}-\mu _{2}),\ \Sigma _{11|2})$ である。

この定理SWP-4の証明の流れは、本ブログにて2014年8月12日に投稿した「もっと知る統計：多変量正規分布(2)」と同じです。ポイントは以下の2点です。

(1) $X_{2}=x_{2}$ が与えられた時の $X_{1}-\Sigma _{12}\Sigma _{22}^{-1}X_{2}$ の条件付き分布は、 $X_{1}-\Sigma _{12}\Sigma _{22}^{-1}X_{2}$ の分布に等しくなる。これらは両方とも正規分布であり、平均と分散が一致することで同等性を示せる。

(2) $X_{2}=x_{2}$ が与えられた時の条件付き分布の平均と分散を評価する場合、 $x_{2}$ は固定された値であるので、平均は $X_{1}$ に加わる $x_{2}$ の部分だけ嵩上げされ、分散は $x_{2}$ の部分は無視すればよい。

尚、2変量正規分布の場合は、定理SWP-4のベクトル・行列を全てスカラーに読み替えて、 $\Sigma _{12} \rightarrow \rho \sigma _{1}\sigma _{2},\ \Sigma _{22}^{-1} \rightarrow 1/\sigma _{2}^{2}, \ \Sigma _{11|2} \rightarrow \sigma _{1}^{2}(1-\rho^{2})$ と表せば、

$X_{1}|X_{2}=x_{2} \sim N(\mu _{1}+\frac{\sigma _{1}}{\sigma _{2}}\rho (x_{2}-\mu _{2}),\ \sigma _{1}^{2}(1-\rho^{2}))$

となります（ $\rho$ は相関係数）。