投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

条件付き確率とベイズの定理(新型コロナウイルスを例に)

今回は、新型コロナウイルス問題と関連して、条件付き確率とベイズの定理について考えてみます。本記事はデータサイエンス英文サイトをベースに作成しました。

新型コロナウイルスに感染している可能性は?】

あなたはある朝目を覚ますと、せきや発熱の症状があり、「もしかして新型コロナウイルスに感染したのでは」と心配でたまらなくなり、病院へ行って観てもらうことに決めます。基本的な検査の後、医師は、1,000人に1人しか発生しない希少疾患の検査をいくつか実施します。あなたは非常に心配しており、あなたはコロナウイルスの検査を受けます。残念なことに、結果は陽性であり、検査が正確かどうかを確かめるために医者に問いただします。医者は、検査で99%の精度で疾患を特定すると言います。それでは実際に新型コロナウイルス感染症にかかっている可能性はどのくらいあるでしょうか?最初は病気にかかっている可能性が高いと思われるかもしれません。ある人は検査の精度が99%なのだから、新型コロナウイルス感染症にかかっている確率は99%であると言うでしょう。しかしトーマス・ベイズはその主張に同意しません。トーマス・ベイズは、英国の統計学者、哲学者、長老派の牧師であり、彼の名を冠する定理:ベイズの定理を定式化することで知られています。ベイズの定理によれば、このケースでは新型コロナウイルス感染症にかかっている確率はわずか9%です。

ベイズの定理は、イベントに関連する可能性のある条件の事前知識に基づいて、イベントの確率を記述します。ベイズの定理を使用して、この病気にかかっている確率を見つける方法を見てみましょう。

【条件付き確率】(下の注記をあわせて参照のこと)

10万人の人がいる場合、新型コロナウイルス感染症にかかっている人は100人になり、残りの99,900人には病気がありません。この病気にかかっている 100人がテスト99に行くと、テストの精度は99%なので、1人はテストで陰性になります。しかし、一般的に見逃しているのは、病気にかかっていない99,900人が検査を受けた場合、999人の1%が偽陽性と判定されるということです。今もしあなたが検査で陽性と判定されたとすると、あなたが真に新型コロナウイルス感染症にかかっているためには、真に病気を持っていてかつ検査で陽性と判定された99人の中に入っていなければなりません。陽性と判定された人の総数は99 + 999です。したがって、陽性と判定されたときに病気である確率は99 /(99 + 999)= 0.0901で、約9%です。これを絵で見る方がはるかに簡単です。

conditional_probalility.jpeg

正方形全体が100,000人または私たちのフルセットを表すと仮定しましょう。左の縦に長い赤と緑の領域はすべて、病気にかかっている100人の人々のセットです。この縦長の領域は、緑の領域と赤の領域の2つに分かれています。緑の領域には、この病気にかかっており、検査で陽性である99人がいます。テストの精度は99%であるため、この病気にかかっている人のうち1人は、赤の領域にある陰性と診断されます。同様に、検査に行くときに病気にかかっていない99,900人の99%、つまり98901人(青色の領域)は正しくテストされ、陰性と判定されますが、99,900人の1%、つまり999人(黄色の領域)は陽性と判定されますが病気にかかっていません。これで、9%の確率へどのように到達したかを確認できます。あなたがテストで陽性と判定された条件の下で本当に病気である確率は99 /(99 + 999)です。これを少し形式化しましょう。

ベイズの定理は、証拠(E)が与えられた場合に仮説(H)が真である確率を見つけるためのフレームワークを提供します。上記の例では、あなたはまれな病気にかかっているという仮説を立てており、私たちの証拠は陽性の検査結果です。ベイズの定理は以下の式で表されます。

\[ P(H|E)=\frac{P(E|H) \times P(H)}{P(E)} \]

\( P(H|E) \) は、証拠が真である場合に仮説が真になる確率を意味します。

\( P(E|H) \) は、仮説が真の場合に証拠が真になる確率を意味します。

【注記】

上記の例では、感度(罹患者のうち陽性になる割合)、特異度(非罹患者のうち陰性となる割合)がともに99%であるとしていますが、一般的にこれらの二つの割合は一致しません。現下の新型コロナウイルスPCR検査の場合、感度は70%位と言われており、特異度に関してははっきりわかっていません。ここからは推測ですが、現状で検査する優先順位の高い人は濃厚接触などにより感染リスクが高い人であるため、「検査で陽性」はほぼ100%「感染者」と判断しても差し支えない状況にあると思われます。正確な感度や特異度の算出にはより長期の疫学調査が必要でしょう。