投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

ゴールデンウィーク特集:データ解析入門 (1)

1.定量データの意義 例えば、「今日もうだるような暑い一日であった」という記述は、文学作品や個人の日記に出てきそうな表現である。「暑い」という事実よりも「暑くて心地悪かった」という感情を表現することに重きをおいている。 一方、明日の天気予報で、「明日もうだるような暑い一日になるでしょう」と聞いた場合、なんとなく状況は想像できるが、具体的にどういう対策をすればいいかを考えるには不十分である。「明日の最高気温は35度でしょう」「明日の熱中症指数は『厳重警戒』レベルです」と聞けば、外出先ではこまめな水分補給が必要だとか、そもそも外出はやめようとかの判断の材料になる。 このように、具体的なアクションを起こすために有用な情報は、定量化されている方が客観性があり、より望ましい。これが企業経営のような、社会への大きなインパクトや多くの人の人生をも左右してしまうような意思決定の場合、なるべく多くかつ様々な角度からの定量データを見て判断することがどうしても必要である。会社のお金のやりくりがどのようになっているかは、財務諸表という数値表及びそれから導かれる「自己資本比率」などの数値を見て判断する。 個人のスキルでも、「英語が流暢」よりも「TOEIC850点」の方が、企業や組織の採用担当者にとっては判断がしやすい。「老後のお金が心配」であるならば、現在貯蓄額と将来の予想収入と支出をもとに、今後毎年の資産残高をエクセルを使ってシミュレートすれば、そもそも心配する必要があるのか、定年を過ぎても働く必要があるのか、今よりどの程度節約すればいいのかなどが判断しやすくなり、漠然と心配しなくても済むようになる。 このように、あるアクションや意思決定をするためには、事前にそれに関わる定量データを見ることがとにかく重要である。
2.データ解析とは 逆に、データ解析とは、あるアクションや意思決定に役立つ定量データを提供するために行うものであり、真理を追求するために行うものではない。これには異論のある方もいるであろうが、世の中のほとんど大部分のケースではこのように考えて差し支えない。 そして、データ解析は、手法が高度である程いいというものではなく、アクションや意思決定をする人がそれを最も効果的に利用できることが、もっともよいデータ解析である。株式投資をするのに、ある会社の株価の移動平均のグラフを見るのもデータ解析であり、同じ会社の四半期の売上の推移のグラフを見るのもデータ解析である。株価の動きを確率微分方程式モデルで表すことが必ずしも最善ではない。 データ解析の中には、新薬の効果の実験結果の統計的検定のように、ある指定された統計ソフトウェアを用いてある決められた手順で行うことが義務付けられている場合もある。しかし、世の中の大部分のケースでは、あるアクションや意思決定に必要なデータ解析のアプローチの仕方は一つではない。
私がこの「データ解析のあるべき姿」について特に考えさせられたのは、放射線の健康影響評価のデータ解析結果についてであった。私は2011年の福島第一発電所事故前に放射線の疫学データ解析の仕事をしていたのでこの分野には詳しかった。そして、本来「発電所作業員の放射線防護」というアクションのためになされていたLNT(しきい値なし直線モデル)による広島長崎原爆被爆者調査データの解析結果が事故後に独り歩きし、「放射線はどんなに少量でも危険」ということが世の中の常識となってしまった。この場合、「何のアクションのためのデータ解析結果なのか」が忘れ去られ、LNTモデルが普遍の真理のように扱われたことが何より問題であった。