前回投稿から1年近く経過してしまった。この間小生はより実データを多く扱う職場に転職して、日々Pythonプログラムを書いて分析をしている。データサイエンスはこの間さらに広く市民権を得てきた感がある。そこで、まずデータサイエンスおすすめサイトの紹介を再開する。なお、紹介するサイトは全て英語サイトである。
・無料電子書籍:データサイエンスの基礎(マイクロソフト研究所発行)
現代データサイエンスを理解する上で必要になる基礎理論が記述されている。
・ベイジアン機械学習(その1)
・ベイジアン機械学習(その2)
・ベイジアン機械学習(その3)
・ベイジアン機械学習(その4)
ベイズの定理の解説から始まり、ベイズ線形回帰、確率的クラスタリングなどが解説されている。
・データサイエンスの5つの基礎的考え方
Kirk Borne氏の古い記事だが、データサイエンスの本質的なことを語っている。(1)帰結を頭において始める、(2)貴方のデータをよく知る、(3)これは「科学である」ことを忘れないこと、(4)データは決して完全ではないが、とにかく貴方のデータを好きになりなさい、(5)当てはめすぎ(overfitting)はデータサイエンスへの「罪」である。
・探索的データ解析の初心者向けガイド
データの様子を探ることから出発する「探索的データ解析」の入門ガイド