投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

データサイエンスのおすすめオンライン記事(7月22日付)

梅雨が早く明けた後に雨模様の天候が続いたりしているが、やはり蒸し暑い。外で活動するよりも涼しい部屋でパソコンとにらめっこしている方が快適ではある。
今回はチュートリアル記事が多めになった。涼しい部屋でこのよなチュートリアル記事を読みふけるのもいいかもしれない。

データクリーニング:問題あるデータを自動的に取り除く
towardsdatascience.com
PythonのPandasにはさまざまなデータクリーニングのための方法が用意されているが、数値であるべき列に一部文字が混ざっていたり、その逆の場合には苦労する。ここでは、そのようなケースで役立つPythonコードを紹介している。

データサイエンスのためのApache Spark: PySparkをインストールして始める
towardsdatascience.com
分散処理フレームワークであるApache SparkをPythonから使うためのPySparkのチュートリアル

散布図からストーリーへ:Seaborn版
towardsdatascience.com
ここでは昔の自動車の重量と燃費に関するデータを例にして、単なる点を表示した散布図からいかに見る人に行動を起こさせるような説得力のある図に仕上げるかを示している。

データマイニング:マーケットバスケット分析とAprioriアルゴリズム
towardsdatascience.com
小売りデータを用いたマーケットバスケット分析の基本からコードまで解説した包括的入門記事。

Pythonによる機械学習アルゴリズム
thecleverprogrammer.com
Pythonで記述された機械学習アルゴリズムについての100本の記事へのリンクが掲載されており、実用性の高い良記事。