投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

データサイエンスのおすすめオンライン記事(7月13日付)

前回投稿時から引き続き、デプロイ系の作業に忙殺されているうちに、また期間が空いてしまった。今回は前回とは対照的に、実用系の記事が揃った格好になっている。

よりよいデータ保存法でPythonのパフォーマンスを改善する
towardsdatascience.com
表形式のデータとしてはcsvが使われることが多いが、csvは文字のため容量がかさみ、処理が遅くなる。ここではParquetとFeatherという2つのデータ保存形式を紹介している。

人気のデータクリーニングPythonパッケージ
towardsdatascience.com
データサイエンティストでも80%もの時間をデータクリーニングに費やしているという。ここではデータクリーニングのためのPythonパッケージをいくつか紹介している。

(簡単な)機械学習の可視化のガイド
towardsdatascience.com
Scikit-learnによる機械学習の結果を効果的に視覚化できるライブラリYellowbrickの紹介。

データサイエンティストにとってクリーンなPythonコードを書くこと
towardsdatascience.com
プロジェクトがより大規模にかつ実装に近づくにつれて、クリーンで持続可能なコードを書く必要性が高まる。本記事ではクリーンなPythonコードを開発するためのいくつかのツールについて紹介している。

グラフニューラルネットワークがいかに機能するか:GNN入門
theaisummer.com
今年の5月11日付の投稿でグラフニューラルネットワークの最新動向に関する記事を紹介したが、今回紹介するのはグラフニューラルネットワークの理論から応用までの包括的な入門記事。