投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

データサイエンスのおすすめオンライン記事(6月2日付)

相変わらず外出時にマスクは必須だが、それ以外はコロナは忘却の彼方という感がある。インバウンド観光客も少しずつ受入れが始まり、安全な旅行先として評価が高い日本ではまた遠からずインバウンド客の賑わいが戻ってくるであろう。
くしくも今回は「Pythonで大規模データセットをいかに扱うか」についての記事が3本並び、さながらミニ特集のようになった。

Pandasでいかに大きなデータセットを扱うか
towardsdatascience.com
Pythonでデータを扱うツールとして必須ともいえるPandasだが、大規模データの場合に難がある。ここでは、他のツールを試す前にPandasで試してみるべきことをとりまとめている。

Pipesを使ってクリーンなPythonコードを書く
www.kdnuggets.com
Pythonのpipeというライブラリを用いて、より見やすくすっきりしたPythonコードを書く方法。

Pythonでのプログラミングの始め方:Anaconda入門
towardsdatascience.com
Jupyter Notebookを使っている人は多いと思うが、本記事はより広くAnacondaパッケージがデータサイエンスの取っ掛かりに使うツールとして優れていることを説いている。

Pythonでいかに大規模なCSVファイルを一つのファイルに結合するか
towardsdatascience.com
「容量の大きなCSVファイルやExcelファイルを結合したい」というビジネスによくある課題解決のためのチュートリアル記事。

Pandasで22GBのトランザクションバッチ処理する
towardsdatascience.com
大規模なデータ処理を限られたコンピュータ資源で行うためにはバッチ処理で少しずつ処理することになるが、それをPythonで実行する方法のチュートリアル