データサイエンスのおすすめオンライン記事(Python機械学習ライブラリ特集)

Python機械学習ライブラリについては、これまで断片的に引用したり紹介したりしてきたが、包括的なまとめはしてこなかった。今回は、有名なライブラリについて順を追って学習できるチュートリアルサイトをとりまとめて紹介する。

scikit-learnのチュートリアル
scikit-learn.org
scikit-learnはPythonの基礎的な機械学習ライブラリで、Pythonで(統計的)機械学習プログラミングを行う場合、世界的にもデファクトスタンダードになっている。本ページはその英文公式チュートリアル集。

Tensorflow 2.0 コーディング・ワークショップ・ノートブック
www.datasciencecentral.com
TensorFlowはGoogleが開発したオープンソース機械学習ライブラリである。本記事はTensorFlowのチュートリアルコードを紹介したもので、リンクから直接Google Colaboratoryのページに飛ぶ。

Kerasのコード例の一覧
keras.io
KerasはPythonで書かれた高レベルのニューラルネットワーク向けの効果的なAPIでである。ディープニューラルネットワークを使った高速な実装ができるように設計されており、CNTK、Tensorflow、Theanoなどがバックエンドとして動作する。本ページはさまざまな目的のためのコーディングのデモ集で、やはりリンクをクリックするとGoogle Colaboratory上のコードが表示され、順を追って学習できる。

PyTorch公式チュートリアル
pytorch.org
PyTorchは、Facebookが開発を主導したPython向けの機械学習ライブラリである。本ブログの2021/4/1付けで紹介した記事にあるように、いくつかの有名企業はPyTorch利用に乗り換えている。本チュートリアルサイトについてもGoogle Colaboratory環境で利用しやすい。

(番外編)Pythonによるテキスト分類
towardsdatascience.com
本記事はニュース記事をジャンルに自動分類する問題を扱っているが、スクレイピング機械学習・実装という一連の工程を全てカバーしたチュートリアルプロジェクトになっている。付属のGitHubリポジトリのコードが非常に有用で、筆者も活用させてもらった。