投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

データサイエンスのおすすめオンライン記事(データサイエンスのための数学特集)

いよいよ本格的な夏も迫っていることを実感する暑さである。当方はこのところサーバーインフラ周りの作業に忙殺され、前回の投稿からかなり空いてしまった。
今回もチェックしておいた記事のストックを順に紹介するのだが、たまたま全部数学関係の記事になってしまったので、特集という位置づけにした。

正定値行列で遊ぶ II:エントロピー
francisbach.com
機械学習にまつわる数学の解説。情報量とエントロピーに関する内容。

カルマンフィルタの図による解説
www.bzarg.com
カルマンフィルタは、状態空間モデルにおいて、内部の見えない「状態」を効率的に推定するための計算手法である。本記事では図や例を交えて解説している。

データサイエンスのための数学的思考入門
towardsdatascience.com
ここでの「数学的思考」とは、「問題をステップを踏んで解決していくことに快感をおぼえ、貴方の作業において自信を維持する」という「数学的成熟」に近い概念だという。アルゴリズム統計学の理論を全て理解する必要はないが、数学学習で得た思考スキルはデータサイエンスの現場で役立つ。

古典的線形回帰モデルにおける分散共分散行列を深く掘り下げる
towardsdatascience.com
これも統計を勉強した人にはお馴染みの内容だが、行列計算を図解で丁寧に説明している。

機械学習のための線形代数
datahacker.rs
これも大学数学では必須の内容だが、図をふんだんに用いており、機械学習への応用にも言及している。

データサイエンスのおすすめオンライン記事(6月2日付)

相変わらず外出時にマスクは必須だが、それ以外はコロナは忘却の彼方という感がある。インバウンド観光客も少しずつ受入れが始まり、安全な旅行先として評価が高い日本ではまた遠からずインバウンド客の賑わいが戻ってくるであろう。
くしくも今回は「Pythonで大規模データセットをいかに扱うか」についての記事が3本並び、さながらミニ特集のようになった。

Pandasでいかに大きなデータセットを扱うか
towardsdatascience.com
Pythonでデータを扱うツールとして必須ともいえるPandasだが、大規模データの場合に難がある。ここでは、他のツールを試す前にPandasで試してみるべきことをとりまとめている。

Pipesを使ってクリーンなPythonコードを書く
www.kdnuggets.com
Pythonのpipeというライブラリを用いて、より見やすくすっきりしたPythonコードを書く方法。

Pythonでのプログラミングの始め方:Anaconda入門
towardsdatascience.com
Jupyter Notebookを使っている人は多いと思うが、本記事はより広くAnacondaパッケージがデータサイエンスの取っ掛かりに使うツールとして優れていることを説いている。

Pythonでいかに大規模なCSVファイルを一つのファイルに結合するか
towardsdatascience.com
「容量の大きなCSVファイルやExcelファイルを結合したい」というビジネスによくある課題解決のためのチュートリアル記事。

Pandasで22GBのトランザクションバッチ処理する
towardsdatascience.com
大規模なデータ処理を限られたコンピュータ資源で行うためにはバッチ処理で少しずつ処理することになるが、それをPythonで実行する方法のチュートリアル

データサイエンスのおすすめオンライン記事(5月11日付)

コロナは大きな波の兆しもなく推移している。しかし経済面では、円安や米国株価の下落があり、ウクライナ情勢も混とんとしていることから先が見通しにくくなっている。
今回紹介する記事の中では辞書的に活用できる下2つの記事が特に目立っている。

PandasデータフレームのフィルターにQuery文利用のすすめ
towardsdatascience.com
Pandasデータフレームである条件を満たす行を選び出すにはdf[df['列名']==値]の形式の文を書く人が多いと思われるが、この記事では「可読性」からQuery文の利用を勧めている。

2022年におけるグラフ機械学習:我々は今どこにいるのか
towardsdatascience.com
近年進展著しい「グラフ機械学習」の最新研究動向をまとめた上級者向け記事

平易な英語で説明された9個の機械学習アルゴリズム
www.freecodecamp.org
最新の記事ではないが、機械学習の代表的アルゴリズムを平易な英語と図表(一部数式)で解説した入門記事

2022年における100ケース以上のAI活用事例の解説
research.aimultiple.com
マーケティング、販売、カスタマーサービス、セキュリティ、データ、テクノロジー、等の領域へのAIの適用事例を収録している。ビジネスでのAI活用に役立つ辞書的記事

貴方の翌年のデータサイエンスプロジェクトに役立つ26のGitHubリポジトリ
towardsdatascience.com
新年向けの記事だが、Pythonライブラリやロードマップなど、データサイエンスで有用な26の代表的GitHubリポジトリを掲載している。これも辞書的に活用できる良記事

データサイエンスのおすすめオンライン記事(5月3日付)

ゴールデンウイークも中盤になっている。今年は日の並びもよく、しかもこの中盤は首都圏では天気もいい。観光地の人出もかなりコロナ前に戻っているということで、明るい材料が揃った感じである。今回はPython関連の記事を中心に紹介する。

貴方のPythonコードをより効率的にする5つの簡単なテクニック
towardsdatascience.com
(1)関数を使う, (2)不要な演算をしないようにする, (3)パッケージを活用する, (4)不要な変数を宣言しないようにする, (5)必要な所でループから抜け出す

ベイズ統計の概要と(入門としての)ベイズ回帰モデル
towardsdatascience.com
ベイジアンについての入門記事はいくつか紹介してきているが、これもその一つで、ベイズ回帰モデルとそのオープンデータへの適用が紹介されている。

Fugue and DuckDB: Python内のSQL高速実行コード
towardsdatascience.com
Python内でSQLが使えるライブラリとしてはSQLite3が有名だが、ここで紹介されているPythonライブラリは高速なのが特徴である。

Pandasql: PythonSQLクエリを走らせる興味深い方法
towardsdatascience.com
上と同様にPython内でSQL記述でデータ処理ができるライブラリpandasqlの紹介。

CSVの向こう側:Pandasでのデータ獲得
towardsdatascience.com
Pandasデータフレームにデータを読み込む際によく使われる文はpd.read_csvであるが、pd.read_xxxのxxxとしてcsv以外にもexcel,html,sql_query,jsonが使えることの紹介。私もcsv,excel以外は使ったことがなかったので「目から鱗」だった。

データサイエンスのおすすめオンライン記事(4月13日付)

季節外れのぽかぽか陽気が続いている。しかし経済面ではロシア-ウクライナ戦争を契機に世界的なインフレと金融危機リスクの高まりで真冬への入り口という感じである。
今こそ知識や情報を十分に集めて時代の荒波を乗り越える主体的行動を取らなければならない時期であるといえる。

100以上のデータサイエンスのチートシート
www.theinsaneapp.com
チートシート(虎の巻)は普段あまり紹介しないが、この記事は有用なチートシートを数多く掲載しているのでとりあげた。

データサイエンスを学ぶための人気オープンソースプロジェクト
towardsdatascience.com
記事の筆者が厳選した、基礎からデータサイエンスを学ぶのに適したプロジェクト5つを紹介している。

機械学習用のデータセットをいかに作るか
www.kdnuggets.com
今やネット上には機械学習で利用できるデータがあふれているが、アルゴリズム開発に使える良質のデータはいまだ希少資源である。そのような良質のデータセットの作り方の基本を解説している。

DagsHub: データサイエンティストや機械学習エンジニアのためのGitHub補完ツール
towardsdatascience.com
GitHubはバージョン管理に有用だが、いくつかの制約がある。DagsHubはGitHubと同時に利用でき、機能を拡張してくれるプラットフォームである。

いかに機械学習モデルを構築するか
towardsdatascience.com
機械学習だけでなくその前段階(探索的データ解析など)も含めたデータサイエンスの基礎がコンパクトに述べられている。

データサイエンスのおすすめオンライン記事(4月3日付)

新年度に入った。先週末に近郊の桜の名所を少し歩いたが、いつもずらっと並んでいた露店が全くないのがやや寂しい感じがした。
今回は実際に読んで取り組んでみたいと思わせる良記事が揃った。お時間のある方は是非チェックしていただきたい。
(注:本ブログで紹介するオンライン記事は全て英文記事です)

データサイエンスと機械学習の60日間の学習記録
medium.com
この記事の著者によるデータサイエンスの基礎から専門的な内容までの60本の一連の記事(Pythonコード付き記事のリンク)を「60日間の学習記録」という形で列挙している。ある程度時間があってデータサイエンスについてきっちり学びたい人には良い教材といえよう。

10の機械学習手法を簡潔に言うと
www.theinsaneapp.com
「回帰分析」「決定木」「k-meansクラスタリング」などの主要な手法をそれぞれ一枚のポンチ絵にまとめている。

Pythonでの実験を容易に
machinelearningmastery.com
機械学習プロジェクトでは特徴量や手法をいろいろと取り換えて試してみたいことがよくある。この記事ではそのような「実験」を容易に行えるPythonコードを紹介している。

Pybaobabdtで決定木を視覚化する
towardsdatascience.com
ここでは表題のPybaobabdtだけでなく、いくつかの決定木可視化のためのPythonライブラリを紹介している。

ベイズ統計の概要とベイジアン回帰モデル入門
towardsdatascience.com
ベイジアンは長年データサイエンスに携わっていてもとっつきにくい課題で、入門解説記事は数多く書かれている。この記事ではベイズ統計の入門からオープンデータを用いたベイジアン回帰分析の実装まで丁寧に説明している。

図解データサイエンス特集(その2)

データサイエンスを理解あるいは実践する上で有用と思われる図解の画像は、引き続きツイッター上に投稿されている。
今回はそのような図解データサイエンスの第二弾をお届けする。
尚、前回と同じく、出典については各タイトルに貼られたリンクを参照していただきたい。

データサイエンティストのための機械学習の全容
f:id:nicjps230:20220326151220j:plain
字が細かいが、機械学習の全体像が網羅的に描かれている。

人工知能が(種々の分野で)いかに働くか
f:id:nicjps230:20220326151422j:plain
「競合情報分析」「顧客セグメンテーション」「拡張現実」「広告」の分野でAIがいかに改善をしていくかを図解したもの。「競合情報分析」以外の図についてはリンク先を参照されたい。

新技術とトレンドIoTへの影響度
f:id:nicjps230:20220326151554j:plain
IoTに影響する技術やトレンドを「時期」と「影響の大きさ」で表している。

データサイエンスのライフサイクル
f:id:nicjps230:20220326151727j:plain
ビジネスにおけるデータサイエンスの一般的な手順を図解している。

2022年に(企業の)成功に結び付くデータサイエンスの5大トレンド
f:id:nicjps230:20220326151901j:plain
ビジネスにおけるデータサイエンスの重要なトレンドとして、「MLOPS」「データの質>データの量」「AutoMLの危険性」「環境・社会とガバナンス」「顧客データはビジネス価値の肝」を取り上げている。

IoT成功のための必要事項
f:id:nicjps230:20220326152039j:plain
「データの準備」「データの発見」「ストリーミングデータの可視化」「時系列データ」「予知的アナリティクス」「リアルタイム位置情報」を挙げている。

データサイエンス学習のアート
f:id:nicjps230:20220326152216j:plain
「計画」「学習」「構築」「説明」の4つのフェーズのサイクルとして説明している。

機械学習のフローチャート
f:id:nicjps230:20220326152338j:plain
フローチャートというよりも手法をツリー状に分類したものになっている。

データ可視化方法選択のためのフローチャート
f:id:nicjps230:20220326152510j:plain
まず「関係」「比較」「分布」「構成」のどれを見せたいから始めて目的に合ったグラフにたどり着けるようにしている。