投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

データサイエンスのおすすめオンライン記事(3月16日付)

ウクライナ戦争は、第二次世界大戦後の「当たり前だった平和」の時代の転換を予兆しているかのようである。とりあえず日本政府は社会生活の根幹を支えるエネルギーの安定供給のための施策に全力を尽くしてもらいたい。

いかにベイジアン機械学習は機能するか
opendatascience.com
2020年9月の記事。ベイズ推論に関する基礎的説明が大半を占める。

行動のインターネット(IoB)について知っておくべきこと
datafloq.com
行動のインターネット(IoB)とは、IoTで蓄積したデータをもとにテクノロジーで個人の行動を追っていく分野である。本記事はIoBの概要と今後のビジネス見通しについてのエッセイ。

いかに機械学習のDBSCNクラスタリングアルゴリズムを習得するか
www.analyticsvidhya.com
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)は、低密度エリアで区分けされた高密度エリアをグループ化するクラスタリング手法で、外れ値に対して頑健なのが特徴である。

7つのローコード、ノーコードAIプラットフォーム
blog.superannotate.com
Google AutoML, Levityなど、コードをほぼ書かずに利用できるAIプラットフォームの紹介。

いかにPythonで外れ値を見つけて取り扱うか
careerfoundry.com
「外れ値」の扱い方に関する基礎的チュートリアル

過去ブログのリニューアル:「統計学の基本数式」シリーズ

本ブログは過去の他形式のブログを取り込んで作成したため、数式の表示に不備があるものがありましたが、この度それらを修正し、「統計学の基本数式」シリーズとしてリニューアルしました。是非ご覧ください。

(1) 平均値と期待値
datapowernow.hatenablog.com
(2) 確率分布のもう一つの特性値:分散
datapowernow.hatenablog.com
(3) チェビシェフの不等式
datapowernow.hatenablog.com
(4) 大数の弱法則
datapowernow.hatenablog.com
(5) モーメント母関数
datapowernow.hatenablog.com
(6) 中心極限定理
datapowernow.hatenablog.com
(7) 線形単回帰分析
datapowernow.hatenablog.com
(8) 回帰の分散分析
datapowernow.hatenablog.com
(9) 重回帰分析
datapowernow.hatenablog.com

データサイエンスのおすすめオンライン記事(3月4日付)

欧州で戦争勃発など慌ただしい中、首都圏ではマンボウも延長されたが、街の賑わいは春を迎える準備を進めているように感じられる。新年早々は興味深いデータサイエンスの記事が少なかったが、春を告げるかのごとく最近一気に面白い記事が増えてきた。しかし今回も昨年末位に発表された記事が中心となっている。

2022年によりよいデータサイエンティストになるための22の習慣
towardsdatascience.com
「コーディングの標準スタイルを取り入れる」「常に変化に前向きでいる」「コードをシンプルに」などを説いている。

ごく少数のプログラマーしか知らないPythonの5つの利用事例
levelup.gitconnected.com
Pythonによるモバイルアプリ制作」「ブラウザ上でPythonを走らせる」「シェルスクリプトを書くためのPython」「Python風ハイブリッドデスクトップアプリを構築する」「短時間でCommand Line Interfaceプログラムを作り出す」について簡単に解説している。

最適なスクレイピング技術:CSSセレクタ, XPath, RegEx
www.datasciencecentral.com
スクレイピングはほとんどの場合HTMLドキュメントに対してなされるが、さらに上級を目指すなら XPathRegExも知っておいた方がいいとしている。

PythonとScrapyを用いてGoogle検索データをスクレイピングする
www.datasciencecentral.com
Googleの検索結果ページをスクレイピングすることは、自社製品のレビュー情報を収集する場合などに有効である。ここではPythonのScrapyライブラリを用いている。

2022年に知っておくべき全ての機械学習アルゴリズム
towardsdatascience.com
「アンサンブル学習」「説明的(回帰)」「クラスタリング」「次元縮約」「類似性」の5つのタイプの機械学習アルゴリズムについて概要と代表的アルゴリズムを解説している。

データサイエンスのおすすめオンライン記事(2月11日付)

米国の名門エール大学でデータサイエンスを学ぶ学生でもあるフィギュアスケートのネイサン・チェン選手が下馬評通りの強さで冬季五輪金メダルを獲得した。
apnews.com
当方は日本でのイベントでチェン選手を間近に見ていたので感慨深いものがある。一見華奢に見える体でどうしてあんな豪快な4回転ジャンプが跳べるのか不思議である。
さて今回も主に昨年末に出てきた興味深い記事を紹介する。

数学の美しさを新しい方法で探求する
deepmind.com
人間の直感をAIで支援することにより、純粋数学研究のフロンティアを切り開く。著者らが科学雑誌Natureに投稿した論文の内容の紹介。

2022年に知っておくべき50個のデータサイエンス・プロジェクトのアイデア
www.mltut.com
初級、中級、上級に分けて、データサイエンスの実務が習得できるプロジェクトがリストアップされている。datacampへの入会登録(無料)が前提となる模様。

ガウス過程 - 入門から
peterroelants.github.io
機械学習でも用いられるガウス過程のチュートリアルPythonコード付き)。残り2記事へのリンクは当該記事の下のほうにある。

PyCaretによる異常検知入門
towardsdatascience.com
Pythonによるローコードの異常検知(教師なし学習)ライブラリPyCaretの入門チュートリアル

Q&A: 異常検知とドリフト検知の違いは何か?
evidentlyai.com
ドリフトとは特徴量の全体的な構造が変化してしまってモデルの予測精度が落ちてしまうことである。本記事では通常の異常検知との違いを丁寧に解説している。

図解データサイエンス特集

ツイッターの投稿には、他サイトへのリンクではなく一枚の「ポンチ絵」的な画像が投稿される場合も多い。これまで本ブログでは有用と思われるデータサイエンスに関するオンライン記事のみを紹介し、画像1枚のみのツイッター投稿はスキップしていた。しかしここのところ有用で興味深いデータサイエンスの一枚画像投稿が幾つかあったので、特集として紹介する(各々の図の出典に関してはタイトルのリンクを参照)。

データサイエンスの一般的なプロセス
f:id:nicjps230:20220201111725j:plain
典型的なデータサイエンスの作業プロセスをツリー状の図で表している。実務でプロジェクトを計画する際に参考になる。

AIに関する興味深い事実
f:id:nicjps230:20220201111840j:plain
細かい字がつぶれて見にくいが、AIが我々の実生活にどのように役立っているかを図解している。

練達したデータサイエンティストの5つの基本スキル
f:id:nicjps230:20220201111947j:plain
これからデータサイエンティストになるにはどういうスキルを身に着けるべきかを知るのに役立つ。

AIのさまざまな用途
f:id:nicjps230:20220201112049j:plain
これも細かい字がつぶれて見にくいが、AIの適用分野がひと目でわかり、執筆やアイデア出しの際に役立つ。

サイバー攻撃のタイプ
f:id:nicjps230:20220201112206j:plain
サイバー攻撃にはどのようなものがあるかがひと目でわかる。

AIに必要な数学
f:id:nicjps230:20220201112310j:plain
AIのアルゴリズムの原理を理解するために必要となる数学がまとめられている。

SQL対NoSQL: AWS ,Azure, Google Cloud利用のガイド
f:id:nicjps230:20220201112416j:plain
データの特性に適した主要インフラのサービスがわかる。これもデータ実務のプランを練る場合に役立つ図である。

データサイエンスのおすすめオンライン記事(Python機械学習ライブラリ特集)

Python機械学習ライブラリについては、これまで断片的に引用したり紹介したりしてきたが、包括的なまとめはしてこなかった。今回は、有名なライブラリについて順を追って学習できるチュートリアルサイトをとりまとめて紹介する。

scikit-learnのチュートリアル
scikit-learn.org
scikit-learnはPythonの基礎的な機械学習ライブラリで、Pythonで(統計的)機械学習プログラミングを行う場合、世界的にもデファクトスタンダードになっている。本ページはその英文公式チュートリアル集。

Tensorflow 2.0 コーディング・ワークショップ・ノートブック
www.datasciencecentral.com
TensorFlowはGoogleが開発したオープンソース機械学習ライブラリである。本記事はTensorFlowのチュートリアルコードを紹介したもので、リンクから直接Google Colaboratoryのページに飛ぶ。

Kerasのコード例の一覧
keras.io
KerasはPythonで書かれた高レベルのニューラルネットワーク向けの効果的なAPIでである。ディープニューラルネットワークを使った高速な実装ができるように設計されており、CNTK、Tensorflow、Theanoなどがバックエンドとして動作する。本ページはさまざまな目的のためのコーディングのデモ集で、やはりリンクをクリックするとGoogle Colaboratory上のコードが表示され、順を追って学習できる。

PyTorch公式チュートリアル
pytorch.org
PyTorchは、Facebookが開発を主導したPython向けの機械学習ライブラリである。本ブログの2021/4/1付けで紹介した記事にあるように、いくつかの有名企業はPyTorch利用に乗り換えている。本チュートリアルサイトについてもGoogle Colaboratory環境で利用しやすい。

(番外編)Pythonによるテキスト分類
towardsdatascience.com
本記事はニュース記事をジャンルに自動分類する問題を扱っているが、スクレイピング機械学習・実装という一連の工程を全てカバーしたチュートリアルプロジェクトになっている。付属のGitHubリポジトリのコードが非常に有用で、筆者も活用させてもらった。

データサイエンスのおすすめオンライン記事(1月12日付)

年が明けてオミクロン株への感染が急拡大している。しかしこれは多くの識者が予測していたことであり、重症化率は低いので、再び過剰な行動規制をして経済を痛めつけるべきでないとの意見が多い。年末年始は繁華街の活気が戻ったと実感したが、これが再び沈み込むことがないことを願いたい。
今回は年頭恒例の「今年の展望」物の記事を中心に紹介する。

オーバーフィットとアンダーフィットの原理
towardsdatascience.com
データへのモデルのあてはめで必ず問題となるオーバーフィットとアンダーフィットについてのわかりやすい解説記事。

2022年のIoTの5大トレンド
www.forbes.com
ここでは、1)ヘルスケアのIoT, 2)セキュリティ, 3)エッジIoT, 4)ビジネスと産業におけるIoT, 5)復旧の早い組織になるためのIoT についての今後の見通しが論じられている。

AI・データサイエンス・機械学習技術の2021年の主な進展と2022年の主要トレンド
www.kdnuggets.com
本サイトでは恒例となっている、Kirk Borne氏を含む9名の専門家による総括とトレンド予測。

Pythonによるグラフ機械学習(その1)(その2)
towardsdatascience.com

towardsdatascience.com
グラフネットワークの基礎から機械学習への適用例までを2回シリーズで丁寧に解説している。