データサイエンスのおすすめオンライン記事(5月11日付)

コロナは大きな波の兆しもなく推移している。しかし経済面では、円安や米国株価の下落があり、ウクライナ情勢も混とんとしていることから先が見通しにくくなっている。
今回紹介する記事の中では辞書的に活用できる下2つの記事が特に目立っている。

PandasデータフレームのフィルターにQuery文利用のすすめ
towardsdatascience.com
Pandasデータフレームである条件を満たす行を選び出すにはdf[df['列名']==値]の形式の文を書く人が多いと思われるが、この記事では「可読性」からQuery文の利用を勧めている。

2022年におけるグラフ機械学習:我々は今どこにいるのか
towardsdatascience.com
近年進展著しい「グラフ機械学習」の最新研究動向をまとめた上級者向け記事

平易な英語で説明された9個の機械学習アルゴリズム
www.freecodecamp.org
最新の記事ではないが、機械学習の代表的アルゴリズムを平易な英語と図表(一部数式)で解説した入門記事

2022年における100ケース以上のAI活用事例の解説
research.aimultiple.com
マーケティング、販売、カスタマーサービス、セキュリティ、データ、テクノロジー、等の領域へのAIの適用事例を収録している。ビジネスでのAI活用に役立つ辞書的記事

貴方の翌年のデータサイエンスプロジェクトに役立つ26のGitHubリポジトリ
towardsdatascience.com
新年向けの記事だが、Pythonライブラリやロードマップなど、データサイエンスで有用な26の代表的GitHubリポジトリを掲載している。これも辞書的に活用できる良記事

データサイエンスのおすすめオンライン記事(5月3日付)

ゴールデンウイークも中盤になっている。今年は日の並びもよく、しかもこの中盤は首都圏では天気もいい。観光地の人出もかなりコロナ前に戻っているということで、明るい材料が揃った感じである。今回はPython関連の記事を中心に紹介する。

貴方のPythonコードをより効率的にする5つの簡単なテクニック
towardsdatascience.com
(1)関数を使う, (2)不要な演算をしないようにする, (3)パッケージを活用する, (4)不要な変数を宣言しないようにする, (5)必要な所でループから抜け出す

ベイズ統計の概要と(入門としての)ベイズ回帰モデル
towardsdatascience.com
ベイジアンについての入門記事はいくつか紹介してきているが、これもその一つで、ベイズ回帰モデルとそのオープンデータへの適用が紹介されている。

Fugue and DuckDB: Python内のSQL高速実行コード
towardsdatascience.com
Python内でSQLが使えるライブラリとしてはSQLite3が有名だが、ここで紹介されているPythonライブラリは高速なのが特徴である。

Pandasql: PythonSQLクエリを走らせる興味深い方法
towardsdatascience.com
上と同様にPython内でSQL記述でデータ処理ができるライブラリpandasqlの紹介。

CSVの向こう側:Pandasでのデータ獲得
towardsdatascience.com
Pandasデータフレームにデータを読み込む際によく使われる文はpd.read_csvであるが、pd.read_xxxのxxxとしてcsv以外にもexcel,html,sql_query,jsonが使えることの紹介。私もcsv,excel以外は使ったことがなかったので「目から鱗」だった。

データサイエンスのおすすめオンライン記事(4月13日付)

季節外れのぽかぽか陽気が続いている。しかし経済面ではロシア-ウクライナ戦争を契機に世界的なインフレと金融危機リスクの高まりで真冬への入り口という感じである。
今こそ知識や情報を十分に集めて時代の荒波を乗り越える主体的行動を取らなければならない時期であるといえる。

100以上のデータサイエンスのチートシート
www.theinsaneapp.com
チートシート(虎の巻)は普段あまり紹介しないが、この記事は有用なチートシートを数多く掲載しているのでとりあげた。

データサイエンスを学ぶための人気オープンソースプロジェクト
towardsdatascience.com
記事の筆者が厳選した、基礎からデータサイエンスを学ぶのに適したプロジェクト5つを紹介している。

機械学習用のデータセットをいかに作るか
www.kdnuggets.com
今やネット上には機械学習で利用できるデータがあふれているが、アルゴリズム開発に使える良質のデータはいまだ希少資源である。そのような良質のデータセットの作り方の基本を解説している。

DagsHub: データサイエンティストや機械学習エンジニアのためのGitHub補完ツール
towardsdatascience.com
GitHubはバージョン管理に有用だが、いくつかの制約がある。DagsHubはGitHubと同時に利用でき、機能を拡張してくれるプラットフォームである。

いかに機械学習モデルを構築するか
towardsdatascience.com
機械学習だけでなくその前段階(探索的データ解析など)も含めたデータサイエンスの基礎がコンパクトに述べられている。

データサイエンスのおすすめオンライン記事(4月3日付)

新年度に入った。先週末に近郊の桜の名所を少し歩いたが、いつもずらっと並んでいた露店が全くないのがやや寂しい感じがした。
今回は実際に読んで取り組んでみたいと思わせる良記事が揃った。お時間のある方は是非チェックしていただきたい。
(注:本ブログで紹介するオンライン記事は全て英文記事です)

データサイエンスと機械学習の60日間の学習記録
medium.com
この記事の著者によるデータサイエンスの基礎から専門的な内容までの60本の一連の記事(Pythonコード付き記事のリンク)を「60日間の学習記録」という形で列挙している。ある程度時間があってデータサイエンスについてきっちり学びたい人には良い教材といえよう。

10の機械学習手法を簡潔に言うと
www.theinsaneapp.com
「回帰分析」「決定木」「k-meansクラスタリング」などの主要な手法をそれぞれ一枚のポンチ絵にまとめている。

Pythonでの実験を容易に
machinelearningmastery.com
機械学習プロジェクトでは特徴量や手法をいろいろと取り換えて試してみたいことがよくある。この記事ではそのような「実験」を容易に行えるPythonコードを紹介している。

Pybaobabdtで決定木を視覚化する
towardsdatascience.com
ここでは表題のPybaobabdtだけでなく、いくつかの決定木可視化のためのPythonライブラリを紹介している。

ベイズ統計の概要とベイジアン回帰モデル入門
towardsdatascience.com
ベイジアンは長年データサイエンスに携わっていてもとっつきにくい課題で、入門解説記事は数多く書かれている。この記事ではベイズ統計の入門からオープンデータを用いたベイジアン回帰分析の実装まで丁寧に説明している。

図解データサイエンス特集(その2)

データサイエンスを理解あるいは実践する上で有用と思われる図解の画像は、引き続きツイッター上に投稿されている。
今回はそのような図解データサイエンスの第二弾をお届けする。
尚、前回と同じく、出典については各タイトルに貼られたリンクを参照していただきたい。

データサイエンティストのための機械学習の全容
f:id:nicjps230:20220326151220j:plain
字が細かいが、機械学習の全体像が網羅的に描かれている。

人工知能が(種々の分野で)いかに働くか
f:id:nicjps230:20220326151422j:plain
「競合情報分析」「顧客セグメンテーション」「拡張現実」「広告」の分野でAIがいかに改善をしていくかを図解したもの。「競合情報分析」以外の図についてはリンク先を参照されたい。

新技術とトレンドIoTへの影響度
f:id:nicjps230:20220326151554j:plain
IoTに影響する技術やトレンドを「時期」と「影響の大きさ」で表している。

データサイエンスのライフサイクル
f:id:nicjps230:20220326151727j:plain
ビジネスにおけるデータサイエンスの一般的な手順を図解している。

2022年に(企業の)成功に結び付くデータサイエンスの5大トレンド
f:id:nicjps230:20220326151901j:plain
ビジネスにおけるデータサイエンスの重要なトレンドとして、「MLOPS」「データの質>データの量」「AutoMLの危険性」「環境・社会とガバナンス」「顧客データはビジネス価値の肝」を取り上げている。

IoT成功のための必要事項
f:id:nicjps230:20220326152039j:plain
「データの準備」「データの発見」「ストリーミングデータの可視化」「時系列データ」「予知的アナリティクス」「リアルタイム位置情報」を挙げている。

データサイエンス学習のアート
f:id:nicjps230:20220326152216j:plain
「計画」「学習」「構築」「説明」の4つのフェーズのサイクルとして説明している。

機械学習のフローチャート
f:id:nicjps230:20220326152338j:plain
フローチャートというよりも手法をツリー状に分類したものになっている。

データ可視化方法選択のためのフローチャート
f:id:nicjps230:20220326152510j:plain
まず「関係」「比較」「分布」「構成」のどれを見せたいから始めて目的に合ったグラフにたどり着けるようにしている。

データサイエンスのおすすめオンライン記事(3月16日付)

ウクライナ戦争は、第二次世界大戦後の「当たり前だった平和」の時代の転換を予兆しているかのようである。とりあえず日本政府は社会生活の根幹を支えるエネルギーの安定供給のための施策に全力を尽くしてもらいたい。

いかにベイジアン機械学習は機能するか
opendatascience.com
2020年9月の記事。ベイズ推論に関する基礎的説明が大半を占める。

行動のインターネット(IoB)について知っておくべきこと
datafloq.com
行動のインターネット(IoB)とは、IoTで蓄積したデータをもとにテクノロジーで個人の行動を追っていく分野である。本記事はIoBの概要と今後のビジネス見通しについてのエッセイ。

いかに機械学習のDBSCNクラスタリングアルゴリズムを習得するか
www.analyticsvidhya.com
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)は、低密度エリアで区分けされた高密度エリアをグループ化するクラスタリング手法で、外れ値に対して頑健なのが特徴である。

7つのローコード、ノーコードAIプラットフォーム
blog.superannotate.com
Google AutoML, Levityなど、コードをほぼ書かずに利用できるAIプラットフォームの紹介。

いかにPythonで外れ値を見つけて取り扱うか
careerfoundry.com
「外れ値」の扱い方に関する基礎的チュートリアル

過去ブログのリニューアル:「統計学の基本数式」シリーズ

本ブログは過去の他形式のブログを取り込んで作成したため、数式の表示に不備があるものがありましたが、この度それらを修正し、「統計学の基本数式」シリーズとしてリニューアルしました。是非ご覧ください。

(1) 平均値と期待値
datapowernow.hatenablog.com
(2) 確率分布のもう一つの特性値:分散
datapowernow.hatenablog.com
(3) チェビシェフの不等式
datapowernow.hatenablog.com
(4) 大数の弱法則
datapowernow.hatenablog.com
(5) モーメント母関数
datapowernow.hatenablog.com
(6) 中心極限定理
datapowernow.hatenablog.com
(7) 線形単回帰分析
datapowernow.hatenablog.com
(8) 回帰の分散分析
datapowernow.hatenablog.com
(9) 重回帰分析
datapowernow.hatenablog.com