投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

PythonによるECカタログデータの分析小技集(上)

一部のECサイトでは、販売商品のカタログデータをAPIにより取得することができます。このようなデータには、商品名、商品の補足説明、価格などの情報が含まれています。ここでは、このようなECサイトのカタログデータを処理・分析するためのpythonの小技をま…

機械学習モデルの数学的記述と計算(その1):バイナリ学習

機械学習は、データからそれらが生成されている法則性を学んで、予測や分類に役立てるものである。 ここでは、スタンフォード大学のAndrew Ng教授の講義ノートをベースに、機械学習の数学的バックグラウンドを整理する。教師ありバイナリ学習のデータの表現…

データサイエンスのおすすめオンライン記事(6月25日付)

緊急事態宣言はほぼ解除され、限定的ながら飲食店での酒類提供も復活した。当方にもようやくワクチン接種券が届いたが、現状で唯一可能性のある自衛隊の大規模接種も満杯で予約できない。さらにワクチン接種ペースが加速し、安心して活動できる日が一日も早…

Pythonによるログデータの分析小技集

最近のビッグデータのうちの多くのものが、アクセスログ、イベントログなどのログデータです。その特徴として以下の2つがあります。 (1)多数の個体についての時系列データである(タイムスタンプを持つ) (2)収集しているデータの大部分が(定型/非定型の)…

データサイエンスのおすすめオンライン記事(6月12日付)

緊急事態宣言が続いている中で、いつの間にかオリンピックを実施するという流れができてしまった感がある。とりあえず殆どの人は家でテレビ観戦するしかないので、日本選手の活躍で世の中の気分が上向きになれば、経済の好転も早まるかもしれない。 今回も最…

Pythonで学ぶ統計学(13):予測のための時系列データの統計モデル化(Holt-Wintersモデル)(その2)

前回のブログで時系列データの予測でよく用いられるHolt-Winters法について解説した。 ここでは、pythonを用いて、日本の企業の賃金指数の月次データにHolt-Winters法を適用してみる。 データは、「毎月勤労統計調査 / 毎月勤労統計調査 全国調査 / 長期時系…

Pythonで学ぶ統計学(12):予測のための時系列データの統計モデル化(Holt-Wintersモデル)(その1)

本年1月に数値時系列の将来予測のモデルとしてよく使われるARIMAモデルを紹介した。今回は、機械学習の場面でARIMAモデルと共によく用いられるHolt-Winters法(三重指数平滑法)を取り上げる。 「指数平滑法」は時系列データのスムージング手法としては昔か…

データサイエンスのおすすめオンライン記事(5月21日付)

今週に入って事実上梅雨入りしたような天候が続いているが、来週は天候が回復し、本格的な梅雨入りはまだ先ということらしい。梅雨が開けて暑くなる頃には行動制限なく夏を満喫できることを願うばかりである。 今回紹介するの記事は前回の積み残し分だが、か…

データサイエンスのおすすめオンライン記事(5月15日付)

今年のゴールデンウィークは、遠くへは出かけられないがかといって家に閉じこもっているのもつまらないので、近場の外出をした人が多かったのではないか。私も5/3にあまり遠くないお出かけスポットへ行ったら物凄い人混みだった。 前回投稿から一ヶ月ほど経…

データサイエンスのおすすめオンライン記事(4月16日付)

ようやく緊急事態宣言から抜け出たと思ったら、今度は「まん延防止等重点措置」で主要都市の飲食店は再び20時閉店となってしまう。先週土曜日に用務先の近くに新たにオープンした飲食街で昼食をとったが、周りの客はみなグループで飲んでおり、夜の飲み屋の…

データサイエンスのおすすめオンライン記事(4月1日付)

新年度を迎えた。桜は東京ではすでに満開を過ぎてしまったが、街の人々の動きは例年と変わらない。新たな気持ちで新社会人をスタートさせた方も多いであろうが、テレワーク主体の会社に入社する人は果たして自分がこの会社でスキルを習得して一人前の仕事が…

データサイエンスのおすすめオンライン記事(3月15日付)

東京では早くも桜が開花してしまった。しかし今年は桜の下での飲食はNGであるのみならず、一部の桜の名所では入場制限もある。そうすると花見に適しているのは川沿いの桜の名所ということになるだろう。満開になったら行こうと思う。 今回も特に最近発表され…

データサイエンスのおすすめオンライン記事(3月5日付)

首都圏の緊急事態宣言は2週間程度延長される見通しとなった。「不要不急の外出は控えて」と叫ばれているが、今週の風雨が強い日に私のいつも利用するバスが意外と空いていた。よく見ると高齢者の客がぐっと減っており、このバスが不要不急の高齢者外出用バス…

ブログ統合のお知らせ

これまで本ブログと同時並行的に執筆・投稿してまいりました「K.ONO'S BLOG」を本ブログに移転・統合いたしました。「データサイエンスのおすすめオンライン記事」は引き続き当ブログにて掲載いたします。ご期待ください。引き続き新しいシリーズの連載も計…

スプレッドシートによるデータアナリティクス(9) 回帰分析(アドインの利用)

前回はLINEST関数を用いた回帰分析の話をしましたが、あらかじめ表の各項目の説明文を用意しておくなどの手間がかかります。実際にはもっと手軽に分析結果を確認したいところです。これはExcelでもGoogleスプレッドシートでも可能です。 Excelでは第5回で説…

スプレッドシートによるデータアナリティクス(8) 回帰分析(LINEST関数の利用)

本シリーズの第3回目で、散布図の上にトレンド線を引く方法を解説しました。その直線の係数は「最小二乗法」により求めること、統計学ではこれを「回帰分析」ということを書きました。散布図のトレンドを示す回帰直線は、回帰分析では最も基本的な形で、被説…

データサイエンスのおすすめオンライン記事(2月17日付)

コロナの波は明確にピークを過ぎてきており、日本でワクチン接種も始まった。今後は何が元に戻り、何がニューノーマルのままになるのかを見極めていくことが重要になるだろう。今回のパンデミックは全世界でDXの推進要因になったわけだが、今回紹介する記事…

スプレッドシートによるデータアナリティクス(7):相関係数表の出力

数多くの特徴量がある場合に、それらが相互にどのように関連しているかを把握することは様々な場面で必要になります。特に社会経済分野においては、各特徴量が経済成長率や人口などの「交絡要因」を媒介として相互に高い直線的関連性を有しているケースが多…

スプレッドシートによるデータアナリティクス(6):基本統計量を表示させる

これまで、単一の特徴量の分布の様子を視覚的に捉える方法として「ヒストグラム」と「箱ひげ図」を取り上げ、スプレッドシート上での描画方法を解説してきました。 データの分布の性質として最も基本的な要素は「分布の位置」と「分布のばらつき方」で、前者…

スプレッドシートによるデータアナリティクス(5) 統計解析アドインのインストール

Excelの関数にはさまざまな統計解析の機能が装備されています。例えば、データの平均を求める場合は=average(データセルの範囲)、データの標準偏差を求める場合は=stdev(データセルの範囲)により求まります。さらに、=linest()関数を用いれば回帰分析(単回…

スプレッドシートによるデータアナリティクス(4):箱ひげ図

特徴量の分布の様子をみるための典型的なツールは「ヒストグラム」ですが、ヒストグラムは複数の分布の様子を並べて比べるのには難があります。また分布の位置やばらつきを示す指標を比べるのにも適しません。 それに対して「箱ひげ図」(boxplot)は分布の中…

データサイエンスのおすすめオンライン記事(2月2日付)

コロナ新規感染者は減少傾向にあるが、緊急事態宣言は主要地域で延長される見通しである。今日の昼はアメリカンのバーガーレストランで昼食を取ったが、そこの店も昼飲み客を取り込んで何とかやっていこうという雰囲気だった。立春とともに気分も明るくなる…

スプレッドシートによるデータアナリティクス(3) 散布図の応用:トレンド線と点ラベルの表示

基本的な散布図を見ることにより、2つの特徴量の間にどのような関連があるかというイメージはつかめます。そうすると、典型的にはさらに次の2つのことが知りたくなります。(1) 2つの特徴量の関係を式で表すとどうなるか、あるいはX軸の特徴量を一単位増やす…

スプレッドシートによるデータアナリティクス(2) :2つの特徴量の関連性をみるための散布図

特徴量が一つの場合は、ヒストグラムによりその分布の様子を見ることが基本になりますが、特徴量が2つの場合は、その関連性を見ることが多くの場合必要になります。 例えば「気温と電力使用量との関連」を見るといった場合です。この場合の基本は「散布図」…

スプレッドシートによるデータアナリティクス(1):データの分布の様子を見るためのヒストグラム

本日より、新シリーズ「スプレッドシートによるデータアナリティクス」の連載をスタートします。 近年では「データアナリティクス」という言葉が流行っています。データアナリティクスとは一般的に、「顧客情報や購買履歴などのデータから事業改善や売上増加…

データサイエンスのおすすめオンライン記事(1月18日付)

年が明けて寒くなってきたのに伴いコロナが勢いを増してきて、再び緊急事態宣言となってしまった。ランチで飲食店に入ると帰るまで他の客がゼロということもあり、一体どれだけの店が生き残れるのかと陰鬱な気分になる。さて、本年も米国データサイエンスの…

Pythonで学ぶ統計学(10):予測のための時系列データの統計モデル化(ARIMAモデル)(その2)

前回紹介したARIMAモデルを実際の時系列データの予測に適用するpythonコードを紹介します。 時系列データの統計モデルによる予測は、現在では機械学習の一手法として紹介されることがほとんどとなっています。 ここでは機械学習コンペのサイトKaggleにあるデ…

Pythonで学ぶ統計学(10):予測のための時系列データの統計モデル化(ARIMAモデル)(その1)

時系列データの統計解析に関しては、2014年11月29日の本ブログの記事で、主として経済時系列を想定した単位根検定と共和分の話を書きました。ここでは、あらゆる分野の時系列データの予測のための統計モデル構築に利用されているARMAモデルあるいはARIMAモデ…

「データサイエンスと統計学の旅」ブログ発足にあたって

2014年からFC2ブログにて「データ読み解きナウ」というタイトルでブログを展開してきたが、2020年末に「はてなブログ」に移転し、タイトルを「データサイエンスと統計学の旅」とした。 読者がデータサイエンスと統計学の世界に足を踏み入れたら、旅行するか…

データサイエンスのおすすめオンライン記事(12月30日付)

いよいよ2020年も残りわずか1日というところまで来た。当方も例年ならこの一年を振り返るテレビ番組を見るのだが、今年は内容がわかりきっていて見る気も起こらない。一方でデータサイエンスのオンライン記事では例年の如く今年の総括と来年の展望に関する記…