投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

2021-01-01から1年間の記事一覧

Python Dashによるダッシュボードの構築(改訂版)

【注記】最初に投稿したコードはGoogle Colaboratoryでは動作しますが、Dockerではエラーで動作しないものでした。ダッシュボードはデプロイしなければほとんど意味がなく、現状ではDocker環境がデプロイには最もよい方法と考えらるため、Dockerでエラーなく…

データサイエンスのおすすめオンライン記事(12月4日付)

「実質ゼロコロナ」で安心しかけたのもつかの間、「オミクロン株」の脅威に一喜一憂する日々となってしまった。ギリシャ文字が全部終わってもまだ新たな変異株が出現するのか?そうしたらどう名付けるのか?などど考えてしまう。今年も残すところ一ヶ月。来…

TF-IDFとコサイン類似度を用いたおすすめ文書の抽出

昨今のECサイトでは、リコメンド機能によりユーザがさらに買いたいと思うような商品を提案して顧客体験を向上させることが一般的になっています。この背景にある技術は、一つには日本語を自動的に品詞に分解して「わかち書き」にする技術(形態素解析)、も…

Dashによるwebアプリの構築の基礎

Pythonによってデータの分析をして得られたグラフなどのアウトプットについては、画像ファイルに保存して、Word文書やPowerPointのスライドに貼り付けて報告資料にする、というのが最も一般的でしょう。一方、実務ではエンドユーザが自ら分析したい変数や条…

データサイエンスのおすすめオンライン記事(11月4日付)

コロナ感染者もみるみるうちに「実質ゼロコロナ」といえるほどまで減少した。海外ではまだ多くの感染者を出している国もあり予断を許さないが、混雑した町並みや電車など、日常生活が戻ってきたと実感することが多くなった。 今回紹介する記事もストックにあ…

ログデータにおけるテキストデータ連続累積出現回数の算出

様々な活動を記録したログデータにおいて、あるパターンの文字列が何回連続して登場したかをカウントすることが必要になる場合があります。これは集計処理とは異なるため、コーディングは多少ややこしくなります。 ここでは例として、サッカーJリーグの歴代…

データサイエンスのおすすめオンライン記事(10月20日付)

先週「ワーケーションツアー」なるものに参加した。様々な所から集まった参加者が観光を楽しみつつ、ある時間帯にはPCに向かって仕事をするのは異様な感じもしたが、休暇を楽しみつつ会社ネットワークにつないで「置いてきぼり」にならないようにするにはい…

データサイエンスのおすすめオンライン記事(9月28日付)

事実上の次期首相を選ぶ選挙が翌日に迫ってきた。次のリーダーには是非長期的な視点で日本の経済的衰退を食い止める政策を打ってもらいたい。特にエネルギー政策は国の根幹に関わる重要課題であり、次期首相の政治家としての手腕に期待したい。 前回の投稿か…

Pythonによる分散分析のデモ

ある変量の変動の要因を分析する場合には、母集団のサブグループ別に分布や平均値を比較して、グループ間で差があるかどうかをみる、ということはよく行われます。これをより系統的に行う手法が分散分析です。分散分析は、原理的にはダミー変数を用いた回帰…

データサイエンスのおすすめオンライン記事(8月9日付)

前回のこのシリーズの投稿からバタバタしている間にオリンピックが終わってしまった。これは最近始まったことではないが、バレーボールではコーチがタブレット端末片手にデータ分析結果に基づいてリアルタイムに戦略を指南していたし、サッカーでも日本代表…

PythonによるECカタログデータの分析小技集(下)

前回に引き続き、「楽天ブックス書籍検索API」を利用してダウンロードした書籍情報データを用いて、ECサイトのカタログデータを処理・分析するためのpythonの小技をまとめました。 まず前回と同様に必要なライブラリを読み込み、データを保存先からロードし…

PythonによるECカタログデータの分析小技集(上)

一部のECサイトでは、販売商品のカタログデータをAPIにより取得することができます。このようなデータには、商品名、商品の補足説明、価格などの情報が含まれています。ここでは、このようなECサイトのカタログデータを処理・分析するためのpythonの小技をま…

機械学習モデルの数学的記述と計算(その1):バイナリ学習

機械学習は、データからそれらが生成されている法則性を学んで、予測や分類に役立てるものである。 ここでは、スタンフォード大学のAndrew Ng教授の講義ノートをベースに、機械学習の数学的バックグラウンドを整理する。教師ありバイナリ学習のデータの表現…

データサイエンスのおすすめオンライン記事(6月25日付)

緊急事態宣言はほぼ解除され、限定的ながら飲食店での酒類提供も復活した。当方にもようやくワクチン接種券が届いたが、現状で唯一可能性のある自衛隊の大規模接種も満杯で予約できない。さらにワクチン接種ペースが加速し、安心して活動できる日が一日も早…

Pythonによるログデータの分析小技集

最近のビッグデータのうちの多くのものが、アクセスログ、イベントログなどのログデータです。その特徴として以下の2つがあります。 (1)多数の個体についての時系列データである(タイムスタンプを持つ) (2)収集しているデータの大部分が(定型/非定型の)…

データサイエンスのおすすめオンライン記事(6月12日付)

緊急事態宣言が続いている中で、いつの間にかオリンピックを実施するという流れができてしまった感がある。とりあえず殆どの人は家でテレビ観戦するしかないので、日本選手の活躍で世の中の気分が上向きになれば、経済の好転も早まるかもしれない。 今回も最…

Pythonで学ぶ統計学(13):予測のための時系列データの統計モデル化(Holt-Wintersモデル)(その2)

前回のブログで時系列データの予測でよく用いられるHolt-Winters法について解説した。 ここでは、pythonを用いて、日本の企業の賃金指数の月次データにHolt-Winters法を適用してみる。 データは、「毎月勤労統計調査 / 毎月勤労統計調査 全国調査 / 長期時系…

Pythonで学ぶ統計学(12):予測のための時系列データの統計モデル化(Holt-Wintersモデル)(その1)

本年1月に数値時系列の将来予測のモデルとしてよく使われるARIMAモデルを紹介した。今回は、機械学習の場面でARIMAモデルと共によく用いられるHolt-Winters法(三重指数平滑法)を取り上げる。 「指数平滑法」は時系列データのスムージング手法としては昔か…

データサイエンスのおすすめオンライン記事(5月21日付)

今週に入って事実上梅雨入りしたような天候が続いているが、来週は天候が回復し、本格的な梅雨入りはまだ先ということらしい。梅雨が開けて暑くなる頃には行動制限なく夏を満喫できることを願うばかりである。 今回紹介するの記事は前回の積み残し分だが、か…

データサイエンスのおすすめオンライン記事(5月15日付)

今年のゴールデンウィークは、遠くへは出かけられないがかといって家に閉じこもっているのもつまらないので、近場の外出をした人が多かったのではないか。私も5/3にあまり遠くないお出かけスポットへ行ったら物凄い人混みだった。 前回投稿から一ヶ月ほど経…

データサイエンスのおすすめオンライン記事(4月16日付)

ようやく緊急事態宣言から抜け出たと思ったら、今度は「まん延防止等重点措置」で主要都市の飲食店は再び20時閉店となってしまう。先週土曜日に用務先の近くに新たにオープンした飲食街で昼食をとったが、周りの客はみなグループで飲んでおり、夜の飲み屋の…

データサイエンスのおすすめオンライン記事(4月1日付)

新年度を迎えた。桜は東京ではすでに満開を過ぎてしまったが、街の人々の動きは例年と変わらない。新たな気持ちで新社会人をスタートさせた方も多いであろうが、テレワーク主体の会社に入社する人は果たして自分がこの会社でスキルを習得して一人前の仕事が…

データサイエンスのおすすめオンライン記事(3月15日付)

東京では早くも桜が開花してしまった。しかし今年は桜の下での飲食はNGであるのみならず、一部の桜の名所では入場制限もある。そうすると花見に適しているのは川沿いの桜の名所ということになるだろう。満開になったら行こうと思う。 今回も特に最近発表され…

データサイエンスのおすすめオンライン記事(3月5日付)

首都圏の緊急事態宣言は2週間程度延長される見通しとなった。「不要不急の外出は控えて」と叫ばれているが、今週の風雨が強い日に私のいつも利用するバスが意外と空いていた。よく見ると高齢者の客がぐっと減っており、このバスが不要不急の高齢者外出用バス…

ブログ統合のお知らせ

これまで本ブログと同時並行的に執筆・投稿してまいりました「K.ONO'S BLOG」を本ブログに移転・統合いたしました。「データサイエンスのおすすめオンライン記事」は引き続き当ブログにて掲載いたします。ご期待ください。引き続き新しいシリーズの連載も計…

スプレッドシートによるデータアナリティクス(9) 回帰分析(アドインの利用)

前回はLINEST関数を用いた回帰分析の話をしましたが、あらかじめ表の各項目の説明文を用意しておくなどの手間がかかります。実際にはもっと手軽に分析結果を確認したいところです。これはExcelでもGoogleスプレッドシートでも可能です。 Excelでは第5回で説…

スプレッドシートによるデータアナリティクス(8) 回帰分析(LINEST関数の利用)

本シリーズの第3回目で、散布図の上にトレンド線を引く方法を解説しました。その直線の係数は「最小二乗法」により求めること、統計学ではこれを「回帰分析」ということを書きました。散布図のトレンドを示す回帰直線は、回帰分析では最も基本的な形で、被説…

データサイエンスのおすすめオンライン記事(2月17日付)

コロナの波は明確にピークを過ぎてきており、日本でワクチン接種も始まった。今後は何が元に戻り、何がニューノーマルのままになるのかを見極めていくことが重要になるだろう。今回のパンデミックは全世界でDXの推進要因になったわけだが、今回紹介する記事…

スプレッドシートによるデータアナリティクス(7):相関係数表の出力

数多くの特徴量がある場合に、それらが相互にどのように関連しているかを把握することは様々な場面で必要になります。特に社会経済分野においては、各特徴量が経済成長率や人口などの「交絡要因」を媒介として相互に高い直線的関連性を有しているケースが多…

スプレッドシートによるデータアナリティクス(6):基本統計量を表示させる

これまで、単一の特徴量の分布の様子を視覚的に捉える方法として「ヒストグラム」と「箱ひげ図」を取り上げ、スプレッドシート上での描画方法を解説してきました。 データの分布の性質として最も基本的な要素は「分布の位置」と「分布のばらつき方」で、前者…