投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

2020-01-01から1年間の記事一覧

データサイエンスのおすすめオンライン記事(12月30日付)

いよいよ2020年も残りわずか1日というところまで来た。当方も例年ならこの一年を振り返るテレビ番組を見るのだが、今年は内容がわかりきっていて見る気も起こらない。一方でデータサイエンスのオンライン記事では例年の如く今年の総括と来年の展望に関する記…

Pythonで学ぶ統計学(9): クロス集計表の分析(改訂版)

調査対象の個人の性別や商品の購入/非購入などの「カテゴリカル変数」が複数あってその間の関連を知りたい場合に「クロス集計表」を作成します。今、 個の個体を特性 に関して分類してカウントした時に、特性 かつ特性 に分類された個体数が であるとした時…

Pythonで学ぶ統計学(6): 条件付分布(改訂版)

2つの連続型確率変数 の同時確率密度関数を とするとき、確率変数 のみの分布を「周辺分布」といい、以下により求められます。確率変数 のみの周辺分布についても同様です。ここでのポイントは、「一つの確率変数の分布は、世の中に数多ある確率変数の周辺分…

統計まとめ:因子分析(その2:改訂版)

今更ですが、2014年の記事の続きです。前回の記事で、観測される変数を、因子負荷量、共通因子及び独自因子の線形関係の式で表しました。 【主因子法】次に、因子負荷量を求める古典的な方法である主因子法について見てみましょう。前回記事の最後の式より以…

データサイエンスのおすすめオンライン記事(12月24日付)

年の瀬で、繁華街は昼間は例年通り多くの人が行き交っている。しかし夜になると例年の人混みが見られない。自分も今月仕事関連のオンラインイベントが2度あったがリアル忘年会はゼロである。ニューノーマルへ誰もが模索しているといったところだろう。 今回…

データサイエンスのおすすめオンライン記事(12月6日付)

コロナで3分の2の企業が業績を落としているにも関わらず、株価は上昇を続けている。日銀やGPIFが作り出した「官製相場」に金融緩和で生じたあぶく銭が集まっている結果と言われているが、バブルが弾ける瞬間が迫っているようで不気味である。ところで、また…

データサイエンスのおすすめオンライン記事(11月3日付)

晩秋になり、欧州などでは新型コロナの感染者が再び増加傾向になっている。紅白や箱根駅伝など年末年始の恒例行事が無観客開催となる一方で、クルーズ船の再開といった明るい話題もある。当方は今年は例年行っていた海外はおろか国内旅行もゼロで1年を終えそ…

データサイエンスのおすすめオンライン記事(9月21日付)

連休真っ只中である。行楽地には客が戻りつつあるが、コロナ禍前の状況に戻るにはまだまだ時間がかかりそうである。日本では新たに発足した菅政権がDXの推進を前面に打ち出していることもあり、デジタル化の重要な役割を担うデータサイエンティストにも活躍…

データサイエンスのおすすめオンライン記事(8月20日付)

猛烈な暑さが続いている。普段の夏ならまとまった休みをとって旅行やバカンスに行くはずが、今年はコロナの影響で自宅・職場や近場の涼しいところにひたすら籠っている方も多いであろう。また、この際に新しいことにチャレンジするために勉強するという人も…

データサイエンスのおすすめオンライン記事(7月20日付)

ようやくコロナから開放されて自由に動き回れるかと思ったら再び感染者数の増加の波が押し寄せており、いったいどうすればいいのかと戸惑っている方も多いであろう。しかし何ヶ月も巣ごもりしている間に当方の近所にも新たなショッピングやエンタメ施設がオ…

データサイエンスのおすすめオンライン記事 (6月23日付)

身の回りでをみるとコロナ禍からかなり日常が回復してきた。しかし海外との行き来など、もとに戻るまでに数年かかるとみられているものもあり、全世界的な経済へのダメージも気になる所である。今回からタイトルを変えたが中身は同じで、海外インフルエンサ…

Pythonで学ぶ統計学 (8): 中心極限定理

今回は「中心極限定理」を見ていきます。中心極限定理は以下の内容の定理です。 を平均 , 分散 をもつ任意の分布から取られた大きさ の無作為標本とし、その標本平均を とする。 が大きくなると、 の分布は平均 、分散 の正規分布に近づく。 これを直感的に…

データサイエンスのおすすめウェブサイト(6月2日付)

緊急事態宣言が解除になり、経済活動は少しずつ復活してきている。一方でテレワーク浸透など様々な変化があり、この変革の時期をビジネスチャンスと捉えてチャレンジする人も多いであろう。当ブログでも変革の時代にふさわしい情報源を探索していきたいと思…

Pythonで学ぶ統計学 (7) :大数の法則

今回は「大数の法則」を見てみましょう。今、独立に同じ分布にしたがう確率変数 があり、 の共通の期待値を 、分散 とします。大数の弱法則は、任意の正の実数 に対して、以下の式が成り立つことです。 これは、 (すなわち算術平均)が、nが大きくなると の…

データサイエンスのおすすめウェブサイト(5月11日付)

GWといっても巣ごもり生活でこれといった楽しみもなく、結局仕事と向き合っている方が前向きな気持ちで生活できると感じた方も多いと思う。しかし最近ようやく、新型コロナウイルスのトンネルの真っ暗闇から出口の光がぽつんと見えてきた感がある。今回も最…

データサイエンスのおすすめウェブサイト(4月13日付)

急なテレワーク体制への転換で、毎日家に閉じこもってパソコン画面と新型コロナウイルスのニュース画面に明け暮れている方も多いと思う。今回紹介するKirk Borne氏のエッセイにあるように「子供の頃のワクワク体験を今日のデータからの新たな発見に見出す」…

データサイエンスのおすすめウェブサイト(3月29日付)

新型コロナウイルスが全世界的パンデミックとなり、当方がフォローしているKirk Borne氏のツィートも「COVID2019問題へのデータサイエンスの取り組み」「家で読むのにおすすめのデータサイエンス書籍」などコロナ関連の話題が多くなっている。データサイエン…

条件付き確率とベイズの定理(新型コロナウイルスを例に)

今回は、新型コロナウイルス問題と関連して、条件付き確率とベイズの定理について考えてみます。本記事はデータサイエンス英文サイトをベースに作成しました。 【新型コロナウイルスに感染している可能性は?】 あなたはある朝目を覚ますと、せきや発熱の症…

Pythonで学ぶ統計学(5): 同時確率分布

データ解析の実務で複数のデータを扱うことは頻繁にあります。例えば気温とアイスクリームの売上高の関係を分析したい場合は、この2つの項目に対応する2つの確率変数の「同時確率分布」を考えます。 連続量の場合、2つの確率変数と定数について、同時確率…

データサイエンスのおすすめウェブサイト(2月19日付)

前回投稿時から変わらずコロナウィルスが猛威をふるっている。インバウンドの減少やサプライチェーンの停滞など経済に与える影響は相当大きくなるだろう。人混みの場所へ出かけることを考えずにじっとして足元を固めた方がよさそうである。今回も最近目につ…

Pythonで学ぶ統計学(4): 連続型確率分布(その2)

まず、以下の確率密度関数を持つ分布を「ガンマ分布」といいます。 ここでは正の値をとるパラメータで、は以下で表される「ガンマ関数」です。 ガンマ分布で特にの時は指数分布に一致し、の時は自由度のカイ自乗分布に一致します。 次に、開区間(0,1)で定義…

Pythonで学ぶ統計学(3): 連続型確率分布(その1)

連続型の確率分布で最も基本的なものは、区間 ]で一定の確率密度を持つ「一様分布」です。 上記の一様分布はある値の区間内であればどの値も同程度の確率で起こるというものですが、我々の身近にある数量の分布、例えば「ある中学校の1年生男子生徒の身長の…

データサイエンスのおすすめウェブサイト(1月29日付)

新型コロナウィルスのニュースが連日報道されている。通勤電車でもマスクをしている人は三割程度いる。とりあえず個人としては、マスク・手洗い・うがいなどのインフルエンザ予防対策を徹底するのだ第一だろう。本日も気になった英文サイトを紹介する。 デー…

Pythonで学ぶ統計学(2): 離散型確率分布

確率は、ある事象の起こる確からしさを示すものです。例えば「コインを5回投げて表が3回出る確率」や、「本日の最高気温が30℃を超える確率」などを考えますが、このような事象の空間をより抽象的で操作しやすいようにするために、「確率変数」なるものを導入…

Pythonで学ぶ統計学(1): 包除原理

今回より「Pythonで学ぶ統計学」シリーズを連載します。 最初は「包除原理」です。 これは集合の和(union)を集合の積(intersection)を用いて表すものと言えます。 二つの重なりのある集合AとBの場合は、です。ただし集合を挟む縦棒は要素の数です。 例として…

データサイエンスのおすすめウェブサイト(1/13)

「データサイエンス職が東大生の人気職種に」という記事が昨日掲載された。この記事で特に注目されるのは、安定した大手企業ではなくフリーランス的な働き方を志向する学生が多くなっているということである。いよいよ日本的雇用からの本格的転換が加速して…

データサイエンスのおすすめウェブサイト(1/4)

いよいよ東京オリンピックが開催される2020年が幕を開けた。区切りの節目の年ということでデータサイエンスの記事にも今年の(主にAIに関する)トレンド予測をテーマにしたものが目立つ。そのような記事をいくつか紹介したい。 2020年のデジタル変革の主要な…