投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

統計プログラミング

Pythonで学ぶ統計学 (8): 中心極限定理

今回は「中心極限定理」を見ていきます。中心極限定理は以下の内容の定理です。 を平均 , 分散 をもつ任意の分布から取られた大きさ の無作為標本とし、その標本平均を とする。 が大きくなると、 の分布は平均 、分散 の正規分布に近づく。 これを直感的に…

Pythonで学ぶ統計学 (7) :大数の法則

今回は「大数の法則」を見てみましょう。今、独立に同じ分布にしたがう確率変数 があり、 の共通の期待値を 、分散 とします。大数の弱法則は、任意の正の実数 に対して、以下の式が成り立つことです。 これは、 (すなわち算術平均)が、nが大きくなると の…

Pythonで学ぶ統計学(5): 同時確率分布

データ解析の実務で複数のデータを扱うことは頻繁にあります。例えば気温とアイスクリームの売上高の関係を分析したい場合は、この2つの項目に対応する2つの確率変数の「同時確率分布」を考えます。 連続量の場合、2つの確率変数と定数について、同時確率…

Pythonで学ぶ統計学(4): 連続型確率分布(その2)

まず、以下の確率密度関数を持つ分布を「ガンマ分布」といいます。 ここでは正の値をとるパラメータで、は以下で表される「ガンマ関数」です。 ガンマ分布で特にの時は指数分布に一致し、の時は自由度のカイ自乗分布に一致します。 次に、開区間(0,1)で定義…

Pythonで学ぶ統計学(3): 連続型確率分布(その1)

連続型の確率分布で最も基本的なものは、区間 ]で一定の確率密度を持つ「一様分布」です。 上記の一様分布はある値の区間内であればどの値も同程度の確率で起こるというものですが、我々の身近にある数量の分布、例えば「ある中学校の1年生男子生徒の身長の…

Pythonで学ぶ統計学(2): 離散型確率分布

確率は、ある事象の起こる確からしさを示すものです。例えば「コインを5回投げて表が3回出る確率」や、「本日の最高気温が30℃を超える確率」などを考えますが、このような事象の空間をより抽象的で操作しやすいようにするために、「確率変数」なるものを導入…

Pythonで学ぶ統計学(1): 包除原理

今回より「Pythonで学ぶ統計学」シリーズを連載します。 最初は「包除原理」です。 これは集合の和(union)を集合の積(intersection)を用いて表すものと言えます。 二つの重なりのある集合AとBの場合は、です。ただし集合を挟む縦棒は要素の数です。 例として…