確率は、ある事象の起こる確からしさを示すものです。例えば「コインを5回投げて表が3回出る確率」や、「本日の最高気温が30℃を超える確率」などを考えますが、このような事象の空間をより抽象的で操作しやすいようにするために、「確率変数」なるものを導入します。前者の例では、コインを5回投げて表が出る回数をとするとき、はのいずれかの値をとりますが、表が3回出る確率をと表します。このは離散型確率変数と呼ばれます。一方後者において、本日の最高気温℃をとするとき、は-273より大きい実数値をとりますが、本日の最高気温が30℃を超える確率をと表します。
このように物事が起こる事象を確率変数がある値をとることに対応させて表現すると、その事象の起こる確率を数式で表現する道が開けます。
コイン投げのような試行をベルヌーイ試行といいますが、ベルヌーイ試行を回実施したとき生起確率の事象が起こる回数(成功回数)をとすると、は「二項分布」に従います。
同じくベルヌーイ試行で、回成功するまでの失敗の回数をとすると、は「負の二項分布」に従います。
また二項分布でと置き、試行回数が非常に大きくなった場合を考えると、以下のような「ポアソン分布」になります。
次に、箱の中にくじが本あり、そのうち当たりくじが本あるとします。いま、その箱から本のくじを引いた時に当たりくじが本である確率は、以下のような「超幾何分布」になります。
実際に二項分布にしたがう乱数を発生させてそのヒストグラムを描くPythonコードとその結果は以下のようになります。この場合の分布の平均値100*0.3=30付近がピークの釣り鐘型の分布になっています。
import numpy as np import pandas as pd import matplotlib.pyplot as plt n,p = 100,0.3 x1 = np.random.binomial(n,p,3000) fig = plt.figure() ax = fig.add_subplot(111) ax.hist(x1) ax.set_title('Binomial n='+str(n)+' p='+str(round(p,1))) plt.show()