投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

ゴールデンウィーク特集:データ解析入門 (2)

1.正規分布とは 正規分布とは、データがその分布の範囲の中間点に最も多く集まり、中間点から離れるにつれて値の密度が小さくなる確率分布で、図で表すと釣り鐘型の分布曲線となる。
確率分布には様々なものがあるが、この正規分布が一番重要である。その理由は「中心極限定理」と呼ばれる性質にある。中心極限定理とは、データの数が多くなると、そのデータを集約した値(算術平均)は正規分布に近づいていく、というものである。
2.人文・社会科学データと正規分布 統計の応用分野として、人文・社会科学系のデータには、正規分布にしたがっていると仮定して分析を進めていくものが多い。学校の成績やテストの点数も、正規分布にしたがうとの前提から、(分布の位置をあらわす)平均50、(分布のばらつきをあらわす)標準偏差10となるように標準化した「偏差値」が用いられる。正規分布の場合、平均プラスマイナス2×標準偏差より外側の点数をとる割合は片側2.5%、両側5%である。つまり偏差値30以下の生徒の割合は2.5%、偏差値70以上の生徒の割合も2.5%ということになる。尚、実際の単一のテストの分布は人間の分布なので、正規分布の頭が潰れたような分布型になるようである。 その他には、世論調査などのアンケート調査では、「そう思う」「ややそう思う」「わからない」「あまりそう思わない」「全くそう思わない」といった5段階評価で回答してもらうことが多い。尚、選択肢の中に「どちらともいえない」を入れててしまうと、結局無難な回答として「どちらともいえない」にマルをつける回答者が多くなるため、現在では「どちらともいえない」という選択肢は設けず、かわりに「わからない」という選択肢を一番後に配置する形が多い。この場合データは順序のある5つのレベルのデータ(順序尺度)であるが、「わからない」を「どちらともいえない」と同義とみなして、便宜的に-2,-1,0,1,2という値を割り当てて、正規分布であるとして分析をすすめることが多い。
3.正規分布かどうか疑われる場合は分布の形を見ることが必要 データを要約するための代表値として、算術平均が使われることが多い。しかしこの算術平均は、データが正規分布(あるいはポアソン分布)にしたがっているときは分布の位置をあらわす最も良い統計量であるが、データが正規分布ではない場合は必ずしも良い統計量であるとは言えない。 (例)10名の生徒のテストの点数 生徒  A   B   C   D   E    F    G   H  I    J    平均値 中央値 国語  50  54  53  28  58  66  47  46  40  39   48.1    48.5 美術    3  56  38  32  56  45  44  47  51  47   41.9    46 二つの科目のうち、国語が概ね正規分布にしたがう点数であるのに対して、美術は非常に点数の低い生徒が一人いるため、算術平均はその低い生徒の点数に「引きづられて」低くなってしまう。このような「外れ値」がある場合には、分布の位置を見るためには算術平均よりも中央値(データを大きさの順に並べた時に中央の順位のデータの値)を見る方が適切である。中央値はこのような外れ値の影響をより受けにくい(これをより頑健あるいはロバストという)。 このような外れ値を含む分布の形を見るのに便利なツールが箱ひげ図(ボックスプロット)である。箱ひげ図により、分布の位置や歪み、外れ値の様子を把握することができる。ヒストグラムでも分布の形を見ることができるが、データ数があまり多くない場合はヒストグラムをうまく描けない。その点では箱ひげ図の方が優れている。