投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

身近な統計(2):箱ひげ図

身近な統計(その2):分布を見える化する「箱ひげ図」

 

時流に乗ってしばらくワールドカップねたで書いたが、グループリーグ終了後にもう一回書くこととして、身近な統計シリーズに戻る。

 

身近な統計(その1)で、以下の仮想データを用いて平均値と中央値を説明した。

 

柔道部(cm):160,156,155,158,161,159,160,162,154,184

水泳部(cm):155,164,162,159,163,158,156,157,163,160

 

両部員の身長の平均値と中央値は以下の通りであった。

 

柔道部:平均値 160.9cm, 中央値 159.5cm

水泳部:平均値 159.7cm, 中央値 159.5cm

 

こう見ると、平均値だけ見たのでは不適切な感じがするし、さりとて中央値だけ見ても柔道部の外れ値データを無視することになりよろしくない。

 

分布の位置、ばらつき、形を見るために「ヒストグラム」を用いるべしと書かれているテキストは多い。しかしヒストグラムは上記のような少ないデータ数の場合は書けないし、複数の分布間の比較もしづらい。

 

分布の主要な情報を把握したり比較したりするのに便利なのが「箱ひげ図」(Boxplot)である。本稿の一番下に柔道部と水泳部のデータの箱ひげ図を掲載した。これによって、分布の位置や幅、外れ値の有無などが一目で比較できる。データが2組ならヒストグラムを並べても何とかなるが、よりデータセット数が多くなると箱ひげ図が威力を発揮する。

 

箱ひげ図の描画機能は主要な統計解析ソフトウェアに装備されている。本稿では、実務教育研究所の多変量解析講座に付属しているExcelマクロを使用した。

箱ひげ図1