身近な統計(その2):分布を見える化する「箱ひげ図」
時流に乗ってしばらくワールドカップねたで書いたが、グループリーグ終了後にもう一回書くこととして、身近な統計シリーズに戻る。
身近な統計(その1)で、以下の仮想データを用いて平均値と中央値を説明した。
柔道部(cm):160,156,155,158,161,159,160,162,154,184
水泳部(cm):155,164,162,159,163,158,156,157,163,160
両部員の身長の平均値と中央値は以下の通りであった。
柔道部:平均値 160.9cm, 中央値 159.5cm
水泳部:平均値 159.7cm, 中央値 159.5cm
こう見ると、平均値だけ見たのでは不適切な感じがするし、さりとて中央値だけ見ても柔道部の外れ値データを無視することになりよろしくない。
分布の位置、ばらつき、形を見るために「ヒストグラム」を用いるべしと書かれているテキストは多い。しかしヒストグラムは上記のような少ないデータ数の場合は書けないし、複数の分布間の比較もしづらい。
分布の主要な情報を把握したり比較したりするのに便利なのが「箱ひげ図」(Boxplot)である。本稿の一番下に柔道部と水泳部のデータの箱ひげ図を掲載した。これによって、分布の位置や幅、外れ値の有無などが一目で比較できる。データが2組ならヒストグラムを並べても何とかなるが、よりデータセット数が多くなると箱ひげ図が威力を発揮する。
箱ひげ図の描画機能は主要な統計解析ソフトウェアに装備されている。本稿では、実務教育研究所の多変量解析講座に付属しているExcelマクロを使用した。