投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

スプレッドシートによるデータアナリティクス(4):箱ひげ図

特徴量の分布の様子をみるための典型的なツールは「ヒストグラム」ですが、ヒストグラムは複数の分布の様子を並べて比べるのには難があります。また分布の位置やばらつきを示す指標を比べるのにも適しません。
それに対して「箱ひげ図」(boxplot)は分布の中央値、四分位値、最大値、最小値などを図に要約して示すもので、特に複数の分布を直感的に比較したいときに威力を発揮します。私は以前はある人が開発した箱ひげ図描画のExcelマクロを利用して報告書などに載せるグラフを作っていました。
f:id:nicjps230:20210203181108j:plain
その後、箱ひげ図はExcel2016より標準搭載になりました。対するGoogleスプレッドシートですが、現在のところ箱ひげ図の描画機能はありません。ネット上では中央値や四分位値をもとにして、株価などに使われる「ローソク足チャート」を利用して描画する方法が多く紹介されていますが、この方法では中央値や外れ値がわからないので「箱ひげ図」とは言い難いものがあります。

Excelによる箱ひげ図の描き方】

  • 各データ点の所属グループ名の列と特徴量の列が隣接するように配置する
  • 所属グループ名の列と特徴量の列を選択し、画面上側のメニューから「挿入」→「統計グラフ(青い縦棒グラフの絵)」→「箱ひげ図」を選択

f:id:nicjps230:20210203181223j:plain

  • グラフ右上の+印(グラフ要素)をクリックし、グラフタイトルや軸ラベルを追加・修正する