投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

スプレッドシートによるデータアナリティクス(6):基本統計量を表示させる

これまで、単一の特徴量の分布の様子を視覚的に捉える方法として「ヒストグラム」と「箱ひげ図」を取り上げ、スプレッドシート上での描画方法を解説してきました。
データの分布の性質として最も基本的な要素は「分布の位置」と「分布のばらつき方」で、前者は「平均値」、後者は「標準偏差」により把握します。それ以外にも、分布の最大値や最小値はデータに処理のミスなどによる予期せぬ「外れ値」があるかどうかをチェックするのに有用ですし、そもそもデータのサイズすなわち「標本数」も特に大規模なデータを扱う場合には把握しておく必要があります。
上記のような指標は「基本統計量」と呼ばれており、Excelでは前回説明した手順に従って「分析ツール」アドインをインストールしてあれば、基本統計量一覧表を簡単に表示させることができます。Googleスプレッドシートでも前回説明した"XLMiner Analysis Toolpak"アドオンがインストールされていれば同様に表示可能です。

Excelによる基本統計量の出力】

  • (アドイン追加後)画面上側のメニューから「データ」→「データ分析」→「基本統計量」を選択してOKボタンを押す

f:id:nicjps230:20210208173035j:plain

  • 基本統計量の設定画面で、「入力範囲」の右側の四角の中にデータのセル範囲をセル番地で指定する。この時複数のデータ列を指定することもできる(例:C1:D48)。あるいは、入力範囲指定の右側のアイコンをクリックし、(ラベルを含む)データ列をドラッグして指定する
  • 「データ方向」は、各特徴量が列に対応している(通常はこちら)場合は「列」を選択し、その逆の場合は「行」を選択する。データの先頭がラベルになっている場合は「先頭行をラベルとして使用」にチェックを入れる
  • 「出力先」の右側の四角の中に結果の表の出力先セルの番地(左上隅になるところ)を指定する
  • 「統計情報」か「平均の信頼区間の出力」「k番目に大きな値」「k番目に小さな値」のいずれかのオプションをオンにする

f:id:nicjps230:20210208173057j:plain

  • 「OK」ボタンを押す。基本統計量の表が表示される。複数の列を指定した場合は列ごとに表示される

f:id:nicjps230:20210208173115j:plain

Googleスプレッドシートによる基本統計量の出力】

  • (アドオン追加後)画面上側のメニューから「アドオン」→「XLMiner Analysis Toolpak」→「Start」を選択する
  • 「Descriptive Statistics」をクリックして設定画面を開き、「Input Range」の右側の四角の中にデータのセル範囲をセル番地で指定する。この時複数のデータ列を指定することもできる(例:C1:D48)
  • 「Group By」は、各特徴量が列に対応している(通常はこちら)場合は「Columns」を選択し、その逆の場合は「Rows」を選択する。データの先頭がラベルになっている場合は「Labels in First Row」にチェックを入れる
  • 「Output Ragnge」の右側の四角の中に結果の表の出力先セルの番地(左上隅になるところ)を指定する

f:id:nicjps230:20210208173144j:plain

  • 「OK」ボタンを押す。基本統計量の表が表示される。複数の列を指定した場合は列ごとに表示される

f:id:nicjps230:20210208173203j:plain