投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

スプレッドシートによるデータアナリティクス(1):データの分布の様子を見るためのヒストグラム

本日より、新シリーズ「スプレッドシートによるデータアナリティクス」の連載をスタートします。
近年では「データアナリティクス」という言葉が流行っています。データアナリティクスとは一般的に、「顧客情報や購買履歴などのデータから事業改善や売上増加に役立つ情報を発見するために行う分析のこと」とされています。企業などで昔からデータに接してきた人にとっては、「伝統的な統計データ解析とデータアナリティクスでは何が違うのか」ということを疑問に持たれる方も多いでしょう。実際にやることはあまり変わりませんが、「統計データ解析」の場合には、(統計の専門家でない)実務担当者の依頼を受けた情報システム部門や外部コンサルタント会社の統計解析の専門家が様々な統計解析ツールを駆使して分析した結果をスライドや報告書にしてクライアントや意思決定者に報告する、という形式が主流でした。これに対して「データアナリティクス」の場合は、実務担当者が自らツールを駆使してデータを分析し、それをそのままクライアントや意思決定者に見てもらう、あるいはクライアントや意思決定者が直接ツールを使って様々な分析を行う、というイメージがあります。つまり統計学・データベース・プログラミングなどの専門スキルを必要とせずに、データを分析して今後のアクションを決める際の知見を得ることに重点が置かれます。このようなデータアナリティクスが重要になってきた背景には、(1)企業にとってデータ活用がより重要になってきた、(2)Plan-Do-Check-Actionなどのサイクルが高速化してきた、ことがあります。つまり分析を他者に依頼してその都度報告してもらうという悠長なことをやっていたら競争に勝てないわけです。
それではデータを分析するにあたって統計学の知識が不要になったかといえばそうではありません。IT技術者は、正しい統計学の知識に基づいて使いやすく効率的・効果的に答えを出せるアナリティクスのためのツールを作り込み、それを実務担当者や意思決定者が使い込んでいく、というイメージになります。
データ分析のツールの基本は、ここ20〜30年ほどの前からエクセルに代表される「スプレッドシート」でした。最近ではデータが大容量化したためにスプレッドシートを使わないケースも多くなっていますが、スプレッドシートによるデータ分析は引き続き基本ツールと言っていいでしょう。ただしプラットフォームとしては、有料のエクセルに代わって基本無料で利用できるGoogleスプレッドシートが使われる場合も多くなってきました。そこで本連載では、データアナリティクス構築ツールをエクセルとGoogleスプレッドシートでいかに構築するかについて解説します。尚、エクセルはWindows10上で動くMicrosoft Excel 2016以降あるいは365に準拠しています。
第1回目はヒストグラムの描画です。
ヒストグラムはデータの散らばり方の様子を見るための基本ツールです。エクセルでは2016からヒストグラム描画機能が標準で搭載されました。またGoogleスプレッドシートでも簡単にヒストグラムを描画できます。

Excelによるヒストグラムの描き方】
1つのデータ列を選択し、画面上側のメニューから「挿入」→「統計グラフ(青い縦棒グラフの絵)」→「ヒストグラム」を選択
f:id:nicjps230:20210125180606j:plain
グラフ右上の+印(グラフ要素)をクリックし、グラフタイトルや軸ラベルを追加・修正する
(注)ユーザ指定の階級幅を用いたい場合は、frequency()関数で度数分布表を作成し、棒グラフで図示する

Googleスプレッドシートによるヒストグラムの描き方】
上側メニューの「挿入」→「グラフ」を選択してグラフエリアを表示させる
「グラフの種類」プルダウンメニューから「その他」にある「ヒストグラムグラフ」(青い棒グラフ)を選択
f:id:nicjps230:20210125181857j:plain
「グラフエディタ」の「設定」タブの「系列を追加」をクリック
「データ範囲の選択」ウィンドウで、シート上のデータの列をクリックして指定→OK
f:id:nicjps230:20210125181933j:plain
グラフエリアの右上の点3つのボタンをクリック→メニューから「グラフを編集」→グラフエディタが立ち上がる→「カスタマイズ」タブでタイトルなどを記入する