投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

スプレッドシートによるデータアナリティクス(3) 散布図の応用:トレンド線と点ラベルの表示

基本的な散布図を見ることにより、2つの特徴量の間にどのような関連があるかというイメージはつかめます。そうすると、典型的にはさらに次の2つのことが知りたくなります。

(1) 2つの特徴量の関係を式で表すとどうなるか、あるいはX軸の特徴量を一単位増やすとYの特徴量はどのくらい増えるのか(感応度などという。例えば夏季で気温が1度上がるとアイスクリームの売り上げが15,000円上昇する、など)
(2) 点の集団から離れた位置にある点がある場合、その点は具体的に何なのか(個体名)

(1)はほとんどの場合、散布図上のデータの塊の真ん中を通る直線を引くことになります。この直線の係数は「最小二乗法」により求めます。統計学ではこれを「回帰分析」といいます。
(2)はExcelでは散布図上の点をクリックするとその点の値が表示されます。しかし多くの場合はその点の値では個体名を識別するのは難しく、散布図で用いた特徴量以外に個体名を識別するための列があり(例えば下の図における「県名」)、その列の値を表示させるとその個体が何なのかが見ている人にわかるようになります。ここではこのケースを扱います。

Excelで散布図の上にトレンド線を引く】

  • グラフ右上の+印をクリックして、「グラフ要素」の中の「近似曲線」にチェックを入れる
  • 描かれた直線を右クリックで選択し、「近似曲線の書式設定」から曲線の形を選ぶ(直線ならばそのままでOK)。また直線の式を表示したい場合は、「グラフに数式を表示する」にチェックを入れる

f:id:nicjps230:20210129163729j:plain

Excelで散布図にデータラベルをつける】

  • グラフ右上の+印をクリックして、「グラフ要素」の中の「データラベル」にチェックを入れる
  • 描かれたデータラベルのどれかを右クリックして選択し、「データラベルの書式設定」から「セルの値」にチェックを入れる。「データラベル範囲の選択」ウィンドウが表示されるので、シートの中のラベルにしたい範囲をドラッグして選択し、OKボタンを押す。指定したラベル以外を表示させないようにするには(Y軸など)そのチェックを外す

f:id:nicjps230:20210129163810j:plain

Googleスプレッドシートで散布図の上にトレンド線を引く】

  • グラフの右上の点3つのマークをクリックして「グラフを編集」を選び、「グラフエディタ」の「カスタマイズ」タブから「系列」を開く
  • 下の方の「トレンドライン」にチェックを入れる
  • 「ラベル」として「方程式を使用」を選ぶと直線の式が表示される

f:id:nicjps230:20210129163839j:plain

Googleスプレッドシートで散布図にデータラベルをつける】

  • 「X軸」「系列」以外の列をラベルにするためにはそれをあらかじめデータ範囲に含めておく必要がある
  • グラフの右上の点3つのマークをクリックして「グラフを編集」を選び、「グラフエディタ」の「設定」タブで、「系列」の右側の三点マークをクリックして「ラベルを追加」を選び、ラベルとして表示したい列の列名を選択する
  • 「X軸」「系列」の値がデータラベルとして表示されているが表示したくない場合は、「グラフエディタ」の「カスタマイズ」タブから「系列」を開き、「データラベル」のチェックを外す

f:id:nicjps230:20210129163938j:plain