2021-01-01から1年間の記事一覧
Excelの関数にはさまざまな統計解析の機能が装備されています。例えば、データの平均を求める場合は=average(データセルの範囲)、データの標準偏差を求める場合は=stdev(データセルの範囲)により求まります。さらに、=linest()関数を用いれば回帰分析(単回…
特徴量の分布の様子をみるための典型的なツールは「ヒストグラム」ですが、ヒストグラムは複数の分布の様子を並べて比べるのには難があります。また分布の位置やばらつきを示す指標を比べるのにも適しません。 それに対して「箱ひげ図」(boxplot)は分布の中…
コロナ新規感染者は減少傾向にあるが、緊急事態宣言は主要地域で延長される見通しである。今日の昼はアメリカンのバーガーレストランで昼食を取ったが、そこの店も昼飲み客を取り込んで何とかやっていこうという雰囲気だった。立春とともに気分も明るくなる…
基本的な散布図を見ることにより、2つの特徴量の間にどのような関連があるかというイメージはつかめます。そうすると、典型的にはさらに次の2つのことが知りたくなります。(1) 2つの特徴量の関係を式で表すとどうなるか、あるいはX軸の特徴量を一単位増やす…
特徴量が一つの場合は、ヒストグラムによりその分布の様子を見ることが基本になりますが、特徴量が2つの場合は、その関連性を見ることが多くの場合必要になります。 例えば「気温と電力使用量との関連」を見るといった場合です。この場合の基本は「散布図」…
本日より、新シリーズ「スプレッドシートによるデータアナリティクス」の連載をスタートします。 近年では「データアナリティクス」という言葉が流行っています。データアナリティクスとは一般的に、「顧客情報や購買履歴などのデータから事業改善や売上増加…
年が明けて寒くなってきたのに伴いコロナが勢いを増してきて、再び緊急事態宣言となってしまった。ランチで飲食店に入ると帰るまで他の客がゼロということもあり、一体どれだけの店が生き残れるのかと陰鬱な気分になる。さて、本年も米国データサイエンスの…
前回紹介したARIMAモデルを実際の時系列データの予測に適用するpythonコードを紹介します。 時系列データの統計モデルによる予測は、現在では機械学習の一手法として紹介されることがほとんどとなっています。 ここでは機械学習コンペのサイトKaggleにあるデ…
時系列データの統計解析に関しては、2014年11月29日の本ブログの記事で、主として経済時系列を想定した単位根検定と共和分の話を書きました。ここでは、あらゆる分野の時系列データの予測のための統計モデル構築に利用されているARMAモデルあるいはARIMAモデ…
2014年からFC2ブログにて「データ読み解きナウ」というタイトルでブログを展開してきたが、2020年末に「はてなブログ」に移転し、タイトルを「データサイエンスと統計学の旅」とした。 読者がデータサイエンスと統計学の世界に足を踏み入れたら、旅行するか…