2018-01-01から1年間の記事一覧
かなり久々の投稿となった。今回紹介するサイトは、データサイエンスの専門的内容でなく周辺の話題に関する記事である。なかなか興味深い記事が揃っている。 ・いかにAI、機械学習の最新技術に遅れずについていくか 著者自身がAIと機械学習の最新技術をキャ…
前回投稿からかなり空いてしまった。興味あるツイートでまだ紹介していないものが見つかる頻度は少なくなったが、まだまだ興味深い記事はある。可能な限り紹介したい。 ・データサイエンスと真理の探求 Bob Hayes氏のエッセイ。意見と事実を区別する。大量デ…
夏休みで前回投稿から間があいてしまった。今回はこれまでほとんどスルーしていたIoT関連の記事も2つ取り上げている。 ・中国アリババグループの興味深いAI・機械学習利用法 中国のIT巨人アリババグループでいかにAI・機械学習を活用しているかについて。中…
もはや冷房の効いていない室内にいると頭が働かないばかりでなく身の危険に晒されているという状況になってきた。猛暑はしばらく続きそうなので、疲労を貯めずに体力を維持していくことが何より大事である。今回も多岐にわたる興味深い記事を紹介する。 ・Py…
以前の専門ブログで、賃貸マンションの家賃の決定要因についての分析を行った。その事例を用いて解説する。 賃貸マンションの平米あたりの月極め家賃は、駅から徒歩分数, 築年数に依存して変動する。各要因が家賃に線形に影響を及ぼすとすると、以下のように…
日本でもIT技術者の人材不足が報じられているが、やはりよく言われるように、多くのプログラミング技術者が下請け作業員となっている現状の改善が急務であろう。今回も10日ほど前位に紹介されたサイトが中心である。 ・Pythonで学ぶ統計の基本:記述統計 統…
このところの猛暑でチェックしたサイトのアドレスリストが溜まってしまっていた。しかしここ一週間くらいは興味深い記事が少ない状態が続いている。紹介された時期は少し前になるが、ここでは6つのサイトを取り上げる。 ・不完全なモデルの価値 Kirk Borne…
最近新しいアルゴリズムについての記事が二つあった。うち一つを今回紹介している。コンピュータが広く社会に浸透して40年ほど経つのに今だに革新的アルゴリズムが提案されるというのは驚きでもある。また、データサイエンティストのキャリアについての記事…
今回取り上げたサイトには、英語の壁はあるものの、内容的には非常に有用なサイトがいくつかある。ある程度時間をとって英語と格闘する価値があると思われるサイトである。 ・貴方を雇用するデータサイエンスの5大プロジェクト データサイエンティストが従事…
単回帰モデル において、Yの算術平均のまわりの総変動は以下のように分解できる。 ここで計算の際に、交互作用項は、を代入することによりゼロとなる。 この変動和の分解における第1項は回帰変動平方和である。 これはを上式に代入することにより導かれる。 …
今回はデータサイエンティストのキャリアに関する記事が多くなった。日米の雇用慣行の違いから日本にはそのままあてはまらないことも多いが、一読しておく価値はありそうだということでブックマークした記事もある。 ・どうすればデータサイエンティストにな…
フォローしているデータサイエンティストのツイートには既出のものも多くなったが、データサイエンスの様々な応用分野の興味深い記事も紹介されている。今回もそのような興味深いページをいくつか紹介する。 ・2つの自由回答だけの新たな顧客調査法 Bob Haye…
例を挙げて説明したい。A市の夏季の1日の電力使用量をY、A市のその日の平均気温をXとした時、暑くなると冷房使用が増えるため、電力使用量は気温に比例してほぼ直線的に増えることが知られている。つまり、 と書ける。ここでαはy切片、βは気温が1度上昇する…
政府がIT人材を毎年数十万人規模で育成する案を取りまとめたが、「20年遅い」や「多重下請け構造の変革が先決」などのもっともな意見が出されている。政府の官僚機構が示した枠組みからはまともなIT企業は成長しなかったというのがこの30年間の教訓である。 …
米国では、データサイエンティストのキャリア形成に関するツイートも多く、本ブログでは紹介していないが、データサイエンティストの報酬に関するツイートもよく見かける。一方で、データサイエンティストという職業名が独り歩きしてしまい、改めて定義しな…
米国では今Pega Worldというカンファレンスがラスベガスで開催されており、それに関するツイートが非常に多くなっている。私もかつて米国のビジネス会議に年2回(4月と9月)出席していたので雰囲気はよくわかる。ロックバンドライブもありかなり盛大である。…
大数の法則では算術平均が分布の期待値に近づいていくことが示された。n個の観測値の和をnで割ると一点に収束していくが、収束するまでの分布はどのような形になっているであろうか?n個の観測値の和をnの平方根で割った場合は、元の分布がどのようなもので…
これまで50以上のウェブサイトを紹介してきた。そろそろ整理をしないと、同じページを二度紹介したりすることが起きてくる。しかし興味深いページはまだまだ尽きない。 ・Pythonの5大統合開発環境 Pythonプログラマ、開発者向けの主要IDEの紹介。Pycharm, VI…
先日中国のアリババグループの現状についての話を聞く機会があった。売上額の巨大さ、ライフスタイルの全てをカバーする多角化は凄まじいものがある。データサイエンス技術者も千人規模で活躍しているようである。 今回も気になったサイトを紹介する。 ・Pyt…
相変わらず、「データサイエンス」というバズワードだけを追いかけているきらいがあるが、もうしばらく継続して紹介していきたいと思う。 ・データサイエンスと機械学習の包括的情報源 おなじみVincent Granville氏によるまとめ。これまでこの種のまとめサイ…
中心極限定理へ進む前に、モーメント母関数について記述しておく必要がある。 確率変数Xが与えられたとき、その確率密度関数をf(x)とする。以下の量(ここでは連続の確率変数とする): は、Xのk次モーメントと呼ばれる。 「モーメント母関数」は、確率変数X…
今回はテクニカルでなく実務面での記事4件を紹介する。 ・Kirk Borne氏インタビュー「ビッグデータが解決の役に立たない問題はない」 学生などこれから本格的にデータサイエンスを学ぼうという人向けの話。過去の経験やデータサイエンスの今後について。 ・…
前回までのフォロー対象者の絞り込みの結果、現在はKirk Borne氏のみをフォローしているが、ツイート数は多く、興味深い記事も多い。数が多くなったが紹介したい。 ・社会貢献のためのデータサイエンスとAIの力 Kirk Borne氏自身による記事。社会に貢献するA…
チェビシェフの不等式 において、であると考える。ここで各xは互いに独立で同一の分布に従うとする。この場合の期待値は以下のようになる。 また分散は、互いに独立であることから異なる添え字の変数間の共分散がゼロとなるため、以下のようになる。 期待値…
10名のトップデータサイエンティストをフォローすることから始めたが、その中で日本人に有用な記事を紹介してくれるのは、事実上Kirk Borne氏のみであることがわかった。この週末にさらにフォローすべき別の人物を探索しようと思う。 前回から日数が経過した…
本日は天候も良く蒸し暑くもなかったので、ウォーキングで自宅近郊の市立庭園を散策した。このゴールデンウィークは天候に恵まれ、今日で3回目の屋外散策となった。 今回紹介するデータサイエンスのウェブサイトはややニッチなものが揃っている。ツイートで…
「平均値」がなぜ重要かといえば、サンプルサイズが大きくなると算術平均が期待値に近づくという「大数の法則」があるからといえよう。 その大数の法則の証明など統計の要所で用いられるのが「チェビシェフの不等式」である。 正規分布では、平均プラスマイ…
10名の著名データサイエンティストをtwitter上でフォローし始めて2週間あまりが経過した。その中で、日本のデータサイエンスに関わる者にとって有用な情報を発信してくれる人がかなり絞り込めてきた。これまでに本ブログで紹介したサイトの大部分の発信源は…
いよいよ明日からゴールデンウィーク。大抵の人はレジャーに行ったら仕事や勉強のことは忘れるだろう。しかし混雑した観光スポットの待ち時間や、観光地のカフェで休憩中にスマートフォンやタブレットをチェックする人もいる。特に海外はバカンスの季節でも…
著名データサイエンティストをフォローし始めてから一週間以上経過し、基本的なネタはかなり出尽くした感があるが、それでもまだまだ興味深い記事が見つかる。引き続き紹介して行きたいと思う。 ・一目でわかるIoTのこれからと今後 米国流の大きな紙にIoTが…