10名の著名データサイエンティストをtwitter上でフォローし始めて2週間あまりが経過した。その中で、日本のデータサイエンスに関わる者にとって有用な情報を発信してくれる人がかなり絞り込めてきた。これまでに本ブログで紹介したサイトの大部分の発信源は、Kirk Borne氏(コンサルティング会社Booz Allen Hamiltonの主席データサイエンティスト)である。話題はかなり出尽くした感があるが、フォローする人物リストの見直しを行いつつ本ブログでの紹介をもう少し継続してみる。
・変数間の関係を理解するために相関をいかに用いるか https://machinelearningmastery.com/how-to-use-correlation-to-understand-the-relationship-between-variables/ 2つの変数(あるいはデータ)の類似の度合いをみるために相関係数を用いることはよくある。「正の相関がある」とは、2つの変数が同じ方向に変化することである。正規分布の線形の関連性をみるためのピアソン積率相関係数と、より一般的な分布(ノンパラメトリック)の場合のスピアマン相関係数について述べている。
・私の「データビジネス」7箇条 https://twitter.com/storywithdata/status/989479016171233281 データ分析結果のプレゼンにおける原則をまとめている:(1)意図を明確にする, (2)的確なグラフ表示は見ている人が「なるほど!」と納得する, (3)過度に複雑になることを避ける, (4)初歩的でないことは捨てる, (5)どこを見るべきかを明確にする, (6)言葉による説明はグラフを理解しやすくする, (7)聴衆は他の全てに優先する。
・Generative Adversarial Networks (GANs)への直感的入門 GAN(Generative Adversarial Network)は“Deep Learning”という本の著者でもあるIan Goodfellowが考案したモデル。最近非常に注目を集めている分野で、次々に論文が出てきているとのこと。 貴方の近所で貴方がとても興味深いパーティーがある。しかし貴方はこのパーティーの参加チケットを持っておらず、チケットを偽造するにもチケットがどのような外見かがわからない。このような状況でとるべき戦略としてある友人に動いてもらう。まず適当に作ったニセチケットでパーティーに突撃参加を試みる。そこでは当然断られるだろうがチケットがどのような外見かがわかる。次に偽造チケットで再び入ることをトライしてもらう。それでだめならチケットを修正して再トライする。これをパーティー出席が成功するまで繰り返す。
・入門者・学生・趣味人のためのディープラーニングプロジェクト https://www.pyimagesearch.com/2018/04/30/a-fun-hands-on-deep-learning-project-for-beginners-students-and-hobbyists/ ゲーム感覚でディープラーニングを体感できるキットをRaspberry Pi マザーボードやカメラモジュール、タッチスクリーンから自力で組み立てる。
データサイエンスの2018年のトレンド(Part2) https://www.datamakespossible.com/top-trends-in-data-for-2018-part-2/ 今年の10大トレンドの後半は、Behavioral Analytics, Graph Analytics, Journey Sciences, The eXperience Economy, DataOps – DevOps for Data が紹介されている。