データ サイエンス スクリーンキャスト: データ オリガミのレビュー
Data Origami は、Cameron Davidson-Pilon による新しい Web サイトで、データ サイエンスのスクリーンキャストを提供します。素晴らしいアイデアと素晴らしいサイトです。
キャメロンは親切にも、レビューできるようにサイトへのアクセスを許可してくれました。私はできる限りすべてのビデオを見て、すべてのメモを書き上げました。この投稿では、キャメロンの新しいサイト Data Origami を少しだけ紹介します。
データ折り紙
データ折り紙はシンプルなアイデアです。データ サイエンティストに関連するトピックに関するスクリーンキャストを提供します。
各スクリーンキャストは、狭い特定のトピックに関する長さ 9 ~ 13 分です。スクリーンキャストはすべて Python を使用しており、テキスト、数式、コード、プロットを含む IPython ノートブックで表示されます。ノートブックだけでなく、デスクトップおよびモバイル用のビデオ自体のダウンロードや、さらなるリソースや関連データセットへのリンクも利用できます。
執筆時点では、すべてのスクリーンキャストにアクセスするには月額 9 ドルの有料サービスですが、無料で利用できるスクリーンキャストが 1 つあります。
このビデオは、プログラミング方法 (Python) と統計の知識があることを前提としています。
サイトはきれいで、Heraku の雰囲気があります (紫色と線画のせいかもしれません)。ビデオは大きくて高品質で、画面が邪魔なもので乱雑に表示されることはありません。
キャメロンって誰?
ドメイン内での権威を示す指標を探しているなら、キャメロンがそれを持っています。
Cam は Shopify でデータ分析に取り組んでいます。彼は大企業のデータを 9 対 5 で処理しています。
Cameron は、Python を使用したベイジアンの入門を説明する自費出版の技術書『Bayesian Methods for Hackers』の著者です。これはすべて GitHub (および nbviewer IPython ビューア) で入手でき、Hacker News や Reddit などの技術ニュース サイトで何度も普及しています (複数回、socialproof++)。
最後に、Cameron は生存分析をサポートする Python パッケージ lifelines の作者です。
ベイジアン手法と生存分析の両方のトピックが、Data Origami に関する彼のスクリーンキャストで取り上げられています。
データ サイエンスのスクリーンキャスト
https://www.youtube.com/watch?v=Qw1XrXd4Gwc
私は 7 つのスクリーンキャストをすべてざっと見てメモを取りました。 Cam と彼のリソースに敬意を表したいので、現在利用可能なビデオの概要を以下に示します。
- ベイジアン ベータ二項モデル: 他のモデルよりも多くの数学が含まれており、ベータ分布の導入とそれを使用した事後分布のモデル化に焦点を当てています。
- PCA の紹介: 主成分分析とは何か、主成分分析が何を達成しようとしているのか、そして結果が何を意味するのか。
- PCA の情報損失の視覚化: この可逆投影法を実証する賢明な方法。
- PCA を使用した色の並べ替え (無料): PCA の便利なアプリケーションをデモンストレーションする賢い方法です。
- A/B テストのコンバージョン率: A/B テスト結果のコンテキストにおける不確実性を伝えるための定量化されたアプローチ。必見です!
- 生存分析に興味を持つ必要があるのはなぜですか?生存分析のシーンを設定します。
- 生存関数の推定: カプラン マイヤー推定器を使用して、巧妙な問題例の生存関数をモデル化します。
クレバーを数回使用したことに注意してください。彼の例は非常によく考えられていて、とてもクールです。
更新: レビューを書いてから新しいスクリーンキャストが表示されました。
レビュー
キャメロンは自分のことを知っている。個人的には PCA ビデオはあまり面白くないと感じました。その理由は、私がコンテンツに慣れていたためか、おそらく配信があまり洗練されていなかったからです。ベイズの不確実性と生存分析について詳しく知るのは素晴らしかったです。
キャメロンはベイジアンのボスです。彼は本を 10 分ごとに簡単に分割することができ、私はそれをすべて食べてしまいます (ヒント、ヒント)。
ビデオは Amazon S3 でホストされているようですが、視聴中に多少の遅れが発生しました。動画を見ようと思った時間帯だった可能性は十分にありますが、その時は面倒でした。大したことではありません。ダウンロードして見るだけでも良かったのですが、カムが成長するにつれてこの問題を解決すると確信しています。
彼はまだフォーマットの面で自分の偉業を見出しているところだ。最近のビデオは初期のものよりもはるかに洗練されており、今後の素晴らしい兆候です。個人的には、最初に「これが私たちがやろうとしていることです」と最後に「これが私たちがやったことです」をもっと望んでいます。たとえ素早くメモを取ったとしても、最初の視聴でこれらのビデオの 1 つを吸収するには、高度にカフェインを摂取している必要があります。スクリーンキャストで私たちがカバーした内容を思い出させられると素晴らしいでしょう。
私はおそらくある程度のパワーユーザーです。私はすべての YouTube 動画を 2x で視聴し、たくさんメモを取ります。内蔵プレーヤーに 2x 機能があり、アカウントがメモを取ることやコメントをサポートしていれば素晴らしいでしょう。大したことではなく、幸福度を高めるかもしれないパワーユーザー向けの機能だけです。
そこにさらに多くのコンテンツを追加したら、「これを見ました」のチェックボックスや、コンテンツ ストリームにビデオをバンドルすることさえ想像できます。
現時点ではコンテンツのロードマップはないようで、実際には Cam の気になるものだけです。彼が共有するものすべてに情熱を持っているという点ではこれは良いことですが、私たちが彼の興味に合わせる必要があるため、最初は悪いです。手を握る必要はありません。
Cam 氏は、月に 2 冊ずつリリースしているため、ライブラリの増加には限界があると述べています。これにより燃え尽き症候群(レールキャストのライアン・ベイツのように)が抑制される可能性がありますが、年間わずか 24 件です。一晩で7本のビデオすべてをパワースラムしました。食欲が満たされない人もいると思います。
最後に、内容はプロです。一部のスクリーンキャストには初心者向けのタグが付いています。そうではありません。本格的に始める前に、データといくつかのアルゴリズムを理解する必要があります。iris データセットで最初の分類器を実行するためにどのツールまたはライブラリを使用するかをまだ決めている場合、このリソースは向きません。
まとめ
これは、時間が経つにつれて必需品になる兆候がすべて含まれた素晴らしいリソースです。
- それは本物のプロ、ベイジアンのボスによって作成されました。
- 安すぎます(価格を上げて、数十万ドルまたは数千ドルで年間パスまたは生涯パスを提供することを検討してください)。
- これは実際には中級レベル (またはそれ以上) の実践者、たとえばキャメロンの同僚またはそれに近い人向けです。
- 動画はわずか 12 本ですが、毎月追加されます。
- 「a から b までフォローしてください」というロードマップはありませんが、彼は今後の「キャスト」でピークを提供しています。
データが日常の仕事である場合は、Data Origami をチェックして、キャメロンと彼の驚くべき世界クラスのデータ サイエンス スクリーンキャストに対するビジョンをサポートするために早めに参加してください。