機械学習を開始して進歩させるための 16 のオプション
機械学習またはデータサイエンスを学びたいと考えています。
あなたは、機械学習やデータ サイエンスの仕事、またはその仕事に就く機会を望んでいるかもしれません。あるいは、あなたは学生またはデータ担当者で、この分野の学習を加速したいと考えているかもしれません。
博士号を取得するか学術教科書を読むことしか選択肢がないと思っているなら、考え直してください。この投稿はあなたのためのものです。
トレーニングや教材に関しては、たくさんの選択肢があります。非常に多くのオプションがあるため、時間をかけていくつかのオプションの短いリストを作成し、落ち着く前にいくつか試してみる必要があります。
この投稿では、利用可能な膨大な数のオプションを発見し、1 つ (または 2 つ) の方向を選択し、旅の次のステップに進むための十分な情報を得ることができます。
最適な場所、準備を整える
あなたは、機械学習またはデータ サイエンスの教育トレーニングを探しています。
より良くなりたい、またはもっと知りたい特定の主題領域があるかもしれません。彼らは何ですか?彼らを正してください。
対面、音声、ビデオ、テキストのチュートリアル本など、特定の学習スタイルを好む場合があります。あなたの好みは何ですか?それらを書き留めてください。
あなたには機械学習やデータサイエンスを学びたい特別な理由があります。それは、上で説明したように、仕事に対する欲求や機会、既存の役割についてより多くまたはより早く学びたいという欲求、または一般的な興味や機会である可能性があります。あなたのたった一つの理由は何ですか?それを書き留めてください。
必要に応じて、コメントに 3 つのポイントすべてを記入してください。あなたは一人ではありません。
機械学習トレーニング オプションのショートリスト
踊り狂うのはやめましょう。機械学習を開始して進歩させるためのオプションの短いリストをここに示します。
大学の学位
- 博士号(研究)
- 修士号(研究による)
- 修士号(コース別)
- 学部の学位
対面コース
- トレーニングコースとワークショップ
オンラインコース
- MOOC
本
- アカデミック(教科書)
オンラインの無料コンテンツ
- 学術(論文、ブログ)
リストの上部には、指導を受けて構造化された学習オプションが多く含まれており、リストの下部には、あまり構造化されていない自習オプションが集中していることがわかります。あまり階層化されていないオプションを検討できるもう 1 つの軸は、材料における学術的焦点と産業的焦点です。
これらの軸についてしばらく考えてみましたが、役に立つと思います。教師ありから教師なし(独学)、学術から産業までの軸に沿って各オプションにスコアを割り当て、小さな散布図を作成しました。これは完璧な内訳ではなく、教材は教師なしで独学で学習できますが、それでも高度に構造化されています。博士号は非常に学術的なものですが、一般に他のほとんどの学位に比べて監督の監督ははるかに少ないです(少なくとも私が学んだオーストラリア/イギリスの制度の下では)。教師あり/教師なしの二分法では十分に理解できませんが、出発点にはなります。
これが役に立った場合は、コメントでお知らせください。
この投稿の残りの部分では、これらのそれぞれについて順番に詳しく説明し、それらが提供するもの、誰に適しているか、フォローアップできる具体的な例を説明します。
大学の学位
大学の学位は、高度に構造化された、主に学術的、主に理論的なトピックへの入門を提供します。おそらく学位とは何かをご存知でしょう。
学士号と一部の修士課程はコース単位で取得でき、米国の博士号にもコース単位の要素があります。一部の優等プログラム、修士課程、および博士課程プログラムには研究要素が含まれており、システムの奥深くに進むほどその要素は大きくなります。
優れたコースワークの科目は高度に構造化されており、主題の最良の導入を提供できるようにその分野の専門家によって設計されています。優れた研究プログラムでは、科学的手法と研究方法を実習することができます。
学位も高価で、長い時間がかかり、平均的な学生向けに設計されており、古くても古い情報を教えてくれます。
時間とお金がたくさんあり、自分で学習プログラムをまったく立てたくない場合は、学位を取得するのが正しい選択になる可能性があります。
- 博士号 (研究): 研究室に参加し、包括的な学習プログラムに適合する主題を研究します。あなたの仕事は高度に学術的で専門的なものとなり、論文という形式の正式な成果物によって評価されます。たとえば、CMU の機械学習の博士課程プログラムを見てみましょう。
- 修士号 (研究による): 小規模な博士課程プログラムと似ていますが、既存の結果を再現するなど、より小さな部分を切り出すことが推奨されます。
- 修士号 (コース別): 学部のコースよりも高度な内容で、場合によっては産業界と関連しています。コース別の修士課程では、主題をより深く掘り下げることができ、機械学習と関連分野に特化した修士課程プログラムが見つかる可能性があります。たとえば、CMU の機械学習の修士プログラム、ユニバーシティ カレッジ ロンドンの機械学習の修士プログラム、バークレーのデータ サイエンスの修士プログラムを見てみましょう。
- 学部の学位: 主題の概要と導入のための基準となる学位。機械学習の学士号を見つけることはほとんどありません。ほとんどの場合、機械学習は学部プログラムの後期に提供される科目または科目群 (人工知能とバンドルされたもの) です。たとえば、コロンビア大学の CS 学位の機械学習トラック、CMU の機械学習副専攻、プリンストン大学の統計と機械学習の学位を見てみましょう。
私は国や世界中で提供されている学位プログラムの専門家ではありませんが、入手可能な情報はたくさんあります。たとえば、機械学習とデータ サイエンスの修士プログラムの健全なリストを見てください。
学位は出発点であり、終点ではありません。主題にゆっくりと取り組み、練習を開始する準備が整った状態にします。また、他の責任をほとんど負わず、ある主題に深く取り組む時間が取れるのもこのときです。
アドバイスを求める人の中には、数年間大学に戻って正式な学位を取得しないと機械学習に取り組むことはできないと(深く)信じている人もいます。
機械学習を学び実践するのに学位は必要ありません。実際、機械学習の研究をしたいのであれば、学位は必要ありません。
対面コース
学位プログラムほど長くも費用もかかりませんが、高度に構造化された対面トレーニングを提供するオプションがあり、学術的なものではなく業界に重点を置いています。
オプションには、短期のトレーニング コースやブートキャンプが含まれます。
トレーニングコースとワークショップ
特定の機械学習トピックに関する短いトレーニング コースを受講できます。このコースは、特定のテクニックまたは特定のツールに重点を置いています。
IT トレーニング会社は古くから存在しており、特定のデータ サイエンスや機械学習のトピックに関するトレーニングを提供し始めています。
この種の研修のみを対象とする新しい企業もあります。たとえば、Personaltyle は、データ サイエンティスト向けの Hadoop や R を使用したデータ サイエンス入門など、特定のコースに関する膨大な種類の短期 (1、2、3、5 日間) コースを提供する企業の一例です。
最後に、大学は産業界向けに短期のトレーニング コースを提供する場合があり、地元の交流グループがトレーニングを提供する場合が多く、学会では産業界や大学院生向けに現代的な方法でワークショップが開催されることがよくあります。
ブートキャンプ
人気のあるアプローチは、データ サイエンスと機械学習のブート キャンプです。これらは専門家が直接参加して応用スキルを学ぶ 6 ~ 12 週間のプログラムです。多くの場合、プログラムの最後には、雇用主とコース参加者をマッチングする採用日が設けられます。
Zipfian Academy は、モジュール、キャップストーン プロジェクト、採用日を含む 12 週間のデータ サイエンスのフルタイム プログラムを提供する人気のある例です。価格は16,000ドルの範囲です。
これは人気のある分野であり、数多くの競合他社が存在します。
- アンプキャンプ
- データインキュベーター
- 総会
- データサイエンスの洞察
- データサイエンスブートキャンプ
機械学習とデータ サイエンス ブートキャンプ プログラムの概要については、Ikechukwu Okonkwo による投稿「データ サイエンス ブートキャンプ プログラム – フルタイム、パートタイム、オンライン」をご覧ください。
オンラインコース
残りの人生を通しての教育は、自習と指導に根ざしたものになります。
利用可能な自習プログラムは数多くあり、MOOC のような高度に構造化されたプログラムもあります。 MOOC などのほとんどは大学の主題からスピンアウトしたものであるため、一般に学術に重点を置いています。
大規模公開オンラインコース (MOOC)
Coursera を立ち上げたスタンフォード機械学習 MOOC の成功を受けて、これは機械学習を始めるための非常に人気のある方法です。
コースの長さは 10 ~ 12 週間であることが多く、1 週間に多くの時間を要します。多くは無料、または少額の料金で提供されます。ブートキャンプほど業界に焦点を当てておらず、より学術的なものではありますが、これまで大学の大学院プログラム内でしかアクセスできなかったトレーニングを提供します。多くの場合、講義ビデオ、宿題、課題、および他の学生とその内容について話し合うためのコミュニティ フォームが含まれます。
コースはバッチで実行され、プログラムを進める上でクラスメートの形でコホートが確実にサポートされるようにします。
Coursera の人気のある例は次のとおりです。
- スタンフォード機械学習
- ジョン・ホプキンスのデータサイエンス
- UoW 機械学習
edX の人気の MOOC は、Learning From Data です。
有料コース
一部の MOOC コースは有料です (ジョン ホプキンス データ サイエンス MOOC など)。短い期間の有料コースも利用できます。大学の科目 (MIT コースなど) やワークショップから独立したものもあれば、完全に独立したものもあります。
Udacity では、次のような多くの有料コースを提供しています。
- データ サイエンス入門、8 週間
- 機械学習: 教師あり学習、ジョージア工科大学、8 週間
- 機械学習: 強化学習、ジョージア工科大学、4 週間
- 機械学習: 教師なし学習、ジョージア工科大学、4 週間
Udemy も有料コースを提供する会社です。私は以前「Udemy の機械学習コース」という記事でそのサービスについて取り上げました。注目すべき点は次の 2 つです。
- ヒラリー・メイソン: 高度な機械学習
- ヒラリー・メイソン: Web データを使用した機械学習の入門
Linda は、機械学習とデータ サイエンスに関する短い動画も多数提供しています。たとえば、linda アカウントをお持ちの場合は、「データ サイエンスの基礎」というタイトルの再生リストをチェックしてください。
MOOC のバリエーション
MOOC にもバリエーションがあります。
たとえば、大学の学部および大学院の機械学習コースの教材に無料でアクセスして、そのコースを自分で学習することができます。講義ビデオを公開しているところもあります。
素晴らしい例としては次のようなものがあります。
- MIT 15.075 統計的思考とデータ分析
- スタンフォード CS229 機械学習
- スタンフォード統計 315a 現代応用統計: 統計学習の要素
- データから学ぶカリフォルニア工科大学
データ サイエンスや機械学習のオープン カリキュラムも学習できます。
- データ サイエンスを学ぶ、Nitin Borwankar 著
- 『オープンソース データ サイエンス マスターズ』、クレア コーセル著
本
機械学習やデータサイエンスに関する素晴らしい本はたくさんありますが、おそらくあなたは間違った本を読んでいるでしょう。そうなると、軌道から外れてしまい、モチベーションが下がってしまう可能性があります。
私は本を学術、専門、実践の 3 つのカテゴリーに分類するのが好きです。
学術書
これらは大学院および学部プログラムで使用される教科書です。
準備が整うまでは、これらの本を読まないでください。しばらく練習するまでは、いくつかのアルゴリズムとツールにある程度の自信を持ち、アルゴリズムがどのように機能するかではなく、なぜ機能するかをより深く掘り下げる準備ができています。
Springer の本がすぐに思い浮かびますが、MIT Press、Cambridge University Press など、他にもたくさんの出版社があります。
良い教科書の例は次のとおりです。
- 機械学習: データを理解するアルゴリズムの芸術と科学
- 機械学習: 確率論的な観点
- 統計学習の要素: データマイニング、推論、予測
- パターン認識と機械学習
教科書は学術的なものであり、読んでメモを取り、参考資料を詳しく理解するための演習を行うには訓練が必要です。仕事はすべてあなた次第です。教科書は、必要に応じて選択したトピックに関する参考資料として使用するのが最適です。
専門書
これらは、ソフトウェア エンジニアまたは実務データ サイエンティストで、自分の仕事に構造を追加したり、特定の領域を改善したいと考えている場合に読む書籍です。
私はオライリーを、データ サイエンスや機械学習に関する「データ」本に対して非常に強気な姿勢を示してきたこの分野の出版社だと考えています。
オライリーの人気のある専門書籍には次のようなものがあります。
- ハッカーのための機械学習
- データ サイエンスの実践: 最前線からの率直なトーク
- ソーシャル Web のマイニング: データ マイニング Facebook、Twitter、LinkedIn、Google+、GitHub など
- 集合知のプログラミング: スマート Web 2.0 アプリケーションの構築
- アジャイル データ サイエンス: Hadoop を使用したデータ分析アプリケーションの構築
- 思慮深い機械学習: テスト駆動のアプローチ
Hadoop、R、Python などに関するテクノロジー固有の書籍は言うまでもありません。
オライリーには、ブログ投稿の拡張版と思われるホワイト ペーパーやレポートもあります。何冊か読みましたが、まあまあです。例としては次のようなものがあります。
- 実践的な機械学習: レコメンデーションにおけるイノベーション
- 実践的な機械学習: 異常検出の新たな視点
- 破壊的な可能性: ビッグデータがすべてを変える方法
- リアルタイムビッグデータ分析: 新しいアーキテクチャ
オライリーは、Strata と呼ばれるデータ全般に関するカンファレンスも開催しています。私が強気と言っている意味がわかります。データは内部の情報であり、ティム・オライリーは「データ」を議題項目にしました。
Springer は、次の 2 冊の素晴らしい本でこの分野にも積極的に取り組んでいます。
- 応用予測モデリング
- 統計学習の概要: R のアプリケーションを使用して
私はこの 2 冊の本が大好きです。なぜなら、オライリーの本よりも少し学術的ですが、その分野のシュプリンガーの教科書よりもはるかに読みやすいからです。
このキャンプでは、「データ マイニング: 実践的な機械学習のツールとテクニック」と「機械学習の実践」も取り上げました。
実用書
これらはチュートリアルとレシピの本です。オライリーの料理本や簡単な本など、一部の書籍はこの分野に当てはまります。
この分野ではPackt Publishingを思い浮かべます。これらの書籍は通常、上記の書籍ほど完全ではありませんが、特定のことを行う方法に焦点を当てています。
よくある例としては次のようなものがあります。
- R による機械学習
- R を使用したソーシャル メディア マイニング
- Python を使用した機械学習システムの構築
- scikit-learn の学習: Python での機械学習
- Python を使用した確率的グラフィカル モデルの構築
- 実践的なデータ サイエンス クックブック
非常に実用的で、業界に焦点を当てており、一般的に安価です。
私は本が大好きでよく読んでいます。実用書に関する私の投稿をいくつか見てみましょう。
- R による機械学習に関する書籍
- Python 機械学習の書籍
- 機械学習を始めるための実用書 6 冊
- 応用予測モデリングのレビュー
無料のオンライン コンテンツ
無料のコンテンツがたくさんあります。驚くべきものもあるが、多くはくだらないものだ。
通常、コンテンツは構造化されていないか、コンテンツ内で構造化されていますが、コンテンツを結び付ける一貫した壮大な計画はありません。学習計画はありません。自分自身の学習計画を立てる必要があります。
このコンテンツを使用して、いつでも好きな内容を学ぶことができます。通常、ブログ投稿はトピックを深く掘り下げるには短すぎるため、深く理解するには書籍やコースに飛び込む必要があることがよくあります。
私は無料コンテンツを 2 つのクラスに分けて考えています。論文などの学術的な資料と、ブログ投稿や YouTube などの専門的な資料です。
学術資料
学術資料には、論文、論文、技術報告書、学位論文などが含まれます。不明瞭なアルゴリズムの詳細や、特定のデータ型の特徴エンジニアリングに関するアイデアなど、探しているものを抽出する責任はユーザーにあります。
Google Scholar は論文を探すときの味方です。
学術ブログがいくつかありますが、これらもこのカテゴリに分類されます。
Google の研究ブログ、Alexander Smola のブログ、Mark Reid のブログ、そして John Langford のブログやその他多くの業界で物事を実現する学者がこの分野に当てはまります。
専門的な材料
専門的な教材は、機械学習を学習または実践する人によって作成されます。彼らは学生、プログラマー、データサイエンティストである可能性があります。彼らは、教材を教えたり、共有したり、より深く理解したりするために教材を作成している可能性があります。
YouTube チャンネルもこれに当てはまり、優れたチャンネルもいくつかあります (大学の講義に限定されません)。
Mathematical Monk は機械学習に関する素晴らしいチャンネルを持っています。 Pycon 2014 などの業界のカンファレンスやミートアップで録画された講演から多くのことが得られます (機械学習関連のビデオを検索してください)。 Google の技術講演は素晴らしいです (ここでも、機械学習に関するトピックを検索してください)。 2014 年の会議のものなど、O'Reilly Strata ビデオから多くの業界ニュースを入手できます。
ツールとライブラリ
ツールとライブラリは機械学習教育の重要な領域であるため、私は分けています。それらはあなたが行動し、実践するための手段です。
ツールに関する書籍、ブログ、ビデオがあり、運が良ければチュートリアルやドキュメントもあります。
重要な領域は、利用可能なツールとライブラリの両方の状況を研究し、具体的な例を深く掘り下げることです。
一般に、これは学術的なものではなく、完全に企業側の研究であり、完全に独学です。ツールやライブラリを最大限に活用する方法を教えるコースはほとんどありません。
旅のどこにいるかに応じて、私がよく学ぶことをお勧めするツールは次のとおりです。
- ウェカ
- Python での Scikit 学習
- R
学ぶべきビッグ データ インフラストラクチャだけでなく、特定のドメインや技術に特化したニッチなツールもあります。
利用可能なツールやライブラリは数多くあり、広く深く掘り下げる余地がたくさんあります。
機械学習コンテスト
エッジの外では、機械学習のコンテストが開催されます。
これらを開始するには、ツール、データ処理、アルゴリズムの使用に関する一定レベルのスキルが必要であり、適切に実行するには世界クラスの専門知識が必要です。
指導に関しては自分で行う必要がありますが、コミュニティがあり、競争環境で最先端のアルゴリズムと実践を学ぶ素晴らしい機会があります。
学んだスキルは業界でも応用できますが、現実の問題ではさらに多くのことが必要になります。この学習分野はすべての人に適しているわけではありませんが、適した人には多くのメリットをもたらします。
コンペティションは学会と併せて開催されることが多く、現在では Kaggle や TunedIt などの企業が主催することも増えています。最近の人気により、より多くの企業が自社のデータを競争に公開しており、多様で興味深い産業データセットへのアクセスが一般的になっています。
まとめ
この投稿では多くの内容を取り上げてきましたが、おそらく最初に考えているよりもはるかに多くのオプションが利用できることがわかりました。
「学位が必要だ」とか「良いリソースがない」といったコメントがなくなることを望みます。学術側と産業側の両方において、高度に構造化され監視された環境と独学で機械学習を開始および実践するために、これほど多くのオプションとリソースが利用できることはありませんでした。
何を勉強するつもりですか?コメントを残してください。