検索問題としての応用機械学習への優しい入門
特定の問題に対して完璧な学習システムを設計するのは難しいため、応用機械学習は困難です。
問題に対して最適なトレーニング データや最適なアルゴリズムはありません。発見できるのは最適なものだけです。
機械学習のアプリケーションは、特定のプロジェクトで利用できる知識とリソースを考慮して、入力と出力を最適にマッピングするための検索問題として考えるのが最も適切です。
この投稿では、検索問題としての応用機械学習の概念化について説明します。
この投稿を読むと、次のことがわかります。
- 応用された機械学習は、入力から出力までの未知の基礎となるマッピング関数を近似する問題です。
- データの選択やアルゴリズムの選択などの設計上の決定により、最終的に選択できるマッピング関数の範囲が狭まります。
- 検索としての機械学習の概念化は、アンサンブルの使用、アルゴリズムのスポット チェック、アルゴリズムの学習時に何が起こっているかを理解することを合理化するのに役立ちます。
私の新しい本『Optimization for Machine Learning』 でプロジェクトをキックスタートします。これにはステップバイステップのチュートリアルとすべてのPython ソース コード ファイルが含まれています。例。
概要
この投稿は 5 つの部分に分かれています。彼らです:
- 関数近似の問題
- 検索としての関数近似
- データの選択
- アルゴリズムの選択
- 検索としての機械学習の影響
関数近似の問題
応用機械学習は、特定の学習問題に対処するための学習システムの開発です。
学習問題は、入力データと出力データ、およびその 2 つの間の未知だが一貫した関係から構成される観察によって特徴付けられます。
学習システムの目標は、入力データと出力データの間の一般化されたマッピングを学習して、出力変数が未知の領域から抽出された新しいインスタンスに対して巧みな予測を行えるようにすることです。
機械学習の統計的観点である統計学習では、問題は、入力データ (X) と関連する出力データ ( そうです)。
y = f(X)
X と y のサンプルがあり、f を近似する関数を考え出すために最善を尽くしています。 fprime。将来の新しい例 (Xhat) を考慮して予測 (yhat) を行うことができます。
yhat = fprime(Xhat)
したがって、応用機械学習は関数近似の問題として考えることができます。
学習されたマッピングは不完全になります。
学習システムの設計と開発の問題は、入力変数を出力変数にマッピングする未知の基礎関数の有用な近似値を学習する問題です。
私たちは関数の形式を知りません。なぜなら、もし知っていたとしても、学習システムは必要ないからです。解決策を直接指定することもできます。
私たちは真の基礎となる関数を知らないので、それを近似する必要があります。つまり、学習システムが真のマッピングにどの程度近似しているのかはわかりませんし、決して知ることができない可能性があります。
検索としての関数近似
私たちの目的にとって十分な、真の基礎となる関数の近似値を検索する必要があります。
学習プロセスにエラーをもたらすノイズ源は数多くあり、これによりプロセスがより困難になり、その結果、マッピングの有用性が低下する可能性があります。例えば:
- 学習問題の枠組みの選択。
- システムのトレーニングに使用される観測の選択。
- トレーニング データを準備する方法の選択。
- 予測モデルの表現形式の選択。
- モデルをトレーニング データに適合させるための学習アルゴリズムの選択。
- 予測スキルを評価するためのパフォーマンス尺度の選択。
他にもたくさんあります。
学習システムの開発には多くの決定ポイントがあり、事前に答えがわかっているわけではないことがわかります。
学習問題に対して考えられるすべての学習システムを巨大な検索空間として考えることができ、各決定点によって検索が絞り込まれます。
たとえば、学習問題が花の種類を予測することである場合、数百万の可能な学習システムのうちの 1 つを次のように絞り込むことができます。
- 種クラスラベルを予測するものとして問題を組み立てることを選択します。分類。
- 特定の種およびそれに関連する亜種の花の測定値を選択します。
- トレーニング データを収集するために、特定の苗床の花を選択して測定します。
- 予測を関係者に説明できるように、デシジョン ツリー モデル表現を選択します。
- デシジョン ツリー モデルに適合する CART アルゴリズムを選択します。
- モデルのスキルを評価するには、分類精度を選択します。
等々。
また、学習システムの開発に関わる多くの決定には自然な階層が存在する可能性があり、そのそれぞれが構築できる学習システムの範囲をさらに狭めていることがわかります。
この絞り込みにより、実際に使用できる有用なマッピングに近づけることを目的として、考えられる学習システムのサブセットを別のサブセットよりも意図的に選択する有用なバイアスが導入されます。このバイアスは、問題の枠組みの最上位レベルと、機械学習アルゴリズムやアルゴリズム構成の選択などの下位レベルの両方に適用されます。
データの選択
選択した学習問題の枠組みとシステムのトレーニングに使用するデータは、学習システムの開発において活用する大きなポイントとなります。
すべてのデータ、つまり入力と出力のすべてのペアにアクセスできるわけではありません。そうすれば、新しい入力観測値の出力予測を行うために予測モデルは必要なくなります。
過去の入出力ペアがいくつかあります。そうしないと、予測モデルをトレーニングするためのデータが存在しないことになります。
しかし、大量のデータがあり、トレーニングのためにその一部だけを選択する必要がある場合もあります。あるいは、自由にデータを生成できるが、何をどのくらいの量のデータを生成または収集するかという課題に直面している場合もあります。
学習システムのモデル化に選択したデータは、利用可能なデータとモデルが将来予測することが期待されるデータの両方について、入力データと出力データの間の関係を十分に捉える必要があります。
アルゴリズムの選択
モデルの表現と、モデルをトレーニング データに適合させるために使用されるアルゴリズムを選択する必要があります。これも、学習システムの開発に活用できるもう 1 つの大きなポイントです。
多くの場合、この決定はアルゴリズムの選択に単純化されますが、モデルが予測を説明できるなど、プロジェクトの利害関係者がプロジェクトに制約を課すことはよくありますが、それが最終的なモデル表現の形式に制約を課すことになります。続いて、検索できるマッピングの範囲が決まります。
検索としての機械学習の影響
学習システムの開発を検索問題として概念化することは、応用機械学習における多くの関連する懸念を明確にするのに役立ちます。
このセクションではいくつかを取り上げます。
反復学習するアルゴリズム
マッピングの学習に使用されるアルゴリズムにはさらなる制約が課せられ、選択されたアルゴリズム構成とともに、モデルの適合に応じて可能なマッピング候補の空間をどのようにナビゲートするかが制御されます (たとえば、反復的に学習する機械学習アルゴリズムの場合)。
ここでは、機械学習アルゴリズムによるトレーニング データからの学習という行為が、実際には学習システムの可能なマッピングの空間をナビゲートし、うまくいけば、悪いマッピングからより良いマッピングに移行していることがわかります (例: 山登り)。
これは、特定のトレーニング データのモデル表現を最大限に活用するための、機械学習アルゴリズムの中心における最適化アルゴリズムの役割に対する概念的な根拠を提供します。
アンサンブルの理論的根拠
また、異なるモデル表現は、すべての可能な関数マッピングの空間内でまったく異なる位置を占め、その結果、予測を行う際にまったく異なる動作をすることもわかります (相関のない予測誤差など)。
これは、異なるけれども優れた予測モデルからの予測を組み合わせるアンサンブル手法の役割に対する概念的な根拠を提供します。
スポットチェックの理論的根拠
異なる表現を持つ異なるアルゴリズムは、可能な関数マッピングの空間内の異なる位置で開始される可能性があり、空間を異なる方法でナビゲートすることになります。
これらのアルゴリズムがナビゲートする制約された空間が、適切なフレーミングと適切なデータによって適切に指定されている場合、ほとんどのアルゴリズムは、適切な同様のマッピング関数を発見する可能性があります。
また、トレーニング データを適切に構成し、慎重に選択することで、最新の強力な機械学習アルゴリズム スイートによって検出される可能性のあるマッピング候補のスペースがどのように開けるかもわかります。
これは、特定の機械学習の問題について一連のアルゴリズムをスポット チェックし、最も有望なアルゴリズムを追加するか、最も倹約的な解決策 (例: オッカムの剃刀) を選択するための理論的根拠を提供します。
さらに読む
さらに詳しく知りたい場合は、このセクションでこのトピックに関するさらなるリソースを提供します。
- 第 2 章、機械学習、1997 年。
- 検索としての一般化、1982 年。
- 第 1 章、データ マイニング: 実践的な機械学習ツールとテクニック、2016 年。
- アルゴリズムの選択について、組み合わせ検索問題への応用を含む、2012 年。
- ウィキペディアのアルゴリズム選択
まとめ
この投稿では、検索問題としての応用機械学習の概念化を発見しました。
具体的には、次のことを学びました。
- 応用された機械学習は、入力から出力までの未知の基礎となるマッピング関数を近似する問題です。
- データの選択やアルゴリズムの選択などの設計上の決定により、最終的に選択できるマッピング関数の範囲が狭まります。
- 検索としての機械学習の概念化は、アンサンブルの使用、アルゴリズムのスポット チェック、およびアルゴリズムの学習時に何が起こっているかを理解することを合理化するのに役立ちます。
ご質問はありますか?
以下のコメント欄にご質問ください。できる限りお答えいたします。