応用予測モデリング用の Caret R パッケージ
統計コンピューティング用の R プラットフォームは、おそらく、応用機械学習用の最も人気があり強力なプラットフォームです。
R のキャレット パッケージは、「R の競争上の優位性」と呼ばれています。これにより、R での機械学習モデルのトレーニング、チューニング、評価のプロセスが一貫性があり、簡単になり、さらに楽しくなります。
この投稿では、R のキャレット パッケージ、その主要な機能、および詳細を学ぶにはどこにアクセスすればよいかを説明します。
私の新しい本『Machine Learning Mastery With R』 でプロジェクトをキックスタートしましょう。これにはステップバイステップのチュートリアルとR ソース コード ファイルが含まれています。すべての例。
始めましょう。
カレットRパッケージとは
Caret は、機械学習における重要な哲学、つまりノー フリー ランチ定理に基づいて構築されました。この定理は、予測問題に関する事前知識がない場合、単一の方法が他の方法よりも優れているとは言えない、というものです。
この定理に直面して、キャレット パッケージは、応用機械学習がどのように実施されるべきかについて独自の立場を持っています。どのアルゴリズムまたはどのアルゴリズム パラメーターが特定の問題に対して最適であるかを知ることはできません。それは経験的な実験によってのみ知ることができます。これは、キャレット パッケージが容易にするために設計されたプロセスです。
これは、いくつかの重要な方法で行われます。
- 合理化されたモデル作成: 最も人気のある多数のサードパーティ アルゴリズムを R でトレーニングするための一貫したインターフェイスを提供します。
- パフォーマンスに対するパラメータの影響の評価: 特定の問題のモデルに対するパラメータの影響を理解するために、客観的な尺度に対してアルゴリズム パラメータの組み合わせをグリッド検索するツールを提供します。
- 最適なモデルの選択: 特定の問題に関してモデルを評価および比較し、客観的な基準を使用して最適なモデルを見つけるツールを提供します。
- モデルのパフォーマンスの推定: 特定の問題について、目に見えないデータに基づいてモデルの精度を推定するツールを提供します。
キャレットの機能
caret パッケージには、中心となる哲学に基づいて構築された多くの機能が含まれています。例としては次のようなものがあります。
- データの分割: トレーニング データセットとテスト データセット内のデータを分割します。
- データの前処理: 正規化や標準化などのモデリング用にデータを準備します。
- 特徴選択: 効果的な予測を行うために必要な属性のみを選択する方法。
- 特徴の重要性: 予測された属性に対するデータセット内の各属性の関連性を評価します。
- モデルのチューニング: パフォーマンスに対するアルゴリズム パラメーターの影響を評価し、最適な構成を特定します。
- 並列処理: ワークステーション上の複数のコアなどの並列コンピューティングを使用してモデルのパフォーマンスを調整および推定し、パフォーマンスを向上させます。
- 視覚化: カスタマイズされた視覚化により、トレーニング データ、モデルの比較、モデルに対するパラメーターの影響をより深く理解できます。
キャレットはどこから来たのか
Caret は、Pfizer の Max Kuhn によって作成および保守されている R のパッケージです。開発は 2005 年に開始され、後にオープンソース化されて CRAN にアップロードされました。
Caret は実際には、Classification And REgression Training (CARET) を表す頭字語です。
これは当初、特定の問題に対して複数の異なるアルゴリズムを実行する必要性から開発されました。 R パッケージはサードパーティによって作成されており、トレーニングおよび予測の生成時のパラメーターと構文の点で異なる場合があります。キャレット パッケージの最初のバージョンは、モデルのトレーニングと予測を統合するように設計されました。
その後、パラメーターの調整や変数の重要性の決定など、関連する一般的なタスクをさらに標準化するために拡張されました。
マックス・クーン氏のインタビュー
Max Kuhn が useR カンファレンスで DataScience.LA のインタビューを受けました。インタビューの中で Max は、キャレットの開発と R の使用について語ります。彼は、特定の問題に対して複数のモデルをテストすることの重要性と、複数の異なるパッケージを同時に扱う際の苦痛、パッケージ作成のきっかけについて語ります。 。
Max Kuhn によるキャレットのデモンストレーション
このプレゼンテーションでは、Max Kuhn がキャレットの実演を行い、その開発とキャレットの機能について説明します。彼は、フリーランチの定理と複数のモデルをテストする必要性について再び触れています。プレゼンテーションの中心は、いくつかのチャーン データに関するモデルの例です。彼は、モデルのパフォーマンスの推定、アルゴリズムのチューニングなどについて触れています。
キャレットのリソース
のキャレット パッケージの詳細に興味がある場合は、以下のリンクのいくつかをチェックしてください。
- カレットパッケージのホームページ
- CRAN のキャレット パッケージ
- Caretパッケージマニュアル(PDF、全機能)
- キャレット パッケージの簡単な紹介 (PDF ビネット)
- キャレット パッケージを使用した R での予測モデルの構築 (PDF ペーパー)
- GitHub 上のオープンソース プロジェクト (ソース コード)