ウェブサイト検索

Pandas を使用した Python での機械学習用のデータの準備


機械学習の研究と応用に Python スタックを使用している場合、データ分析とデータ操作に使用したいライブラリは Pandas です。

この投稿では、Pandas ライブラリについて簡単に紹介し、開始するための正しい方向を示します。

私の新しい本『Machine Learning Mastery With Python』 でプロジェクトをキックスタートします。これにはステップバイステップのチュートリアルPython ソース コード ファイルが含まれています。すべての例。

始めましょう。

Python でのデータ分析

Python SciPy スタックは、科学技術コンピューティング全般で人気があります。グリッド データの処理 (NumPy など) やプロット (matplotlib など) のための強力なライブラリを提供します。最近まで、スイートに欠けていた部分は、データを処理するための優れたライブラリでした。

データは通常、すぐに使用できる形式では提供されません。機械学習のようなデータ駆動型の問題に取り組む際の非常に大きな部分は、データ分析とデータの書き換えです。

  • データ分析: 統計やデータ視覚化などのツールを使用して、データを理解することで問題をより深く理解します。
  • データマンジング: これは、データ分析や機械学習などの仕事に適した形式に生データを変換するプロセスです。

従来、これらのタスクを実行するには、Python でスクリプトの独自のツール チェーンをまとめる必要がありました。

最近では、Python でのデータ分析を検索する場合、Pandas について学ぶことは避けられません。これはすぐに Python でのデータ処理の頼りになるライブラリになりました。

パンダとは何ですか?

Pandas は、データ分析とデータ操作のための Python ライブラリです。これは、データを処理するために SciPy フレームワークに欠けている部分を追加します。

Pandas は、主に定量的な財務作業を目的として、2008 年に Wes McKinney によって作成されました。そのため、時系列データの処理とグラフ作成における強力な基盤が備わっています。

Pandas を使用してデータを Python にロードし、データ分析タスクを実行します。リレーショナル データベースのデータやスプレッドシートのデータなどの表形式のデータを操作するのに最適です。

Wes は、あらゆる言語で利用できる最も強力で柔軟なオープンソース データ分析および操作ツールである crate について、Pandas のビジョンについて説明します。

自分自身のデータ分析タスクを容易にするだけでも、彼の理念を支持したくなるような素晴らしい使命です。

パンダの機能

パンダは使うのが楽しいです。

私の経験では、それはシンプルでエレガントで直感的です。 R から来たイディオムと演算は馴染みがあり、関連性があります。

Pandas は、SciPy スタックの標準ライブラリ上に構築されています。 NumPy を使用して配列を高速に処理し、StatsModels からのいくつかの統計演算や Matplotlib からのグラフ作成に便利なラッパーを提供します。

図書館が金融分野で開始されたことを考えると、時系列に重点が置かれています。また、標準的なグリッド データを処理するためのデータ フレームにも重点を置いています。データ処理はこの種のライブラリの中核要件であり、速度が優先されています。高速で、インデックス作成やスパース性の処理などのデータ構造と操作を提供します。

注目すべき重要な機能には次のものがあります。」

  • 操作: 列の移動、スライス、再形成、結合、結合、フィルタリングなど。
  • 時系列処理: 日付/時刻の操作、リサンプリング、ウィンドウの移動、データセットの自動調整。
  • 欠損データの処理: 欠損値の自動除外、削除、置換、補間
  • グループ化操作: SQL のようなグループ化。
  • 階層インデックス: データ構造レベル。列ごとにデータを効率的に整理するのに強力です。
  • 概要統計: データの高速かつ強力な概要統計。
  • 視覚化: ヒストグラム、箱ひげ図、一般プロット、散布行列などのデータ構造上のプロットへのアクセスが簡単になりました。

Pandas は寛容なライセンス (簡易 BSD) で利用でき、残りの SciPy と一緒に簡単にインストールできます。

パンダのリソース

これは Pandas ライブラリの簡単な紹介でしたが、学ぶべきことはまだあります。ライブラリをインストールし、データセットを取得して、試してみましょう。始めるのにこれ以上に良い方法はありません。

Pandas のホームページにアクセスして、図書館のビジョンと機能を読んでください。プロジェクトの github ページをチェックアウトすることもできます。

まずは、クックブック、レッスン、Web 上のさまざまな注目すべき IPython ノートブックへのリンクを含むチュートリアルのリストから始めるのが最適です。

最後に、私の場合、API ドキュメントに住んでいます。

論文

論文は、特に Python と R エコシステムにおけるオープンソース ライブラリの概要をよく示していると思います。 Pandas の概要については、次の文書を参照してください。

  • Python での統計計算のためのデータ構造
  • pandas: データ分析と統計のための基礎的な Python ライブラリ

動画

YouTube には、独自のデータやカンファレンスでパンダをデモンストレーションする人々の素晴らしいビデオがたくさんあります。

素晴らしい出発点は、ウェス自身の 10 分間のパンダ ツアーです。見てください。時系列データは少し多めですが、概要を素早く把握できる優れものです。このツアーに関する彼の IPython ノートブックもチェックアウトできます。

最後に、Wes は Python によるデータ分析に関する決定版の本の著者です。真剣に取り組みたい場合は、練習するだけでなく、本を手に取ることも検討してください。その名は、「データ分析のための Python: Pandas、NumPy、および IPython を使用したデータ ラングリング」です。

関連記事