A.I. Wiki

Do you like this content? We'll send you more.

データセットと機械学習

ディープラーニングの作業において解決しなければならない最も困難な問題は、適切なデータを適切なフォーマットで得るということで、ニューラルネットワーク自体に関連したものではありません。

ディープラーニング(より一般的に言うと機械学習)を行うには、適切に作業できるトレーニングセットが必要です。大量の既知データであるトレーニングセットを収集、構築するのに必要なものは、時間、そしてどこでどのようにして関連情報を入手するか、ということに関する領域固有の知識です。トレーニングセットは、ディープラーニングネットワークがトレーニングを受ける際にベンチマークとしての役割を果たすものです。そして、ディープラーニングネットワークは未経験のデータに接する前にトレーニングセットを再構築することを学習します。

この段階では、まずは知識を豊富に持つ人間が適切な生データを見つけ、これらをディープラーニングのアルゴリズムが理解できるベクトルという数値表現に変換します。トレーニングセットの構築は、ある意味で事前に行う事前トレーニングと呼べるものです。

多大な時間や専門性を要するトレーニングセットは、データ科学や問題解決の分野においてプロプライエタリの優位性が保たれます。その専門性の性質は、主にトレーニングセットに取り入れるものを選択することにより、アルゴリズムに何が重要であるかを教示することです。

選択した最初のデータを通して教示することにより、ディープラーニングネットワークが学習用に作成されたトレーニングセットと生データの両方から有意義な特徴を推測するのを正しく導きます。

有用なトレーニングセットを作成するには、解決したい問題、つまりディープラーニングンネットワークに注目させたいものが何かを理解しなればなりません。

機械学習のための2つのデータセット

一般に機械学習は、トレーニング、開発、テストの3つのデータセットを使用します。これら3種類すべてのデータはより大きなデータ集団からランダムに抜かれたものでなければなりません。

最初に使用するのは、トレーニングセットで、これら3つのデータの中でも規模が最も大きいものです。トレーニングセットがニューラルネットワークに入力されると、異なる特徴にどのように重みを付けるかがニューラルネットワークに教えられます。これは出力結果のエラーを最小限に抑えることができる可能性に応じて係数を割り当てて行います。

これらの係数はメタデータとも呼ばれ、ベクトル内に含まれており、ネットワークの各層に一つづつあります。係数はニューラルネットワークのトレーニングで得られる最も重要な結果です。

二つ目のセットはテストセットです。このデータセットは承認を証明するものとして使われ、最後の段階まで使われることはありません。データのトレーニングと最適化を終えた後、この最終段階のランダムなサンプリングを使ってニューラルネットワークをテストします。その出力結果は、ネットが正確に複数の画像の認識に成功している、またはそれらの最低[x]パーセントの認識に成功している必要がなければなりません。

正確な予測が出力されなかった場合、トレーニングセットに戻り、ネットワークの調節に使用したハイパーパラメータやデータの質、前処理テクニックをチェックしてください。

データセットに関する概要は以上です。次はカスタム化されたデータセットの作成方法についてお教えしましょう。

無料相談

AIの専門家による30分の質疑応答をスケジュールします。

スカイマインドエキスパートと話す