A.I. Wiki

Do you like this content? We'll send you more.

ディープラーニングに必要なデータ

ディープラーニングの適用を成功させるための最低必要条件は、どのような問題を解決したいかによります。静的な ベンチマークのデータセット(MNISTやCIFAR-10など)とは対照的に、実際のデータは、無秩序で、多種多様なものであり、継続的に変化します。 このように実際の状況ではディープラーニングはこれらの条件に対処できなければなりません。

Alt text

データの種類

ディープラーニングはどのようなデータの種類にも適用できます。そして、どのような種類のデータで作業し、どのようなデータを収集するかは 解決したい問題によります。

  1. サウンド (音声認識)
  2. テキスト (分類)
  3. 画像 (コンピューター・ビジョン)
  4. 時系列 (センサー・データ、ウェブ活動)
  5. ビデオ (動作検知)

ユースケース

ディープラーニングは、データ分類、クラスタリング、それらの予測などを含む機械認識のほとんどすべての問題を解決することができます。

  • 分類: この画像は、馬を表している、この電子メールはスパムだと推測される、この取引は詐欺だ、など。
  • クラスタリング: これら二つのサウンドは類似している。これは恐らくXが探している文書だ。
  • 予測: ウェブログ活動から判断するに、顧客Aはサービスの利用をやめると思われる。

ディープラーニングは、画像、ビデオ、サウンド、テキストなどの構造化されていないデータに適用するのが最適です。画像は単なるピクセルのBLOBであり、メッセージは 単なるテキストのBLOBです。このようなデータは、ごく一般的な行と列による相関的なデータベースとして構成されていません。このため、手動でその特徴を把握することが 難しいのです。

ディープラーニングの一般的なユースケースには、感情分析、画像の分類、予測分析、リコメンデーションシステム、異常検出 などがあります。

ご自分のユースケースがディープラーニングに適しているかがよく分からない方は、こちらから弊社にお問合せください。

データの属性

ディープラーニングを成功させるには、ある特定の特徴が必要です。

関連性

トレーニングに使用するデータは、解決したい問題に直接関連したものでなければなりません。つまり、 処理したい実際のデータに可能な限り似ていなければならないのです。ニューラルネットワークは、最初は真っ白な状態で、教えられたことしか学習しません。 監視カメラなどある特定の種類のデータを含む問題を解決したいとき、監視カメラのビデオやそれに類似したものでトレーニングしなければなりません。トレーニングするデータは、実運用で分類する実際のデータに類似していなければなりません。

適切な分類

データ分類を行うディープラーニング・ソリューションを構築したい場合は、ラベルが付与されたデータセットが必要です。つまり、誰かが 「この画像は花で、あの画像はパンダである。」といったようにラベルを生データに適用しなければならないのです。 時間を投資し、調節作業を行えば、初めての画像でも分類できるようにニューラルネットワークを指導することができるのです。

フォーマット

ニューラルネットワークはデータのベクトルを取り込み、それらに対する意思決定を出力します。すべてのデータはベクトル化される必要があり、 ベクトルはニューラルネットワークに入力されるときに同じ長さである必要があります。同じ長さのベクトルを得るには、同じサイズの画像 (縦も横も同じ長さ)を準備するのが役立ちます。ですから、画像のサイズを変更する必要があることもあります。これは前処理と呼ばれます。これを行うために弊社では、 DataVecというツールを提供しています。

アクセスのしやすさ

データは作業しやすい場所に保存されている必要があります。ローカルのファイルシステム、HDFS(Hadoopのファイルシステム)、またはAWS(Amazon Web Services)の S3バケットなどです。データの保存先が、多くの異なる接続されていないデータベースであれば、データパイプラインを構築しなければなりません。 ディープラーニング・ソリューションの構築に掛かる少なくとも半分の時間がデータパイプラインの構築と前処理で費やされることでしょう。

データの最低必要条件

最低必要条件は、問題の複雑さによって異なりますが、全カテゴリーの総インスタンス数を100,000のから始めるといいでしょう。

ラベル付与されたデータ(カテゴリーA、B、C)がある場合、各ラベルをインスタンスが同数の25,000で均衡をとったデータセットを準備するのがいいでしょう。 つまり、Aに25,000のインスタンス、Bに25,000のインスタンス、といった具合です。

次のステップ

ディープラーニング・ソリューションの構築を検討しているけれども、それが実際に可能かどうか分からないという方は、こちら のチェックリストをお読みになるといいでしょう。このチェックリストではディープラーニング・ソリューションを実運用する前に検討すべきことを解説しています。また、こちらから弊社までお問合せください。

無料相談

AIの専門家による30分の質疑応答をスケジュールします。

スカイマインドエキスパートと話す