AI燃料:オープンな機械学習データセットの選択



関連するオープンデータコミュニティプロジェクト(リンクされたオープンデータクラウドプロジェクト)。 この図の多くのデータセットには著作権で保護されたデータが含まれている可能性があり、この記事では言及していません。







現在AIを実行していない場合、他のユーザーが自分でAIの代わりにそれを実行します。 機械学習システムの作成を妨げるものは何もありません。 ディープラーニングTensorFlowのオープンライブラリ、 トーチライブラリのトレーニング用の多数のアルゴリズム、非構造化および弱構造化Sparkデータの分散処理を実装するためのフレームワーク、および作業を促進する他の多くのツールがあります。







これに大規模なコンピューティング能力の可用性を追加すると、完全な幸福のために、データが1つだけ欠落していることがわかります。 膨大な量のデータが公開されていますが、どのオープンデータセットに注意を払うべきか、アイデアをテストするのに適しているか、独自のデータセットを蓄積する前に潜在的な製品またはその特性をチェックする手段として役立つかを理解することは容易ではありません専有データ。







この問題を把握し、公開性、関連性、作業速度、実際のタスクへの近接性の基準を満たすデータセットに関するデータを収集しました。







コンピュータービジョン









視覚ゲノム







機械学習用のデータの公開性は、電気自動車市場への無料の電気のようなものです。 したがって、直接的な経済的利益を追求しない研究グループは、新しいデータセットを取得するプロセスに大きく貢献します。 そのため、スタンフォード大学の科学者やYahooやSnapchatの代表者を含む国際的な研究者グループは、新しいVisual Genomデータベースと画像推定アルゴリズムを開発し、人工知能システムが写真で何が起こっているのかを理解できるようにしました。 Visual Genomeデータベース内のすべての画像は、画像内のすべてのオブジェクト、それらの機能、および関係に関する情報を含むようにマークされています。







ImageNet







以前、スタンフォード大学の研究者はImageNetデータセットを導入しました。 このデータセットには、写真に示されているイベントの内容に応じてラベル付けされた100万を超える画像が含まれています。 イメージAPIを作成する多くの企業は、ImageNetの1000カテゴリのWordNet階層に疑わしいほど類似したラベルをRESTインターフェイスで使用します。







MIAS (マンモグラフィ画像解析協会)







マンモグラムによるデータセット。医師はアルゴリズムを使用して癌性腫瘍を特定できます。 配列は、既知のタイプの疾患を伴う実際の胸部画像です。







Landsat8







Landsat-8は、2013年に軌道に打ち上げられた地球リモートセンシング衛星です。 衛星は、中解像度(ポイントあたり30メートル)のマルチスペクトル画像を収集して保存します。 Landsat-8のデータは、2015年から利用可能で、2013-14年のサンプル画像もあります。 すべての新しいLandsat-8画像は、作成後数時間で毎日表示されます。







手書き数字のMNIST(混合標準技術研究所)データベース







トレーニング用に60,000個の画像とテスト用に10,000個の画像の量のトレーニング値の準備されたセットを持つ手書き数字データベース。 米国国勢調査局のサンプル(米国の大学の学生が作成したテストサンプルを追加)から取得した図は、サイズが正規化され、画像サイズが固定されています。 このデータベースは、画像認識方法の調整と比較を目的として、米国国立標準技術研究所によって提案された標準です。







Chars74k







手書きの数字を渡した人のための進化の次の段階。 このデータセットには、さまざまなキャラクター(アルファベット、数字など)の74,000枚の画像が含まれています。







オープンソースの生体認証データ







オープンソースエンジンを使用して取得した生体認証データ(正面顔画像)。







Svhn







Googleストリートビューの家番号。 トレーニング用の73,257個の数字、テスト用の26,032個の数字、および追加のトレーニングデータとして使用する531,131個のやや複雑なパターン。







自然言語









一般的なクロールコーパス







540テラバイトを超えるWebページデータコーパスは、50億を超えるWebページで構成されています。 このデータセットは、Amazon S3で無料で入手できます。







Yelpオープンデータセット







Yelpは、レストランや美容院などのサービスのローカル市場を検索するためのサイトで、これらのサービスの評価やレビューを追加および表示できます。 長年にわたり、私はサービスのユーザーから大量のデータを蓄積してきました。 データセットには、1,000,000人以上のユーザーからの156,000社の4,700,000件のレビューが含まれています。







ウィキテキスト







データセットは、検証済みのGoodおよびSelected Wikipediaの記事から抽出された1億語以上の単語使用からのテキストのコレクションです。







Maluubaデータセット







このCNNニュースフィードには、120,000の質問とコンテキスト/回答が含まれています。 質問は人々によって自然言語で書かれています。 質問には答えられない場合があり、答えは多言語になる場合があります。 Maluuba Datasetは、困難な環境での意思決定をサポートできるスマートチャットボットの作成を支援するように設計されています。







児童書のテスト







電子ユニバーサルライブラリの作成と配布を目的としたグーテンベルクプロジェクトで利用可能な児童書から抽出されたペア(質問+コンテキスト/回答)で構成される基本データ。 1971年に設立されたこのプロジェクトは、世界文学のさまざまな作品のテキスト形式でのデジタル化と保存を提供します。これらは主に、すべての一般的な世界言語で自由に利用できるテキストです。 53,000以上のドキュメントが無料でダウンロードできます。







Twitter感情分析







Twitterの「コメント」の調性の分析のデータセット。 肯定的な感情と否定的な感情を示す1,57​​8,627のツイートが含まれています。







スピーチ









Googleオーディオセット







サウンドイベントの包括的な辞書。 632クラスのオーディオイベントと、YouTubeのビデオからの2 084 320音声10秒セグメントのコレクション(5000時間以上のオーディオ録音)。







2000 HUB5英語







英語での40の電話会話のトランスクリプトを含む英語のデータセット。 HUB5 English 2000データは、音声をテキストに書き写すという特定のタスクで電話で話すことに焦点を当てています。







TED-LIUM







TEDでの1,495のスピーチの音声録音と完全なトランスクリプト。







データセットデータセット









mldata







Mldata(機械学習データセットリポジトリ)は、評価、ビュー、コメント付きの800以上の公的にアクセス可能なアーカイブデータセットを含む機械学習データセットリポジトリです。







UCI Machine Learningリポジトリ







1987年以来の歴史をリードする、機械学習の実問題およびモデル問題の最大のリポジトリ。 生物学、医学、物理学、技術、社会学、およびさまざまなアルゴリズムの操作の古典となったその他の分野の応用問題に関する実際のデータが含まれています。 このリポジトリのデータセットは、機械学習アルゴリズムを経験的に分析するために科学界でよく使用されます。 UCIのSpambaseからのスパムメールのテキストに関する興味深いデータが含まれています。これは、 パーソナライズされたスパムフィルターをトレーニングするためのプラットフォームとして使用できます。







「統計学習の要素」のデータセット







スタンフォード大学のTrevor Hasti教授のリーダーシップの下で作成された統計学習の要素のデータセットは、骨格骨密度、国、銀河、マーケティング情報、スパム、郵便番号など、さまざまなカテゴリのデータセットです。







アマゾンウェブサービス(AWS)







AWSは、すべてのEnronメール、Googleブックスの構文n-gram、NASA NEXデータ(気候、地質、20テラバイト以上の地球規模の植物相情報)などを含む、いくつかの興味深いデータセットを提供します。







カグル







これは、すべてのユーザーがデータセットを共有できるプラットフォームです。 これらには350を超えるデータセットがあり、プラットフォームの推奨に従って200を超えるデータセットがリストされています。







素晴らしい公開データセット







さまざまな分野のさまざまなカテゴリに分類された数百のデータセット。 残念ながら、データセット自体の説明は含まれていません。







data.world







data.worldプロジェクトは、それ自体を「データセットを持つ人々のソーシャルネットワーク」と呼んでいますが、「データのGitHub」と表現する方が正確です。 これは、データセットを検索、コピー、分析、およびダウンロードできる場所です。 さらに、データをdata.worldにアップロードし、それを使用して他のユーザーと共同作業することができます。







data.worldの主な違いの1つは、データの操作を簡素化するために作成したツールです。 システムは、データを調査し、複数のデータセットを結合するためのSQLクエリをサポートします。また、選択したツールでデータを簡単に操作できるSDKも備えています(詳細については、data.world Python SDKのチュートリアルを参照してください )。







開発者は、新しいAIソリューションまたは製品を作成する際に最も難しい部分はアルゴリズムではなく、データコレクションの収集とラベル付けであることをしばしば忘れます。 標準データセットは、検証に使用したり、より専門的なソリューションを構築するための開始点として使用したりできます。







別の一般的な誤解は、1つのデータセットに関連する問題を解決することは、製品全体を慎重に考えることに等しいという考えにあります。 これらのデータセットを使用してアイデアを検証またはテストしますが、製品をテストまたはプロトタイプ化し、製品を磨くのに役立つ、より信頼性の高い新しいデータを取得することを忘れないでください。 ビジネスがデータに基づいて構築されている成功している企業は、通常、リスクを増加させることなく生産性を向上できる新しい独自のデータの収集に多くの注意を払っています。







ソース(リンクをたどると、興味深いデータセットの例も見つかります):







ディープラーニング用のオープンデータ

KDNuggets

ゴールドラッシュの推進:AIの最大のパブリックデータセット








All Articles