現在、人工知能の分野の状況では、強力なニューラルネットワークをトレーニングするために、ハードウェア、ソフトウェア、および直接データといういくつかのコンポーネントが必要です。 大量のデータ。
鉄は一般に、雲を通して誰でもアクセスできます。 はい、高価になる可能性がありますが、EC2のGPUインスタンスはほとんどの研究者にとって非常に手頃な価格です。 このソフトウェアはオープンソースであり、ほとんどのフレームワークはどこかでダウンロードして使用できます。 難しいものもあれば、簡単なものもあります。 しかし、エントリのしきい値は非常に許容範囲です。 最後のコンポーネントのみが残ります-これがデータです。 そして、ここで障害が発生します。
ディープラーニングには、数十万から数百万のオブジェクトという本当に大きなデータが必要です。 たとえば、画像を分類するタスクを処理する場合は、データ自体に加えて、オブジェクトが属するクラスに関する情報をニューロンに送信する必要があります。 タスクが画像のセグメンテーションにも関連している場合、優れたデータセットの取得はすでに非常に困難です。 各画像の各オブジェクトの境界を強調表示する必要があると想像してください。

この投稿では、これらのすばらしい人々、つまりデータマーカーの生活を楽にするためのツール(商用および無料)を確認します。
Labelme
そもそも、これはMITで作成された無料のツールです 。 それを使用して、画像をマークアップできます。それは単なる境界ボックス、またはピクセルごとのセグメンテーションです。

実際、これは画像の輪郭を強調してドットを配置できる一種のUIです。 以上です。 このツールは、より賢いものを知りません。 別の機能:LabelMeにはモバイルアプリケーションがあります。 地下鉄、電車、バス、退屈な講義で時間を無駄にすることはできません。
Prodi.gy
最も先進的なアクティブ学習システムの1つ 。 アイデアは、最小限のトレーニングで事前にトレーニングされたモデルがデータをマークしようとしていることであり、タスクはそれを指示することだけです。 ターゲットオーディエンスは、高品質のデータレイアウトを必要とするアナリストとエンジニアであり、外部マーカー用の大きなリソースはありません。 開発者によると、UXはTinderに似ています。

タルサは、自分が確信できないオブジェクトのみをマークするように求めます。 彼らはテキストを扱うことにもっと重点を置いているようですが、ビデオを扱うことを含むコンピュータービジョンも持っています。 私たち自身はそれを使用しませんでした。 彼女は支払った。 ライセンスの費用は390ドルからです。
スケールAPI
これらの人は、ターンキーのフォーマットプロセスにアプローチします。 データを提供してください。私たちはそれをスクリブラーに提供し、品質を管理し、しばらくしてから結果を提供します。 そして、これらはすべてAPIを通じて行われます。

当然、これも無料のツールではありません。 たとえば、セマンティックセグメンテーションタスクの画像を1つマークアップする(つまり、輪郭で画像上のオブジェクトを選択し、それらのオブジェクトの種類を言う)と、緊急に必要な場合は8ドル、待機する準備ができている場合は6.4ドルかかります。
Supervise.ly
このツールは 、タイプインスタンスセグメンテーションのマークアップを簡素化することを目的としています。 ボンネットの下では(感じたように)、Polygon-RNNのようなものが機能します。 オブジェクトを長方形で選択すると、システム自体が長方形内のオブジェクトの境界を見つけます。 それらは、異なるサブジェクト領域に異なるトレーニング済みグリッドを持っています。

実際のデータを取得するのが難しい場合、ゲームから合成データを生成し、実際のデータをそれらで希釈する方法を彼らはまだ知っています。 さらに、システム全体を企業内に取り込むことができるため、データがお客様から離れることはありません。 一般的に、スクリブラーの作業を高速化できるように感じます。 しかし、これは正確ではありません。
メカニカルターク
あなたの指先でのヒンドゥー教のマーキングの力 。 あなたのために高価で、それらのためのペニー、低品質、理解できない品質管理、しかし誰もがそれを使用します。 ロシアにはYandex.Tolokaというアナログがあります。

いつか、これらのプラットフォームのユーザーにインタビューし、彼らの仕事がどのように進んでいるのか、どんな困難が生じるのかを調べます。
群集花
このツールは、マークアップの事実上の標準です。 また、生きている人を使用しますが、マーキングを簡単にするために、TolokaやMTurkよりも高度なツールを提供します。

標準のバウンディングボックス、セマンティックセグメンテーション、ポリゴンに加えて、たとえば倉庫や店舗の棚などのポイントもマークします。
ご覧のように、このようなソリューションの市場は依然として非常に狭いですが、AIボトルネックは正確にマークされたデータであるため、可能性は非常に大きくなります。 そして冗談に加えて、これは本当に未来です。
他のツールを知っている場合は、コメントを書いてください。