✊ 📖 🕚 DetectNet：DIGITSのオブジェクト検出用のディープニューラルネットワーク 🍄 💇🏻 👥

こんにちはHabr。 最近、私はディープラーニング、畳み込みネットワーク、画像処理などに関する記事を読むのを本当に楽しんでいます。 実際、あなた自身の「より控えめな」エクスプロイトを驚かせ、刺激する非常にクールな記事がここにあります。 ですから、2016年8月11日に書かれたNvidiaの記事の翻訳をロシア語を話す人々の注意を喚起したいと思います。そこでは、画像内のオブジェクトを検出する新しいDIGITSツールとDetectNetネットワークが紹介されています。もちろん、最初の記事は最初は少し広告のように見えます。また、DetectNetネットワークは「革新的な」ものではありませんが、DIGITSツールとDetectNetネットワークの組み合わせは誰にとっても興味深いものです。

現在、 NVIDIAディープラーニングGPUトレーニングシステム（DIGITS）の助けを借りて、研究アナリストは、この分野で最も一般的なタスクを解決するためのディープラーニングのフルパワーを自由に使用できます。たとえば、データの準備、畳み込みネットワークの定義、、学習プロセスをリアルタイムで監視し、最適なモデルを選択します。完全にインタラクティブなDIGITSツールにより、プログラミングとデバッグが不要になり、ネットワークの設計とトレーニングのみを行うことができます。

DIGITS 4は、オブジェクトを検出するタスクへの新しいアプローチを導入します。これにより、ネットワーク内でオブジェクト（顔、車両、歩行者など）を見つけ、オブジェクトの周囲の境界ボックスを定義できるようになります。この方法の詳細については、 DIGITSによるオブジェクト検出のディープラーニングの記事をご覧ください。

図1.車両検出のためのDetectNetネットワーク検出

DIGITSの操作方法をすばやく習得するために、ツールにはDetectNetと呼ばれるニューラルネットワークモデルの代表的な例が含まれています。図図1は、航空写真で車両を検出するように訓練されたDetectNetネットワークの結果を示しています。

DetectNetデータ形式

画像の分類では、トレーニングサンプルの入力データは、通常の画像（通常サイズが小さく、1つのオブジェクトを含む）とクラスラベル（通常は整数クラス識別子または文字列クラス名）です。一方、オブジェクトを検出するタスクの場合、トレーニングにはより多くの情報が必要です。 DetectNetのトレーニングサンプルの入力データからの画像は大きく、複数のオブジェクトを含みます。画像内の各オブジェクトについて、ラベルにはオブジェクトが属するクラスに関する情報だけでなく、境界ボックスの角の位置も含める必要があります。この場合、長さと寸法が異なるラベル形式を単純に選択すると、トレーニング画像内のオブジェクトの数が変化する可能性があるため、 損失関数の決定が困難になる可能性があります。

DetectNetは、固定された3次元ラベル形式を使用してこの問題を解決します。これにより、任意のサイズの画像と異なる数のオブジェクトを操作できます。 DetectNetのこの入力表現は、仕事によって「触発され」ました[Redmon et al。 2015] 。

図図2に、DetectNetネットワークをトレーニングするためのマークアップを使用したトレーニングサンプルの画像処理の概略図を示します。最初に、検出する最小のオブジェクトよりもわずかに小さいサイズの固定グリッドが元の画像に重ねられます。さらに、ラティスの各正方形には、ラティスの正方形にあるオブジェクトのクラス 、およびラティスの正方形の中心に対する境界矩形の角のピクセル座標の情報がマークされます。格子の正方形にオブジェクトが落ちない場合、特別なクラス「dontcare」を使用して固定データ形式を保存します。また、追加の「カバレッジ」値が入力データ形式に追加され、0または1の値を取り、オブジェクトがグリッドの正方形に存在するかどうかを示します。複数のオブジェクトがグリッドの1つの正方形に収まる場合、DetectNetは最大ピクセル数を占めるオブジェクトを選択します。ピクセル数が同じ場合、バウンディングボックスの最小の縦座標（ OY ）を持つオブジェクトが選択されます。このようなオブジェクトの選択は、航空写真では重要ではありませんが、地平線のある画像、たとえば、バウンディングボックスの最小の縦座標を持つオブジェクトがカメラの近くにあるDVRの画像では意味があります。

図2. DetectNetの入力のプレゼンテーション

したがって、DetectNetを教える目的は、特定の画像のデータの同様の表現を予測することです。または、換言すれば、DetectNetはラティスの各正方形にオブジェクトが存在するかどうかを予測し、境界ボックスの角度の相対座標を計算する必要があります。

DetectNetネットワークアーキテクチャ

DetectNetニューラルネットワークには、Caffeフレームワークネットワークモデルファイルで定義された5つの部分があります。図図3は、トレーニング中に使用されるDetectNetネットワークアーキテクチャを示しています。 3つの重要なプロセスを区別できます。

トレーニングセットの画像とマークがデータレイヤーに入力されます。さらに、変換レイヤーは「オンザフライ」でデータを補完します。
完全畳み込みネットワーク（FCN）は、特徴の抽出と、特徴クラスの予測、およびグリッド正方形上の長方形の境界を生成します。
損失関数は、同時に、オブジェクトのカバレッジを予測する問題の誤差と、格子の正方形による境界矩形の角度を考慮します。

図3.トレーニング用のDetectNetネットワーク構造

図図4に、検証用のDetectNetネットワークアーキテクチャを示します。これには、さらに2つの重要なプロセスがあります。

予測された境界ボックスをクラスタリングして、最終セットを取得します。
テストサンプル全体でモデルの有効性を測定するための単純化されたメトリックmAP（平均精度）の計算。

図4.検証のためのDetectNetネットワーク構造

detectnet_groundtruth_param

レイヤーのストライドをピクセル単位で設定することにより、トレーニングマークのグリッドスクエアのサイズを変更できます。例えば

 detectnet_groundtruth_param { stride: 16 scale_cvg: 0.4 gridbox_type: GRIDBOX_MIN min_cvg_len: 20 coverage_type: RECTANGULAR image_size_x: 1024 image_size_y: 512 obj_norm: true crop_bboxes: false }

このレイヤーのパラメーターでは、トレーニング画像のサイズ(image_size_x, image_size_y)

も指定できます。したがって、これらのパラメーターを指定すると、トレーニング中にDetectNetネットワークに入る画像は、これらのサイズにランダムにトリミングされます。これは、検出するオブジェクトが非常に小さい非常に大きな画像でトレーニングセットが構成されている場合に役立ちます。

その場で入力データを補完するレイヤーのパラメーターは、 detectnet_augmentation_param

定義されdetectnet_augmentation_param

。例えば

 detectnet_augmentation_param { crop_prob: 1.0 shift_x: 32 shift_y: 32 scale_prob: 0.4 scale_min: 0.8 scale_max: 1.2 flip_prob: 0.5 rotation_prob: 0.0 max_rotate_degree: 5.0 hue_rotation_prob: 0.8 hue_rotation: 30.0 desaturation_prob: 0.8 desaturation_max: 0.8 }

データ追加手順は、DetectNetを使用した高感度で正確なオブジェクト検出器のトレーニングを成功させるために重要な役割を果たします。 detectnet_augmentation_param

のパラメーターは、トレーニングセットに対するさまざまなランダム変換（変位、反射など）を定義します。このような入力データの変換により、ネットワークが同じ画像を2回処理することがなくなるため、テストサンプルのオブジェクトの形状の再トレーニングや自然な変化に対する耐性が高まります。

DetectNet FCNサブネットは、入力層、最終プール層、および出力層のないGoogLeNetネットワークに似た構造を持っています[Szegedy et al。 2014] 。このアプローチにより、DetectNetは既にトレーニング済みのGoogLeNetモデルを使用して、トレーニング時間を短縮し、完全なモデルの精度を向上させることができます。完全な畳み込みネットワーク（FCN）は、完全に接続されたレイヤーのない畳み込みニューラルネットワークです。これは、ネットワークが入力でさまざまなサイズの画像を受信し、通常の方法でステップ付きのスライディングウィンドウ技術を使用して応答をカウントできることを意味します。出力は、実数値の多次元配列であり、入力マークやDetectNetの正方形グリッドのように、入力画像に重ね合わせることができます。その結果、最終層プールのないGoogLeNetネットワークは、555 x 555ピクセルのスライディングウィンドウと16ピクセルのピッチを持つ一種の畳み込みニューラルネットワークです[1] 。

DetectNetは、2つの独立した損失関数の線形結合を使用して、最終的な損失関数と最適化を作成します。最初のcoverage_loss

損失関数は、オブジェクトの実際のカバレッジと予測カバレッジの間のソースデータラティスのすべての平方に対する2次誤差です。

2番目の関数bbox_loss

は、ラティスのすべての正方形の境界矩形の実角度と予測角度の間の平均誤差です。

Caffeフレームワークは、これらの損失関数の値の加重合計を最小化します。

DetectNetネットワーク出力

DetectNetネットワークの最後のレイヤーは、生成されたグリッド四角形の境界矩形のセットをフィルター処理およびクラスター化します。これには、OpenCVライブラリのgroupRectanglesアルゴリズムが使用されます。境界矩形は、オブジェクトの予測カバレッジの値に応じて、しきい値法によってフィルタリングされます。しきい値は、DetectNetモデルのgridbox_cvg_threshold

ファイルのgridbox_cvg_threshold

パラメーターによって設定されます。境界長方形は、長方形の等価基準を使用してクラスター化されます。これは、同様の位置とサイズの形状を組み合わせます。長方形の類似性は変数eps

によって決定されます。値がゼロの場合、長方形は結合されず、値が無限大になる傾向がある場合、すべての長方形が1つのクラスターに分類されます。長方形をクラスターに結合した後、 gridbox_rect_thresh

パラメーターで指定されたしきい値で小さなクラスターのしきい値フィルタリングが行われ、中央の長方形が残りのクラスターと見なされ、出力リストに記録されます。クラスタリング方法はPythonの関数によって実装され、「Python Layers」インターフェースを介してCaffeで呼び出されます。 groupRectangles

アルゴリズムのパラメーターは、DetectNetネットワークモデルファイルのcluster

レイヤーを介して設定されます。

DetectNetでは、Pythonレイヤーインターフェイスを使用して、境界矩形の最終セットから計算された単純化されたメトリックmAP（平均精度）を計算して出力します。予測および現在の境界長方形について、 ユニオンの交差点（IoU）値-長方形の交差面積とその面積の合計の比率が計算されます。 IoUにしきい値（デフォルト0.7）を使用する場合、予測された長方形は真陽性または偽陽性の予測として分類できます。長方形のペアのIoU値がしきい値を超えていない場合、予測された長方形は偽陰性の予測のカテゴリーに入ります-オブジェクトは検出されませんでした。したがって、DetectNetの簡易mAPメトリックは、精度（精度は真陽性と偽陽性の合計に対する真陽性の比率）と完全性の尺度（想起は真陽性と真陰性の合計に対する真陽性の比率）の積として計算されます。

ご注意 トランス。 ウィキペディアの正確さと完全性に関する有用な画像

このメトリックは、トレーニングサンプルオブジェクトの検出に対するDetectNetネットワークの感度の便利な特性であり、誤った結果と境界ボックスの精度を破棄します。オブジェクト検出のエラーの分析に関する詳細は、 [Hoiem et al。 2012] 。

学習効果と結果

オブジェクト検出タスクに対するDetectNetネットワークの主な利点は、オブジェクトの検出効率と生成された境界矩形の精度です。完全な畳み込みネットワーク（FCN）の存在により、スライディングウィンドウ上のニューラルネットワークに基づく分類器を使用して比較することにより、DetectNetネットワークをより効率的にすることができます。これにより、重複するウィンドウに関連する不要な計算が回避されます。統一されたニューラルネットワークアーキテクチャを使用したこのアプローチは、検出問題を解決するために、よりシンプルで洗練されています。

Nvidia Caffe 0.15.7およびcuDNN RC 5.1を使用したDIGITS 4でのDetectNetトレーニングは、307トレーニングのサンプルと1536 x 1024ピクセルのサイズの24枚のテストイメージで、単一のTitan Xグラフィックカードを使用して63分かかります。

DetectNetは、16ピクセルの格子サイズで1536 x 1024ピクセルのオブジェクトを検出します。以前の構成（1台のTitanX、Nvidia Caffe 0.15.7、cuDNN RC 5.1）では41ミリ秒（約24 fps）かかります。

DetectNetの最初のステップ

独自のデータでDetectNetを試してみたい場合は、 DIGITS 4をダウンロードできます。 DIGITSでオブジェクトを検出するためのワークフローの段階的なデモンストレーションをここに示します。

DIGITS 4のオブジェクト検出機能の使用の概要については、 DIGITSによるオブジェクト検出のディープラーニングの投稿も参照してください。

オブジェクトを検出するタスクで深層学習を使用するさまざまなアプローチの長所と短所に興味がある場合は、GTC 2016でJon Barkerのパフォーマンスを参照してください。

ウェビナーなどを含む他の詳細なトレーニング資料は、 NVIDIA Deep Learning Instituteで見つけることができます。

参照資料

Hoiem、D.、Chodpathumwan、Y。、およびDai、Q。2012。オブジェクト検出器のエラーの診断。コンピュータービジョン-ECCV 2012、Springer Berlin Heidelberg、340〜353。

Redmon、J.、Divvala、S.、Girshick、R。、およびFarhadi、A。2015。一度だけ見る：統合されたリアルタイムのオブジェクト検出。 arXiv [cs.CV]。 http://arxiv.org/abs/1506.02640

Szegedy、C.、Liu、W.、Jia、Y.、et al。 2014.コンボリューションでさらに深く。 arXiv [cs.CV]。 http://arxiv.org/abs/1409.4842

翻訳者からの追加情報とリンク

元の記事はこちらにあります。 DIGITSプロジェクトはオープンソースであり、こちらで見つけることができます。 DetectNet prototxtファイルは、ここまたは画像としてここにあります。

DIGITSのインストールについて

詳細なインストール手順については、こちらをご覧ください。

DIGITSアプリケーションには、DetectNetネットワークの実行に必要なPythonレイヤーを追加するために、Caffe、またはむしろNVidiaのフォークが必要です。「大した問題ではない」このフォークは、Mac OSXとUbuntuにインストールできます。 Windowsの場合、問題は、BVLC / CaffeからのWindowsブランチがフォークにないため、著者が書いているように、 DIGITS for WindowsはDetectNetをサポートしていないことです。したがって、Windowsでは、BVLC / Caffeをインストールして「標準」ネットワークを実行できます。

注釈

[1]最終プーリング層を削除してGoogLeNetを使用すると、555 x 555ピクセルの受容野と16ピクセルのストライドを持つCNNのスライディングウィンドウアプリケーションになります。

DetectNet：DIGITSのオブジェクト検出用のディープニューラルネットワーク