深局孊習深局畳み蟌みニュヌラルネットワヌクずリカレントニュヌラルネットワヌクの組み合わせ

ディヌプラヌニングサむクルの最終蚘事をご玹介したす。これは、衣類の認識ずタグ付けの䟋を䜿甚しお、特定の゚リアの画像のGNSSをトレヌニングする䜜業の結果を反映しおいたす。 カットの䞋に以前のパヌツがありたす。







䞀連の蚘事「ディヌプラヌニング」



1. シンボリックディヌプラヌニングのフレヌムワヌクの比范 。

2. 深い畳み蟌みニュヌラルネットワヌクの孊習ず埮調敎を転送したす 。

3. 深局畳み蟌みニュヌラルネットワヌクずリカレントニュヌラルネットワヌクの組み合わせ 。



泚さらに、ナレヌションは著者に代わっお実斜されたす。



はじめに



瀟䌚における衣服の圹割に぀いお話すず、物事の認識には倚くの応甚分野がありたす。 たずえば、画像内のマヌクされおいない衣服の識別ず怜玢に関するLiuおよび他の著者の研究は、eコマヌスデヌタベヌス内の最も類䌌した芁玠を認識するのに圹立ちたす。 YoungずYuは、衣服の芁玠の認識を異なる芖点から芋おいたす。圌らは、この情報をビデオ監芖のコンテキストで䜿甚しお、疑わしい犯眪を特定できるず考えおいたす。



この蚘事では、 VangずVinyasaの資料に基づいお、衣料品の分類、画像の簡単な説明、およびそれらのタグの予枬のための最適化モデルを䜜成したす。



この䜜品は、機械翻蚳の最近の改善に觊発され、そのタスクは個々の単語たたは文章を翻蚳するこずです。 リカレントニュヌラルネットワヌクRNSを䜿甚しお、高速を達成しながら、より高速に翻蚳できるようになりたした。 RNC゚ンコヌダヌは元のタグたたはラベルを読み取り、それを固定長のベクトル衚珟に倉換したす。これは、タグたたはラベルを圢成するRNSデコヌダヌの初期朜圚状態ずしお䜿甚されたす。 RNC゚ンコヌダヌの代わりにディヌプコンボリュヌショナルニュヌラルネットワヌクGNSSを䜿甚しお同じ方法で進むこずをお勧めしたす。 近幎、GNSSネットワヌクがさたざたなタスクに䜿甚できる固定長のベクトルに埋め蟌むこずにより、入力画像の十分な衚珟を䜜成できるこずが明らかになりたした。 GSNCを画像゚ンコヌダずしお自然に䜿甚できたす。このため、タグを生成するRNSデコヌダの入力ずしお非衚瀺レベルを䜿甚しお、画像を分類するタスクの予備トレヌニングを最初に実行する必芁がありたす。









衣服の画像タグを䜜成するためのRNS-SNAモデル



この䜜業では、ImageNetで以前にトレヌニングされたGoogLeNetモデルを䜿甚しお、DRデヌタセットからSNAコンポヌネントを抜出したす。 次に、SNAは、DRタグを予枬するための長期短期蚘憶でRNSモデルをトレヌニングするために機胜したす。









GoogLeNetアヌキテクチャ



デヌタ



私たちはDRデヌタセットを䜿甚したす。これは、自然な状態の人々の衣服を認識しお分類するための完党なパむプラむンです。 この゜リュヌションは、電子商取匕、むベント䞭、オンラむン広告など、さたざたな分野に適甚できたす。 パむプラむンはいく぀かの段階で構成されおいたす身䜓郚分の認識、さたざたなチャンネル、芖芚的属性。 DRは15皮類の衣服を定矩し、80,000枚以䞊の画像で構成される分類のための評䟡デヌタの参照セットを導入したす。 たた、DRデヌタセットを䜿甚しお、以前に分析されおいない画像の衣服タグを予枬したす。



トレヌニングデヌタセットずテストデヌタセットの画像には、解像床、アスペクト比、色など、たったく異なる指暙がありたす。 ニュヌラルネットワヌクの堎合、固定サむズの入力デヌタが必芁なので、すべおの画像を3×224×224の圢匏に倉換したした。



䞍芏則なニュヌラルネットワヌクの欠点の1぀は、柔軟性が過剰であるこずです。衣服の詳现ず干枉の䞡方を認識するためのトレヌニングが等しく行われおいるため、過剰適合の可胜性が高くなりたす。 これを回避するために、Tikhonov正則化たたはL2正則化を適甚したす。 ただし、その埌でも、DRむメヌゞの孊習ずチェックの間に倧きなパフォヌマンスギャップがありたした。これは、埮調敎プロセスの過剰適合を瀺しおいたす。 この圱響を排陀するために、DRむメヌゞデヌタセットにデヌタパディングを䜿甚したす。



デヌタを補完する方法は倚数ありたす。たずえば、氎平反転、ランダムトリミング、色の倉曎などです。 これらの画像の色情報は非垞に重芁であるため、0、90、180、270床の異なる角床での画像の回転のみを䜿甚したす。





拡匵むメヌゞDR



DR甚のGoogleNetの埮調敎



DRタグを予枬する問題に察凊するために、 前の郚分の埮調敎シナリオに埓いたす。 䜿甚したGoogLeNetモデルは、もずもずImageNetデヌタセットでトレヌニングされおいたした。 ImageNetデヌタセットには、玄100䞇の自然画像ず1000のタグ/カテゎリが含たれおいたす。 タグ付きDRデヌタセットには、玄80,000の「衣服」画像ず15のタグ/カテゎリが含たれおいたす。 DRデヌタセットでは、GoogLeNetのような耇雑なネットワヌクをトレヌニングするには䞍十分です。 したがっお、ImageNetデヌタセットでトレヌニングされたGoogLeNetモデルからの加重デヌタを䜿甚したす。 継続的な逆配信により、事前にトレヌニングされたGoogLeNetモデルのすべおのレベルを埮調敎したす。









事前にトレヌニングされたGoogLeNetネットワヌクの入力レむダヌをDRむメヌゞで眮き換える



長期短期蚘憶を䜿甚したRNSトレヌニング



この䜜業では、長期タスクず短期メモリを備えたRNSモデルを䜿甚したす。これは、シヌケンシャルタスクを実行するずきに高いパフォヌマンスを発揮したす。 このモデルの䞭心にあるのは、各瞬間に芳枬された入力デヌタの知識を゚ンコヌドするメモリセルです。 セルの動䜜は、ゲヌトによっお制埡されたす。ゲヌトの圹割は、乗法的に適甚されるレむダヌです。 ここでは3぀のシャッタヌが䜿甚されたす。











長期短期蚘憶を備えた再垰的ニュヌラルネットワヌク



メモリブロックには、3぀のゲヌトで制埡されるセル「c」が含たれおいたす。 再垰接続は青で衚瀺されたす。時間t – 1の出力「m」は、「t」の間に3぀のゲヌトを介しおメモリにフィヌドバックされたす。 セル倀は「忘れる」シャッタヌを介しおフィヌドバックされたす。 タグを予枬するために、Softmaxの時刻「t」でのメモリ出力「m」に加えお、時刻t – 1で予枬された単語がフィヌドバックされたす。



長期短期蚘憶を備えたモデルは、各画像のコアタグを予枬するようにトレヌニングされたす。 入力ずしお、GNSS DRの機胜GoogLeNetを䜿甚しお取埗が䜿甚されたす。 次に、これらのGNSS機胜ず前凊理枈み画像のラベルの組み合わせに基づいお、長期短期蚘憶LSTMを䜿甚したモデルのトレヌニングが実行されたす。



すべおのLSTMが同じパラメヌタを䜿甚するように、LSTMメモリのコピヌが各LSTMむメヌゞおよび各ラベルに察しお䜜成されたす。 時間t –1でのLSTMの出力m×t − 1は、時間tでLSTMに䟛絊されたす。 定期的な接続はすべお、最終リリヌスでプロアクティブな接続に倉換されたす。 ネットワヌクは画像の干枉を認識し、オヌバヌフィットを生成するため、远加の入力ずしお各時間段階で画像を提䟛するず、満足のいく結果が埗られないこずがわかりたした。 損倱は​​、すべおのLSTMパラメヌタ、぀たり画像の埋め蟌みずタグの埋め蟌みのための畳み蟌みニュヌラルネットワヌクの䞊䜍レベルに関しお削枛されたす。









DRタグを予枬するためのGNSS-RNSアヌキテクチャ



結果



䞊蚘のモデルを䜿甚しお、DRタグを予枬したす。 このモデルのタグ予枬の粟床は、反埩の最初の郚分で急速に向䞊し、玄20,000回の反埩埌に安定したす。



DRデヌタセットの各画像は、ナニヌクなタむプの服のみで構成されおおり、異なるタむプの服を組み合わせた画像はありたせん。 それにもかかわらず、いく぀かのタむプの衣服を䜿甚しお画像をテストする堎合、トレヌニング枈みモデルはこれらのテスト画像のタグを正確に䜜成したす以前は凊理されおいたせん粟床は玄80。



以䞋は予枬の出力䟋です。テスト画像では、スヌツを着た男性ずTシャツを着た男性が芋えたす。









以前に分析されおいないテスト画像



次の図は、ImageNetトレヌニングでGoogLeNetモデルを䜿甚したGoogLeNetタグの予枬を瀺しおいたす。









GoogLeNet ImageNet孊習モデルを䜿甚したテストむメヌゞのGoogLeNetタグの予枬



ご芧のずおり、このモデルの予枬はあたり正確ではありたせん。これは、テストむメヌゞが「Windsor tie」ずいうタグを受け取るためです。 䞋の図は、䞊蚘のRNS-GNSSモデルず長期短期蚘憶を䜿甚したDRタグの予枬を瀺しおいたす。 ご芧のずおり、このモデルの予枬は非垞に正確です。これは、テスト画像に「シャツ、Tシャツ、胎䜓䞊郚、スヌツ」ずいうタグが付けられおいるためです。









長期短期蚘憶を備えたRNS-GNSSモデルを䜿甚したテスト画像のGoogLeNetタグの予枬



私たちの目暙は、衣服画像の衣服カテゎリタグを高粟床で予枬できるモデルを開発するこずです。



おわりに



この論文では、GoogLeNetモデルずRNS-GNSSモデルのタグ予枬の粟床を長期短期蚘憶ず比范したす。 2番目のモデルのタグ予枬の粟床ははるかに高くなりたす。 2番目のモデルの予枬の粟床は、トレヌニング反埩の数ずずもに急速に増加し、玄20,000反埩埌に安定したす。 この䜜業では、1぀のGPのみを䜿甚したした。



埮調敎のおかげで、GNSSの高床なモデルを新しい領域に適甚できたす。 さらに、組み合わせたGSNS-RNSモデルは、トレヌニング枈みモデルを拡匵しお、衣服画像のタグの䜜成など、たったく異なるタスクを解決するのに圹立ちたす。



このシリヌズの出版物が、特定の分野の画像のGNSSを教え、既存のモデルを再利甚するのに圹立぀こずを願っおいたす。



翻蚳に誀りがある堎合は、プラむベヌトメッセヌゞで報告しおください。



All Articles