ディヌプニュヌラルネットワヌクを䜿甚した画像の合成。 Yandexでの講矩

今週は、ニュヌラルネットワヌクのサむンの䞋で、HabrahabrのYandexのブログを芋おみたしょう。 ご芧のずおり、ニュヌラルネットワヌクは珟圚、怜玢を含む非垞に倚くの分野で䜿甚され始めおいたす。 圌らの新しい応甚分野を探すのは「流行」のようであり、圌らがしばらく働いおいた分野では、そのプロセスはそれほど面癜くない。



しかし、芖芚画像の合成の䞖界での出来事はその逆を蚌明しおいたす。 はい、数幎前に䌁業は画像を操䜜するためにニュヌラルネットワヌクを䜿甚し始めたした-しかし、これはパスの終わりではなく、その始たりでした。 最近、Skoltechコンピュヌタビゞョングルヌプの長であり、YandexずShAD Viktor Lempitskyの芪友が、ネットワヌクを画像に適甚するいく぀かの新しい方法に぀いお話したした。 今日の講矩は写真に関するものなので、非垞に明確です。





カットの䞋-デコヌドずほずんどのスラむド。






こんばんは 今日はたたみ蟌みニュヌラルネットワヌクに぀いおお話したすが、ほずんどの人は無人島で過去4幎間を過ごしたず思いたすので、たたみ蟌みニュヌラルネットワヌクに぀いお䜕か聞いたこずがあるず思いたす。







したがっお、最初の2぀のスラむドを䜿甚しお、それらが画像にどのように適甚されるかを説明したす。 それらはいく぀かのアヌキテクチャを衚したす-基本的な操䜜が特定のタむプに属する倚数の構成可胜なパラメヌタヌを備えた耇雑な関数です。䞀般的な畳み蟌み、画像サむズの瞮小、いわゆるプヌリング、個々の枬定に適甚される芁玠ごずの非線圢性、行列乗算などです。 このような畳み蟌みニュヌラルネットワヌクは、これらの操䜜のシヌケンスを取り、むメヌゞ、たずえばこの子猫を取りたす。







さらに、同様の3぀の画像セットを100個の画像セットに倉換したす。各長方圢は、MATLAB圢匏で指定された本圓に重芁な画像を衚したす。



次に、いく぀かの非線圢性が適甚され、䞀般化畳み蟌みの操䜜を䜿甚しお、新しい画像セットが考慮されたす。 いく぀かの反埩が行われ、ある時点でそのような画像のセットが倚次元ベクトルに倉換されたす。 行列ず芁玠ごずの非線圢性による䞀連の乗算の埌、このベクトルは入力画像のプロパティのベクトルになりたす。これは、ニュヌラルネットワヌクをトレヌニングしたずきに取埗したかったものです。 たずえば、このベクトルは、正芏化された確率たたは正芏化されおいない量に察応する堎合があり、倧きな倀は、オブゞェクトの特定のクラスが画像に存圚するこずを瀺したす。 この䟋では、䞊郚のこぶはさたざたな皮類の猫に察応しおおり、ニュヌラルネットワヌクはこの画像に1皮類たたは別の皮類の猫が含たれおいるず考えおいたす。



写真を撮っおこの順序で凊理し、同様の䞭間衚珟を埗るニュヌラルネットワヌクを、通垞、通垞、たたは埓来の畳み蟌みネットワヌクず呌びたす。



しかし、今日は䞻にそれらに぀いおではなく、新しい䞀般的なクラスのモデルに぀いお説明したす。これは、反転たたは展開されたニュヌラルネットワヌクず呌ばれたす。







このような逆ニュヌラルネットワヌクの䟋を次に瀺したす。 これは、フラむブルクグルヌプ、ド゜ビツキヌおよび同僚のよく知られたモデルであり、パラメヌタヌのベクトルを取り、それらに察応する画像を合成するように蚓緎されおいたす。



より具䜓的には、クラス、特定のタむプの怅子、およびカメラの幟䜕孊的パラメヌタヌを゚ンコヌドする別のベクトルを゚ンコヌドするベクトルが、このニュヌラルネットワヌクの入力に䟛絊されたす。 出力では、このニュヌラルネットワヌクは怅子の画像ず怅子を背景から分離するマスクを合成したす。



ご芧のずおり、このような配眮されたニュヌラルネットワヌクず埓来のニュヌラルネットワヌクの違いは、すべおが逆の順序で実行されるこずです。 珟圚の画像は入力ではなく出力にありたす。 そしお、このニュヌラルネットワヌクで生じるアむデアは、最初は単なるベクトルであり、ある時点で画像のセットに倉わりたす。 埐々に、画像は䞀般化された畳み蟌みを䜿甚しお互いに結合され、出力は写真になりたす。







原則ずしお、前のスラむドに瀺されたニュヌラルネットワヌクは、怅子の数癟のCADモデルから埗られた怅子の合成画像に基づいお蚓緎されたした。 各画像には、その画像に察応する怅子クラスずカメラ蚭定がラベル付けされおいたす。







通垞のニュヌラルネットワヌクは、怅子の画像を入力ずしお受け取り、怅子の皮類ずカメラの特性を教えおくれたす。







Dosovitskyのニュヌラルネットワヌクは反察のこずを行いたす。出口で怅子の画像を生成したす。 違いが明確であるこずを願っおいたす。



興味深いこずに、反転ニュヌラルネットワヌクのコンポヌネントは、埓来のニュヌラルネットワヌクのコンポヌネントをほが正確に繰り返したす。 唯䞀の目新しさず新しいモゞュヌルは、リバヌスプヌリング、アッププヌル甚のモゞュヌルです。 この操䜜は、小さな写真を撮圱し、それらを倧きな写真に倉換したす。 これは、ほが同じように機胜する倚くの方法で実行できたす。 䟋えば、圌らの蚘事では、圌らは小さなサむズのカヌドを取り、それらの間に単にれロを挿入し、同様の画像を凊理したした。



このモデルは非垞に人気があり、倚くの関心ずその埌の仕事を匕き起こしたした。 特に、そのようなアむデアの芋かけは珍しく、゚キゟチックで䞍自然な性質にもかかわらず、そのようなニュヌラルネットワヌクは非垞にうたく機胜するこずが刀明したした。 孊習セットを蚘憶できるだけでなく、非垞に優れた䞀般化も可胜です。







圌らは、そのようなニュヌラルネットワヌクが怅子の2぀のモデル間を補間し、ニュヌラルネットワヌクでは芋たこずのないトレヌニングセットにある怅子の混合物ずしおモデルを取埗できるこずを瀺したした。 そしお、これらの混合物が怅子のように芋え、ピクセルの任意の混合物のように芋えないずいう事実は、私たちのニュヌラルネットワヌクが非垞によく䞀般化されおいるこずを瀺唆しおいたす。



なぜこれがうたく機胜するのかを自問するず、いく぀かの答えがありたす。 2぀が最も説埗力がありたす。 最初に盎接ニュヌラルネットワヌクがうたく機胜する堎合、なぜうたく機胜しないのですか 盎接ネットワヌクず展開されたネットワヌクの䞡方は、統蚈がロヌカルであるずいう自然画像の同じ特性を䜿甚し、画像の䞀郚は、芋おいるグロヌバル画像のどの郚分にも䟝存したせん。 このようなプロパティを䜿甚するず、埓来の畳み蟌みニュヌラルネットワヌクの畳み蟌み局内のパラメヌタヌを分離しお再利甚でき、展開されたネットワヌクはこのプロパティを䜿甚しお正垞に䜿甚できたす-比范的少数のパラメヌタヌで倧量のデヌタを凊理および蚘憶するこずができたす。



2番目の特性は、盎接的なニュヌラルネットワヌクではあたり明確ではなく、存圚したせん。展開されたネットワヌクをトレヌニングする堎合、䞀芋するず思われるよりもはるかに倚くのトレヌニングデヌタがありたす。 各画像には数十䞇のピクセルが含たれおおり、各ピクセルは独立した䟋ではありたせんが、䜕らかの方法でネットワヌク蚭定に制限を課しおいたす。 その結果、このような展開されたニュヌラルネットワヌクは、䞀連の画像で効果的にトレヌニングできたす。これは、同じ数のパラメヌタヌを䜿甚した同様のアヌキテクチャの盎接ネットワヌクの適切なトレヌニングに必芁な量よりも少なくなりたす。 倧たかに蚀えば、数癟たたは数䞇の画像を䜿甚しお怅子の良いモデルをトレヌニングできたすが、100䞇はできたせん。



今日は、展開されたニュヌラルネットワヌク、たたは少なくずも出力画像を生成するニュヌラルネットワヌクに関連する3぀の珟圚のプロゞェクトに぀いおお話したいず思いたす。 詳现に぀いおはほずんど説明できたせん-それらはリンクやグルヌプの蚘事で入手できたす-しかし、このようなタスクを実行するこずで、このクラスのタスクの柔軟性ず関心が瀺されるこずを願っおいたす。 画像合成にニュヌラルネットワヌクを他にどのように䜿甚できるかに぀いおのアむデアに぀ながるかもしれたせん。







最初のアむデアは、テクスチャの合成ず画像のスタむリングです。 Prismaおよび同様のアプリケヌションで発生するこずず䞀臎するクラスのメ゜ッドに぀いお説明したす。 これらはすべお䞊行しお開発され、Prismaおよび同様のアプリケヌションよりもわずかに進んでいたす。 これらの方法が䜿甚されおいるかどうか-おそらくわからないでしょうが、いく぀かの仮定がありたす。



それはすべお、テクスチャ合成の叀兞的な問題から始たりたす。 コンピュヌタヌグラフィックスの人々は䜕十幎もこれを行っおきたした。 簡単に説明するず、次のように定匏化されたす。テクスチャのサンプルが提䟛され、このサンプルから同じテクスチャの新しいサンプルを生成できる方法を提案する必芁がありたす。



テクスチャを合成するタスクの倧郚分は、テクスチャを比范するタスクにかかっおいたす。 これらの2぀の画像が同様のテクスチャに察応しおいるこず、およびこれら2぀が異なるこずを理解する方法は いく぀かの簡単なアプロヌチ-たずえば、ペアでピクセルごずに3぀の画像を比范したり、ヒストグラムを芋たりするこずは、このペアの類䌌性がこれず同じであるため、成功に぀ながらないこずは明らかです。 倚くの研究者は、テクスチャの類䌌性枬定倀の決定方法、テクスチャ蚘述子の定矩方法に぀いお困惑しおいるため、そのような高床な蚘述子のいく぀かの簡単な枬定倀は、テクスチャが類䌌しおいるかどうかを明確に瀺したす。







1幎半前、あるグルヌプがテュヌビンゲンで突砎口を開いた。 実際、圌らはりェヌブレット統蚈に基づいた以前の方法を䞀般化し、掻性化統蚈に眮き換えたした。 圌女は画像を䜜成し、先史時代の深いネットワヌクを呌び出したす。



通垞の実隓では、分類のために蚓緎された倧芏暡なディヌプニュヌラルネットワヌクを䜿甚したした。 埌に、可胜なオプションがあるこずが刀明したした。特定の方法で初期化された堎合、ネットワヌクはランダムな重みで深くなる可胜性さえありたす。



䜕らかの方法で、統蚈は次のように定矩されたす。 画像を取埗し、ニュヌラルネットワヌクの最初のいく぀かの畳み蟌み局を通過させたす。 このレむダヌでは、マップのセット、むメヌゞF l tを取埗したす。 tはテクスチャサンプルです。 圌の䞀連の画像マップはlレむダヌ䞊にありたす。



さらに、テクスチャ統蚈を考慮したす-䜕らかの方法で、1぀たたは別の芁玠の空間的配眮に関連するパラメヌタをそれ自䜓から陀倖する必芁がありたす。 自然なアプロヌチは、このビュヌでカヌドのすべおのペアを取るこずです。 マップのすべおのペアを取埗し、これらのペア間のすべおのペアワむズスカラヌ積をカりントし、i番目のマップずj番目のマップを取埗し、k番目のむンデックスがすべおの可胜な空間䜍眮を実行し、同様のスカラヌ積を考慮しお、i、j係数、項を取埗したすグラム行列。 この方法で蚈算されたグラムlマトリックスは、テクスチャを衚したす。



さらに、2぀の画像がテクスチャずしお䌌おいるかどうかを比范する必芁がある堎合は、特定のレむダヌセットを取埗したす。1぀のレむダヌにするこずができたす-この量には1぀のメンバヌが含たれたす。 たたは、いく぀かの畳み蟌み局を取るこずができたす。 これらの2぀の画像に぀いお、この方法で蚈算されたグラム行列を比范したす。 芁玠ごずに単玔に比范できたす。



このような統蚈は、2぀のテクスチャが䌌おいるかどうかに぀いお非垞によくわかりたす。スラむドで䜜業する前に提案されたすべおのものよりも優れおいたす。







テクスチャを比范できる非垞に優れた尺床ができたので、ランダム近䌌、ランダムノむズを䜿甚できたす。 珟圚の画像をxで衚し、特定のパタヌンtがあるずしたす。 ニュヌラルネットワヌクを介しお珟圚の状態を枡し、珟圚のグラムマトリックスを確認したす。 さらに、バックプロパゲヌションアルゎリズムを䜿甚しお、ニュヌラルネットワヌク内のグラムマトリックスが、合成するサンプルのグラムマトリックスにもう少し類䌌するように、珟圚の䌝播を倉曎する方法を理解する必芁がありたす。 次第に、ノむズの倚いむメヌゞが石のセットに倉わりたす。







ずおもうたくいきたす。 ここに圌らの蚘事の䟋がありたす。 右偎に繰り返したい䟋があり、巊偎に合成されたテクスチャがありたす。 䞻な問題は䜜業時間です。 小さな画像の堎合、数秒かかりたす。



このアプロヌチの背埌にある考え方は、反転ニュヌラルネットワヌクを䜿甚しお、テクスチャ生成のプロセスを根本的にスピヌドアップするこずです。







このテクスチャサンプル甚に新しく展開されたニュヌラルネットワヌクをトレヌニングするこずが提案されたした。これは、入力でノむズを受け取り、新しいテクスチャサンプルを生成したす。



したがっお、x-以前のアプロヌチではいく぀かの独立倉数であり、それを操䜜しおテクスチャを䜜成しようずしおいた-は、埓属倉数、぀たり新しいニュヌラルネットワヌクの出力になりたす。 独自のパラメヌタヌΞがありたす。 アむデアは、トレヌニングを別のステヌゞに移すこずです。 ここで、任意のノむズベクトルに察しお、結果の画像がサンプルに察応するグラム行列を持぀ように、パラメヌタを調敎しお、ニュヌラルネットワヌクを䜿甚しお孊習したす。



損倱関数は同じたたですが、事前にトレヌニングできる远加モゞュヌルがありたす。 欠点は、トレヌニングの長期段階があるこずですが、プラスはこれですトレヌニング埌、新しいノむズベクトルを合成し、ニュヌラルネットワヌクを通過させるだけで新しいテクスチャサンプルを合成できたす。これには数十ミリ秒かかりたす。



ニュヌラルネットワヌクの最適化は、確率的募配降䞋法によっおも実行されたす。トレヌニングは次のずおりです。ノむズベクトルを合成し、ニュヌラルネットワヌクに枡し、グラム行列を怜蚎し、䞍䞀臎を調べ、このパス党䜓で、ニュヌラルネットワヌクのパラメヌタヌを倉曎する方法を理解したす。



アヌキテクチャの詳现は次のずおりです。スキップしたす。 アヌキテクチャは完党に畳み蟌み型であり、完党に接続されたレむダヌはなく、パラメヌタヌの数はわずかです。 特に、このようなスキヌムでは、ネットワヌクは、提䟛されたテクスチャの䟋を単玔に蚘憶しお、䜕床も発行するこずができたせん。







建築の仕事の䟋。 巊偎には指定されたサンプルがあり、右偎には、䞊、䞋、および䞭倮の行の3぀のニュヌラルネットワヌクのそれぞれがこれらのサンプルに䞎える3぀の䟋がありたす。 そしお、これは以前のように数秒ではなく、数十ミリ秒で起こりたす。 アヌキテクチャ機胜により、任意のサむズのテクスチャを合成できたす。







最適化が必芁な初期アプロヌチず新しいアプロヌチの結果を比范できたす。 結果のテクスチャの品質は同等であるこずがわかりたす。











䞭倮はゎティス法聞き取れない-箄Ed。、最適化を䜿甚しお埗られたテクスチャのサンプルであり、右偎は単玔にノむズベクトルを倉換するこずによっおニュヌラルネットワヌクによっお生成されたテクスチャの䟋です。







実際、䜕が起こるかは次のように解釈できたす結果ずしお埗られるニュヌラルネットワヌクは疑䌌オプティマむザヌであり、䞀郚のノむズベクトルに察しおは、たずえば最適化アプロヌチを䜿甚しお改善できるいく぀かの優れた゜リュヌションを生成したす。 しかし、結果の゜リュヌションは芖芚的にわずかに倧きな損倱関数を持っおいるため、通垞はこれは必芁ありたせんが、芖芚的な品質の芳点では、最適化を継続するこずで埗られるものよりも劣ったり優れたりするこずはありたせん。







興味深いこずに、このアプロヌチは画像を様匏化するために䞀般化できたす。 特定の写真ず特定の芖芚スタむルのサンプルに基づいお、写真ず同じコンテンツずスタむルサンプルず同じ芖芚スタむルを持぀新しい画像が䜜成されるプロセスに぀いお説明しおいたす。



唯䞀の倉曎ニュヌラルネットワヌクは、ノむズベクトルだけでなく、スタむル蚭定が必芁な画像も受信したす。 圌女は、任意のスタむルの䟋に぀いお蚓緎されおいたす。







元の蚘事では、最適化アプロヌチず同等の品質の結果をもたらすアヌキテクチャを構築するこずはできたせんでした。 埌に、この蚘事の最初の著者であるDmitry Ulyanovは、品質を根本的に改善し、最適化アプロヌチに匹敵する様匏化の品質を達成できるアヌキテクチャを発芋したした。



䞊は写真ず芖芚スタむルの䟋、䞋は数十ミリ秒を必芁ずするこのようなニュヌラルネットワヌクのスタむリングの結果、および数秒の最適化が必芁な最適化方法の結果です。







品質ず、どのスタむリングがより成功しおいるかに぀いお話し合うこずができたす。 しかし、私は、この堎合、これはすでに明癜でない質問だず思いたす。 䞊蚘の䟋では、個人的に巊のオプションを奜みたす。 おそらく私は偏芋がありたす。







ここで、おそらくより正しい。







しかし、この堎合、結果は私にずっおたったく予想倖です。 逆展開されたニュヌラルネットワヌクに基づくアプロヌチはより良いスタむリングを達成し、最適化方法は悪いロヌカルミニマムたたはプラトヌのどこかに行き詰たっおいるようです-぀たり、写真を完党に様匏化するこずはできたせん。



定型化に戻りたす。 2番目のプロゞェクトは、次の問題を解決するニュヌラルネットワヌクに接続されおいたす。 私たちは、人の顔の写真を撮っお、圌の芖線をこの写真にリダむレクトできるネットワヌクを構築したかったのです。







なぜこのような゚キゟチックな問題を解決する必芁があったのですか 関連するアプリケヌションが少なくずも2぀あるこずがわかりたす。 私たちにずっおの䞻なこずは、ビデオ䌚議䞭のアむコンタクトを改善するこずです。 おそらく、倚くの人は、Skypeや他のビデオ䌚議サヌビスで話しおいるずきに、カメラず人の顔が堎所によっお分離されおいるため、他の人ずお互いの目を芋るこずができないこずに気付いおいたす。



別のアプリケヌションは、映画の埌凊理です。 あなたには、1分間に100䞇ドルを撃぀スヌパヌスタヌがいたす。 あなたはダブルを撃ったが、このスヌパヌスタヌは間違った方向に芋えた。 そしお、テむクを取り盎すか、ビュヌの方向を線集する必芁がありたす。







この問題を解決するために、倚数のシヌケンスを収集したした。 それらの䞭で、頭の䜍眮、照明を蚘録したした-芖線の方向以倖はすべお。 プロトコルは、人がどこを芋おいるかを远跡できるようなものでした。 各フレヌムは、察応するビュヌの方向でアナりンスされたす。







これにより、同様のデヌタセットから、既知の䟋のペアを抜出できたした。巊右の画像の唯䞀の違いは、ビュヌの方向です。 たずえば、ここでは、それぞれの堎合で、垂盎方向の差は15床です。



私たちは、実際にそのような困難な仕事から、教垫ず䞀緒に教えるずいう叀兞的な仕事に移行したした。 巊偎にサンプルがあり、右偎にサンプルを生成する必芁がありたす。 残念なこずに、セルゲむが蚀ったように、ブラックボックスの助けを借りおこの問題を解決するだけでは倱敗したす。 , - . , , . . , — , .







, , . , . . , , , . spatial transformer layer. , , torch .



, . , , , , , GT.



. , — , — , . , — , . , , .



. , , . , , , .







. - 15 . .







.







. , -, .



, . , . , .



. , — — . . , , . , QR-, -.



, . - , , , .



— .



. . , , , , . , , .



, . , - . — , , . .



. , .



— . . , , .



, . , , — .







. , , , . , , , , - .



, — - , .



. , .



, , .







, , — .







, , . , — . : , , , . , QR-, , , . — .







. .



. , , QR-, , - .







. . , . , , — , . , , . . ありがずう



All Articles