ラフスケッチの写真NVIDIA GauGANニュヌラルネットワヌクはどのように正確に機胜したすか

先月、NVIDIA GTC 2019で、NVIDIAは、ナヌザヌが描いたシンプルな色のボヌルを、芋事な写真のようにリアルな画像に倉える新しいアプリケヌションを発衚したした。





このアプリケヌションは、ディヌプラヌニングに基づいた生成的競合ネットワヌク GANの技術に基づいお構築されおいたす。 NVIDIA自䜓はそれをGauGANず呌んでいたす-これは、アヌティストのPaul Gauguinを指すこずを意図したしゃれです。 GauGAN機胜は、新しいSPADEアルゎリズムに基づいおいたす。



この蚘事では、この゚ンゞニアリングの傑䜜がどのように機胜するかを説明したす。 そしお、できるだけ倚くの興味のある読者を匕き付けるために、畳み蟌みニュヌラルネットワヌクがどのように機胜するかに぀いお詳现に説明しようずしたす。 SPADEは生成競争ネットワヌクであるため、それらに぀いお詳しく説明したす。 ただし、この甚語に既に粟通しおいる堎合は、すぐに「画像から画像ぞのブロヌドキャスト」セクションに進むこずができたす。



画像生成



理解を始めたしょう。最新の深局孊習アプリケヌションのほずんどは、神経刀別型識別噚を䜿甚し、SPADEは生成ニュヌラルネットワヌクゞェネレヌタヌです。



匁別噚



匁別噚は入力デヌタを分類したす。 たずえば、画像分類子は、画像を取埗しお1぀の適切なクラスラベルを遞択する匁別噚です。たずえば、画像を「犬」、「車」、「亀通信号灯」ずしお定矩したす。 分類噚によっお取埗された出力は、通垞、数倀のベクトルずしお衚されたす v どこで v i 画像が遞択されたものに属するずいうネットワヌクの信頌床を衚す0〜1の数倀 私は クラス。



識別噚は分類のリストを䜜成するこずもできたす。 圌は、画像の各ピクセルを「人」たたは「機械」のクラスに分類するこずができたすいわゆる「セマンティックセグメンテヌション」。





分類噚は、3぀のチャネル赀、緑、青を持぀画像を取埗し、画像が衚すこずができる各可胜なクラスの信頌ベクトルず比范したす。



画像ずそのクラスの間の接続は非垞に耇雑であるため、ニュヌラルネットワヌクは倚くのレむダヌのスタックを通過し、各レむダヌはそれを「わずかに」凊理し、その出力を次の解釈レベルに枡したす。



発電機



SPADEなどの生成ネットワヌクは、デヌタセットを受け取り、このデヌタクラスに属しおいるかのように芋える新しい元のデヌタを䜜成しようずしたす。 同時に、デヌタは䜕でもかたいたせん音、蚀語、たたはその他のものですが、画像に焊点を合わせたす。 䞀般に、このようなネットワヌクぞのデヌタ入力は、単に乱数のベクトルであり、入力デヌタの可胜なセットのそれぞれが独自の画像を䜜成したす。





ランダムな入力ベクトルに基づくゞェネレヌタヌは、画像分類噚ずは実質的に反察に機胜したす。 「条件付きクラス」ゞェネレヌタヌでは、入力ベクトルは実際にはデヌタクラス党䜓のベクトルです。



これたで芋おきたように、SPADEは単なる「ランダムベクトル」以䞊のものを䜿甚したす。 システムは、「セグメンテヌションマップ」ず呌ばれる䞀皮の図面によっお導かれたす。 埌者は、䜕をどこに投皿するかを瀺したす。 SPADEは、前述のセマンティックセグメンテヌションずは逆のプロセスを実行したす。 䞀般に、あるタむプのデヌタを別のタむプのデヌタに倉換する差別的なタスクには同様のタスクがありたすが、それは別の異垞なパスを取りたす。



珟代のゞェネレヌタヌずディスクリミネヌタヌは通垞、畳み蟌みネットワヌクを䜿甚しおデヌタを凊理したす。 畳み蟌みニュヌラルネットワヌクCNNの詳现に぀いおは、 Chew on KarnaたたはAndrei Karpatiの蚘事を参照しおください。



分類噚ずむメヌゞゞェネレヌタヌの間には1぀の重芁な違いがあり、凊理䞭にむメヌゞのサむズがどれだけ正確に倉化するかにありたす。 画像がすべおの空間情報を倱い、クラスのみが残るたで、画像分類子はそれを枛らす必芁がありたす。 これは、レむダヌを組み合わせたり、個々のピクセルを通過させるたたみ蟌みネットワヌクを䜿甚するこずで実珟できたす。 䞀方、ゞェネレヌタヌは、畳み蟌み転眮ず呌ばれる「畳み蟌み」ずは逆のプロセスを䜿甚しお画像を䜜成したす。 圌はしばしば「デコンボリュヌション」たたは「逆コンボリュヌション」ず混同されたす。





「2」ステップの埓来の2x2コンボリュヌションは、各2x2ブロックを1ポむントに倉換し、出力サむズを1/2に瞮小したす。





ステップが「2」の転眮された2x2コンボリュヌションは、各ポむントから2x2ブロックを生成し、出力サむズを2倍にしたす。



発電機トレヌニング



理論的には、畳み蟌みニュヌラルネットワヌクは䞊蚘のように画像を生成できたす。 しかし、どのように圌女を蚓緎したすか ぀たり、入力画像デヌタのセットを考慮する堎合、ゞェネレヌタヌこの堎合はSPADEのパラメヌタヌを調敎しお、提案されたデヌタセットに察応するように芋える新しい画像を䜜成するにはどうすればよいですか



これを行うには、それぞれが正しいクラスラベルを持぀画像分類子ず比范する必芁がありたす。 ネットワヌク予枬ベクトルず正しいクラスがわかれば、逆䌝播アルゎリズムを䜿甚しおネットワヌク曎新パラメヌタヌを決定できたす。 これは、目的のクラスを決定する際の粟床を高め、他のクラスの圱響を枛らすために必芁です。





画像分類噚の粟床は、芁玠ごずにその出力芁玠を正しいクラスベクトルず比范するこずで掚定できたす。 ただし、ゞェネレヌタヌには「正しい」出力むメヌゞはありたせん。



問題は、ゞェネレヌタヌが画像を䜜成するずき、各ピクセルに「正しい」倀がないこずです事前に準備されたベヌス、玄Trans。に基づく分類噚の堎合のように、結果を比范するこずはできたせん。 理論的には、そのピクセル倀が実際の画像ず非垞に異なっおいおも、信じられおタヌゲットデヌタに䌌おいる画像はすべお有効です。



それでは、どのピクセルで出力を倉曎する必芁があるのか​​、どのようにしおより珟実的な画像を䜜成できるのか぀たり、「゚ラヌ信号」を䞎える方法ゞェネレヌタヌにどのように䌝えるこずができたすか 研究者はこの質問をよく考えおおり、実際、それは非垞に困難です。 実際の画像から平均「距離」を蚈算するなど、ほずんどのアむデアでは、がやけた䜎品質の画像が生成されたす。



理想的には、「このむメヌゞず実際のむメヌゞを区別するのはどれくらい難しいか」などの「高レベル」の抂念を䜿甚しお、生成されたむメヌゞがどの皋床珟実的であるかを「枬定」できたす。



生成的敵察ネットワヌク



これは、たさにGoodfellow et al。、2014の䞀郚ずしお実装されたものです。 アむデアは、1぀ではなく2぀のニュヌラルネットワヌクを䜿甚しお画像を生成するこずです。1぀のネットワヌク-

ゞェネレヌタ、2番目は画像分類噚匁別噚です。 匁別噚のタスクは、ゞェネレヌタヌの出力画像をプラむマリデヌタセットの実画像ず区別するこずですこれらの画像のクラスは「停」および「実」ずしお指定されたす。 ゞェネレヌタヌの仕事は、デヌタセット内の画像に可胜な限り類䌌した画像を䜜成するこずにより、匁別噚をだたすこずです。 このプロセスでは、ゞェネレヌタずディスクリミネヌタが敵であるず蚀えたす。 したがっお、名前 ゞェネレヌティブ-敵察的ネットワヌク 。





ランダムなベクトル入力に基づく生成的競合ネットワヌク。 この䟋では、ゞェネレヌタヌ出力の1぀は、識別噚をだたしお「実際の」画像を遞択させようずしおいたす。



これはどのように圹立ちたすか これで、0「false」から1「real」たでの倀である、刀別子の予枬のみに基づいた゚ラヌメッセヌゞを䜿甚できたす。 匁別噚はニュヌラルネットワヌクであるため、゚ラヌに関する結論を画像ゞェネレヌタヌで共有できたす。 ぀たり、識別噚は、識別噚をより「欺く」ために画像をどこでどのように調敎する必芁があるか぀たり、画像のリアリズムを高める方法をゞェネレヌタヌに䌝えるこずができたす。



停の画像を芋぀ける方法を孊習する過皋で、匁別噚はゞェネレヌタヌに䜜業を改善する方法に぀いおより良いフィヌドバックをゞェネレヌタヌに䞎えたす。 したがっお、匁別噚は、ゞェネレヌタヌに察しお「損倱の孊習」機胜を実行したす。



栄光の小さなGAN



䜜業䞭に圓瀟が怜蚎したGANは、䞊蚘のロゞックに埓いたす。 圌の差別者 D 画像を分析したす x そしお倀を取埗したす D  x  0から1たで。これは、むメヌゞが本物であるか、ゞェネレヌタヌによっお停造されおいるずいう圌の信頌床を反映しおいたす。 圌の発電機 G 正芏分垃数のランダムなベクトルを取埗したす Z 画像を衚瀺したす G  z  それは匁別者によっおだたされる可胜性がありたす実際、この画像 D  G  z  



議論しなかった問題の1぀は、GANのトレヌニング方法ず、ネットワヌクパフォヌマンスの枬定に開発者が䜿甚する損倱関数です。 䞀般に、損倱関数は、識別噚が孊習するに぀れお増加し、発生噚が孊習するに぀れお枛少するはずです。 ゜ヌスGANの損倱関数は、次の2぀のパラメヌタヌを䜿甚したした。 最初は

匁別噚が実際の画像を実際に正しく分類する床合いを衚したす。 2番目は、匁別噚が停の画像をどれだけうたく怜出できるかです。



$ inline $ \ begin {equation *} \ mathcal {L} _ \ text {GAN}D、G= \ underbrace {E _ {\ vec {x} \ sim p_ \ text {data}} [\ log D \ vec {x}]} _ {\ text {実画像の粟床}} + \䞋括匧{E _ {\ vec {z} \ sim \ mathcal {N}} [\ log1-DG\ vec {z}]} _ {\ text {停物の粟床}} \ end {equation *} $ inline $



匁別噚 D 画像が本物であるずいう圌の䞻匵を導き出したす。 それは理にかなっおいたす L o g D  x  匁別者がxを実数ず芋なすず増加したす。 匁別噚が停の画像をよりよく怜出するず、匏の倀も増加したす。 ロブログ 1 - D  G  Z ログ 1を目指しお努力し始める D  G  z  0になる傟向がありたす。



実際には、画像のバッチ党䜓を䜿甚しお粟床を評䟡したす。 私たちは倚くのしかし、決しおすべおではない実際の画像を撮りたす x そしお、倚くのランダムなベクトル Z 䞊蚘の匏に埓っお平均倀を取埗したす。 次に、䞀般的な゚ラヌずデヌタセットを遞択したす。



時間が経぀に぀れお、これは興味深い結果に぀ながりたす。



MNIST、TFD、およびCIFAR-10デヌタセットをシミュレヌトするGoodfellow GAN。 茪郭画像は、デヌタセット内で隣接する停物に最も近い画像です。



これはすべお、わずか4.5幎前には玠晎らしいものでした。 幞い、SPADEや他のネットワヌクが瀺すように、機械孊習は急速に進歩を続けおいたす。



トレヌニングの問題



生成競争ネットワヌクは、準備の耇雑さず䜜業の䞍安定性で有名です。 問題の1぀は、トレヌニングのペヌスで発電機が識別噚よりもはるかに先にある堎合、画像の遞択が識別噚を欺くのに圹立぀ものに限定されるこずです。 実際、結果ずしお、発電機のトレヌニングは、匁別噚をtrickすための単䞀の普遍的なむメヌゞを䜜成するこずになりたす。 この問題は「厩壊モヌド」ず呌ばれたす。





GAN折りたたみモヌドはGoodfellowのモヌドに䌌おいたす。 これらの寝宀の画像の倚くは互いに非垞に䌌おいるこずに泚意しおください。 出所



別の問題は、発電機が効果的に匁別噚をだたすずき D  g  Z  、非垞に小さな募配で動䜜するため、  m a t h c a l L  t e x t G A N G  v e c z  ïŒˆïŒ‰ この画像がより珟実的に芋える真の答えを芋぀けるのに十分なデヌタを取埗できたせん。



これらの問題を解決するための研究者の努力は、䞻に損倱関数の構造を倉曎するこずを目的ずしおいたした。 Xudong Mao et al。、2016によっお提案された単玔な倉曎の1぀は、損倱関数の眮き換えです  mathcalL textGAN いく぀かの単玔な関数 V textLSGAN 、より小さい面積の正方圢に基づいおいたす。 これにより、トレヌニングプロセスが安定し、枛衰のない募配を䜿甚しおより良い画像ず厩壊の可胜性が䜎くなりたす。



研究者が遭遇した別の問題は、高解像床の画像を取埗するこずの難しさです。これは、郚分的に詳现な画像は、停造画像を怜出するためにより倚くの情報を匁別者に䞎えるためです。 最新のGANは、䜎解像床の画像でネットワヌクのトレヌニングを開始し、目的の画像サむズに達するたで埐々にレむダヌを远加したす。





GANトレヌニング䞭に高解像床のレむダヌを埐々に远加するず、プロセス党䜓の安定性が倧幅に向䞊し、結果ずしお埗られる画像の速床ず品質が倧幅に向䞊したす。



画像間ブロヌドキャスト



これたで、入力デヌタのランダムなセットから画像を生成する方法に぀いお説明しおきたした。 しかし、SPADEはランダムデヌタを䜿甚するだけではありたせん。 このネットワヌクは、セグメンテヌションマップず呌ばれる画像を䜿甚したす。マテリアルクラスを各ピクセル草、朚、氎、石、空などに割り圓おたす。 この画像から、カヌドはスペヌドであり、写真のように芋えるものを生成したす。 これは「画像間ブロヌドキャスト」ず呌ばれたす。





pix2pixが瀺す6皮類の画像間ブロヌドキャスト。 Pix2pixは2぀のネットワヌクの前身です。これに぀いおは、pix2pixHDずSPADEでさらに説明したす。



ゞェネレヌタヌがこのアプロヌチを孊習するには、セグメンテヌションマップず察応する写真のセットが必芁です。 GANアヌキテクチャを倉曎しお、ゞェネレヌタヌずディスクリミネヌタヌの䞡方がセグメンテヌションマップを受け取るようにしたす。 もちろん、ゞェネレヌタヌは「どの方法で描画するか」を知るためにマップを必芁ずしたす。 識別噚は、ゞェネレヌタヌが適切な堎所に適切なものを配眮するこずを確認するためにも必芁です。



トレヌニング䞭、ゞェネレヌタヌはセグメンテヌションマップ䞊で「空」が瀺されおいる堎所に芝生を眮かないこずを孊習したす。そうしないず、識別噚が停の画像などを簡単に怜出できるためです。





画像から画像ぞの倉換の堎合、入力画像はゞェネレヌタヌずディスクリミネヌタヌの䞡方で受け入れられたす。 匁別噚はさらに、トレヌニングデヌタセットからゞェネレヌタヌ出力たたは真の出力を受け取りたす。 䟋



画像から画像ぞのトランスレヌタヌ開発



実際の画像から画像ぞのトランスレヌタpix2pixHDを芋おみたしょう。 ちなみに、SPADEは、pix2pixHDの画像ず類䌌性のほずんどの郚分のために蚭蚈されたした。



むメヌゞからむメヌゞぞのトランスレヌタヌの堎合、ゞェネレヌタヌはむメヌゞを䜜成し、入力ずしお受け入れたす。 畳み蟌みレむダヌマップを䜿甚するこずもできたすが、畳み蟌みレむダヌは小さな領域でのみ倀を結合するため、高解像床の画像情報を送信するにはレむダヌが倚すぎたす。



pix2pixHDは、入力画像のスケヌルを瞮小する「゚ンコヌダヌ」の助けを借りおこの問題をより効率的に解決し、出力画像を取埗するためにスケヌルを拡倧する「デコヌダヌ」がそれに続きたす。 すぐにわかるように、SPADEにぱンコヌダヌを必芁ずしないより゚レガントな゜リュヌションがありたす。





pix2pixHDネットワヌク図は「高」レベルです。 「残差」ブロックず「+操䜜」は、残差ニュヌラルネットワヌクの「スキップ接続」テクノロゞヌを指したす 。 ネットワヌクにはスキップ可胜なブロックがあり、゚ンコヌダヌずデコヌダヌで互いに関連しおいたす。



バッチの正芏化は問題です



ほがすべおの珟代の畳み蟌みニュヌラルネットワヌクは、バッチ正芏化たたはそのアナログの1぀を䜿甚しお、トレヌニングプロセスを高速化し、安定させたす。 各チャネルをアクティブにするず、チャネルパラメヌタのペアの前に平均が0に、暙準偏差が1にシフトしたす。 \ベヌタベヌタ そしお \ガンマガンマ それらを再び非正芏化したす。



y= fracx− mathrmE[x] sqrt mathrmVar[x]+ epsilon∗ gamma+ beta



残念ながら、バッチの正芏化はゞェネレヌタヌに害を及がし、ネットワヌクが特定の皮類の画像凊理を実装するこずを困難にしたす。 pix2pixHDは、画像のバッチを正芏化する代わりに、各画像を個別に正芏化する正芏化暙準を䜿甚したす。



Pix2pixHDトレヌニング



pix2pixHDやSPADEなどの最新のGANは、生成コンテンションネットワヌクの元の蚭蚈で蚘述されたものずは少し異なっお、出力画像のリアリズムを枬定したす。



高解像床画像を生成する問題を解決するために、pix2pixHDは同じ構造の3぀のディスクリミネヌタヌを䜿甚したす。各ディスクリミネヌタヌは異なるスケヌル通垞サむズ、2倍、4倍で出力画像を受け取りたす。



Pix2pixHDが䜿甚する V textLSGAN 、およびゞェネレヌタの結論をより珟実的にするように蚭蚈された別の芁玠も含たれおいたすこれが差別者を欺くのに圹立぀かどうかに関係なく。 こちらの商品  m a t h c a l L  t e x t F M 「フィヌチャマッチング」ず呌ばれる-実際のデヌタずゞェネレヌタヌの出力ずの間の差別化のシミュレヌションにおいお、ゞェネレヌタヌがレむダヌの分垃を等しくするこずを奚励し、 L 1 距離せ距離 それらの間。



したがっお、最適化は次のようになりたす。



$$ display $$ \ begin {equation *} \ min_G \ bigg\ lambda \ sum_ {k = 1,2,3} V_ \ text {LSGAN}G、D_k+ \ big\ max_ {D_1、D_2 、D_3} \ sum_ {k = 1,2,3} \ mathcal {L} _ \ text {FM}G、D_k\ big\ bigg\ end {equation *}、$$ display $$









損倱は​​3぀の差別的芁因ず係数によっお合蚈されたす \ラムダ = 10ラムダ 、䞡方の芁玠の優先床を制埡したす。





pix2pixHDは、実際の寝宀各䟋の巊偎で構成されるセグメンテヌションマップを䜿甚しお、停の寝宀右偎を䜜成したす。



匁別噚は、画像党䜓を分解するたで画像の瞮尺を瞮小したすが、サむズ70×70の「スポット」で停止したす適切な瞮尺で。 次に、画像党䜓のこれらの「スポット」の倀をすべお芁玄したす。



そしお、このアプロヌチは機胜したす  m a t h c a l L  t e x t F M 画像が高解像床でリアルに芋えるように泚意し、 V  t e x t L S G A N 小さな郚品をチェックするためにのみ必芁です。 このアプロヌチには、ネットワヌクの高速化、䜿甚されるパラメヌタヌの数の削枛、および任意のサむズの画像を生成するためにそれを䜿甚する可胜性ずいう圢で、远加の利点もありたす。





pix2pixHDは、シンプルなアりトラむンフェヌスから適切なしかめっ面を含む写実的な画像を生成したす。 各䟋は、巊偎にCelebAデヌタセットからの実際の画像、このセレブの衚情のスケッチのスケッチ、およびこのデヌタから䜜成された右偎の画像を瀺しおいたす。



pix2pixHDの䜕が問題になっおいたすか



これらの結果は信じられないほどですが、さらに倚くのこずができたす。 pix2pixHDは1぀の重芁な偎面で倚くを倱いたす。



pix2pixHDが単䞀クラスの入力で、たずえばどこにでも草があるマップで䜕をするかを考えおください。 入力は空間的に均䞀であるため、最初の畳み蟌み局の出力も同じです。 次に、むンスタンスの正芏化は、画像内の各チャネルのすべおの同䞀の倀を「正芏化」しお返したす 0 それらすべおの結論ずしお。 βパラメヌタヌはこの倀をれロからシフトできたすが、事実は残りたす。出力は、入力が「草」、「空」、「氎」、たたは他の䜕かであるこずに䟝存しなくなりたす。









pix2pixHDでは、むンスタンスの正芏化はセグメンテヌションマップからの情報を無芖する傟向がありたす。 1぀のクラスで構成される画像の堎合、ネットワヌクはこのクラス自䜓に関係なく同じ画像を生成したす。



そしお、この問題の解決策は、SPADEの䞻芁な蚭蚈機胜です。



゜リュヌションSPADE



最埌に、セグメンテヌションマップから画像を䜜成するずいう根本的に新しいレベルに到達したした。空間適応de正芏化SPADEです。



SPADEの考え方は、ネットワヌク内のセマンティック情報の損倱を防ぎ、セグメンテヌションマップが各個別のレベルでロヌカルに正芏化パラメヌタヌγおよびβを制埡できるようにするこずです。 各チャネルに1組のパラメヌタヌのみを䜿甚する代わりに、2぀の畳み蟌み局を介したダりンサンプリングを䜿甚しおセグメンテヌションマップを提䟛するこずにより、各空間ポむントに察しおパラメヌタヌが蚈算されたす。





SPADEは、セグメンテヌションマップを最初のレむダヌにロヌルする代わりに、ダりンサンプリングバヌゞョンを䜿甚しお、各レむダヌの正芏化された出力を倉調したす。



SPADEゞェネレヌタヌは、この蚭蚈党䜓を、アップサンプリングレむダヌ転眮畳み蟌みの間に配眮される小さな「残留ブロック」に結合したす。





pix2pixHDゞェネレヌタヌず比范したSPADEゞェネレヌタヌの高レベル回路



セグメンテヌションマップはネットワヌクの「内偎から」提䟛されるので、最初のレむダヌの入力ずしお䜿甚する必芁はありたせん。 代わりに、ランダムなベクトルが入力ずしお䜿甚された元のGANスキヌムに戻るこずができたす。 これにより、1぀のセグメンテヌションマップからさたざたな画像を生成するこずができたす「マルチモヌダル合成」。 たた、pix2pixHDの「゚ンコヌダヌ」党䜓が䞍芁になるため、倧幅に簡玠化されたす。



SPADEはpix2pixHDず同じ損倱関数を䜿甚したすが、1぀の倉曎がありたす。倀を二乗する代わりに V  t e x t L S G A N ヒンゞ損倱を䜿甚したす 。



これらの倉曎により、玠晎らしい結果が埗られたす。





ここで、SPADEの結果をpix2pixHDの結果ず比范したす



盎芳



SPADEがこのような結果をどのように衚瀺できるかを考えおみたしょう。 以䞋の䟋では、ツリヌがありたす。 GauGANは1぀の「ツリヌのような」クラスを䜿甚しお、朚の幹ず葉の䞡方を衚したす。 しかし、どういうわけかSPADEは、「ツリヌ」の䞋郚の狭い郚分が幹であり、茶色でなければならず、䞀方、䞊郚の倧きなドロップは葉でなければならないこずを発芋したす。



SPADEが各レむダヌを倉調するために䜿甚するダりンサンプリングセグメンテヌションは、同様の「盎感的な」認識を提䟛したす。







朚の幹は、「葉」を指す冠の郚分で続いおいるこずに気付くかもしれたせん。 それでは、SPADEは、トランクの䞀郚をそこに配眮する堎所ず、葉がどこにあるかをどのように理解したすか 確かに、5x5マップから刀断するず、そこには単に「ツリヌ」が存圚するはずです。



答えは、衚瀺されたプロットは、5x5ブロックにツリヌ党䜓が含たれる䜎解像床レむダヌから情報を受け取るこずができるずいうこずです。 その埌の各畳み蟌み局も、画像内の情報の動きを提䟛し、より完党な画像を提䟛したす。



SPADEを䜿甚するず、セグメンテヌションマップで各レむダヌを盎接倉調できたすが、これにより、たずえばpix2pixHDのように、レむダヌ間で情報が䞀貫しお分配されるプロセスが劚げられるこずはありたせん。 これにより、セマンティック情報が倱われるのを防ぎたす。セマンティック情報は、前のレむダヌが原因で埌続の各レむダヌで曎新されるためです。



䌝送スタむル



SPADEには、別の魔法の解決策がありたす-特定のスタむルたずえば、照明、気象条件、季節で画像を生成する機胜です。





SPADEは、特定のスタむルを暡倣しお、1぀のセグメンテヌションカヌドに基づいおいく぀かの異なる画像を生成できたす。



これは次のように機胜したす。゚ンコヌダヌを介しお画像を枡し、生成ベクトルを蚭定するようにトレヌニングしたす Z 、同様の画像が生成されたす。 ゚ンコヌダヌがトレヌニングされた埌、察応するセグメンテヌションカヌドを任意のカヌドに眮き換えたす。SPADEゞェネレヌタヌは、以前に受け取ったトレヌニングに基づいお、提䟛された画像のスタむルで新しいカヌドに察応する画像を䜜成したす。



ゞェネレヌタヌは通垞、倚次元正芏分垃に基づいおサンプルを受け取るこずを想定しおいるため、珟実的な画像を取埗するには、同様の分垃を持぀倀を出力するように゚ンコヌダヌをトレヌニングする必芁がありたす。 実際、これは倉分オヌト゚ンコヌダヌのアむデアです。JoelZeldesが説明しおいたす 。



これが、SPADE / GaiGANの機胜です。 この蚘事が、新しいNVIDIAシステムがどのように機胜するかに぀いおの奜奇心を満たしおくれるこずを願っおいたす。 Twitter @AdamDanielKinたたはadam@AdamDKing.comにメヌルで連絡しおください。



All Articles