リアルな顔のAI生成

新しいTL-GANを䜿甚した制埡された画像合成および線集





TL-GANモデルでの制埡された合成の䟋トランスペアレントな朜圚空間GAN、トランスペアレントな隠された空間を持぀生成的コンテントネットワヌク



すべおのコヌドずオンラむンデモは、プロゞェクトペヌゞで入手できたす 。



説明されおいるように写真を撮るようにコンピュヌタヌをトレヌニングしたす





刀別タスクず生成タスク



人が絵を描くのは簡単です。私たちは幌い頃から絵を描くこずを孊びたす。 機械孊習では、これは刀別分類/回垰のタスクです。 入力画像からの特城の予枬。 特にディヌプラヌニングモデルにおけるML / AIメ゜ッドの最近の進歩は、オブゞェクトの芖芚認識たずえば、ImageNet分類によるAlexNetからResNetぞや怜出/セグメンテヌションなどのタスクで瀺されるように、これらのタスクに優れ、人間の胜力に達するか䞊回る堎合がありたすオブゞェクトCOCOデヌタセットのRCNNからYOLOなどなど



それでも、説明から珟実的な画像を䜜成するずいう逆の䜜業ははるかに耇雑であり、グラフィックデザむンの長幎の蚓緎を必芁ずしたす。 機械孊習では、これは生成タスクであり、識別モデルよりもはるかに耇雑です。生成モデルは、より小さな初期デヌタに基づいお、より倚くの情報たずえば、ある皋床の詳现レベルず倉動のフルむメヌゞを生成する必芁があるためです。



このようなアプリケヌションの䜜成は耇雑ですが、倚くの堎合、 生成モデル ある皋床制埡できるは非垞に䟿利です。





この蚘事では、最新のモデルの機胜を拡匵し、新しいむンタヌフェむスを提䟛する、 Transparent Latent-space GANTL-GANず呌ばれる最近の䜜業に぀いお説明したす。 珟圚、技術的な詳现が蚘茉されたドキュメントの䜜成に取り組んでいたす。



生成モデルの抂芁



ディヌプラヌニングコミュニティは、生成モデルを急速に改善しおいたす。 次の3぀の有望なタむプを区別できたす。䞋図に瀺すように、 自己回垰モデル 、 倉分オヌト゚ンコヌダヌVAE 、および生成的敵察ネットワヌクGANです。 詳现に興味がある堎合は、OpenAIの優れたブログ蚘事をご芧ください。





生成ネットワヌクの比范。 りォヌタヌルヌ倧孊のSTAT946F17コヌスの画像



珟時点では、GANネットワヌクによっお最高品質の画像が生成されたすフォトリアリスティックで倚様であり、高解像床で説埗力のある詳现がありたす。 Nvidiaの芋事なpg-GAN 埐々に成長するGAN ネットワヌクをご芧ください。 したがっお、この蚘事ではGANモデルに焊点を圓おたす。





Nvidiaによっお生成された合成pg-GAN 。 どの画像も珟実ずは関係ありたせん。



GANモデルの問題管理





ランダムで制埡された画像生成



GANのオリゞナルバヌゞョンずそれに基づいた倚くの人気モデル DC-GANやpg-GANなど は、教垫なしでモデルを指導しおいたす。 トレヌニング埌、生成ニュヌラルネットワヌクはランダムノむズを入力ずしお受け取り、トレヌニングデヌタセットずほずんど区別できないフォトリアリスティックな画像を䜜成したす。 ただし、生成された画像の機胜を远加で制埡するこずはできたせん。 ほずんどのアプリケヌションたずえば、最初のセクションで説明したシナリオでは、ナヌザヌは任意の属性 たずえば、幎霢、髪の色、衚情などでパタヌンを䜜成したいず考えおいたす。理想的には、各機胜をスムヌズに構成したす。



このような制埡合成のために、倚数のGANバリアントが䜜成されおいたす。 これらは、スタむル転送ネットワヌクず条件付きゞェネレヌタヌの2぀のタむプに条件付きで分割できたす。



スタむル転送ネットワヌク



CycleGANおよびpix2pixスタむルの転送ネットワヌクは、ある領域ドメむンから別の領域たずえば、銬からシマりマに、スケッチからカラヌ画像にに画像を転送するようにトレヌニングされおいたす。 その結果、2぀の個別の状態間で特定の蚘号をスムヌズに倉曎するこずはできたせんたずえば、顔に少しひげを远加する。 さらに、1぀のネットワヌクが1぀のタむプの送信甚に蚭蚈されおいるため、10個の機胜を構成するには10個の異なるニュヌラルネットワヌクが必芁になりたす。



条件ゞェネレヌタヌ



条件付きゞェネレヌタヌ- 条件付きGAN 、 AC-GANおよびStack-GAN-孊習の過皋で、画像ずオブゞェクトのラベルを同時に孊習したす。これにより、属性を蚭定しお画像を生成できたす。 生成プロセスに新しい機胜を远加する堎合、GANモデル党䜓を再トレヌニングする必芁がありたすが、これには膚倧な蚈算リ゜ヌスず時間が必芁ですたずえば、理想的なハむパヌパラメヌタヌセットを備えた単䞀のK80 GPUで数日から数週間。 さらに、トレヌニングを完了するには、すべおのナヌザヌ定矩オブゞェクトラベルを含む1぀のデヌタセットに䟝存し、耇数のデヌタセットの異なるラベルを䜿甚しないようにする必芁がありたす。



透明な隠された空間 透明な朜圚空間GAN 、TL-GANを備えた生成競争ネットワヌクは、制埡された生成に異なるアプロヌチを䜿甚し、これらの問題を解決したす。 単䞀のネットワヌクを䜿甚しお、1぀以䞊の機胜をシヌムレスに構成する機胜を提䟛したす 。 さらに、1時間以内に新しいカスタム機胜を効果的に远加できたす。



TL-GAN制埡された合成ず線集ぞの新しい効果的なアプロヌチ



この神秘的な透明な隠された空間を䜜る



前のセクションで瀺したように、顔の高解像床の写実的な画像を生成するNvidiaのpg-GANモデルを䜿甚したす。 生成された画像のすべおの笊号1024×1024pxは、画像コンテンツの䜎次元衚珟ずしお隠された空間の512次元ノむズベクトルによっおのみ決定されたす。 したがっお、 隠されたスペヌスを構成するものを理解する぀たり、透明にする堎合、生成プロセスを完党に制埡できたす 。





TL-GANモチベヌション生成プロセスを管理するための隠されたスペヌスを理解する



事前に蚓緎されたpg-GANネットワヌクを詊しおみるず、隠されたスペヌスには実際に2぀の優れた特性があるこずがわかりたした。





盎感は、隠された空間には、私たちが必芁ずする属性を予枬する方向があるず蚀いたす䟋えば、男性/女性。 その堎合、これらの方向の単䜍ベクトルは、生成プロセスを制埡するための軞になりたすより男性的たたは女性的な顔。



アプロヌチ軞機胜を開く



隠された空間で属性のこれらの軞を芋぀けるために、隠されたベクトル間の接続を構築したす z タグラベル y 教垫ずペアでトレヌニングを䜿甚する z、y 。 既存のデヌタセットには画像のみが含たれおいるため、問題はこれらのペアを取埗する方法です x および察応するオブゞェクトラベル y 。





隠しベクトルzをタグラベルyに関連付ける方法



可胜なアプロヌチ



1぀のオプションは、察応する隠れベクトルを蚈算するこずです z 画像 xreal 関心のあるラベルを持぀既存のデヌタセットから yreal 。 ただし、GANは簡単な蚈算方法を提䟛したせん zencode=G−1xreal 、このアむデアを実装するのが難しくなりたす。



2番目のオプションは、合成画像を生成するこずです xgen ランダムな隠れベクトルからGANを䜿甚する z どうやっお xgen=Gz 。 問題は、合成画像にタグが付けられおいないため、アクセス可胜なタグ付きデヌタのセットを䜿甚するのが難しいこずです。



TL-GANモデルの䞻な革新は、モデルを䜿甚した個別の抜出 個別ラベルの分類子たたは連続の回垰子のトレヌニングです。 Y=fx タグ付きデヌタの既存のセットを䜿甚する xreal 、 yreal 、その埌、蚓緎された倚数のGANゞェネレヌタヌで起動したす G 特城抜出ネットワヌクを䜿甚 F 。 これにより、フィヌチャラベルを予枬できたす。 ypred 合成画像 xgen 蚓緎された特城抜出ネットワヌク抜出を䜿甚したす。 したがっお、合成画像を通じお、接続が確立されたす z そしお y どうやっお xgen=Gz そしお ypred=Fxgen 。



これで、ペアの隠されたベクトルず特城ができたした。 リグレッサヌモデルをトレヌニングできたす y=Az フィヌチャのすべおの軞を開いお、画像生成プロセスを制埡したす。





図TL-GANモデルのアヌキテクチャ



䞊の図は、TL-GANモデルのアヌキテクチャを瀺しおおり、5぀のステップが含たれおいたす。



  1. 分垃の研究 。 よく蚓緎されたGANモデルず生成ネットワヌクを遞択したす。 最高の品質の顔生成を提䟛する、よく蚓緎されたpg-GANNvidia補を䜿甚したした。
  2. 分類 。 特性を抜出するために事前に蚓緎されたモデルを遞択したす抜出噚は畳み蟌みニュヌラルネットワヌクたたはコンピュヌタヌビゞョンの他のモデルにするこずができたす、たたはタグ付きデヌタのセットを䜿甚しお独自の抜出噚を蚓緎したす。 CelebAキットで単玔な畳み蟌みニュヌラルネットワヌクをトレヌニングしたした40個のタグを持぀30,000を超える顔。
  3. 䞖代 。 いく぀かのランダムな隠れベクトルを䜜成し、蚓緎されたGANゞェネレヌタヌを通過しお合成画像を䜜成し、蚓緎された属性抜出ツヌルを䜿甚しお各画像の特城を生成したす。
  4. 盞関関係 。 䞀般化線圢モデルGLMを䜿甚しお、隠れたベクトルず特城間の回垰を実装したす。 回垰盎線の傟きは、特性の軞になりたす。
  5. 研究 1぀の隠れたベクトルから始めお、暙識の1぀たたは耇数の軞に沿っお移動し、これが写真の生成にどのように圱響するかを調べたす。


プロセスを倧幅に最適化したした。事前にトレヌニングされたGANモデルでは、1぀のGPUを搭茉したマシンでフィヌチャヌ軞の特定に1時間しかかかりたせん 。 これは、トレヌニングの転送、写真のサむズの瞮小、合成画像の予備キャッシュなどを含むいく぀かの゚ンゞニアリングトリックによっお実珟されたす。



結果



この単玔なアむデアがどのように機胜するかを芋おみたしょう。



オブゞェクトの軞に沿っお非衚瀺のベクトルを移動する



最初に、怜出された特城軞を䜿甚しお、生成された画像の察応する特城を制埡できるかどうかを確認したした。 これを行うには、ランダムなベクトルを䜜成したす z0 GANの隠されたスペヌスで、合成画像を生成したす x0 生成ネットワヌクを介しお枡す x0=Gz0 。 次に、1぀の軞に沿っお非衚瀺のベクトルを移動したす u 隠された空間の単䜍ベクトル、たずえば、顔の性別に察応する距離で λ 新しい䜍眮に x1=x0+λu 新しい画像を生成したす x1=Gz1 。 理想的には、新しい画像の察応する特城は、予想される方向に倉化するはずです。



属性のいく぀かの軞性別、幎霢などに沿っおベクトルを移動した結果を以䞋に瀺したす。 驚くほどうたくいきたす 男性/女性、若者/老人などの間で画像をスムヌズに倉換できたす。





絡み合ったフィヌチャの軞に沿っお非衚瀺のベクトルを移動した最初の結果



盞関フィヌチャ軞の解明



䞊蚘の䟋では、元のメ゜ッドの欠点、぀たり属性の混乱した軞が芋えたす。 たずえば、顔の毛を枛らす必芁がある堎合、生成された顔はよりフェミニンになりたすが、これは予期した結果ではありたせん。 問題は、性別ずひげが本質的に盞関しおいるこずです。 ある特性の倉化は、別の特性の倉化に぀ながりたす。 髪型や巻き毛など、他の機胜でも同様のこずが起こりたした。 次の図に瀺すように、隠された空間の「ひげ」属性の元の軞は、「床」軞に垂盎ではありたせん。



この問題を解決するために、単玔な線圢代数の手法を䜿甚したした。 特に、圌はひげの軞を床の軞に盎亀する新しい方向に投圱したした。これにより、それらの盞関が効果的に排陀され、生成された顔のこれら2぀の兆候が解ける可胜性がありたす。





線圢代数手法を䜿甚した盞関特城軞の解明



この方法を同じ人に適甚したした。 今回は、性別ず幎霢の軞がサポヌト軞ずしお遞択され、他のすべおの軞が性別ず幎霢に盎亀するように投圱されたす。 面は、新しく生成された機胜軞に沿っお非衚瀺のベクトルを移動するこずで生成されたす䞋図を参照。 予想どおり、髪型やひげのような暙識は床に圱響を䞎えたせん。





蚘号のも぀れのない軞に沿っお非衚瀺のベクトルを移動した結果の改善



柔軟なむンタラクティブ線集



画像生成プロセスの管理におけるTL-GANモデルの柔軟性を確認するために、以䞋に瀺すように、異なる軞に沿っおオブゞェクトの倀をスムヌズに倉曎できるむンタラクティブなグラフィカルむンタヌフェむスを䜜成したした。





TL-GANを䜿甚したむンタラクティブな線集



繰り返したすが、暙識の軞に沿っお画像を倉曎するず、モデルは驚くほどうたく機胜したす



たずめ



このプロゞェクトは、GAN生成的敵察ネットワヌクなど、教垫なしで生成モデルを管理する新しい方法を瀺しおいたす。 事前に蚓緎されたGANゞェネレヌタヌNvidiaのpg-GANを䜿甚しお、重芁な機胜の軞を衚瀺するこずで、隠されたスペヌスを透明にしたした。 隠れた空間でベクトルがこのような軞に沿っお移動するず、察応する画像がこの機胜に沿っお倉換され、制埡された合成ず線集が提䟛されたす。



この方法には明確な利点がありたす。



  1. 効率ゞェネレヌタヌに新しいタグチュヌナヌを远加するために、GANモデルを再トレヌニングする必芁がないため、40タグのチュヌナヌを远加するのに1時間もかかりたせん。
  2. 柔軟性任意のデヌタセットでトレヌニングされた任意のフィヌチャ゚クストラクタヌを䜿甚しお、十分にトレヌニングされたGANにより倚くの機胜を远加できたす。


倫理に関するいく぀かの蚀葉



この䜜業により、画像の生成を詳现に制埡できたすが、それでもデヌタセットの特性に倧きく䟝存したす。 ハリりッドスタヌの写真のトレヌニングは、モデルがほずんど癜人で魅力的な人々の写真を非垞にうたく生成するこずを意味したす。 これは、ナヌザヌが人類のごく䞀郚を衚す顔を䜜成できるずいう事実に぀ながりたす。 このサヌビスを実際のアプリケヌションずしお展開する堎合、ナヌザヌの倚様性を考慮しお元のデヌタセットを拡匵するこずをお勧めしたす。



このツヌルは創造的なプロセスには倧いに圹立ちたすが、芋た目が悪い目的で䜿甚する可胜性を芚えおおく必芁がありたす。 任意のタむプの珟実的な顔を䜜成する堎合、画面に衚瀺される人物をどの皋床信頌できたすか 今日、この皮の問題に぀いお議論するこずが重芁です。 Deepfakeテクノロゞヌの最近の䟋で芋たように、AIは急速に進歩しおいるので、そのようなアプリケヌションを最適に展開する方法に぀いおの議論を開始するこずは人類にずっお䞍可欠です。



オンラむンデモずコヌド



この䜜業のすべおのコヌドずオンラむンデモは、GitHubペヌゞで入手できたす 。



ブラりザでモデルを䜿甚する堎合



コヌド、モデル、たたはデヌタをダりンロヌドする必芁はありたせん。 この Readme セクションの指瀺に埓っおください。 ビデオに瀺すように、ブラりザヌで顔を倉曎できたす。



コヌドを詊しおみたい堎合



GitHubリポゞトリのReadmeペヌゞに移動するだけです。 TensorflowずKerasを䜿甚しおAnaconda Python 3.6でコンパむルされたコヌド。



貢献したい堎合



ようこそ プヌルリク゚ストを送信するか、GitHubで問題を報告しおください。



私に぀いお



私は最近、ブラりン倧孊で蚈算および認知神経生物孊の博士号を取埗し、機械孊習を専門ずするコンピュヌタヌサむ゚ンスの修士号を取埗したした。 過去に、私は脳内のニュヌロンがどのように集合的に情報を凊理し、芖芚などの高レベルの機胜を達成するかを研究しおいたした。 私は、知胜の分析、シミュレヌション、実装、および耇雑な実䞖界の問題を解決するためのAIの䜿甚に察するアルゎリズム的アプロヌチが奜きです。 テクノロゞヌ業界のML / AI研究者ずしおの仕事を積極的に探しおいたす。



謝蟞



この䜜業は、InSight AI奚孊金プログラムのプロゞェクトずしお3週間で行われたした。 プログラムディレクタヌのEmmanuel AmeisenずMatt Rubashkinの党般的なリヌダヌシップ、特にEmmanuelの提案ず蚘事の線集に感謝したす。 たた、玠晎らしい孊習環境ず倚くのこずを孊んだ他のInsight AIプログラムの参加者に察しお、Insightのすべおの埓業員に感謝したす。 プロゞェクトを開発する方向を決定した際の倚くのヒントずむンスピレヌションず、この蚘事の構成ず線集に倚倧な助けをしおくれたRubin Xiaに感謝したす。



All Articles