ニューラルネットワークは、調理のレシピに従って料理の画像を生成します



実際の写真の比較(上)、セマンティック正則化のある生成された画像(中央の行)とそれなし



テルアビブ大学の研究者グループは、テキストのレシピに従って料理の画像を生成できるニューラルネットワークを開発しました。 したがって、主婦は、レシピの1つまたは別の段落が変更された場合に結果として生じる結果を事前に確認できます。新しい材料を追加するか、既存の材料の一部を削除します。 特に、プログラムのソースコードはパブリックドメインで公開されているため、原則として、この科学的研究は商用アプリケーションに適しています



ニューラルネットワークは、StackGAN V2と呼ばれる生成的敵対ネットワーク(GAN)の修正版です。 トレーニングは、recipe1Mデータセットからの52,000ペアの画像/レシピの大規模なベースで行われました。



原則として、ニューラルネットワークは、ほぼすべての成分と指示のリスト(素晴らしい組み合わせを含む)を取得し、完成品がどのように見えるかを見つけることができます。



「すべては、祖母にトマトソースを使った伝説の魚のパテのレシピを頼んだときに始まりました」 、この論文の筆頭著者であるオリ・バー・エルは言います。 「年齢が高いため、正確なレシピを覚えていませんでした。」 しかし、食べ物のイメージからレシピを表示するシステムを構築することは可能かどうか疑問に思っていました。 このタスクについて考えた後、私はシステムが塩、コショウ、バター、小麦粉などの実際の「隠された」成分を使用して正確なレシピを取得するのは難しすぎるという結論に達しました。それから、他の方法で行うことができるかと思いました。 つまり、レシピに基づいて製品画像を生成します。 このタスクは、特にコンピューターにとっては非常に難しいと考えています。 現代の人工知能システムのほとんどは、人間にとって簡単なタスクの専門家に取って代わろうとするため、人間の能力を超えた問題を解決することは興味深いと考えました。 ご覧のとおり、これはある程度の成功を収めることができます。



テキストから画像を生成することは、コンピュータービジョンの分野で多くのアプリケーションを持つ複雑なタスクです。 最近の研究により、生成的敵対ネットワーク(GAN)は、低変動性、低解像度のデータセットから高品質の現実的な画像を合成するのに非常に効果的であることが示されています。



また、cGANネットワークはテキスト記述から魅力的な画像を直接生成することも知られています。 最近、科学研究の一環として、800,000組のレシピとそれに対応する画像を含むrecipe1Mデータセットが公開されました(A. Salvador、N。Hynes、Y。Aytar、J。Marin、F。Ofli、I。Weber、およびA. Torralba。 調理レシピおよび食品画像のクロスモーダル埋め込みの学習(コンピュータービジョンおよびパターン認識に関するIEEEカンファレンスの議事録 、2017年)。 このセットは、カテゴリーごとの食品カテゴリーの多様性により、高い変動性があります。 さらに、2つのセクション(成分と指示)からの複雑なテキストが画像に添付されます。 合計すると、テキスト部分には何十行も含まれる場合があります。



このような優れたデータセットにより、テルアビブ大学の科学者はニューラルネットワークのみをトレーニングできました。 彼らは、生成競争ネットワークの分野で蓄積された知識と公開されたデータセットを組み合わせました。



研究者は、システムがまだ完全ではないことを認めています。 問題は、元のデータセットが256×256ピクセルの比較的低い解像度の画像で表され、多くの場合低品質であるため、照明条件が悪い画像、おのような画像、正方形でない画像(モデルのトレーニングが複雑になる)が多いことです。 この事実は、両方のcGANモデルが「おridgeのような」食品(パスタ、米、スープ、サラダなど)の作成に成功した理由を説明していますが、明確で明確な形(ハンバーガーやチキンなど)の製品の画像を生成することは非常に困難です。



将来、著者はシステムに残りのレシピを教えることで作業を続けるつもりです(約35万枚の画像が適切なデータのセットに残ります)。 ただし、これは利用可能な写真の品質が悪いという事実を否定するものではありません。 そのため、子供向けの本のテキストと関連する画像に基づいて独自のセットを作成することができます。



科学論文は、2019年1月8日にプレプリントサイトarXiv.org (arXiv:1901.02404)で公開されました。



All Articles