Facebookのコンピュヌタヌビゞョンアプロヌチの根底にある蚘事

そのような䌚瀟-Facebookを知っおいたすか はい、たさに16億人のナヌザヌがいたす。 そしお、誕生日の挚拶、悪名高い子䟛時代の写真私はそれらを持っおいたす、あなたのあらゆるステヌタスが奜きな遠い芪relativeを撮るず、分析するデヌタがたくさんありたす。



画像分析の芳点から、Facebookは畳み蟌みニュヌラルネットワヌクCNNで倧きな進歩を遂げたした。 8月、FacebookのAI郚門Facebook AI Research、略称FAIRは、画像セグメンテヌションアルゎリズムの基瀎ずなるコンピュヌタヌビゞョンアルゎリズムに関するブログ投皿を公​​開したした。 この投皿では、このブログが匕甚しおいる3぀の蚘事の抂芁を簡単に説明したす。







通垞、FAIRは次の䞀連のアルゎリズムを䜿甚したす。 画像はDeepMaskセグメンテヌションフレヌムワヌクに送られたす。 SharpMaskアルゎリズムを䜿甚しお、最初の段階で遞択されたセグメントを改善し、MultiPathNetを䜿甚しおオブゞェクトを分類したす。 これらの各コンポヌネントが個別にどのように機胜するかを芋おみたしょう。



ディヌプマスク



はじめに



この䜜品は、Pedro Pinheiro、Roman Collobert、およびPeter Dollardによるもので、「オブゞェクト候補のセグメント化孊習」ず呌ばれおいたす。 画像のセグメンテヌションの問題を解決するために、著者は、画像の断片を受け取り、オブゞェクトのマスクずオブゞェクト党䜓が断片の䞭心にある確率を衚瀺するアルゎリズムを提案したす。 このプロセスは画像党䜓に適甚されるため、オブゞェクトごずにマスクが䜜成されたす。 䞡方のコンポヌネントが同じネットワヌク局を䜿甚するため、プロセス党䜓は1぀のCNNのみを䜿甚しお実行されたす。



入出力



たず、モデルに期埅するものを瀺したす。 入力画像の各オブゞェクトのマスクたたはシル゚ットのセットを取埗したす。 元の画像をフラグメントのセットずしお衚すこずができたす。 出力の各入力郚分に぀いお、その䞊の䞻芁オブゞェクトのシル゚ットを含むバむナリマスクず、このフラグメントがオブゞェクトを含む可胜性の掚定倀-1〜1を取埗したす。





各トレヌニングの䟋には、これらの3぀のコンポヌネントが含たれおいる必芁がありたす泚確率1の䟋には、画像に完党に同じスケヌルで含たれおいるオブゞェクトを䞭心にフラグメントを含める必芁がありたす。 このアルゎリズムは、画像のさたざたな郚分前述の同じフラグメントセットに適甚されたす。 次に、結果を組み合わせお、すべおのマスクを含む単䞀のりィンドりむメヌゞを圢成したす。 アルゎリズムの構成を芋おみたしょう。





* 図1 。 䞊から 。 モデルアヌキテクチャ特城を抜出する共通局の埌、モデルは2぀の分岐に分岐したす。 䞊郚の分岐は䞭倮にあるオブゞェクトのセグメンテヌションマスクを予枬し、䞋郚の分岐はフラグメントにオブゞェクトが含たれる確率を予枬したす。

䞋から 。 トレヌニングトリプルの䟋入力フラグメントx、マスクm、ラベルy。 緑のフラグメントには、特定の条件を満たすオブゞェクトが含たれおいるため、y = 1でマヌクされおいたす。負の䟋赀のマスクは䜿甚されおおらず、説明のためにのみ衚瀺されおいたす。



ネットワヌクアヌキテクチャ



ネットワヌクは、ImageNetTransfer Learning in actionに基づく画像分類の事前トレヌニングを受けおいたす。 画像は、8぀の畳み蟌み3x3レむダヌず5぀のmaxpool 2x2レむダヌを持぀VGGのようなモデル完党に接続されたレむダヌなしを通過したす。 元の画像のサむズに応じお、䞀定量の出力この堎合は512x14x14が埗られたす。



入力 3 xhxw

出力 512 xh / 16 xw / 16



次に、ネットワヌクは䞊蚘の2぀のコンポヌネントに分割されたす。 そのうちの1぀がセグメンテヌションを匕き継ぎ、2番目が目的のオブゞェクトが画像内にあるかどうかを刀断したす。



セグメンテヌションヘッド



ここで、出力を取埗し、内郚局ずReLU局に枡したす。 これで、特定のピクセルが画像の䞭心にあるオブゞェクトの䞀郚であるかどうかを決定するピクセル分類子のw 'xh'w 'およびh'は元の画像のwおよびhより小さいのレむダヌがありたす画像サむズが28x28の堎合、分類子がありたす 784未満。 次に、バむリニア補間法を䜿甚しお分類噚の出力倀を取埗し、画像解像床を元の解像床に高め、バむナリマスクを取埗したす1-ピクセルが目的のオブゞェクトに属する堎合、0-そうでない堎合。



客芳性のコンポヌネントObjectness Head



ネットワヌクの2番目のコンポヌネントは、画像の䞭倮に目的の瞮尺のオブゞェクトが含たれおいるかどうかを刀断したす。 2x2 maxpoolレむダヌ、ドロップアりトモゞュヌル、および2぀の完党に接続されたレむダヌを介しおVGGのようなレむダヌの出力を送信するこずにより、確率的掚定倀を取埗できたす。



トレヌニング



損倱関数はロゞスティック回垰損倱Objectness Headの損倱ず各フラグメントぞのSegmentation Headの適甚の損倱の合蚈であるため、䞡方のネットワヌクコンポヌネントは䞊行しおトレヌニングされたす。 ゚ラヌバック䌝播アルゎリズムは、オブゞェクトネスヘッドたたはセグメンテヌションヘッドのいずれかを介しお実行されたす。 モデルを改善するために、トレヌニングセットを拡匵する方法デヌタ拡匵が䜿甚されたした。 モデルは、Nvidia Tesla K40m GPUを䜿甚した確率的募配降䞋法を5日間䜿甚しおトレヌニングされたした。



この蚘事の玠晎らしいずころ



1぀の畳み蟌みニュヌラルネットワヌク。 オブゞェクトの堎所の仮説オブゞェクトの提案や耇雑な孊習プロセスを生成する远加のステップは必芁ありたせんでした。 このモデルの特城は、ネットワヌクの柔軟性ず効率性ず速床を提䟛する特定のシンプルさです。



シャヌプマスク



はじめに



以前の研究者グルヌプTusn-Yi Linずずもには、「オブゞェクトセグメントを改良するための孊習」ずいうタむトルの蚘事も執筆したした。 名前が瀺すように、この蚘事では、DeepMaskステヌゞで䜜成されたマスクの改善に぀いお説明したす。 DeepMaskの䞻な問題は、このモデルが「粗い」マスクを正垞に䜜成する単玔な盎接分配ネットワヌクを䜿甚するが、ピクセルセグメンテヌションを実行しないこずです。 この理由は、芚えおいるずすれば、DeepMaskにはバむリニア補間があり、元の画像のサむズに適合するためです。 したがっお、実際の境界ぞの準拠は非垞に近䌌です。 この問題を解決するために、SharpMaskモデルは、ネットワヌクの最初のレむダヌから取埗した䜎レベルの情報ず、より深いレむダヌから取埗した高レベルのオブゞェクト情報を組み合わせたす。 最初に、モデルは各入力フラグメントの倧たかなマスクを䜜成しDeepMask操䜜、次にいく぀かの改良モゞュヌルを通過したす。 このステップをより詳现に怜蚎しおください。







ネットワヌクアヌキテクチャ



SharpMaskのアむデアは、次の考慮事項から生たれたしたオブゞェクトの正確なマスクを芋぀けるにはオブゞェクトレベルの情報高レベルが必芁なので、最初に倧たかなセグメントを構築し、それを最初のレむダヌからの重芁な䜎レベル情報ず組み合わせるトップダりンアプロヌチが必芁です。 䞊の図からわかるように、元の画像はたずDeepMaskを通過しお粗いセグメンテヌションを取埗し、その埌、䞀連の改良モゞュヌルに入り、画像をより正確に元のサむズに拡倧したす。



掗緎モゞュヌル



詳现化モゞュヌルの配眮方法をさらに詳しく考えおみたしょう。 このモゞュヌルの目的は、DeepMaskステヌゞ画像を224x224から14x14に圧瞮したレむダヌのプヌリングレむダヌの圱響に耐えるこずであり、䞊向きパス䞭に䜜成されたフィヌチャマップを考慮しお結果のマスクのサむズを倧きくしたすDeepMaskを䞊向きパスず呌び、SharpMaskず呌びたす -ダりンストリヌム。 数孊甚語では、改良モゞュヌルは、拡匵マスクM、぀たり前のレむダヌず特城マップFのマスクの関数を生成する関数です。改良モゞュヌルの数は、DeepMaskで䜿甚されるサブサンプルレむダヌの数ず等しくする必芁がありたす。







しかし、関数Rは正確に䜕をしたすか 聞いおくれおうれしい。 単玔なアプロヌチは、MずFが同じ高さず幅であるため、単玔にMずFを組み合わせるこずです。 このアプロヌチの問題は、これらの各コンポヌネントの色深床チャネルです。 機胜マップ内のこのようなチャネルの数は、マスク内のチャネルよりもはるかに倚くなる可胜性がありたす。 したがっお、単玔な結合はFに倀を远加しすぎたす。解決策は、3x3畳み蟌み局を䜿甚しおFの色深床チャネルの数を枛らし、Mずマヌゞし、別の3x3畳み蟌み局を通過し、最埌に双線圢補間を行うこずですネットワヌクアヌキテクチャ図を参照



トレヌニング



DeepMaskに䜿甚したのず同じトレヌニングデヌタをSharpMaskに適甚できたす。 たず、DeepMaskのレむダヌを孊習したす。 その埌、りェむトが凍結され、SharpMaskトレヌニングが開始されたす。



この蚘事の玠晎らしいずころ



DeepMaskに基づくこの蚘事では、䜿いやすい新しいモゞュヌルを玹介したす。 著者は、DeepMaskステヌゞの以前のレむダヌで利甚可胜な䜎レベルの情報を利甚するだけで、より高いセグメンテヌション粟床を達成できるこずを発芋したした。







MultiPathNet



はじめに



DeepMaskは、倧たかなセグメントマスクを䜜成したす。 SharpMaskは、オブゞェクトの茪郭を調敎したす。 たた、MultiPathNetのタスクは、マスクされたオブゞェクトを識別たたは分類するこずです。 Sergei Zagoruyko、Adam Lerer、Tseng-Yi Lin、Pedro Pinheiro、Sam Gross、Sumit Chintala、Peter Dollarのグルヌプが「オブゞェクト怜出のためのマルチパスネットワヌク」ずいう蚘事を公開したした。 この蚘事の目的は、より正確なロヌカリれヌションに加えお、異なるスケヌル、倚数の障害物、および䞍必芁な詳现を持぀耇雑な画像に焊点を圓おるこずにより、オブゞェクト認識の方法を改善するこずです。 このモデルでは、開始点ずしおFast R-CNNを䜿甚したす この蚘事たたは以前の投皿を参照。 本質的に、このモデルは、DeepMaskおよびSharpMaskを䜿甚しおオブゞェクトの䜍眮に関する仮説を立おたFast R-CNNの実装です。 この蚘事で説明されおいる3぀の䞻な倉曎は、フォアバルリヌゞョン、スキップ接続、および積分損倱関数です。 しかし、深く掘り䞋げる前に、ネットワヌクアヌキテクチャを芋おみたしょう。







ネットワヌクアヌキテクチャ/䞭心゚リア



Fast R-CNNの堎合ず同様に、完党に接続されたレむダヌなしでVGGネットワ​​ヌクを介しお入力むメヌゞを送信したす。 ROIプヌリングレむダヌは、仮説領域提案から特城を抜出するために䜿甚されたすFast R-CNNに関する蚘事から思い出すように、ROIポヌリングは特定の画像領域の特城の画像マップの特城をコンパむルする方法です。 各仮説に぀いお、4぀の異なる方法で画像を切り取り、さたざたなスケヌルでオブゞェクトを衚瀺したす。 これらは、導入郚で議論された「䞭心領域」です。 これらの切り取られたフラグメントは、完党に接続されたレむダヌを通過し、出力はマヌゞされ、ネットワヌクは分類ヘッドず回垰ヘッドに分割されたす。 著者は、これらの䞭心窩領域がオブゞェクトの䜍眮をより正確に決定するのに圹立぀こずを提案したす。これにより、ネットワヌクはさたざたな芏暡ず環境でオブゞェクトを芋るこずができるからです。



接続をスキップ



Fast R-CNNのおかげで、最埌の畳み蟌みVGGレむダヌの埌、32x32入力画像は2x2サむズにすばやく圧瞮されたす。 ROIプヌリングレむダヌは7x7マップを䜜成したすが、ただ倚くの空間情報を倱いたす。 この問題を解決するために、単語conv3、conv4、およびconv5の属性を組み合わせお、結果をforveal分類噚に枡したす。 蚘事で述べたように、この関連付けは「分類子に、画像のさたざたな領域の特性に関する情報ぞのアクセスを蚱可したす」。



積分損倱関数



このトピックを掘り䞋げたくはありたせん。すべおの数孊に぀いおは蚘事自䜓で説明したほうがよいず思いたすが、䞀般的には、著者は倚くのIntersection over UnionIoU倀でうたく機胜する損倱関数を導き出したずいう考えです。



この蚘事の玠晎らしいずころ



あなたがFast R-CNNのファンなら、間違いなくこのモデルが奜きになるでしょう。 VGG NetずROIプヌリングの基本的なアむデアを䜿甚するず同時に、フォアりェむ゚リアを䜿甚しおより正確にロヌカラむズおよび分類し、接続をスキップし、積分損倱関数を䜿甚する新しい方法を䜜成したす。



FacebookはこのすべおのCNN科孊をマスタヌしたようです。



远加するものがある堎合、たたはその他の蚘事を説明できる堎合は、コメントでお知らせください。



DeepMaskおよびSharpMaskコヌド。 MultuiPathNet コヌド



→ オリゞナルぞのリンク



→ ゜ヌス



ああ、仕事に来おくれたせんか :)
wunderfund.ioは、 高頻床アルゎリズム取匕を扱う若い財団です。 高頻床取匕は、䞖界䞭の最高のプログラマヌず数孊者による継続的な競争です。 私たちに参加するこずで、あなたはこの魅力的な戊いの䞀郚になりたす。



熱心な研究者やプログラマヌ向けに、興味深く耇雑なデヌタ分析ず䜎遅延の開発タスクを提䟛しおいたす。 柔軟なスケゞュヌルず官僚䞻矩がないため、意思決定が迅速に行われ、実斜されたす。



チヌムに参加 wunderfund.io



All Articles