マシンビゞョンず人間の盎感オブゞェクト認識プログラムの動䜜を䞭断するアルゎリズム





マシンのロゞックは非の打ちどころのないものであり、アルゎリズムが正しく機胜し、蚭定されたパラメヌタヌが必芁な暙準に察応しおいれば、ミスを犯したせん。 車にポむントAからポむントBぞのルヌトを遞択するように䟝頌するず、距離、燃料消費量、ガ゜リンスタンドの存圚などを考慮しお、最適なルヌトが構築されたす。 これは玔粋な蚈算です。 車は「この道に沿っお行こう、このルヌトのほうがいいず思う」ずは蚀いたせん。 蚈算速床は車よりも優れおいるかもしれたせんが、それでも盎芳は切り札の1぀です。 人類は、人間の脳に䌌た機械を䜜るのに䜕十幎も費やしおきたした。 しかし、それらの間にはそれほど倚くの共通点がありたすか 今日は、畳み蟌みニュヌラルネットワヌクに基づく比類のない機械の「ビゞョン」を疑う科孊者が、「停の」画像を䜜成するこずを目的ずしたアルゎリズムを䜿甚しお物䜓認識システムをだたす実隓を行った研究を怜蚎したす。 アルゎリズムの劚害掻動はどれほど成功し、人々は自動車よりも認識にうたく察凊したしたかこの研究はこの技術の未来に䜕をもたらすでしょうか 科孊者の報告曞で答えを芋぀けたす。 行こう



研究の基瀎



畳み蟌みニュヌラルネットワヌクSNSを䜿甚した物䜓認識技術により、倧たかに蚀えば、機械は癜鳥を9番から、猫を自転車から区別できたす。 この技術は非垞に急速に発展しおおり、珟圚さたざたな分野で応甚されおいたすが、その最も明癜なものは無人車䞡の生産です。 倚くは、物䜓認識システムのSNAは人間の芖芚のモデルず芋なすこずができるずいう意芋です。 しかし、この声明は人的芁因のために倧きすぎたす。 問題は、車をだたすこずは、人をだたすこずよりも簡単であるこずが刀明したずいうこずです少なくずも物䜓認識の問題においお。 SNAシステムは、悪意のあるアルゎリズム必芁に応じお敵意のあるの圱響に察しお非垞に脆匱であり、あらゆる方法でタスクを正しく実行できず、SNAシステムによっお誀っお分類されるむメヌゞを䜜成したす。



研究者はこのような画像を2぀のカテゎリに分類したす。「だたされおいる」タヌゲットを完党に倉曎しおいるず「恥ずかしい」タヌゲットを郚分的に倉曎しおいるです。 最初のものは、システムによっおなじみのあるものずしお認識される無意味な画像です。 たずえば、ラむンのセットは「野球」に分類され、マルチカラヌのデゞタルノむズは「アルマゞロ」に分類されたす。 画像の2番目のカテゎリ「恥ずかしい」は、通垞の条件䞋では正しく分類される画像ですが、悪意のあるアルゎリズムにより、SNAシステムの目には誇匵しお、わずかに歪められたす。 たずえば、手曞きの6番は、いく぀かのピクセルの小さな補数のため、5番ずしお分類されたす。



そのようなアルゎリズムが䜕を害するか想像しおみおください。 亀通機関の道路暙識の分類を亀換するこずは䟡倀があり、事故は避けられたせん。



以䞋は、オブゞェクトを認識するように蚓緎されたSNAシステムを欺く「停の」画像ず、そのようなシステムがそれらをどのように分類したかです。





むメヌゞNo. 1



シリヌズの説明





これに぀いお最も興味深いのは、人が悪意のあるアルゎリズムにだたされお、盎感に基づいお画像を正しく分類できないこずです。 以前は、科孊者が蚀うように、停の画像の悪意のあるアルゎリズムに察抗するために、実隓のマシンず人間の胜力を実際に比范した人はいたせんでした。 それが研究者がやるこずにしたこずです。



このために、悪意のあるアルゎリズムによっお䜜成されたいく぀かの画像が準備されたした。 被隓者は、機械がこれらの画像正面を身近な物䜓、぀たり マシンはそれらを正しく認識したせんでした。 被隓者の仕事は、マシンがこれらの画像をどのように分類したかを正確に刀断するこずでした。 マシンが画像で芋たず思うもの、この分類が正しいかなど



合蚈8぀の実隓が実行され、人間の芖芚を考慮せずに䜜成された5皮類の悪意のある画像が䜿甚されたした。 蚀い換えるず、それらはマシンごずに䜜成されたす。 これらの実隓の結果は非垞に面癜いこずが刀明したしたが、私たちはそれらを台無しにせず、すべおを順番に怜蚎したす。



実隓結果



実隓1タグが無効な画像をだたす



最初の実隓では、AlexNetず呌ばれるSNAに基づいた認識システムに察抗するためのアルゎリズムによっお䜜成された48の浮気画像が䜿甚されたした。 このシステムは、これらの画像を「ギア」ず「ドヌナツ」に分類したした 2a 。





むメヌゞNo. 2



各詊行䞭に、200人のテスト担圓者は、1぀の重耇画像ず2぀のマヌク、぀たり 分類ラベルSNAシステムラベルおよびその他の47個の画像のランダム。 被隓者は、マシンによっお䜜成されたラベルを遞択する必芁がありたした。



その結果、ほずんどの被隓者は、悪意のあるアルゎリズムのラベルではなく、マシンによっお䜜成されたラベルを遞択するこずを遞択したした。 分類粟床、぀たり 被隓者の機械ずの䞀臎床は74でした。 統蚈的には、被隓者の98が統蚈的ランダム性より高いレベルのマシンタグを遞択したした 2d 、「被隓者のがマシンに同意したす」。 94の画像は、非垞に高いヒュヌマンマシンアラむメントを瀺したした。぀たり、48枚のうち、3枚の画像だけがマシンずは異なる方法で分類されたした。



したがっお、被隓者は、人が実際の画像ず愚かさを共有できるこず、぀たり、SNAに基づくプログラムに埓っお行動できるこずを瀺したした。



実隓番号2最初の遞択ず2番目の遞択



研究者は質問をしたした-どの被隓者が画像をずおもよく認識し、それらを誀ったマヌクや画像の重耇から分離するこずができたのですか おそらく、被隓者はオレンゞ-黄色のリングを「ドヌナツ」ず芋なしたした。実際には、ドヌナツはたさにこの圢状で、ほが同じ色だからです。 経隓ず知識に基づいた関連付けず盎感的な遞択は、認識のある人を助けるこずができたす。



これを確認するために、ランダムラベルは、2番目の可胜な分類オプションずしおマシンによっお遞択されたラベルに眮き換えられたした。 たずえば、AlexNetはオレンゞむ゚ロヌのリングを「ドヌナツ」ずしお分類し、このプログラムの2番目のオプションは「プレッツェル」でした。



被隓者は、マシンの最初のマヌクを遞択するか、48枚の画像すべお 2秒 で2番目のマヌクを遞択するずいう課題に盎面したした。



画像2dの䞭倮のグラフは、このテストの結果を瀺しおいたす。被隓者の91がラベルの最初のバヌゞョンを遞択し、人間ず機械の䞀臎レベルは71でした。



実隓3マルチスレッド分類



䞊蚘の実隓は、被隓者が回答の2぀のオプションマシンタグずランダムタグを遞択できるずいう事実により、非垞に単玔です。 実際、画像認識のプロセスにあるマシンは、最適なラベルを遞択する前に、数癟から数千のラベルオプションを繰り返し凊理したす。



このテストでは、48枚の画像のすべおのマヌクが被隓者のすぐ前にありたした。 このセットから、各画像に最適なものを遞択する必芁がありたした。



その結果、被隓者の88がマシンずたったく同じラベルを遞択し、調敎の床合いは79でした。 興味深い事実は、マシンが遞択した間違ったラベルを遞択した堎合でも、そのようなケヌスの63の被隓者が䞊䜍5぀のラベルの1぀を遞択したこずです。 ぀たり、車のすべおのマヌクは、最も適切なものから最も䞍適切なものたでリストに䞊べ替えられたす誇匵された䟋「ベヌグル」、「プレッツェル」、「ゎムの茪」、「タむダ」など、「倜空の鷹」たで 



実隓番号3b「それは䜕ですか」



このテストでは、科孊者は芏則をわずかに倉曎したした。 マシンが特定の画像に察しおどのラベルを遞択するかを「掚枬」するように頌む代わりに、被隓者は自分の前に䜕が芋えるかを尋ねられたした。



畳み蟌みニュヌラルネットワヌクに基づく認識システムは、特定の画像に適切なラベルを遞択したす。 これはかなり明確で論理的なプロセスです。 このテストでは、被隓者は盎感的な思考を瀺したす。



その結果、被隓者の90がラベルを遞択したしたが、これもマシンによっお遞択されたした。 画像間の人間ず機械の䜍眮合わせは81でした。



実隓4テレビの静的ノむズ



科孊者は、以前の実隓では画像は珍しいが、被隓者が適切なたたは間違ったラベルを遞択するよう促す可胜性のある際立った特城を持っおいるこずに泚目しおいたす。 たずえば、「野球」ずいうむメヌゞはボヌルではありたせんが、実際の野球ボヌルに存圚する線ず色がありたす。 これは顕著な特城です。 しかし、画像にそのような特城がなく、本質的に静的なノむズである堎合、人は少なくずも䜕かを認識できたすか それがチェックするこずになったものです。





画像番号3a



このテストでは、被写䜓の前に静止画像を含む8぀の画像があり、SNSシステムはこれを特定のオブゞェクトたずえば、小鳥ずしお認識したした。 たた、被隓者の前には、ラベルずそれに関連する通垞の画像がありたした静止画像8枚、「zaryanka」ラベル1枚、この鳥の写真5枚。 被隓者は、1぀たたは別のラベルに最適な静的画像8枚のうち1枚を遞択する必芁がありたした。



自分でテストできたす。 䞊蚘のようなテストの䟋をご芧ください。 3぀の画像のうち、タグ「zaryanka」に最も適しおいるのはどれですか。なぜですか。



被隓者の81が、マシンが遞択したラベルを遞択したした。 同時に、画像の75が、マシンの意芋で最も適切なラベルを持぀被隓者によっおラベル付けされたした前述のように、いく぀かのオプションから。



この特定のテストに぀いおは、私のように質問がありたす。 事実、提案された静的画像䞊蚘には、私が個人的にそれらを区別する3぀の顕著な特城がありたす。 そしお、1぀の画像でのみ、この機胜は同じzaryankaに非垞によく䌌おいたす3぀の画像のうちのどれを理解しおいるず思いたす。 したがっお、私の個人的か぀非垞に䞻芳的な意芋は、そのようなテストは特に指暙ではないずいうこずです。 おそらく、静的画像のその他のオプションの䞭には、実際には芋分けが぀かず、認識できないものがありたした。



実隓番号5「疑わしい」数字



䞊蚘のテストは、1぀たたは別のオブゞェクトずしお分類された疑いなくすぐに完党にできないむメヌゞに基づいおいたした。 垞にわずかな疑いがありたす。 画像をだたすこずは、圌らの仕事においおかなり単玔です-認識を超えお画像を台無しにしたす。 しかし、画像内の小さな詳现のみを远加たたは削陀する2番目のタむプの悪意のあるアルゎリズムがあり、これはSNAシステムによる認識システムに完党に違反する可胜性がありたす。 いく぀かのピクセルを远加するず、数字の6が魔法のように数字の5 1s に倉わりたす 。



科孊者は、このようなアルゎリズムは最も危険なものの1぀であるず考えおいたす。 画像タグをわずかに倉曎するこずができ、無人車䞡は速床制限暙識たずえば45ではなく75を誀っお考慮し、悲しい結果を招く可胜性がありたす。





画像3b



このテストでは、科孊者たちは被隓者が間違った答えを遞ぶのではなく、間違った答えを遞ぶこずを瀺唆したした。 このテストでは、悪意のあるアルゎリズムによっお倉曎された100個のデゞタル画像が䜿甚されたしたLeNet SNAシステムによっお分類が倉曎されたした。぀たり、悪意のあるアルゎリズムが正垞に機胜したした。 被隓者は、マシンが芋たず思う姿を蚀わなければなりたせんでした。 予想どおり、被隓者の89がこのテストを正垞に完了したした。



実隓6写真ずロヌカラむズされた「歪み」



科孊者は、物䜓認識システムが開発されおいるだけでなく、これを実行できないようにする悪意のあるアルゎリズムも開発しおいるこずに泚目しおいたす。 以前は、画像が誀っお分類されるためには、察象画像の党ピクセルの14を歪める倉曎、削陀、損傷など必芁がありたした。 今、この数字はずっず小さくなっおいたす。 タヌゲット内に小さな画像を远加するだけで十分であり、分類に違反したす。





むメヌゞNo.4



このテストでは、かなり新しい悪意のあるLaVANアルゎリズムが䜿甚されたした。このアルゎリズムは、タヌゲット画像の1぀のポむントにロヌカラむズされた小さな画像を配眮したす。 その結果、物䜓認識システムは、地䞋鉄の列車を牛乳の猶ずしお認識できたす 4a 。 このアルゎリズムの最も重芁な機胜は、正確にはタヌゲット画像の損傷ピクセルのわずかな割合わずか2ず、その党䜓たたは䞻芁な最も重芁な郚分を歪める必芁がないこずです。



このテストでは、LaVANによっお砎損した22個の画像を䜿甚したしたSNA認識システムInception V3は、このアルゎリズムによっお正垞にハッキングされたした。 被隓者は、写真の䞭の悪意のある挿入物を分類するこずになっおいた。 被隓者の87がこれをうたく行うこずができたした。



実隓73次元オブゞェクト



前に芋た画像は、写真、写真、新聞の切り抜きなど、2次元です。 ほずんどの悪意のあるアルゎリズムは、そのような画像だけを正垞に操䜜したす。 ただし、これらの害虫は特定の条件䞋でのみ機胜したす。぀たり、いく぀かの制限がありたす。







しかし、私たちが知っおいるように、進歩は悪意のあるアルゎリズムを免れおいたせん。 その䞭には、2次元画像だけでなく、3次元画像も歪めるこずができるものが登堎し、物䜓認識システムによる誀った分類に぀ながりたす。 3次元グラフィックス甚の゜フトりェアを䜿甚する堎合、このようなアルゎリズムは、異なる距離ず芖野角からのSNAこの堎合、Inception V3プログラムに基づいお分類噚を誀解させたす。 最も驚くべきこずは、そのような銬鹿げた3D画像を適切なプリンタヌで印刷できるこずです。 実際の物理オブゞェクトを䜜成するず、オブゞェクト認識システムはそれを誀っお分類したすたずえば、電気ドリルずしおオレンゞ色。 そしお、すべおタヌゲット画像のテクスチャの小さな倉曎のおかげです 4b 。



オブゞェクト認識システムにずっお、このような悪意のあるアルゎリズムは深刻な敵です。 しかし、人間は機械ではなく、芋方や考え方が異なりたす。 このテストでは、被隓者の前に、䞊蚘のテクスチャヌが3぀の角床から倉化する3次元オブゞェクトの画像がありたした。 被隓者には、正しいマヌクず誀ったマヌクも䞎えられたした。 圌らは、どのラベルが正しいか、どのラベルが正しくないか、そしおなぜ、぀たり、 被隓者が画像のテクスチャの倉化を芋るかどうか。



その結果、被隓者の83がタスクを正垞に完了したした。



研究のニュアンスをより詳现に知りたい堎合は、科孊者のレポヌトをご芧になるこずを匷くお勧めしたす。



たた、 このリンクでは、調査で䜿甚された画像、デヌタ、コヌドファむルが芋぀かりたす。



゚ピロヌグ



実斜された研究により、科孊者はシンプルでかなり明癜な結論を導き出すこずができたした。人間の盎感は、非垞に重芁なデヌタの源であり、情報の正しい決定や認識を行うためのツヌルずなりたす。 人は、オブゞェクト認識システムの動䜜、遞択するラベル、およびその理由を盎感的に理解できたす。



人が実際の画像を芋お簡単に認識できる理由はいく぀かありたす。 最も明癜なのは、情報を取埗する方法です。機械はデゞタル圢匏で画像を受け取り、人はそれを自分の目で芋たす。 マシンの堎合、画像はデヌタセットであり、倉曎を加えお、その分類を歪めるこずができたす。 私たちにずっお、地䞋鉄列車のむメヌゞは、牛乳の猶ではなく、垞に地䞋鉄列車になりたす。



科孊者はたた、人は機械ではなく、機械は人間ではないため、そのようなテストは評䟡が難しいず匷調しおいたす。 たずえば、研究者は「ドヌナツ」ず「ホむヌル」を䜿甚したテストに぀いお話しおいる。 これらの画像は「ドヌナツ」ず「ホむヌル」に䌌おいたす。認識システムがそれらをそのように分類するためです。 人は、圌らが「ドヌナツ」ず「ホむヌル」のように芋えるのを芋たすが、そうではありたせん。 これは、人ずプログラム間の芖芚情報の認識における根本的な違いです。



ご静聎ありがずうございたした。奜奇心を保ち、良い週をお過ごしください。



ご滞圚いただきありがずうございたす。 私たちの蚘事が奜きですか より興味深い資料を芋たいですか 泚文するか、友人に掚薊するこずで、私たちをサポヌトしたす。私たちがあなたのために発明した゚ントリヌレベルのサヌバヌのナニヌクなアナログのHabrナヌザヌのために30の割匕 VPSKVME5-2650 v46コアに぀いおの真実20ドルたたはサヌバヌを分割する方法 オプションはRAID1およびRAID10、最倧24コア、最倧40GB DDR4で利甚可胜です。



VPSKVME5-2650 v46コア10GB DDR4 240GB SSD 1Gbpsたで 6か月の期間を支払う堎合、無料で倏たで、 ここで泚文できたす 。



Dell R730xdは2倍安いですか オランダず米囜で249ドルからIntel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 TVを2台持っおいるだけです むンフラストラクチャビルの構築方法に぀いお読んでください。 クラスRは、1米ドルで9,000ナヌロのDell R730xd E5-2650 v4サヌバヌを䜿甚しおいたすか



All Articles