画像認識におけるニュヌラルネットワヌクの䜿甚

困難な圢匏化されたタスクを解決するためのツヌルの1぀ずしお、ニュヌラルネットワヌクに぀いおかなり倚くのこずがすでに蚀われおいたす。 そしお、ここで、ハブで、キャプチャを砎壊するタスクに関連しお、これらのネットワヌクを画像認識に䜿甚する方法が瀺されたした。 ただし、ニュヌラルネットワヌクにはかなりの皮類がありたす。 たた、叀兞的な完党結合ニュヌラルネットワヌクPNSは、画像の認識分類のタスクに非垞に適しおいたすか



1.課題



そこで、画像認識の問題を解決したす。 これは、顔、オブゞェクト、キャラクタヌなどの認識です。 たず、手曞きの数字を認識する問題を怜蚎するこずを提案したす。 このタスクは、いく぀かの理由で有効です。



入力ずしおMNISTデヌタベヌスを䜿甚するこずが提案されおいたす。 このデヌタベヌスには、60,000のトレヌニングペア画像-ラベルず10,000のテストペアラベルのない画像が含たれおいたす。 画像はサむズが暙準化され、䞭倮に配眮されたす。 各図のサむズは20x20以䞋ですが、サむズは28x28の正方圢に刻たれおいたす。 MNISTデヌタベヌスのトレヌニングセットの最初の12桁の䟋を図に瀺したす。

画像

したがっお、タスクは次のように定匏化されたす。 手曞き文字を認識するニュヌラルネットワヌクを䜜成およびトレヌニングし、入力で画像を受け入れ、10個の出力の1぀をアクティブにしたす 。 アクティベヌションずは、出力で倀1を意味したす。 この堎合の残りの出力の倀は理想的に-1に等しくなければなりたせん。 このスケヌルが䜿甚されない理由[0,1]埌で説明したす。



2.「通垞の」ニュヌラルネットワヌク。



ほずんどの人は、「通垞の」たたは「叀兞的な」ニュヌラルネットワヌクを、゚ラヌの埌方䌝播を䌎う盎接結合完党接続ニュヌラルネットワヌクず呌びたす。

画像

そのようなネットワヌクで名前が瀺すように、各ニュヌロンはそれぞれに接続され、信号は入力局から出力ぞの方向にのみ進み、再垰はありたせん。 このようなネットワヌクをPNSず略したす。

最初に、入力にデヌタを送信する方法を決定する必芁がありたす。 PNSの最も単玔でほが代替的な解決策は、1次元ベクトルの圢匏で2次元の画像行列を衚珟するこずです。 ぀たり サむズが28x28の手曞きの図の画像の堎合、入力が784になりたすが、これは十分ではありたせん。 次に起こるのは、倚くの保守的な科孊者がニュヌラルネットワヌクずその手法を奜たない理由です。これはアヌキテクチャの遞択です。 建築の遞択は玔粋なシャヌマニズムだからです。 問題の蚘述に基づいおニュヌラルネットワヌクの構造ず構成を䞀意に決定する方法はただありたせん。 防衛面では、ほずんど公匏化されおいないタスクの堎合、このようなメ゜ッドが䜜成されるこずはほずんどありたせん。 さらに、さたざたなヒュヌリスティックず経隓則に加えお、さたざたなネットワヌク削枛手法OBD [1]などがありたす。 これらのルヌルの1぀では、隠れ局のニュヌロンの数は、入力の数より少なくずも1桁倧きくする必芁があるずされおいたす。 画像からクラスのむンゞケヌタヌぞの倉換がかなり耇雑で本質的に非線圢であるこずを考慮するず、ここで1぀のレむダヌを実行するだけでは䞍十分です。 䞊蚘に基づいお、隠れ局のニュヌロンの数は玄15,000 第2局で10,000、第3局で5,000になるず抂算したす。 同時に、2぀の隠れ局がある構成の堎合、 構成可胜か぀トレヌニング枈みのリンクの数は、入力ず最初の隠れ局で1,000侇+ 1番目ず2番目で5,000侇+ 2番目ず出力で500,000になりたすそれぞれ10個の出力があるず仮定した堎合これは、0から9たでの数を瀺したす 。合蚈玄6,000䞇の接続 。 私はそれらがカスタマむズ可胜であるこずを無駄に蚀及しおいたせん-これは、それぞれのトレヌニング䞭に誀差募配を蚈算する必芁があるこずを意味したす。

たあ、倧䞈倫、あなたは䜕ができたすか、人工知胜の矎しさは犠牲を必芁ずしたす。 しかし、それに぀いお考えおみるず、むメヌゞをバむトの線圢チェヌンに倉換するず、回埩䞍胜な䜕かが倱われるこずに気付くでしょう。 さらに、各局では、この損倱は悪化するだけです。 そうです-私たちは画像のトポロゞヌ、぀たり 個々のパヌツ間の関係。 さらに、認識のタスクは、ニュヌラルネットワヌクが小さなシフト、回転、ズヌムに耐性があるこずを意味したす。 人の手曞きに䟝存しない特定の䞍倉量をデヌタから抜出する必芁がありたす。 それでは、蚈算がそれほど耇雑ではなく、同時にさたざたな画像の歪みに察しおより䞍倉であるためには、ニュヌラルネットワヌクはどうあるべきでしょうか



3.畳み蟌みニュヌラルネットワヌク



この問題の解決策は、フランス生たれのアメリカ人科孊者むアン・ルクンによっお発芋されたした。これは、医孊分野のノヌベル賞受賞者の仕事に觊発されたトルステン・ニルス・ノィヌれルずデビッド・H・フヌベルです。 これらの科孊者は猫の脳の芖芚皮質を怜査し、さたざたな角床の盎線に特に匷く反応するいわゆる単玔な现胞ず、䞀方向に動く線に反応する耇雑な现胞があるこずを発芋したした。 Ian LeKunは、いわゆる畳み蟌みニュヌラルネットワヌクの䜿甚を提案したした[2]。

畳み蟌みニュヌラルネットワヌクの抂念は、出力に畳み蟌み局C局、サブサンプリング局S局、および完党に接続されたF局局を亀互に配眮するこずです。

画像

このアヌキテクチャには、3぀の䞻芁なパラダむムが含たれおいたす。

  1. 局所的な知芚。
  2. 共有りェむト。
  3. ダりンサンプリング。


局所知芚は、1぀のニュヌロンの入力には画像党䜓たたは前のレむダヌの出力ではなく、その領域の䞀郚のみが䟛絊されるこずを意味したす。 このアプロヌチにより、レむダヌごずに画像のトポロゞを保持するこずができたした。

共有りェむトの抂念は、非垞に小さなりェむトセットが倚数の同点に䜿甚されるこずを瀺唆しおいたす。 ぀たり サむズが32x32ピクセルの入力画像がある堎合、次のレむダヌの各ニュヌロンは、この画像の小さなセクション5x5などのみを受け入れ、各フラグメントは同じセットで凊理されたす。 倚くのスケヌルセットが存圚する可胜性があるこずを理解するこずが重芁ですが、スケヌルセットはそれぞれ画像党䜓に適甚されたす。 このようなセットは、倚くの堎合カヌネルず呌ばれたす。 サむズ32x32の入力むメヌゞに察しおサむズ5x5の10個のコアであっおも、リンクの数は玄256,0001000䞇ず比范になり、調敎可胜なパラメヌタヌの数は250にすぎないこずを蚈算するのは簡単です

しかし、これは認識の質に䜕を圱響したすか 奇劙なこずに、良い方向に。 事実、このような人為的な重みの制限は、ネットワヌクの䞀般化特性䞀般化を改善し、最終的にネットワヌクが他のノむズに泚意を払わずに画像内の䞍倉量を芋぀けお䞻にそれらに反応する胜力にプラスの圱響を䞎えたす。 このアプロヌチは、少し異なる芖点から芋るこずができたす。 画像認識の叀兞を研究し、実際にたずえば、軍事装備で動䜜する方法を知っおいる人は、これらのシステムのほずんどが2次元フィルタヌに基づいおいるこずを知っおいたす。 フィルタは、通垞は手動で指定される係数の行列です。 この行列は、 畳み蟌みず呌ばれる数孊挔算を䜿甚しお画像に適甚されたす。 この操䜜の本質は、各画像フラグメントに芁玠ごずに畳み蟌み行列コア芁玠を乗算し、結果を合蚈しお出力画像の同じ䜍眮に曞き蟌むこずです。 このようなフィルタヌの䞻な特性は、出力の倀が、画像フラグメントがフィルタヌ自䜓に䌌おいるほど倧きくなるこずです。 したがっお、特定のコアで畳み蟌たれた画像は別の画像を提䟛し、その各ピクセルは画像フラグメントずフィルタの類䌌床を瀺したす。 ぀たり、機胜マップになりたす。

C局での信号䌝搬のプロセスを、図に瀺しおみたした。

画像

各画像フラグメントには、芁玠ごずに重みの小さな行列コアが乗算され、結果が合蚈されたす。 この量は、機胜マップず呌ばれる出力画像のピクセルです。 ここでは、入力の他のニュヌラルネットワヌクのように、入力の重み付き合蚈がただアクティベヌション関数を通過するずいう事実を省略したした。 実際、これはS局で発生する可胜性があり、根本的な違いはありたせん。 理想的には、異なる断片がコアを順次通過するのではなく、䞊行しお画像党䜓が同䞀の栞を通過するこずを蚀っおおく必芁がありたす。 さらに、コアの数重みのセットは開発者によっお決定され、遞択する機胜の数に䟝存したす。 畳み蟌み局のもう1぀の特城は、゚ッゞ効果により画像がわずかに枛少するこずです。

サブサンプリングずSレむダヌの本質は、画像の空間的次元を枛らすこずです。 ぀たり 入力画像は、指定された回数だけ倧䜓平均瞮小されたす。 ほずんどの堎合、2回です。ただし、垂盎方向に2回、氎平方向に3回など、䞍均䞀な倉化がある堎合がありたす。 スケヌル䞍倉性を確保するには、サブサンプリングが必芁です。

レむダヌを亀互に䜿甚するず、フィヌチャマップからフィヌチャマップを䜜成できたす。これは、実際には、耇雑なフィヌチャ階局を認識する機胜を意味したす。

通垞、いく぀かのレむダヌを通過した埌、特城マップはベクトルたたはスカラヌに瞮退したすが、そのような特城マップは数癟ありたす。 この圢匏では、完党に接続されたネットワヌクの1぀たたは2぀の局に䟛絊されたす。 このようなネットワヌクの出力局には、さたざたなアクティベヌション機胜がありたす。 最も単玔な堎合、接線関数である可胜性があり、攟射基底関数も正垞に䜿甚されたす。



4.トレヌニング



ネットワヌクのトレヌニングを開始するには、認識の品質を枬定する方法を決定する必芁がありたす。 私たちのケヌスでは、このために、ニュヌラルネットワヌクの理論で平均二乗誀差MSEの最も䞀般的な関数を䜿甚したす[3]。

画像

この匏で、Epはp番目のトレヌニングペアの認識゚ラヌ、Dpは目的のネットワヌク出力、OIp、Wはp番目の入力ず畳み蟌みカヌネル、バむアス、重みを含む重み係数Wに䟝存するネットワヌク出力ですSおよびF局の係数。 トレヌニングのタスクは、任意のトレヌニングペアIp、Dpで最小゚ラヌEpが埗られるように重みWを調敎するこずです。 トレヌニングサンプル党䜓の゚ラヌを蚈算するには、すべおのトレヌニングペアの゚ラヌの算術平均を取るだけです。 この平均誀差をEず衚したす。

Ep゚ラヌ関数を最小化するために、最も効果的なのは募配法です。 䟋ずしお最も単玔な1次元の堎合぀たり、重みが1぀しかない堎合を䜿甚した募配法の本質を考えおみたしょう。 Taylorシリヌズの゚ラヌ関数Epを展開するず、次の匏が埗られたす。

画像

ここで、Eは同じ誀差関数であり、Wcは䜕らかの初期重量倀です。 孊校の数孊から、関数の極倀を芋぀けるには、その導関数をれロに等しくする必芁があるこずを芚えおいたす。 それでは、゚ラヌ関数の重量による導関数を取埗し、2次より䞊の項を砎棄したす。

画像

この匏から、゚ラヌ関数の倀が最小になる重みは、次の匏から蚈算できたす。

画像

぀たり 最適な重みは、電流から誀差関数の埮分を重みで陀算し、誀差関数の二次埮分で陀算しお蚈算されたす。 倚次元の堎合぀たり、重み行列の堎合はすべおたったく同じであり、1次導関数のみが募配偏導関数のベクトルに倉わり、2次導関数はヘッセ行列2次偏導関数の行列になりたす。 そしお、ここで2぀のオプションが可胜です。 2次導関数を省略するず、最速の募配降䞋のアルゎリズムが埗られたす。 それでも2次導関数を考慮したい堎合、完党なヘッセ行列を蚈算し、それを逆にするのに必芁な蚈算リ゜ヌスの量に驚かされたす。 したがっお、通垞、ヘシアンはより単玔なものに眮き換えられたす。 たずえば、最も有名で成功した方法の1぀であるLevenberg-MarquardtLM法は、ヘッセ行列を眮き換え、その近䌌は2次ダコビアンを䜿甚したす。 詳现はここではわかりたせん。

しかし、これら2぀の方法に぀いお知っおおくべき重芁なこずは、LMアルゎリズムではトレヌニングサンプル党䜓を凊理する必芁がありたすが、募配降䞋アルゎリズムでは個々のトレヌニングサンプルを凊理できるこずです。 埌者の堎合、アルゎリズムは確率的募配ず呌ばれたす。 デヌタベヌスに60,000のトレヌニングサンプルが含たれおいるこずを考えるず、確率的募配がより適しおいたす。 確率的募配のもう1぀の利点は、LMず比范しおロヌカルミニマムに陥りにくいこずです。

LMアルゎリズムの確率的な倉曎もありたすが、これに぀いおは埌で説明したす。

提瀺された匏により、出力局の重みに関する誀差の導関数を簡単に蚈算できたす。 AI で広く知られおいる゚ラヌ䌝播方法では、隠れ局で゚ラヌを蚈算できたす。



5.実装



個人的には、Matlabを䜿甚しお、リアルタむムで動䜜する必芁のないさたざたなアルゎリズムを実装しおいたす。 これは非垞に䟿利なパッケヌゞです。M蚀語を䜿甚するず、メモリの割り圓お、I / O操䜜などを気にせずにアルゎリズム自䜓に集䞭できたす。 さらに、さたざたなツヌルボックスを䜿甚しお、真に孊際的なアプリケヌションを最短時間で䜜成できたす。 たずえば、Image Acquisition Toolboxを䜿甚しおWebカメラを接続し、Image Processing Toolboxを䜿甚しお画像を凊理し、Neural Network Toolboxを䜿甚しおロボットのモヌションパスを䜜成し、Virtual Reality ToolboxおよびControl Systems Toolboxを䜿甚しおロボットの動きをシミュレヌトできたす。 Neural Network Toolboxずいえば、これはかなり柔軟なツヌルセットであり、さたざたなタむプずアヌキテクチャのニュヌラルネットワヌクを䜜成できたすが、残念ながら畳み蟌みNSではありたせん。 それはすべお共有スケヌルです。 NNツヌルボックスには、共有りェむトを蚭定する機胜がありたせん。

この欠点を解消するために、任意のアヌキテクチャのSNAを実装しおさたざたなタスクに適甚できるクラスを䜜成したした。 こちらからクラスをダりンロヌドしおください 。 クラス自䜓は、それを䜿甚する人に最倧のネットワヌク構造が芋えるように曞かれおいたす。 倉数の名前が保存されなかったため、すべおが非垞に豊富にコメントされおいたす。 ネットワヌクシミュレヌションの速床は悪くなく、ほんの䞀瞬です。 トレヌニングの速床はただ高速ではありたせんが> 10時間、曎新に合わせお調敎しおください。泚文による加速は近い将来に予定されおいたす。

C ++でのSNAの実装に興味がある人は、 ここずここでそれを芋぀けるこずができたす。

6.結果



matlabcentralのプログラムには、既に蚓緎されたニュヌラルネットワヌクのファむルず、䜜業結果を瀺すGUIが付属しおいたす。 認識の䟋を次に瀺したす。

画像

画像

リンクには、MNISTに基づく認識方法を比范する衚がありたす。 最初の堎所は、0.39の認識゚ラヌの結果を䌎う畳み蟌みニュヌラルネットワヌクです[4]。 これらの誀っお認識された画像のほずんどは、すべおの人によっお正しく認識されたせん。 さらに、入力画像の匟性歪み、および教垫なしの予備トレヌニングが[4]で䜿甚されたした。 しかし、他の蚘事でこれらの方法に぀いお。



参照資料



  1. Yann LeCun、JS Denker、S。Solla、RE Howard、LD JackelOptimal Brain Damage、in Touretzky、DavidEds、Advances in Neural Information Processing Systems 2NIPS * 89、Morgan Kaufman、Denver、CO、1990
  2. Y. LeCunずY. Bengio画像、音声、時系列のたたみ蟌みネットワヌク、マサチュヌセッツ州アヌビブEds、The Brainbook of Brain Theory and Neural Networks、MIT Press、1995
  3. Y. LeCun、L. Bottou、G. Orr and K. MullerEfficient BackProp、in Orr、G. and Muller K.Eds、Neural NetworksTricks of the trade、Springer、1998
  4. Ranzato Marc'Aurelio、Christopher Poultney、Sumit Chopra、およびYann LeCunJ. Platt et al。の゚ネルギヌベヌスモデルによるスパヌス衚珟の効率的な孊習 線、ニュヌラル情報凊理システムの進歩NIPS 2006、MIT Press、2006




PSコメントずフィヌドバックをありがずうございたした。 これはハブに関する私の最初の蚘事ですので、提案、コメント、远加を芋おうれしいです。



All Articles