機械孊習における損倱関数の状況に぀いお䜕を知っおいたすか

TL; DR



  1. ディヌプニュヌラルネットワヌクでは、孊習の䞻な障害はサドルポむントであり、以前考えられおいたように局所的な最小倀ではありたせん。
  2. 目的関数のほずんどの極小倀は、重みの比范的小さな郚分空間に集䞭しおいたす。 これらの最小倀に察応するネットワヌクは、テストデヌタセットでほが同じ損倱を䞎えたす。
  3. 景芳の耇雑さは、䞖界的な䜎迷に向かっお増倧したす。 りェむトスペヌスのほが党䜓のボリュヌムでは、サドルポむントの倧郚分には、そこから脱出できる倚数の方向がありたす。 最小のクラスタヌの䞭心に近いほど、パスに沿っお出䌚う点の「゚スケヌプ方向」が少なくなりたす。
  4. 極小の郚分空間でグロヌバルな極倀それらのいずれかを芋぀ける方法はただ䞍明です。 それは非垞に難しいようです。 損倱の芳点ず䞀般化胜力の芳点の䞡方で、兞型的なグロヌバルミニマムが兞型的なロヌカルミニマムよりもはるかに優れおいるずいう事実ではありたせん。
  5. 最小倀の塊には、局所的な最小倀を結ぶ特別な曲線がありたす。 これらの曲線の損倱関数は、極倀自䜓よりもわずかに倧きな倀しか取りたせん。
  6. 䞀郚の研究者は、広い䜎域「穎」の半埄が倧きいは狭い䜎域よりも優れおいるず考えおいたす。 しかし、ネットワヌクの最小幅ず䞀般化胜力ずの関係は非垞に匱いず考える倚くの科孊者がいたす。
  7. 接続をスキップするず、地圢が募配降䞋に適したものになりたす。 残留孊習をたったく䜿甚しない理由はないようです。
  8. ネットワヌク内の局が広くなり、局の数が少ないほど特定の制限たで、目的関数のランドスケヌプがより滑らかになりたす。 残念ながら、ネットワヌクのパラメヌタヌ化が冗長になるほど、ニュヌラルネットワヌクは再トレヌニングの察象ずなりたす。 超ワむドレむダヌを䜿甚する堎合、トレヌニングデヌタセットでグロヌバルな最小倀を芋぀けるのは簡単ですが、そのようなネットワヌクは䞀般化されたせん。


すべお、スクロヌルしたす。 KDPVも入れたせん。



この蚘事は、理論論文のレビュヌ、実隓を䌎う科孊論文のレビュヌ、および盞互比范の3぀の郚分で構成されおいたす。 最初の郚分は少し也いおいお、退屈したらすぐに3番目たでスクロヌルしたす。



しかし、そもそもパラグラフ2の明確化。 クレヌムされた郚分空間の総䜓積は小さくなりたすが、ハむパヌスペヌスの任意のラむンに投圱されるず、範囲が任意に倧きくなりたす。 最小の塊ず、損倱関数が小さい領域の䞡方が含たれおいたす。 2぀の連続した線圢ニュヌロンを想像しおください。 ネットワヌクからの出力で倀になりたす w1w2x 。 したい堎合、恒等関数を再珟する方法を教えたい yx=x 。 L2損倱ネットワヌクに適甚するず、゚ラヌ関数の衚面は次のようになりたす E\シヌタ=w1w2x−x2=x2w1w2−1 



暪座暙のどこが遅れおいるか w1 そしお瞊座暙で- w2 。



明らかに、 w1=1、w2=1 アむデンティティ関数を完党に再珟したすが、同じこずを行いたす w1=−1、w2=−1 そしお、䟋えば w1=−5、w2=− frac15 。 これらはすべおグロヌバルミニマム無限数がありたすであり、グラフの赀バヌガンディ領域はミニマムの郚分空間ですご芧のように、䞡方の軞に沿っお無限に広がりたすが、れロからの距離でたすたす现くなっおいたす。 重みの察称性によるこの動䜜を芳察したすが、この珟象は線圢ネットワヌクに固有のものではありたせん。 正則化によっお郚分的に凊理されたすが、それでも2぀のグロヌバルな最小倀が残りたす。 w1=1、w2=1 そしお w1=−1、w2=−1 正則化による歪みのプラスたたはマむナス。





将来的には、「グロヌバルミニマム」ずは「同䞀のグロヌバルミニマムのいずれか」、「ミニマムの塊」-「ロヌカルミニマムの察称クラスタヌのいずれか」を意味したす。



理論的研究のレビュヌ



ご存知のように、ニュヌラルネットワヌクトレヌニングは、客芳的損倱関数の最小倀の怜玢です E\シヌタ 重みの空間で \シヌタ 。 残念ながら、任意の埮分可胜な関数のグロヌバルな最小倀を芋぀けるこずは、NP耇雑問題のクラスに属したす[1]。 さらに、ニュヌラルネットワヌクは非垞に異なるアヌキテクチャを持ち、入力ずしお任意のデヌタを受け入れるこずができるため、明確に定矩された制限がある1぀の匏の詳现な分析を期埅する理由はありたせん。 機胜 E\シヌタ したがっお、信じられないほど倚次元なので、ブルヌトフォヌス法もここで適甚するのは簡単です。 しかし、兞型的な颚景に関するいく぀かの䞀般的な事実でさえ E\シヌタ かなりの利点をもたらすこずができたす少なくずも実際の研究の䞀般的な方向性を蚭定したす。



最近たで、このようなタむタニックなタスクに察凊したい人はほずんどいたせんでしたが、2014幎初頭にAndrew Saxeなどによっお[2]の蚘事が公開されたした。 盎亀行列。 著者は、SVDのネットワヌクりェむトの積の分解に基づいお興味深い蚈算を取埗し、結果を非線圢ネットワヌクに転送する方法を理論化したす。 Saxeの研究はこの蚘事のトピックずは盎接関係しおいたせんが、他の研究者がニュヌラルネットワヌクの孊習のダむナミクスをより深く調べるように促したした。 特に、2014幎の少し埌に、Yann Dauphinずチヌム[3]は孊習のダむナミクスに関する既存の文献をレビュヌし、Saxeの蚘事だけでなく、ランダムGaussianの臚界点の統蚈に関する2007幎のBray and Dean [4]の䜜業にも泚意を払いたすフィヌルド。 圌らは、ニュヌトン法Saddle Free Newton、SFNの修正を提案しおいたす。これは、サドルポむントをよりよく゚スケヌプするだけでなく、フルガりスの蚈算を必芁ずしたせん最小化はいわゆるクリロフ郚分空間のベクトルに埓いたす。 この蚘事は、ネットワヌクの粟床を改善する非垞に優れたグラフを瀺しおいたす。぀たり、SFNは䜕かを正しく行っおいたす。 次に、Dauphinの蚘事は、重みの空間での重芁な点の分垃に関する新しい研究に匟みを぀けたす。







したがっお、前述の問題の分析にはいく぀かの領域がありたす。



最初の方法は、誰かからちょっずした蚈算を盗み、自分のモデルに適甚するこずです。 このアプロヌチは、スピングラスの理論の方皋匏を䜿甚しお、アンナクロマンスカずチヌム[5] [6]によっお信じられないほど成功したした。 圌らは、次の特性を持぀ニュヌラルネットワヌクの怜蚎に限定されたした。





その埌、圌らはいく぀かの倚かれ少なかれ珟実的な制限をモデルに課したした



  1. ニュヌロンがアクティブになる確率は、ベルヌヌむ分垃によっお蚘述されたす。
  2. 掻性化パスどのニュヌロンがどのニュヌロンを掻性化するかは均等に分垃しおいたす。
  3. 重みの数は、分垃関数を圢成するには過剰です X 。 陀去が孊習や予枬を劚げるスケヌルはありたせん。
  4. 球状の重量制限 \存圚するC frac1 Lambda sumi=1 Lambdawi2=C どこ \ラムダ -ネットワヌク内の重みの数
  5. すべおの入力倉数には、同じ分散の正芏分垃がありたす。


そしお、いく぀かの非珟実的なもの



  1. ニュヌラルネットワヌクのアクティベヌションパスは特定ではありたせん X 。
  2. 入力倉数は互いに独立しおいたす。


これに基づいお、次のステヌトメントが受信されたした。





䞀方では、倚くのテスト枈みの定理をほずんど「無料」で取埗し、特定の条件䞋でニュヌラルネットワヌクがスピングラスず䞀貫した方法で動䜜するこずを瀺しおいたす。 ニュヌラルネットワヌクの悪名高い「ブラックボックス」を開くこずができるものがあれば、それは量子物理孊のマタンです。 しかし、明らかな欠点がありたす非垞に匷い初期前提。 珟実的なグルヌプの1ず2でさえ、私には疑わしいようです。 モデルの最も深刻な制限は、アクティベヌションパスの均䞀な分垃のようです。 掻性化経路の小さなグルヌプがデヌタセットの芁玠の95の分類を担圓しおいる堎合はどうなりたすか ネットワヌク内にネットワヌクを圢成するこずが刀明したす。 \ラムダ 。



远加の問題がありたす。Chromanskaの発蚀は改ざんが困難です。 「悪い」局所最小倀を衚す重みの䟋を構築するこずはそれほど難しくはありたせんが[7]、これは蚘事のメッセヌゞず矛盟しおいないようです。それらのステヌトメントは倧芏暡ネットワヌクで満たされる必芁がありたす。 ただし、MNISTなどの分類が䞍十分な䞭皋床のフィヌドフォワヌドネットワヌクに提䟛される䞀連のスケヌルでさえも、「悪い」ロヌカルミニマムに遭遇する確率はれロになる傟向があるず䞻匵しおいるので、匷力な蚌拠ずは蚀えたせん。 さらに、「適切に蚓緎されたディヌプニュヌラルネットワヌク」は、かなり緩い抂念です...







2番目のアプロヌチでは、可胜な限り単玔なニュヌラルネットワヌクのモデルを構築し、珟代の機械孊習モンスタヌを蚘述するこずができる状態に反埩的に移行したす。 私たちは長い間基本的なモデルを持っおいたした-これらは線圢ニュヌラルネットワヌクですすなわち、掻性化機胜を持぀ネットワヌク fx=x 1぀の非衚瀺レむダヌ。 圌らは分析に圹立ち、長い間それらを研究しおきたしたが、䞀般に線圢ネットワヌクはあたり有甚ではないため、これらの理論研究の結果は誰にずっおもほずんど興味がありたせんでした。



少なくずも、最近たで興味を持った人はほずんどいたせんでした。 局サむズずデヌタプロパティに察するかなり匱い制限を䜿甚しお、Kawaji Kenji [8]は1989幎の[9]の結果を展開し、L2損倱を䌎う特定の線圢ニュヌラルネットワヌクにおいお



  1. でも E\シヌタ 非凞および非凹
  2. すべおのロヌカル最小倀はグロヌバルです耇数ある堎合がありたす
  3. そしお、他のすべおの重芁なポむントはサドルです
  4. もし \シヌタ -損倱関数のnetwork点ずネットワヌクの重みの行列積のランクは、ニュヌラルネットワヌクの最も狭い局のランクに等しく、次にヘッシアンは E\シヌタ 少なくずも1぀の厳密に負の固有倀を持ちたす。


積のランクが小さい堎合、ヘッセ行列の固有倀がれロになる可胜性がありたす。これは、厳密でない極小倀に到達するかaddle点に到達するかを簡単に理解できないこずを意味したす。 機胜ず比范する fx=x3 れロで fx= max0、x3+ min0、x+13 で x=0.5 。



その埌、川口はReLuアクティベヌションを䜿甚したネットワヌクを考慮し、チョロマンスカの制限をわずかに緩和し[6]、ReLu非線圢性ずL2損倱を含むニュヌラルネットワヌクに぀いお同じステヌトメントを蚌明したす。 次の論文[10]では、同じ著者がより簡単な蚌明を䞎えおいたす。 蚈算[8]ず残差孊習の成功に觊発されたHardtMa [11]は、スキップ接続を䜿甚した線圢ネットワヌクのステヌトメントがさらに匷力であるこずを蚌明したす。特定の条件䞋では、ヘッシアンの負の固有倀のない「悪い」臚界点さえありたせん[ 12]ネットワヌクの「短絡」がランドスケヌプを改善する理由の理論的正圓化、および[13]グラフの䟋 E\シヌタ スキップ接続を远加する前埌。



蓄積された知識ベヌスは、Yun、SraJadbabaieの最近登堎した䜜品[14]に芁玄されおいたす。 著者は川口の定理を匷化し、クロマンスカのように、 線圢ニュヌラルネットワヌクの重みの空間を点のみを含む郚分空間ず、グロヌバル最小倀のみを含む郚分空間に分割したす必芁十分条件が䞎えられおいたす。 さらに、科孊者たちは぀いに、私たちが興味を持っおいる方向に䞀歩螏み出し、非線圢ニュヌラルネットワヌクに察する同様のステヌトメントを蚌明しおいたす。 埌者は非垞に匷力な前提条件で行われたすが、これらはクロマンスカの条件ずは異なる前提条件です。



芖芚化の抂芁



3番目のアプロヌチは、孊習プロセスにおけるヘッセ行列の倀の分析です。 数孊者には、2次の最適化手法が長い間知られおいたす。 機械孊習の専門家はずきどきそれらをいじりたす数孊者ではなく、メ゜ッドで...数孊者でもが、切り捚おられた2次降䞋アルゎリズムでさえ特に人気がありたせんでした。 これの䞻な理由は、二次導関数を考慮しお、降䞋に必芁なデヌタを蚈算するコストにありたす。 正盎に蚈算されたヘッセ行列は、メモリの重みの数の2乗を取りたす。ネットワヌクに100䞇個のパラメヌタヌがある堎合、2次導関数の行列には 1012 。 しかし、私はただこの行列の固有倀を䜕らかの圢で蚈算したい...



同じ理由で、孊習プロセスでヘッセ行列のダむナミクスを調べる䜜品はほずんどありたせん。 より正確には、Yann LeCunずこれに特化した䌚瀟[34]による1぀の䜜品を芋぀け、それでも比范的原始的なネットワヌクで動䜜したす。 さらに、[3]ず[12]には、関連するコメントずグラフがいく぀かありたす。



LeCun [34]ヘッセ行列は、トレヌニング党䜓を通しおほがれロの倀で構成されおいたす。 最適化䞭、ヘッセのヒストグラムはさらにれロに圧瞮されたす。 れロ以倖の倀は䞍均等に分垃したす。長いテヌルは正の偎にスロヌされ、負の倀はれロ近くに集䞭したす。 倚くの堎合、トレヌニングが停止したように芋えたすが、小さな募配のあるプヌルにたどり着きたした。 ブレヌクポむントには、ヘッセ行列の負の固有倀がありたす。





デヌタが耇雑になるほど、固有倀の分垃の正の裟が長くなりたす。







ネットワヌク内のパラメヌタヌが倚いほど、䞡方向に固有倀のヒストグラムが䌞びたす。







Dauphin et al。[3]軞に沿ったグラフAおよびCに぀いお x トレヌニングが停止した臚界点での負の倀の盞察的な郚分 y トレヌニングサンプルの゚ラヌを延期したした。 グラフBずDは、それぞれグラフAずCからの3点の2次導関数の行列の固有倀のヒストグラムを瀺しおいたす。 LeCunヒストグラムず䞀臎しおいるこずに泚意しおください。



addle点からの脱出方向の数ずその䞭のネットワヌクの品質ずの盞関関係がはっきりず芋えたす。



OrhanPitkow [12]ヘシアンの瞮退固有倀ず負の固有倀の盞察数を瀺したす。 この蚘事は、[3]および[34]ずたったく同じこずを蚀っおいるわけではありたせんが、䞀般的にグラフは間接的に2぀の以前の䜜品の結果を確認したす。







4番目の方法-盎接的な景芳分析 E\シヌタ 投圱の芖芚化を䜿甚したす。 アむデアは簡単ですが、すでに述べたように、それを適甚するのは簡単ではありたせん。 \シヌタ 数癟䞇の重みがあるかもしれたせん。 通垞、2皮類の芖芚化が考慮されたす。倉曎時の損倱関数の倀 \シヌタ 曲線に沿った重みの空間ず、点の近くの損倱関数のグラフ  theta in theta0+a vecv1+b vecv2 どこで  vecv1 そしお  vecv2 -重み空間の断面平面を定矩するいく぀かのベクトル。 1次元投圱の堎合、通垞、ネットワヌクの初期状態から最終状態ぞの遷移盎接たたは孊習曲線に沿っお、たたは2぀の最終状態間の遷移が芖芚化されたす。 2次元状態では、孊習曲線の最終郚分のPCA分解で最も重芁な2぀のベクトルが通垞䜿甚されたす。 倚次元性に加えお、目的関数を芖芚化する問題は、本質的に同じ最小倀が非垞に異なる重みを持぀可胜性があるずいう事実によっお耇雑になりたす。 たずえば、線圢ニュヌラルネットワヌクで1぀の局の重みが a 回、そしお圌の埌の次の-で a 時間が増えるず、結果ずしお埗られる重みのセットずそれらの呚囲の空間の領域は非垞に異なりたすが、孊習された特城は本質的に同じになりたす。 分析のための远加の枬定倀は、最小化のタむプたたはそれが取埗された特定の皮類の最小化のパラメヌタヌです。 \シヌタ 。



これらの䜜品の1぀は[16]です。 その䞭で、研究者はSGD、Adam、Adadelta、およびRMSPropを䜿甚した起動゚ンドポむント間のギャップを調べたす。 他の倚くの䜜品ず同様に、異なるアルゎリズムが特城的に異なる最小倀を芋぀けるこずがわかりたす。 たた、この蚘事の著者は、トレヌニング䞭にアルゎリズムのタむプを倉曎するず、 \シヌタ コヌスを別の最小倀に倉曎したす。 2番目のボヌナスずしお、研究者はバッチ正芏化゚ンドポむント間のランドスケヌプがランドスケヌプにどのように圱響するかを調べ、最初にバッチ正芏化を行うず、結果の最小倀の品質は初期化ポむントにあたり䟝存せず、2番目に最終的な \シヌタ 「壁」は目的関数のランドスケヌプに衚瀺されたす-非垞に倧きな倀を持぀狭いセクション E\シヌタ これがどこから来お䜕をすべきかは明らかではありたせん。 いずれにせよ、損倱の「䞘」は䞊のグラフの䜎域の間に芋えたすが、なんらかの耇雑な衚面ではありたせん。







今、私たちは重みの空間における2぀の最小倀の間であるこずが蚌明されおいる研究グルヌプにもっず興味を持っおいたす  theta1 そしお  theta2 ほずんどの堎合、損倱関数が超えない長さ党䜓に沿っお曲線を描くこずができたす  maxE theta1、E theta2+ epsilon のために \むプシロン れロから特定の境界で分離されおいたすが、損倱関数の兞型的な倀よりもかなり小さい[17] [18] [19]。 このような曲線を䞀床に圢成するには、いく぀かの方法がありたす。原則ずしお、単玔なセグメントを  theta1 そしお  theta2 リンクに分割され、その埌、募配降䞋でそれらを接続するノヌドがスケヌルのスペヌスを移動したす。 たずえば、このような曲線を䜿甚するず、より優れたネットワヌクのアンサンブルを収集できたす[18]。 圌らの結果は、最小のクラスタヌが「倚孔性」構造を持っおいるこずを瀺しおいたす。







同じ貯金箱には、囜際的な科孊者チヌム[23]からの非垞に最近の蚘事がありたす。  thetat そしお  thetat+1 そしお、時々の募配の方向の間の角床 t そしお t+1 。 トレヌニングの開始時に、隣接するステップの募配はほが䞀方向に向けられ、゚ラヌ関数は単調に枛少したすが、ある時点から E\シヌタ 間に  thetat そしお  thetat+1 は、特城的な最小倀を瀺し始め、募配間の角床は〜170床になる傟向がありたす。 確かに、募配降䞋はわずかな募配で「walls」の壁から「跳ね返る」可胜性が非垞に高いです デヌタセット党䜓を䜿甚しお募配降䞋を実行するず、画像がよりきれいになりたす。 ミニバッチを䜿甚するず、認識を超えお画像が歪められたすが、これは論理的です。 孊習率は、角床のグラフには圱響したせんが、batch'eyのサむズには非垞に圱響したす。 研究者は、極小倀の亀点を芋぀けたせんでした。







これたで、芋぀かった最小倀の品質はその深さにのみ䟝存するず考えられおいたした。 ただし、倚くの研究者は、最小倀の幅も重芁であるこずに泚意しおいたす。 正匏には、さたざたな方法で定矩できたす。 さたざたな定匏化は行いたせんただ芋たい堎合は[20]を参照しおください、ここで䞻なアむデアを理解するだけで十分です。 以䞋に図を瀺したす。







巊偎の黒いグラフの最小倀は広く、右偎のグラフは狭くなっおいたす。 なぜそれが重芁なのですか トレヌニングデヌタの分垃は、テストデヌタの分垃ず完党には䞀臎したせん。 最小ず仮定するこずができたす E∗\シヌタ テストデヌタでは、元の関数の最小倀ずわずかに異なるように芋えたす E\シヌタ 特に \シヌタ 䜎倀は互いに盞殺される可胜性がありたす。 しかし、そのような歪みが広範囲にわたっおひどいものでない堎合、狭い歪みは認識できないほど倉化する可胜性がありたす。 再び、䞊の図に目を向けおください。 黒いグラフがオリゞナルであるこずを受け入れる堎合 E\シヌタ 赀はテスト甚であるため、これがどのような問題に぀ながるかをすぐに確認できたす。



実際には、倧きなバッチを䜿甚した募配降䞋法では、トレヌニングセットでは䜓系的にわずかに優れた結果が埗られたすが、テストセットでは倱われたす。 これは、倚くの堎合、小さなバッチがタヌゲット分垃の掚定にノむズを発生させ、解決できないこずによるものです。 \シヌタ 最小限[21]。 䞊の写真ずほが同じこずが起こりたす。機胜は絶えず倉化し今回は意図的に、谷の代わりに隆起が圢成されたす。 このような「攪拌」ず狭いくがみの \シヌタ 捚おられたすが、広くはありたせん。 [21]の著者は、小さなサブサンプルサむズでトレヌニングする堎合も次のように䞻匵しおいたす。 そうでない堎合よりも、初期化の芳点から非垞に遠くに実行されたす。このような指暙は、「募配降䞋アルゎリズムの研究胜力」ずいう甚語で説明されおおり、良奜な結果を達成するためにも奜たしいず考えられおいたす。悲しいかな、それほど単玔ではありたせん。䞊蚘の問題に盎面しおいたす。最小倀の幅はパラメヌタヌ化に䟝存したす[20]。ReLuアクティベヌションを䜿甚するネットワヌクでは、2぀の重みセットの䟋を䜜成するのに十分簡単です。\シヌタ



Ξ1 そしお 、本質的に同䞀のネットワヌクですが、Ξ2 -狭い最小倀、Ξ1 -広いです。より具䜓的な䟋は[13]で芋るこずができたす。正則化をオンにするず、loss'a補間グラフの狭い䜎域ず広い䜎域が眮き換わりたす。 22]。非垞に著名な科孊者はヘッセ行列のもっずもらしいヒストグラムを瀺しおいたすが、品質の向䞊はほずんど目に芋えたせん。Ξ2











クロス比范



では、䜕がありたすか







クロマンスカ[5]、川口[8]、およびナン[14]の理論的研究は互いに䞀臎しおいたす。線圢ニュヌラルネットワヌクは単玔な特殊なケヌスであり、耇雑なランドスケヌプの内郚ゟヌンの代わりに、クリヌンなグロヌバルミニマムを取埗するこずは論理的です「あちこち」に「サドルゟヌン」があるにもかかわらず。[14]では、入力関数に察しおより匷い条件が蚭定されおいたす。



理論ず実践の関係



  1. 極小の郚分空間の耇雑な景芳に関するクロマンスカの䞻匵は、極小間の䜎゚ネルギヌ曲線を構築する䜜業ず䞀臎しおいたす。 E(Ξ) [17][18][19], , , c snapshot-[24]. [19] , «» , — [5].
  2. Chromanska «» , , [3]: loss'.
  3. [23], «» .
  4. ( loss' ?), , [25]. , / .
  5. [12] [11], [8] [14], residual learning , [13].
  6. , SGD , Adam [26][27]. SGD , . , 100 , 100 . , , , .
  7. , , . «» : -, « » , , [19], -, [32] ( [31]), -, , [33]. (optimal brain damage, ).


私の意芋では、声明は、呚囲の最小倀ず同じ䞀般化胜力を持っおいるため、グロヌバルな最小倀を探すべきではないこずを蚌明しおいたせん。経隓的経隓から、同じ最小化噚の異なる開始によっお埗られたネットワヌクは、異なる芁玠でミスを犯すこずが瀺唆されおいたすたずえば、[16]たたはネットワヌクアンサンブルに捧げられた研究の䞍協和グラフを参照。孊習した機胜の分析でも同じこずが蚀えたす。 [25]では、最も有甚な機胜のほずんどが安定しお孊習されるが、補助的な機胜の䞀郚は孊習されないずいう芳点が守られおいたす。すべおのたれなフィルタヌを組み合わせる必芁がありたすか繰り返したすが、同じモデルの異なるバヌゞョンで構成されるアンサンブル[24]およびニュヌラルネットワヌクでの重みの冗長性[28]を思い出しおください。自信を呌び起こすどういうわけか、モデルを起動するたびにベストを取り、モデル自䜓を倉曎せずに予枬を倧幅に改善するこずができたす。䞀連の䜎地の地圢が実際に募配降䞋に察しお䞍可避的に通過できない堎合、到達するずSGDから進化戊略[31]たたは同様のものに切り替えるこずができるように思えたす。



ただし、これらは単なる実蚌されおいない考えでもありたす。たぶん、確かに、黒の癟䞇次元のハむパヌスペヌスに黒猫がいないのを探しおはいけたせん。損倱で小数点第5䜍を争うのは愚かなこずです。これを明確に理解するこずで、科孊界は新しいネットワヌクアヌキテクチャに集䞭するようになりたす。ResNetは優れおいたすが、なぜ他の䜕かを思い付かないのですかたた、デヌタの前凊理ず埌凊理を忘れないでください。可胜であれば、倉換は、分垃の基になる折り畳みを「むき出しにする」ために、無芖しないでください。䞀般的に、「損倱関数のグロヌバルな最小倀を芋぀ける」こずをもう䞀床思い出す䟡倀がありたす。X



「出力で適切に機胜するネットワヌクを取埗したす。」グロヌバルな最小倀の远求では、ネットワヌクを完党な障害状態に再蚓緎するこずは非垞に簡単です[35]。私の意芋では、科孊コミュニティはどこぞ進むべきでしょうか≠







  1. 募配降䞋の新しい修正方法を詊しおみる必芁がありたす。これは、methods点で地圢を十分に暪断できたす。できれば、ヘッセ行列を䜿甚した1次のメ゜ッドであれば、どんなバカでもできたす。このテヌマに関しおは、芋栄えの良い移怍片に関する研究がすでに行われおいたす[29] [30]が、この研究分野にはただ倚くの䜎品質の果物がありたす。
  2. 䜎域の郚分空間に぀いおもっず知りたいです。その特性は䜕ですか十分な数の極小倀を受け取った埌、グロヌバルな、たたは少なくずもより良いロヌカルな䜍眮がどこにあるかを掚定するこずは可胜ですか
  3. 理論的研究は䞻にL2-loss'eに集䞭しおいたす。クロス゚ントロピヌが景芳にどのように圱響するかを芋るのは興味深いでしょう。
  4. 広い/狭い䜎域の状況は明確ではありたせん。
  5. グロヌバルミニマムの質に぀いおは疑問が残っおいたす。


読者の䞭に、すぐに機械孊習の卒業蚌曞を守る孊生がいる堎合、最初のタスクを詊しおみるこずをお勧めしたす。芋方がわかれば、健康的なものを芋぀けるのがずっず簡単になりたす。入力デヌタを倉えおLeCun [34]の仕事を再珟しようずするこずも興味深いです。



今のずころすべおです。科孊界のむベントをフォロヌしおください。



生産的な議論をしおくれたOpen Data Scienceコミュニティのasobolevに感謝したす。



参照資料
[1]アラバマ州ブルヌムおよびRL州リベスト。 3ノヌドのニュヌラルネットワヌクのトレヌニングは、np完党です。 1992。

[2] Saxe、McClellandおよびGanguli; ディヌプリニアニュヌラルネットワヌクの孊習の非線圢ダむナミクスの正確な゜リュヌション。 2014幎2月19日。Google Scholarでの305件の匕甚

[3] Yann N. Dauphin et al; 高次元の非凞最適化における点問題の特定ず攻撃。 2014幎6月10日Google Scholarでの372件の匕甚、この蚘事に泚意しおください

[4]アランJ.ブレむずデビッドS.ディヌン。 倧次元空間䞊のガりス堎の臚界点の統蚈。 2007幎

[5]アンナ・チョロマンスカら。 倚局ネットワヌクの損倱面。 2015幎1月21日Google Scholarでの317件の匕甚、この蚘事をご芧ください

[6]アンナ・チョロマンスカら。 未解決の問題倚局ネットワヌクの損倱面の颚景。 2015

[7] Grzegorz Swirszcz、Wojciech Marian Czarnecki、Razvan Pascanu。 ニュヌラルネットワヌクのトレヌニングのロヌカルミニマム; 2017幎2月17日

[8]川口健二; 貧匱なロヌカルミニマムのない深局孊習 2016幎12月27日。Research Gateの70件の匕甚、この蚘事に泚意しおください

[9] Baldi、Pierre、Hornik、Kurt。 ニュヌラルネットワヌクず䞻成分分析極小倀なしの䟋からの孊習。 1989。

[9]ハむハオ・ルヌケンゞ・カワグチ; 深さは悪いロヌカルミニマムを䜜成したせん。 2017幎5月24日。

[11] Moritz HardtずTengyu Ma; ディヌプラヌニングではアむデンティティが重芁です。 2016幎12月11日。

[12] A. Emin Orhan、Xaq Pitkow; 接続をスキップしお特異点を排陀したす。 2018幎3月4日

[13] Hao Li、Zheng Xu、Gavin Taylor、Christoph Studer、Tom Goldstein。 ニュヌラルネットの損倱状況の芖芚化。 2018幎3月5日この蚘事に泚意しおください

[14]チュルヒ・ナン、スノリット・スラ、アリ・ゞャドババむ゚。 ディヌプニュヌラルネットワヌクのグロヌバル最適条件。 2018幎2月1日この蚘事に泚意しおください

[15] Kkat; フォヌルアりト゚ク゚ストリア; 2012幎1月25日

[16]ダニ゚ル・ゞりン・むム、マむケル・タオ、クリスティン・ブラン゜ン。 深いネットワヌク損倱サヌハスの実蚌分析。

[17] C.ダニ゚ルフリヌマン。 半修正されたネットワヌク最適化のトポロゞずゞオメトリ。 2017幎6月1日。

[18]ティムヌル・ガリポフ、パベル・むズマむロフ、ドミトリヌ・ポドプリキン、ドミトリヌ・ノェトロフ、アンドリュヌ・ゎヌドン・りィル゜ン。 損倱衚面、モヌド接続、およびDNNの高速アンサンブル。 2018幎3月1日

[19] Felix Draxler、Kambis Veschgini、Manfred Salmhofer、Fred A. Hamprecht。 ニュヌラルネットワヌクの゚ネルギヌ環境には本質的に障壁はありたせん。 2018幎3月2日この蚘事に泚意しおください

[20]ロヌラン・ディン、ラズノァン・パスカヌヌ、サミヌ・ベンゞオ、ペシュア・ベンゞオ。 シャヌプミニマはディヌプネットに䞀般化できたす。 2017幎5月15日

[21] Nitish Shirish Keskar、Dheevatsa Mudigere、Jorge Nocedal、Mikhail Smelyanskiy、およびPing Tak Peter Tang。 ディヌプラヌニングのための倧芏暡バッチトレヌニング䞀般化ギャップずシャヌプミニマ; 2017幎2月9日

[22] Pratik Chaudhari、Anna Choromanska、Stefano Soatto、Yann LeCun、Carlo Baldassi、Christian Borgs、Jennifer Chayes、Levent Sagun、Riccardo Zecchina。 ゚ントロピヌ-SGD広い谷ぞの募配降䞋法; 2017幎4月21日

[23] Chen Xing、Devansh Arpit、Christos Tsirigotis、Yoshua Bengio。 SGDを䜿甚したりォヌク。 2018幎3月7日

[24] habrahabr.ru/post/332534

[25] Yixuan Li、Jason Yosinski、Jeff Clune、Hod Lipson、およびJohn Hopcroft。 収束孊習異なるニュヌラルネットワヌクは同じ衚珟を孊習したすか 2016幎2月28日この蚘事に泚意しおください

[26] Ashia C. Wilson、Rebecca Roelofs、Mitchell Stern、Nathan Srebro、Benjamin Recht。 機械孊習における適応募配法の限界倀

[27] shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-the-best-optimizer-dogs-vs-cats-toy-experiment

[28]ミシャデニル、ババクシャキビ、ロヌランディン、マルクアりレリオランザヌト、ナンドデフレむタス。 ディヌプラヌニングのパラメヌタヌの予枬。 2014幎10月27日

[29]アヌメン・アガゞャニャン。 充電ポむントの正芏化サドルポむント問題の効率的な゜リュヌション。 2016幎9月29日。

[30]黄海平、豊泉倪郎。 ディヌプニュヌラルネットワヌク孊習のための匷化された確率的募配降䞋; 2017幎11月22日。

[31] habrahabr.ru/post/350136

[32]クむン・グ゚ン、マティアス・ハむン。 ディヌプおよびワむドニュヌラルネットワヌクの損倱面。 2017幎6月12日

[33] Itay Safran、Ohad Shamir; 過剰に指定されたニュヌラルネットワヌクの初期流域の品質。 2016幎6月14日

[34] Levent Sagun、Leon Bottou、Yann LeCun; 深局孊習におけるヘッセ行列の固有倀特異性ずその先; 2017幎10月5日

[35] www.argmin.net/2016/04/18/bottoming-out




All Articles