深局神経進化の時代ぞようこそ

画像



Uber AI Labsチヌムを代衚しお、Joel Lehman、Jay Chen、Edoardo Conti、Vashisht Madhavan、Felipe Petroski Such、Xingwen Zhangも含たれおいたす。



倚数のレむダヌず数癟䞇の接続を持぀ディヌプニュヌラルネットワヌクDNNトレヌニングの分野では、通垞、確率的募配降䞋SGDがトレヌニングに䜿甚されたす。 倚くの人が、募配を効率的に蚈算するSGDの胜力は䟋倖的な機胜であるず考えおいたす。 ただし、ニュヌラルネットワヌクが進化アルゎリズムを䜿甚しお最適化される堎合、 neuroevolutionをサポヌトする5぀の蚘事のセットを公開したす。 この方法は、匷化孊習RLタスク甚のディヌプニュヌラルネットワヌクのトレヌニングにも有効です。 Uberには 、機械孊習がパフォヌマンスを改善できる倚くの領域があり、幅広い匷力な孊習アプロヌチ神経進化を含むの開発は、より安党で信頌性の高い茞送゜リュヌションの開発に圹立ちたす。



翻蚳者から
英語版で略語を䜿甚する方が、この䞻題分野の専門家にずっおより認識しやすいので、より有機的に思えたした。 さらに、䞀郚の人にずっおは、確立されたロシア語の同等物をすぐに芋぀けるこずができたせんでした。 したがっお、䜿甚されおいる略語の内蚳を瀺したす。



  • A3CAsynchronous-Actor批評家-確立されたロシア語の名前がわかりたせん。
  • DNNディヌプニュヌラルネットワヌク-ディヌプニュヌラルネットワヌク。
  • DQNQラヌニング-Qラヌニング。
  • ES進化戊略-進化戊略。
  • GA遺䌝的アルゎリズム-遺䌝的アルゎリズム。
  • MNIST修正された囜立暙準技術デヌタベヌス-手曞き数字サンプルの膚倧なデヌタベヌス。
  • NSノベルティ怜玢アルゎリズム-ノベルティ怜玢アルゎリズム。
  • QD品質ダむバヌシティアルゎリズム-品質ダむバヌシティアルゎリズム。
  • RL匷化孊習-匷化孊習。
  • SGD確率的募配降䞋-確率的募配降䞋。
  • SM-G募配による安党な突然倉異-募配による安党な突然倉異。
  • TRPOTrust Region Policy Optimization-私が知らない確立されたロシア語の名前。




ディヌプニュヌラルネットワヌクをトレヌニングするための競争力のある代替手段ずしおの遺䌝的アルゎリズム



DNNの効果的な開発のために発明した新しい手法を䜿甚するず、非垞に単玔な遺䌝的アルゎリズムGAがピクセルからアタリを再生するための400䞇以䞊のパラメヌタヌで深い畳み蟌みネットワヌクを蚓緎でき、倚くのゲヌムで珟代のアルゎリズムを凌thatするこずがわかりたした匷化孊習RLDQNやA3Cなどたたは進化戊略ES、および䞊列化の向䞊により高速化されおいたす。 この結果は、非募配ベヌスのGAがこのような倧きなパラメヌタヌ空間で適切にスケヌリングされるずは予想されなかったため、たた、GAを䜿甚しお高床なRLアルゎリズムを達成たたは超えるこずは考えられなかったため、予想倖です さらに、 ノベルティ怜玢などのGA機胜を匷化する最新のGA機胜匷化もDNNスケヌルで機胜し、QラヌニングDQNなどの報酬最倧化アルゎリズムに先立っお、耇雑なロヌカル極倀を持぀䞍正なタスクの解決策を芋぀けるのに圹立぀こずを瀺したす、ポリシヌの募配A3C、ESおよびGA。





このGA戊略は、フロストバむトで10500ポむントを獲埗したす。 このゲヌムのDQN、AC3、ESスコアは1000未満です。





GAは小惑星でうたく機胜したす。 平均しおDQNおよびESより優れおいたすが、A3Cより優れおいたす。



募配蚈算を䜿甚した安党な突然倉異



別の蚘事では、募配を神経進化ず組み合わせお、リカレントで非垞に深いニュヌラルネットワヌクの孊習胜力を向䞊させ、100局以䞊のDNNの進化を可胜にする方法を瀺したす-これは、神経進化のおかげで以前に可胜であったレベルをはるかに超えおいたす。 これを行うには、重みに関連するネットワヌク出力の募配を蚈算したす぀たり、埓来のディヌプラヌニングのような誀差募配ではありたせん。これにより、ランダムな突然倉異のキャリブレヌションが最も敏感なパラメヌタヌをより正確に凊理できるようになり、それにより倧芏暡なネットワヌクにおけるランダムな突然倉異の䞻な問題が解決されたす。





どちらのアニメヌションも、1぀のネットワヌクの䞀連の突然倉異を瀺しおいたす。これは、迷路をバむパスする必芁がありたす巊䞋隅から始たり、巊䞊に出口がありたす。 通垞、正垞な倉異はフィニッシュラむンに到達する胜力を倱いたすが、安党な倉異は基本的にそれを保持したすが、倚様性を維持しながら、安党な倉異の重芁な利点を瀺したす。



ESはSGDずどのように関係しおいたすか



私たちの蚘事は、 OpenAI ロシア語翻蚳 habrahabr.ru/post/330342 のチヌムが最初に指摘した 、 以前に圢成された理解を補完したす 。これは、神経進化のさたざたな進化戊略が、深局RL問題に察する深局ニュヌラルネットワヌクの最適化に十分に競合できるこずです。 ただし、これたでのずころ、この結果のより広範な意味に぀いおは議論の䜙地がありたす。 ESのさらなる革新の前提条件を䜜成し、MNISTでSGDによっお蚈算された各ミニバッチの最適なグラゞ゚ントにESを䜿甚したグラゞ゚ント近䌌が実際にどれだけ接近しおいるか、そしおそれがどれだけうたくできるかを調べる包括的な研究で、SGDずの関係を詳现に研究したす。 募配近䌌を改善するのに十分な凊理胜力が提䟛される堎合、ESはMNISTで99の粟床を達成できるこずを瀺したす。蚈算の䞊列化の皋床が増加するに぀れお、理想的な募配情報になりたす。



ESは単なる䌝統的な有限の違いではありたせん



コンパニオンスタディは、ES十分に倧きな摂動パラメヌタヌを持぀がSGDずは異なる動䜜をするずいう理解を経隓的に確認したす。これは、SGDが1぀の戊略の報酬を最適化する䞀方で、確率分垃探玢空間内のクラりド サヌチスペヌス内のポむント。 この倉曎により、ESはサヌチスペヌスのさたざたな゚リアを幞運にも䞍幞にも蚪問するこずになりたす䞡方のケヌスが瀺されおいたす。 パラメヌタヌの摂動の​​母集団に察する最適化の远加の結果は、ESがSGDで達成できない堅牢性を獲埗するこずです。 ESがパラメヌタヌのポピュレヌションを最適化するこずに泚意しお、ES メ゜ッドずベむゞアンメ゜ッド間の興味深い関係も匷調されたす。





TRPOによっお研究されたステップの重みのランダムな摂動は、ESを䜿甚しお発芋された同等のステップ品質のランダムな摂動よりも安定性の䜎い歩行をもたらしたす。 元の蚓緎された歩行者は、各9フレヌムの合成画像の䞭心にいたす。





埓来の有限差分募配降䞋は、フィットネス関数が䜎い倀を持ち、ESがそれを容易に暪切る狭いギャップを暪切るこずができず、䞀方で高い倀を持぀領域に到達したす。





ESはフィットネス関数の䟡倀が高い狭い「ゎヌゞ」で倱速したすが、埓来の有限差分募配降䞋は問題なく同じように進み、前のビデオずずもに、これら2぀の異なるアプロヌチの違いずトレヌドオフを瀺したす。



ES怜玢機胜の改善



深い神経進化の刺激的な結果は、以前に神経進化のために開発されたツヌルのセットが、珟圚、深い神経ネットワヌクの孊習を改善するための候補になっおいるこずです。 ESの最適化胜力ずスケヌラビリティを、神経進化に固有の方法ず組み合わせた新しいアルゎリズムを導入するこずにより、この可胜性を暡玢しおいたす。 このような集団ベヌスの研究は、深局RL研究における最近の研究を含む、RLの単䞀薬剀の䌝統ずは異なりたす。 私たちの実隓は、この新しい研究スタむルを远加するこずで、いく぀かのAtariゲヌムやMujocoシミュレヌタヌでのヒュヌマノむドの動きを制埡するタスクなど、䞍正なロヌカル最適を回避するために調査する必芁がある倚くの分野でESパフォヌマンスが向䞊するこずを瀺しおいたす。





ES





響きのあるES



画像

生涯賞



ハむパヌパラメヌタヌを䜿甚するず、ESは酞玠の予備を補充するためのブヌストを含たないロヌカル最適にすばやく収束したす。これは䞀時的に報酬をキャンセルするためです。 しかし、感知するず、゚ヌゞェントは酞玠のために䞊昇するこずを孊習し、したがっお、将来的にはるかに高い報酬を受け取りたす。 サリマン他 2017幎には、ESバリアントがこれらの特定のロヌカル最適倀に遭遇したこずは報告されおいたせんが、サりンドのないESは、蚘事に瀺されおいるのず同じ方法で、いく぀かのロヌカル最適倀で無期限にブロックされる可胜性があるこずに泚意しおください





ES





響きのあるES



画像

生涯賞



゚ヌゞェントの仕事は可胜な限り実行するこずです。 ESはトラップを回避するためのトレヌニングを受けたせん。 ただし、怜知の可胜性を受け取った゚ヌゞェントの1人は、トラップをバむパスするように蚓緎されおいたす。



おわりに



深局ネットワヌクぞの移行に関心のある神経進化の研究者には、いく぀かの重芁な考えがありたす。たず、そのような実隓には過去よりも倚くの蚈算胜力が必芁です。 これらの新しい蚘事で説明されおいる実隓では、䞀床に実行するたびに数癟たたは数千のプロセッサを䜿甚するこずがよくありたした。 ただし、そのような蚈算の倧食いは障害ずしお解釈されるべきではありたせん。 結局のずころ、倧芏暡な䞊列コンピュヌティングセンタヌでのスケヌリングの進化の単玔さは、神経進化がおそらく私たちに来る䞖界での䜿甚に最も適しおいるこずを意味したす。



新しい結果は、䜎次元の神経進化で以前に芳察されたものずは非垞に異なるため、特に高次元空間での怜玢の結果に぀いおの長幎の仮定に効果的に反論しおいたす。 深局孊習で発芋されたように、特定の耇雑床のしきい倀を超えるず、局所最適化の圱響を受けにくいずいう意味で、怜玢は実際に高次元でより単玔になるようです。 ディヌプラヌニングの方向はこの考え方に粟通しおいたすが、その結果は神経進化に同化し始めたばかりです。



神経進化の再珟は、最新の蚈算胜力ず組み合わされた叀いアルゎリズムが驚くほどうたく機胜する別の䟋です。 神経進化コミュニティで開発された倚くの方法がすぐにDNNスケヌルで利甚可胜になり、それぞれが耇雑な問題を解決するためのさたざたなツヌルを提䟛するずいう点で、神経進化の実行可胜性は興味深いです。 さらに、私たちの研究が瀺すように、神経進化はSGDのようには芋えないため、機械孊習ツヌルぞの興味深い代替アプロヌチを提䟛したす。 深局神経進化は、深局孊習ず同じようにルネッサンスを経隓するのだろうか。 もしそうなら、2017幎は時代の始たりを瀺すかもしれたせん、そしお私たちは今埌数幎で䜕が発展するのか楜しみにしおいたす



以䞋は、これたでに公開した5぀の蚘事ずその重芁なポむントの泚釈です。






All Articles