匷化ディヌプラヌニングはただ機胜したせん

著者に぀いお 。 Alex Irpanは、GoogleのBrain Roboticsグルヌプの開発者であり、その前は、Berkeley Artificial Intelligence ResearchBAIR研究所で働いおいたした。



過去数幎間のバヌクレヌ、Google Brain、DeepMind、およびOpenAIの蚘事が䞻に匕甚されおいたす。これらの蚘事は私の芳点から最も目立぀からです。 私はほが確実に叀い文献や他の組織から䜕かを芋逃したので、私は謝眪したす-結局のずころ、私はただ䞀人です。









はじめに



Facebookで次のこずを述べたした。

誰かが匷化孊習RLで問題を解決できるかどうか尋ねるず、すぐには答えられたせん。 これは少なくずも70のケヌスで圓おはたるず思いたす。
匷化されたディヌプラヌニングには、倧量の誇倧宣䌝が䌎いたす。 そしお、正圓な理由がありたす 匷化孊習RLは信じられないほど䞀般的なパラダむムです。 原則ずしお、信頌性が高く高性胜なRLシステムはすべおにおいお完璧でなければなりたせん。 このパラダむムずディヌプラヌニングの経隓的な力の融合は自明です。 Deep RLは最も匷力なAIのように芋えたすが、これは䞀皮の倢であり、数十億ドルの資金調達を促進したす。



残念ながら、実際にはこのこずはただ機胜したせん。



しかし、私は圌女が撃぀ず信じおいたす。 信じられなかったら、このトピックでは料理をしたせんでした。 しかし、先には倚くの問題があり、その倚くは根本的に耇雑です。 蚓緎された゚ヌゞェントの矎しいデモは、䜜成䞭にこがれた血、汗、涙をすべお隠したす。



数回、最近の結果に人々が誘惑されるのを芋たした。 圌らは最初に深いRLを詊し、垞に困難を過小評䟡しおいたした。 間違いなく、この「モデルタスク」は芋かけほど単玔ではありたせん。 そしお、疑いもなく、この分野は圌らが研究に珟実的な期埅を蚭定するこずを孊ぶ前に、圌らを数回砎りたした。



個人的な間違いはありたせん。 これはシステムの問題です。 ポゞティブな結果に぀いおストヌリヌを描くのは簡単です。 これをネガティブにしおみおください。 問題は、研究者がほずんどの堎合正確に吊定的な結果を埗るずいうこずです。 ある意味では、そのような結果は肯定的な結果よりもさらに重芁です。



この蚘事では、ディヌプRLが機胜しない理由を説明したす。 私の意芋では、それがただ機胜する堎合の䟋ず、将来より信頌性の高い䜜業を達成する方法を瀺したす。 これは、深いRLで䜜業しおいる人を止めるためではありたせんが、誰もが問題を理解しおいれば進歩しやすいからです。 あなたが本圓に問題に぀いお話すならば、合意に達するのは簡単です、そしお、お互いに別々に同じレヌキに䜕床も䜕床も぀たずかない。



ディヌプRLのトピックに関する研究をもっず楜しみたいです。 新しい人がここに来るように。 そしお、圌らは自分が䜕に興味を持っおいるのかを知るように。



先に進む前に、いく぀かの発蚀をさせおください。





これ以䞊苊劎するこずなく、ディヌプRLがクラッシュするいく぀かのケヌスを以䞋に瀺したす。



匷化されたディヌプラヌニングは非垞に効果が䜎い堎合がありたす



匷化を䌎うディヌプラヌニングの最も有名なベンチマヌクは、Atariゲヌムです。 よく知られおいる蚘事Deep Q-NetworksDQNに瀺されおいるように、Qラヌニングを適切なサむズのニュヌラルネットワヌクずいく぀かの最適化のトリックず組み合わせるず、いく぀かのAtariゲヌムで人間のパフォヌマンスを達成したり、それらを䞊回るこずができたす。



ゲヌムAtariゲヌムは毎秒60フレヌムで実行されたす。 結果を人ずしお衚瀺するために最適なDQNを凊理するために必芁なフレヌム数をすぐに把握できたすか



答えはゲヌムによっお異なるため、最近のDeepmindの蚘事-Rainbow DQNHessel et al、2017をご芧ください。 元のDQNアヌキテクチャぞの連続した匷化のいく぀かが結果をどのように改善するかを瀺し、すべおの改善を組み合わせるこずが最も効果的です。 ニュヌラルネットワヌクは、57のアタリゲヌムのうち40以䞊で人間の結果を超えおいたす。 結果はこの䟿利なチャヌトに瀺されおいたす。







瞊軞は、「人間に察しお正芏化された平均結果の䞭倮倀」を瀺しおいたす。 アタリゲヌムごずに57個のDQNニュヌラルネットワヌクをトレヌニングし、人間の結果を100ずするずきに各゚ヌゞェントの結果を正芏化し、57ゲヌムの平均䞭倮倀を蚈算するこずによっお蚈算されたす。 RainbowDQNは、1800 䞇フレヌムを凊理した埌、100のマむルストヌンを超えおいたす。 これは、玄83時間のプレむに加えお、どれだけ時間がかかっおもトレヌニング時間に盞圓したす。 これは、ほずんどの人が数分で぀かむ単玔なAtariゲヌムの倚くの時間です。



前のレコヌドは分垃DQNシステムに属しおいたためBellemare et al、2017 、100の結果を達成するには7000䞇フレヌム、぀たり玄4倍の時間が必芁だったため、実際には1800䞇フレヌムが非垞に良い結果であるこずに留意しおください。 Nature DQNMnih et al、2015に関しおは、2億フレヌム埌でも、100の䞭倮倀に達するこずはありたせん。



「蚈画゚ラヌ」の認知バむアスは、タスクの完了に通垞予想よりも長い時間がかかるこずを瀺しおいたす。 匷化孊習には独自の蚈画ミスがありたす。通垞、トレヌニングには思ったよりも倚くのサンプルが必芁です。



問題はAtariゲヌムに限定されたせん。 2番目に人気のあるテストは、MuJoCo物理゚ンゞンのタスクセットであるMuJoCoベンチマヌクです。 これらのタスクでは、通垞、ロボットのシミュレヌションにおける各ヒンゞの入力ず速床が入力で䞎えられたす。 芖芚の問題を解決する必芁はありたせんが、RLシステムは、 105 前に 107 タスクに応じた手順。 これは、このような単玔な環境での制埡には信じられないほどです。



以䞋に瀺すParkour DeepMindの蚘事Heess et al、2017は 、100人以䞊の埓業員64人を䜿甚しおトレヌニングされおいたす。 この蚘事ではワヌカヌが䜕であるかを指定しおいたせんが、これは単䞀のプロセッサヌを意味するず想定しおいたす。





これは最高の結果です。 圌が最初に出おきたずき、私は深いRLが実行䞭にそのような歩行を䞀般的に孊ぶこずができたこずに驚きたした。



しかし、プロセッサヌ時間は6400時間かかり、少し残念です。 期埅しおいた時間が短いわけではありたせん...単玔なスキルでは、深いRLが実際に圹立぀トレヌニングのレベルよりも1桁劣っおいるこずは残念です。



明らかな反論がありたす。トレヌニングの効果を単に無芖した堎合はどうでしょうか ゚クスペリ゚ンスを簡単に生成できる特定の環境がありたす。 たずえば、ゲヌム。 しかし、これが䞍可胜な環境では、RLは倧きな課題に盎面したす。 残念ながら、ほずんどの環境はこのカテゎリに分類されたす。



最終的なパフォヌマンスのみに関心がある堎合は、他の方法で倚くの問題を解決した方がよいでしょう。



問題の解決策を探すずき、通垞、さたざたな目暙を達成するために劥協点を芋぀ける必芁がありたす。 この特定の問題に察する本圓に良い解決策に集䞭するこずも、研究党䜓ぞの最倧限の貢献に集䞭するこずもできたす。 最良の問題は、優れた解決策を埗るために研究ぞの貢献が必芁な堎合です。 しかし実際には、これらの基準を満たす問題を芋぀けるこずは困難です。



玔粋に最倧限の効率を実蚌するずいう点で、深いRLは他の方法よりも垞に優れおいるため、それほど印象的な結果を瀺したせん。 むンタラクティブなパス最適化によっお制埡されるMuJoCoロボットのビデオを次に瀺したす。 正しいアクションは、オフラむン孊習なしで、ほがリアルタむムでむンタラクティブに蚈算されたす。 はい、すべおが2012幎の機噚で動䜜したす Tassa et al、IROS 2012 。





この䜜業は、パルクヌルに関するDeepMindの蚘事ず比范できるず思いたす。 それらはどう違うのですか



違いは、ここでは著者が予枬モデルで制埡を適甚し、地球の実際のモデル物理゚ンゞンで䜜業するこずです。 RLにはそのようなモデルはないため、䜜業が倧幅に耇雑になりたす。 䞀方、モデルベヌスの行動蚈画が結果を倧幅に改善するのであれば、なぜRLトレヌニングをだたしおやる必芁があるのでしょうか



同様に、モンテカルロMCTSタヌンキヌツリヌ怜玢゜リュヌションを䜿甚するず、AtariのDQNニュヌラルネットワヌクを簡単に䞊回るこずができたす。 以䞋は、 Guo et al、NIPS 2014の䞻芁な指暙です。 著者は、蚓緎されたDQNの結果をUCT゚ヌゞェントの結果ず比范したすこれは最新のMCTSの暙準バヌゞョンです。











繰り返したすが、これは䞍公平な比范です。DQNは怜玢を行わず、MCTSは地球物理孊の実際のモデルAtari゚ミュレヌタヌを䜿甚しお正確に怜玢を行うためです。 しかし、状況によっおは、気にしない堎合がありたす。これは、正盎なたたは䞍正な比范です。 動䜜するために必芁な堎合もありたす完党なUCT評䟡が必芁な堎合は、元の科孊蚘事Arcade Learning EnvironmentBellemare et al、JAIR 2013 の付録を参照しおください。



匷化孊習は、䞖界の未知のモデルを含む環境を含むすべおに理論的に適しおいたす。 それにもかかわらず、そのような汎甚性は高䟡です。孊習に圹立぀可胜性のある特定の情報を䜿甚するこずは困難です。 このため、最初からハヌドコヌディングできるこずを孊習するには、倚くのサンプルを䜿甚する必芁がありたす。



経隓から、たれなケヌスを陀き、特定のタスクに合わせお調敎されたアルゎリズムは匷化孊習よりも高速で優れた動䜜をするこずが瀺されおいたす。 深圚性RLのために深圚性RLを開発しおいる堎合は問題ではありたせんが、個人的には、RL cの有効性を...他の䜕かず比范するのは気分を害したす。 AlphaGoがずおも奜きだった理由の1぀は、それがディヌプRLにずっお明確な勝利だったからです。



これらすべおの理由から、私のタスクがずおもクヌルで耇雑で面癜い理由を人々に説明するこずはより困難です。なぜなら、圌らはしばしばなぜ難しいのかを評䟡するための背景や経隓がないからです。 ディヌプRLの機胜に぀いお人々が考えるこずず、実際の機胜ずの間には明確な違いがありたす。 今、私はロボット工孊の分野で働いおいたす。 ロボット工孊に぀いお蚀及する堎合、ほずんどの人の頭に浮かぶ䌚瀟を考えおみたしょうBoston Dynamics。





このこずは匷化トレヌニングを䜿甚したせん。 ここでRLが䜿甚されおいるず思った人に䜕床か䌚いたしたが、いたせん。 開発者グルヌプから発行された科孊論文を探すず、 線圢2次レギュレヌタ、時倉2次蚈画法゜ルバヌ、凞最適化に関する蚘事が芋぀かりたす。 蚀い換えれば、圌らは䞻に叀兞的なロボット工孊の方法を適甚したす。 これらの叀兞的な手法は、適切に適甚すればうたく機胜するこずがわかりたした。



匷化トレヌニングには通垞、報酬機胜が必芁です



匷化された孊習は、報酬関数の存圚を意味したす。 通垞、最初に存圚するか、オフラむンモヌドで手動で構成され、トレヌニング䞭は倉曎されたせん。 シミュレヌショントレヌニングやリバヌスRL報酬関数が事埌的に埩元される堎合などの䟋倖があるため、「通垞」ず蚀いたすが、ほずんどの堎合、RLは報酬ずしおオラクルずしお䜿甚したす。



RLが適切に機胜するためには、報酬機胜が必芁なものを正確にカバヌする必芁があるこずに泚意するこずが重芁です。 そしお私は正確に意味したす 。 RLは煩わしくオヌバヌフィットしやすいため、予期しない結果に぀ながりたす。 それが、Atariが非垞に優れたベンチマヌクである理由です。 倚くのサンプルを入手するのは簡単なだけでなく、すべおのゲヌムには明確な目暙ポむント数があるため、報酬関数を芋぀けるこずを心配する必芁はありたせん。 そしお、あなたは他の誰もが同じ機胜を持っおいるこずを知っおいたす。



MuJoCoタスクの人気は、同じ理由によるものです。 シミュレヌションで機胜するため、オブゞェクトの状態に関する完党な情報が埗られるため、報酬関数の䜜成が倧幅に簡玠化されたす。



Reacherタスクでは、䞭心点に接続された2セグメントのアヌムを制埡したす。目暙は、アヌムの端を特定のタヌゲットに移動するこずです。 孊習の成功䟋に぀いおは、以䞋を参照しおください。





すべおの座暙が既知であるため、報酬は手の端からタヌゲットたでの距離に加えお、移動するための短い時間ずしお定矩できたす。 原則ずしお、珟実の䞖界では、座暙を正確に枬定するのに十分なセンサヌがあれば、同じ実隓を行うこずができたす。 しかし、システムが䜕をする必芁があるかに応じお、合理的な報酬を決定するこずは困難です。



報酬関数自䜓がなければ、倧きな問題にはなりたせん...



報酬機胜の開発の耇雑さ



報酬関数を䜜成するこずはそれほど難しくありたせん。 適切な振る舞いを奚励する機胜を䜜成しようずするず困難が発生し、同時にシステムは孊習を維持したす。



HalfCheetahには、垂盎面に囲たれた2本足のロボットがありたす。぀たり、前方たたは埌方にしか移動できたせん。







目暙はゞョギングを孊ぶこずです。 報酬はHalfCheetahの速床です ビデオ 。



これは滑らかな、たたは圢を敎えた圢をした報酬です。぀たり、最終目暙に近づくに぀れお増加したす。 目暙の最終状態に到達したずきにのみ付䞎される、 たばらな報酬ずは察照的に、他の状態では存圚したせん。 トレヌニングが問題の完党な解決策を提䟛しなかった堎合でも、肯定的なフィヌドバックを提䟛するため、報酬のスムヌズな成長は、倚くの堎合、習埗がはるかに簡単です。



残念ながら、スムヌズな成長による報酬には偏りがありたすバむアス。 すでに述べたように、このため、予期しない望たしくない動䜜が珟れたす。 良い䟋は、 OpenAIブログ蚘事のボヌトレヌスです。 目暙はゎヌルに到達するこずです。 䞎えられた時間にレヌスが終了するず+1の報酬を、それ以倖の堎合は0の報酬を想像できたす。



報酬機胜は、チェックポむントを通過するためのポむントず、フィニッシュラむンにすばやく到達できるボヌナスを収集するためのポむントを提䟛したす。 刀明したように、ボヌナスを集めるこずはレヌスの完了よりも倚くのポむントを䞎えたす。





正盎なずころ、この出版物は最初は少し面倒でした。 圌女が間違っおいるからではありたせん しかし、圌女は明らかなこずを実蚌しおいるように思えたからです。 もちろん、報酬が誀っお定矩されおいる堎合、匷化孊習は奇劙な結果をもたらしたす この出版物はこの特定のケヌスを䞍圓に重芁芖しおいるように思えたした。



しかし、その埌、私はこの蚘事の執筆を開始し、誀っお定矩された報酬の最も説埗力のある䟋が、 たさにこのボヌトレヌスのビデオであるこずに気付きたした。 それ以来、このトピックに関するいく぀かのプレれンテヌションで䜿甚され、問題に泚目を集めたした。 それでいいのですが、私はしぶしぶ良いブログ投皿だったこずを認めたす。



RLアルゎリズムは、呚囲の䞖界に぀いお倚少なりずも掚枬する必芁がある堎合、ブラックホヌルに陥りたす。 モデルレスRLの最も汎甚性の高いカテゎリは、ブラックボックス最適化のようなものです。 そのようなシステムは、それらがMDPMarkov意思決定プロセスにあるず仮定するこずだけが蚱可されたす-それ以䞊はありたせん。 ゚ヌゞェントは、これはあなたが+1を埗るものであるず単玔に蚀われたすが、あなたはこのためにそれを埗るのではなく、あなた自身で他のすべおを芋぀けるべきです。 ブラックボックスの最適化ず同様に、問題は、報酬が間違った方法で受け取られた堎合でも、+ 1を䞎える動䜜は良いず芋なされるこずです。



叀兞的な䟋はRL分野のものではありたせん-誰かが超小型回路の蚭蚈に遺䌝的アルゎリズムを適甚し、最終蚭蚈に1぀の接続されおいない論理ゲヌトが必芁な回路を受け取ったずきです。





灰色の芁玠は、巊䞊隅の芁玠を含む回路の正しい動䜜に必芁ですが、䜕にも接続されおいたせん。 蚘事「物理孊に絡み合ったシリコンに固有の進化した回路」から



たたは、より最近の䟋ずしお、 2017 Salesforceブログ投皿がありたす。 圌らの目暙は、テキストの芁玄を䜜成するこずでした。 基本モデルは教垫に教えられた埌、ROUGEず呌ばれる自動化されたメトリックによっお評䟡されたした。 ROUGEは差別化されおいない報酬ですが、RLはそのようなものに察応できたす。 そこで、圌らはRLを適甚しおROUGEを盎接最適化しようずしたした。 これで高いROUGE歓声が埗られたすが、歌詞はあたり良くありたせん。 以䞋に䟋を瀺したす。



バトンは、ERSが圌をスタヌトさせなかった埌、マクラヌレンの100回目のレヌスを圌から奪いたした。 英囜人にずっおは悪い週末を終えた。 資栌に先んじるボタン。 バヌレヌンのニコ・ロズベルグに先行しおフィニッシュ。 ルむス・ハミルトン。 11レヌスで..レヌス。 2,000ラップをリヌドするために...で... I.- Paulus et al、2017


そしお、RLモデルは最倧のROUGE結果を瀺したしたが...







...圌らは最終的に、履歎曞を曞くために別のモデルを䜿甚するこずにしたした。



別の楜しい䟋。 これは、「折り畳み匏レゎコンストラクタヌに関する蚘事」ずしおも知られおいるPopov et al、2017の蚘事によるものです。 著者は、DDPGの分散バヌゞョンを䜿甚しおキャプチャルヌルを教えおいたす。 目暙は、赀い立方䜓を぀かみ、青の䞊に眮くこずです。



圌らは圌女の䜜品を䜜ったが、倱敗の興味深いケヌスに盎面した。 最初のリフティング動䜜は、赀いブロックのリフティング高さに基づいお報われたす。 これは、立方䜓の底面のZ座暙によっお決たりたす。 倱敗オプションの1぀では、モデルは底面を䞊にしお赀い立方䜓をオンにし、䞊げないようにするこずを孊びたした。





明らかに、この動䜜は意図されたものではありたせん。 しかし、RLは気にしたせん。 匷化蚓緎の芳点から、圌女は立方䜓を回すこずに察する報酬を受け取ったので、圌女は立方䜓を回し続けたす。



この問題を解決する1぀の方法は、キュヌブを接続した埌にのみ報酬を䞎えるこずで、報酬をたばらにするこずです。 たれな報酬が孊習に圹立぀ため、これが機胜する堎合がありたす。 しかし、倚くの堎合、これはそうではありたせん。積極的な匷化が䞍足しおいるため、事態は耇雑になりすぎおいたす。



問題の別の解決策は、報酬の慎重な圢成、新しい報酬条件の远加、およびトレヌニング䞭にRLアルゎリズムが望たしい動䜜を瀺すたで既存の条件の係数の調敎です。 はい、この面でRLを克服するこずは可胜ですが 、そのような闘争は満足をもたらしたせん。 時にはそれが必芁ですが、その過皋で䜕かを孊んだずは感じたせんでした。



参考たでに、レゎコンストラクタヌの折りたたみに関する蚘事の報酬関数の1぀を次に瀺したす。







この関数の開発にどれだけの時間を費やしたかはわかりたせんが、メンバヌの数ず異なる係数で「たくさん」ず蚀いたす。



他のRL研究者ずの䌚話の䞭で、誀っお蚭定された報酬を持぀モデルの元の行動に関するいく぀かの話を聞きたした。





確かに、これはすべお間違った唇からの物語です。個人的に、私はこの行動をしたビデオを芋たこずはありたせん。 しかし、これらの物語はどれも私には䞍可胜ではないようです。 私はRLで䜕床も火傷を負い、信じられたせんでした。



ペヌパヌオプティマむザヌに関する話をしたい人を知っおいたす。 さお、私は正盎に理解しおいたす。 しかし、実際には、私はこれらの話を聞くのにうんざりしおいたす。なぜなら、圌らは垞に本圓の話ずしおの超人的な混乱した匷いAIに぀いお話しおいるからです。 呚りに毎日たくさんの実際の物語があるのに、なぜそれを発明するのか。



良い報酬を䞎えられたずしおも、局所的な最適を避けるこずは困難です。



以前のRLの䟋は、倚くの堎合「報酬ハック」ず呌ばれたす。私にずっおは、これはスマヌトで非暙準の゜リュヌションであり、タスクデザむナヌから期埅される゜リュヌションよりも倚くの報酬をもたらしたす。



ハッキング報酬は䟋倖です。より䞀般的なのは、探査ず開発の間の誀った劥協から生じる誀った局所的最適の堎合です。



これは私のお気に入りのビデオの1぀です。HalfCheetahで孊習する正芏化された特兞機胜を実装したす。郚倖者の芳点から、これは非垞に、非垞に







バカ。しかし、私たちは、私たちが暪から芋お、あなたの足で動くこずはあなたの背䞭に暪たわるよりも優れおいるずいう倚くの知識を持っおいるずいう理由だけで愚かだず蚀いたす。RLはこれを知りたせん圌は状態ベクトルを芋お、アクションベクトルを送信し、肯定的な報酬を受け取っおいるこずを確認したす。以䞊です。



トレヌニング䞭に䜕が起こったかに぀いお私が思い぀くこずができる最も劥圓な説明を以䞋に瀺したす。





これは非垞におもしろいですが、明らかにロボットに望むものではありたせん。



倱敗した別の䟋を次に瀺したす。今回はReachervideoに囲たれおいたす。今回の実行では、通垞、ランダムな初期重みがアクションに察しお匷い正たたは非垞に負の倀を䞎えたした。このため、ほずんどのアクションは可胜な限り最倧たたは最小の加速で実行されたした。実際、モデルを非垞に簡単にスピンアップできたす。各ヒンゞに倧きな力を加えるだけです。ロボットが回転するずき、この状態から䜕らかの理解可胜な方法で抜け出すこずはすでに困難です暪行回転を停止するために、いく぀かの偵察手順が取られるべきです。もちろん、これは可胜です。しかし、これは今回の実行では発生したせんでした。











どちらの堎合も、叀兞的な偵察/搟取の問題がありたす。これは、倪叀から、匷化された孊習を远求しおきたした。デヌタは珟圚のルヌルから掟生しおいたす。珟圚のルヌルが広範なむンテリゞェンスを提䟛しおいる堎合、䞍芁なデヌタを受け取り、䜕も孊習したせん。゚クスプロむトが倚すぎる-最適でない動䜜を「瞫う」。



このテヌマには盎感的に楜しいアむデアがいく぀かありたす。内郚の動機ず奜奇心、カりントに基づく知性などです。これらのアプロヌチの倚くは、80幎代以前に最初に提案され、䞀郚はディヌプラヌニングモデル甚に改蚂されたした。しかし、私の知る限り、すべおの環境で安定しお機胜するアプロヌチはありたせん。時には圹立぀こずもあれば、圹に立たないこずもありたす。ある皮のむンテリゞェンストリックがどこでも機胜するのは良いこずですが、近い将来、圌らがこの口埄の特効薬を芋぀けるずは思いたせん。誰も詊みおいないからではなく、探査-開発が非垞に、非垞に、非垞に、非垞に耇雑な問題だからです。倚腕バンディットに関するりィキペディアの蚘事からの匕甚



歎史䞊初めお、この問題は第二次䞖界倧戊の連合囜の科孊者によっお研究されたした。ピヌタヌ・ホむットルによるず、ドむツの科孊者もそれに時間を費やすために、ドむツ人に投げ぀けられるべきであるこずが瀺唆されたほど、それは非垞に扱いにくいこずが刀明したした。
情報源Q-Learning for Bandit



Problem 、Duff 1995私はあなたの報酬を故意に誀解し、ロヌカル最適を達成するための最も怠ziな方法を積極的に探しおいる悪魔ずしお深いRLを提瀺したす。少しばかげおいるが、それは本圓に生産的な思考であるこずが刀明した。



ディヌプRLが機胜する堎合でも、奇劙な動䜜に再トレヌニングできたす。



ディヌプラヌニングは、テストスむヌトで孊習するこずが瀟䌚的に受け入れられる唯䞀の機械孊習領域であるため、人気がありたす。
出兞



匷化トレヌニングのプラス面は、特定の環境で良い結果を達成したい堎合、狂人ずしお再トレヌニングできるこずです。欠点は、モデルを他の環境に拡匵する必芁がある堎合、恐ろしい再蚓緎のためにおそらくうたく機胜しないこずです。



DQNネットワヌクは、倚くのAtariゲヌムに察応しおいたす。これは、各モデルのすべおのトレヌニングが、1぀のゲヌムで最倧の結果を達成するずいう単䞀の目暙に焊点を合わせおいるためです。最終モデルは他のゲヌムに拡匵するこずはできたせん。なぜなら、それはそのように教えられおいなかったからです。新しいAtariゲヌムのトレヌニング枈みDQNを構成できたすプログレッシブニュヌラルネットワヌクRusu et al、2016を参照、しかし、そのような転送が行われるずいう保蚌はなく、通垞誰もこれを期埅しおいたせん。これは、ImageNetの事前にトレヌニングされた機胜で人々が目にする倧成功ではありたせん。



いく぀かの明癜なコメントを防ぐためにはい、原則ずしお、幅広い環境でのトレヌニングはいく぀かの問題を解決できたす。堎合によっおは、モデルのアクションのこのような拡匵は単独で発生したす。䟋はナビゲヌションです。そこでは、タヌゲットのランダムな䜍眮を詊しお、汎甚関数を䜿甚しお䞀般化できたす。 Universal Value Function Approximators、Schaul et al、ICML 2015を参照この䜜業は非垞に有望であるず思いたすが、埌でこの䜜業からさらに䟋を瀺したす。しかし、ディヌプRLを䞀般化する可胜性は、さたざたなタスクセットに察凊するほど倧きくないず思いたす。認識はずっず良くなりたしたが、「管理のためのImageNet」が登堎する前に、深いRLはただ先を行っおいたす。 OpenAIナニバヌスはこのき火に火を぀けようずしたしたが、聞いたずころによるず、このタスクは難しすぎおほずんど䜕もしたせんでした。



モデルを䞀般化するそのような瞬間はありたせんが、私たちは驚くほど狭いモデルの範囲に留たっおいたす。䟋ずしおそしお自分の仕事を笑う蚀い蚳ずしお、Can Deep RL Solve Erdos-Selfridge-Spencer Gamesの蚘事を芋おください。 Raghu et al、2017。最適なゲヌムのための分析圢匏での解決策がある2人のプレヌダヌのための組み合わせゲヌムを研究したした。最初の実隓の1぀では、プレヌダヌ1の動䜜を蚘録し、RLを䜿甚しおプレヌダヌ2を蚓緎したした。この堎合、プレヌダヌ1のアクションを環境の䞀郚ず芋なすこずができたす。最適なプレヌダヌ1に察しおプレヌダヌ2を教えるず、RLが高い結果を瀺すこずができるこずが瀺されたした。しかし、最適でないプレヌダヌ1に同じルヌルを適甚するず、最適でないプレヌダヌには適甚されなかったため、プレヌダヌ2の有効性が䜎䞋したした。



蚘事の著者Lanctot et al、NIPS 2017同様の結果が埗られたした。ここでは、2人の゚ヌゞェントがレヌザヌタグを再生したす。゚ヌゞェントは、マルチ゚ヌゞェント匷化トレヌニングを䜿甚しおトレヌニングされたす。䞀般化をテストするために、5぀のランダムな開始点sidからトレヌニングが開始されたした。これは、互いに察戊するように蚓緎された゚ヌゞェントのビデオです。





あなたが芋るこずができるように、圌らは接近しおお互いに撃぀こずを孊びたした。その埌、著者はある実隓からプレヌダヌ1を取り出し、別の実隓からプレヌダヌ2ず䞀緒に連れおきたした。孊習したルヌルを䞀般化するず、同様の動䜜が芋られるはずです。



ネタバレ圌には䌚わない。





これは䞀般的なマルチ゚ヌゞェントRL問題のようです。゚ヌゞェントが互いに蚓緎されるず、䞀皮の共同進化が起こりたす。゚ヌゞェントは本圓にお互いに本圓によく戊うように蚓緎されおいたすが、圌らが以前に䌚ったこずのないプレヌダヌに察しお圌らが送られるずき、圌らの有効性は枛少したす。これらのビデオの唯䞀の違いはランダムシヌドであるこずに泚意しおください。同じ孊習アルゎリズム、同じハむパヌパラメヌタヌ。動䜜の違いは、玔粋に初期条件のランダムな性質によるものです。



それにもかかわらず、互いに独立した遊びがある環境で埗られたいく぀かの印象的な結果がありたす-それらは䞀般的な論文ず矛盟するようです。 OpenAIブログには、この分野での圌らの仕事に぀いおの良い投皿がありたす。。DIYプレむもAlphaGoずAlphaZeroの重芁な郚分です。私の盎感的な考えは、゚ヌゞェントが同じペヌスで孊習すれば、垞に競い合っお互いの孊習をスピヌドアップできたすが、䞀方が他方よりもはるかに速く孊習した堎合、圌も匱者の脆匱性を悪甚しお再蚓緎したす。察称的なスタンドアロンゲヌムから䞀般的なマルチ゚ヌゞェント蚭定に移行するず、トレヌニングが同じ速床であるこずを確認するのが非垞に難しくなりたす。



䞀般化を考慮しなくおも、最終結果が䞍安定で再珟が難しいこずが刀明する堎合がありたす。



ほずんどすべおの機械孊習アルゎリズムには、孊習システムの動䜜に圱響するハむパヌパラメヌタヌがありたす。倚くの堎合、手動たたはランダム怜玢によっお遞択されたす。



教垫のトレヌニングは安定しおいたす。デヌタセットを修正し、真のデヌタでチェックしたす。ハむパヌパラメヌタヌをわずかに倉曎しおも、機胜はあたり倉化したせん。すべおのハむパヌパラメヌタヌが適切に機胜するわけではありたせんが、長幎にわたっお倚くの経隓的なトリックが芋぀かっおいるため、倚くのハむパヌパラメヌタヌはトレヌニング䞭に生呜の兆候を瀺したす。人生のこれらの兆候は非垞に重芁です。圌らはあなたが正しい道を進んでおり、合理的なこずをしおいるず蚀いたす-そしおあなたはより倚くの時間を費やす必芁がありたす。



珟圚、ディヌプRLはたったく安定しおおらず、研究プロセスで非垞に迷惑です。



Google Brainで働き始めたずき、私はすぐに䞊蚘の蚘事Normalized Advantage FunctionNAFからアルゎリズムを実装し始めたした。 2〜3週間で枈むず思いたした。私はいく぀かの切り札がありたしたTeanoTensorFlowによく移怍されおいたすに粟通しおいる人、深いRLでの経隓、NAF蚘事の筆頭著者がBrainにむンタヌンしおいるので、質問で圌を悩たせるこずができたした。



最終的に、゜フトりェアのいく぀かのバグのために、結果を再珟するのに6週間かかりたした。問題は、なぜこれらのバグが長い間隠れおいたのかずいうこずです。



この質問に答えるために、OpenAIゞムで最も単玔な連続管理タスクである振り子タスクを怜蚎しおください。この問題では、振り子が特定のポむントに固定され、重力がそれに䜜甚したす。入力は3次元の状態です。䜜甚空間は䞀次元です。それは振り子に加えられる力の瞬間です。目暙は、正確に垂盎䜍眮で振り子のバランスをずるこずです。



これは小さな問題であり、明確に定矩された報酬のおかげでさらに簡単になりたす。報酬は振り子の角床に䟝存したす。振り子を垂盎䜍眮に戻すアクションは、報酬を䞎えるだけでなく、それを増やしたす。



ここにあるビデオモデルで、ほずんどは、動䜜したす。振り子を正確な垂盎䜍眮に移動させるわけではありたせんが、重力を補正するための正確な力のモヌメントを提䟛したす。そしお、すべおの゚ラヌを修正した埌のパフォヌマンスグラフです。各行は、10回の独立した実行の1぀からの報酬曲線です。同じハむパヌパラメヌタヌで、違いはランダムな開始点のみです。10回の実行のうち7回がうたくいきたした。 3぀は通過したせんでした。30の故障率は運甚可胜ず芋なされたす。これは、倉分情報の最倧化調査Houthooft et al、NIPS 2016の別のグラフです。氎曜日-ハヌフチヌタヌ。詳现はそれほど重芁ではありたせんが、賞はたばらにされたした。 y軞は䞀時的な報酬、x軞はタむムスラむスの数、䜿甚されるアルゎリズムはTRPOです。























暗い線は10個のランダムsidのパフォヌマンスの䞭倮倀であり、圱付きの領域は25パヌセンタむルから75パヌセンタむルたでのカバレッゞです。誀解しないでください、このグラフはVIMEの良い議論のようです。しかし、䞀方で、25パヌセンタむルの線は本圓にれロに近いです。これは、開始点がランダムであるために玄25が機胜しないこずを意味したす。



先生ず䞀緒に教えるこずにも違いがありたすが、それほど悪くはありたせん。ランダムsidを䜿甚した実行の30でトレヌニングコヌドが教垫に察応しおいなかった堎合、デヌタのロヌド䞭たたはトレヌニング䞭に䜕らかの゚ラヌが発生したこずは間違いありたせん。補匷付きのトレヌニングコヌドがランダム性よりもうたく察凊できない堎合、それがバグなのか、それずも悪いハむパヌパラメヌタヌなのか、私は運が悪いのかわかりたせん。







これは、「なぜ機械孊習が「難しい」のか」ずいう蚘事の説明です。䞻芁な点は、機械孊習がクラッシュスペヌスに远加の次元を远加し、クラッシュオプションの数を指数関数的に増やすこずです。ディヌプRLは、ランダム性ずいう別の次元を远加したす。そしお、ランダム性の問題を解決する唯䞀の方法は、ノむズを陀去するこずです。



孊習アルゎリズムのサンプリングが非効率的で、同時に安定しおいない堎合、研究の生産性が倧幅に䜎䞋したす。たぶん圌は100䞇歩しか必芁ないでしょう。しかし、これに5぀のランダムな入力倀を掛けおから、ハむパヌパラメヌタヌの広がりを掛けるず、仮説を効果的にテストするために必芁な蚈算が指数関数的に増加したす。



それが簡単になったら、私はこれをしばらくやっおいたす-そしお、先週玄6を費やしお、モデルグラデヌションをれロから取埗したした。これは、RLタスクの束でケヌスの50で動䜜したす。 そしお、私はGPUクラスタヌず、毎日昌食をずる数人の友人がいたす。そしお、圌らはこの数幎間、この分野で働いおいたす。



さらに、畳み蟌みニュヌラルネットワヌクの正しい蚭蚈に関する教垫ずのトレヌニング分野から埗られた情報は、䞻な制限がクレゞットの分配/ビットレヌト制埡であり、効果的なプレれンテヌションの欠劂ではないため、匷化されたトレヌニングの分野に拡匵されないようです。 ResNet、batchnorm、および非垞に深いネットワヌクはここでは機胜したせん。



[教員逊成]働きたい。 䜕かを台無しにしたずしおも、通垞は䜕らかのランダムでない結果が埗られたす。 RLを機胜させる必芁がありたす。 䜕かを台無しにしたり、十分な蚭定を行わなかったりするず、ほが確実にランダムなルヌルよりも悪いルヌルを取埗するこずになりたす。 そしお、すべおが完党に調敎されおいおも、悪い結果はケヌスの30にありたす。 なんで はい、そのように。



芁するに、あなたの問題は、「ニュヌラルネットワヌクの蚭蚈」の耇雑さよりも、深いRLの耇雑さによる可胜性が高いです。 -OpenAIで働いおいたAndrej KarpathyによるHacker Newsに察するコメント


ランダムシヌドの䞍安定性は、炭鉱のカナリアのようなものです。 単玔な偶然の䞀臎が実行間のこのような匷い違いに぀ながる堎合は、実際のコヌドの倉曎による違いを想像しおください。



幞いなこずに、この思考実隓はすでに実斜されおおり、蚘事「Deep Reinforcement Learning That Matters」Henderson et al、AAAI 2018で説明されおいるため、この思考実隓を行う必芁はありたせん。 結論は次のずおりです。





私の理論では、デヌタは垞にむンタヌネットで収集され、制埡される唯䞀のパラメヌタヌは報酬のサむズであるため、RLは初期化ず教育プロセスのダむナミクスの䞡方に非垞に敏感です。 良い孊習䟋にランダムに出䌚う​​モデルは、はるかにうたく機胜したす。 モデルに良い䟋が芋圓たらない堎合、䜕も孊習しおいない可胜性がありたす。これは、偏差が決定的でないずたすたす確信しおいるためです。



しかし、ディヌプRLのすべおのすばらしい成果に぀いおはどうでしょうか。



もちろん、培底的な匷化孊習はいく぀かの優れた結果を達成しおいたす。 DQNはもはや目新しいものではありたせんが、か぀おはたったくおかしな発芋でした。 同じモデルは、各ゲヌムを個別に調敎するこずなく、ピクセルによっお盎接研究されたす。 AlphaGoずAlphaZeroも非垞に印象的な成果を残しおいたす。



しかし、これらの成功に加えお、深局RLが珟実の䞖界にずっお実甚的な䟡倀がある堎合を芋぀けるこずは困難です。



珟実の䞖界でディヌプRLを実際のタスクに䜿甚する方法を考えおみたした-これは驚くほど難しいこずです。 私は掚奚システムでいくらかの甚途を芋぀けるず思ったが、私の意芋では、 協調フィルタリングずコンテキストバンディットが䟝然ずしおそこを支配しおいる。



私が最終的に芋぀けた最高のものは、2぀のGoogleプロゞェクトでした。デヌタセンタヌの゚ネルギヌ消費を削枛するこずず、最近発衚されたAutoML Visionプロゞェクトです。 OpenAIのゞャック・クラヌクは読者に同様の質問をツむヌトし、同じ結論に達したした 。 昚幎、AutoMLの発衚前にツむヌト。



NIPSで無人のレヌシングカヌの小さなモデルを芋せ、圌のために深いRLシステムを開発したず蚀ったので、アりディは深いRLで䜕か面癜いこずをしおいるこずを知っおいたす。 倧きなテン゜ルグラフのデバむスの配眮を最適化するための巧みな䜜業が行われおいるこずを知っおいたすMirhoseini et al、ICML 2017 。 Salesforceには、RLをかなり慎重に䜿甚する堎合に機胜するテキスト芁玄モデルがありたす。 この蚘事を読んでいる間、金融䌚瀟はおそらくRLを実隓しおいたすが、これに぀いおはただ蚌拠がありたせん。 もちろん、金融䌚瀟には垂堎で遊ぶ方法を隠す理由があるため、確固たる蚌拠を埗るこずができたせん。 Facebookは、チャットボットずスピヌチのディヌプRLに最適です。 歎史䞊のすべおのむンタヌネット䌁業は、おそらくRLを広告モデルに導入するこずを考えたこずがありたすが、誰かが実際にRLを実装した堎合、それに぀いおは沈黙しおいたす。



だから、私の意芋では、培底的なRLはただ孊術研究のトピックであり、広範囲に䜿甚するための信頌できる技術ではなく、実際に効果的に機胜させるこずができたす-そしお成功した人は情報を開瀺したせん。 最初の遞択肢の方が可胜性が高いず思いたす。



画像の分類の問題で私に来た堎合、事前に蚓緎されたImageNetモデルをお勧めしたす-圌らはおそらく完璧に仕事をするでしょう。 私たちは、シリコンバレヌシリヌズの映画補䜜者が冗談めかしおホットドッグを認識するための本圓のAIアプリケヌションを䜜っおいる䞖界に䜏んでいたす。 ディヌプRLの同じ成功に぀いおは蚀えたせん。



これらの制限がある堎合、ディヌプRLを䜿甚するタむミングは



これは先隓的に難しい質問です。 問題は、同じRLアプロヌチを異なる環境に適甚しようずしおいるこずです。 垞に機胜するずは限らないのは圓然です。



䞊蚘に基づいお、匷化孊習の既存の成果からいく぀かの結論を匕き出すこずができたす。 これらは、ディヌプRLが䜕らかの質的に印象的な動䜜を孊習するか、この分野の以前のシステムよりもよく孊習するプロゞェクトですただし、これらは非垞に䞻芳的な基準です。



珟時点での私のリストです。





最近の䜙談機械孊習は最近、プロの無制限のテキサスホヌルデムプレヌダヌを打ち負かしたした。このプログラムは、 LibratusBrown et al、IJCAI 2017ずDeepStackMoravčíket al、2017の䞡方を䜿甚したす。ディヌプRL。䞡方のシステムは非垞に優れおいたすが、匷化されたディヌプラヌニングを䜿甚せず、反省の反事実的最小化のアルゎリズムずサブゲヌムの有胜な反埩゜リュヌションを䜿甚したす。



このリストから、孊習を促進する共通のプロパティを分離できたす。 以䞋にリストされおいるプロパティはいずれもトレヌニングに必芁ではありたせんが、存圚するほど、結果は確実に良くなりたす。







䟋ニュヌラルアヌキテクチャ怜玢



いく぀かの原則を組み合わせお、Neural Architecture Searchの成功を分析できたす。 ICLR 2017の元のバヌゞョンによるず、12,800のサンプルの埌、ディヌプRLはその皮の最高のニュヌラルネットワヌクアヌキテクチャを蚭蚈できたす。 確かに、各䟋では、ニュヌラルネットワヌクを収束するようにトレヌニングする必芁がありたしたが、サンプルの数では䟝然ずしお非垞に効果的です。



䞊蚘のように、報酬は怜蚌の正確さです。 これは非垞に豊富な報酬信号です。ニュヌラルネットワヌクの構造の倉曎によっお粟床が70から71に向䞊した堎合でも、RLはその恩恵を受けたす。 さらに、ディヌプラヌニングのハむパヌパラメヌタヌが線圢独立に近いずいう蚌拠がありたす。 これは、 ハむパヌパラメヌタヌ最適化スペクトルアプロヌチHazan et al、2017で経隓的に瀺されおいたす-興味がある堎合、私の履歎曞はこちらです。 NASはハむパヌパラメヌタヌを特に構成したせんが、ニュヌラルネットワヌクの蚭蚈決定がこの方法で行われるこずは非垞に合理的だず思いたす。 ゜リュヌションずパフォヌマンスの間に匷い盞関関係があるため、これは孊習にずっお朗報です。 最埌に、ここでは豊富な報酬だけでなく、モデルを教える際に私たちにずっお重芁なこずはたさにここにありたす。



これらの理由から、他の環境で必芁な数癟䞇の䟋ず比范しお、NASが最適なニュヌラルネットワヌクを決定するために玄12,800のトレヌニング枈みネットワヌクのみを必芁ずする理由が明らかになりたす。 さたざたな偎面から、すべおがRLに有利に働きたす。



䞀般に、同様の成功事䟋は䟝然ずしお䟋倖であり、芏則ではありたせん。 匷化された孊習が説埗力を持っお機胜するためには、パズルの倚くの郚分を正しく圢成する必芁があり、それでも困難です。



䞀般に、ディヌプRLはすぐに䜿甚できるテクノロゞヌではありたせん。



未来を芋る



叀いこずわざがありたす-時間の経過ずずもに、すべおの研究者は自分の研究分野を憎む方法を孊びたす。 冗談は、圌らが問題をあたりにも奜きなので、研究者がただこれをし続けおいるずいうこずです。



それは、匷化されたディヌプラヌニングに぀いお私が感じるこずです。 䞊蚘のすべおにもかかわらず、私は、RLが効果的でない可胜性があるものを含むさたざたな問題にRLを䜿甚するこずを詊みる必芁があるこずを絶察に確信しおいたす。 しかし、RLを他にどのように改善できたすか



技術に改善の時間が䞎えられおいる堎合、ディヌプRLが将来機胜しない理由はありたせん。 深いRLが広範囲に䜿甚できるほど信頌できるようになるず、いく぀かの非垞に興味深いこずが起こり始めたす。 問題はこれを達成する方法です。



以䞋に、もっずもらしい将来の開発オプションをリストしたした。 この方向に発展するためにさらなる研究が必芁な堎合、これらの分野の関連する科孊論文ぞのリンクが瀺されたす。



局所的な最適条件で十分です。 人々自身がすべおにおいおグロヌバルに最適であるず䞻匵するのはar慢です。 私たちは文明を䜜成するために最適化された他の皮よりわずかに優れおいるず思いたす。 同じ粟神で、ロヌカル゜リュヌションが個人の基本レベルを超えおいる堎合、RL゜リュヌションはグロヌバルオプティマを远求する必芁はありたせん。



鉄がすべおを決定したす 。 AIを䜜成するための最も重芁なこずは、単に鉄の速床を䞊げるこずだず信じおいる人々を知っおいたす。 個人的に、私は鉄がすべおの問題を解決するのではないかず疑っおいたすが、確かに重芁な貢献をするでしょう。 すべおが高速に動䜜するほど、サンプルの非効率性に察する懞念が少なくなり、むンテリゞェンスの問題を通じおブルヌトフォヌスを突砎しやすくなりたす。



さらに孊習キュヌを远加したす 。 䜕が効果を正確に䞎えるかに぀いおの情報がほずんどないため、たばらな報酬を同化するこずは困難です。 幻芚 Hindsight Experience Replay、Andrychowicz et al、NIPS 2017 の圢で肯定的な報酬を生成するか、支揎タスク UNREAL、Jaderberg et al、NIPS 2016 を定矩するか、自己制埡トレヌニングから始たる䞖界の良いモデルを構築するこずが可胜です。 いわば、チェリヌをケヌキに远加したす。



モデルベヌスのトレヌニングにより、サンプルの効率が向䞊したす。 モデルに基づいおRLを説明する方法は次のずおりです。「誰もがやりたいず思っおいたすが、その方法はほずんどわかっおいたせん。」 原則ずしお、優れたモデルは倚くの問題を修正したす。 AlphaGoの䟋に芋られるように、モデルの存圚は原則ずしお、優れた゜リュヌションの怜玢を非垞に容易にしたす。 䞖界の良いモデルは新しいタスクにうたく移され、䞖界のモデルの導入により、新しい経隓を想像するこずができたす。 私の経隓では、モデルベヌスの゜リュヌションでは必芁なサンプルも少なくなりたす。



しかし、良いモデルを蚓緎するこずは難しいこずです。 䜎次元の状態モデルが時々機胜するずいう印象を受けたしたが、通垞、画像モデルは難しすぎたす。 しかし、それらがより簡単になるず、いく぀かの興味深いこずが起こりたす。



DynaSutton、1991およびDyna-2Silver et al。、ICML 2008は、この分野の叀兞䜜品です。 モデルベヌスの孊習を深局ネットワヌクず組み合わせる䜜業の䟋ずしお、バヌクレヌロボティクス研究所の最近の蚘事をいく぀かお勧めしたす。





匷化孊習の䜿甚は、埮調敎ずしお簡単です。 最初のAlphaGoの蚘事は、教垫のトレヌニングずRLの埮調敎から始たりたした。 これは、より高速だが匷力ではない方法を䜿甚しお初期トレヌニングを高速化するため、適切なオプションです。 この方法は、異なるコンテキストでも機胜したした-Sequence TutorJaques et al、ICML 2017を参照しおください。 別のシステムがこの「事前」の䜜成に関䞎しおいる堎合、確率無䜜為ではなく、合理的な事前分垃のRLプロセスの開始ず芋なすこずができたす。



報酬関数は孊習可胜になりたす。 機械孊習は、デヌタに基づいお、人が蚭蚈したものよりも優れたものを構築するこずを孊ぶこずができるこずを玄束したす。 報酬関数を遞択するこずが非垞に難しい堎合、このタスクに機械孊習を䜿甚しおみたせんか シミュレヌション孊習ずRLの反察-これらの豊富な領域は、報酬関数が人からの確認たたは評䟡によっお暗黙的に決定できるこずを瀺しおいたす。



逆RLおよびシミュレヌショントレヌニングに関する最も有名な科孊論文は、Inverse Reinforcement LearningNg and Russell、ICML 2000のアルゎリズム、Inverse Reinforcement Learningを介した実習Abbeel and Ng、ICML 2004およびDAggerRoss、Gordon、and Bagnell、AISTATSです。 2011 。



これらのアむデアを深局孊習の分野に拡倧する最近の䜜品には、 ガむド付きコスト孊習Finnなど、ICML 2016 、 時間制玄ネットワヌクSermanet他、2017 、およびLearning From Human PreferencesChristiano他、NIPS 2017が含たれたす。 特に、リストされおいる最埌の蚘事は、人々によっお付けられた評䟡に由来する報酬が、実際にトレヌニングされた元のハヌドコヌディングされた報酬よ​​りも優れおいるこずを瀺しおいたす-これは良い実甚的な結果です。



詳现なトレヌニングを䜿甚しない長期的な仕事の䞭で、私はInverse Reward DesignHadfield-Menell et al、NIPS 2017ず物理的な人間の盞互䜜甚からの孊習ロボット目暙Bajcsy et al、CoRL 2017の蚘事が気に入りたした 。



転送を孊習したす。 孊習の転送は、以前のタスクの知識を䜿甚しお新しいタスクの孊習をスピヌドアップできるこずを玄束したす。トレヌニングが異皮タスクを解決するのに十分に信頌できるようになるずき、私はこれが未来であるず絶察に確信しおいたす。たったく勉匷できない堎合はトレヌニングを移管するこずは難しく、タスクAずBがある堎合、タスクAからタスクBぞのトレヌニングの移管が起こるかどうかを予枬するこずは困難です。私の経隓では、ここに非垞に明癜な答えがあるか、たったく理解できたせん。そしお、最も明癜な堎合でも、非自明なアプロヌチが必芁です。



この分野での最近の研究は、Universal Value Function ApproximatorsSchaul et al、ICML 2015、DistralWhye Teh et al、NIPS 2017およびOver 克服Catastrophic ForgettingKirkpatrick et al、PNAS 2017です。叀い䜜品に぀いおは、HordeSutton et al、AAMAS 2011を参照しおください。



たずえば、ロボット工孊は、シミュレヌタヌから実䞖界ぞのトレヌニングの転送タスクのシミュレヌションから実際のタスクぞで順調に進歩しおいたす。参照しおください。ザ・ドメむンのランダム化をトヌビンら、2017 IROS 、シム・ツヌ・実ロボットネッツプログレッシブず孊習Rusuのら、Corl 2017ずGraspGANBousmalisら、2017 。免責事項私はGraspGANに取り組みたした。



良い事前知識は、トレヌニング時間を倧幅に短瞮できたす。。これは、以前のポむントのいく぀かず密接に関連しおいたす。䞀方で、孊習の移転は、過去の経隓を䜿甚しお、他のタスクの事前確率分垃を䜜成するこずです。 RLアルゎリズムは、マルコフの意思決定プロセスで動䜜するように蚭蚈されおいたす。ここで、䞀般化に問題がありたす。私たちの゜リュヌションが環境の狭いセクタヌでのみうたく機胜するず信じるなら、これらの環境を効果的に解決するために共通の構造を䜿甚できるはずです。



Pieter Ebbillは、スピヌチの䞭で、珟実の䞖界で解決するようなタスクのみに深いRLを芁求する必芁があるこずに泚目しおいたす。これは非垞に理にかなっおいるこずに同意したす。非珟実的なタスクの孊習を遅くするこずで、新しい実際のタスクをすばやく孊習できるように、実䞖界の事前知識が必芁です。これは完党に受け入れられる劥協案です。



困難なのは、このような実䞖界の事前の蚭蚈が非垞に難しいこずです。ただし、これがただ可胜である可胜性は十分にあるず思いたす。個人的には、デヌタから合理的な事前分垃を生成する方法を提䟛するため、メタトレヌニングに関する最近の研究に満足しおいたす。たずえば、RLを䜿甚しお倉庫をナビゲヌトする堎合、たずメタトレヌニングを䜿甚しお䞀般的なナビゲヌションを教え、次にロボットが移動する特定の倉庫に察しお事前にこれを埮調敎するこずは興味深いでしょう。これは未来に非垞に䌌おおり、問題はメタトレヌニングがそこに到達するかどうかです。



最新の孊習孊習䜜業の抂芁に぀いおは、BAIRBerkeley AI Researchのこの出版物を参照しおください。



より耇雑な環境は逆説的に簡単になりたす。パルクヌルボットに関するDeepMindの蚘事の䞻な結論の1぀は、タスクのバリ゚ヌションをいく぀か远加するこずでタスクを非垞に耇雑にするず、実際にはトレヌニングを簡玠化できるずいうこずです。ルヌルは他のすべおのパラメヌタヌのパフォヌマンスを損なうこずなく1぀の蚭定で再トレヌニングできないためです。ドメむンランダム化に関する蚘事やImageNetでも同様のこずがわかりたした。ImageNetでトレヌニングされたモデルは、CIFAR-100でトレヌニングされたモデルよりもはるかに優れた他の環境に拡匵できたす。先ほど蚀ったように、もっず普遍的なRLに移行するために、「管理甚のImageNet」を䜜成するだけで十分でしょう。



倚くのオプションがありたす。OpenAIゞムは最も人気のある環境ですが、アヌケヌド孊習環境、Roboschool、DeepMind Lab、DeepMind Control Suite、およびELF。



最埌に、これは孊術的な芳点からはs蟱的ですが、深いRLの経隓的な問題は実際的な芳点からは問題ではないかもしれたせん。架空の䟋ずしお、金融䌚瀟がディヌプRLを䜿甚しおいるずしたす。圌らは、3぀のランダムなsidを䜿甚しお、過去の米囜株匏垂堎デヌタに぀いお販売代理店を蚓緎したす。実際のA / Bテストでは、最初のシヌドは2少ない収入をもたらし、2番目のシヌドは平均収益性で機胜し、3番目のシヌドは2増加したす。この仮想バヌゞョンでは、再珟性は重芁ではありたせん-歩留たりが2高いモデルを展開しお喜ぶだけです。同様に、販売代理店が米囜でのみうたく機胜するこずは問題ではありたせん。䞖界垂堎でうたく機胜しない堎合は、そこでは䜿甚しないでください。異垞なシステムず再珟可胜な異垞なシステムには倧きな違いがありたす。おそらく、最初に集䞭する必芁がありたす。



今どこにいるの



倚くの点で、ディヌプRLの珟圚の状態に悩たされおいたす。それにもかかわらず、それは研究者の間でそのような匷い関心を集めおいたすが、これは私が他の分野で芋たこずはありたせん。私の気持ちは、アンドリュヌ・りンがディヌプラヌニングを適甚するナッツずボルトずの圌の講挔で蚀及したフレヌズによっお最もよく衚されたす短期的な匷い悲芳䞻矩、さらに匷い長期的な楜芳䞻矩ずのバランス。ディヌプRLは少し混chaずしおいたすが、私はただ将来を信じおいたす。



ただし、匷化孊習RLで問題を解決できるかどうか再床尋ねられた堎合、私はすぐに「いいえ」ず答えたす。しかし、数幎埌にこの質問を繰り返すようお願いしたす。それたでに、おそらくすべおがうたくいくでしょう。



All Articles