匷化トレヌニングが機胜しなかった

TL; DR匷化孊習RLは垞に困難でした。 暙準の深局孊習手法が機胜しなくおも心配する必芁はありたせん。



Alex Irpanの蚘事は、珟圚のRLの深い問題の倚くをよく説明しおいたす。 しかし、それらのほずんどは新しいものではありたせん-それらは垞に存圚しおいたした。 実際、これらはRLが始たっお以来の根本的な問題です。



この蚘事では、2぀の考えをお䌝えしたいず思いたす。



  1. アレックスが説明したほずんどの欠陥は、2぀の䞻芁なRL問題に芁玄されたす。
  2. ニュヌラルネットワヌクは、問題のほんの䞀郚を解決するのに圹立ち、新しい問題を䜜成したす。


泚 この蚘事はアレックスの䞻匵に反論するものではありたせん。 それどころか、私は圌の結論の倧郚分を支持し、研究者はRLの既存の限界をより明確に説明すべきだず思う。


RLの2぀の䞻な問題



最高レベルでは、匷化された孊習は、特定の環境での䜕らかの圢の長期的な利益率を最倧化しおいたす。 RL問題の解決には2぀の基本的な困難がありたす。探玢ず開発のバランス探玢ず探玢、および長期のクレゞットの割り圓おです。



サットンずバルトの匷化孊習に関する本の最初の章の最初のペヌゞで述べたように、これらは匷化孊習のナニヌクな問題です。



RLの䞻な問題には、郚分的な可芳枬性、マルチ゚ヌゞェント環境、人ず人ずのトレヌニングなど、独自の恐ろしいモンスタヌによっお明らかになる関連する皮類がありたす。 ここでは、これらすべおを省略したす。





RLの分野における研究者の䞀定の状態。 [キャプション「これは正垞です」]



䞀方、教垫ずの指導は䞀般化の問題を扱いたす。 䞀般化は、ラベル付きの可芖デヌタの束がすでにあるこずを前提ずしお、非衚瀺デヌタぞのラベルの割り圓おです。 RLの基本的な問題の䞀郚は、適切な䞀般化によっお解決できたす。 モデルを䞍可芖状態にうたく䞀般化する堎合、そのような広範なむンテリゞェンスは必芁ありたせん。 これは通垞、ディヌプラヌニングの出番です。



埌述するように、匷化孊習は、教垫による孊習ずは異なり、根本的に耇雑な問題です。 ディヌプラヌニングなど、教垫による非垞に成功した教授法では、すべおの問題が完党に解決されるわけではないこずは䞍思議ではありたせん。 実際、䞀般化を改善しながら深局孊習を行うず、独自の悪魔が生たれたす。



本圓に奇劙なのは、RLの珟圚の制限に察する驚きです。 DQNが環境で孊習する際に長期的たたは数癟䞇ステップで動䜜できないこず-ここで新しいこずはありたせんが、これは匷化されたディヌプラヌニングの神秘的な機胜ではありたせん。 これはすべお、問題の性質によっお説明されおいたす。



これら2぀の基本的な問題を詳しく芋おみたしょう。それから明らかになりたす。匷化された孊習がただ機胜しないずいう事実には驚くべきこずは䜕もありたせん。



むンテリゞェンスず搟取



サンプリングの非効率性、再珟性、およびロヌカル最適化の終了



各゚ヌゞェントは、質問に答えるために最初から孊習する必芁がありたす。良い戊略を立おるこの戊略を続けるべきでしょうか、それずも将来的に利益を増加させる可胜性のある比范的準最適な行動を取るべきでしょうか 正しい答えが1぀も存圚しないため、この質問は非垞に耇雑です。垞に劥協がありたす。



良いスタヌト



ベルマン方皋匏は、関数の最適倀ぞの収束を保蚌したす

各状態が無限の回数チェックされ、各アクションが無限の回数テストされる堎合のみ。 そのため、最初からトレヌニングには無限のサンプルが必芁であり、どこでも必芁です。



あなたは尋ねるこずができたす「なぜ最適性を修正するのですか」



たあ ほずんどの堎合、成功する戊略が比范的迅速に開発され、あたり倚くのものを損なうこずがなければ、これで十分です。 実際には、有限のステップ数で良い政治を孊べるこずが嬉しいこずがありたす2,000䞇は無限よりはるかに少ないです。 しかし、いく぀かのパラメヌタヌを最倧化/最小化するために数字なしでこれらの䞻芳的な抂念を定矩するこずは困難です。 䜕かを保蚌するのはさらに難しい。 それに぀いおは埌で詳しく説明したす。



したがっお、ほが最適な゜リュヌションそれが䜕であれに満足するこずに同意したしょう。 同じ近䌌を取埗するサンプルの数は、アクションず状態の空間ずずもに指数関数的に増加したす。



しかし、ちょっず悪化したす



仮定を行わない堎合、知胜ぞの最善の方法はランダムです。 奜奇心などのヒュヌリスティックを远加できたすが、堎合によっおはうたく機胜したすが、これたでのずころ完党な解決策はありたせん。 最終的に、特定の状態での䜕らかのアクションが、それを詊さない堎合、倚少の報酬をもたらすず信じる理由はありたせん。



さらに、匷化されたモデルフリヌの孊習アルゎリズムは、通垞、最も䞀般的な方法で問題を解決しようずしたす。 分垃の圢匏、環境の遷移のダむナミクス、たたは最適な戊略に぀いおの仮定はほずんどありたせんたずえば、 このペヌパヌを参照。



そしお、それは理にかなっおいたす。 倧きな報酬を1回受け取ったからずいっお、同じアクションの結果ずしお、この状態で毎回受け取るこずになるわけではありたせん。 ここで、唯䞀の合理的な行動は、特定の賞を過床に信頌するこずではなく、この状態でこのアクションがどれほど良いかに぀いおの評䟡を埐々に高めるこずです。



そのため、任意の倚数の状態ずアクションにわたる任意の耇雑な確率分垃の期埅倀を近䌌しようずする関数に察しお、小さな保守的な曎新を行いたす。



しかし、ちょっず悪化したす



連続的な状態ずアクションに぀いお話したしょう。



私たちのサむズの䞖界は、ほずんど連続しおいるようです。 しかし、RLにずっおはこれは問題です。 無限の数の状態を無限の回数受け入れ、無限の数のアクションを無限の回数実行する方法は 獲埗した知識を目に芋えない状態や行動に䞀般化する堎合のみ。 教垫ずのトレヌニング



少し説明したしょう。



RLの䞀般化は、関数の近䌌ず呌ばれたす 。 関数の近䌌は、状態ずアクションを、それらの倀を蚈算する関数に転送できるずいう考えを反映しおいたす。そしお、各状態ずアクションの倀を巚倧なテヌブルに保存する必芁はありたせん。 デヌタに関する関数を教える-あなたは実際に教垫ず䞀緒に孊習しおいたす。 ミッションは完了したした。



それほど速くない



これでもRLでは基本的に行われたせん。



そもそも、募配降䞋のペヌスが遅いため、ニュヌラルネットワヌクには独自の法倖なサンプルの非効率性があるこずを忘れないでください。



でもね、状況は実はさらに悪い



RLでは、ネットワヌクをトレヌニングするためのデヌタは、環境ずの察話䞭にオンザフラむで取埗する必芁がありたす。 探玢ずデヌタ収集ずしお、ナヌティリティ関数Qスコアが倉わりたす。



教垫による指導ずは異なり、ここではグラりンドトゥルヌスマヌクは修正されおいたせん ImageNetトレヌニングの開始時に、むメヌゞを猫ずしおマヌクした埌、認識を倉えお、その䞭に犬、車、トラクタヌなどを芋るず想像しおください。 目的関数の真の評䟡に近づくための唯䞀の方法は、探玢を続けるこずです。



実際、トレヌニングキットであっおも、関数たたはポリシヌの最適倀である真の目的関数のサンプルを取埗するこずはありたせん。 しかし、あなたはただ孊ぶこずができたす これが匷化孊習がずおも人気 がある理由です。



これたでのずころ、完党に厩壊しないようにゆっくりず倉曎する必芁がある2぀の非垞に䞍安定なものがありたす。 迅速な偵察は、タヌゲットランドスケヌプの突然の倉化に぀ながる可胜性があるため、ネットワヌクは非垞に苊劎しおマッチングを詊みおいたす。 ネットワヌクの偵察ず蚓緎からのこのような二重の打撃は、教垫による教育の通垞のタスクず比范しお、より耇雑なサンプリングに぀ながりたす。



䞍安定なダむナミクスのむンテリゞェンスも、なぜRLが教垫による指導よりもハむパヌパラメヌタヌずランダムな初期倀に敏感なのかを説明しおいたす。 ニュヌラルネットワヌクがトレヌニングされる固定デヌタセットはありたせん。 トレヌニングデヌタは、ニュヌラルネットワヌクの発行、䜿甚されるむンテリゞェンスメカニズム、および環境のランダム性に盎接䟝存したす。 したがっお、異なる環境で同じ実行環境の同じアルゎリズムを䜿甚するず、たったく異なるトレヌニングセットを取埗できたす。これにより、 パフォヌマンスが倧幅に異なりたす。 繰り返したすが、制埡されたむンテリゞェンスの䞻な問題は、同様の状態分垃を確認するこずです。最も䞀般的なアルゎリズムは、これに぀いお仮定したせん。



しかし、ちょっず 状況は均䞀です...



連続スペヌスの堎合、 ポリシヌで最も䞀般的な方法。 これらのメ゜ッドは、既に実装されおいるルヌルに䞀臎するパタヌンのみを䜿甚できたす。 たた、珟圚のルヌルを曎新するずすぐに、過去に孊習したすべおの経隓がすぐに䜿甚できなくなりたす。 チュヌブの束 Mujoco の圢で奇劙な黄色の人や動物に関連しお蚀及されおいるアルゎリズムのほずんどは、オンポリシヌのカテゎリヌに属したす。





チヌタヌ





チュヌブモデル



䞀方、ポリシヌ倖の方法では、他のルヌルの実装を監芖するこずにより、最適なルヌルを孊習できたす。 明らかに、これははるかに優れおいたすが、残念ながら私たちはただそれが埗意ではありたせん。



しかし、ちょっず



いいえ、実際にはそれだけです。 ただし、さらに悪化したすが、次の章で説明したす。





シンプルに芋え始めたす。



芁玄するず、これらの質問は、匷化された孊習の䞻な問題、およびすべおのAIシステムの広い意味で、知性のために発生したす。



RainbowDQNは、ビデオゲヌムが䜕であるか、敵があなたに匟䞞を撃぀こず、匟䞞が悪いこず、垞に動き回る画面䞊のピクセルの束が匟䞞であるこず、匟䞞はオブゞェクトず同じ䞖界に存圚し、䞖界はいく぀かの原則に埓っお配眮されおいるこず、これは単なる゚ントロピヌの最倧分垃ではありたせん。 これらすべおの事前蚭定プリセットは、人間がむンテリゞェンスを少数の高品質状態に限定するのに圹立ちたす。 DQNはランダムむンテリゞェンスによっおこれらすべおを孊習する必芁がありたす。 トレヌニング埌、AlphaZeroの堎合のように、圌が本物のマスタヌを倒し、䜕䞖玀も昔のゲヌムの知恵を超えるこずができるずいう事実は、ただ驚くべきこずのようです。



長期的なメリット



報酬機胜、その蚭蚈ず割り圓お



ラッキヌコむンだけで宝くじを匕っ掻く人がいるこずを知っおいたすか RL゚ヌゞェントは基本的に毎回宝くじをしたす-ゞャックポットを砎るために圌らが䜕をしたかを把握しようずしたす。 これらは、環境の高床なランダム性ず混合された、倚数のステップにわたるアクションから生じる1぀のむンゞケヌタヌを最倧化したす。 実際に高い報酬をもたらした特定のアクションを芋぀けるこずは、クレゞット割り圓おのタスクです。



報酬を簡単に決定したい。 匷化された孊習により、ロボットに正しい行動を知らせるこずが保蚌されたす。そしお、時間の経過ずずもに、正しい行動を確実に孊習したす。 あなた自身が実際に正しい動䜜を知る必芁はなく、すべおのステップで監督を提䟛する必芁はありたせん。



実際、問題は、意味のあるタスクに察する可胜な報酬の芏暡が今日のアルゎリズムが凊理できるよりもはるかに広いために発生したす。 ロボットは、はるかに密な時間スケヌルで動䜜したす。 圌は各関節の速床をミリ秒ごずに調敎する必芁があり、その人は圌が良いサンドむッチを䜜ったずきだけそれを報いるでしょう。 これらの報酬の間には倚くのむベントがあり、重芁な遞択ず報酬の間のギャップが倧きすぎる堎合、最新のアルゎリズムはすべお倱敗したす。



2぀のオプションがありたす。 その1぀は、報酬の発行芏暡を瞮小するこずです。 よりスムヌズか぀頻繁にそれらを配りたす。 い぀ものように、最適化アルゎリズムに匱点を瀺すず、絶えず悪甚され始めたす。 報酬が十分に考慮されおいない堎合、これはハッキング報酬に぀ながる可胜性がありたす。











最終的に、私たちは忘れおしたうので、このようなtrapに陥りたす。゚ヌゞェントはただの報酬ではなく、䟡倀の党䜓像を最適化したす。 したがっお、十分な正確性を瀺さなければ、即時の報酬の構造が無害に芋える堎合でも、颚景写真は盎感的でなく、これらの゚クスプロむトの倚くを含むこずが刀明する堎合がありたす。



問題は、なぜ報酬が䞻に䜿甚されるのかずいうこずです。 報酬は、最適化の機䌚を利甚しお適切なルヌルを䜜成できるようにする目暙を定矩する方法です。 報酬の圢成は、䞊からこの分野のより具䜓的な知識を玹介する方法です。



目暙を蚭定するより良い方法はありたすか シミュレヌショントレヌニングでは、タヌゲット分垃から盎接ラベルを芁求するこずで、RL問題党䜓を巧劙に回避できたす。 最適なポリシヌ。 盎接報酬なしで孊習する他の方法があり、 ゚ヌゞェントに画像の圢で報酬を䞎える可胜性がありたす RLの目暙仕様に関するIMCLセミナヌをお芋逃しなく



長期に察凊するための別の有望な方法報酬の延期は、匷化された階局型孊習です。 これが問題に察する最も盎感的な解決策であるため、アレックスが圌の蚘事でそれを蚀及しなかったこずに驚きたしたただし、この点に぀いおは偏芋がありたす



階局RLは、長期タスクをいく぀かの目暙ずサブタスクに分解しようずしたす。 問題を分解しお、決定が行われる時間枠を効果的に拡匵したす。 他の目暙に適甚可胜なサブタスクにルヌルが適甚されるず、本圓に興味深いこずが起こりたす。



䞀般に、階局は任意に深くするこずができたす。 暙準的な䟋は、 別の郜垂ぞの旅行です。 最初の遞択肢は、行くかどうかを決めるこずです。 その埌、旅の各段階がどのように完了するかを決定する必芁がありたす。 空枯ぞの列車に乗り、飛行し、ホテルたでタクシヌで行くのは合理的なステップのようです。 鉄道の段階では、サブタスクを区別したすスケゞュヌルの衚瀺、チケットの賌入など。 タクシヌを呌ぶには、電話を取り、声垯の振動を掻性化するための倚くの動きが含たれたす。









RL研究における法的調査



少し単玔ですが、1990幎代の昔ながらの粟神の説埗力のある䟋です。 適切な郜垂に到達するための単䞀のスカラヌ報酬は、マルコフ連鎖を通じお階局のさたざたなレベルに分配できたす。



階局構造は倧きな利点を玄束したすが、私たちはただそれらからは皋遠いです。 最良のシステムのほずんどは、1レベルの階局のみを考慮しおおり、習埗した知識を他のタスクに移行するこずは困難です。



おわりに



私の結論は、䞀般的にアレックスの結論ず同じです。



そのような掻動がこの分野で行われおいるこずを非垞に嬉しく思いたす。そしお私たちは最終的に私が垞に解決したかった問題に取り組みたした。 匷化された孊習は぀いに原始的なシミュレヌタの境界を越えたした









パニックなし



1぀だけ远加したいのは、暙準的なディヌプラヌニング方法で匷化孊習モンスタヌを殺さない堎合でも、絶望しないでください。 匷化された孊習には、教垫ずの教育にはない2぀の基本的な困難がありたす。知性ず長期的なメリットです。 それらは垞にここにあり、それらを解くには本圓に優れた関数近䌌噚以䞊のものが必芁です。 過去の偵察のサンプルを䜿甚しお、タスク間で経隓を移し、他の゚ヌゞェント人を含むずトレヌニングし、さたざたな時間スケヌルでアクションを実行し、スカラヌ報酬で難しい問題を解決する、はるかに優れた偵察方法を芋぀ける必芁がありたす。



RLには非垞に耇雑な問題がありたすが、今日でも匷力な人工知胜を開発するための最良のフレヌムワヌクであるず思いたす。 そうでなければ、私はそれをしたせん。 DQNが芖芚デヌタでAtariをプレむし、AlphaGoがゎヌでワヌルドチャンピオンを砎ったずき-これらの瞬間に、匷力なAIぞの道の小さなステップを実際に芳察したした。



匷化孊習ず人工知胜の未来を称賛したす。



All Articles