TL; DR：強化学習（RL）は常に困難でした。標準の深層学習手法が機能しなくても心配する必要はありません。

Alex Irpanの記事は、現在のRLの深い問題の多くをよく説明しています。しかし、それらのほとんどは新しいものではありません-それらは常に存在していました。実際、これらはRLが始まって以来の根本的な問題です。

この記事では、2つの考えをお伝えしたいと思います。

アレックスが説明したほとんどの欠陥は、2つの主要なRL問題に要約されます。
ニューラルネットワークは、問題のほんの一部を解決するのに役立ち、新しい問題を作成します。

注：この記事はアレックスの主張に反論するものではありません。それどころか、私は彼の結論の大部分を支持し、研究者はRLの既存の限界をより明確に説明すべきだと思う。

RLの2つの主な問題

最高レベルでは、強化された学習は、特定の環境での何らかの形の長期的な利益率を最大化しています。 RL問題の解決には2つの基本的な困難があります。探索と開発のバランス（探索と探索）、および長期のクレジットの割り当てです。

サットンとバルトの強化学習に関する本の最初の章の最初のページで述べたように、これらは強化学習のユニークな問題です。

RLの主な問題には、部分的な可観測性、マルチエージェント環境、人と人とのトレーニングなど、独自の恐ろしいモンスターによって明らかになる関連する種類があります。ここでは、これらすべてを省略します。

RLの分野における研究者の一定の状態。 [キャプション：「これは正常です」]

一方、教師との指導は一般化の問題を扱います。一般化は、ラベル付きの可視データの束がすでにあることを前提として、非表示データへのラベルの割り当てです。 RLの基本的な問題の一部は、適切な一般化によって解決できます。モデルを不可視状態にうまく一般化する場合、そのような広範なインテリジェンスは必要ありません。これは通常、ディープラーニングの出番です。

後述するように、強化学習は、教師による学習とは異なり、根本的に複雑な問題です。ディープラーニングなど、教師による非常に成功した教授法では、すべての問題が完全に解決されるわけではないことは不思議ではありません。実際、一般化を改善しながら深層学習を行うと、独自の悪魔が生まれます。

本当に奇妙なのは、RLの現在の制限に対する驚きです。 DQNが環境で学習する際に長期的または数百万ステップで動作できないこと-ここで新しいことはありませんが、これは強化されたディープラーニングの神秘的な機能ではありません。これはすべて、問題の性質によって説明されています。

これら2つの基本的な問題を詳しく見てみましょう。それから明らかになります。強化された学習がまだ機能しないという事実には驚くべきことは何もありません。

インテリジェンスと搾取

サンプリングの非効率性、再現性、およびローカル最適化の終了

各エージェントは、質問に答えるために最初から学習する必要があります。良い戦略を立てるこの戦略を続けるべきでしょうか、それとも将来的に利益を増加させる可能性のある比較的準最適な行動を取るべきでしょうか？正しい答えが1つも存在しないため、この質問は非常に複雑です。常に妥協があります。

良いスタート

ベルマン方程式は、関数の最適値への収束を保証します

各状態が無限の回数チェックされ、各アクションが無限の回数テストされる場合のみ。そのため、最初からトレーニングには無限のサンプルが必要であり、どこでも必要です。

あなたは尋ねることができます：「なぜ最適性を修正するのですか？」

まあほとんどの場合、成功する戦略が比較的迅速に開発され、あまり多くのものを損なうことがなければ、これで十分です。実際には、有限のステップ数で良い政治を学べることが嬉しいことがあります（2,000万は無限よりはるかに少ないです）。しかし、いくつかのパラメーターを最大化/最小化するために数字なしでこれらの主観的な概念を定義することは困難です。何かを保証するのはさらに難しい。それについては後で詳しく説明します。

したがって、ほぼ最適なソリューション（それが何であれ）に満足することに同意しましょう。同じ近似を取得するサンプルの数は、アクションと状態の空間とともに指数関数的に増加します。

しかし、ちょっと悪化します

仮定を行わない場合、知能への最善の方法はランダムです。好奇心などのヒューリスティックを追加できますが、場合によってはうまく機能しますが、これまでのところ完全な解決策はありません。最終的に、特定の状態での何らかのアクションが、それを試さない場合、多少の報酬をもたらすと信じる理由はありません。

さらに、強化されたモデルフリーの学習アルゴリズムは、通常、最も一般的な方法で問題を解決しようとします。分布の形式、環境の遷移のダイナミクス、または最適な戦略についての仮定はほとんどありません（たとえば、このペーパーを参照）。

そして、それは理にかなっています。大きな報酬を1回受け取ったからといって、同じアクションの結果として、この状態で毎回受け取ることになるわけではありません。ここで、唯一の合理的な行動は、特定の賞を過度に信頼することではなく、この状態でこのアクションがどれほど良いかについての評価を徐々に高めることです。

そのため、任意の多数の状態とアクションにわたる任意の複雑な確率分布の期待値を近似しようとする関数に対して、小さな保守的な更新を行います。

しかし、ちょっと悪化します

連続的な状態とアクションについて話しましょう。

私たちのサイズの世界は、ほとんど連続しているようです。しかし、RLにとってはこれは問題です。無限の数の状態を無限の回数受け入れ、無限の数のアクションを無限の回数実行する方法は？獲得した知識を目に見えない状態や行動に一般化する場合のみ。教師とのトレーニング！

少し説明しましょう。

RLの一般化は、関数の近似と呼ばれます。関数の近似は、状態とアクションを、それらの値を計算する関数に転送できるという考えを反映しています。そして、各状態とアクションの値を巨大なテーブルに保存する必要はありません。データに関する関数を教える-あなたは実際に教師と一緒に学習しています。ミッションは完了しました。

それほど速くない

これでもRLでは基本的に行われません。

そもそも、勾配降下のペースが遅いため、ニューラルネットワークには独自の法外なサンプルの非効率性があることを忘れないでください。

でもね、状況は実はさらに悪い

RLでは、ネットワークをトレーニングするためのデータは、環境との対話中にオンザフライで取得する必要があります。探索とデータ収集として、ユーティリティ関数Qスコアが変わります。

教師による指導とは異なり、ここではグラウンドトゥルースマークは修正されていません！ ImageNetトレーニングの開始時に、イメージを猫としてマークした後、認識を変えて、その中に犬、車、トラクターなどを見ると想像してください。目的関数の真の評価に近づくための唯一の方法は、探索を続けることです。

実際、トレーニングキットであっても、関数またはポリシーの最適値である真の目的関数のサンプルを取得することはありません。しかし、あなたはまだ学ぶことができます！ これが強化学習がとても人気 がある理由です。

これまでのところ、完全に崩壊しないようにゆっくりと変更する必要がある2つの非常に不安定なものがあります。迅速な偵察は、ターゲットランドスケープの突然の変化につながる可能性があるため、ネットワークは非常に苦労してマッチングを試みています。ネットワークの偵察と訓練からのこのような二重の打撃は、教師による教育の通常のタスクと比較して、より複雑なサンプリングにつながります。

不安定なダイナミクスのインテリジェンスも、なぜRLが教師による指導よりもハイパーパラメーターとランダムな初期値に敏感なのかを説明しています。ニューラルネットワークがトレーニングされる固定データセットはありません。トレーニングデータは、ニューラルネットワークの発行、使用されるインテリジェンスメカニズム、および環境のランダム性に直接依存します。したがって、異なる環境で同じ実行環境の同じアルゴリズムを使用すると、まったく異なるトレーニングセットを取得できます。これにより、パフォーマンスが大幅に異なります。繰り返しますが、制御されたインテリジェンスの主な問題は、同様の状態分布を確認することです。最も一般的なアルゴリズムは、これについて仮定しません。

しかし、ちょっと！状況は均一です...

連続スペースの場合、 ポリシーで最も一般的な方法。これらのメソッドは、既に実装されているルールに一致するパターンのみを使用できます。また、現在のルールを更新するとすぐに、過去に学習したすべての経験がすぐに使用できなくなります。チューブの束（ Mujoco ）の形で奇妙な黄色の人や動物に関連して言及されているアルゴリズムのほとんどは、オンポリシーのカテゴリーに属します。

チーター

チューブモデル

一方、ポリシー外の方法では、他のルールの実装を監視することにより、最適なルールを学習できます。明らかに、これははるかに優れていますが、残念ながら私たちはまだそれが得意ではありません。

しかし、ちょっと！

いいえ、実際にはそれだけです。ただし、さらに悪化しますが、次の章で説明します。

シンプルに見え始めます。

要約すると、これらの質問は、強化された学習の主な問題、およびすべてのAIシステムの広い意味で、知性のために発生します。

RainbowDQNは、ビデオゲームが何であるか、敵があなたに弾丸を撃つこと、弾丸が悪いこと、常に動き回る画面上のピクセルの束が弾丸であること、弾丸はオブジェクトと同じ世界に存在し、世界はいくつかの原則に従って配置されていること、これは単なるエントロピーの最大分布ではありません。これらすべての事前設定（プリセット）は、人間がインテリジェンスを少数の高品質状態に限定するのに役立ちます。 DQNはランダムインテリジェンスによってこれらすべてを学習する必要があります。トレーニング後、AlphaZeroの場合のように、彼が本物のマスターを倒し、何世紀も昔のゲームの知恵を超えることができるという事実は、まだ驚くべきことのようです。

長期的なメリット

報酬機能、その設計と割り当て

ラッキーコインだけで宝くじを引っ掻く人がいることを知っていますか？ RLエージェントは基本的に毎回宝くじをします-ジャックポットを破るために彼らが何をしたかを把握しようとします。これらは、環境の高度なランダム性と混合された、多数のステップにわたるアクションから生じる1つのインジケーターを最大化します。実際に高い報酬をもたらした特定のアクションを見つけることは、クレジット割り当てのタスクです。

報酬を簡単に決定したい。強化された学習により、ロボットに正しい行動を知らせることが保証されます。そして、時間の経過とともに、正しい行動を確実に学習します。あなた自身が実際に正しい動作を知る必要はなく、すべてのステップで監督を提供する必要はありません。

実際、問題は、意味のあるタスクに対する可能な報酬の規模が今日のアルゴリズムが処理できるよりもはるかに広いために発生します。ロボットは、はるかに密な時間スケールで動作します。彼は各関節の速度をミリ秒ごとに調整する必要があり、その人は彼が良いサンドイッチを作ったときだけそれを報いるでしょう。これらの報酬の間には多くのイベントがあり、重要な選択と報酬の間のギャップが大きすぎる場合、最新のアルゴリズムはすべて失敗します。

2つのオプションがあります。その1つは、報酬の発行規模を縮小することです。よりスムーズかつ頻繁にそれらを配ります。いつものように、最適化アルゴリズムに弱点を示すと、絶えず悪用され始めます。報酬が十分に考慮されていない場合、これはハッキング報酬につながる可能性があります。

最終的に、私たちは忘れてしまうので、このようなtrapに陥ります。エージェントはただの報酬ではなく、価値の全体像を最適化します。したがって、十分な正確性を示さなければ、即時の報酬の構造が無害に見える場合でも、風景写真は直感的でなく、これらのエクスプロイトの多くを含むことが判明する場合があります。

問題は、なぜ報酬が主に使用されるのかということです。報酬は、最適化の機会を利用して適切なルールを作成できるようにする目標を定義する方法です。報酬の形成は、上からこの分野のより具体的な知識を紹介する方法です。

目標を設定するより良い方法はありますか？シミュレーショントレーニングでは、ターゲット分布から直接ラベルを要求することで、RL問題全体を巧妙に回避できます。最適なポリシー。直接報酬なしで学習する他の方法があり、エージェントに画像の形で報酬を与える可能性があります（RLの目標仕様に関するIMCLセミナーをお見逃しなく！）

長期に対処するための別の有望な方法（報酬の延期）は、強化された階層型学習です。これが問題に対する最も直感的な解決策であるため、アレックスが彼の記事でそれを言及しなかったことに驚きました（ただし、この点については偏見があります！）

階層RLは、長期タスクをいくつかの目標とサブタスクに分解しようとします。問題を分解して、決定が行われる時間枠を効果的に拡張します。他の目標に適用可能なサブタスクにルールが適用されると、本当に興味深いことが起こります。

一般に、階層は任意に深くすることができます。標準的な例は、別の都市への旅行です。最初の選択肢は、行くかどうかを決めることです。その後、旅の各段階がどのように完了するかを決定する必要があります。空港への列車に乗り、飛行し、ホテルまでタクシーで行くのは合理的なステップのようです。鉄道の段階では、サブタスクを区別します：スケジュールの表示、チケットの購入など。タクシーを呼ぶには、電話を取り、声帯の振動を活性化するための多くの動きが含まれます。

RL研究における法的調査

少し単純ですが、1990年代の昔ながらの精神の説得力のある例です。適切な都市に到達するための単一のスカラー報酬は、マルコフ連鎖を通じて階層のさまざまなレベルに分配できます。

階層構造は大きな利点を約束しますが、私たちはまだそれらからは程遠いです。最良のシステムのほとんどは、1レベルの階層のみを考慮しており、習得した知識を他のタスクに移行することは困難です。

おわりに

私の結論は、一般的にアレックスの結論と同じです。

そのような活動がこの分野で行われていることを非常に嬉しく思います。そして私たちは最終的に私が常に解決したかった問題に取り組みました。強化された学習はついに原始的なシミュレータの境界を越えました！

パニックなし！

1つだけ追加したいのは、標準的なディープラーニング方法で強化学習モンスターを殺さない場合でも、絶望しないでください。強化された学習には、教師との教育にはない2つの基本的な困難があります。知性と長期的なメリットです。それらは常にここにあり、それらを解くには本当に優れた関数近似器以上のものが必要です。過去の偵察のサンプルを使用して、タスク間で経験を移し、他のエージェント（人を含む）とトレーニングし、さまざまな時間スケールでアクションを実行し、スカラー報酬で難しい問題を解決する、はるかに優れた偵察方法を見つける必要があります。

RLには非常に複雑な問題がありますが、今日でも強力な人工知能を開発するための最良のフレームワークであると思います。そうでなければ、私はそれをしません。 DQNが視覚データでAtariをプレイし、AlphaGoがゴーでワールドチャンピオンを破ったとき-これらの瞬間に、強力なAIへの道の小さなステップを実際に観察しました。

強化学習と人工知能の未来を称賛します。

強化トレーニングが機能しなかった

RLの2つの主な問題

インテリジェンスと搾取

良いスタート

しかし、ちょっと悪化します

しかし、ちょっと悪化します

それほど速くない

でもね、状況は実はさらに悪い

しかし、ちょっと！状況は均一です...

しかし、ちょっと！

長期的なメリット

おわりに

More articles:

強化トレーニングが機能しなかった

RLの2つの主な問題

インテリジェンスと搾取

良いスタート

しかし、ちょっと悪化します

しかし、ちょっと悪化します

それほど速くない

でもね、状況は実はさらに悪い

しかし、ちょっと！ 状況は均一です...

しかし、ちょっと！

長期的なメリット

おわりに

More articles:

しかし、ちょっと！状況は均一です...