ゲーム「モンテズマの復ven」の進歩は、不慣れな環境の研究における成果の同義語として多くの人に考えられていました

好奇心を通じて環境を探索する強化学習エージェントを奨励する予測ベースのランダムネットワーク蒸留（RND）メソッドを開発しました。この方法は、コンピューターゲーム「モンテズマの復ven 」での人間の平均的な結果を初めて上回りました（ICLRの匿名アプリケーションを除き、結果が私たちのものより悪い）。 RNDは最先端の効率性を実証し、24室すべてを定期的に検出し、予備のデモやゲームの基本的な状態にアクセスすることなく第1レベルを通過します。

RNDメソッドは、状態データにランダムランダムニューラルネットワークを重ね合わせた結果を予測する複雑さを測定することにより、エージェントのなじみのない状態への移行を刺激します。条件がなじみがない場合、最終結果を予測することは困難です。これは、報酬が高いことを意味します。この方法は、あらゆる強化学習アルゴリズムに適用でき、実装が簡単で、スケーリングに効果的です。以下は、RNDの実装へのリンクです。RNDは、記事の結果を再現しています。

科学論文のテキスト、コード

モンテスマリベンジの結果

目的の目標を達成するために、エージェントは最初に、環境内で可能なアクションと、目標に向けた進捗状況を構成するものを調査する必要があります。ゲームの多くの報酬シグナルはカリキュラムを提供するため、単純な研究戦略でさえ目標を達成するのに十分です。 DQNのプレゼンテーションに関する最初の作業では、MontezumaのRevengeが、 DQNが平均人間スコア（4700）の0％の結果を示した唯一のゲームでした。単純なインテリジェンス戦略では、報酬を収集することはできず、あるレベルで数部屋しか見つけることができません。それ以来、モンテズマの復venのゲームの進歩は、多くの人が不慣れな環境の研究の進歩と同義であると見なしています。

2016年にDQNとカウンターのボーナスを組み合わせることにより、大きな進歩が達成されました。その結果、エージェントは15部屋を見つけ、平均で約3700で最高の6600を獲得しました。それ以来、結果の大幅な改善は、専門家またはエミュレータの基本状態にアクセスする。

1024人の従業員を対象に大規模なRND実験を実施し、 9回の開始で平均10,000件 、 最高の平均結果14,500件を得ました 。いずれの場合も、エージェントは20〜22の部屋を見つけました。さらに、1回の小さいが長い起動（10回のうち）では、 最大結果は17,500で、これは最初のレベルを通過して24の部屋すべてを見つけることに対応します 。以下のグラフは、これら2つの実験を比較し、更新パラメーターに応じた平均値を示しています。

以下の視覚化は、小規模の実験の進捗を示しています。エージェントは、好奇心の影響を受けて、新しい部屋を開き、ポイントを獲得する方法を見つけますが、トレーニング中に、この外部報酬により、後でこれらの部屋に戻ることが強制されます。

エージェントが発見した部屋とトレーニング中の平均結果。 部屋の透明度は、エージェントの10パスのうち何回検出されたかに対応します。 映像

好奇心に基づく広範な学習研究

RNDを開発する前に、カリフォルニア大学バークレー校のスタッフと一緒に、環境への報酬なしで学習を学びました。好奇心は、特定のタスクに対して特別に設計された報酬機能を使用するのではなく、エージェントがあらゆる環境と対話することを教える簡単な方法を提供します。これはまだ問題の解決に対応する事実ではありません。 ALE 、 Universe 、 Malmo 、 Gym 、 Gym Retro 、 Unity 、 DeepMind Lab 、 CommAIなどのプロジェクトでは、標準化されたインターフェースを介してエージェント用に多数のシミュレートされた環境が開かれます。特定の環境に固有ではない一般化された報酬機能を使用するエージェントは、幅広い環境で基本的なレベルの能力を獲得できます。これにより、彼は精巧な報酬がなくても有用な行動を決定することができます。

科学論文のテキスト、コード

各個別のタイムステップで強化された標準的なトレーニング設定では、エージェントはアクションを環境に送信し、反応して、エージェントに新しい観察、移行に対する報酬、およびエピソードの終了のインジケータを与えます。前の記事では、次の観察結果のみを生成するように環境を設定しました。そこで、エージェントは彼の経験に基づいて次の状態の予測モデルを研究し、予測報酬を内部報酬として使用します。その結果、彼は予測不能に惹かれています。たとえば、ゲームアカウントの変更は、アカウントが画面に表示され、変更を予測するのが困難な場合にのみ報われます。通常、エージェントは新しいオブジェクトとの有用な相互作用を見つけます。そのような相互作用の結果は、通常、環境の他の側面よりも予測が難しいためです。

他の研究者と同様に、環境のすべての側面が関連しているかどうかに関係なく、モデリングの観察の特徴を選択することを避けました。驚くべきことに、ランダム関数でさえうまく機能することがわかりました。

好奇心agents盛なエージェントは何をしますか？

50以上の異なる環境でエージェントをテストし、一見ランダムな動作から環境との意識的な相互作用まで、さまざまな能力を観察しました。驚いたことに、場合によっては、エージェントはなんとかゲームを完了することができましたが、外部報酬を通じて目標を知らされていませんでした。

トレーニング開始時の内部報酬

レベルの最初の通過での内部報酬のジャンプ

ブレイクアウト -エージェントがトレーニングの初期段階でブロックの新しい構成を見たとき、および数時間トレーニング後初めてレベルが通過したときに、内部報酬にジャンプします。

ポン -両方のプラットフォームを同時に制御するようにエージェントを訓練し、彼はゲーム内でボールをキープすることを学びました。ゲーム内のAIに対してトレーニングを行う場合でも、エージェントはゲームを最大化しようとしましたが、勝つことはできませんでした。

ボウリング -エージェントは、外部報酬を最大化するために直接訓練された他のエージェントよりもゲームを上手にプレイすることを学びました。これは、投球後のスコアボードの予測が困難な点滅にエージェントが惹かれるからだと考えています。

マリオ -内部報酬は、ゲームの目標であるレベルの進行と特によく一致しています。新しく見つかったエリアの詳細は予測できないため、エージェントは新しいエリアの検索に対して報酬を受け取ります。その結果、エージェントは11レベルを発見し、秘密の部屋を見つけ、ボスを倒しさえしました。

騒々しいテレビの問題

ランダムな結果に惹かれたスロットマシンのギャンブラーとして、エージェントは「ノイズの多いテレビの問題」の結果として、好奇心のtrapに陥ることがあります。エージェントは環境内のランダム性の原因を見つけ、それを観察し続け、そのような遷移に対して常に高い内部報酬を経験します。このようなトラップの例は、静的ノイズを生成するテレビを見ることです。ランダムチャンネルを再生するTVを備えたUnity迷路にエージェントを配置することで、文字通りこれを実証します。

騒々しいテレビと迷路のエージェント

騒々しいテレビのない迷路のエージェント

理論的には、ノイズの多いテレビの問題は非常に深刻ですが、モンテスマの復likeのような非常に決定的な環境では、好奇心によってエージェントが部屋を見つけてオブジェクトとやり取りすることが予想されます。好奇心に基づいて次の状態を予測するためのいくつかのオプションを試しました。リサーチボーナスとゲームアカウントを組み合わせました。

これらの実験では、エージェントはノイズコントローラーを介して環境を制御します。ノイズコントローラーは、現在のアクションではなく最後のアクションを何らかの確率で繰り返します。繰り返し可能な「スティッキー」アクションを備えたこの設定は、記憶を防ぐために、Atariなどの完全に決定的なゲームでエージェントをトレーニングするためのベストプラクティスとして提案されています。「スティッキー」アクションは、部屋から部屋への移行を予測不能にします。

ランダムネットワーク蒸留

次の状態を予測することは、ノイズの多いテレビの問題を本質的に受けやすいため、予測エラーの次の関連する原因を特定しました。

要因1 予測子が以前に検討した例から一般化に失敗した場合、予測エラーは大きくなります。新しい経験は、高い予測エラーに対応します。
ファクター2 。確率的予測目標のために、予測エラーは高くなります。
要因3 。予測に必要な情報が不足しているため、または予測モデルのクラスが目的関数の複雑さに適合するには制限が大きすぎるため、予測エラーが大きくなります。

要因1と要因2はノイズの多いテレビの問題につながるのに対し、要因1は経験の新規性を定量化するため、エラーの有用な原因であると判断しました。要因2および3を回避するために、次の状態自体を考慮して、次の状態でのランダムで初期化された一定のニューラルネットワークの発行の予測に基づく新しい研究ボーナスであるRNDを開発しました 。

直観は、予測モデルは彼女が訓練された状態を予測する際の誤差が小さいことを示唆しています。特に、ランダムに初期化されたニューラルネットワークの発行に関するエージェントの予測は、エージェントが以前に頻繁に会った状態よりも新しい状態の方が正確ではありません。合成予測問題を使用する利点は、決定論的（バイパスファクター2）であり、関数のクラス内で、予測子がターゲットネットワークと同じアーキテクチャの予測子（バイパスファクター3）を選択できることです。これにより、ノイズの多いテレビのRND問題が解消されます。

2つの報酬フローに2つの値を使用する、最も近いポリシーの最適化の形式であるプロキシーポリシー最適化（ PPO ）を通じて、研究ボーナスと外部報酬を組み合わせました。これにより、さまざまな報酬にさまざまな割引を適用したり、エピソードと非エピソードの報酬を組み合わせたりすることができます。このような追加の柔軟性により、私たちの最高のエージェントは、モンテスマの復venの最初のレベルで24室中22室を見つけることが多く、残りの2室を見つけた後に最初のレベルを通過することがあります。同じ方法は、VentureおよびGravitarゲームで記録的なパフォーマンスを示しています。

以下の視覚化は、エージェントが最初にトーチを見つけるモンテズマリベンジエピソードの内部報酬のグラフを示しています。

有能な実装が重要です

適切なアルゴリズムを選択するには、ノイズの多いテレビの問題に対する感受性など、一般的な考慮事項を考慮することが重要です。しかし、単純なアルゴリズムの非常に小さな変更が、その有効性に強く影響することがわかりました。最初の部屋から出られないエージェントから最初のレベルを通過するエージェントまで。トレーニングに安定性を追加するために、特性の飽和を回避し、予測可能な範囲に内部報酬をもたらしました。また、バグを見つけて修正するたびにRNDの有効性が大幅に改善されていることに気付きました （私たちのお気に入りには、配列のランダムなゼロ化が含まれていたため、外部報酬が非エピソードと見なされるという事実につながりました。これは、外部価値関数について考えた後に初めて実現しました、疑わしい周期性に見えました）。これらの詳細を修正することは、以前の作業と概念的に類似したアルゴリズムを使用する場合でも、高いパフォーマンスを達成するための重要な部分になりました。これが、可能な限り単純なアルゴリズムを選択することが最善である理由の1つです。

今後の仕事

次の分野のさらなる研究を提供します。

さまざまな研究方法の利点の分析と、それらを組み合わせる新しい方法の探索。
報酬なしで多くの異なる環境で好奇心agent盛なエージェントをトレーニングし、報酬のあるターゲット環境への移行を学習します。
長期にわたる協調ソリューションを含むグローバルインテリジェンス。

AIの好奇心の新しい実現。結果を予測する難しさに依存する報酬を伴うトレーニング

モンテスマリベンジの結果

好奇心に基づく広範な学習研究

好奇心agents盛なエージェントは何をしますか？

騒々しいテレビの問題

ランダムネットワーク蒸留

有能な実装が重要です

今後の仕事

More articles:

AIの好奇心の新しい実現。 結果を予測する難しさに依存する報酬を伴うトレーニング

モンテスマリベンジの結果

好奇心に基づく広範な学習研究

好奇心agents盛なエージェントは何をしますか？

騒々しいテレビの問題

ランダムネットワーク蒸留

有能な実装が重要です

今後の仕事

More articles:

AIの好奇心の新しい実現。結果を予測する難しさに依存する報酬を伴うトレーニング