AIの奜奇心の新しい実珟。 結果を予枬する難しさに䟝存する報酬を䌎うトレヌニング



ゲヌム「モンテズマの埩ven」の進歩は、䞍慣れな環境の研究における成果の同矩語ずしお倚くの人に考えられおいたした



奜奇心を通じお環境を探玢する匷化孊習゚ヌゞェントを奚励する予枬ベヌスのランダムネットワヌク蒞留RNDメ゜ッドを開発したした。 この方法は、コンピュヌタヌゲヌム「モンテズマの埩ven 」での人間の平均的な結果を初めお䞊回りたしたICLRの匿名アプリケヌションを陀き、結果が私たちのものより悪い。 RNDは最先端の効率性を実蚌し、24宀すべおを定期的に怜出し、予備のデモやゲヌムの基本的な状態にアクセスするこずなく第1レベルを通過したす。



RNDメ゜ッドは、状態デヌタにランダムランダムニュヌラルネットワヌクを重ね合わせた結果を予枬する耇雑さを枬定するこずにより、゚ヌゞェントのなじみのない状態ぞの移行を刺激したす。 条件がなじみがない堎合、最終結果を予枬するこずは困難です。これは、報酬が高いこずを意味したす。 この方法は、あらゆる匷化孊習アルゎリズムに適甚でき、実装が簡単で、スケヌリングに効果的です。 以䞋は、RNDの実装ぞのリンクです。RNDは、蚘事の結果を再珟しおいたす。



科孊論文のテキスト 、 コヌド






モンテスマリベンゞの結果



目的の目暙を達成するために、゚ヌゞェントは最初に、環境内で可胜なアクションず、目暙に向けた進捗状況を構成するものを調査する必芁がありたす。 ゲヌムの倚くの報酬シグナルはカリキュラムを提䟛するため、単玔な研究戊略でさえ目暙を達成するのに十分です。 DQNのプレれンテヌションに関する最初の䜜業では 、MontezumaのRevengeが、 DQNが平均人間スコア4700の0の結果を瀺した唯䞀のゲヌムでした。 単玔なむンテリゞェンス戊略では、報酬を収集するこずはできず、あるレベルで数郚屋しか芋぀けるこずができたせん。 それ以来、モンテズマの埩venのゲヌムの進歩は、倚くの人が䞍慣れな環境の研究の進歩ず同矩であるず芋なしおいたす。



2016幎にDQNずカりンタヌのボヌナスを組み合わせるこずにより、倧きな進歩が達成されたした。その結果、゚ヌゞェントは15郚屋を芋぀け、平均で玄3700で最高の6600を獲埗したした。それ以来、結果の倧幅な 改善は、 専門家たたぱミュレヌタの基本状態にアクセスする。



1024人の埓業員を察象に倧芏暡なRND実隓を実斜し、 9回の開始で平均10,000件 、 最高の平均結果14,500件を埗たした 。 いずれの堎合も、゚ヌゞェントは20〜22の郚屋を芋぀けたした。 さらに、1回の小さいが長い起動10回のうちでは、 最倧結果は17,500で、これは最初のレベルを通過しお24の郚屋すべおを芋぀けるこずに察応したす 。 以䞋のグラフは、これら2぀の実隓を比范し、曎新パラメヌタヌに応じた平均倀を瀺しおいたす。







以䞋の芖芚化は、小芏暡の実隓の進捗を瀺しおいたす。 ゚ヌゞェントは、奜奇心の圱響を受けお、新しい郚屋を開き、ポむントを獲埗する方法を芋぀けたすが、トレヌニング䞭に、この倖郚報酬により、埌でこれらの郚屋に戻るこずが匷制されたす。





゚ヌゞェントが発芋した郚屋ずトレヌニング䞭の平均結果。 郚屋の透明床は、゚ヌゞェントの10パスのうち䜕回怜出されたかに察応したす。 映像



奜奇心に基づく広範な孊習研究



RNDを開発する前に、カリフォルニア倧孊バヌクレヌ校のスタッフず䞀緒に、環境ぞの報酬なしで孊習を孊びたした。 奜奇心は、特定のタスクに察しお特別に蚭蚈された報酬機胜を䜿甚するのではなく、゚ヌゞェントがあらゆる環境ず察話するこずを教える簡単な方法を提䟛したす。これはただ問題の解決に察応する事実ではありたせん。 ALE 、 Universe 、 Malmo 、 Gym 、 Gym Retro 、 Unity 、 DeepMind Lab 、 CommAIなどのプロゞェクトでは、暙準化されたむンタヌフェヌスを介しお゚ヌゞェント甚に倚数のシミュレヌトされた環境が開かれたす。 特定の環境に固有ではない䞀般化された報酬機胜を䜿甚する゚ヌゞェントは、幅広い環境で基本的なレベルの胜力を獲埗できたす。 これにより、圌は粟巧な報酬がなくおも有甚な行動を決定するこずができたす。



科孊論文のテキスト 、 コヌド


各個別のタむムステップで匷化された暙準的なトレヌニング蚭定では、゚ヌゞェントはアクションを環境に送信し、反応しお、゚ヌゞェントに新しい芳察、移行に察する報酬、および゚ピ゜ヌドの終了のむンゞケヌタを䞎えたす。 前の蚘事では、次の芳察結果のみ を生成するように環境を蚭定したした。 そこで、゚ヌゞェントは圌の経隓に基づいお次の状態の予枬モデルを研究し、予枬報酬を内郚報酬ずしお䜿甚したす。 その結果、圌は予枬䞍胜に惹かれおいたす。 たずえば、ゲヌムアカりントの倉曎は、アカりントが画面に衚瀺され、倉曎を予枬するのが困難な堎合にのみ報われたす。 通垞、゚ヌゞェントは新しいオブゞェクトずの有甚な盞互䜜甚を芋぀けたす。そのような盞互䜜甚の結果は、通垞、環境の他の偎面よりも予枬が難しいためです。



他の 研究者ず同様に、環境のすべおの偎面が関連しおいるかどうかに関係なく、モデリングの芳察の特城を遞択するこずを避けたした。 驚くべきこずに、ランダム関数でさえうたく機胜するこずがわかりたした。



奜奇心agents盛な゚ヌゞェントは䜕をしたすか



50以䞊の異なる環境で゚ヌゞェントをテストし、䞀芋ランダムな動䜜から環境ずの意識的な盞互䜜甚たで、さたざたな胜力を芳察したした。 驚いたこずに、堎合によっおは、゚ヌゞェントはなんずかゲヌムを完了するこずができたしたが、倖郚報酬を通じお目暙を知らされおいたせんでした。



トレヌニング開始時の内郚報酬



レベルの最初の通過での内郚報酬のゞャンプ



ブレむクアりト -゚ヌゞェントがトレヌニングの初期段階でブロックの新しい構成を芋たずき、および数時間トレヌニング埌初めおレベルが通過したずきに、内郚報酬にゞャンプしたす。





ポン -䞡方のプラットフォヌムを同時に制埡するように゚ヌゞェントを蚓緎し、圌はゲヌム内でボヌルをキヌプするこずを孊びたした。 ゲヌム内のAIに察しおトレヌニングを行う堎合でも、゚ヌゞェントはゲヌムを最倧化しようずしたしたが、勝぀こずはできたせんでした。



ボりリング -゚ヌゞェントは、倖郚報酬を最倧化するために盎接蚓緎された他の゚ヌゞェントよりもゲヌムを䞊手にプレむするこずを孊びたした。 これは、投球埌のスコアボヌドの予枬が困難な点滅に゚ヌゞェントが惹かれるからだず考えおいたす。





マリオ -内郚報酬は、ゲヌムの目暙であるレベルの進行ず特によく䞀臎しおいたす。 新しく芋぀かった゚リアの詳现は予枬できないため、゚ヌゞェントは新しい゚リアの怜玢に察しお報酬を受け取りたす。 その結果、゚ヌゞェントは11レベルを発芋し、秘密の郚屋を芋぀け、ボスを倒しさえしたした。



隒々しいテレビの問題



ランダムな結果に惹かれたスロットマシンのギャンブラヌずしお、゚ヌゞェントは「ノむズの倚いテレビの問題」の結果ずしお、奜奇心のtrapに陥るこずがありたす。 ゚ヌゞェントは環境内のランダム性の原因を芋぀け、それを芳察し続け、そのような遷移に察しお垞に高い内郚報酬を経隓したす。 このようなトラップの䟋は、静的ノむズを生成するテレビを芋るこずです。 ランダムチャンネルを再生するTVを備えたUnity迷路に゚ヌゞェントを配眮するこずで、文字通りこれを実蚌したす。



隒々しいテレビず迷路の゚ヌゞェント



隒々しいテレビのない迷路の゚ヌゞェント



理論的には、ノむズの倚いテレビの問題は非垞に深刻ですが、モンテスマの埩likeのような非垞に決定的な環境では、奜奇心によっお゚ヌゞェントが郚屋を芋぀けおオブゞェクトずやり取りするこずが予想されたす。 奜奇心に基づいお次の状態を予枬するためのいく぀かのオプションを詊したした。リサヌチボヌナスずゲヌムアカりントを組み合わせたした。













これらの実隓では、゚ヌゞェントはノむズコントロヌラヌを介しお環境を制埡したす。ノむズコントロヌラヌは、珟圚のアクションではなく最埌のアクションを䜕らかの確率で繰り返したす。 繰り返し可胜な「スティッキヌ」アクションを備えたこの蚭定は、蚘憶を防ぐために、Atariなどの完党に決定的なゲヌムで゚ヌゞェントをトレヌニングするためのベストプラクティスずしお提案されおいたす。 「スティッキヌ」アクションは、郚屋から郚屋ぞの移行を予枬䞍胜にしたす。



ランダムネットワヌク蒞留



次の状態を予枬するこずは、ノむズの倚いテレビの問題を本質的に受けやすいため、予枬゚ラヌの次の関連する原因を特定したした。





芁因1ず芁因2はノむズの倚いテレビの問題に぀ながるのに察し、芁因1は経隓の新芏性を定量化するため、゚ラヌの有甚な原因であるず刀断したした。 芁因2および3を回避するために、次の状態自䜓を考慮しお、次の状態でのランダムで初期化された䞀定のニュヌラルネットワヌクの発行の予枬に基づく新しい研究ボヌナスであるRNDを開発したした 。







盎芳は、予枬モデルは圌女が蚓緎された状態を予枬する際の誀差が小さいこずを瀺唆しおいたす。 特に、ランダムに初期化されたニュヌラルネットワヌクの発行に関する゚ヌゞェントの予枬は、゚ヌゞェントが以前に頻繁に䌚った状態よりも新しい状態の方が正確ではありたせん。 合成予枬問題を䜿甚する利点は、決定論的バむパスファクタヌ2であり、関数のクラス内で、予枬子がタヌゲットネットワヌクず同じアヌキテクチャの予枬子バむパスファクタヌ3を遞択できるこずです。 これにより、ノむズの倚いテレビのRND問題が解消されたす。



2぀の報酬フロヌに2぀の倀を䜿甚する、最も近いポリシヌの最適化の圢匏であるプロキシヌポリシヌ最適化  PPO を通じお、研究ボヌナスず倖郚報酬を組み合わせたした。 これにより、さたざたな報酬にさたざたな割匕を適甚したり、゚ピ゜ヌドず非゚ピ゜ヌドの報酬を組み合わせたりするこずができたす。 このような远加の柔軟性により、私たちの最高の゚ヌゞェントは、モンテスマの埩venの最初のレベルで24宀䞭22宀を芋぀けるこずが倚く、残りの2宀を芋぀けた埌に最初のレベルを通過するこずがありたす。 同じ方法は、VentureおよびGravitarゲヌムで蚘録的なパフォヌマンスを瀺しおいたす。





以䞋の芖芚化は、゚ヌゞェントが最初にトヌチを芋぀けるモンテズマリベンゞ゚ピ゜ヌドの内郚報酬のグラフを瀺しおいたす。







有胜な実装が重芁です



適切なアルゎリズムを遞択するには、ノむズの倚いテレビの問題に察する感受性など、䞀般的な考慮事項を考慮するこずが重芁です。 しかし、単玔なアルゎリズムの非垞に小さな倉曎が、その有効性に匷く圱響するこずがわかりたした。最初の郚屋から出られない゚ヌゞェントから最初のレベルを通過する゚ヌゞェントたで。 トレヌニングに安定性を远加するために、特性の飜和を回避し、予枬可胜な範囲に内郚報酬をもたらしたした。 たた、バグを芋぀けお修正するたびにRNDの有効性が倧幅に改善されおいるこずに気付きたした 私たちのお気に入りには、配列のランダムなれロ化が含たれおいたため、倖郚報酬が非゚ピ゜ヌドず芋なされるずいう事実に぀ながりたした。これは、倖郚䟡倀関数に぀いお考えた埌に初めお実珟したした、疑わしい呚期性に芋えたした。 これらの詳现を修正するこずは、以前の䜜業ず抂念的に類䌌したアルゎリズムを䜿甚する堎合でも、高いパフォヌマンスを達成するための重芁な郚分になりたした。 これが、可胜な限り単玔なアルゎリズムを遞択するこずが最善である理由の1぀です。



今埌の仕事



次の分野のさらなる研究を提䟛したす。






All Articles