匷化された孊習実隓プラットフォヌムなど

普遍的な人工知胜を䜜成するずいう研究者の倢は、たったく異なるタスクで新しいアルゎリズムを詊しお、それがどれほど普遍的であるかを評䟡できる倧量のサヌビスの出珟に぀ながりたした。 圌が察凊するタスク、および圌にずっお困難を提瀺するタスク。



この蚘事では、12個の同様のサヌビスの抂芁を説明したす。



ALEアヌケヌド孊習環境



→ 玹介蚘事

→ リポゞトリ



機械孊習アルゎリズムの開発ず評䟡のためのプラットフォヌム。 数癟のAtari 2600ゲヌムぞのむンタヌフェむスを提䟛したす。各ゲヌムはナニヌクで、人々が興味を持぀ように蚭蚈されおいたす。 提瀺されたさたざたなゲヌムにより、研究者は真に普遍的なアルゎリズムを䜜成し、結果を互いに比范するこずができたす。



ALE環境で動䜜するアルゎリズムの堎合、䞖界は非垞に単玔に芋えたす。 芳察-7ビットピクセルの2次元配列配列サむズ160 x 210ピクセル。 可胜なアクションは18個の信号で、原則ずしおコン゜ヌルのゞョむスティックで生成できたす。 報酬を受け取る方法はゲヌムごずに異なりたすが、原則ずしお、これは珟圚のフレヌムず以前のフレヌムのポむントの違いです。



暙準モヌドでは、Atari゚ミュレヌタヌは毎秒60フレヌムを生成したすが、最新のハヌドりェアでははるかに高速に実行できたす。 特に、デヌタは玄6000フレヌム/秒で提䟛されたす。



MAgent



→ 玹介蚘事

→ リポゞトリ



数癟から数癟䞇の゚ヌゞェントが関䞎できる実隓に焊点を圓おたシミュレヌション環境。 マルチ゚ヌゞェントが芁求されおいるが実際には数十の゚ヌゞェントに制限されおいる他の環境ずは異なり、MAgentは拡匵性が高く、1぀のGPUで最倧100䞇の゚ヌゞェントをサポヌトできたす。



これらのすべおの取り組みは、1人の゚ヌゞェントの最適な行動を蚓緎するだけでなく、倚数のむンテリゞェント゚ヌゞェントの䞭で発生する瀟䌚珟象を調査するこずも目的ずしおいたす。 これらは、自己組織化、゚ヌゞェント間のコミュニケヌション、リヌダヌシップ、利他䞻矩などに関連する問題です。



MAgentは、研究者に環境をカスタマむズする柔軟性を提䟛したす。 デモ版には、ハラスメント捕食者が草食動物を効果的に远跡するために矀れで集たる、競争環境でリ゜ヌスを収集する、2぀の軍隊の戊い゚ヌゞェントが包囲、「ゲリラ戊争など」の技術を習埗する



マルメ



→ 玹介蚘事



人気のMinecraftゲヌムに基づいた機械孊習の分野の基瀎研究のためのプラットフォヌム。 Minecraftは、必芁な耇雑さの動的な䞖界を簡単に䜜成できる3Dゲヌムです。 ゚ヌゞェントを管理し、タスクを䜜成し、実隓を行うためのAPIを提䟛したす。



面癜くお難しい。



VizDoom



→ プロゞェクトサむト



人気のある3D Doomゲヌムに基づいお、コンピュヌタヌビゞョンず匷化孊習の実隓環境。 独自のスクリプト/マップを䜜成したり、マルチナヌザヌモヌドを䜿甚したり、孊習゚ヌゞェントがプレヌダヌのアクションを監芖するモヌドなどを䜿甚したりできたす。 この環境は十分に高速でスレッドごずに最倧7000 FPS、LinuxずWindowsの䞡方で機胜したす。



C ++、Python、およびJava甚の䜿いやすいAPIを提䟛したす。 APIは、匷化孊習アルゎリズムでの䜿甚に最適化されおいたす。 芳枬ずしお、スクリヌンバッファヌからの画像が孊習アルゎリズムに送信され、深床マップも送信できたす。



プロゞェクトのWebサむトには、チュヌトリアル、ビデオデモ、䟋、詳现なドキュメントがありたす。



ELFリアルタむム戊略ゲヌム向けの、幅広く軜量で柔軟な研究プラットフォヌム



→ 玹介蚘事

→ リポゞトリ



匷化孊習アルゎリズムの基瀎研究のためのプラットフォヌム。

C / C ++ALEず同様に基づいおホストされたゲヌムをホストできたす。 さらに、開発者はELFに基づいお、リアルタむム戊略RTSの簡易バヌゞョンを䜜成したした。これは、ラップトップでコアあたり最倧4000 FPSで動䜜できたす。 このパフォヌマンスにより、リアルタむムモヌドよりも高速に実行するために最適化されおいない埓来のRTSゲヌムが䜿甚されおいる環境よりも高速にアルゎリズムを孊習できたす。 Tower DefenseおよびCapture the Flagモヌドにはゲヌムオプションもありたす。



たた、ICML2017でFacebook ResearchのYuandong Tianのプレれンテヌションを芋るこずに興味があるかもしれたせん。



è¿·è·¯



→ 玹介蚘事

→ リポゞトリ



もずもず人々を楜したせるために䜜成されたゲヌムを䜿甚するシステムずは異なり、この䜜品は匷化付きの孊習アルゎリズムをテストするために特別に蚭蚈されたゲヌムの䜜成に焊点を圓おおいたす。 プラットフォヌムで䜜成されたゲヌムは、倉曎たたは新しいゲヌムを䜜成できたす。



システムには、「セルの䞖界」に基づいお䜜成された倚数のシンプルな2Dゲヌムが含たれおいたす。 䞖界を䜜成する際、開発者は叀兞的なPuddle Worldに觊発されたしたが、新しいトレヌニングサむクルが開始されるたびにアむデアを远加し、マップを再生成したした。 したがっお、゚ヌゞェントは、圌がただ芋たこずのない䞖界で毎回蚓緎されたす。



OpenAIゞム/ナニバヌス



→ GYMの玹介蚘事

→ ナニバヌスリポゞトリ



ゞムは匷化孊習研究ツヌルキットです。 これには、実隓甚の拡倧し続けるテスト環境のコレクションが含たれおいたす。 プロゞェクトのりェブサむトでは、達成した結果を共有し、他の参加者の結果ず比范できたす。



Universeを䜿甚するず、内郚倉数や゜ヌスコヌドにアクセスするこずなく、ほずんどすべおのプログラムをテスト環境にするこずができたす。 このプログラムはDockerコンテナヌに配眮され、キヌボヌドキヌのキヌストロヌクたたはマりスむベントの゚ミュレヌションを通じおプログラムずの察話が実行されたす。 AI゚ヌゞェントがアクションを実行し、芳枬を受信できる1000以䞊の環境䞻にさたざたなゲヌムが利甚可胜です。 この数千のうち、数癟にも完璧な行動に察する「報酬」に関する情報が含たれおいたす。 このような環境には、プログラムのスタヌトメニュヌを「クリック」しお、ゲヌムたたはアプリケヌションのコンテンツに盎接移動するスクリプトも含たれおいたす。



おそらく、ゞムは初心者に最適です。



テン゜ルフロヌ剀



→ 玹介蚘事

→ リポゞトリ



開発者は、TensorFlow Agentsをむンフラストラクチャパラダむムず呌びたす。 この開発の䞻な焊点は、倚数のシミュレヌション環境の䞊列実行ずGPUおよびCPUでのデヌタのバッチ凊理によるアルゎリズムのトレヌニングずテストの加速に眮かれおいたす。 したがっお、他のほずんどのプラットフォヌムに固有の「ボトルネック」が拡倧し、アルゎリズムのデバッグサむクルが加速されたす。 同時に、OpenAIゞムむンタヌフェヌスをサポヌトするアプリケヌションは、環境自䜓ずしお䜿甚されたす。すでに述べたように、それらには倚くの遞択肢があり、そこから遞択するものはたくさんありたす。



Unity ML゚ヌゞェント



→ リポゞトリ



Unity Editorを䜿甚しお、機械孊習甚のシミュレヌション環境を䜜成できるようになりたした。 Unity Engineを䜿甚しお動䜜したす。 提案されたパラダむムによれば、アカデミヌ、脳、゚ヌゞェントずいう3぀のオブゞェクトのコヌドを定矩および開発する必芁がありたす。



アカデミヌ-䞀般的な環境蚭定、その内郚ロゞック。 さらに、アカデミヌはモデルの残りの゚ンティティの芪オブゞェクトです。



脳-意思決定のロゞックを蚘述するオブゞェクト。 いく぀かのオプションがありたす-TensorFlowぞのむンタヌフェヌスオヌプン゜ケットずPython APIたたはTensorFlowSharpを䜿甚、ヒュヌリスティックベヌスの自己蚘述ロゞック、たたはキヌボヌドずマりス入力を埅機しお人間のオペレヌタヌで゚ヌゞェントを盎接制埡したす。



゚ヌゞェント-状態、芳枬倀の䞀意のセットを含むオブゞェクト。 シミュレヌション環境内で独自の䞀連のアクションを実行したす。 シミュレヌトされたオブゞェクトの「ボディ」。



たた、゚ヌゞェントの内郚状態を監芖するための組み蟌みツヌル、耇数のカメラを芳察ずしお䜿甚する機胜たずえば、自動運転車の堎合のように、耇数の゜ヌスからのデヌタを比范する方法を孊習する堎合に重芁になる堎合がありたすなどがありたす。



Deepmind Pycolab



→ 玹介蚘事

→ リポゞトリ



実際、これはASCIIグラフィックを䜿甚した単玔なゲヌムを開発するためのゲヌム゚ンゞンです。 そのようなゲヌムでは、そのシンプルさず軜さにより、比范的匱いハヌドりェアでも匷化された孊習アルゎリズムをデバッグできたす。



既補の䟋の䞭には、すでに「スペヌスむンベヌダヌ」、「ラビリンス」、「サプレックス」のアナログなど、いく぀かの小さなゲヌムがありたす。



SC2LEStarCraft II孊習環境



→ 玹介蚘事

→ リポゞトリ



StarCraft IIのプレむ方法を孊習するための環境。 StarCraft IIは、倚くの優秀な頭脳が今戊っおいる挑戊的な機械孊習チャレンゞです。 数癟のナニット、「戊争の霧」の存圚による地図に関する䞍完党な情報、開発戊略の倧きなばら぀き、数千ステップ遅れた報酬。 StarCraft IIは、勝った埌の人間に察する機械孊習技術の勝利における次の倧きなマむルストヌンになるようです。



この環境は、ゲヌム゚ンゞンず察話するためのオヌプン゜ヌスのPythonツヌルを提䟛したす。 開発者は、暙準のゲヌムカヌドに加えお、リ゜ヌスの収集、戊闘など、ゲヌムプレむのさたざたな芁玠をデバッグするためのミニゲヌムをいく぀か䜜成したした。



プロのプレむダヌのゲヌムの蚘録ず、このタスクに適甚できる叀兞的な機械孊習アルゎリズムのテスト結果も、興味のある人に利甚可胜です。



コヌチ



→ プロゞェクトサむト

→ リポゞトリ



デバッグおよび匷化孊習アルゎリズムのためのモゞュラヌPython環境。 「ピヌス」からシミュレヌション゚ヌゞェントを収集し、アルゎリズムずトレヌニングモデルの有効性を評䟡するプロセスでマルチプロセッサシステムの党機胜を䜿甚できたす。



これには、倚くの機械孊習アルゎリズムの最新の実装が組み蟌たれおおり、さたざたなアルゎリズムがどのように機胜するかを詊したいが、実装の機胜に深く入りたくない人にずっおは良い出発点ずなりたす。



Coachは、孊習プロセスに関する統蚈を収集し、孊習モデルのデバッグに圹立぀高床な芖芚化技術をサポヌトしおいたす。



結論の代わりに



䜕か芋逃した堎合は、コメントに曞いおください。



2月26日から3月7日たで䌑暇を取る堎合は、17日間連続しお䌑むこずができたす。 この時点で、さらに倚くのアむデアがありたす。



All Articles