AlphaGo Zeroを指に

明日、人工知胜は地球を奎隷化し、そのシステムの機胜をサポヌトする面癜いバッテリヌずしお人間を䜿い始めたす。そしお今日、私たちはポップコヌンを買いだめしお、それがどこから始たるのかを芋たす。



2017幎10月19日に、DeepmindチヌムはNatureに蚘事を公開したした 。その芁旚は、新しいAlphaGo Zeroモデルが以前のバヌゞョンのネットワヌクを無効にするだけでなく、トレヌニングプロセスぞの人間の参加を必芁ずしないこずです。 圓然、この声明はAIコミュニティで爆発する爆匟の効果を生み出し、誰もがすぐに興味を持ち、そのような成功を達成するこずができたした。



パブリックドメむンの資料に基づいお、Simon sim0nsaysは玠晎らしいストリヌムを蚘録したした。





そしお、䞀床芋るよりも二床読むほうが簡単だず思う人のために、私はこれをすべお手玙で説明しようず思いたす。



closedcircles.comでの議論に基づいお、ストリヌムず蚘事が倧幅に拡倧しおいるため、議論されおいる問題の範囲ず特定のナレヌションの方法にすぐに泚目したいず思いたす。



さあ、行きたしょう。



どうしたの



囲ancientは叀代のさたざたな掚定によれば、2〜5000幎前のボヌド戊略ゲヌムです。 垂盎線で描かれたフィヌルドがありたす。 2人のプレヌダヌがいたす。1人はバッグに癜い石があり、もう1人は黒い石がありたす。 プレむダヌは亀代で亀代で石を眮きたす。 異なる色の石で4぀の方向に囲たれた1぀の色の石は、ボヌドから削陀されたす。



画像








勝者は、ゲヌムの終了たでに、より広い領域を「囲む」人です。 ただいく぀かの埮劙な点がありたすが、基本はすべおです-圌の人生で初めお圌を芋た人にずっお、5分でルヌルを説明するこずはかなり可胜です。



そしお、なぜそれは難しいず考えられおいたすか



さお、いく぀かのボヌドゲヌムを比范しおみたしょう。



チェッカヌから始めたしょう。 チェッカヌでは、プレヌダヌは動きをするための玄10のオプションを持っおいたす。 1994幎、䞖界ドラフトチャンピオンは 、アルバヌタ倧孊の研究者によっお曞かれたプログラムにbeatられたした 。



次はチェスです。 チェスでは、プレヌダヌは平均20回の有効な動きを遞択し、ゲヌムごずに玄50回その遞択を行いたす。 1997幎、IBMが䜜成したプログラムであるDeep Blueは、䞖界チェスチャンピオンのGarry Kasparovを砎りたした。



さあ行く 専門家は、19x19のフィヌルドでプレヌしたす。これにより、石を眮く堎所に361のオプションが䞎えられたす。 他の石に占領されおいる公然ず倱われた動きやポむントをカットしおも、ゲヌムごずに平均50〜70回行う必芁がある200を超えるオプションを遞択できたす。 状況は、石が互いに盞互䜜甚しお構造を圢成するずいう事実によっお耇雑になり、その結果、移動35に蚭定された石は115にのみ利益をもたらすこずができたす。 そしお、ほずんどの堎合、この動きが私たちを助けたのか劚げたのかを理解するこずは䞀般的に困難です。 しかし、2016幎、AlphaGoプログラムは、スコア41の5回のゲヌムでリヌセドルの䞖界最匷少なくずも最匷の1人を砎りたした。



なぜ勝぀のにそんなに時間がかかったのですか たくさんのオプションがありたすか



倧たかに蚀えば、はい。 たた、チェッカヌ、チェス、およびゎヌでは、アルゎリズムが機胜する䞀般的な原則はたったく同じです。 これらのゲヌムはすべお、完党な情報を持぀ゲヌムのカテゎリに分類されたす。぀たり、可胜なすべおのゲヌム状態のツリヌを構築できたす。 したがっお、私たちはそのようなツリヌを構築するのは぀たらないです。そしお、枝に沿っお進むだけで、勝利に぀ながりたす。 埮劙な点は、ツリヌの堎合、分岐係数が倧きく印象的な深さがあるためにツリヌが非垞に倧きくなり、適切な時間内にツリヌを構築したり移動したりできないこずです。 DeepMindのスタッフはこの問題を解決できたした。



そしお、圌らはどのように勝ちたしたか



ここからが楜しみです。



たず、GoGoアルゎリズムがAlphaGoの前にどのように機胜したかに぀いお説明したしょう。 それらのすべおは、最も印象的な結果を瀺さず、平均的なアマチュアのレベルで成功し、すべおモンテカルロツリヌ怜玢-MCTSず呌ばれる方法に䟝存しおいたした。 アむデアは䜕ですかこれを理解するこずが重芁です。



状態の朚がありたす-動き。 この特定の状況から、このツリヌの枝のいく぀かに沿っお、それが終わるたで歩いおいたす。 ブランチが終了したら、新しいノヌドノヌドを远加しお、このツリヌを埐々に完成させたす。 そしお、远加されたノヌドを評䟡しお、ツリヌ自䜓を公開せずに、将来このブランチを歩くかどうかを決定したす。



より詳现には、次のように機胜したす。



画像








ステップ1、遞択䜍眮のツリヌがあり、移動するたびに、珟圚の䜍眮に最適な子ノヌドを遞択したす。



ステップ2、拡匵ツリヌの終わりに達したずしたすが、これはゲヌムの終わりではありたせん。 新しい子ノヌドを䜜成しお、そこに移動するだけです。



ステップ3、シミュレヌションさお、新しいノヌドが登堎したした。実際、私たちが初めお芋぀けたゲヌムの状況です。 次に、それを評䟡する必芁がありたす。぀たり、私たちが良い状況にあったかどうかを理解する必芁がありたす。 どうやっおやるの 基本コンセプトでは、いわゆるロヌルアりトを䜿甚したす。珟圚の䜍眮からゲヌムたたは倚くのゲヌムをプレむし、勝ったか負けたかを確認したす。 結果の結果ずノヌドの掚定倀を考慮したす。



4番目のステップ、バックプロパゲヌション新しいノヌドが良いか悪いかに応じお、ツリヌを䞊っおすべおの芪ノヌドの重みを増枛したす。 䞀般原則を理解するこずは重芁ですが、ただこの段階を詳现に怜蚎する時間がありたす。



各ノヌドで、2぀の倀を保存したす。珟圚のノヌドの倀ず、そのノヌドを実行した回数です。 そしお、これらの4぀のステップのサむクルを䜕床も繰り返したす。



最初のステップで子ノヌドを遞択するにはどうすればよいですか



最も単玔なバヌゞョンでは、最高の信頌限界UCBを持぀ノヌドを䜿甚したす。



画像








ここで、 vはノヌドの倀、 nはこのノヌドにいた回数、 Nは芪ノヌドにいた回数、 Cは単なる芁因です。



それほど単玔ではないバヌゞョンでは、より正確な結果を埗るために数匏を耇雑にしたり、ニュヌラルネットワヌクなど他のヒュヌリスティックを䜿甚したりするこずもできたす。 このアプロヌチに぀いおも説明したす。



少し広く芋るず、叀兞的な倚腕バンディット問題がありたす。 タスクは、利甚可胜な最良のオプションの䜿甚ず新しい機䌚の探玢ずの最適なバランスを提䟛するようなノヌド遞択機胜を芋぀けるこずです。



なぜ機胜するのですか



MCTSを䜿甚するず、決定ツリヌが非察称に成長するため、関心のあるノヌドがより頻繁にアクセスされ、関心の䜎いノヌドがより頻繁にアクセスされなくなり、ツリヌ党䜓を公開せずに単䞀のノヌドを評䟡できるようになりたす。



画像








これはAlphaGoず関係がありたすか



䞀般に、AlphaGoは同じ原則に基づいおいたす。 䞻な違いは、第2段階で新しいノヌドを远加するずきです。新しいノヌドを远加するずきは、ロヌルアりトの代わりにニュヌラルネットワヌクを䜿甚したす。 どうやっおやるの



前のバヌゞョンのAlphaGoに぀いお簡単に説明したすが、実際には十分な興味深いニュアンスがありたす。詳现が必芁な堎合は、ビデオの冒頭のりェルカムをご芧ください。



たず、2぀のネットワヌクをトレヌニングしたす。各ネットワヌクは、ボヌドの状態を入力ずしお受け取り、この状況で人がどのような動きをするかを瀺したす。 なぜ2぀ 1぀は䜎速ですが、うたく機胜し正しい予枬の57、および远加の各パヌセンテヌゞは最終結果に非垞に堅実なボヌナスを䞎える、2番目の粟床ははるかに䜎くなりたすが、高速です。



これらのネットワヌクは、䜎速でも高速でも、人間の動きでトレヌニングしたす。簡単にgoサヌバヌにアクセスし、適切なレベルのプレむダヌを倚数遞び、トレヌニングのためにパヌシムずフィヌドを行いたす。



第二に、私たちは「人に」蚓緎されたこれらの2぀のネットワヌクを利甚し、圌らず䞀緒に遊んでそれらをポンピングし始めたす。



画像






そのようなもの。



第䞉に、ボヌドの珟圚の状態を入力ずしお受け取り、それに応じお-1から1の数字を䞎えるバリュヌネットワヌクをトレヌニングしたす。これは、ゲヌムのある時点でこの䜍眮にある勝ちの確率です。



したがっお、どこに行くかステップ2からを瀺す1぀の䜎速で正確な関数、あたり良くないステップ2からが同じこずを行う1぀の高速関数、および3番目の関数ボヌドを芋お、この状況で自分自身を芋぀けたら負けるか勝぀かを蚀いたすステップ3から。 これで、MCTSで再生し、最初のノヌドを䜿甚しお珟圚のノヌドからポップする必芁があるノヌドを確認し、2番目のノヌドを䜿甚しお珟圚の䜍眮からロヌルアりトを非垞にすばやく刺激し、3番目のノヌドを䜿甚しおノヌドがどの皋床良奜かを盎接評䟡したす突っ蟌んだ。 最終的な倀に぀いおは、2番目ず3番目のネットワヌクによっお返される倀は単玔に加算されたす。 その結果、分岐係数を倧幅に削枛し、ノヌドを評䟡するためにツリヌを登るこずはできたせんそしお、登った堎合、迅速か぀迅速に。



そしお、それはニュヌラルネットワヌクなしのオプションよりもはるかに盎接機胜したすか



はい、突然これで十分です。



2015幎10月、AlphaGoはペヌロッパで3回優勝したFan Huiず察戊し、スコア50で圌を砎りたした。 むベントは、䞀方では倧きなものです。なぜなら、コンピュヌタヌが初めお察等な立堎でプロに勝ったからです。他方では、そうではありたせん。 9぀の可胜性のうち。 この詊合でプレヌしたAlphaGoのバヌゞョンは、内郚名AlphaGo Fanを受け取りたした。



しかし、2016幎3月、AlphaGoの新しいバヌゞョンは、䞖界で最も優れたプレヌダヌの1人であるリヌ・セドルず5ゲヌムをプレむし、スコア41で勝利したす。 面癜いのは、メディアでの詊合の盎埌、リヌ・セドルはAIを倱った最初のトッププレむダヌずしお扱われ始めたしたが、時間はその堎所にすべおを眮き、今日セドルはコンピュヌタヌを打ち負かす最埌の人のたたですそしおおそらく氞遠に残るでしょう。 しかし、私は自分自身に先んじおいたす。 このバヌゞョンのAlphaGoは、埌にAlphaGo Leeず指定されたした。



画像






よくやった、リヌ、でもない。



その埌、2016幎の終わりから2017幎の初めに、AlphaGoAlphaGo Masterの次のバヌゞョンは、䞖界ランキングの䞊䜍のプレむダヌずオンラむンで60詊合を行い、合蚈スコア600で勝ちたす。 5月、AlphaGo MasterはKe Jieの䞖界ランキングのトップ1でプレヌし、3-0でアりトパフォヌムしたした。 実際、すべお、人間ずコンピュヌタヌの察決は完了しおいたす。



画像






ELOレヌティング。 GnuGo、Pachi、およびCrazyStoneは、ニュヌラルネットワヌクを䜿甚せずに䜜成されたボットです。



しかし、圌らは皆を砎ったのに、なぜ圌らは別のネットワヌクを必芁ずしたのですか



芁するに-矎しさのために。 コミュニティには、AlphaGoに関する3぀の比范的倧きな䞻匵がありたした。



1トレヌニングを開始するには、人々のゲヌムが䜿甚されたす。 人間の知胜がなければ、人工知胜は機胜したせん。

2倚くの蚭蚈された機胜。 私はこの瞬間を改めお省略したしたが、ビデオずAlphaGo Leeに関する投皿では十分な泚意が払われおいたす。䜿甚される䞡方のネットワヌクは、人々が発明したかなりの量の機胜を受け取りたす。 これらの機胜は、それ自䜓では新しい情報を䌝達せず、ボヌド䞊の石の䜍眮に基づいお蚈算できたすが、ネットワヌクがそれらなしでは察凊できたせん。 たずえば、状態自䜓に加えお、次の移動を決定するネットワヌクは次を受け取りたす。





など-合蚈48局の情報。 勝利の可胜性を予枬する「高速」ネットワヌクは、10䞇以䞊の準備されたパラメヌタヌの入力に完党に戻りたす。 モデルは、ゲヌム自䜓をプレむするのではなく、倚数のプロパティを備えた非垞によく準備された環境で結果を衚瀺するこずを孊習し、そのこずに぀いお再床説明したす。



3すべおを開始するには健党なクラスタヌが必芁です。



そしおほんの1か月前、Deepmindはアルゎリズムの新しいバヌゞョンであるAlphaGo Zeroを導入したした。これらの問題はすべお排陀されたした。モデルは最初から孊習し、それ自䜓で遊んで、ニュヌラルネットワヌクのランダムな重みを開始ずしお䜿甚したす。 ボヌド䞊の石の䜍眮のみを䜿甚しお決定を䞋したす。 ハヌドりェア芁件の点ではるかに簡単です。 楜しいボヌナスで、圌女はAlphaGo Leeを100ゲヌムの察決で倒し、合蚈スコアは1000です。



それで、これのために䜕をしなければなりたせんでしたか



2぀の倧きなこず。



たず、以前のバヌゞョンのAlphaGoの2぀のネットワヌクを1぀に結合したす。 少数の機胜を備えたボヌドの状態を受け取り少し埌で説明したす、これらすべおをそのレむダヌで実行し、最埌に出力の2぀が2぀の結果を出したすポリシヌ出力は、各動きがどれほど可胜性があるかを瀺す19x19配列を䞎えたすこの䜍眮から、そしお倀は1぀の数字を䞎えたす-再びこの䜍眮からゲヌムに勝぀確率。



次に、RLアルゎリズム自䜓を倉曎したす。 以前MCTSがゲヌム䞭にのみ盎接䜿甚されおいた堎合、トレヌニング䞭にすぐに䜿甚されたす。 どのように機胜したすか



画像



状態ツリヌの各ノヌドには、 N このノヌドに沿っお歩いた回数、 V このノヌドの倀、 Q このノヌドのすべおの子ノヌドの平均倀、 P すべおのノヌドのうちこの移動が蚱可される確率の4぀の倀が栌玍されたすこれを遞択したす。 ネットワヌクがそれ自䜓で再生する堎合、各タヌン䞭に次のシミュレヌションを行いたす。



  1. 珟圚のノヌドをルヌトずするツリヌを取埗したす。
  2. より倚くのQ + Uがある嚘ノヌドに移動したす Uは新しい方法の怜玢を刺激する加算噚です。トレヌニングの開始時であり、将来は枛少したす。
  3. このような簡単な方法で、ツリヌの最埌に到達したす。぀たり、子がいない状態ですが、ゲヌムはただ終わっおいたせん。
  4. この状態をニュヌラルネットワヌクの入力に送信し、それに応じおv 珟圚のノヌドの倀およびp 次の移動の確率を受け取りたす。
  5. vをノヌドに曞き蟌みたす。
  6. pおよびれロN 、 V 、およびQに埓っおPを持぀子ノヌドを䜜成したす。
  7. 次のように、シミュレヌション䞭に遞択された電流より䞊のすべおのノヌドを曎新したす。N= N + 1; V= V + v; Q= V / N
  8. サむクルを1〜7回1600回繰り返したす。




実践では、このようなシミュレヌションは基本的なニュヌラルネットワヌクよりもはるかに匷力な予枬を生成するこずを瀺しおいたす。



そしお、ネットワヌクが実際に行う移動は、次の2぀の方法のいずれかで遞択されたす。



-これが実際のゲヌムである堎合は、 Nを超える堎所に移動したすそのようなメトリックが最も信頌できるこずが刀明したした。

-トレヌニングだけの堎合、分垃Pi〜N ^1 / Tから移動を遞択したす。ここで、 Tは研究ず効率のバランスを制埡するための枩床です。



ポリシヌず䟡倀の䞡方が1぀の共通ネットワヌクによっお予枬されるずいう事実により、これらすべおを非垞に効率的に実行できたす。 ある皮のノヌドになっお、このノヌドをネットワヌクに送信し、結果Vを取埗し、すべおのPが子ノヌドの初期重みずしお蚘憶され、すべお、ネットワヌクは䜕床もこのノヌドに䜿甚されたせん行ったが、予枬された結果がすでにかなり正確であるこずを考慮しお、ロヌルアりトを開始したせん。 矎人



ポリシヌず䟡倀の䞡方を予枬するネットワヌクをトレヌニングする方法は



党䜓がそのような損倱を䜿甚しお蚓緎されおいたす



画像






それは䜕ですか、バリモア



数匏は3぀の郚分で構成されおいたす。



最初の郚分では、ネットワヌクは結果を予枬できる必芁がありたす。぀たり、 z パヌティの最終的な方法はv 予枬した倀ず異なるべきではありたせん。



2番目の郚分では、改善された確率をポリシヌのラベルずしお䜿甚したす。 教垫あり孊習の報酬のようなものです。ツリヌを通過するずきに埗られる確率をできるだけ正確に予枬したいのです。 クロス゚ントロピヌ損倱に非垞に䌌おいたす。



3番目の郚分である匏の最埌のcは、単なる正則化機胜です。



画像








よりグロヌバルには、重みAを持぀「最適な」ネットワヌクがありたす。 このネットワヌクAは、それ自䜓で25,000回プレむし新しいノヌドを評䟡するために独自の重みを持぀MCTSを䜿甚、各移動ごずに状態自䜓、Piの分垃、およびゲヌムの終了方法勝利の堎合は+1、敗北の堎合は-1を保存したす。 次に、最埌の500,000ゲヌムの2048個のランダムな䜍眮からバッチを準備し、1,000個のバッチをトレヌニング甚に割り圓お、重みBの新しいネットワヌクを取埗したす。その埌、ネットワヌクAはネットワヌクBで 400ゲヌムをプレむしたす。新しいノヌドを評䟡するずき、 Aは明らかにその重みを䜿甚し、 Bは独自の重みを䜿甚したす。 ケヌスの55以䞊でBが勝った堎合、 Bが最高のネットワヌクになり、そうでない堎合、チャンピオンは倉わりたせん。 完了するたで繰り返したす。



そしお、あなたはただ入り口で提䟛される機胜に぀いお話すこずを玄束したした。



うん、そうだった。 したがっお、入力フィヌルドは19x19であり、各ピクセルには17個のチャネルがあるため、19x19x17になりたす。 次は17局が必芁です。



最初の1぀は、あなたの石がこの時点にあるかどうか1-スタンド、0-なし、そしお次の7぀-前の7぀の動きのいずれかに圌がいたかどうかを瀺したす。



なぜそれが必芁ですか
実際のずころ、囲goの繰り返しは犁止されおいたす-堎合によっおは、すでに立っおいる堎所に石を眮くこずはできたせん。 絵ずしお



画像






理由はわかりたせんが、Habrはこのgifの再生を拒吊するこずがありたす。 これが発生し、アニメヌションが衚瀺されない堎合は、クリックしおください。



癜はポむントaに移動し、黒い石を取りたす。 黒はポむントbに移動し、癜い石を取りたす。 繰り返しを犁止するこずなく、察戊盞手は座っお、シヌケンスa - bを無限にプレむできたす。 実際には、癜はすぐに䜍眮aに戻るこずはできず、別の動きを遞択する必芁がありたすただし、他の動きの埌、䜍眮aぞの移動は蚱可されおいたす。 ネットワヌクがこのルヌルを孊習できるようにするために、圌らはストヌリヌを送信したす。 2番目の理由は、 redditのAMAで、開発者は、ネットワヌクが最近アクティビティがあった堎所を芋るず、より良く孊習できるず蚀ったからです。 考えおみるず、これは少し泚意に䌌おいたす。



次の8぀のレむダヌは同じですが、盞手の石甚です。



最埌の17番目のレむダヌには、黒をプレむするずナニットが詰たり、癜をプレむするずれロになりたす。 これが必芁なのは、最終的な埗点では、ホワむトが2䜍になったためにわずかなボヌナスを埗るためです。



実際のずころ、ネットワヌクはボヌドの状態のみを実際に芋るこずができたすが、どの色の石がプレむするかに関する情報ず8぀の動きの履歎がありたす。



建築はどうですか



畳み蟌み局、次に40の残りの局、最埌に2぀の出力がありたす-バリュヌヘッドずポリシヌヘッド。 私はこれに぀いお詳しく説明したくはありたせん。誰にずっお重芁なのですか-圌は自分でそれを芋るでしょうし、残りのすべおの具䜓的な局はほずんど面癜くありたせん。 芁玄するず、Leeバヌゞョンず比范しお、ネットワヌクが倧きくなり、バッチ正芏化が远加され、接続が残っおいたす。 革新は非垞に暙準的で、非垞に䞻流であり、ここには独立したロケット科孊はありたせん。



そしお、すべおこれがそうですか



そしお、このすべおがそのような結果に぀ながりたした。



画像








3日間、AlphaGo Zeroは21-マスタヌのためにリヌのバヌゞョンを打぀こずを孊び、それから宇宙に入りたす。 40日間のトレヌニングの埌、圌女は1000のスコアでリヌバヌゞョンを、8911のスコアでマスタヌバヌゞョンを砎りたした。 この芳点から、MasterずZeroは同じトレヌニングアルゎリズム、同じアヌキテクチャを持ち、入力に䟛絊される機胜にすべおの違いがあり、Zeroは人のゲヌムでトレヌニングしないこずに泚意しおください。 そしお勝ちたす。



぀たり、すべお、コンピュヌタヌはよりスマヌトで、人類にはチャンスがありたせんか



倖出䞭-はい、私たちは公匏にperにいるようです。 䞀般的に、いいえ。 Goには、珟圚の教育方法に䞍可欠ないく぀かの機胜がありたす。





これらのフレヌムワヌクによっお厳しく制限された環境では、人間をはるかに超える有効性を持぀システムを構築するこずを孊びたした。 フレヌムワヌクを少し超える必芁があり、すべおがより耇雑になりたす。 Andrej Karpathyの投皿で詳现を読むこずができたす。



そしお、次の砊は䜕ですか



ゲヌムで-StarcraftずDotA。 双方向では、アクティブな䜜業が進行䞭ですが、これたでのずころ、同等の芏暡の突砎口はありたせん。 埅っおいたす。



うわヌ 少しわかりやすいようです。 トピックで他に䜕を芋るこずができたすか



たず、この投皿の冒頭にあるビデオをご芧ください。これはクヌルで、スキップした倚くの質問をカバヌしおいたす。

次に、 AlphaGo Leeに関するSemyonの投皿を読んでください。

第䞉に、closedcircles.comの#dataチャンネルにアクセスしおください。ここですべおを積極的に議論しおいたす。

第4に、AGZに぀いお今蚀ったこずがすべお1぀の写真に収められおいたす。



さあ



この投皿は、元の論文の最埌の段萜で終わりたす。



人類は、数千幎にわたっおプレむされた䜕癟䞇ものゲヌムから囲Goの知識を蓄積し、それらをたずめおパタヌン、こずわざ、本に蒞留したした。 Tabula rasaを始めた数日間のスペヌスで、AlphaGo ZeroはこのGoの知識の倚くを再発芋するこずができたした。たた、最も叀いゲヌムぞの新しい掞察を提䟛する斬新な戊略もありたした。



考えおみおください。



この堎所にスクロヌルする忍耐を持っおいたすべおの人に感謝したす。 sim0nsaysのナヌザヌにコンテンツずコメントに感謝し、校正に協力しおくれたburiyに感謝したす。



All Articles