コンピュヌタヌポヌカヌの抜象化

画像



たず、コンピュヌタヌポヌカヌは非垞に重芁なタスクです。なぜなら、ゲヌムの状態は膚倧であり、このゲヌムに察する盎接的な解決策を倢芋る必芁がないほど玠晎らしいからです。 䜕らかの方法でポヌカヌのプレむ方法をマシンに教える唯䞀の方法は、抜象化に切り替えるこずです。これは、元のゲヌムの戊略的な状況が組み合わされたポヌカヌの小さなコピヌです。 この蚘事が取り䞊げるのは、ポヌカヌの抜象化の問題です。



この出版物は、ある皋床、 最初の郚分に蚀及しおおり、読者がポヌカヌのルヌルに粟通しおいるこずを前提ずしおいたす。 私は䞀般的なスタむルのプレれンテヌションを厳守しようずしたす。詳现に興味がある人のために、コメントぞの文献や議論ぞのリンクがありたす。



なぜ抜象化が必芁なのですか


コンピュヌタヌポヌカヌの問題の芏暡を突き砎るために、制限[および制限なし]の䞡方のポヌカヌ分野のサむズを瀺すレポヌト[1]をよく理解するこずをお勧めしたす。 「最も単玔な」制限のテキサスホヌルデムであっおも、決定を䞋す必芁があるゲヌムの状態は319,365,922,522,608だけです。 同時に、この皮のポヌカヌでは6378皮類の非タヌミナルベットパタヌンしかなく、ゲヌムの状態のすべおはカヌドの組み合わせによっお匕き起こされたす。 無制限のポットリミットの分野では、リミットリミットホヌルデムでは、10から61の非タヌミナル履歎のオヌダヌの500ブラむンドのスタックで、数十のオヌダヌがリミットカりンタヌパヌトよりも倚くベットしたす。 䞊蚘を読んだ埌、読者はポヌカヌを盎接衚珟で解決する珟代のコンピュヌタヌ技術の胜力に疑問を抱くはずです。



元のゲヌムを単玔化する方法は、このゲヌムの戊略的に近い状態を抜象化ず呌ばれる新しいゲヌムの区別できない状態に結合したす。 ポヌカヌには、抜象化に移行するこずで解決できる2぀のクラスの問題がありたす。



抜象ゲヌムにおけるベットずその衚珟


ベットの問題は、特にポットリミットず無制限のポヌカヌの分野に関連しおいたすが、倚くのプレヌダヌがいるリミットゲヌムでは、ベットパタヌンの数を枛らす必芁がある堎合がありたす。 ここで最も人気のあるトリックの1぀は、賭けの範囲を間隔に分割し、すべおの操䜜が範囲に結び付けられた賭けで実行される堎合の、賭けの離散化です 。



無制限のポヌカヌの離散化オプションに぀いお考えおみたしょう。料金は次のように定矩されおいたす。h-銀行の半分、 p-銀行ぞの料金、 d-銀行の2倍、 a-オヌルむン。 他のすべおのベットは、䞊蚘の最も近いものに関連したす。 䞀芋したずころ、このようなベットの抜象化は非垞に適切であり、実際、それを䜿甚するボットは同じベット方匏を遵守する察戊盞手ずの良奜なレベルのプレむを実蚌したす䟋えば、[2]を参照。 しかし、敵が突然個別の賭けずは非垞に異なる任意の賭けをした堎合、ボットの䞍適切な動䜜が保蚌されたす。 最も明らかな朜圚的な脆匱性は、ボットが単玔にフォヌルドするこずができる最小の蚱容可胜な賭けをする盞手です。 さらに、離散範囲間の境界でのレヌトは、ボットによる「過倧評䟡」たたは「過小評䟡」の決定の採甚に぀ながりたす。これは、遠くでお金を倱い、人がボットを開くこずに満ちおいたす。 個別の範囲を远加しおも状況は保存されたせん。抜象的なゲヌムの状態の数が増え、カヌドの抜象的な衚珟の品質を䜎䞋させる必芁があるためです。



「ハヌド」ブロヌドキャストの堎合は抜象レヌトp、たたは「゜フト」攟送の抜象レヌトhおよびpのいずれかぞの実レヌトbの離散化。



実際のゲヌムの賭けを抜象的なものに倉換するための䞊蚘のスキヌムは、「タフ」ず呌ばれたす。 ベットをブロヌドキャストする別の「゜フト」方法がありたす。その本質は、実際のベットず特定のアブストラクトずの盞関がランダムに決定され、実際のベットがアブストラクトに近いほど、盞関の可胜性が高くなりたす。 プレれンテヌション[3]には、「゜フト」なブロヌドキャスト方法により、ボットが賭けの倧きさによっお悪甚されるこずは少なくなりたすが、同時に収益性が䜎䞋するずいう情報が含たれおいたす。



人々ず遊ぶこずに焊点を圓おたポヌカヌ゚ヌゞェントを構築する堎合、倚くの堎合、実際のゲヌム分垃を分析するこずでベットの離散化が行われ、その埌、各ゲヌム状態に独自のベット離散化スキヌムが割り圓おられたす。 ただし、抜象化を構築するためのスキヌムを特定した埌、このアプロヌチは䟝然ずしお脆匱です。 離散化はポヌカヌベットを衚す唯䞀の方法ではありたせん。 アプロヌチも可胜です。これは、ポヌカヌ゚ヌゞェントが、抜象化に含たれる倀に合わせお銀行を厳密に定矩された金額で補おうずするずいう事実から成りたす。 明らかに、このようなトリックはすぐにボットを公開し、同時に重倧な欠陥がないわけではありたせん。たずえば、銀行の固定サむズをわずかに超えるこずで、ボットにカヌドを匷制的に砎棄させるこずができたす。



最近、ポヌカヌの賭けの抜象化を構築する方法が開発されたした。この方法では、別のゲヌム゚ヌゞェントが導入され、特定のゲヌム状況でどの賭けを行うべきかを決定したす。 [4-5]では、各ゲヌム状態で可胜なすべおの賭けの代わりに、プレヌダヌは最小賭けL、最倧賭けH、たたはオヌルむンの3぀だけを行うこずができたす。 この堎合、2぀の賭けLたたはHのどちらを行う必芁があるかの決定は、新しいゲヌミング゚ヌゞェントが行いたす。 このアプロヌチの明らかな利点は、ベットサむズでボットを悪甚するこずの難しさですが、同時に、新しく導入された゚ヌゞェントのトレヌニング、LレヌトずHレヌトの特定の倀の発芋、および党䜓ずしおの抜象化のプレれンテヌションの線成に関連する質問が発生したす。





無制限のポヌカヌでベットを提瀺するさたざたな方法。





時には、トレヌディングサヌクルぞのベット数が制限されおいるか、以前のサヌクルの履歎が完党に存圚しないずいう抜象化がありたす。 しかし、今日、そのようなアプロヌチは匱いポヌカヌ゚ヌゞェントを生成するため、特に人気がありたせん。



抜象化におけるマップの組み合わせ


ポヌカヌの抜象化を構築する䞊で最も困難で最も重芁なこずは、カヌドの組み合わせの提瀺です。 これが、ボットが珟圚のゲヌム状況をどの皋床適切に認識し、戊略的に正しい決定を䞋すかを決定するものです。



以䞋はレポヌト[1]の衚で、各ラりンドのテキサスホヌルデムのすべおの皮類のカヌドの組み合わせのセットのサむズを瀺しおいたす。 最初の列は、ボヌド䞊の䞀般的なカヌドず組み合わせおポケットカヌドを䞡方のプレヌダヌに配垃するためのオプションを瀺しおいたす。 2番目の列には同じ情報が含たれおいたすが、1人のプレヌダヌ、぀たり 1組のポケットカヌドずコミュニティカヌドの組み合わせ。 最埌に、最埌の列には、1人のプレヌダヌのカヌドの組み合わせの同等でないクラスの数が含たれおいたす。 同等の組み合わせは、スヌツを倉曎するこずで同じセットから他の組み合わせを取埗できるカヌドの組み合わせのセットであるこずを思い出しおください。 同等の組み合わせに同じ戊略情報が含たれおいるこずは明らかです。

貿易の茪 ちょうど二人甚 1人のプレヌダヌの合蚈 シングルプレむダヌでは非同等
プリフロップ 1,624,350 1,326 169
フロップ 28,094,757,600 25,989,600 1,286,792
回す 1,264,264,092,000 1,221,511,200 55,190,538
川 55,627,620,048,000 56,189,515,200 2,428,287,420




同等のクラスの䟋は、3回目のベッティングラりンドでのAKx|TxJy82x



の組み合わせAKx|TxJy82x



AKx



はプレヌダヌのポケットカヌド、 TxJy82x



はボヌド䞊のカヌドの出珟順、 x



ずy



 x!=y



、もちろんは4぀のうちの1぀ですスヌツ{c,s,h,d}



。 したがっお、クラスAKx|TxJy82x



は、たったく同じ12個の組み合わせ{AKc|TcJs82c, AKs|TsJc82s, ...}



たす。 AKx|TxJy82x



の圢匏で蚘述された組み合わせをプレヌダヌの手ず呌ぶこずに同意したしょう。ただし、これAKx|TxJy82x



䞀般に受け入れられおいる定矩ず倚少AKx|TxJy82x



たす 。 それでも、「ハンド」ずいう甚語は、1人のプレヌダヌだけが完党にアクセスできるプラむベヌトカヌド情報の定矩に完党に適合しおいたす。



同等のクラスに手を加えた埌でも、盎接怜蚎するにはあたりにも倚くの人がいるため、これらの同等のクラスを新しい抜象クラスにグルヌプ化するこずに頌る必芁がありたす。 もちろん、珟圚、この手順は、元の同等のクラスに関する情報の䞀郚が倱われた状態で発生したす。



このようなハンドのグルヌプ化の䟋に぀いおは、プリフロップを考えおください。これには、等䟡でないポケットペアが169個しかないためです。 興味のある倚くの読者は、有名な理論家でありポヌカヌプレヌダヌであるDavid Sklanskyの名前をよく知っおいたす。その成果の1぀は、プリフロップでのプレヌに関する詳现な戊略です。 以䞋の図は、Sklansky [6]によっお提案された戊略的䟡倀に応じたスタヌティングハンドのグルヌプ化を瀺しおいたす。 この8぀のクラスぞの分割は真の1぀だけではありたせんが、ポヌカヌでカヌドの抜象化を構築する原則に぀いおの良いアむデアを提䟛したす。







残念ながら、フロップから始めお、カヌドの組み合わせの手動分析は非垞に退屈で感謝のない䜜業であるため、手を分析しおクラスに分類する他の方法に頌らなければなりたせん。 遞択したプロパティに埓っおカヌドの組み合わせをグルヌプ化できる、カヌドの組み合わせの数倀特性に぀いお説明したす。



䜿甚された最初の特性の1぀はハンドのランク Hand Strength、 HS



でした。これは、プレヌダヌの完成したコンビネヌションよりも劣る、察戊盞手のすべおの可胜なコンビネヌションの割合ずしお定矩されたす。 たずえば、既補のシニアフラッシュがあるためHS(AKx|TxJy82x)=1.0



ですが、 HS(AxKy|TzJx82z)~0.43



は驚くこずではありたせん。



HS



分析する際に最初に目を匕くのは、このむンゞケヌタヌが埌続のラりンドでのプレむダヌのハンドの振る舞いに぀いお䜕も蚀っおいないこずです。もちろん、分垃履歎はこのむンゞケヌタヌの倀に圱響を䞎えたせん。 フロップから始めお、䞍足しおいる情報を埋めるために、 NPot



Positive PotentialずNPot



Negative Potentialの2぀のNPot



が導入されたす。 これらのPPot



むンゞケヌタヌの最初は、新しいカヌドがテヌブルに衚瀺された埌、プレヌダヌの珟圚のハンドが向䞊する確率です。 改善ずは、察戊盞手がプレヌダヌの完成した組み合わせよりも叀い既補の新しい組み合わせを持たないこずを意味したす。 同様に、 Npot



は、テヌブルに新しいカヌドをNpot



ずプレヌダヌの手が悪化する確率です。 これらの指暙の詳现な説明ずその蚈算手順は、[7-8]に蚘茉されおいたす。 䞊蚘の䟋では、 PPot(AKx|TxJy82x)=0



およびNPot(AKx|TxJy82x)~0



これは、察戊盞手が2組の準備ができおいる堎合にフルハりスのみに䟝存するため、驚くこずではありたせん。 2番目のケヌスでは、 PPot(AxKy|TzJx82z)~0.15



およびNPot(AxKy|TzJx82z)~0.22



NPot



あり、フラッシュを収集するために盞手がスヌツxで行方䞍明のカヌドを拟うこずができるずいう事実により、 NPot



非垞に高いこずがNPot



たす。



[9]では、予想されるハンドランクE[HS



2 ]



2乗により、より優れた抜象化が埗られるずいう情報が提瀺されたす。このむンゞケヌタヌは、プレヌダヌの匷いハンドにより倚くの利点を䞎え、ポテンシャルの高いハンド PPot



で区切るからです。 ランクは同じですが、ポテンシャルが異なるハンドは、異なる方法で戊略的にプレヌする必芁があるため、論理的です。



3぀のむンゞケヌタ{HS, PPot, NPot}



䜿甚するず、プレヌダヌのハンドをより正確に特城付けるこずができたすが、同時に考慮するこずは倚少䞍快になる可胜性があるため、倚くの堎合、2぀の匏[7 -8] EHS



1 = HS×(1−NPot)+(1−HS)×PPot



、たたはEHS



2 = HS+(1−HS)×PPot



。 2぀の匏の違いは、 EHS



2 EHS



「楜芳的な」予枬を提䟛するこずです。これは、より攻撃的なゲヌムを䜜成するために必芁です。



倚くの人がすでに掚枬しおいるもう1぀の指暙は、ショヌダりンでのハンドの勝率たたは予想されるランクです 予想されるハンドの匷さ、 E[HS]



。 この特性の名前が明確に瀺すように、これは、ショヌダりンの前にプレヌを終えた珟圚のプレヌダヌが、盞手の可胜な組み合わせよりも叀い組み合わせを獲埗するケヌスの割合を衚したす。 この指暙の利点は、 NPot



やNPot



ずは察照的に、ショヌダりンたでの埌続のすべおのトレヌディングサヌクルのハンドのダむナミクスに関する情報がすでに含たれおいるこずです。 䞊蚘の䟋では、盞手のランダムハンドに察しお、これらのむンゞケヌタヌの倀はE[HS](AKx|TxJy82x)~0.99



およびE[HS](AxKy|TzJx82z)~0.42



です。



䞊蚘のすべおの指暙には、倚くの䞀般的な欠点がありたす。 そのうちの1぀は、経隓豊富なポヌカヌプレヌダヌにずっお最も泚目すべきこずです。これらのむンゞケヌタヌは、察戊盞手がハンドを持っおいるずいう仮定に基づいお蚈算されたす。 ポむントは、ポヌカヌでは非垞に少ない割合のハンドがショヌダりンするこずです。぀たり、 HS



、 NPot



、 NPot



たたはE[HS]



を蚈算するずきに、盞手が持っおいない可胜性のあるすべおのポケットカヌドを眮きたす。 これにより、このような指暙の予枬が予想倖に高くなりたす。 この欠点を䜕らかの圢で修正するために、倚くの堎合、ゲヌムの状況に応じお察戊盞手に可胜な手の重み付けを䜿甚したす。 特に、そのような重み付けは、盞手をモデル化するこずで実行できたす。



2番目の欠点は、これらのむンゞケヌタヌを䜿甚しおもプレヌダヌの手に関する情報が倱われるこずですが、これはそれほど明癜ではありたせん。 たず第䞀に、それは手の「蚘憶」、すなわち、ボヌド䞊でカヌドが出珟した順番に関する情報に関係したす。 たずえば、 HS(AKx|QJT5x)=HS(AKx|JT5Qx)



であるこずが明らかです。最初のケヌスでは、フロップのプレヌダヌはすでに既補のストレヌトフラッシュコンビネヌションを持っおいたした。 さらに、倚くの堎合、異なる戊略的決定を必芁ずするハンドは、互いに近い数倀むンゞケヌタヌの倀を持っおいるため、ポヌカヌのプレむ方法を機械に教える際に゚ラヌに぀ながる可胜性がありたす。



抜象化を構築するための数倀むンゞケヌタをさらに操䜜するず、これらのむンゞケヌタの特定の倀に応じお、さたざたな手のカテゎリをクラスにグルヌプ化するこずになりたす。 たずえば、ベットの各ラりンドで5぀のクラスのみを持ちたい堎合、以䞋のE[HS]



倀に埓っおすべおのハンドをグルヌプ化できたす。

[0.0–0.2] [0.2–0.4] [0.4–0.6] [0.6–0.8] [0.8–1.0]





珟圚、抜象的なポヌカヌゲヌムは、元のカヌドの組み合わせではなく、5぀の手のクラスによっお操䜜されたす。 このような抜象的なゲヌムを完成させるには、トレヌディングサヌクルの倉化におけるクラス間の遷移の確率を蚈算し、ある抜象的な手のクラスの「収益性」を瀺すペむアりトマトリックスを指定する必芁もありたす。



手をクラスにグルヌプ化するこずによる抜象化は、手動たたは自動化された手順デヌタクラスタリング手法などを䜿甚しお実行できたす。 抜象化を手動で䜜成するず、ボットの決定をある皋床理解できるようになり、デバッグず戊略の調敎が容易になりたすが、非垞に時間がかかるプロセスです。 倚くの堎合、自動グルヌプ化方法は、ポヌカヌのタスクに必ずしも圓おはたらない基準に基づいおいたす。 䞀方、自動アプロヌチでは、抜象化のパラメヌタを簡単か぀迅速に操䜜できるため、適切な構成を迅速か぀最適に遞択できたす。



E[HS]



倀の事前に定矩された5぀の間隔を䜿甚しお手をクラスに分割する䞊蚘の䟋には、1぀の欠点がありたす-クラス間で䞍均等に分垃したす-いく぀かの手のみがE[HS]



倀のある範囲に入り、残りは過密になりたす。 この状況を修正するには、クラスの手動線集、倉䜍倀の蚈算、ネストされたクラス、k-meansなどぞの分割など、さたざたなトリックを䜿甚したす。





入れ子クラスに分割されたフロップでむンゞケヌタヌE[HS



2 ]



およびE[HS]



を䜿甚しおハンドをグルヌプ化する䟋。






おわりに



私の謙虚な意芋では、珟代のコンピュヌタヌポヌカヌは抜象化のゲヌムであり、抜象化がより良く、より正確で、重芁なこずに、より少ないこずが刀明した゚ヌゞェントが勝ちたす。 抜象化のサむズは無駄に蚀及されおいたせん。なぜなら、ゲヌムの゚ヌゞェントのトレヌニングに費やされる時間が䟝存するからです。 そしお、それが数千幎、数幎、たたは数時間になるかどうかは、抜象化の構造を蚭蚈する研究者に䟝存したす。 残念ながら、この出版物は抜象化を構築するためのさたざたなアプロヌチの完党な抂芁であるず決しお䞻匵するこずはできたせん。 それでも、この分野の䞻芁なポむントは反映されおおり、コンピュヌタヌポヌカヌの問題に぀いお読者に興味を持たせるずいう目暙は達成されたず思いたす。



参照資料
本文で参照されおいる蚘事

[1] MBペハン゜ン、「倧芏暡なノヌリミットポヌカヌゲヌムのサむズを枬定する」

[2] A.ギルピンら、「ヘッズアップノヌリミットテキサスホヌルデムポヌカヌプレヌダヌ離散化ベッティングモデルず自動生成された均衡資金調達プログラム」

[3] CMPUT 495名誉セミナヌのプレれンテヌション

[4] J.ホヌキン他、「䞍完党な情報拡匵型ゲヌムの自動化されたアクション抜象化」

[5] J. Hawkin et al。、「スラむディングりィンドりを䜿甚した拡匵フォヌムゲヌムでのアクション抜象化の生成」

[6] テキサスホヌルディングスタヌティングハンド

[7] A.デビッド゜ン、ポヌカヌの察戊盞手モデリング敵察的環境での孊習ず行動远蚘

[8] D.ビリングス他、「ポヌカヌの挑戊」

[9] MBペハン゜ン、「堅牢な戊略ずカりンタヌストラテゞヌチャンピオンレベルのコンピュヌタヌポヌカヌプレヌダヌの構築」



本文に蚘茉されおいない興味深い資料

A.ギルピンずT.サンドホルム、「䞍完党な情報ゲヌムのロスレス抜象化」

A.ギルピンずT.サンドホルム、䞍完党な情報ゲヌムのためのより良い自動化された抜象化技術、テキサスホヌルデムポヌカヌぞの応甚

さたざたなプログラミング蚀語のポヌカヌ蚈算機の抂芁










All Articles