人工知能の改善は、通常のゲームで判断できます。過去20年間で、アルゴリズムは世界のトッププレーヤーを上回りました。最初に、バックギャモンとチェッカーが落ち、次にチェス、「マイゲーム」（Jeopardy！）、2015年、アタリビデオゲーム、昨年、Go。

これらの成功はすべて、情報の対称性を備えたゲームに関するものであり、プレイヤーはゲームの現在の状態に関する同一の情報を持っています。情報の完全性というこの特性は、ゲーム中のローカル検索など、これらの成功を保証するアルゴリズムの根底にあります。

しかし、情報が不完全なゲームについてはどうでしょうか？

そのようなゲームの最も明白な例はポーカーです。このゲームとこの問題を解決するアルゴリズムを実際に処理するために、機械学習に基づいてゲームボットを作成するためのハッカソンを開催します。カットの下で、カードに触れることなくブラフとポーカーで手を試すアルゴリズムを教える方法について。

記事の概要

1. 情報が不完全なゲームのAI

- プログラミングエージェントの問題

- ポーカーのためのAI

- ソリューションの実用的価値

2. ズベルバンクホールデムチャレンジ

- 参加者の仕事

- 競争プログラム

3. プログラミング戦略

- 単純なボットの例

- ゲームのリプレイの分析

- 発送のためのソリューションの準備

4. 戦略作成のアプローチ

- 古典的なアプローチ

- 機械学習アプローチ

5. ハッカソンプラットフォーム

6. 参照

1.情報が不完全なゲームのAI

世界には、複数のエージェント間の相互作用に関連するタスクがいっぱいです。歴史的に、これらのマルチエージェントの状況では人々が主な参加者でしたが、AIの開発により、平等な参加者および対話可能なエージェントとしてアルゴリズムを日常生活に導入する機会があります。現在、このようなコンピューターエージェントは、自動電話システムのような単純で無害なものから、セキュリティ管理や自律輸送管理のような重要なものまで、多くの問題を解決します。これにより、多くの日常のプロセスを大幅に自動化して、意思決定をアルゴリズムに移し、人の負荷を軽減できます。

コンピュータエージェントを使用する多くのタスクの機能は、プログラミングの複雑さに影響する現実世界の多数の制限です。コンピューターエージェントにとって最も重要なことは、意思決定に必要なすべての情報へのアクセスです。これがAIのモデルタスクにどのように影響するか、つまりエージェントがゲームをプレイする方法を見てみましょう。

非対称性と不完全な情報を持つゲームは、いつでも完全に利用できる理想的な情報を持つ類似サイズのゲームと比較して、非常に複雑な意思決定アプローチを必要とします。いつでも最適な解決策は、相手の戦略の知識に依存します。これは、過去の行動からのみ推定できる、私たちに隠され、彼らだけがアクセスできる情報に依存します。しかし、彼らの以前の行動はまた、私たちの行動についての彼らから隠された情報と私たちの行動がこの情報をどのように開示したかに依存しています。この再帰的なプロセスは、効果的な意思決定アルゴリズムを構築する際の主な困難を示しています。

プログラミングエージェントの問題

エージェントとは、意思決定プロセスの自律的な参加者、つまり個人とコンピューターの両方を意味します。マルチエージェント環境では、エージェントは互いに対話し、他のエージェントの戦略、目標、および能力を常に把握しているわけではありません。このような環境で結果を最大化するエージェントの最適な動作は、他のエージェントのアクションに依存します。マルチエージェント環境で効果的なエージェントを構築するには、他のエージェントのアクションに適応し、その戦略をモデル化し、その行動に基づいて学習する必要があります。

エージェントがリアルタイムで適応するためには、結果を達成するために最適なアクションを選択する必要があります。強化学習アプローチを使用して、エージェントは自分の行動に対する報酬を獲得します。また、エージェントは、計画された搾取と探査の取り組みに従うことでバランスを取り、他のプレイヤーの戦略に関する有用な情報を見つけようとします。

問題のすでに難しい声明に加えて、エージェントは、情報が不完全なマルチエージェント環境での作業に関連する他の制限に直面します。エージェントが直面する主な困難を書き留めます。

限られた数の観測。原則として、エージェントはトレーニング用の少数の観察結果のみを利用できます。これは、人間エージェントの参加が長い間利用できなかった実際のアプリケーションでは特に重要です。
確率的観測。エージェントの相互作用環境とエージェント自体の両方は、多くの場合、多数のランダムな要因の影響を受けます。エージェントの動作が他の多数のランダム変数に依存するランダム変数である場合、トレーニングと適応に役立つ信号を分離することは特に困難になります。
観察された情報の不完全さ。これは、エージェントが動作する環境の重要なプロパティです。部分的かつ限られた概要のみがエージェントに利用可能であり、世界に関するほとんどの情報をエージェントから隠しています。
動的な動作。時間の経過とともに、エージェントは互いの行動に適応し、トレーニングと適応の間に行われた進捗を平準化できます。環境は時間とともに変化し、エージェントが新しいアクション、戦略、行動を引き起こすこともあります。

これらの特性はすべて、コンピューターエージェントの作成に重大な困難を課します。これらの困難の1つでもエージェントの動作をモデル化することは複雑な科学集約的なタスクであり、そのようなエージェントのエンジニアと著者がこれらの困難の完全なリストに対処しなければならない実際の環境は言うまでもありません。複雑な環境の一般的なケースについて話しましたが、次にゲームに移りましょう。

ポーカーAI

説明したすべてのプロパティを備えた複雑な環境の良い例は、ポーカーです。これには、カードに関する情報の不完全さ、参加しているプレイヤーの戦略、カードの配布に関連するランダム性の要素、およびゲーム中に説明したその他の困難が含まれます。さらに、ゲームの状況を特徴付ける可能なゲーム状態の数は膨大です。とても巨大なので、Goに劣る（対数スケールで）だけです：無制限のHold'emには10 ¹⁶⁰あり、Goには約10 ^170あります。

ポーカーはチャンスのゲームであるという事実にもかかわらず、公式スポーツとして認識されており、ほぼすべての国（ロシアを含む）に全国スポーツポーカー連盟があります。今日、このゲームには世界中に何百万人ものファンがいますが、ポーカーがまだ世界の人気からほど遠いときでも、プレイヤーだけでなく科学者からも高く評価されていました。現代のゲーム理論の先駆者であるジョン・フォン・ノイマンは、このブラフとベットのゲームに非常に魅了され、次のように述べました。

「現実の生活は、ブラフ、小さな欺ception、他の人があなたに期待することを考えることから成り立っています。これが私の理論でゲームが表すものです。」ジョン・フォン・ノイマン

ポーカー向けAIの開発の歴史は30年以上ありますが、最も顕著な成果は文字通り過去3年間に生じています。

最初のポーカープログラムとアルゴリズムは80年代に登場しました。たとえば、1984年に彼が作成し、Stratosphereトーナメントでデモを行ったMike Caro Oracシステムです。 1991年、ポーカー向けAIの開発に特化した世界初の研究グループがアルバータ大学（カナダ）で設立されました。 1997年、このグループはポーカー向けAIの最初の成功した意味のある実装であるLokiシステムを実証しました。ロキは平均的な人間のプレーヤーよりもわずかに悪いレベルでプレーしましたが、これは研究分野全体にとって重要なマイルストーンでした。 2000年代には、ポーカーボットのAIを書くというパラダイムに変化がありました。研究者は、ディープブルーのチェスでの成功（1996年にギャリーカスパロフを破りました）に触発されたポーカーアプローチから、ポーカー向けの本格的な方法論とシミュレーション問題の定式化に移行しました。

2015年、アルバータ大学はCepheusシステムを導入しました。これは文字通り、ポーカーの種類の1つである「決定」ヘッズアップポーカー（簡略バージョン、約10 ¹⁸ゲームの状況）を「決定」しました。これはAIの開発における重要なマイルストーンです。これは、現時点で完全な最適ソリューションを備えた情報が不完全な唯一のゲームであるためです。これは、セフェウスを2か月間プレイすることで達成されました（Goのゲームで世界チャンピオンを破ったAlphaGoも同じ方法で訓練されました）。

このシステムは、一部の手でチップを失うことがあるため、理想的ではないことに注意することが重要です。ただし、十分な数のゲームがあれば、セフェウスが引き続き勝者となります。また、ヘッズアップポーカーの無制限バージョンには、ゲームの状態が多すぎるため、同様の完全なソリューションがまだないことに注意することも重要です。

今年、ポーカーボットの世界で2つの重要なイベントが同時に開催されました。アルバータ大学は、無制限のヘッズアップポーカーをプレイするためのDeepStackアルゴリズムを導入しました。ディープニューラルネットワークに基づいて、アルゴリズムはプロのプレイヤーを含む多くの人間のライバルを打ち負かすことに成功し、AlphaGoは人間の直感を模倣して「学習」することができ、多くのゲームを継続的にプレイしました。

Live Libratus Tournament vs Human

ポーカーボットの世界で2017年の最も重要なイベント、そしておそらくAI全般。カーネギーメロン大学のLibratusシステムは、プロのポーカープレイヤーを無事に倒しました。これは、世界最高の無制限のヘッズアップポーカープレイヤーで構成されるチームです。彼らによると、アルゴリズムは非常に良かったので、彼は不正行為をしてライバルカードを見ているように見えました。試合は20日間のトーナメント中にリアルタイムで行われ、アルゴリズムのアクションはピッツバーグスーパーコンピューターでカウントされました。

ソリューションの実用的な価値

ポーカーボットは実際のタスクに適用できないように見えますが、その開発により、カードゲームから練習に移せる多くの方法がもたらされました。最高の人間のプレーヤーを克服する現代のポーカーボットのアルゴリズムは普遍的であり、一般的に不完全で非対称な情報を含む環境でエージェントをトレーニングすることを目的としています。セキュリティからマーケティングまで、同様の複雑さの環境で意思決定が必要な多くのアプリケーションにそれらを転送することができます。そこでは、オーディエンスの入札をシミュレートできます。

銀行業界では、高度なポーカーボットの背後にあるアルゴリズムがアプリケーションを見つける多くの実際的な問題もあります。 Sberbankのこのようなビジネスタスクの中で、まず第一に、他の多くのオブジェクトバンクの市場でのリスクリターンと価格設定の管理に注目する価値があります。ただし、これらのアプリケーションのリストは、Customer Value ManagementやNext Best Actionなどのタスクに簡単に拡張できます。

2.ズベルバンクホールデムチャレンジ

機械学習ベースのGamebot Hackathon

機械学習と人工知能の開発を促進するために、オンライン競争が先行するユニークなハッカソンを開催します。機械学習の専門家を招待して、不確実性に直面して最適な決定を下し、他のポーカープレーヤーの行動をモデル化できる人工的なゲーミングインテリジェンスを作成してみてください。

「今日の人工知能は、合理的なアルゴリズムを開発するだけでなく、市場参加者の不合理な行動や、トーナメントの場合のようにポーカープレイヤーのモデル化にも役立つはずです。」 Sberbankの上級副社長であるAlexander Vedyakhin

受賞者の業績がSberbankの人工知能の開発に活用されることを願っています。それにもかかわらず、これらの開発が実際に適用される前に年が経過したとしても、そのようなハッカソンはそのようなモデルの問題に関する科学の発展にとって重要です。

参加者の仕事

ポーカーボットを作成する必要があるゲームは、最も人気のあるポーカータイプです：ノーリミットテキサスホールデムです。また、最も難しい種類のゲームであり、単一の研究グループが成功に近づいているわけではありません。2人ではなく9人のプレイヤーが参加し、ゲームの組み合わせの数は膨大で10 ^160に達します。

参加者は、ポーカーをプレイするエージェントを実装する必要があります。ポーカーゲームは連続した一連の配布（ラウンド）であり、すべてのポーカーチップが1人のプレーヤーにしか残っていない場合、またはラウンド数の制限に達するまで終了します。各ゲームでは、ボットプレーヤーの9人のエージェントが参加します。

参加者のエージェントから、ゲームとトーナメントがランダムに形成され、その結果に応じて最良の戦略が決定されます。ゲームの開始時に、各エージェントにはタイムバンクが与えられ、これを使用してトーナメント中に決定を下すことができます。エージェントが制限時間を超えた場合、またはエージェントがデータ転送プロトコルに対応しない応答を送信した場合、シミュレーターはトーナメントが終了するまで各ディストリビューションのカードを自動的に破棄します。

競技プログラム

コンテストは2つのステージで開催されます。個人の予選トーナメントと100人のファイナリストのチームオフラインハッカソンです。オンライン予選ステージを通過する上位100人の参加者は、プライベートオフラインハッカソンに招待されます。

8月30日12:00

競争のプラットフォームでの競争のオンラインステージの開始、ソリューションの送信の開始。
9月18日、03：00（9月15日23:59から延長）

オンラインステージを閉じ、参加者を評価し、ファイナリストを選出します（トップ100）。
9月23日10:00

Sberbank Corporate Universityでのハッカソンのオフラインステージの開始。
9月24日、16：00。

ハッカソン決勝、まとめ、授賞式。

予選オンラインステージは個別に開催されます。オンライン段階では、参加者が自分のポーカーボットの書き方を学ぶことができるように、競争チームがオフラインハッカソンのテスト環境を提供します。また、オンラインステージでは、毎日午前0時に、スケジュールに従って、ボットの評価を毎日決定する100以上のランダムトーナメントが開催されます。オフライン段階では、参加者はチームを結成し、参加者の評価を決定するトーナメントがすべての参加者間で1時間ごとに行われます。

ハッカソンは、Sberbank Corporate UniversityのAcademy of Technology and Dataが直接参加して開催されます。ハッカソンのファイナルは、ファイナリストがアルゴリズムを最終決定する必要があるCorporate Universityのキャンパスで開催されます。

ズベルバンクコーポレートユニバーシティキャンパス

オフライン参加者には、モスクワからキャンパスへの送迎、ホテルの宿泊、食事、その他のサービスと素晴らしいキャンパスの機会が提供されます。プロのコメンテーターの参加により、コンテストの決勝戦とボット間のポーカートーナメントが行われます。

残念ながら、ロシアの市民だけがこの競争に参加できます。モスクワへの物流も参加者自身に残っています。この点で、トップ100にいる人のオフラインハッカソンの場所は、なんらかの理由でオフラインステージに来ることができず、評価テーブルのリストでそれらの次の場所に転送されます。

上位3チームの賞金は60万ルーブルです。

3.プログラミング戦略

ポーカーボットを実現し、勝利に導く方法を見てみましょう。これを行うには、3つのことが必要です。

-私たちが自信を持っているプログラミング言語（PythonおよびC ++に既製の例があります）。

-私たちのボットが動作するポーカーゲームのシミュレーター。シミュレーターとして、 PyPokerEngineオープンソースライブラリが使用されます

-ボット自体のコード。シミュレータ内でゲームアクションを実行します。

最初にボットを処理して、それほど難しくないことを確認しましょう。

簡単なボットの例

Pythonで最も単純なボットの例を見てみましょう。毎回CALL操作を実行します。つまり、常にそれ自体に自信があり、それだけで相手の賭けを平準化します。

from pypokerengine.players import BasePokerPlayer class FishPlayer(BasePokerPlayer): def declare_action(self, valid_actions, hole_card, round_state): call_action_info = valid_actions[1] action, amount = call_action_info["action"], call_action_info["amount"] return action, amount def receive_game_start_message(self, game_info): pass def receive_round_start_message(self, round_count, hole_card, seats): pass def receive_street_start_message(self, street, round_state): pass def receive_game_update_message(self, action, round_state): pass def receive_round_result_message(self, winners, hand_info, round_state): pass

ボットは、declare_actionボットの時点でのゲームイベントハンドラーメソッドとアクション選択メソッドが実装されているオブジェクトです。ライブラリのドキュメントで、ゲーム戦略の実装について詳しく読むことができます。

ゲーム戦略の開発はPython言語だけでなく、他のプログラミング言語でも実装できます。 APIの説明とボット作成のガイドについては、ボットの準備に関するガイドを参照してください。

毎日00:00 MSKに、システムに送信されたすべてのボット間でトーナメントが開催されます。参加者が複数のエージェントを送信した場合、最後に送信された決定のみが考慮されます。

トーナメント中、各ボットはランダムなライバルとの一連のゲームをプレイします-他の参加者のボットです。結果テーブルは、トーナメントのすべてのゲームの結果に基づいて、ボットからの残りのチップの平均量の降順に作成されます。

トーナメントゲームでは、正確に9つのボットが参加します。ラウンドの最大数は50です。ゲームの開始時に、各ボットは1,500チップを受け取り、スモールブラインドのサイズは15です。

これは、PyPokerEngineの次のラウンドパラメーターに対応します。

 config = setup_config(max_round=50, initial_stack=1500, small_blind_amount=15)

ゲームリプレイ分析

トーナメントの終了時に、参加者はすべてのボットのゲームログを含むアーカイブにアクセスできます。したがって、ゲーム中のアクションを見て、対戦相手の戦略を分析できます。ただし、他の参加者もボットのプレイスタイルを分析し、次のトーナメントに備えてボットを待ち伏せることができます。

ゲームのリプレイを含むサンプルファイル： example_game_replay.json

ゲームのリプレイは、フィールドを持つJSONオブジェクトとして記録されます。

ルール ：ゲームパラメーター

seats ：ボットに関する情報。特に、各ボットの名前が示されている名前-この名前は、ボットを送信した参加者に対応しています

rounds ：ボットによって実行されたアクションを示すすべてのラウンドのリスト

発送のためのソリューションの準備

特別に準備されたdockerイメージは、ボットを起動するための環境として使用されます。 ZIPアーカイブにパックされたボットコードをテストシステムに送信する必要があります。

アーカイブの例：

→ example-python-bot.zip

→ example-cpp-bot.zip

アーカイブルートには、次の内容のmetadata.jsonファイルが含まれている必要があります。

 { "image": "sberbank/python", "entry_point": "python bot.py" }

ここで、imageはソリューションを起動するdockerイメージの名前、entry_pointはソリューションを起動するコマンドです。ボットプログラムの場合、現在のディレクトリはアーカイブのルートになり、実行可能ファイルに加えて、他の補助ファイルを配置できます。アーカイブのサイズ制限は1GBです。

ほとんどすべてのプログラミング言語について、ボットを実行できるドッカー環境があります。

sberbank / python-多数のライブラリがインストールされたPython3
gcc-コンパイルされたC / C ++ソリューションを実行します（詳細はこちら）
node -JavaScriptを実行します
openjdk -Java用
mono -C＃の場合
DockerHubからダウンロードできる他の画像も適しています。

実行可能なコマンドは、stdin / stdoutを介してゲームシミュレータと交換されます。シミュレーターは、 event_type<\t>data

形式で、stdin行の1つのイベントを送信します。ここで、 data

はイベントパラメーターを持つJSONオブジェクトです。シミュレーターがstdinに供給する入力の例。イベントとそのパラメーターの説明。

declare_action

イベントへの応答declare_action

ボットは次の形式の行でstdoutに応答する必要があります。

 action<\t>amount

ここで、 action

はプレーヤーが利用できるアクション（フォールド、コール、レイズ）の1つで、量はレイズアクションのチップ数、その他の場合は0です。

バッファI / Oを使用する場合は、アクションをstdoutに書き込んだ後flush()

必ずバッファをflush()

（ flush()

）してください。そうしないと、シミュレーターがメッセージを受信しない可能性があり、ボットに制限時間があります。

上記の例に示すように、PyPokerEngineライブラリを使用してPythonでボットを開発するのが最も便利です。 Python 3がインストールされているsberbank / pythonのdocker環境で実行することをお勧めします。また、PyPokerEngine自体と紳士のデータサイエンティストのセット（numpy、scipy、pandas、sklearn、tensorflow、keras）を含むライブラリの大規模なセットを実行することをお勧めします。インストール済みのPythonパッケージの完全なリストは、このファイルにあります。

完全なpythonボットのサンプルコードを以下に示します。

bot.py

 import sys import json from pypokerengine.players import BasePokerPlayer class MyPlayer(BasePokerPlayer): # Do not forget to make parent class as "BasePokerPlayer" # we define the logic to make an action through this method. (so this method would be the core of your AI) def declare_action(self, valid_actions, hole_card, round_state): # valid_actions format => [raise_action_info, call_action_info, fold_action_info] call_action_info = valid_actions[1] action, amount = call_action_info["action"], call_action_info["amount"] return action, amount # action returned here is sent to the poker engine def receive_game_start_message(self, game_info): pass def receive_round_start_message(self, round_count, hole_card, seats): pass def receive_street_start_message(self, street, round_state): pass def receive_game_update_message(self, action, round_state): pass def receive_round_result_message(self, winners, hand_info, round_state): pass if __name__ == '__main__': player = MyPlayer() while True: line = sys.stdin.readline().rstrip() if not line: break event_type, data = line.split('\t', 1) data = json.loads(data) if event_type == 'declare_action': action, amount = player.declare_action(data['valid_actions'], data['hole_card'], data['round_state']) sys.stdout.write('{}\t{}\n'.format(action, amount)) sys.stdout.flush() elif event_type == 'game_start': player.set_uuid(data.get('uuid')) player.receive_game_start_message(data) elif event_type == 'round_start': player.receive_round_start_message(data['round_count'], data['hole_card'], data['seats']) elif event_type == 'street_start': player.receive_street_start_message(data['street'], data['round_state']) elif event_type == 'game_update': player.receive_game_update_message(data['new_action'], data['round_state']) elif event_type == 'round_result': player.receive_round_result_message(data['winners'], data['hand_info'], data['round_state']) else: raise RuntimeError('Bad event type "{}"'.format(event_type))

metadata.json

 { "image": "sberbank/python", "entry_point": "python bot.py" }

C \ C ++の場合は、コンパイルされた言語でボットを起動する手順にも注意してください。ボットの出荷準備に関する詳細なドキュメントは、こちらから入手できます。

4.戦略作成のアプローチ

ポーカーボットの開発の30年の歴史の中で、ポーカー戦略の開発に対するアプローチのいくつかのファミリーが作成されました。

古典的なアプローチ

実装が最も簡単で時間のかからない方法の1つは、エキスパートシステムです。実際、これはゲームの状況を事前定義されたクラスの1つに割り当てる一連の固定IF-THENルールです。組み合わせの強さに応じて、システムは多くの利用可能なソリューションの1つを提供します。

また、この問題は、純粋に数学的な方法で解決でき、各時点でナッシュ平衡の観点から最適なソリューションを計算できます。ただし、他の参加者のソリューションも最適な場合、ソリューションは最適になります。このようなソリューションの検索はリソースを大量に消費するため、実際には、ルールの多数の制限がある場合にのみ使用できます。たとえば、テキサスホールデムでは、2人のエージェントの制限がある場合、または特定のゲームの状況が発生した場合です。

機械学習のアプローチ

運用戦略はより効果的で、敵をクラスターに分割し、各クラスターに対して対抗戦略が実装されます。ほとんどの優秀なポーカープレイヤーはこのアプローチを使用しています。しかし、人間とは異なり、コンピューターには膨大な数のゲーム結果を整理できるという利点があり、ライバルの行動を適切に予測することで、数学的な期待に関して最も収益性の高い決定を下すことができます。この場合の対戦相手の行動を予測するには、過去の試合でのゲームの統計を収集し、機械学習アルゴリズムを実装することが非常に役立ちます。アルゴリズムの作者にとって残念なことに、パワフルなコンピューターであっても、ほとんどのゲームの状況で起こりうるイベントの結果をすべて分類することは不可能であるため、モンテカルロツリー検索などの最適化アルゴリズムを使用する必要があります。そのような戦略の実装の例。

最後に、戦略の作成にさらに抽象的にアプローチし、入力にゲーム状況のパラメーターがあり、出力にニューラルネットワークを実装できます-多くの可能な解決策。このアプローチの欠点には、この場合、トレーニングに大きなデータセットが必要になるという事実が含まれます。このマイナスは、AlphaGoアプローチと同様の方法で自分自身と遊ぶためにニューラルネットワークを起動することで平準化できますが、1日以上のトレーニングとモデリングの準備が必要です。ポーカーボットを作成するためのより複雑な科学的アプローチについては、10年以上にわたってこの問題を解決してきたカナダアルバータ大学の教授による記事を読むことができます。

Deepstack Neural Network Architecture

特に、最初に説明したDeepStackアルゴリズムで使用されるニューラルネットワークのアーキテクチャを上に示します。ベットのサイズに関するデータ、公開されたカード、およびプレーヤーに関する情報はネットワークの入り口に送信され、その後、それらのデータは「カードハンドクラスター」の表現に変換されます。この情報は7層ニューラルネットワークの入力に送られ、その後、その結果はゼロサムのゲーム理論的基準を満たすためにさらに後処理されます。 DeepStackの詳細は、アルバータ大学の記事に記載されています。

ご覧のとおり、今日最も困難なAIゲームの1つに対する可能なソリューションの範囲は広大です。 Sberbank Holdem Challengeの参加者は、ボットを勝利に導くアプローチや組み合わせを自由に使用できます。

5.ハッカソンプラットフォーム

オンライン段階を解決するための作業プラットフォームは、 holdem.sberbank.aiで入手できます。その上に、必要なすべての資料があり、オンラインステージにソリューションを登録および送信できます。

このような複雑なタスクには多くの時間が必要であることを理解しているため、オンライン段階での決定の超人的な結果は期待していません。ただし、オンラインフェーズでは、独自のポーカーボットを作成する方法、プラットフォームとソリューションの形式を理解する方法を学ぶことができます。

そしてもちろん、少しの努力で、競争のオフライン段階に到達することができます-ボットの基本的な例はまだトップ100にあります:)

オンラインフェーズが終了するまであと2週間以内です。急いでください！

6.参照

便利なリンク

Sberbank Holdem Challenge Hackathonホーム

Sberbank Holdem Challengeプラットフォーム

2017年のポーカーボットLibratusの成功

20年間のAIポーカー開発（En）

AIポーカーアプローチの概要

アルバータ大学ポーカーアプリケーション研究グループ

ヘッズアップアンリミテッドポーカーに勝つために使用されるDeepStackアルゴリズム

DeepStackの著者による詳細な記事（En）

テキサスホールデムポーカーゲームルール]

ポーカーのためのAI：ブラフアルゴリズムを教える方法