🐏 👨🏾‍🏭 👨🏾‍🏭 未知のルールでゲームに勝つには？ ➰ 🏤 💪🏻

こんにちは、Habr！要するに、DCAがスポンサーとなっている珍しいブラックボックスチャレンジの機械学習コンテストに参加するように皆を招待します。

条件は単純です。未知のルールでゲームをプレイできるボットを作成する必要があります。受賞者には、Xbox Oneから30万ルーブルまでの貴重な賞品と、機械学習のスペシャリストとしてクールな企業に参入する機会が与えられます。

以下に、競争について質問と回答の形式で説明します。

どんな競争？

そのため、未知のルールでゲームをプレイするようボットに教える必要があります。ゲームの各ステップで、ボットはゲーム環境の状態ベクトルを見つけ、この状態で何をしたいかを考え、4つの可能なアクションの1つを実行できます。

コミットされたアクションの場合、ボットは報酬を受け取ります。場合によってはすぐに、場合によってはアクションのしばらく後に報酬を受け取ります。つまり、アクションが良いかどうかをすぐに理解できるとは限りません。

さらに、ゲームは決定論的ではなく、報酬にランダム性の要素があります。ただし、レベルファイルではランダム性が既に凍結されています。これは、レベルでの結果が起動に依存しないようにするために必要です。このように想像できます。コインを100回投げ、すべての結果を保存しました。その後、これらの結果を使用して報酬を計算します。

コンテストのウェブサイトで、ゲームの条件とインターフェースについて詳しく読むことができます。ここでは、問題を調査するためのテスト例、仕様、および有用なリンクを見つけることができます（ただし、残り時間はほとんどありません）。

Kaggleとの違いは何ですか？

Kaggleは、機械学習コンテストの最も有名な国際プラットフォームです。 Kaggleのすべてのコンテストは、およそ次のように編成されています。

メンバーがデータをダウンロードする
これらのデータを使用してモデル（分類子など）を学習します
そのモデルを使用して、未知のデータの予測を行い、回答を含む静的ファイルを作成します
ファイルにKaggleサーバーへの回答を入力し、予測の品質がチェックされます。応答ファイルがより正確なものが勝者です。

私たちの競争は異なって組織されています：

メンバーがゲームシミュレーターとトレーニングレベルをダウンロードする
トレーニングレベルでプレイするようにボットを指導します。
サーバー上のボットのソースを満たし、未知のレベルで彼が獲得したポイント数を確認します。ボットが最も多くのポイントを獲得した人が勝ちます。

つまり、Kaggleでの問題の解決は静的な応答ファイルです。競合他社のソリューションは、未知のゲーム環境と対話する訓練されたエージェントです。

それでは、ロシアのAIカップとの違いは何ですか？

要するに、ルールが未知であるという事実。毎年、当社のパートナーであるMail.ruは、オープンな人工プログラミング競技会-ロシアAIカップを開催しています。たとえば、昨年、コードカーの1つまたはグループを管理するプログラムを作成する必要がありました。

昨年のロシアAIカップの勝者をよく見ると、彼らの決定はすべて、ゲームの構造についての先験的な知識を使用しており、機械学習をまったく使用していなかったことがわかります。

システムが人間の専門知識を使用せず、環境を理解すること、特にゲームをプレイすること自体を学習することは、より興味深いと考えました。

これを容易にするために、未知のルールを持つゲームを作成しました。

誰かがすでに車を教えてゲームをする方法を知っていますか？

はい、機械学習のこの分野は強化学習と呼ばれています。少し前まで、Googleの会社であるDeep Mind （ AlphaGoを作成した会社）が優れた記事「 Playing Atari with Deep Reinforcement Learning 」をリリースしました。一部の参加者は自分のアイデアをゲームに使用しようとしていますが、Telegramのチャットから判断すると、これまでのところあまり成功していません:)

参加者は今どうですか？

このサイトでは、ゲームのプレイ方法を少し知っている簡単なボットの例を投稿しました。それを思いついたので、これまでのところ私たちの秘密です-私たちはあなたの想像力を私たちのアイデアに制限したくありません。

このボットの結果（検証サンプルでは2090ポイント）、参加者の基本レベルを考慮します。現時点では、登録された850人を超える参加者のうち、42人がこのレベルを克服できました。

基本レベルを克服した参加者の多くは、単純なボットのオッズをわずかに改善するだけでこれを達成しました。新しいアプローチでそれらを上回ることができることを願っています。 :)

参加するには何が必要ですか？

numpyモジュールがインストールされたPythonをインストールし、その上でプログラムを実行できれば十分です。

何らかの理由でpythonがない場合は、 Anacondaの最新バージョンをインストールすることをお勧めします。 Anacondaは、多くの便利な機械学習およびデータ分析ライブラリを備えたPythonです。

どの言語を書くことができますか？

Pythonのみをサポートしています。最近まで、Python 2.7のみを使用できましたが、将来に抵抗することは意味がないと判断し、Python 3.5をサポートしました。

何かうまくいかない場合は、すぐにご連絡ください。私たちは皆を助けようとしています。

賞品は何ですか？

賞金プールは600,000ルーブル以上です。

これらの資金は次のように分配されます。

1位： 300,000ルーブル

2位： 170,000ルーブル

3位： 125,000ルーブル

さらに、上位5人の貢献者にはMicrosoft Xbox Oneが贈られます。

また、空席についてはどうでしたか？

競合パートナー-Data-Centric Alliance、Mail.ru、Skyengは、機械学習とデータ分析の高度な専門家を常に探しています。

私たちのコンペで成功し、自明でないアプローチを提案した参加者はインタビューに招待されます。そしてこれは、機械学習の分野でさらに興味深い仕事をすることで、キャリアが前進することを意味します。

締め切りは何ですか？

2016年5月30日23:59モスクワ時間：ソリューションをダウンロードする期限。

2016年6月10日：勝者を決定します。

ニュースをフォローする方法は？

コンテストに関するニュースを投稿したり、質問に答えたり、参加者がアイデアを共有したりするフォーラムがあります。また、ディスカッション用のTelegramには、英語とロシア語の 2つのチャネルがあります。

コメントで質問してください、私たちは喜んで答えます！

未知のルールでゲームに勝つには？