👼🏼 👶 💪🏾 チェスプログラム自習 🤒 👲🏾 🙋

こんにちは、Habr！

昨年発行された記事では、チェスの駒の数学的に適切な値を決定する問題を解決しました。コンピューターと人がプレイするゲームの回帰分析の助けを借りて、「ユニット」の価値の尺度を得ることができました。

残念なことに、図の修正値を直接置き換えても、著者のプログラムは強化されませんでした-いずれにせよ、統計誤差の枠組み内よりも。評価関数の他のパラメーターに元の「正面」の方法を適用すると、やや馬鹿げた結果が得られました;最適化アルゴリズムには明らかに改善が必要でした。一方、著者は、10年前にコードを作成した長いシリーズの中で、彼のエンジンの次のリリースが最終版になることを決定しました。 GreKo 2015のバージョンがリリースされ、近い将来、さらなる変更は予定されていません。

注目を集める絵

次に何が起こったかに興味がある人-注目を集めるために写真を見た後、猫にようこそ。

突然の作業継続の動機と、最終的にこの記事の登場は、2つの出来事でした。そのうちの1人は、メディアを通じて世界中で雷を鳴らしました。これは、韓国のトッププレーヤーであるLee SedolのGoとGoogle AlphaGoプログラムの試合です。

Google DeepMindの開発者は、モンテカルロ法を使用したツリー内の検索とニューラルネットワークを使用した深層学習という2つの強力な手法を効果的に組み合わせることができました。結果として得られた共生により、Goの2人のプロプレーヤー（Lee SedolemとFan Hui）が合計スコア9-1で勝利するという驚異的な結果がもたらされました。

2番目のイベントはそれほど広く公表されておらず、主にチェスプログラミング愛好家が気づいているのは、 Giraffeプログラムの登場です。著者のマシュー・ライは、特にすべて同じディープニューラルネットワークの機械学習のアイデアを積極的に使用しました。評価機能に多数の定義済み位置属性が含まれる従来のエンジンとは異なり、Giraffeはトレーニング段階でこれらの特性をトレーニング資料から独立して抽出します。実際、目標は、教科書に記載されている形式で「チェスの知識」を自動的に出力することでした。

評価機能に加えて、Giraffeのニューラルネットワークもツリー検索のパラメーター化に使用されました。これは、AlphaGoとの類似点も示唆しています。

このプログラムは一定の成功を示し、数日間で国際マスターの強さをゼロから達成しました。しかし、残念なことに、マシューライがGoogle DeepMindチームで働くようになったことに関連して、興味深い研究プロジェクトが時期尚早に完了しました。

何らかの方法で、AlphaGoとGiraffeに関連して発生した情報の波により、この記事の著者は再びエンジンのコードに戻り、今でも人気のある機械学習の方法を使用してゲームを強化しようとしました。

アルゴリズム

おそらくこれは誰かを失望させるでしょうが、記述されたプロジェクトでは、多層ニューラルネットワークも、位置の主要な特徴の自動検出も、モンテカルロ法もありません。チェスでのツリーのランダム検索は、タスクの制限のために実際には必要ありません。また、チェッサの位置を評価するための適切に機能する要因はカイッサの時代から知られています。さらに、著者は、GreKoで実装されているかなり最小限のセットのフレームワークで、ゲームプログラムをどれだけ強化できるかについても興味がありました。

基本的な方法は、評価関数を設定するためにアルゴリズムを選択しました。これは、強力なテクセルプログラムの作成者であるスウェーデンの研究者および開発者であるPeterÖsterlundによって提案されました。作成者によると、この方法の長所は次のとおりです。

評価関数の最大数百のパラメーターを同時に最適化する機能。
ポジションの専門家による評価という形での「外部知識」のソースは必要ありません。テキストとパーティーの結果のみが必要です。
強い相関のある記号を使用した正しい作業-直交化のような準備は不要です。

θ=（θ1、...、θK）を評価関数のパラメーターのベクトル（材料重量と位置記号）とします。

テストセットの各位置p _i 、i = 1 ... Nについて、特定のスカラー量である静的推定_Eθ （p _i ）を計算します。伝統的に、レーティングは正規化されており、チェス素材の単位（たとえば、ポーンの100分の1）で、どちらの側の優位性を示すことができます。私たちは常に白人の観点から評価を検討します。

ここで、評価の重要な表現から確率論的な表現に変わります。ロジスティック関数を使用して、次の変換を行います。

$R_ {pred}（\ theta、p_i）= \ frac {1} {1 + e ^ {-E _ {\ theta}（p_i）/ K}}$

R _predの値は、このポジションでの白のゲームの結果の数学的な期待の意味を持ちます（0-敗北、0.5-引き分け、1-勝利）。正規化定数Kは、「すべてが明らかになる」ような物質的な利点として定義できます。この調査では、値K = 150が使用されました 。 1.5ポーン。もちろん、統計的な意味でのみ「明らかになります」。実際のチェスゲームでは、はるかに大きな物質的優位性が勝利につながらない場合、膨大な数の反例を見つけることができます。

元のアルゴリズムでは、静的推定関数の代わりに、いわゆるPV検索の結果を使用してR _predを計算_しました 。この名前は、英語版-静止検索での強制バージョンの概念に関連付けられています。これは、特定の位置からのアルファベータ検索であり、キャプチャ、ポーンの回転、場合によってはチェッカーとそれらの回避のみを考慮します。検索ツリーは小さいですが、静的推定と比較すると、計算速度は数十倍から数百倍低下します。したがって、より高速なスキームを使用し、初期データを準備する段階で動的位置を除外することが決定されました。

ここで、予測されたR _predと、それが出会ったバッチの実際のR _ファクト結果を各位置について知って_いれば 、予測の平均二乗誤差を計算できます。

$Err（\ theta）= \ frac {1} {N} \ sum_ {i = 1} ^ {N}（R_ {pred}（\ theta、p_i）-R_ {fact}（p_i））^ 2$

実際、得られたrms推定値は、最小化されるべき目的関数として既に考慮できます。このアプローチは、メソッドの元の説明で説明されています。

もう1つ小さな変更を加えてみましょう-ゲームの終了までに残っている移動数のアカウントを紹介します。明らかに、ゲームの最初の時点でボード上に存在していた位置属性は、ゲームのメインイベントがずっと後に発生した場合、その結果にまったく影響しない可能性があります。たとえば、オープニングのホワイトはボードの中央に誇り高いナイトを持っているかもしれませんが、キャンプで敵のルークの侵略のためにこのナイトが既に取引されている場合、深いエンドゲームで負けるかもしれません。この場合、「ボードの中央にいる馬」という記号は、「2番目の水平線に乗っている」という記号に比べて、あまりにも多くの罰を受けるべきではありません。馬は何のせいでもありません！

したがって、目的関数に、ゲームの終了まで残っている動きの数n _iに関連する修正を追加します。各位置では、パラメータλの指数関数的減衰係数になります。このパラメーターの「物理的な意味」は、1つまたは別の位置属性がゲームに影響を与える動きの数です。繰り返しますが、平均して。以下で説明する実験では、 λは数十半パスの値を取ります。

オリジナルのテクセルのチューニング方法の説明では、バッチの最初の動きはトレーニングセットから破棄されました。「 λ- forgetting」の導入により、オープニングブックからの移動に明示的な制限を導入しないことができます-それらの影響は多少なりとも小さいです。

ターゲット機能の最終形式：

$J（\ theta）= \ frac {1} {N} \ sum_ {i = 1} ^ {N}（R_ {pred}（\ theta、p_i）-R_ {fact}（p_i））^ 2（e ^ {-n_i / \ lambda}）$

評価関数をトレーニングするタスクは、ベクトルθの値の空間でJを最小化するようになりました。

なぜこの方法が機能するのですか？実際、平均化のために、大規模な関係者グループのポジションで発生する兆候のほとんどは、相互に中和されます。結果に実際に影響を与えたものだけが、その価値を保持し、より高い重みを受け取ります。ゲーム中の評価機能がすぐにそれらに気づき始めると、予測がより正確になり、位置推定がより正確になるほど、プログラムはより強力になります。

トレーニングと結果

プログラム自体がプレイした2万ゲームのポジションが、トレーニングデータの配列として使用されました。これらのうち、ピースを受け取った後、または小切手を宣言した後に生じたポジションは除外されました。これは、例のトレーニングセットが列挙ツリーからの実際の位置を可能な限り最適に一致させるために必要であり、静的推定が適用されます。

その結果、約227万のポジションがありました。それらのすべてが一意であるわけではありませんが、使用する方法にとってこれは重要ではありません。ポジションは、80/20の比率でトレーニングセットとテストセットにランダムに分けられ、それぞれ181万と46万のポジションでした。

機能は、座標降下法を使用したトレーニングセットで最小化されました。多次元最適化問題の場合、この方法は通常最良の選択ではないことが知られています。ただし、実装の簡素化と許容可能なランタイムがこのアルゴリズムを支持しました。典型的な最新のPCでは、構成用に選択された27の可能な重みのサブセットに応じて、2万ゲームの最適化に1〜数時間かかります。

以下は、時間に対する機能変化のグラフです。トレーニングを停止するための基準は、すべてのパラメーターの次の下降サイクルの後、テストサブセットの結果が改善されないことです。

ポーンに関連する一連のパラメーターの進化を次のグラフに示します。プロセスは非常に迅速に収束することがわかります-少なくとも局所的な最小値まで。グローバルな最小値を見つけるタスクはまだ設定されていません。現在の目標は、プログラムを少なくともある程度強化することです...

他の標識の同様のチャート

次のグラフは、材料の重量も調整された別のトレーニングセッションに関連するデータを示しています。 GreKoで使用される「コンピューター」値から、徐々に古典的な値に収束することがわかります。

以下に、初期値と最終値を含む評価パラメーターの完全なリストを示します。ほとんどの意味は追加のコメントなしで理解できます;正確な目的に精通したい人は、プログラムのソースコード-ファイルeval.cpp、Evaluate（）関数に招待されます。

数	サイン	説明	トレーニング前	トレーニング後
1。	VAL_P	ポーン値	100	100
2。	VAL_N	馬代	400	400
3。	VAL_B	象の価値	400	400
4。	VAL_R	ルーク値	600	600
5。	VAL_Q	クイーンバリュー	1200	1200
6。	ポーンダブル	ダブルポーン	-10	-10
7。	Pawnisolated	孤立したポーン	-10	-19
8。	ポーンバックスワード	後方ポーン	-10	-5
9。	ポーンセンター	ボードの中央のポーン	10	9
10。	PawnPassedFreeMax	ロック解除されたチェックポイント	120	128
11。	PawnPassedBlockedMax	ブロックされたチェックポイント	100	101
12。	PawnPassedKingDist	エンドゲームで相手の王から離れている	5	9
13。	PawnPassedSquare	「正方形のルール」では到達できないウォークスルー	50	200
14。	ナイトセンター	馬の集中化	10	27
15。	ナイトアウトポスト	馬の保護アイテム	10	7
16。	ナイトモビリティ	馬の移動	20	19
17。	BishopPairMidgame	ミドルゲームの象のペア	20	20
18。	BishopPairEndgame	終盤のゾウのペア	100	95
19。	ビショップセンター	象の集中化	10	9
20。	ビショップモビリティ	象の機動性	60	72
21。	ルーク	7番目の水平のルーク	20	24
22。	ルークペン	オープンバーティカルのルーク	10	17
23。	フックモビリティ	ルークの機動性	40	40
24。	クイーンキングトロピズム	敵の王に女王が近づいた	40	99
25。	KingCenterMid	ミドルゲームでの王の集中化	-40	-41
26。	キングセンターエンド	エンドゲームでの王の集中化	40	33
27。	キングポーンシールド	キングポーンシールド	120	120

この表は、トレーニングセッションの1つの例を示しています。トレーニングセッションでは、位置評価パラメーターのみが最適化され、数値のコストは変更されませんでした。これは重要な要件ではなく、以下で説明するテストでは、27のパラメーターすべてで完全なトレーニングが使用されました。しかし、実用的なゲームで最高の結果が得られたのは、材料のスケールが不変のバージョンです。

結果の重みからどのような結論を引き出すことができますか？それらのいくつかは、プログラムの元のバージョンと比較してほとんど変更されていないことがわかります。エンジンを長年にわたってデバッグしている間、それらは直感的に非常に正確に選択されたと想定できます。しかし、ある時点で、冷たい数学が人間の直感を修正しました。したがって、後方ポーンの害は著者によって過大評価されていました。しかし、次のパラメーターはアルゴリズムにとってより重要であるように思われ、それらの重みはほぼ2倍になりました。

孤立したポーン
オープンバーティカルのルーク
エンドゲームで相手の王から離れている
馬の集中化
敵の王に女王が近づいた

それとは別に、「正方形の支配」では達成できない通路のサインに言及する価値があります。その最適化された値は、アルゴリズムで設定された許容間隔の制限に達しました。明らかに、それ以上の可能性があります。おそらく、そのような通過ポーンで、トレーニングファイルで、当事者が100％の時間に勝ったためです。 200という値は重みとして残されたので、それで十分です-ゲームの増加はゲームの強さに実質的に影響しません。

チェス盤の後ろを確認する

そこで、評価関数をトレーニングして、ボード上の位置に基づいてゲームの結果を予測しました。しかし、今後の主なチェックは、このスキルが実際のゲームでどれだけ役立つかです。この目的のために、さまざまな設定を持つエンジンのいくつかのバージョンが用意され、それぞれが独自のトレーニングモードで取得されました。

バージョン	トレーニングファイル	パーティーの数	定格係数	スケーリング定数λ
A	20000.pgn	20000	6 ... 27	40
B	20000.pgn	20000	1 ... 27	40
C	20000.pgn	20000	6 ... 27	20
D	20000.pgn	20000	1 ... 27	20
E	20000.pgn	20000	6 ... 27	60
F	20000.pgn	20000	1 ... 27	60
G	gm2600.pgn	27202	6 ... 27	20
H1	large.pgn	47202	6 ... 27	20
H2	large.pgn	47202	1 ... 27	20

20000.pgn-ゲーム自体（スーパーブリッツ）

gm2600.pgn-Crafty作者Robert HyattのFTPサイトのグランドマスターのゲーム（クラシックコントロール）

large.pgn-これら2つのファイルをマージします

各バージョンは、オリジナルのGreKo 2015プログラムと、時間制御「1秒+移動ごとに0.1秒」を備えた他のエンジンのセットで100ゲームをプレイしました。結果を下の表に示します。 bayeseloプログラムの助けを借りて、相対的なバージョン評価が計算され、GreKo 2015の強度が2600のレベルで参照点として固定されました。優越性（LOS）の可能性も決定されました。

バージョン	GreKo 2015	フルーツ2.1	デルフィ5.4	クラフティ23.4	キウイ0.6d	格付け	負け
GreKo 2015		33	40.5	39.5	73.5	2600
A	53.5	38	49.5	46.5	76	2637	97％
B	55	43.5	71	36.5	78.5	2667	99％
C	52.5	39.5	81	42.5	75	2672	99％
D	42	23.5	58	33.5	68	2574	7％
E	53.5	37	51.5	46	81.5	2646	99％
F	59	36.5	63	31.5	79.5	2648	98％
G	48	24.5	59	43.5	65.5	2602	54％
H1	45.5	40	51.5	40.5	75.5	2616	81％
H2	55	33.5	65	39	74	2646	99％

ゲームの改善は、1つ（バージョンD）を除くすべてのケースで発生したことがわかります。また、グランドマスター（バージョンG）のパーティーでのトレーニングがほとんど効果がないことも興味深いです。しかし、グランドマスターのゲームに私たち自身のプログラムのゲームと数字の値の変更（バージョンH2）を追加することは、かなり成功した組み合わせであることが判明しました。

結果全体で最も強いのはバージョンCであり、ランキングは約70ポイント増加しました。一定数の関係者にとって、この利点は統計的に有意であり、誤差はプラスまたはマイナス30ポイントです。

1つのバッチが数秒間続く場合、プログラムを超短時間制御でトレーニングおよびテストしました。より長いコントロールを備えた「深刻な」ゲームで改善がどのように機能するかを確認します。

時間管理	パーティーの数	結果	格付け	負け
1分 + 1秒 /移動	200	116.5-83.5	+ 56	99％
3分 + 2秒 /移動	100	57.5-42.5	+ 45	94％
5分 40手	100	53.5-46.5	+ 21	77％

したがって、ゲームの継続時間の増加に伴う効率のわずかな低下にもかかわらず、トレーニングされたバージョンは、設定の元のバージョンのエンジンよりも強力なゲームを確実に示しています。彼女はプログラムの別の最終リリースとしてリリースされました。

GreKo 2015 ML

GreKo 2015 MLは、C ++ソースコードと一緒に無料でダウンロードできます。 WindowsまたはLinux用のコンソールアプリケーションです。人と遊ぶ、分析する、または他のエンジンとスパーリングするには、グラフィカルインターフェイスが必要な場合があります。たとえば、Arena、Winboard、またはその他のインターフェイスです。ただし、コマンドラインから直接プレイして、標準的な英語表記で動きを入力できます。

GreKoの自己学習機能は、コンソールモードの組み込みコマンドとして実装されています（現在、この機能をサポートする他のエンジンを作成者は認識していません）。評価関数の27個の係数のベクトルは、weights.txtファイルに保存されます。 PGNファイルに基づいて自動的に調整するには、以下のように、learnコマンドを入力します。

White(1): learn gm2600.pgn

プログラムは、指定されたファイルからすべてのバッチを読み取り、トレーニング用の位置を持つ中間ファイルを作成し、トレーニングとテストのサブセットに分割します。

 Creating file 'gm2600.fen' Games: 27202 Loading positions... Training set: 1269145 Validation set: 317155

次に、初期パラメーター値をweights.oldファイルに保存し、最適化プロセスを開始します。操作中に、重みとターゲット関数の中間値が画面とlearning.logファイルに表示されます。

 Old values saved in file 'weights.old' Start optimization... 0 0.139618890118 0.140022159883 2016-07-21 17:01:16 Parameter 6 of 27: PawnDoubled = -10 Parameter 7 of 27: PawnIsolated = -19 1 0.139602240177 0.140008376153 2016-07-21 17:01:50 [1.7] -20 2 0.139585446564 0.139992945184 2016-07-21 17:01:58 [1.7] -21 3 0.139571113698 0.139980624436 2016-07-21 17:02:07 [1.7] -22 4 0.139559690029 0.139971803640 2016-07-21 17:02:15 [1.7] -23 5 0.139552067028 0.139965861844 2016-07-21 17:02:23 [1.7] -24 6 0.139547879916 0.139964477620 2016-07-21 17:02:32 [1.7] -25 7 0.139543242843 0.139961056939 2016-07-21 17:02:40 [1.7] -26 8 0.139542575174 0.139962314286 2016-07-21 17:02:48 [1.7] -27 Parameter 8 of 27: PawnBackwards = -5 9 0.139531995624 0.139953185941 2016-07-21 17:03:04 [1.8] -4 10 0.139523642489 0.139947035972 2016-07-21 17:03:12 [1.8] -3 11 0.139518695795 0.139943580937 2016-07-21 17:03:21 [1.8] -2 12 0.139517501456 0.139943802704 2016-07-21 17:03:29 [1.8] -1 Parameter 9 of 27: PawnCenter = 9 Parameter 10 of 27: PawnPassedFreeMax = 128 13 0.139515067927 0.139941456600 2016-07-21 17:04:00 [1.10] 129 14 0.139500815202 0.139927669884 2016-07-21 17:04:08 [1.10] 130 ...

トレーニングが完了すると、weights.txtファイルにはすでに新しい重みの値が含まれます。この値は、次回プログラムを起動したときに有効になります。

learnコマンドには、さらに2つの引数、最適化間隔の下限と上限を含めることができます。デフォルトでは、それらは6と27-つまり数字のコストを除き、すべての記号が最適化されます。完全な最適化を有効にするには、境界を明示的に指定する必要があります。

 White(1): learn gm2600.pgn 1 27

アルゴリズムは（トレーニングサンプルとテストサンプルへの分割に関して）ランダム化されているため、開始が異なると、異なる係数ベクトルを取得できます。

結論

評価関数を設定するために、強化学習を使用しました。プログラムのゲームをそれ自体に対して分析すると、最良の結果が得られました。実際、チェスの知識の唯一の外部ソースは、ゲームのランダム化に必要なシェルのデビュー本でした。

アセスメントの予測能力を向上させることができたため、以前のバージョンと一連の独立した対戦相手の両方で、異なる時間コントロールでゲームのパワーが統計的に有意に増加しました。改善は50〜70ポイントのEloでした。

結果がかなり控えめなボリュームで達成されたことは注目に値します：約2万ゲームと100万ポジション（比較のために、AlphaGoはサーバーからの強力なアマチュアのパーティーから3000万ポジションで調査しました。 GreKo評価関数も非常にシンプルで、27個の独立したパラメーターのみが含まれています。最強のチェスエンジンを使用すると、スコアは数百から数千に達する可能性があります。ただし、このような状況でも、機械学習の方法は成功しています。

プログラムのさらなる改善には、評価関数に新しい基準を追加すること（特に、考慮されるすべてのパラメーターのゲームの段階を考慮に入れる）および多次元最適化のより高度な方法の使用（たとえば、グローバルな極値の検索）が含まれます。しかし、現時点では、この方向での著者の計画はまだ決定されていません。

参照資料

チェスの駒の重さは回帰分析によって決定します -材料を評価するためのモデルに関する入門記事です。
GreKoはGreKoチェスプログラムであり、この記事で取り上げたトレーニングです。
テクセルの調整方法 -評価関数を最適化するための基本的な方法の説明。
ディープニューラルネットワークとツリー検索による囲Gameゲームの習得（オリジナル）-自然界のAlphaGoに関するオリジナル記事。
AlphaGo on the finger-ロシア語のAlphaGoデバイスの基本原理の概要。
Giraffe：Deep Reinforcement Learningを使用してチェスをプレイ（英語）-Giraffeチェスプログラムに関する記事。
bayeselo -PGNファイルに基づいて評価を計算するためのユーティリティ。

チェスプログラム自習

アルゴリズム

トレーニングと結果

チェス盤の後ろを確認する

GreKo 2015 ML

結論

参照資料

More articles: