「2人以上の教師」の問題。 最初のタッチ

以前の2つの記事で、接線方向に問題に触れ、「2人以上の教師」の問題と呼びました。



1. 意識と無意識の機能的分離のモデル。 はじめに

2. 忘却の効果のない意識またはANNの発現のモデル



今、私は彼女にもっと詳しく対処したいと思います。 これは複雑であり、 人工知能の分野からの基本的に未解決の理論的問題です。 明確に定式化することはできず、決定することはできません。 しかし、私は常にさまざまな仕事で彼女に会い、いつもつまずいています。 これらの以前の記事は、意識が何であるかを理解するという点でその重要性を示すことができました。 しかし、それはまだ歌詞です。 そして、ここで私はもっと技術的に話をしたいと思います。



ここでは、2006年以降にこの問題に最初に遭遇した方法を示しますが、RNAフォールディングの生体情報の問題を解決するときに、まったく同じ問題がはっきりと見えるようになります(これに関する一連の記事を書きました。 これらのタスクの外部記述は大きく異なりますが、これは美しさです-タスクに関係なく問題が発生し、知的手法と言えば解決する必要がある重要な側面があるようです。



私が文明のゲームのファンだったときがありました。 最初のバージョンは最もインテリジェントであり、Civilization II:Test of Timeの後のバージョンでは、まったくプレイできません。重要な知的スタッフを台無しにしました。 したがって、以下でこのゲームのコンピュータースケッチをプレイすることを提案するのは驚くことではありません。



Supaplexゲームをプレイするクラウドソーシングとニューラルネットワークを備えたICFPC 2012など、同様のシナリオのトーナメントが編成されていることに注意することが重要です。 これも興味深い作業ですが、「2人以上の教師」の問題は発生しません。 したがって、この記事の目的は、この問題がいつ発生するかを理解することです。



更新しました。 最初のタッチは少し複雑だったようです。 理解を深めるために、ニューラルネットワークの強化を伴うトレーニングの予備記事をお読みください 理論







ゲームのルール



モデル環境は、草原、平野、海、川など、さまざまなタイプの276の正方形(プロット)に分割されたエリアのマップです。 (合計16種)。 図50では、シミュレーション中のコース。 赤い四角は「City Center」、黄色の四角は「settler」、緑の十字は「レジデント」です







各タイプのテリトリーは、このテリトリーを処理することで取得できるリソースの量によって区別されます。 資源には、食料、金属、お金の3種類があります。 この表は、すべてのクラスとその特性を示しています。







ゲームは、地図上のランダムな位置に置かれた一人の入植者から始まります。 地図上の地域を耕すために必要な、将来の都市の場所を選択する入植者のタスク。 開拓者の地図の可視性は25平方(周囲に2平方の半径)です。



入植者は彼の選択を終えて都市を建設し、彼は姿を消します-都市の一人の居住者に変わります。 市は、処理場所を選択する可能性のある9つの正方形の領域(半径1周囲の正方形)をカバーしています。 都心は常に栽培されていると考えられています。 周辺(8平方)は、住民が処理できます(住民あたり1平方)。 選択は、居住者が表示されたときに静的に行われます。 したがって、建設の直後に、処理する場所が選択されます。 次に、一定量の食料が都市の倉庫に蓄積されると、その都市の居住者が表示され(タスクは処理場所を選択することです)、一定量の金属が蓄積されると、新しい入植者が表示されます(タスクは新しい都市の場所を選択することです)



新しい居住者の出現に必要な食料の量は、都市の規模(この都市の住民の数)によって異なります。 1人の住民には20ユニットが必要です。 食物、2-30単位。 など 入植者を作成するために必要な金属の量は40単位です。



タスクは、80の動きで最大のお金を獲得できる戦略を選択することです。



先生



教師のトレーニングの目的は、エージェントが少なくとも何らかの形で環境内で合理的に行動できるようにすることです。 このような合理的な動作は、リソースがマップ全体に均等に分散され、各リソースの重要度がほぼ同じ場合に有益です。 これは、教師が代替案の加重評価の方法に従って8つの動きのそれぞれを評価するようにエージェントに指示するためです。

つまり、各リソースの8つの代替案のうち、都市の全域にわたって合計されたリソースの最大値と最小値があります。 すべてのリソースの値が縮小されます。

(Value_i-min / maxmin)*255。maxminは、このリソースの8つの選択肢の最大値と最小値の差です。 得られた値は推定値です。



そのままの問題



エージェント教師のトレーニングは、時間の経過とともに変化する場合があります。 しかし、どのように? 何に基づいていますか? 実際、次のゲームで80ゲームに勝つことをお勧めします。 大量のお金が得られたとき。 しかし、それを修正する方法は? ここで問題が発生します-80の動きのこのシーケンス全体を、すべての可能な状態でどのように記述するか。 そして、これは不可能であり、アイデアを得るには大きすぎることが判明しました。 はい、実際には非常に冗長です。 勝つためには、いくつかの簡単な戦略が必要であることがわかります。



一例です。 原則として、このタスクは誤算します... 80移動することを知っている場合、都市の新しい居住者と入植者がどのような条件で現れるかを知っている場合、どの種類の領域が存在し、それぞれの領域にいくつのリソースが存在するか、そして最も重要なことは、どのパラメーターによって成功が評価されるかです。 他のすべての不確実性については、タスクの計算は難しく、少なくともこれを計算するアルゴリズムを書くことができます。



領土のタイプが2種類しかない縮退した場合-海(1/0/2)とステップ(1/1/0)-戦略は次のとおりです。都市の目標を設定するのは理にかなっています-開拓者(ステップ+ステップ)を取得するのは、中間までです彼は2人以上の入植者を提供することができますゲーム。 ゲームの25%後は、混合戦略(ステップ+オーシャン)を使用する必要があり、合格したゲームの50%後は、金の量(都市タイプのオーシャン+オーシャン)のみが増加します。 縮退は、ここでは都市が成長しないという事実にあります。なぜなら、 食料の増加はわずか2単位であり、これは住民1人あたりの消費量に相当します(市内中心部は居住者なしで処理されることを思い出してください)。 その結果、484ユニットを取得します。 金...そして、他の戦略はレートを改善できません。



実際、これらの戦術戦略にはそれぞれ異なるフィットネス機能があります。 したがって、教師から基本的な戦術戦略を受け取ったら、特定の戦術戦略を形成できるパラメーターを見つける必要があります。 そして、すでにゲーム中にこれらの戦略を変更します。



一般的に、それは難しいことがわかりました。 単純化するために、見つかった成功した戦略(ヒューリスティック)は、フィットネス関数に他ならないことを理解する必要があります。 つまり それは本質的に別の「教師」です。 しかし、2人以上の教師からのトレーニングの問題は、2つの適切な戦術戦略を1つに調整することです。



問題をどの程度明確に説明できたかはわかりませんが、明確ではないことを書いて、問題を掘り下げようとする人を助けてください。



次のパートでは、フォールディングRNAのタスクで同じ問題を説明しようとしますが、これは「おもちゃの問題」ではなくなります。 しかし、純粋に客観的なものはより困難になりますが、戦術戦略の形式はより単純になります。



私の目標は、これを理解可能な数学的問題にすることです。これは応用問題では説明できませんが、どういうわけかまだ複雑です。 助けを待っています。



All Articles