ニューラルネットワークの強化学習。 理論

「2人以上の教師」の問題について記事を書きました 最初のタッチ 、1つの複雑な未解決の問題を表示しようとします。 しかし、最初のタッチは少し複雑でした。 したがって、読者が少し理論をかむことにしました。 悲しいかな、彼らは今やどうやら教えている/(彼らは勉強している?)ややステレオタイプ-各メソッドが独自のメソッドを持っている方法など。



そこで彼らは、分類問題については、ニューラルネットワーク(教師と一緒に学習)、遺伝的アルゴリズム(教師なしで学習)がクラスタリングタスクであり、ローミングなどのエージェントのタスクとして強化学習(Qラーニング)があることを指摘しましたします。 そして、多くの人々はそのようなパターンで判断します。



ニューラルネットワークを使用することで、解決できない問題、つまり強化された学習にどういう意味があるのか​​を考えてみましょう。



同時に、 MS Burtsevの論文「新しいタイプの自己組織化の調査と行動戦略の出現」を分析します。この論文は、強化を伴う学習タスクでの単純なニューラルネットワークの使用も同様に美しいです。



理論



遺伝的アルゴリズムと強化学習(Qラーニングなど)の方法には、1つの重要な問題があります。フィットネス関数を指定する必要があります。 さらに、式によって明示的に設定されます。 間接的に表示されることもありますが、この関数は明らかに存在しないようです(M. Burtsevの論文の分析で後ほど説明します)。 そして、エージェントの行動のすべての「奇跡」は、この公式のみから来ています。



しかし、式とは何ですか? -機能。 または、入力から出力への同じマッピングは何ですか。 そして、ニューラルネットワーク/パーセプトロンは何をしますか? これはまさに彼が行うことです-彼は入力を出力にマップすることを学びます。



誇張された理論的な例を見てみましょう。 エージェントは、生き残りたい生物です。 これを行うには、彼は食べる必要があります。 彼は2種類の動物です-さて、ウサギとマウスをしましょう。 したがって、これには2つの入力パラメーターがあります-食べられるノウサギとマウスが含まれるキログラム数です:)。 彼(体)は、彼がどれくらいいっぱいかを評価したい。 それから、彼がどれくらい満腹かによって、彼は多かれ少なかれスピードと欲望で走ることができます。 しかし、これは別のタスクであり、満腹感の評価に焦点を当てます。



両方のキログラムを除き、満腹感を評価する方法はわかりません。 したがって、最初の自然な評価は、ポンドを追加する方法を学ぶことです。 つまり 簡単なフィットネス関数c = a + bを導入します。 驚くべきことに、このような厳格な評価関数では、動作を調整できません。



したがって、ニューラルネットワークが使用されます。 彼女は最初にこれら2つの数字を追加するように教えられます。 トレーニング後、ニューラルネットワークは正しくフォールディングできます。 エージェントは、ニューラルネットワークの出力を使用して、それがどれだけいっぱいかを理解します。



しかし、さらに不幸が起こります-彼は、彼が7ポイントでいっぱいであると推定しました= 4キロのノウサギと3匹のネズミを食べます。 そして、彼は自分が満腹だと思って走り回ったので、彼はそれをほとんど無理して死ななかった。 4キロのうさぎと3匹のマウスは7キロのうさぎと同じではないことがわかりました。 Myshatinは同じ満腹感を与えません。実際、4 + 3 = 6として追加する必要があります。彼はこの結論を正確な事実としてニューラルネットワークに投げ込みます。 彼女は再訓練し、フィットネス機能はもはや単純な追加ではなく、完全に異なる外観を取ります。 したがって、ニューラルネットワークを使用すると、他のアルゴリズムでは実行できないフィットネス関数を調整できます。



他のアルゴリズムでは、加算関数を使用する必要はなかったと言えます。 しかし、どれですか? 関連するパラメーターも、目的の規則性を推測する原則もありません。 単純にそのようなタスクを形式化できませんでした。 状態空間を理解できませんでした。



論文Burtseva MSの例を練習



彼のモデル環境は何ですか:



リングの形で閉じられた1次元の細胞培地にあるPエージェントAの集団。 セルには、エージェントがアクションを実行するために必要なリソースがある程度の確率で表示されます。 1つのセルに含めることができるエージェントは1つだけです。 子孫エージェントは、2つの親エージェント間のクロスの結果としてのみ表示されます。 エージェントには9つの入力があります



1,2,3-指定された視野(左、側面、右)にリソースがある場合は1、それ以外の場合は0。

4、5-1が左/右のセルにエージェントがある場合、それ以外の場合は0。

6.7-隣人と交わる動機/左/右;

8-食べ物を探す自発性

9-交差するための独自の動機



食物の交配と探索の動機は、実験者が選択した2つの係数-r0-飽和の内部リソースの値とr1-交配の値の比率によって決まります。



6つのアクションがあります。右側の隣人と交差、左側の隣人と交差、ジャンプ、1つのセルを右に移動、1つのセルを左に移動、リソースを消費、休憩



決定通り:



ANNは元々設定されていました。もちろん、そのネットワークに名前を付けることは困難です-内側の層なしで、それを許可してください。 さまざまな係数、入力がアクション(出力)に関連付けられる方法がありました。 次に、ニューラルネットワーク係数を調整し、動作の悪い身体を拒否する遺伝的アルゴリズムを適用しました。



実際、ここでは遺伝的アルゴリズムはそれほど強力ではありません。 同様に、異なる行動戦略をランダムにソートし、ニューラルネットワークを調整して適切な戦略を修正できます。



実際、Qラーニングと遺伝的アルゴリズムの問​​題は、新しい動作が偶然に検索されることです。 そして、チャンスは、可能な状態の全空間における同様にありそうな探索です。 つまり ターゲットを絞った検索はありません。 そして、可能な状態のスペースが大きい場合、基本的な戦略は決して見つかりません。



したがって、一般的に、異なる戦略をランダムにソートする必要はありませんが、意図的に(ただし、これは最初のタッチを理解した後の次の記事で既に説明する必要があります:))。



おわりに



速く走った、なぜなら 結論だけが重要であり、詳細は重要ではありません。 しかし、これについては自分でもっと読む必要があるかもしれません。



その結果、エージェントのフィットネス関数はニューラルネットワークで表されます。 上記の理論とBurtsevの論文の両方で。



ただし、媒体の適合性関数とは区別します。 ここでは、係数r0およびr1を介して間接的に与えられます。 さらに、環境の適合性のこの機能は実験者に知られています。 したがって、エージェントのフィットネス関数がどのように環境フィットネス関数に近づき始めるかをBurtsevが発見しても、フィクションはありません。



「2人以上の教師」の問題。 私たちの状況への最初の接触はより悪いです。 実験者でさえ、媒体の適合性関数、またはこの関数の形式を知りません。 これは問題であり、間接的に決定されるものではありません。 はい、フィットネスの最終的な機能のみが知られています-最大のお金ですが、その中には知られていないサブ機能が含まれています。 エージェントの適合性関数、このサブ関数に努力する必要があります-それは計算できません。



これでもう少し明確になることを願っています。



All Articles