囚人のジレンマ:あなたは一人ではない



私は最近、コミュニティに興味を持った囚人のジレンマについての投稿を読みました。

この投稿では、バークレー大学のAIコースでオンラインで勉強した後に得た経験に基づいて、ゲーム理論の側面からこの問題を見ていきたいと思います。 このユニットを使用すると、問題は明らかになり、解決可能になります。



決定木を構築すると、次のスキームが得られます。



私とOHは囚人です

赤い線は別の囚人に対する証言を意味します

沈黙の緑の線

A、B、C、D-4つの可能な結果

A-両方が証拠を与える

B-私は証言する、彼は沈黙している

C-私は黙っています、彼は証言します

D-私たちは両方とも黙っています



次に、ペイオフ関数を定義します。

私にとっては、関数はf1 = -mになります

なぜならf2 = -nに等しいからです



ここで、mおよびnは、受け取った投獄の年数です。それぞれ、鉱山およびそれは、バーの後ろに座りたくないため、関数は否定で取られます

ここで、mとnは独立変数です。これは、合計がゼロでないゲームがあるためです。それ以外の場合、関数は次のようになります。

私にとっては、f1 = -m

彼にとって、f2 = m

ここで、2番目の囚人は、私たちがもっと長く座ることを望み、mを最小化しようとします。



たとえば、可能性のある結果に関するWikiのデータを取り上げます。

A = -2;-2

B = 0;-10

C = -10; 0

Dは-1です。 -1

どこが最初と2番目の数字、私のゲインと彼のそれぞれです

解決する必要がある次のスキームを取得します。





それでは、この問題を解決して、どのような動きをすべきかを判断してみましょう。 まず、ミニマックスアルゴリズムを試します。この場合、両方のプレイヤーが勝ちを最大化しようとしているため、マキシマックスの形式になります。 次の結果が得られます。



ご覧のとおり、2番目のプレーヤーは常に賞金を最大化しようとするため、裏切ります。 私も裏切りを選択する必要があります-同じ理由で。





このmaximaxアルゴリズムは、現実の世界ではうまく機能しません。常に悪い結果に合わせて調整されるためです。 このような状況では、予想される最大アルゴリズム(expectimax)の方がはるかに優れています。 このアルゴリズムは、プレイヤーが自分にとって最も有利な動きを選択できないことを考慮に入れています。

HEがケースの50%を裏切ると仮定すると、次のようになります。

裏切りの利得は0.5 *(-2)+ 0.5 *(0)= -1に等しくなります

沈黙を勝ち取る0.5 *(-10)+ 0.5 *(-1)= -5.5

または図で同じ:





ご覧のとおり、より適切なアルゴリズムを使用しても、奇跡は起こらず、裏切るほうがより有益です。 HISの沈黙の確率が増加したとしても、これらの条件下で裏切ることはさらに有益です。 彼が常に沈黙することを知っているなら、私たちは裏切りを選ぶでしょう。



なぜそう どこで誤算しましたか?

ペイオフ機能という非常に重要な詳細を考慮することを忘れていました。 しかし、HISの運命が私たちにとって無関心ではなく、私たちが彼にとって無関心ではない場合はどうでしょうか。 ペイオフ関数は次のようになります:

f1 = -m -n

f2 = -m -n

ここで、mとnは、それぞれ私と彼が受け取った収監年数です。

次に、次のスキームを取得しますが、条件の1つが満たされないため、これは古典的なタスクではありません。



そして今、すべてが根本的に変化しており、maximaxでは、左側の-4(裏切り)と-2、右側の-2(沈黙)を選択するため、MEのソリューションはサイレントになります

そして、彼の裏切りの50%で予想される最大の場合、次のようになります。

私の裏切りのために、ゲインは-7です

沈黙の勝利-6

したがって、私たちは黙っています。

注意深いhabrayuzerは、HISの裏切りの確率が増加する場合、MEが裏切る方がより有益であることに気付くでしょう。



これらの確率をどのように知っていますか? それらは以前の経験に基づいて見つけることができます。

彼が以前10のうち9ケースで沈黙していたと仮定します。したがって、私たちは彼に裏切りの10%のチャンスを与えます

現実には、これらの確率は多数の要因に依存しており、それらを見つけることは主要な問題の1つです。



また、ペイオフ機能の外観が異なる場合があり、MEにとっては利己的な場合があることも覚えておく必要があります。次に例を示します。

f1 = -m / 2-n

ここではHIMを覚えていますが、とにかく、2年間座るかME 1かを選択できる場合は、2番目のオプションを選びます。

この機能も見つけにくいです。



結論:



このデバイスを使用すると、このような状況を評価、提示、解決できます。入力データを置き換えるだけです。



囚人のジレンマは、不十分なインプットのジレンマだと思います。 もし私たちがどのくらいの確率で彼が私たちが自分勝手で、自分勝手であるかを裏切ることを知っているなら、私たちは正しいものに非常に近い決定を下すことができます。



All Articles