平均場ゲーム理論
[Wikipedia|▼Menu]

平均場ゲーム理論(へいきんばゲームりろん、Mean-field game theory)は、非常に大規模な集団における小さな相互作用エージェントによる戦略的意思決定の研究である。
解説

ゲーム理論と確率分析および制御理論の交差点にある。「平均場」という用語の使用は、個々の粒子がシステムに与える影響がごくわずかである多数の粒子のシステムの挙動を考慮する物理学の平均場理論に触発されている。言い換えると、各エージェントは、他のエージェントの決定を考慮して、最小化または最大化の問題に従って行動し、その母集団が多いため、エージェントの数は無限大へ向かうと仮定でき、代表的なエージェントが存在するとも仮定できる。[1]

伝統的なゲーム理論では、研究対象は通常、2人のプレイヤーと離散的な時間空間を持つゲームであり、帰納法によって結果をより複雑な状況に拡張する。ただし、連続状態を持つ連続時間のゲーム(差分ゲームまたは確率的差分ゲーム)の場合、動的相互作用が生成する複雑さのために、この戦略は使用できない。一方、MFGでは、平均代表エージェントを介して多数のプレーヤーを処理できると同時に、複雑な状態のダイナミクスを記述できる。

このクラスの問題は、ボヤン・ヨバノビッチとロバート・W・ローゼンタールによる経済学文献[2]、ミンイ・ファン、ローランド・マルハメ、ピーター・E・ケインズによる工学文献[3][4][5] 、そして数学者ジャン・ミッシェル・ラスリーと ピエール=ルイ・リオンによって独立してほぼ同時に検討された[6][7]


連続時間では、平均場ゲームは通常、個人の最適制御を記述するハミルトン?ヤコビ?ベルマン方程式と、エージェントの集合分布のダイナミクスを記述するフォッカー?プランク方程式で構成される。かなり一般的な仮定の下では、平均場ゲームのクラスが次のようにNプレイヤーのナッシュ均衡の N → ∞ {\displaystyle N\to \infty } の極限であることを証明できる[8]


平均場ゲームに関連する概念は、「平均場型制御」である。この場合、ソーシャルプランナーは状態の分布を制御し、制御戦略を選択する。平均場型制御問題の解は、通常、コルモゴロフ方程式と結合した二重随伴ハミルトン-ヤコビ-ベルマン方程式として表すことができる。平均場型ゲーム理論は、単一エージェント平均場型制御のマルチエージェント一般化である[9]
平均場ゲームの一般形式

次の連立方程式を使用して[10] 、典型的な平均場ゲームをモデル化できる。

{ ∂ t u − ν Δ u + H ( x , m , D u ) = 0 ( 1 ) ∂ t m − ν Δ m − d i v ( D p H ( x , m , D u ) m ) = 0 ( 2 ) m ( 0 ) = m 0 ( 3 ) u ( x , T ) = G ( x , m ( T ) ) ( 4 ) {\displaystyle {\begin{cases}\partial _{t}u-\nu \Delta u+H(x,m,Du)=0&(1)\\\partial _{t}m-\nu \Delta m-div(D_{p}H(x,m,Du)m)=0&(2)\\m(0)=m_{0}&(3)\\u(x,T)=G(x,m(T))&(4)\end{cases}}}

この一連の方程式の基本的なダイナミクスは、平均的なエージェントの最適制御問題によって説明できる。平均場ゲームでは、平均的なエージェントは、次の方法で移動αを制御して、母集団の全体的な位置に影響を与えることができる。


d X t = α t d t + 2 ν B t {\displaystyle dX_{t}=\alpha _{t}d_{t}+{\sqrt {2\nu }}B_{t}}

ν {\displaystyle \nu } はパラメータであり、 B t {\displaystyle B_{t}} は標準ブラウン運動。 エージェントの動きを制御することにより、エージェントは、期間 [ 0 , T ] {\displaystyle [0,T]} を通じて全体的な予想コスト C {\displaystyle C} を最小限に抑えることを目指している。

C = E [ ∫ 0 T L ( X s , α s , m ( s ) ) d s + G ( X T , m ( T ) ) ] {\displaystyle C=\mathbb {E} [\int _{0}^{T}L(X_{s},\alpha _{s},m(s))ds+G(X_{T},m(T))]}

L ( X s , α s , m ( s ) ) {\displaystyle L(X_{s},\alpha _{s},m(s))} は時間 s {\displaystyle s} におけるランニングコストで G ( X T , m ( T ) ) {\displaystyle G(X_{T},m(T))} は時間 T {\displaystyle T} におけるターミナルコスト。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:48 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef