Теория игр среднего поля

Теория игр среднего поля — это исследование принятия стратегических решений небольшими взаимодействующими агентами в очень больших популяциях. Она лежит на пересечении теории игр со стохастическим анализом и теорией управления. Использование термина «среднее поле» вдохновлено теорией среднего поля в физике, которая рассматривает поведение систем большого числа частиц, где отдельные частицы оказывают незначительное воздействие на систему. Другими словами, каждый агент действует в соответствии со своей задачей минимизации или максимизации, принимая во внимание решения других агентов, и поскольку их популяция велика, мы можем предположить, что число агентов стремится к бесконечности и репрезентативный агент существует. ^[1]

В традиционной теории игр предметом исследования обычно является игра с двумя игроками и дискретным временным пространством, а результаты с помощью индукции распространяются на более сложные ситуации. Однако для игр в непрерывное время с непрерывными состояниями (дифференциальные игры или стохастические дифференциальные игры) эту стратегию нельзя использовать из-за сложности, которую порождают динамические взаимодействия. С другой стороны, с помощью MFG мы можем обрабатывать большое количество игроков через среднего репрезентативного агента и в то же время описывать сложную динамику состояния.

Этот класс проблем рассматривался в экономической литературе Бояном Йовановичем и Робертом В. Розенталем ^[2] , в инженерной литературе Миньи Хуангом, Роландом Малхэмом и Питером Э. Кейнсом ^[3]^[4]^[5] и независимо и примерно в то же время математики Жан-Мишель Ласри [ фр ] и Пьер-Луи Лионс . ^[6]^[7]

В непрерывном времени игра среднего поля обычно состоит из уравнения Гамильтона-Якоби-Беллмана , которое описывает задачу оптимального управления индивидуумом, и уравнения Фоккера-Планка , которое описывает динамику совокупного распределения агентов. При достаточно общих предположениях можно доказать, что класс игр среднего поля является пределом равновесия по Нэшу для N игроков . ^[8] $N\to \infty$

Концепция, родственная концепции игр среднего поля, - это «управление по типу среднего поля». В этом случае социальный планировщик контролирует распределение состояний и выбирает стратегию управления. Решение задачи управления типа среднего поля обычно может быть выражено как двойственное сопряженное уравнение Гамильтона – Якоби – Беллмана, связанное с уравнением Колмогорова . Теория игр типа среднего поля представляет собой многоагентное обобщение одноагентного управления типа среднего поля. ^[9]

Общая форма игры среднего поля

Следующая система уравнений ^[10] может быть использована для моделирования типичной игры среднего поля:

${\begin{cases}-\partial _{t}u-\nu \Delta u+H(x,m,Du)=0&(1)\\\partial _{t}m-\nu \ Дельта m-\operatorname {div} (D_{p}H(x,m,Du)m)=0&(2)\\m(0)=m_{0}&(3)\\u(x,T )=G(x,m(T))&(4)\end{cases}}$

Основная динамика этого набора уравнений может быть объяснена задачей оптимального управления среднего агента. В игре среднего поля средний агент может контролировать свое движение , чтобы влиять на общее местоположение населения путем: $\альфа$

$dX_{t}=\alpha _{t}dt+{\sqrt {2\nu }}дБ_{t}$

где – параметр, – стандартное броуновское движение. Контролируя свое перемещение, агент стремится минимизировать общие ожидаемые затраты в течение периода времени : $\nu$ $B_{t}$ $C$ $[0,T]$

$C=\mathbb {E} \left[\int _{0}^{T}L(X_{s},\alpha _{s},m(s))ds+G(X_{T},m(T))\right]$

где – эксплуатационные расходы в определенный момент времени и – стоимость терминала в определенный момент времени . Согласно этому определению, во времени и положении функция значения может быть определена как: $L(X_{s},\alpha _{s},m(s))$ $s$ $G(X_{T},m(T))$ $T$ $t$ $x$ $u(t,x)$

$u(t,x)=\inf _{\alpha }\mathbb {E} \left[\int _{t}^{T}L(X_{s},\alpha _{s},m(s))ds+G(X_{T},m(T))\right]$

Учитывая определение функции ценности , ее можно отслеживать с помощью уравнения Гамильтона-Якоби (1). Оптимальное действие средних игроков можно определить как . Поскольку все агенты относительно малы и не могут в одиночку изменить динамику популяции, они индивидуально адаптируют оптимальный контроль, и популяция будет двигаться таким образом. Это похоже на равновесие Нэша, в котором все агенты действуют в ответ на определенный набор стратегий других. Тогда оптимальное решение управления приводит к уравнению Колмогорова-Фоккера-Планка (2). $u(t,x)$ $\alpha ^{*}(x,t)$ $\alpha ^{*}(x,t)=D_{p}H(x,m,Du)$

Игры с конечными состояниями

Известная категория среднего поля — это игры с конечным числом состояний и конечным числом действий для каждого игрока. Для этих игр аналогом уравнения Гамильтона-Якоби-Беллмана является уравнение Беллмана, а дискретной версией уравнения Фоккера-Планка является уравнение Колмогорова. В частности, для моделей с дискретным временем стратегия игроков представляет собой матрицу вероятностей уравнения Колмогорова. В моделях с непрерывным временем игроки имеют возможность управлять матрицей скорости перехода.

Дискретная игра среднего поля может быть определена кортежем где - пространство состояний, набор действий, матрицы скорости перехода, начальное состояние, функции стоимости и коэффициент дисконтирования. Более того, смешанная стратегия — это измеримая функция , которая каждому состоянию и каждый раз сопоставляет вероятностную меру на множестве возможных действий. Таким образом , это вероятность того, что в определенный момент времени игрок в состоянии предпримет действие в соответствии со стратегией . Кроме того, матрицы ставок определяют эволюцию распределения населения во времени, где распределение населения в момент времени . ^[11] ${\mathcal {G}}=({\mathcal {E}},{\mathcal {A}},\{Q_{a}\},{\bf {m}}_{0},\{c_{a}\},\beta )$ ${\mathcal {E}}$ ${\mathcal {A}}$ $Q_{a}$ ${\bf {m}}_{0}$ $\{c_{a}\}$ $\beta$ $\in \mathbb {R}$ $\pi :\mathbb {E} \times \mathbb {R} ^{+}{\xrightarrow[{}]{}}{\mathcal {P(A)}}$ $i\in {\mathcal {E}}$ $t\geq 0$ $\pi _{i}(t)\in {\mathcal {P(A)}}$ $\pi _{i,a}(t)$ $t$ $i$ $a$ $\pi$ $\{Q_{a}({\bf {m}}^{\pi }(t))\}_{a\in {\mathcal {A}}}$ ${\bf {m}}^{\pi }(t)\in {\mathcal {P({\mathcal {E}})}}$ $t$

Задача линейно-квадратичной гауссовой игры

Относительно простой моделью крупномасштабных игр Кейнса (2009) является линейно-квадратичная модель Гаусса. Динамика отдельного агента моделируется как стохастическое дифференциальное уравнение.

$dX_{i}=(a_{i}X_{i}+b_{i}u_{i})\,dt+\sigma _{i}\,dW_{i},\quad i=1,\dots ,N,$

где – состояние -го агента, – управление –го агента, – независимые винеровские процессы для всех . Стоимость индивидуального агента составляет $X_{i}$ $i$ $u_{i}$ $i$ $W_{i}$ $i=1,\dots ,N$

$J_{i}(u_{i},\nu )=\mathbb {E} \left\{\int _{0}^{\infty }e^{-\rho t}\left[(X_{i}-\nu )^{2}+ru_{i}^{2}\right]\,dt\right\},\quad \nu =\Phi \left({\frac {1}{N}}\sum _{k\neq i}^{N}X_{k}+\eta \right).$

Связь между агентами происходит в функции затрат.

Общее и прикладное использование

Парадигма игр среднего поля стала основным связующим звеном между распределенным принятием решений и стохастическим моделированием. Начавшись с литературы по стохастическому управлению, он быстро получил распространение в ряде приложений, в том числе:

а. Финансовый рынок Кармона рассматривает приложения в финансовой инженерии и экономике, которые можно использовать и решать в рамках парадигмы MFG. ^[12] Кармона утверждает, что модели в макроэкономике, теории контрактов, финансах и т. д. значительно выигрывают от перехода к непрерывному времени по сравнению с более традиционными моделями дискретного времени. В своей обзорной главе он рассматривает только модели непрерывного времени, включая системный риск, влияние на цену, оптимальное исполнение, модели изъятия банковских вкладов, высокочастотную торговлю и криптовалюты.

б. Движения толпы MFG предполагает, что люди являются умными игроками, которые пытаются оптимизировать свою стратегию и путь с учетом определенных затрат (подход равновесия с рациональными ожиданиями). Модели MFG полезны для описания феномена ожидания: прямая часть описывает эволюцию толпы, а обратная часть описывает процесс построения ожиданий. Кроме того, по сравнению с вычислениями многоагентных микроскопических моделей, MFG требует лишь меньших вычислительных затрат для макроскопического моделирования. Некоторые исследователи обратились к MFG, чтобы смоделировать взаимодействие между популяциями и изучить процесс принятия решений интеллектуальными агентами, включая поведение отвращения и заторов между двумя группами пешеходов, ^[13] выбор времени отправления утренних пассажиров, ^[14] и процессы принятия решений для автономного транспортного средства. ^[15]

в. Контроль и смягчение последствий эпидемий Поскольку эпидемия существенно повлияла на общество и отдельных людей, MFG и средства контроля среднего поля (MFC) открывают перспективу для изучения и понимания основной динамики населения, особенно в контексте реагирования на пандемию Covid-19. MFG использовался для расширения динамики типа SIR за счет пространственных эффектов или предоставления людям возможности выбирать свое поведение и контролировать свой вклад в распространение болезни. MFC применяется для разработки оптимальной стратегии контроля распространения вируса в пространственной области, ^[16] контроля решений людей по ограничению их социальных взаимодействий, ^[17] и поддержки нефармацевтических мер правительства. ^[18]

Смотрите также

Внешние ссылки

Стохастическое управление средним полем (слайды), Лекция Питера Э. Кейнса на премию Боде Общества систем управления IEEE, 2009 г.
Кейнс, Питер Э. (2013). «Скупые полевые игры». Энциклопедия систем и управления . стр. 1–6. дои : 10.1007/978-1-4471-5102-9_30-1. ISBN 978-1-4471-5102-9. S2CID 33954904.
Заметки об играх среднего поля из лекций Пьера-Луи Лионса в Коллеж де Франс.
(на французском языке) Видеолекции Пьера-Луи Лионса
Средние полевые игры и приложения Оливье Геанта, Жана-Мишеля Ласри и Пьера-Луи Лионса