Теория игр среднего поля — это исследование принятия стратегических решений небольшими взаимодействующими агентами в очень больших популяциях. Она лежит на пересечении теории игр со стохастическим анализом и теорией управления. Использование термина «среднее поле» вдохновлено теорией среднего поля в физике, которая рассматривает поведение систем большого числа частиц, где отдельные частицы оказывают незначительное воздействие на систему. Другими словами, каждый агент действует в соответствии со своей задачей минимизации или максимизации, принимая во внимание решения других агентов, и поскольку их популяция велика, мы можем предположить, что число агентов стремится к бесконечности и репрезентативный агент существует. [1]
В традиционной теории игр предметом исследования обычно является игра с двумя игроками и дискретным временным пространством, а результаты с помощью индукции распространяются на более сложные ситуации. Однако для игр в непрерывное время с непрерывными состояниями (дифференциальные игры или стохастические дифференциальные игры) эту стратегию нельзя использовать из-за сложности, которую порождают динамические взаимодействия. С другой стороны, с помощью MFG мы можем обрабатывать большое количество игроков через среднего репрезентативного агента и в то же время описывать сложную динамику состояния.
Этот класс проблем рассматривался в экономической литературе Бояном Йовановичем и Робертом В. Розенталем [2] , в инженерной литературе Миньи Хуангом, Роландом Малхэмом и Питером Э. Кейнсом [3] [4] [5] и независимо и примерно в то же время математики Жан-Мишель Ласри и Пьер-Луи Лионс . [6] [7]
В непрерывном времени игра среднего поля обычно состоит из уравнения Гамильтона-Якоби-Беллмана , которое описывает задачу оптимального управления индивидуумом, и уравнения Фоккера-Планка , которое описывает динамику совокупного распределения агентов. При достаточно общих предположениях можно доказать, что класс игр среднего поля является пределом равновесия по Нэшу для N игроков . [8]
Концепция, родственная концепции игр среднего поля, - это «управление по типу среднего поля». В этом случае социальный планировщик контролирует распределение состояний и выбирает стратегию управления. Решение задачи управления типа среднего поля обычно может быть выражено как двойственное сопряженное уравнение Гамильтона – Якоби – Беллмана, связанное с уравнением Колмогорова . Теория игр типа среднего поля представляет собой многоагентное обобщение одноагентного управления типа среднего поля. [9]
Следующая система уравнений [10] может быть использована для моделирования типичной игры среднего поля:
Основная динамика этого набора уравнений может быть объяснена задачей оптимального управления среднего агента. В игре среднего поля средний агент может контролировать свое движение , чтобы влиять на общее местоположение населения путем:
где – параметр, – стандартное броуновское движение. Контролируя свое перемещение, агент стремится минимизировать общие ожидаемые затраты в течение периода времени :
где – эксплуатационные расходы в определенный момент времени и – стоимость терминала в определенный момент времени . Согласно этому определению, во времени и положении функция значения может быть определена как:
Учитывая определение функции ценности , ее можно отслеживать с помощью уравнения Гамильтона-Якоби (1). Оптимальное действие средних игроков можно определить как . Поскольку все агенты относительно малы и не могут в одиночку изменить динамику популяции, они индивидуально адаптируют оптимальный контроль, и популяция будет двигаться таким образом. Это похоже на равновесие Нэша, в котором все агенты действуют в ответ на определенный набор стратегий других. Тогда оптимальное решение управления приводит к уравнению Колмогорова-Фоккера-Планка (2).
Известная категория среднего поля — это игры с конечным числом состояний и конечным числом действий для каждого игрока. Для этих игр аналогом уравнения Гамильтона-Якоби-Беллмана является уравнение Беллмана, а дискретной версией уравнения Фоккера-Планка является уравнение Колмогорова. В частности, для моделей с дискретным временем стратегия игроков представляет собой матрицу вероятностей уравнения Колмогорова. В моделях с непрерывным временем игроки имеют возможность управлять матрицей скорости перехода.
Дискретная игра среднего поля может быть определена кортежем где - пространство состояний, набор действий, матрицы скорости перехода, начальное состояние, функции стоимости и коэффициент дисконтирования. Более того, смешанная стратегия — это измеримая функция , которая каждому состоянию и каждый раз сопоставляет вероятностную меру на множестве возможных действий. Таким образом , это вероятность того, что в определенный момент времени игрок в состоянии предпримет действие в соответствии со стратегией . Кроме того, матрицы ставок определяют эволюцию распределения населения во времени, где распределение населения в момент времени . [11]
Относительно простой моделью крупномасштабных игр Кейнса (2009) является линейно-квадратичная модель Гаусса. Динамика отдельного агента моделируется как стохастическое дифференциальное уравнение.
где – состояние -го агента, – управление –го агента, – независимые винеровские процессы для всех . Стоимость индивидуального агента составляет
Связь между агентами происходит в функции затрат.
Парадигма игр среднего поля стала основным связующим звеном между распределенным принятием решений и стохастическим моделированием. Начавшись с литературы по стохастическому управлению, он быстро получил распространение в ряде приложений, в том числе:
а. Финансовый рынок Кармона рассматривает приложения в финансовой инженерии и экономике, которые можно использовать и решать в рамках парадигмы MFG. [12] Кармона утверждает, что модели в макроэкономике, теории контрактов, финансах и т. д. значительно выигрывают от перехода к непрерывному времени по сравнению с более традиционными моделями дискретного времени. В своей обзорной главе он рассматривает только модели непрерывного времени, включая системный риск, влияние на цену, оптимальное исполнение, модели изъятия банковских вкладов, высокочастотную торговлю и криптовалюты.
б. Движения толпы MFG предполагает, что люди являются умными игроками, которые пытаются оптимизировать свою стратегию и путь с учетом определенных затрат (подход равновесия с рациональными ожиданиями). Модели MFG полезны для описания феномена ожидания: прямая часть описывает эволюцию толпы, а обратная часть описывает процесс построения ожиданий. Кроме того, по сравнению с вычислениями многоагентных микроскопических моделей, MFG требует лишь меньших вычислительных затрат для макроскопического моделирования. Некоторые исследователи обратились к MFG, чтобы смоделировать взаимодействие между популяциями и изучить процесс принятия решений интеллектуальными агентами, включая поведение отвращения и заторов между двумя группами пешеходов, [13] выбор времени отправления утренних пассажиров, [14] и процессы принятия решений для автономного транспортного средства. [15]
в. Контроль и смягчение последствий эпидемий Поскольку эпидемия существенно повлияла на общество и отдельных людей, MFG и средства контроля среднего поля (MFC) открывают перспективу для изучения и понимания основной динамики населения, особенно в контексте реагирования на пандемию Covid-19. MFG использовался для расширения динамики типа SIR за счет пространственных эффектов или предоставления людям возможности выбирать свое поведение и контролировать свой вклад в распространение болезни. MFC применяется для разработки оптимальной стратегии контроля распространения вируса в пространственной области, [16] контроля решений людей по ограничению их социальных взаимодействий, [17] и поддержки нефармацевтических мер правительства. [18]
{{cite book}}
: CS1 maint: location missing publisher (link)