stringtranslate.com

Теория игр среднего поля

Теория игр среднего поля — это исследование принятия стратегических решений небольшими взаимодействующими агентами в очень больших популяциях. Она лежит на пересечении теории игр со стохастическим анализом и теорией управления. Использование термина «среднее поле» вдохновлено теорией среднего поля в физике, которая рассматривает поведение систем большого числа частиц, где отдельные частицы оказывают незначительное воздействие на систему. Другими словами, каждый агент действует в соответствии со своей задачей минимизации или максимизации, принимая во внимание решения других агентов, и поскольку их популяция велика, мы можем предположить, что число агентов стремится к бесконечности и репрезентативный агент существует. [1]

В традиционной теории игр предметом исследования обычно является игра с двумя игроками и дискретным временным пространством, а результаты с помощью индукции распространяются на более сложные ситуации. Однако для игр в непрерывное время с непрерывными состояниями (дифференциальные игры или стохастические дифференциальные игры) эту стратегию нельзя использовать из-за сложности, которую порождают динамические взаимодействия. С другой стороны, с помощью MFG мы можем обрабатывать большое количество игроков через среднего репрезентативного агента и в то же время описывать сложную динамику состояния.

Этот класс проблем рассматривался в экономической литературе Бояном Йовановичем и Робертом В. Розенталем [2] , в инженерной литературе Миньи Хуангом, Роландом Малхэмом и Питером Э. Кейнсом [3] [4] [5] и независимо и примерно в то же время математики Жан-Мишель Ласри  [ фр ] и Пьер-Луи Лионс . [6] [7]

В непрерывном времени игра среднего поля обычно состоит из уравнения Гамильтона-Якоби-Беллмана , которое описывает задачу оптимального управления индивидуумом, и уравнения Фоккера-Планка , которое описывает динамику совокупного распределения агентов. При достаточно общих предположениях можно доказать, что класс игр среднего поля является пределом равновесия по Нэшу для N игроков . [8]

Концепция, родственная концепции игр среднего поля, - это «управление по типу среднего поля». В этом случае социальный планировщик контролирует распределение состояний и выбирает стратегию управления. Решение задачи управления типа среднего поля обычно может быть выражено как двойственное сопряженное уравнение Гамильтона – Якоби – Беллмана, связанное с уравнением Колмогорова . Теория игр типа среднего поля представляет собой многоагентное обобщение одноагентного управления типа среднего поля. [9]

Общая форма игры среднего поля

Следующая система уравнений [10] может быть использована для моделирования типичной игры среднего поля:

Основная динамика этого набора уравнений может быть объяснена задачей оптимального управления среднего агента. В игре среднего поля средний агент может контролировать свое движение , чтобы влиять на общее местоположение населения путем:

где – параметр, – стандартное броуновское движение. Контролируя свое перемещение, агент стремится минимизировать общие ожидаемые затраты в течение периода времени :

где – эксплуатационные расходы в определенный момент времени и – стоимость терминала в определенный момент времени . Согласно этому определению, во времени и положении функция значения может быть определена как:

Учитывая определение функции ценности , ее можно отслеживать с помощью уравнения Гамильтона-Якоби (1). Оптимальное действие средних игроков можно определить как . Поскольку все агенты относительно малы и не могут в одиночку изменить динамику популяции, они индивидуально адаптируют оптимальный контроль, и популяция будет двигаться таким образом. Это похоже на равновесие Нэша, в котором все агенты действуют в ответ на определенный набор стратегий других. Тогда оптимальное решение управления приводит к уравнению Колмогорова-Фоккера-Планка (2).

Игры с конечными состояниями

Известная категория среднего поля — это игры с конечным числом состояний и конечным числом действий для каждого игрока. Для этих игр аналогом уравнения Гамильтона-Якоби-Беллмана является уравнение Беллмана, а дискретной версией уравнения Фоккера-Планка является уравнение Колмогорова. В частности, для моделей с дискретным временем стратегия игроков представляет собой матрицу вероятностей уравнения Колмогорова. В моделях с непрерывным временем игроки имеют возможность управлять матрицей скорости перехода.

Дискретная игра среднего поля может быть определена кортежем где - пространство состояний, набор действий, матрицы скорости перехода, начальное состояние, функции стоимости и коэффициент дисконтирования. Более того, смешанная стратегия — это измеримая функция , которая каждому состоянию и каждый раз сопоставляет вероятностную меру на множестве возможных действий. Таким образом , это вероятность того, что в определенный момент времени игрок в состоянии предпримет действие в соответствии со стратегией . Кроме того, матрицы ставок определяют эволюцию распределения населения во времени, где распределение населения в момент времени . [11]

Задача линейно-квадратичной гауссовой игры

Относительно простой моделью крупномасштабных игр Кейнса (2009) является линейно-квадратичная модель Гаусса. Динамика отдельного агента моделируется как стохастическое дифференциальное уравнение.

где – состояние -го агента, – управление –го агента, – независимые винеровские процессы для всех . Стоимость индивидуального агента составляет

Связь между агентами происходит в функции затрат.

Общее и прикладное использование

Парадигма игр среднего поля стала основным связующим звеном между распределенным принятием решений и стохастическим моделированием. Начавшись с литературы по стохастическому управлению, он быстро получил распространение в ряде приложений, в том числе:

а. Финансовый рынок Кармона рассматривает приложения в финансовой инженерии и экономике, которые можно использовать и решать в рамках парадигмы MFG. [12] Кармона утверждает, что модели в макроэкономике, теории контрактов, финансах и т. д. значительно выигрывают от перехода к непрерывному времени по сравнению с более традиционными моделями дискретного времени. В своей обзорной главе он рассматривает только модели непрерывного времени, включая системный риск, влияние на цену, оптимальное исполнение, модели изъятия банковских вкладов, высокочастотную торговлю и криптовалюты.

б. Движения толпы MFG предполагает, что люди являются умными игроками, которые пытаются оптимизировать свою стратегию и путь с учетом определенных затрат (подход равновесия с рациональными ожиданиями). Модели MFG полезны для описания феномена ожидания: прямая часть описывает эволюцию толпы, а обратная часть описывает процесс построения ожиданий. Кроме того, по сравнению с вычислениями многоагентных микроскопических моделей, MFG требует лишь меньших вычислительных затрат для макроскопического моделирования. Некоторые исследователи обратились к MFG, чтобы смоделировать взаимодействие между популяциями и изучить процесс принятия решений интеллектуальными агентами, включая поведение отвращения и заторов между двумя группами пешеходов, [13] выбор времени отправления утренних пассажиров, [14] и процессы принятия решений для автономного транспортного средства. [15]

в. Контроль и смягчение последствий эпидемий Поскольку эпидемия существенно повлияла на общество и отдельных людей, MFG и средства контроля среднего поля (MFC) открывают перспективу для изучения и понимания основной динамики населения, особенно в контексте реагирования на пандемию Covid-19. MFG использовался для расширения динамики типа SIR за счет пространственных эффектов или предоставления людям возможности выбирать свое поведение и контролировать свой вклад в распространение болезни. MFC применяется для разработки оптимальной стратегии контроля распространения вируса в пространственной области, [16] контроля решений людей по ограничению их социальных взаимодействий, [17] и поддержки нефармацевтических мер правительства. [18]

Смотрите также

Рекомендации

  1. ^ Василиадис, Афанасиос (2019). «Введение в игры среднего поля с использованием вероятностных методов». arXiv : 1907.01411 [math.OC].
  2. ^ Йованович, Боян; Розенталь, Роберт В. (1988). «Анонимные последовательные игры». Журнал математической экономики . 17 (1): 77–87. дои : 10.1016/0304-4068(88)90029-8.
  3. ^ Хуан, МОЙ; Малхэм, РП; Кейнс, ЧП (2006). «Стохастические динамические игры с большой популяцией: замкнутые системы Маккина – Власова и принцип эквивалентности достоверности Нэша». Коммуникации в информации и системах . 6 (3): 221–252. дои : 10.4310/CIS.2006.v6.n3.a5 . Збл  1136.91349.
  4. ^ Нуриан, М.; Кейнс, ЧП (2013). «Теория игр среднего поля ε – Нэша для нелинейных стохастических динамических систем с главными и второстепенными агентами». SIAM Journal по контролю и оптимизации . 51 (4): 3302–3331. arXiv : 1209.5684 . дои : 10.1137/120889496. S2CID  36197045.
  5. ^ Джеиш, Буалем; Чеукам, Ален; Тембине, Хамиду (2017). «Игры типа среднего поля в технике». АИМС Электроника и электротехника . 1 (1): 18–73. arXiv : 1605.03281 . doi :10.3934/ElectrEng.2017.1.18. S2CID  16055840.
  6. ^ Львы, Пьер-Луи; Ласри, Жан-Мишель (март 2007 г.). «Влияние торговли крупных инвесторов на волатильность». Анналы Института Анри Пуанкаре С. 24 (2): 311–323. Бибкод : 2007AIHPC..24..311L. дои : 10.1016/j.anihpc.2005.12.006 .
  7. ^ Ласри, Жан-Мишель; Львы, Пьер-Луи (28 марта 2007 г.). «Скупые полевые игры». Японский математический журнал . 2 (1): 229–260. дои : 10.1007/s11537-007-0657-8. S2CID  1963678.
  8. ^ Кардалиаге, Пьер (27 сентября 2013 г.). «Заметки об играх среднего поля» (PDF) .
  9. ^ Бенсуссан, Ален; Фрезе, Йенс; Ям, Филипп (2013). Игры среднего поля и теория управления типом среднего поля. Springer Briefs по математике. Нью-Йорк: Springer-Verlag. ISBN 9781461485070.[ нужна страница ]
  10. ^ Ачду, Ив (2020). Средние игры на поле: Четраро, Италия, 2019. Пьер Кардалиаге, Ф. Деларю, Алессио Порретта, Филиппо Сантамброджо. Чам. ISBN 978-3-030-59837-2. ОСЛК  1238206187.{{cite book}}: CS1 maint: location missing publisher (link)
  11. ^ Донсель, Джозу; Гаст, Николас; Гаухаль, Бруно (2019). «Дискретные средние полевые игры: существование равновесия и конвергенции». Журнал динамики и игр : 1–19. arXiv : 1909.01209 . дои : 10.3934/jdg.2019016. S2CID  197507580.
  12. ^ Кармона, Рене (2020). «Применение игр среднего поля в финансовой инженерии и экономической теории». arXiv : 2012.05237 [q-fin.GN].
  13. ^ Лашапель, Эме; Вольфрам, Мария-Тереза ​​(2011). «Подход к моделированию заторов и отторжения в толпе пешеходов». Транспортные исследования. Часть B: Методологические . 45 (10): 1572–1589. дои :10.1016/j.trb.2011.07.011. S2CID  55991774.
  14. ^ Файнштейн, Закари; Соймарк, Андреас (2019). «Динамическая модель заражения по умолчанию: от Айзенберга-Ноэ к среднему полю». arXiv : 1912.08695 [q-fin.MF].
  15. ^ Хуан, Куанг; Чен, Сюй; Ди, Сюань; Ду, Цян (2021). «Игры с динамическим вождением и маршрутизацией для автономных транспортных средств в сетях: подход к средней полевой игре». Транспортные исследования, часть C: Новые технологии . 128 : 103189. arXiv : 2012.08388 . дои : 10.1016/j.trc.2021.103189. S2CID  235436377.
  16. ^ Ли, Вонджун; Лю, Сайтинг; Тембине, Хамиду; Ли, Учен; Ошер, Стэнли (2021). «Контроль за распространением эпидемий посредством контроля среднего поля». SIAM Journal по прикладной математике . 81 (1): 190–207. arXiv : 2006.01249 . дои : 10.1137/20M1342690. S2CID  226299517.
  17. ^ Аурелл, Александр; Кармона, Рене; Даяниклы, Гекче; Лорьер, Матье (2022). «Оптимальные стимулы для смягчения последствий эпидемий: подход Штакельберга к средней игре». SIAM Journal по контролю и оптимизации . 60 (2): С294–С322. arXiv : 2011.03105 . дои : 10.1137/20M1377862. S2CID  226278147.
  18. ^ Эли, Ромуальд; Юбер, Эмма; Туриничи, Габриэль (2020). «Контроль над эпидемией COVID-19: равновесный взгляд». Математическое моделирование природных явлений . 15:35 . arXiv : 2004.08221 . дои : 10.1051/mmnp/2020022 . S2CID  215814201.

Внешние ссылки