stringtranslate.com

Лучший ответ

В теории игр наилучшим ответом является стратегия (или стратегии), которая обеспечивает наиболее благоприятный результат для игрока, принимая стратегии других игроков как данность. [1] Концепция наилучшего ответа является центральной в наиболее известном вкладе Джона Нэша — равновесии Нэша , точке, в которой каждый игрок в игре выбрал наилучший ответ (или один из наилучших ответов) на стратегии других игроков. [2]

Переписка

Рисунок 1. Соответствие реакций игрока Y в игре «Охота на оленя».

Соответствия реакции , также известные как соответствия наилучшего ответа, используются в доказательстве существования равновесий Нэша смешанной стратегии . [3] [4] Соответствия реакции не являются «функциями реакции», поскольку функции должны иметь только одно значение на аргумент, и многие соответствия реакции будут неопределенными, т. е. вертикальной линией, для некоторого выбора стратегии противника. Строится соответствие b (·) для каждого игрока из набора профилей стратегий противника в набор стратегий игрока. Таким образом, для любого заданного набора стратегий противника σ −i , b i ( σ −i ) представляет наилучшие ответы игрока i на σ −i .

Рисунок 2. Соответствие реакций игрока X в игре «Охота на оленя».

Ответные корреспонденции для всех Игры в нормальной форме 2 × 2 можно нарисовать линией для каждого игрока в единичном квадратном стратегическом пространстве . Рисунки 1–3 показывают графики наилучших соответствий ответов для игры в охоту на оленя . Пунктирная линия на рисунке 1 показывает оптимальную вероятность того, что игрок Y играет в «Оленя» (на оси y ), как функцию вероятности того, что игрок X играет в «Оленя» (показано на оси x ). На рисунке 2 пунктирная линия показывает оптимальную вероятность того, что игрок X играет в «Оленя» (показано на оси x ), как функцию вероятности того, что игрок Y играет в «Оленя» (показано на оси y ). Обратите внимание, что на рисунке 2 независимые и ответные переменные изображены на осях, противоположных тем, которые обычно используются, так что его можно наложить на предыдущий график, чтобы показать равновесия Нэша в точках, где наилучшие ответы двух игроков совпадают на рисунке 3.

Существуют три отличительные формы соответствия реакции, по одной для каждого из трех типов симметричных Игры 2 × 2 : игры на координацию, игры на дискоординацию и игры с доминируемыми стратегиями (тривиальный четвертый случай, в котором выигрыши всегда равны для обоих ходов, на самом деле не является проблемой теории игр). Любой выигрыш симметриченИгра 2 × 2 может иметь одну из этих трех форм.

Игры на координацию

Игры, в которых игроки набирают наибольшее количество очков, когда оба игрока выбирают одну и ту же стратегию, например, охота на оленя и битва полов , называются координационными играми . Эти игры имеют соответствия реакций такой же формы, как на рисунке 3, где одно равновесие Нэша находится в нижнем левом углу, другое — в верхнем правом, а смешанное равновесие Нэша — где-то по диагонали между двумя другими.

Антикоординационные игры

Рисунок 3. Соответствие реакций для обоих игроков в игре «Охота на оленя». Равновесия Нэша показаны точками, где соответствия двух игроков совпадают, т.е. пересекаются

Такие игры, как игра в курицу и игра в ястреба-голубя , в которых игроки набирают больше очков, когда выбирают противоположные стратегии, т. е. не координируют, называются антикоординационными играми. Они имеют соответствия реакций (рисунок 4), которые пересекаются в противоположном направлении к координационным играм, с тремя равновесиями Нэша, по одному в верхнем левом и нижнем правом углах, где один игрок выбирает одну стратегию, другой игрок выбирает противоположную стратегию. Третье равновесие Нэша — это смешанная стратегия , которая лежит по диагонали от нижнего левого до верхнего правого угла. Если игроки не знают, кто из них какой, то смешанная стратегия Нэша является эволюционно стабильной стратегией (ESS) , поскольку игра ограничена диагональной линией от нижнего левого до верхнего правого угла. В противном случае говорят, что существует некоррелированная асимметрия , и угловые равновесия Нэша являются ESS .

Рисунок 4. Соответствие реакций для обоих игроков в игре «ястреб-голубь». Равновесия Нэша показаны точками, где соответствия двух игроков совпадают, т.е. пересекаются

Игры с доминируемыми стратегиями

Рисунок 5. Соответствие реакций для игры с доминируемой стратегией.

Игры с доминируемыми стратегиями имеют соответствия реакций, которые пересекаются только в одной точке, которая будет либо в нижнем левом, либо в верхнем правом углу в симметричной игре с выигрышем.2 × 2 игры. Например, в однопользовательской дилемме заключенного ход «Кооперировать» не является оптимальным для любой вероятности сотрудничества противника. На рисунке 5 показано соответствие реакций для такой игры, где измерениями являются «Вероятностная игра Кооперировать», равновесие Нэша находится в нижнем левом углу, где ни один из игроков не играет Кооперировать. Если бы измерения были определены как «Вероятностная игра Дефект», то кривые наилучшего ответа обоих игроков были бы равны 1 для всех вероятностей стратегий противника, а соответствия реакций пересеклись бы (и образовали равновесие Нэша) в правом верхнем углу.

Другие (выигрыш асимметричный) игры

Более широкий диапазон форм соответствий реакции возможен вИгры 2 × 2 с асимметрией выплат. Для каждого игрока существует пять возможных форм наилучшего ответа, показанных на рисунке 6. Слева направо это: доминируемая стратегия (всегда играть 2), доминируемая стратегия (всегда играть 1), рост (играть стратегию 2, если вероятность того, что другой игрок играет 2, выше порога), падение (играть стратегию 1, если вероятность того, что другой игрок играет 2, выше порога) и безразличие (обе стратегии играют одинаково хорошо при любых условиях).

Рисунок 6 - Пять возможных соответствий реакции игрока вИгра 2 × 2. Предполагается, что оси показывают вероятность того, что игрок использует стратегию 1. Слева направо: A) Всегда использовать стратегию 2, стратегия 1 доминируется, B) Всегда использовать стратегию 1, стратегия 2 доминируется, C) Стратегия 1 лучше всего подходит, когда противник использует стратегию 1, а 2 лучше всего подходит, когда противник использует стратегию 2, D) Стратегия 1 лучше всего подходит, когда противник использует стратегию 2, а 2 лучше всего подходит, когда противник использует стратегию 1, E) Обе стратегии одинаково хороши, независимо от того, что играет противник.

Хотя существует только четыре возможных типа симметричных выплатИгры 2 × 2 (одна из которых тривиальна), пять различных кривых наилучшего ответа на игрока допускают большее количество типов асимметричных игр с выплатами. Многие из них на самом деле не отличаются друг от друга. Измерения могут быть переопределены (поменять названия стратегий 1 и 2) для создания симметричных игр, которые логически идентичны.

Соответствующие пенни

Одной из известных игр с асимметрией выплат является игра «соответствующие пенни» . В этой игре один игрок, игрок строки (график на оси y), выигрывает, если игроки координируют свои действия (оба выбирают орла или оба выбирают решку), в то время как другой игрок, игрок столбца (показан на оси x ), выигрывает, если игроки не координируют свои действия. Соответствие реакций игрока Y соответствует игре координации, в то время как игрока X соответствует игре дискоординации. Единственное равновесие Нэша — это комбинация смешанных стратегий, где оба игрока независимо выбирают орел и решку с вероятностью 0,5 каждая.

Рисунок 7. Соответствия реакций для игроков в игре «соответствующие пенни» . Крайнее левое отображение — для координирующего игрока, среднее — для некоординирующего игрока. Единственное равновесие Нэша показано на правом графике.

Динамика

В эволюционной теории игр динамика наилучшего ответа представляет собой класс правил обновления стратегии, где стратегии игроков в следующем раунде определяются их наилучшими ответами на некоторое подмножество популяции. Вот некоторые примеры:

Важно отметить, что в этих моделях игроки выбирают только лучший ответ на следующий раунд, который даст им наивысшую выплату на следующем раунде . Игроки не учитывают влияние, которое выбор стратегии на следующем раунде окажет на будущую игру в игре. Это ограничение приводит к тому, что динамическое правило часто называют близоруким лучшим ответом .

В теории потенциальных игр динамика наилучшего ответа относится к способу нахождения равновесия Нэша путем вычисления наилучшего ответа для каждого игрока:

Теорема  —  В любой игре с конечным потенциалом динамика наилучшего ответа всегда сходится к равновесию Нэша. [6]

Сглаженный

Рисунок 8. Соответствие BR (черный) и сглаженные функции BR (цвета)

Вместо соответствий наилучшего ответа некоторые модели используют сглаженные функции наилучшего ответа . Эти функции похожи на соответствие наилучшего ответа, за исключением того, что функция не «перескакивает» с одной чистой стратегии на другую. Разница проиллюстрирована на рисунке 8, где черный цвет представляет соответствие наилучшего ответа, а другие цвета представляют разные сглаженные функции наилучшего ответа. В стандартных соответствиях наилучшего ответа даже малейшая выгода от одного действия приведет к тому, что индивидуум выполнит это действие с вероятностью 1. В сглаженном наилучшем ответе по мере уменьшения разницы между двумя действиями игра индивидуума приближается к 50:50.

Существует множество функций, которые представляют сглаженные функции наилучшего отклика. Функции, показанные здесь, представляют собой несколько вариаций следующей функции:

где E ( x ) представляет собой ожидаемый выигрыш от действия x , а γ — параметр, определяющий степень отклонения функции от истинного наилучшего ответа (большее значение γ подразумевает, что игрок с большей вероятностью будет совершать «ошибки»).

Использование сглаженного наилучшего ответа имеет несколько преимуществ, как теоретических, так и эмпирических. Во-первых, это согласуется с психологическими экспериментами; когда индивидуумам примерно безразлично между двумя действиями, они, по-видимому, выбирают более или менее случайно. Во-вторых, игра индивидуумов однозначно определена во всех случаях, поскольку это соответствие, которое также является функцией . Наконец, использование сглаженного наилучшего ответа с некоторыми правилами обучения (как в фиктивной игре ) может привести к тому, что игроки научатся играть в смешанные стратегии равновесия Нэша . [7]

Смотрите также

Ссылки

  1. ^ Фуденберг и Тироль (1991), стр. 29; Гиббонс (1992), стр. 33–49.
  2. ^ Нэш (1950).
  3. ^ Фуденберг и Тироль (1991), Раздел 1.3.Б.
  4. ^ Осборн и Рубинштейн (1994), Раздел 2.2.
  5. ^ Эллисон (1993).
  6. ^ Нисан и др. (2007), раздел 19.3.2.
  7. ^ Фуденберг и Левин (1998).

Библиография