В теории игр игра называется потенциальной, если стимул всех игроков изменить свою стратегию можно выразить с помощью одной глобальной функции, называемой потенциальной функцией . Эта концепция возникла в статье 1996 года Дова Мондерера и Ллойда Шепли . [1]
С тех пор были изучены свойства нескольких типов потенциальных игр. Игры могут быть как порядковыми , так и кардинальными потенциальными играми. В кардинальных играх разница в индивидуальных выигрышах для каждого игрока от индивидуального изменения своей стратегии, при прочих равных условиях, должна иметь то же значение, что и разница в значениях для потенциальной функции. В порядковых играх только знаки разностей должны быть одинаковыми.
Потенциальная функция является полезным инструментом для анализа равновесных свойств игр, поскольку стимулы всех игроков отображаются в одну функцию, а множество чистых равновесий Нэша может быть найдено путем нахождения локальных оптимумов потенциальной функции. Сходимость и конечную сходимость итерированной игры к равновесию Нэша можно также понять, изучая потенциальную функцию.
Потенциальные игры можно изучать как повторяющиеся игры с состоянием, так что каждый сыгранный раунд имеет прямое последствие для состояния игры в следующем раунде. [2] Этот подход имеет применение в распределенном управлении, таком как распределенное распределение ресурсов, где игроки без центрального механизма корреляции могут сотрудничать для достижения глобального оптимального распределения ресурсов.
Пусть — количество игроков, набор профилей действий по наборам действий каждого игрока и — функция выигрыша для игрока .
Для игры мы говорим, что это потенциальная игра с точной (взвешенной, порядковой, обобщенной порядковой, наилучшей реакцией) потенциальной функцией, если это точная (взвешенная, порядковая, обобщенная порядковая, наилучшая реакцией, соответственно) потенциальная функция для . Здесь называется
Обратите внимание, что хотя существуют функции полезности, по одной для каждого игрока, существует только одна потенциальная функция. Таким образом, через призму потенциальных функций игроки становятся взаимозаменяемыми (в смысле одного из определений выше). Из-за этой симметрии игры децентрализованные алгоритмы, основанные на общей потенциальной функции, часто приводят к сходимости (в некотором смысле) к равновесию Нэша.
В игре с двумя игроками и двумя действиями с внешними эффектами выигрыши отдельных игроков определяются функцией u i ( a i , a j ) = b i a i + w a i a j , где a i — действие игрока i, a j — действие противника, а w — положительный внешний эффект от выбора того же действия. Выбор действий равен +1 и −1, как показано в матрице выигрышей на рисунке 1.
Эта игра имеет потенциальную функцию P ( a 1 , a 2 ) = b 1 a 1 + b 2 a 2 + w a 1 a 2 .
Если игрок 1 переходит от −1 к +1, разница в выигрыше составляет Δ u 1 = u 1 (+1, a 2 ) – u 1 (–1, a 2 ) = 2 b 1 + 2 w a 2 .
Изменение потенциала равно ΔP = P(+1, a 2 ) – P(–1, a 2 ) = ( b 1 + b 2 a 2 + w a 2 ) – (– b 1 + b 2 a 2 – w a 2 ) = 2 b 1 + 2 w a 2 = Δ u 1 .
Решение для игрока 2 эквивалентно. Используя числовые значения b 1 = 2 , b 2 = −1 , w = 3 , этот пример преобразуется в простую битву полов , как показано на рисунке 2. В игре есть два чистых равновесия Нэша, (+1, +1) и (−1, −1) . Они также являются локальными максимумами потенциальной функции (рисунок 3). Единственное стохастически устойчивое равновесие — это (+1, +1) , глобальный максимум потенциальной функции.
Игра для 2 игроков и 2 действий не может быть потенциальной игрой, если
Точные потенциальные игры эквивалентны играм с перегрузкой : Розенталь [3] доказал, что каждая игра с перегрузкой имеет точный потенциал; Мондерер и Шепли [1] доказали противоположное: каждая игра с точной потенциальной функцией является игрой с перегрузкой .
Путь улучшения (также называемый динамикой Нэша ) — это последовательность векторов стратегий, в которой каждый вектор достигается из предыдущего вектора одним игроком, переключающим свою стратегию на стратегию, которая строго увеличивает его полезность. Если игра имеет функцию обобщенного порядкового потенциала , то строго возрастает в каждом пути улучшения, поэтому каждый путь улучшения является ациклическим. Если, кроме того, в игре конечное число стратегий, то каждый путь улучшения должен быть конечным. Это свойство называется свойством конечного улучшения (FIP) . Мы только что доказали, что каждая конечная игра с обобщенным порядковым потенциалом имеет FIP. Обратное также верно: каждая конечная игра с FIP имеет функцию обобщенного порядкового потенциала. [4] [ необходимо разъяснение ] Конечное состояние в каждом конечном пути улучшения является равновесием Нэша, поэтому FIP подразумевает существование равновесия Нэша с чистой стратегией. Более того, это подразумевает, что равновесие Нэша может быть вычислено с помощью распределенного процесса, в котором каждый агент должен улучшить только свою собственную стратегию.
Путь наилучшего ответа — это особый случай пути улучшения, в котором каждый вектор достигается из предыдущего вектора путем переключения стратегии одного игрока на стратегию наилучшего ответа. Свойство, что каждый путь наилучшего ответа конечен, называется свойством конечного наилучшего ответа (FBRP) . FBRP слабее, чем FIP, и все еще подразумевает существование равновесия Нэша чистой стратегии. Это также подразумевает, что равновесие Нэша может быть вычислено распределенным процессом, но вычислительная нагрузка на агентов выше, чем при FIP, поскольку им приходится вычислять наилучший ответ.
Еще более слабым свойством является слабая ацикличность (WA) . [5] Это означает, что для любого начального вектора стратегии существует конечный путь наилучшего ответа, начинающийся с этого вектора. Слабая ацикличность недостаточна для существования потенциальной функции (поскольку некоторые пути улучшения могут быть циклическими), но она достаточна для существования равновесия Нэша чистой стратегии. Это подразумевает, что равновесие Нэша может быть вычислено почти наверняка с помощью стохастического распределенного процесса, в котором в каждой точке игрок выбирается случайным образом, и этот игрок выбирает наилучшую стратегию случайным образом. [4]