В теории игр байесовская игра — это стратегическая модель принятия решений, которая предполагает, что игроки имеют неполную информацию. Игроки могут иметь личную информацию, относящуюся к игре, что означает, что выигрыши не являются общедоступными знаниями. [1] Байесовские игры моделируют результат взаимодействия игроков, используя аспекты байесовской вероятности . Они примечательны тем, что впервые в теории игр позволили определить решения для игр с неполной информацией .
Венгерский экономист Джон К. Харшани представил концепцию байесовских игр в трех работах 1967 и 1968 годов: [2] [3] [4] За эти и другие вклады в теорию игр он был удостоен Нобелевской премии по экономике в 1994 году. Грубо говоря, Харшани определил байесовские игры следующим образом: игрокам в начале игры природой назначается набор характеристик. Сопоставляя распределения вероятностей с этими характеристиками и вычисляя результат игры с использованием байесовской вероятности, результатом является игра, решение которой по техническим причинам гораздо проще вычислить, чем аналогичную игру в небайесовском контексте. По этим техническим причинам см. раздел «Спецификация игр» в этой статье.
Байесовская игра определяется как (N,A,T,p,u) и состоит из следующих элементов: [5]
В стратегической игре чистая стратегия — это выбор действия игрока в каждой точке, где игрок должен принять решение. [6]
Байесовские игры состоят из трех этапов, каждый из которых описывает знание игроками типов в игре.
Есть два важных и новых аспекта байесовских игр, которые сами были определены Харсани. [8] Первый заключается в том, что байесовские игры должны рассматриваться и структурироваться идентично играм с полной информацией. За исключением того, что при добавлении вероятности к игре, финальная игра функционирует так, как если бы это была игра с неполной информацией. Поэтому игроки могут быть по существу смоделированы как имеющие неполную информацию, и вероятностное пространство игры по-прежнему следует закону полной вероятности . Байесовские игры также полезны тем, что они не требуют бесконечных последовательных вычислений. Бесконечные последовательные вычисления возникали бы, когда игроки (по сути) пытались бы «залезть друг другу в головы». Например, можно задать вопросы и решить: «Если я ожидаю какого-то действия от игрока B, то игрок B будет ожидать, что я ожидаю этого действия, поэтому я должен ожидать этого ожидания» до бесконечности . Байесовские игры позволяют вычислять эти результаты за один ход, одновременно назначая разные веса вероятности разным результатам. В результате байесовские игры позволяют моделировать ряд игр, которые в небайесовских условиях было бы нерационально вычислять.
Равновесие Байеса-Нэша байесовской игры — это равновесие Нэша связанной с ней игры в нормальной форме ex-ante.
В небайесовской игре профиль стратегий является равновесием Нэша , если каждая стратегия в этом профиле является наилучшим ответом на каждую другую стратегию в профиле; то есть не существует стратегии, которую мог бы использовать игрок, и которая принесла бы более высокий выигрыш, учитывая все стратегии, используемые другими игроками.
Аналогичную концепцию можно определить для байесовской игры, разница в том, что стратегия каждого игрока максимизирует ожидаемый выигрыш, учитывая его убеждения о состоянии природы. Убеждения игрока о состоянии природы формируются путем обуславливания априорных вероятностей на собственном типе игрока в соответствии с правилом Байеса.
Равновесие Байеса Нэша (BNE) определяется как профиль стратегии, который максимизирует ожидаемый выигрыш для каждого игрока с учетом их убеждений и стратегий, используемых другими игроками. То есть, профиль стратегии является равновесием Байеса Нэша тогда и только тогда, когда для каждого игрока, сохраняющего стратегии каждого другого игрока фиксированными, стратегия максимизирует ожидаемый выигрыш игрока в соответствии с убеждениями этого игрока. [5]
Для конечных байесовских игр, т. е. когда и действие, и пространство типов конечны, существует два эквивалентных представления. Первое называется игрой в форме агента (см. теорему 9.51 книги «Теория игр» [9] ), которая расширяет число игроков с до , т. е. каждый тип каждого игрока становится игроком. Второе называется индуцированной нормальной формой (см. раздел 6.3.3 книги «Мультиагентные системы» [10] ), которая по-прежнему имеет игроков, но расширяет число действий каждого игрока i с до , т. е. чистая политика представляет собой комбинацию действий, которые игрок должен предпринять для разных типов. Равновесие Нэша (NE) можно вычислить в этих двух эквивалентных представлениях, и BNE можно восстановить из NE.
Игры развернутой формы с полной или несовершенной информацией имеют следующие элементы: [12]
Узел природы обычно обозначается незаполненным кругом. Его стратегия всегда определена и всегда полностью смешана. Обычно природа находится в корне дерева, однако природа может перемещаться и в других точках.
Информационный набор игрока i — это подмножество узлов принятия решений игрока i , которые он не может различить. То есть, если игрок i находится в одном из своих узлов принятия решений в информационном наборе, он не знает, в каком узле внутри информационного набора он находится.
Чтобы два узла принятия решений находились в одном и том же информационном наборе , они должны [13]
Информационные наборы обозначаются пунктирными линиями, что является наиболее распространенным обозначением на сегодняшний день.
В байесовских играх убеждения игрока относительно игры обозначаются распределением вероятностей по различным типам.
Если у игроков нет личной информации, распределение вероятностей по типам известно как общее априорное распределение . [1]
Оценкой игры развернутой формы является пара <b, μ>
Оценка <b, μ> удовлетворяет правилу Байеса , если [14] μ(x|h i ) = Pr[x достигается при условии b−i ] / Σ Pr[x' достигается при условии b −i ] всякий раз, когда h i достигается со строго положительной вероятностью согласно b −i .
Идеальное байесовское равновесие в игре в развернутой форме представляет собой комбинацию стратегий и спецификацию убеждений, при которой выполняются следующие два условия: [15]
Байесовское равновесие Нэша может привести к неправдоподобным равновесиям в динамических играх, где игроки двигаются последовательно, а не одновременно. Как и в играх с полной информацией, они могут возникнуть из-за ненадежных стратегий вне пути равновесия. В играх с неполной информацией также есть дополнительная возможность ненадежных убеждений.
Чтобы справиться с этими проблемами, идеальное байесовское равновесие, согласно идеальному равновесию подигры, требует, чтобы, начиная с любого информационного набора, последующая игра была оптимальной. Оно требует, чтобы убеждения обновлялись последовательно с правилом Байеса на каждом пути игры, который происходит с положительной вероятностью.
Стохастические байесовские игры [16] объединяют определения байесовских игр и стохастических игр для представления состояний среды (например, состояний физического мира) со стохастическими переходами между состояниями, а также неопределенностью относительно типов различных игроков в каждом состоянии. Полученная модель решается с помощью рекурсивной комбинации байесовского равновесия Нэша и уравнения оптимальности Беллмана . Стохастические байесовские игры использовались для решения различных проблем, включая планирование обороны и безопасности, [17] кибербезопасность электростанций, [18] автономное вождение, [19] мобильные периферийные вычисления, [20] самостабилизацию в динамических системах, [21] и лечение неправильного поведения в краудсорсинге IoT. [22]
Определение байесовских игр и байесовского равновесия было расширено для работы с коллективным агентством . Один подход заключается в том, чтобы продолжать рассматривать отдельных игроков как рассуждающих изолированно, но позволить им, с некоторой вероятностью, рассуждать с точки зрения коллектива. [23] Другой подход заключается в том, чтобы предположить, что игроки внутри любого коллективного агента знают, что агент существует, но что другие игроки не знают этого, хотя они подозревают об этом с некоторой вероятностью. [24] Например, Алиса и Боб могут иногда оптимизировать как личности, а иногда вступать в сговор как команда, в зависимости от состояния природы, но другие игроки могут не знать, какой из этих случаев имеет место.
Шериф сталкивается с вооруженным подозреваемым. Оба должны одновременно решить, стрелять в другого или нет.
Подозреваемый может быть либо типа «преступник», либо типа «гражданский». У шерифа есть только один тип. Подозреваемый знает свой тип и тип шерифа, но шериф не знает тип подозреваемого. Таким образом, есть неполная информация (потому что у подозреваемого есть частная информация), что делает игру байесовской. Существует вероятность p того, что подозреваемый является преступником, и вероятность 1-p того, что подозреваемый является гражданским лицом; оба игрока знают эту вероятность (общее априорное предположение, которое можно преобразовать в игру с полной информацией с несовершенной информацией ).
Шериф предпочтет защищаться и стрелять, если подозреваемый стреляет, или не стрелять, если подозреваемый не стреляет (даже если подозреваемый преступник). Подозреваемый предпочтет стрелять, если он преступник, даже если шериф не стреляет, но предпочтет не стрелять, если он гражданский, даже если шериф стреляет. Таким образом, матрица выигрышей этой игры в нормальной форме для обоих игроков зависит от типа подозреваемого. Эта игра определяется как (N,A,T,p,u) , где:
Если оба игрока рациональны и оба знают, что оба игрока рациональны, и все, что известно любому игроку, известно каждому игроку (т.е. игрок 1 знает, что игрок 2 знает, что игрок 1 рационален, а игрок 2 знает это и т.д. до бесконечности – общее знание ), ход игры будет следующим в соответствии с идеальным байесовским равновесием: [25] [26]
Если тип "криминальный", доминирующая стратегия для подозреваемого - стрелять, а если тип "гражданский", доминирующая стратегия для подозреваемого - не стрелять; альтернативная строго доминируемая стратегия, таким образом, может быть удалена. Учитывая это, если шериф стреляет, он будет иметь выигрыш 0 с вероятностью p и выигрыш -1 с вероятностью 1-p , т. е. ожидаемый выигрыш p-1 ; если шериф не стреляет, он будет иметь выигрыш -2 с вероятностью p и выигрыш 0 с вероятностью 1-p , т. е. ожидаемый выигрыш -2p . Таким образом, шериф всегда будет стрелять, если p-1 > -2p , т. е. когда p > 1/3 .
Рынок лимонов связан с концепцией, известной как неблагоприятный отбор .
Настраивать
Есть подержанный автомобиль. Игрок 1 — потенциальный покупатель, который заинтересован в автомобиле. Игрок 2 — владелец автомобиля и знает стоимость v автомобиля (насколько он хорош и т. д.). Игрок 1 не знает и считает, что стоимость v автомобиля для владельца (Игрока 2) распределена равномерно между 0 и 100 (т. е. каждый из двух подинтервалов стоимости [0, 100] одинаковой длины одинаково вероятен).
Игрок 1 может сделать ставку p от 0 до 100 (включительно) I Игрок 2 может затем принять или отклонить предложение. Выплаты следующие:
Дополнительный момент: стратегия отсечения
Стратегия игрока 2: принять все ставки выше определенного порогового значения P* и отклонить их и сделать ставку ниже P* , известна как стратегия отсечения, где P* называется пороговым значением.
Новая компания (player1), которая хочет выйти на рынок, монополизированный крупной компанией, столкнется с двумя типами монополистов (player2), type1 не допускается, а type2 допускается. Player1 никогда не будет иметь полной информации об player2, но может вывести вероятность появления type1 и type2 из того, была ли заблокирована предыдущая фирма, выходящая на рынок, это байесовская игра. Причина этих суждений заключается в том, что существуют издержки блокировки для player2, которому может потребоваться значительно снизить цены, чтобы не допустить player1 к выходу на рынок, поэтому он заблокирует player1, когда прибыль, которую он украдет от выхода на рынок, превысит издержки блокировки.