В теории игр расширенная форма игры — это спецификация игры , позволяющая (как следует из названия) явно представлять ряд ключевых аспектов, таких как последовательность возможных ходов игроков, их выбор в каждой точке принятия решения , (возможно, несовершенная ) информация, которую каждый игрок имеет о ходах другого игрока, когда они принимают решение, и их выигрыши для всех возможных исходов игры. Расширенная форма игры также позволяет представлять неполную информацию в форме случайных событий, смоделированных как « ходы по природе ». Расширенная форма представления отличается от нормальной формы тем, что она обеспечивает более полное описание рассматриваемой игры, тогда как нормальная форма просто сводит игру к платежной матрице.
Некоторые авторы, особенно во вводных учебниках, изначально определяют игру в развернутой форме как просто игровое дерево с выигрышами (без несовершенной или неполной информации) и добавляют другие элементы в последующих главах в качестве уточнений. В то время как остальная часть этой статьи следует этому мягкому подходу с мотивирующими примерами, мы представляем заранее конечные игры в развернутой форме, как (в конечном итоге) построено здесь. Это общее определение было введено Гарольдом В. Куном в 1953 году, который расширил более раннее определение фон Неймана от 1928 года. После презентации Харта (1992), игра в развернутой форме для n игроков, таким образом, состоит из следующего:
Таким образом, игра — это путь по дереву от корня до конечного узла. В любом заданном неконечном узле, принадлежащем Chance, выбирается исходящая ветвь в соответствии с распределением вероятностей. В любом рациональном узле игрока игрок должен выбрать один из классов эквивалентности для ребер, что определяет ровно одно исходящее ребро, за исключением (в общем случае) того, что игрок не знает, какое из них используется. (Внешний наблюдатель, знающий выбор каждого другого игрока до этого момента и реализацию ходов Природы, может точно определить ребро.) Чистая стратегия для игрока, таким образом, состоит из выбора — выбора ровно одного класса исходящих ребер для каждого информационного набора (его). В игре с полной информацией информационные наборы являются синглтонами . Менее очевидно, как следует интерпретировать выигрыши в играх с узлами Chance. Предполагается, что у каждого игрока есть функция полезности фон Неймана–Моргенштерна, определенная для каждого исхода игры; это предположение подразумевает, что каждый рациональный игрок будет оценивать априорный случайный результат по его ожидаемой полезности.
Вышеприведенное представление, хотя и точно определяет математическую структуру, по которой ведется игра, однако, упускает более техническое обсуждение формализации утверждений о том, как ведется игра, например, «игрок не может различать узлы в одном и том же информационном наборе при принятии решения». Их можно уточнить с помощью эпистемической модальной логики ; см. подробности в Shoham & Leyton-Brown (2009, chpt. 13).
Игра с полной информацией для двух игроков на игровом дереве (как определено в комбинаторной теории игр и искусственном интеллекте ) может быть представлена как игра в развернутой форме с результатами (т. е. выигрыш, проигрыш или ничья ). Примерами таких игр являются крестики-нолики , шахматы и бесконечные шахматы . [1] [2] Игра на дереве expectminimax , как и в нардах , не имеет несовершенной информации (все информационные наборы являются синглтонами), но имеет ходы случая. Например, в покере есть как ходы случая (раздаваемые карты), так и несовершенная информация (карты, тайно удерживаемые другими игроками). (Binmore 2007, chpt. 2)
Полное развернутое представление определяет:
В игре справа два игрока: 1 и 2. Числа у каждого неконечного узла указывают, какому игроку принадлежит этот узел решения. Числа у каждого конечного узла представляют выигрыши для игроков (например, 2,1 представляет выигрыш 2 для игрока 1 и выигрыш 1 для игрока 2). Метки у каждого ребра графа являются названием действия, которое представляет ребро.
Начальный узел принадлежит игроку 1, что указывает на то, что игрок 1 ходит первым. Игра в соответствии с деревом выглядит следующим образом: игрок 1 выбирает между U и D ; игрок 2 наблюдает за выбором игрока 1, а затем выбирает между U' и D' . Выплаты указаны в дереве. Четыре результата представлены четырьмя конечными узлами дерева: (U,U'), (U,D'), (D,U') и (D,D'). Выплаты, связанные с каждым результатом, соответственно следующие: (0,0), (2,1), (1,2) и (3,1).
Если игрок 1 играет D , игрок 2 будет играть U', чтобы максимизировать свой выигрыш, и поэтому игрок 1 получит только 1. Однако, если игрок 1 играет U , игрок 2 максимизирует свой выигрыш, играя D', и игрок 1 получает 2. Игрок 1 предпочитает 2 1 и поэтому будет играть U , а игрок 2 будет играть D' . Это идеальное равновесие подигры .
Преимущество представления игры таким образом заключается в том, что становится понятен порядок игры. Дерево ясно показывает, что игрок 1 ходит первым, а игрок 2 наблюдает за этим ходом. Однако в некоторых играх игра происходит не так. Один игрок не всегда наблюдает за выбором другого (например, ходы могут быть одновременными или ход может быть скрытым). Информационный набор — это набор узлов решений, такой что:
В развернутой форме набор информации обозначается пунктирной линией, соединяющей все узлы в этом наборе, или иногда петлей, нарисованной вокруг всех узлов в этом наборе.
Если в игре есть набор информации с более чем одним участником, то говорят, что в игре несовершенная информация . Игра с совершенной информацией такова, что на любом этапе игры каждый игрок точно знает, что произошло ранее в игре; т. е. каждый набор информации является синглтонным набором. [1] [2] Любая игра без совершенной информации имеет несовершенную информацию.
Игра справа такая же, как и вышеприведенная игра, за исключением того, что игрок 2 не знает, что делает игрок 1, когда он приходит играть. Первая описанная игра имеет полную информацию; игра справа — нет. Если оба игрока рациональны и оба знают, что оба игрока рациональны, и все, что известно любому игроку, известно каждому игроку (т. е. игрок 1 знает, что игрок 2 знает, что игрок 1 рационален, а игрок 2 знает это, и т. д. до бесконечности ), игра в первой игре будет следующей: игрок 1 знает, что если он сыграет U , игрок 2 сыграет D' (потому что для игрока 2 выигрыш 1 предпочтительнее выигрыша 0), и поэтому игрок 1 получит 2. Однако, если игрок 1 сыграет D , игрок 2 сыграет U' (потому что для игрока 2 выигрыш 2 лучше выигрыша 1), и игрок 1 получит 1. Следовательно, в первой игре равновесие будет ( U , D' ), потому что игрок 1 предпочитает получить 2 к 1 и поэтому сыграет U , и поэтому игрок 2 сыграет D' .
Во второй игре все менее очевидно: игрок 2 не может наблюдать за ходом игрока 1. Игрок 1 хотел бы обмануть игрока 2, заставив его думать, что он сыграл U, когда на самом деле он сыграл D, так что игрок 2 сыграет D' , а игрок 1 получит 3. Фактически, во второй игре существует идеальное байесовское равновесие , где игрок 1 играет D , а игрок 2 играет U', и игрок 2 убежден, что игрок 1 обязательно сыграет D. В этом равновесии каждая стратегия рациональна, учитывая имеющиеся убеждения, и каждое убеждение согласуется с разыгрываемыми стратегиями. Обратите внимание, как несовершенство информации меняет результат игры.
Чтобы легче решить эту игру для равновесия Нэша , [3] ее можно преобразовать в нормальную форму . [4] Учитывая, что это одновременная / последовательная игра, у игрока 1 и игрока 2 есть по две стратегии . [5]
У нас будет матрица два на два с уникальным выигрышем для каждой комбинации ходов. Используя игру в нормальной форме, теперь можно решить игру и определить доминирующие стратегии для обоих игроков.
Эти предпочтения могут быть отмечены в матрице, и любой ящик, где оба игрока имеют предпочтения, обеспечивает равновесие Нэша. Эта конкретная игра имеет единственное решение (D,U') с выигрышем (1,2).
В играх с бесконечными пространствами действий и несовершенной информацией несинглетонные информационные наборы представляются, при необходимости, путем вставки пунктирной линии, соединяющей (неузловые) конечные точки позади дуги, описанной выше, или путем штриховки самой дуги. В соревновании Штакельберга, описанном выше, если бы второй игрок не наблюдал за ходом первого игрока, игра больше не соответствовала бы модели Штакельберга; это было бы соревнование Курно .
Может быть так, что игрок не знает точно, каковы выигрыши в игре или какого типа его противники. Такая игра имеет неполную информацию . В развернутой форме она представлена как игра с полной, но несовершенной информацией с использованием так называемого преобразования Харсани . Это преобразование вводит в игру понятие выбора природы или выбора Бога . Рассмотрим игру, в которой работодатель решает, нанимать ли претендента на работу. Способности претендента на работу могут быть одними из двух: высокими или низкими. Уровень их способностей случаен; у них либо низкие способности с вероятностью 1/3, либо высокие способности с вероятностью 2/3. В этом случае удобно моделировать природу как еще одного игрока, который выбирает способности претендента в соответствии с этими вероятностями. Однако у природы нет никаких выигрышей. Выбор природы представлен в дереве игры незаполненным узлом. Ребра, исходящие из узла выбора природы, помечены вероятностью события, которое он представляет.
Игра слева — игра с полной информацией (все игроки и выигрыши известны всем), но с неполной информацией (работодатель не знает, какой ход сделала природа). Начальный узел находится в центре, и он не заполнен, поэтому природа ходит первой. Природа выбирает с той же вероятностью тип игрока 1 (что в этой игре равносильно выбору выигрышей в сыгранной подигре), либо t1, либо t2. У игрока 1 есть различные наборы информации для них; т. е. игрок 1 знает, к какому типу они относятся (это не обязательно так). Однако игрок 2 не наблюдает выбор природы. Они не знают тип игрока 1; однако в этой игре они наблюдают за действиями игрока 1; т. е. есть полная информация. Действительно, теперь уместно изменить приведенное выше определение полной информации: на каждом этапе игры каждый игрок знает, что было сыграно другими игроками . В случае частной информации каждый игрок знает, что было сыграно природой. Наборы информации представлены, как и прежде, пунктирными линиями.
В этой игре, если природа выбирает t1 как тип игрока 1, игра будет похожа на самую первую описанную игру, за исключением того, что игрок 2 не знает об этом (и сам факт того, что это прорезает их информационные наборы, дисквалифицирует ее из статуса подигры ). Есть одно разделяющее идеальное байесовское равновесие ; т. е. равновесие, в котором разные типы делают разные вещи.
Если оба типа играют в одно и то же действие (объединение), равновесие не может быть поддержано. Если оба играют в D , игрок 2 может сформировать убеждение, что они находятся на любом узле в информационном наборе с вероятностью 1/2 (потому что это шанс увидеть любой из типов). Игрок 2 максимизирует свой выигрыш, играя в D' . Однако, если они играют в D' , тип 2 предпочтет сыграть в U . Это не может быть равновесием. Если оба типа играют в U , игрок 2 снова формирует убеждение, что они находятся на любом узле с вероятностью 1/2. В этом случае игрок 2 играет в D' , но тогда тип 1 предпочитает сыграть в D .
Если тип 1 играет U , а тип 2 играет D , игрок 2 сыграет D', какое бы действие он ни наблюдал, но затем тип 1 предпочитает D. Таким образом, единственное равновесие — это когда тип 1 играет D , тип 2 играет U , а игрок 2 играет U', если он наблюдает D , и рандомизирует, если он наблюдает U. Своими действиями игрок 1 просигнализировал о своем типе игроку 2.
Формально конечная игра в развернутом виде представляет собой структуру , в которой:
, ограничение на является биекцией с множеством последующих узлов .
Может быть, у игрока есть бесконечное число возможных действий на выбор в определенном узле принятия решения. Устройство, используемое для представления этого, представляет собой дугу, соединяющую два ребра, выступающие из рассматриваемого узла принятия решения. Если пространство действий представляет собой континуум между двумя числами, нижнее и верхнее ограничивающие числа размещаются внизу и вверху дуги соответственно, обычно с переменной, которая используется для выражения выигрышей. Бесконечное число узлов принятия решения, которые могут возникнуть, представлено одним узлом, размещенным в центре дуги. Аналогичное устройство используется для представления пространств действий, которые, хотя и не бесконечны, достаточно велики, чтобы оказаться непрактичными для представления с ребром для каждого действия.
Дерево слева представляет такую игру, либо с бесконечными пространствами действий (любое действительное число от 0 до 5000), либо с очень большими пространствами действий (возможно, любое целое число от 0 до 5000). Это будет указано в другом месте. Здесь будет предполагаться, что это первое, и для конкретности будет предполагаться, что оно представляет две фирмы, участвующие в соревновании Штакельберга . Выигрыши для фирм представлены слева, с и как стратегия, которую они принимают, и и как некоторые константы (здесь предельные издержки для каждой фирмы). Совершенные равновесия Нэша подигры этой игры можно найти, взяв первую частную производную [ требуется ссылка ] каждой функции выигрыша относительно переменной стратегии последователя (фирмы 2) ( ) и найдя ее наилучшую функцию ответа , . Тот же процесс может быть выполнен для лидера, за исключением того, что при расчете его прибыли он знает, что фирма 2 будет играть в ответ выше, и поэтому это может быть подставлено в его задачу максимизации. Затем он может решить для , взяв первую производную, что дает . Подставляя это в функцию наилучшего ответа фирмы 2, и получаем идеальное равновесие Нэша подигры.
Исторические документы