Дилемма заключенного

Дилемма заключенного — это мысленный эксперимент теории игр , в котором участвуют два рациональных агента , каждый из которых может сотрудничать ради взаимной выгоды или предать своего партнера («дефект») за индивидуальное вознаграждение. Эта дилемма была первоначально сформулирована Меррилом Флудом и Мелвином Дрешером в 1950 году, когда они работали в корпорации RAND . ^{[ нужна цитация ]} Альберт В. Такер позже формализовал игру, структурировав награды в виде тюремного заключения, и назвал ее «дилеммой заключенного». ^[1]

Дилемма заключенного моделирует множество реальных ситуаций, связанных со стратегическим поведением. В повседневном использовании термин «дилемма заключенного» можно применять к любой ситуации, в которой две организации могут получить важные выгоды от сотрудничества или пострадать от неспособности сделать это, но считают, что координировать свою деятельность сложно или дорого.

Помещение

Уильям Паундстоун описал эту «типичную современную версию» игры в своей книге « Дилемма узника» 1993 года :

Двое членов преступной группировки арестованы и заключены в тюрьму. Каждый заключенный находится в одиночной камере без возможности разговаривать или обмениваться сообщениями с другим. Полиция признает, что у нее недостаточно доказательств, чтобы осудить пару по основному обвинению. Оба планируют приговорить к году тюремного заключения по менее строгому обвинению. Одновременно полиция предлагает каждому заключенному фаустовскую сделку . Если он даст показания против своего партнера, он выйдет на свободу, а партнер получит три года лишения свободы по основному обвинению. Ах да, есть подвох... Если оба заключенных дадут показания друг против друга, оба будут приговорены к двум годам лишения свободы. Заключенным дается немного времени на обдумывание, но ни в коем случае нельзя узнать, что решил другой, пока он не примет окончательно своего решения. Каждому сообщают, что другому заключенному предлагают ту же самую сделку. Каждый заключенный заботится только о своем благополучии — о минимизации своего тюремного срока. ^[2]

Это приводит к четырем различным возможным последствиям для заключенных А и Б:

Если А и Б промолчат, каждый из них будет приговорен к одному году тюремного заключения.
Если А дает показания против Б, но Б хранит молчание, А будет освобожден, а Б отсидит три года в тюрьме.
Если А будет хранить молчание, а Б даст показания против А, то А отсидит три года в тюрьме, а Б будет освобожден.
Если А и Б дадут показания друг против друга, каждый из них будет отбывать наказание по два года.

Стратегия решения дилеммы заключенного

Двое заключенных помещены в отдельные комнаты и не могут общаться друг с другом. Предполагается, что оба заключенных понимают суть игры, не лояльны друг к другу и не имеют возможности возмездия или вознаграждения вне игры. Обычная игра показана ниже: ^[3]

Независимо от того, что решит другой, каждый заключенный получает более высокую награду, предав другого («дезертирство»). Рассуждения включают в себя анализ лучших ответов обоих игроков : B либо будет сотрудничать, либо откажется. Если B будет сотрудничать, A должен уйти, потому что выйти на свободу лучше, чем отсидеть один год. Если B дезертирует, A тоже должен дезертировать, потому что отсидеть 2 года лучше, чем отсидеть 3. Таким образом, в любом случае A должен дезертировать, поскольку дезертирство — лучший ответ для A, независимо от стратегии B. Параллельные рассуждения покажут, что B должен отказаться.

Бегство всегда приводит к более выгодному результату, чем сотрудничество, поэтому это строго доминирующая стратегия для обоих игроков. Взаимное отступничество — единственное сильное равновесие Нэша в игре. Поскольку коллективный идеальный результат взаимного сотрудничества иррационален с точки зрения корысти, это равновесие Нэша не является эффективным по Парето .

Обобщенная форма

Структуру традиционной дилеммы заключенного можно обобщить, исходя из ее исходной ситуации с заключенным. Предположим, что два игрока представлены красным и синим цветами, и каждый игрок выбирает либо «сотрудничать», либо «отступать».

Если оба игрока сотрудничают, они оба получают награду за сотрудничество. Если оба игрока отказываются от участия, они оба получают вознаграждение за наказание . Если Синий откажется, а Красный сотрудничает, то Синий получит выигрыш за искушение , а Красный получит выигрыш «лоха» . Аналогично, если Синий сотрудничает, а Красный отказывается, то Синий получает выигрыш лоха , а Красный получает выигрыш искушения . $R$ $P$ $Т$ $S$ $S$ $Т$

Это можно выразить в нормальной форме :

и чтобы игра была «дилеммой заключенного» в строгом смысле этого слова, для выигрышей должно выполняться следующее условие:

T>R>P>S

Отношения выигрыша подразумевают, что взаимное сотрудничество превосходит взаимное бегство, тогда как отношения выигрыша и предполагают, что бегство является доминирующей стратегией для обоих агентов. $R>P$ $T>R$ $P>S$

Повторяющаяся дилемма заключенного

Если два игрока разыгрывают дилемму заключенного более одного раза подряд, помнят предыдущие действия своего противника и могут соответствующим образом изменить свою стратегию, игра называется повторяющейся дилеммой заключенного.

В дополнение к приведенной выше общей форме итеративная версия также требует , чтобы чередование сотрудничества и предательства не приносило большего вознаграждения, чем взаимное сотрудничество. $2R>T+S$

Повторяющаяся дилемма заключенного является фундаментальной для некоторых теорий человеческого сотрудничества и доверия. Если предположить, что игра эффективно моделирует транзакции между двумя людьми, требующие доверия, совместное поведение в популяциях можно смоделировать с помощью многопользовательской итерированной версии игры. В 1975 году Грофман и Пул оценили количество посвященных ему научных статей более чем в 2000. Повторяющуюся дилемму заключенного также называют « игрой мир-война ». ^[4]^[5]

Общая стратегия

Если повторяющаяся дилемма заключенного разыгрывается конечное число раз и оба игрока знают об этом, то доминирующая стратегия и равновесие Нэша заключаются в отказе от игры во всех раундах. Доказательство носит индуктивный характер : с таким же успехом можно отступить на последнем ходу, поскольку у противника не будет возможности позже нанести ответный удар. Следовательно, оба откажутся в последнюю очередь. Таким образом, игрок может с таким же успехом сбежать на предпоследнем ходу, поскольку противник сбежит на последнем, независимо от того, что будет сделано, и так далее. То же самое применимо, если продолжительность игры неизвестна, но имеет известный верхний предел. ^{[ нужна цитата ]}

Чтобы между рациональными игроками возникло сотрудничество , количество раундов должно быть неизвестным или бесконечным. В этом случае стратегия «всегда отказываться» может больше не быть строго доминирующей стратегией, а всего лишь равновесием Нэша. Как показал Роберт Ауманн в статье 1959 года, ^{рациональные}^{игроки ,} неоднократно взаимодействующие в течение неопределенно долгих игр, могут поддерживать сотрудничество. В частности, игрок может быть менее склонен к сотрудничеству, если его коллега не сотрудничал много раз, что вызывает разочарование. И наоборот, с течением времени вероятность сотрудничества имеет тенденцию возрастать благодаря установлению «молчаливого соглашения» между участвующими игроками. Другой аспект повторяющейся дилеммы заключенного заключается в том, что это молчаливое соглашение между игроками всегда успешно устанавливалось, даже когда количество итераций объявлялось обеим сторонам.

Согласно экспериментальному исследованию 2019 года, опубликованному в American Economic Review , в котором проверялось, какие стратегии реальные испытуемые использовали в повторяющихся ситуациях «дилеммы заключенного» с идеальным мониторингом, большинство выбранных стратегий всегда заключались в отступничестве, ответных действиях и мрачном триггере . Какую стратегию выбирали испытуемые, зависело от параметров игры. ^[6]

Конкурс Аксельрода и условия успешной стратегии.

Интерес к повторяющейся дилемме заключенного был разожжен Робертом Аксельродом в его книге 1984 года « Эволюция сотрудничества» , в которой он сообщает об организованном им турнире по N -шаговой дилемме заключенного (с фиксированным N ), в котором участники должны выбрать свою стратегию. неоднократно и вспоминать свои предыдущие встречи. Аксельрод пригласил коллег-ученых со всего мира разработать компьютерные стратегии для участия в повторяющемся турнире по дилемме заключенного. Введенные программы сильно различались по алгоритмической сложности, начальной враждебности, способности к прощению и т. д.

Аксельрод обнаружил, что когда эти встречи повторялись в течение длительного периода времени со многими игроками, каждый из которых использовал разные стратегии, жадные стратегии имели тенденцию приносить очень плохие результаты в долгосрочной перспективе, в то время как более альтруистические стратегии давали лучшие результаты, если судить исключительно по личным интересам. Он использовал это, чтобы показать возможный механизм эволюции альтруистического поведения из изначально чисто эгоистичных механизмов путем естественного отбора .

Победившая детерминистская стратегия была разработана и введена в турнир Анатолем Рапопортом . Это была самая простая из всех представленных программ, содержащая всего четыре строки BASIC , и она выиграла конкурс. Стратегия состоит в том, чтобы просто сотрудничать на первой итерации игры; после этого игрок делает то же, что его противник сделал на предыдущем ходу. В зависимости от ситуации, чуть лучшей стратегией может быть «око за око с прощением»: когда противник отступает, на следующем ходу игрок иногда все равно сотрудничает с небольшой вероятностью (около 1–5%, в зависимости от состава). противников). Это позволяет время от времени восстанавливаться после попадания в цикл дезертирства.

Проанализировав наиболее результативные стратегии, Аксельрод сформулировал несколько условий, необходимых для успеха стратегии:

Приятно : стратегия не откажется раньше, чем это сделает ее противник (иногда это называют «оптимистическим» алгоритмом). Почти все самые результативные стратегии были хороши. Чисто эгоистичная стратегия не будет «обманывать» своего противника в первую очередь по чисто корыстным причинам.
Ответные меры : стратегия иногда должна принимать ответные меры. Примером стратегии отсутствия ответных мер является «Всегда сотрудничать» — очень плохой выбор, который часто будет использоваться «неприятными» стратегиями.
Прощение . Успешные стратегии должны быть прощающими. Хотя игроки будут принимать ответные меры, они снова будут сотрудничать, если противник не продолжит отступать. Это может остановить длительные серии мести и контр-мести, максимизируя очки.
Независтливость : стратегия не должна стремиться набрать больше очков, чем противник.

В отличие от игры с дилеммой бывшего заключенного, оптимальная стратегия в повторяющейся дилемме заключенного зависит от стратегий вероятных противников и от того, как они будут реагировать на дезертирство и сотрудничество. Например, если популяция полностью состоит из игроков, которые всегда отказываются от игры, за исключением того, кто следует стратегии «око за око», этот человек находится в небольшом невыгодном положении из-за поражения на первом ходу. В такой популяции оптимальная стратегия — каждый раз дезертировать. В более общем плане, учитывая популяцию с определенным процентом всегда перебежчиков, а остальные — игроками, играющими «око за око», оптимальная стратегия зависит от процента и количества сыгранных итераций.

Другие стратегии

Выработка оптимальной стратегии обычно осуществляется двумя способами:

Байесовское равновесие Нэша : если можно определить статистическое распределение противоположных стратегий, оптимальную контрстратегию можно вывести аналитически. ^[а]
Было проведено моделирование популяций методом Монте-Карло , где особи с низкими показателями вымирают, а особи с высокими показателями размножаются ( генетический алгоритм поиска оптимальной стратегии). Состав алгоритмов в конечной популяции обычно зависит от состава в исходной популяции. Введение мутации (случайной изменчивости при размножении) уменьшает зависимость от исходной популяции; эмпирические эксперименты с такими системами, как правило, приводят к появлению игроков, работающих по принципу «око за око», ^{[ необходимы разъяснения ]} , но не существует аналитических доказательств того, что это будет происходить всегда. ^[8]

В стратегии, называемой «выигрыш-останье-проигрыш-переключение» , столкнувшись с неспособностью сотрудничать, игрок меняет стратегию на следующем ходу. ^[9] В определенных обстоятельствах ^{[ уточнить ]} Павлов превосходит все другие стратегии, предоставляя преимущество партнерам, использующим аналогичную стратегию.

Хотя принцип «око за око» считается самой надежной базовой стратегией, команда из Саутгемптонского университета в Англии представила более успешную стратегию на конкурсе повторяющихся дилемм заключенного, посвященном 20-летнему юбилею. Он полагался на сговор между программами для получения наибольшего количества баллов за одну программу. Университет представил на конкурс 60 программ, которые были рассчитаны на узнавание друг друга через серию из пяти-десяти ходов на старте. ^[10] Как только это признание было сделано, одна программа всегда будет сотрудничать, а другая всегда отказываться, гарантируя максимальное количество баллов перебежчику. Если бы программа поняла, что она играет с игроком, не принадлежащим Саутгемптону, она бы постоянно отступала, пытаясь минимизировать счет конкурирующей программы. В результате результаты турнира «Дилемма заключенных» 2004 года показывают, что стратегии Университета Саутгемптона занимают первые три места (и ряд позиций ближе к концу), несмотря на то, что у них меньше побед и гораздо больше поражений, чем у стратегии GRIM. Стратегия Саутгемптона использует тот факт, что в этом конкретном соревновании было разрешено несколько заявок и что результативность команды измерялась по результатам игрока, набравшего наибольшее количество очков (это означает, что использование самоотверженных игроков было формой минмаксинга ) .

Из-за этого нового правила это соревнование также не имеет теоретического значения при анализе стратегий одного агента по сравнению с плодотворным турниром Аксельрода. Но это обеспечило основу для анализа того, как реализовать стратегии сотрудничества в многоагентных структурах, особенно в присутствии шума.

Задолго до того, как был сыгран этот турнир по новым правилам, Докинз в своей книге « Эгоистичный ген » указал на возможность победы таких стратегий, если было разрешено несколько заявок, но заметил, что Аксельрод, скорее всего, не допустил бы их, если бы они были поданы. Он также основан на обходе правила, запрещающего общение между игроками, что, возможно, и сделали программы «Саутгемптона» с заранее запрограммированным «танцем из десяти движений», чтобы узнавать друг друга, что еще раз подчеркивает, насколько ценным может быть общение для изменения баланса в игре.

Даже без неявного сговора между программными стратегиями , игра «око за око» не всегда является абсолютным победителем любого турнира; точнее, ее долгосрочные результаты по серии турниров превосходят конкурентов, но это не значит, что она самая успешная в краткосрочной перспективе. То же самое относится и к взаимодействию с прощением и другими оптимальными стратегиями.

Это также можно проиллюстрировать с помощью дарвиновского моделирования ESS . В таком моделировании принцип «око за око» почти всегда будет доминировать, хотя неприятные стратегии будут проникать в популяцию и исчезать из нее, потому что в популяцию «око за око» можно проникнуть с помощью нерепрессивных хороших стратегий, которые, в свою очередь, легко жертва неприятных стратегий. Докинз показал, что здесь никакое статическое сочетание стратегий не образует устойчивого равновесия, и система всегда будет колебаться между границами. ^{[ нужна цитата ]}

Стохастическая повторяющаяся дилемма заключенного

В стохастической повторяющейся игре «Дилемма заключенного» стратегии определяются с точки зрения «вероятностей сотрудничества». ^[11] В столкновении между игроком X и игроком Y стратегия X определяется набором вероятностей P сотрудничества с Y. P является функцией результатов их предыдущих встреч или некоторого их подмножества. Если P является функцией только их последних n встреч, это называется стратегией «память-n». Стратегия памяти-1 затем определяется четырьмя вероятностями сотрудничества: , где P _cd — вероятность того, что X будет сотрудничать в нынешней встрече, учитывая, что предыдущая встреча характеризовалась сотрудничеством X и отказом Y. Если каждая из вероятностей равна 1 или 0, стратегия называется детерминированной. Примером детерминированной стратегии является стратегия «око за око», записанная как , в которой X реагирует так же, как Y в предыдущей встрече. Другой вариант — стратегия переключения «выиграл-остался-проиграл», записанную как . Было показано, что для любой стратегии памяти n существует соответствующая стратегия памяти 1, которая дает те же статистические результаты, так что необходимо рассматривать только стратегии памяти 1. ^[11] $P=\{P_{cc},P_{cd},P_{dc},P_{dd}\}$ $P=\{1,0,1,0\}$ $P=\{1,0,0,1\}$

Если он определен как указанный выше вектор стратегии из 4 элементов для X и как вектор стратегии из 4 элементов для Y (где индексы находятся с точки зрения Y ), матрица перехода M может быть определена для X , чей ij -th вход — это вероятность того, что результатом конкретной встречи между X и Y будет j , учитывая, что предыдущая встреча была i , где i и j — один из четырех индексов результата: cc , cd , dc или dd . Например, с точки зрения X , вероятность того, что исход текущего столкновения будет cd , учитывая, что предыдущее столкновение было cd , равна . Согласно этим определениям, повторяющаяся дилемма заключенного квалифицируется как случайный процесс , а M является стохастической матрицей , позволяющей применять всю теорию случайных процессов. ^[11] $P$ $Q=\{Q_{cc},Q_{cd},Q_{dc},Q_{dd}\}$ $M_{cd,cd}=P_{cd}(1-Q_{dc})$

Одним из результатов стохастической теории является то, что существует стационарный вектор v для матрицы v такой, что . Без ограничения общности можно указать, что v нормировано так, что сумма его четырех компонентов равна единице. ij - я запись даст вероятность того, что исход встречи между X и Y будет j , учитывая, что встреча на n предыдущих шагах равна i . В пределе, когда n приближается к бесконечности, M будет сходиться к матрице с фиксированными значениями, давая долгосрочные вероятности встречи, производящей j, независимо от i . Другими словами, строки будут идентичны, что дает долгосрочные равновесные вероятности результата повторяющейся дилеммы заключенного без необходимости явно оценивать большое количество взаимодействий. Видно, что v является стационарным вектором для и, в частности , так что каждая строка будет равна v . Таким образом , стационарный вектор определяет вероятности равновесного результата для X. Определив и как векторы краткосрочных выигрышей для результатов { cc,cd,dc,dd } (с точки зрения X), равновесные выигрыши для X и Y теперь можно указать как и , что позволяет использовать две стратегии P и Q, которые необходимо сравнить на предмет их долгосрочных выигрышей. $v\cdot M=v$ $M^{n}$ $M^{\infty }$ $M^{n}$ $M^{\infty }$ $M^{\infty }$ $S_{x}=\{R,S,T,P\}$ $S_{y}=\{R,T,S,P\}$ $s_{x}=v\cdot S_{x}$ $s_{y}=v\cdot S_{y}$

Стратегии нулевого детерминанта

В 2012 году Уильям Х. Пресс и Фримен Дайсон опубликовали новый класс стратегий для стохастической повторяющейся дилеммы заключенного, названный стратегиями «нулевой детерминант» (ZD). ^[11] Долгосрочные выигрыши от встреч между X и Y могут быть выражены как определитель матрицы, которая является функцией двух стратегий и векторов краткосрочных выигрышей: и , которые не включают стационарный вектор v . Поскольку определительная функция линейна по , отсюда следует, что (где ). Любые стратегии, для которых по определению являются стратегией ZD, а долгосрочные выигрыши подчиняются соотношению . $s_ {x} = D (P, Q, S_ {x})$ $s_{y}=D(P,Q,S_{y})$ $s_{y}=D(P,Q,f)$ $е$ $\alpha s_{x}+\beta s_{y}+\gamma =D(P,Q,\alpha S_{x}+\beta S_{y}+\gamma U)$ $U=\{1,1,1,1\}$ $D(P,Q,\alpha S_{x}+\beta S_{y}+\gamma U)=0$ $\alpha s_{x}+\beta s_{y}+\gamma =0$

«Око за око» — это стратегия ZD, которая является «справедливой» в том смысле, что не дает преимущества над другим игроком. Но пространство ZD также содержит стратегии, которые в случае двух игроков могут позволить одному игроку в одностороннем порядке установить счет другого игрока или, альтернативно, заставить эволюционного игрока получить выигрыш, на несколько процентов меньший, чем его собственный. Игрок, у которого вымогают деньги, может отказаться от участия, но тем самым нанесет себе вред, получив меньший выигрыш. Таким образом, решения, связанные с вымогательством, превращают повторяющуюся дилемму заключенного в своего рода игру-ультиматум . В частности, X может выбрать стратегию, для которой , в одностороннем порядке устанавливая y определенное значение в определенном диапазоне значений, независимо от стратегии _Y , предлагая X возможность «вымогать» у игрока Y (и наоборот) . Но если X попытается присвоить s _x определенное значение, диапазон возможностей будет намного меньше и состоит только из полного сотрудничества или полного предательства. ^[11] $D(P,Q,\beta S_{y}+\gamma U)=0$

Расширением повторяющейся дилеммы заключённого является эволюционная стохастическая повторяющаяся дилемма заключённого, в которой относительное изобилие конкретных стратегий может меняться, при этом более успешные стратегии относительно увеличиваются. Этот процесс можно осуществить, заставив менее успешных игроков подражать более успешным стратегиям или исключив из игры менее успешных игроков, одновременно умножая более успешных. Было показано, что несправедливые стратегии ZD не являются эволюционно стабильными . Ключевая интуиция заключается в том, что эволюционно стабильная стратегия должна не только иметь возможность вторгнуться в другую популяцию (что могут сделать грабительские стратегии ZD), но также должна хорошо работать против других игроков того же типа (что вымогательские игроки ZD делают плохо, потому что они уменьшают влияние друг друга). излишек). ^[12]

Теория и моделирование подтверждают, что за пределами критического размера популяции вымогательство ZD проигрывает в эволюционной конкуренции более кооперативным стратегиям, и в результате средний выигрыш в популяции увеличивается, когда популяция больше. Кроме того, в некоторых случаях вымогатели могут даже стимулировать сотрудничество, помогая вырваться из противостояния между перебежчиками в униформе и агентами «выиграл-остался-проиграл-поменялся» . ^[13]

Хотя вымогательские стратегии ZD не стабильны в больших группах населения, другой класс ZD, называемый «щедрыми» стратегиями, является одновременно стабильным и надежным. Когда популяция не слишком мала, эти стратегии могут заменить любую другую стратегию ZD и даже хорошо работать против широкого спектра общих стратегий для повторяющейся дилеммы заключенного, включая «выиграть-остаться», проиграть-переключиться. Это было специально доказано на примере игры с пожертвованиями Александром Стюартом и Джошуа Плоткиным в 2013 году. ^[14] Щедрые стратегии будут сотрудничать с другими кооперативными игроками, и в случае предательства щедрый игрок теряет больше полезности, чем его соперник. Щедрые стратегии представляют собой пересечение стратегий ZD и так называемых «хороших» стратегий, которые Итан Акин определил как те, в которых игрок реагирует на прошлое взаимное сотрудничество будущим сотрудничеством и распределяет ожидаемые выигрыши поровну, если он получает хотя бы кооперативную сумму. ожидаемая выплата. ^[15] Среди хороших стратегий щедрая (ZD) подгруппа хорошо работает, когда население не слишком мало. Если население очень мало, стратегии дезертирства имеют тенденцию доминировать. ^[14]

Непрерывная повторяющаяся дилемма заключенного

Большая часть работ по повторной дилемме заключенного сосредоточена на дискретном случае, когда игроки либо сотрудничают, либо отступают, поскольку эту модель относительно легко анализировать. Однако некоторые исследователи рассмотрели модели непрерывно повторяющейся дилеммы заключенного, в которой игроки могут вносить переменный вклад в жизнь другого игрока. Ле и Бойд ^[16] обнаружили, что в таких ситуациях развивать сотрудничество гораздо труднее, чем в дискретно повторяющейся дилемме заключенного. В постоянной дилемме заключённого, если население изначально находится в некооперативном равновесии, игроки, которые лишь незначительно более склонны к сотрудничеству, чем те, кто не сотрудничает, получают мало пользы от сортировки друг с другом. Напротив, в дилемме дискретного заключенного сотрудничающие по принципу «око за око» получают большую выгоду от сортировки друг с другом в некооперативном равновесии по сравнению с несотрудничающими. Поскольку природа, возможно, предлагает больше возможностей для разнообразного сотрудничества, а не строгой дихотомии сотрудничества или предательства, дилемма постоянного заключенного может помочь объяснить, почему реальные примеры сотрудничества по принципу «око за око» крайне редки [ ^17] , хотя for-tat кажется надежным в теоретических моделях.

Примеры из реальной жизни

Многие примеры человеческого взаимодействия и естественных процессов имеют матрицы выигрышей, подобные дилемме заключенного. Поэтому он представляет интерес для социальных наук , таких как экономика , политика и социология , а также для биологических наук, таких как этология и эволюционная биология . Многие естественные процессы были абстрагированы в модели, в которых живые существа участвуют в бесконечных играх с дилеммой заключенного.

Экологические исследования

В экологических исследованиях дилемма очевидна в таких кризисах, как глобальное изменение климата . Утверждается, что все страны выиграют от стабильного климата, но каждая отдельная страна часто не решается ограничить выбросы CO 2 . Непосредственная выгода для любой страны от сохранения нынешнего поведения воспринимается как более значительная, чем предполагаемая конечная выгода для этой страны в случае изменения поведения всех стран, что объясняет тупиковую ситуацию с изменением климата в 2007 году. ^[18]

Важным различием между политикой изменения климата и дилеммой заключенного является неопределенность; степень и скорость, с которой загрязнение может изменить климат, неизвестны. Таким образом, дилемма, с которой сталкиваются правительства, отличается от дилеммы заключенного тем, что выгоды от сотрудничества неизвестны. Эта разница предполагает, что государства будут сотрудничать гораздо меньше, чем в реальной повторяющейся дилемме заключённого, так что вероятность избежать возможной климатической катастрофы намного меньше, чем предполагает теоретико-игровой анализ ситуации с использованием реальной повторяющейся дилеммы заключённого. ^[19]

Томас Осанг и Арундати Нэнди дают теоретическое объяснение с доказательствами беспроигрышной ситуации, основанной на регулировании, в соответствии с гипотезой Майкла Портера , в которой государственное регулирование конкурирующих фирм является существенным. ^[20]

Животные

Кооперативное поведение многих животных можно рассматривать как пример повторяющейся дилеммы заключенного. Часто животные вступают в долгосрочные партнерские отношения; например, гуппи совместно осматривают хищников группами и, как полагают, наказывают инспекторов, отказывающихся сотрудничать. ^[21]

Летучие мыши-вампиры — социальные животные, которые участвуют во взаимном обмене пищей. Применение выигрышей от дилеммы заключенного может помочь объяснить такое поведение. ^[22]

Психология

В исследованиях зависимости и поведенческой экономике Джордж Эйнсли указывает , что зависимость можно рассматривать как межвременную дилемму заключенного между настоящим и будущим «я» наркомана. В данном случае «дезертирство» означает рецидив, а отсутствие рецидива ни сегодня, ни в будущем, безусловно, является лучшим результатом. Случай, когда человек воздерживается сегодня, но в будущем у него случается рецидив, является наихудшим исходом: в каком-то смысле дисциплина и самопожертвование, необходимые для воздержания сегодня, были «растрачены впустую», потому что будущий рецидив означает, что наркоман возвращается к тому, с чего начал, и придется начинать заново. Рецидив сегодня и завтра — это немного «лучший» результат, потому что, хотя наркоман все еще является зависимым, он не приложил усилий, чтобы попытаться остановиться. В последнем случае, когда сегодня кто-то участвует в аддиктивном поведении, а завтра воздерживается от него, возникает проблема: (как и в других дилеммах заключенного) существует очевидная польза от побега «сегодня», но завтра он столкнется с той же дилеммой заключенного, и Тогда будет присутствовать та же очевидная выгода, что в конечном итоге приведет к бесконечной череде дезертирств. ^[23]

В «Науке доверия» Джон Готтман определяет хорошие отношения как отношения, в которых партнеры знают, что им не следует вступать в поведение взаимного предательства или, по крайней мере, не застревать в этом цикле. В когнитивной нейробиологии быстрая передача сигналов мозгом, связанная с обработкой различных раундов, может указывать на выбор в следующем раунде. Результаты взаимного сотрудничества влекут за собой изменения в активности мозга, предсказывающие, насколько быстро человек будет сотрудничать в натуральной форме при следующей возможности; ^[24] эта деятельность может быть связана с основными гомеостатическими и мотивационными процессами, что, возможно, увеличивает вероятность перехода к взаимному сотрудничеству.

Экономика

Дилемму заключенного назвали кишечной палочкой социальной психологии, и она широко использовалась для исследования различных тем, таких как олигополистическая конкуренция и коллективные действия для производства коллективного блага. ^[25]

Рекламу иногда называют реальным примером дилеммы заключенного. Когда реклама сигарет была легальной в Соединенных Штатах, конкурирующим производителям сигарет приходилось решать, сколько денег тратить на рекламу. Эффективность рекламы фирмы А частично определялась рекламой, проводимой фирмой Б. Аналогично, на прибыль, полученную от рекламы фирмы Б, влияет реклама, проводимая фирмой А. Если и фирма А, и фирма Б решили размещать рекламу в течение определенного периода времени, период, то реклама каждой фирмы сводит на нет рекламу другой, поступления остаются постоянными, а расходы увеличиваются за счет затрат на рекламу. Обе фирмы выиграют от сокращения рекламы. Однако если фирма Б решит не заниматься рекламой, фирма А может получить от рекламы большую выгоду. Тем не менее оптимальный объем рекламы одной фирмы зависит от того, какой объем рекламы берет на себя другая. Поскольку лучшая стратегия зависит от того, что выберет другая фирма, доминирующей стратегии не существует, что несколько отличает ее от дилеммы заключенного. Однако результат аналогичен: обеим фирмам было бы лучше, если бы они рекламировали меньше, чем в равновесии.

Иногда кооперативное поведение действительно возникает в деловых ситуациях. Например, производители сигарет поддержали принятие законов, запрещающих рекламу сигарет, понимая, что это позволит снизить затраты и увеличить прибыль во всей отрасли. ^[26]^[б]

Без соглашений, имеющих обязательную силу, члены картеля также оказываются перед (многопользовательской) дилеммой заключенного. ^[27] «Сотрудничество» обычно означает согласие на минимальную цену , а «отказ» означает продажу ниже этого минимального уровня, мгновенно отбирая бизнес у других членов картеля. Антимонопольные органы хотят, чтобы потенциальные члены картеля перешли на сторону друг друга, обеспечивая потребителям максимально низкие цены.

Спорт

Допинг в спорте приводится в качестве примера дилеммы заключенного. Два соревнующихся спортсмена имеют возможность использовать запрещенный и/или опасный препарат для повышения своих результатов. Если ни один из спортсменов не принимает препарат, то ни один из спортсменов не получает преимущества. Если это сделает только один, то этот спортсмен получает значительное преимущество перед конкурентом, уменьшенное юридическими и/или медицинскими опасностями, связанными с приемом препарата. Но если оба спортсмена принимают препарат, польза сводится на нет, и остается только опасность, что ставит их обоих в худшее положение, чем если бы ни один из них не принимал допинг. ^[28]

Международная политика

В теории международных отношений дилемма заключенного часто используется, чтобы продемонстрировать, почему сотрудничество терпит неудачу в ситуациях, когда сотрудничество между государствами коллективно оптимально, но индивидуально неоптимально. ^[29]^[30] Классическим примером является дилемма безопасности , при которой повышение безопасности одного государства (например, увеличение его военной мощи) приводит к тому, что другие государства опасаются за свою собственную безопасность из-за страха перед наступательными действиями. ^[31] Следовательно, меры по повышению безопасности могут привести к напряженности, эскалации или конфликту с одной или несколькими другими сторонами, приводя к результату, которого на самом деле не желает ни одна из сторон. ^[32]^[31]^[33]^[34]^[35] Дилемма безопасности особенно остро стоит в ситуациях, когда трудно отличить наступательное оружие от оборонительного, а нападение имеет преимущество в любом конфликте над обороной. ^[31]

Дилемма заключенного часто использовалась реалистическими теоретиками международных отношений, чтобы продемонстрировать, почему всем государствам (независимо от их внутренней политики или исповедуемой идеологии) в условиях международной анархии будет трудно сотрудничать друг с другом, даже если все выигрывают от такого сотрудничества.

Критики реализма утверждают, что итерация и расширение тени будущего являются решением дилеммы заключенного. Когда актеры разыгрывают дилемму заключенного один раз, у них появляются стимулы к отказу, но когда они рассчитывают повторить ее неоднократно, у них появляется больше стимулов к сотрудничеству. ^[36]

Многопользовательские дилеммы

Многие дилеммы реальной жизни требуют участия нескольких игроков. ^[37] Хотя это и метафорично, трагедия общин Хардина может рассматриваться как пример многопользовательского обобщения дилеммы заключенного: каждый сельский житель делает выбор в пользу личной выгоды или ограничения. Коллективной наградой за единодушное или частое отступничество являются очень низкие выплаты и разрушение общественного достояния.

Общественное достояние не всегда эксплуатируется: Уильям Паундстоун в книге о дилемме заключенного описывает ситуацию в Новой Зеландии, когда ящики с газетами остаются незапертыми. Люди могут взять бумагу, не заплатив (перебежав), но очень немногие это делают, чувствуя, что если они не заплатят, то и другие не заплатят, что разрушает систему. ^[38] Последующее исследование Элинор Остром , лауреата Нобелевской премии по экономике в 2009 году , выдвинуло гипотезу, что трагедия общего достояния слишком упрощена, а на негативный результат влияют внешние влияния. Не усложняя давление, группы общаются и управляют общими ресурсами между собой ради взаимной выгоды, обеспечивая соблюдение социальных норм для сохранения ресурсов и достижения максимального блага для группы, что является примером достижения наилучшего результата для дилеммы заключенного. ^[39]^[40]

Программное обеспечение

Было создано несколько пакетов программного обеспечения для проведения симуляций и турниров по дилемме заключенного, исходный код некоторых из которых доступен:

Исходный код второго турнира , проводимого Робертом Аксельродом (написанный Аксельродом и многими другими участниками на Фортране ), доступен в Интернете.
Prison — библиотека, написанная на Java , последнее обновление в 1998 году.
Аксельрод-Питон, написанный на Python
Evoplex, программа быстрого агентного моделирования, выпущенная в 2018 году Маркосом Кардино.

В фантастике

Ханну Раджаниеми поместил первую сцену своей трилогии «Квантовый вор » в «тюрьму дилемм». Основная тема сериала была описана как «неадекватность бинарной вселенной», а главным антагонистом является персонаж по имени Всеперебежчик. Первая книга серии была опубликована в 2010 году, а два продолжения, « Фрактальный принц» и «Причинный ангел» , были опубликованы в 2012 и 2014 годах соответственно.

Игра, созданная по образцу повторяющейся дилеммы заключенного, занимает центральное место в видеоигре 2012 года Zero Escape: Virtue's Last Reward и второстепенную роль в ее продолжении 2016 года Zero Escape: Zero Time Dilemma .

В книге Трентона Ли Стюарта « Таинственное общество Бенедикта и дилемма узника» главные герои начинают с того, что играют в версию игры и вообще сбегают из «тюрьмы». Позже они становятся настоящими пленниками и снова сбегают.

В подарке «Зона приключений : Баланс во время игры Страдания» персонажи игроков дважды сталкиваются с дилеммой заключенного во время их пребывания в владениях двух личей: один раз они сотрудничают, а другой - дезертируют.

В восьмом романе автора Джеймса С.А. Кори Тиамата «Гнев Тиамата» Уинстон Дуарте объясняет дилемму заключенного своей 14-летней дочери Терезе, чтобы научить ее стратегическому мышлению. ^{[ нужна цитата ]}

В фильме 2008 года «Темный рыцарь» есть сцена, в общих чертах основанная на проблеме, в которой Джокер монтирует два парома, один с заключенными, а другой с гражданскими лицами, вооружая обе группы средствами для взрыва бомбы на паромах друг друга, угрожая взорвать их. оба, если они колеблются. ^[46]^[47]

Смотрите также

Примечания

^ Например, см. исследование 2003 года ^[7] , где обсуждается эта концепция и может ли она применяться в реальных экономических или стратегических ситуациях.
^ Этот аргумент в пользу развития сотрудничества посредством доверия приведен в « Мудрости толпы» , где утверждается, что капитализм на больших расстояниях смог сформироваться вокруг ядра квакеров , которые всегда честно обращались со своими деловыми партнерами. (Вместо того, чтобы отступить и нарушить свои обещания – явление, которое препятствовало заключению ранее долгосрочных и неисполнимых зарубежных контрактов). Утверждается, что отношения с надежными торговцами позволили мему о сотрудничестве распространиться среди других торговцев, которые распространяли его дальше, пока высокая степень сотрудничества не стала прибыльной стратегией в общей торговле.

дальнейшее чтение

Амадае, С. (2016). «Дилемма узника», Узники разума . Издательство Кембриджского университета , Нью-Йорк, стр. 24–61.
Ауманн, Роберт (1959). «Приемлемые баллы в общих кооперативных играх для n человек». В Люсе, РД; Такер, AW (ред.). Вклад в теорию 23 игр IV . Анналы изучения математики. Том. 40. Принстон, штат Нью-Джерси: Издательство Принстонского университета. стр. 287–324. МР 0104521.
Аксельрод, Р. (1984). Эволюция сотрудничества . ISBN 0-465-02121-2
Биккьери, Кристина (1993). Рациональность и координация. Издательство Кембриджского университета .
Шахматы, Дэвид М. (декабрь 1988 г.). «Моделирование эволюции поведения: повторяющаяся проблема дилеммы заключенных» (PDF) . Сложные системы . 2 (6): 663–70. Архивировано (PDF) из оригинала 30 мая 2015 г.
Коллинз, Рори В. (март 2022 г.). «Парадокс дилеммы заключенного: рациональность, мораль и взаимность». Подумайте: Философия для всех . 21 (61): 45–55. дои : 10.1017/S1477175621000464 .
Дрешер, М. (1961). Математика стратегических игр: теория и приложения Прентис-Холл , Энглвуд Клиффс, Нью-Джерси.
Грейф, А. (2006). Институты и путь к современной экономике: уроки средневековой торговли. Издательство Кембриджского университета, Кембридж , Великобритания.
Копельман, Ширли (февраль 2020 г.). «Око за око и не только: легендарное произведение Анатоля Рапопорта». Исследования в области переговоров и управления конфликтами . 13 (1): 60–84. дои : 10.1111/ncmr.12172 . hdl : 2027.42/153763 .
Рапопорт, Анатол и Альберт М. Чамма (1965). Дилемма заключенного . Издательство Мичиганского университета .
Шнайдер, Марк; Шилдс, Тимоти В. (июнь 2022 г.). «Мотивы сотрудничества в дилемме одноразового заключенного». Журнал поведенческих финансов . 23 (4): 438–456. дои : 10.1080/15427560.2022.2081974. S2CID 249903572.

Внешние ссылки

СМИ, связанные с дилеммой заключенного, на Викискладе?
Дилемма заключенного (Стэнфордская энциклопедия философии)
Дилемма Шалашника. Дилемма узника в орнитологии - математический мультфильм Ларри Гоника.
Дилемма узника Дилемма узника с минифигурками Lego.
Диксит, Авинаш ; Нейлебафф, Барри (2008). "Дилемма заключенного". В Дэвиде Р. Хендерсоне (ред.). Краткая экономическая энциклопедия (2-е изд.). Индианаполис: Библиотека экономики и свободы . ISBN 978-0865976658. ОСЛК 237794267.
Теория игр 101: Дилемма узника
Докинз: Хорошие парни финишируют первыми
Библиотека Python «Дилемма заключённого» Аксельрода
Сыграйте в «Дилемму заключенного» на oTree (нет данных 11-5-17)
«Эволюция доверия» Ники Кейса, пример игры с пожертвованиями
Онлайн-игра «Итерированная дилемма заключенного» Уэйна Дэвиса
Что говорит «Дилемма узника» о жизни, Вселенной и всем остальном