Hanabi (от японского花火, фейерверк) — кооперативная карточная игра , созданная французским гейм-дизайнером Антуаном Боза и опубликованная в 2010 году. [1] Игроки знают карты других игроков, но не свои собственные, и пытаются разыграть серию карт в определенном порядке, чтобы запустить имитацию фейерверка . Типы информации, которую игроки могут давать друг другу, ограничены, как и общий объем информации, которая может быть предоставлена во время игры. В 2013 году Hanabi выиграла Spiel des Jahres , отраслевую награду за лучшую настольную игру года.
Колода Ханаби содержит карты пяти мастей (белая, желтая, зеленая, синяя и красная): три 1, по две 2, 3 и 4 и одна 5. Игра начинается с 8 доступных информационных жетонов и 3 жетонов предохранителей. Чтобы начать игру, игрокам раздают по руке, содержащей пять карт (четыре для 4 или 5 игроков). Как и в игре вслепую , игроки могут видеть карты друг друга, но не могут видеть свои собственные. Игра продолжается вокруг стола; каждый ход игрок должен выполнить одно из следующих действий:
Игра заканчивается немедленно, когда либо все жетоны предохранителей израсходованы, что приводит к проигрышу, либо все 5 были успешно сыграны, что приводит к победе. В противном случае игра продолжается до тех пор, пока не закончится колода, и еще один полный раунд после этого. В конце игры значения самых высоких карт в каждой масти суммируются, что дает общий счет из возможных 25 очков.
Hanabi получила положительные отзывы. Board Game Quest присудил игре четыре с половиной звезды, похвалив ее уникальность, доступность и вовлеченность. [2] Аналогичным образом, The Opinionated Gamers также похвалили вовлеченность и затягиваемость игры. [3] Она завоевала несколько наград, включая победу на Spiel des Jahres 2013 года и победу на Fairplay À la carte Award 2013 года. [4] [5] Hanabi также заняла шестое место на Deutscher Spiele Preis 2013 года . [6]
Ханаби — это кооперативная игра с несовершенной информацией .
Компьютерные программы, которые играют в Hanabi, могут участвовать либо в самостоятельной игре , либо в «командной игре ad hoc». В самостоятельной игре несколько экземпляров программы играют друг с другом в команде. Таким образом, они разделяют тщательно отточенную стратегию общения и игры, хотя, конечно, им не разрешено незаконно делиться какой-либо информацией о каждой игре с другими экземплярами программы.
В командной игре ad hoc программа играет с другими произвольными программами или игроками-людьми.
Различные компьютерные программы были разработаны с помощью ручного кодирования правил, основанных на стратегиях. Лучшие программы, такие как WTFWThat, достигли почти идеальных результатов в самостоятельной игре с пятью игроками, со средним счетом 24,9 из 25. [7] [8]
В 2019 году DeepMind предложила Hanabi как идеальную игру, с помощью которой можно установить новый стандарт для исследований искусственного интеллекта в кооперативной игре. [8] [9] [10]
В режиме самостоятельной игры задача состоит в том, чтобы разработать программу, которая может обучаться с нуля, чтобы хорошо играть с другими экземплярами самой себя. Такие программы набирают всего около 15 очков за игру по состоянию на 2019 год, что намного хуже, чем программы, написанные вручную. [8] Однако этот разрыв значительно сократился по состоянию на 2020 год, когда Simplified Action Decoder набрал около 24 очков. [11]
Спонтанная командная игра — гораздо более сложная задача для ИИ, потому что «Hanabi выводит рассуждения об убеждениях и намерениях других агентов на передний план». [8] Игра на человеческом уровне с помощью спонтанных команд требует, чтобы алгоритмы со временем изучали и разрабатывали соглашения и стратегии общения с другими игроками с помощью теории разума . Компьютерные программы, разработанные для самостоятельной игры, терпят неудачу при игре в спонтанных командах, поскольку они не знают, как научиться адаптироваться к тому, как играют другие игроки. Ху и др. продемонстрировали, что изучение симметрийно-инвариантных стратегий помогает агентам ИИ избегать изучения неинтерпретируемых соглашений, улучшая их производительность при сопоставлении с отдельно обученными агентами ИИ (набрав около 22 баллов) и с людьми (набрав около 16 баллов по сравнению с базовой моделью самостоятельной игры, набравшей около 9 баллов). [11]
Deepmind выпустила фреймворк с открытым исходным кодом для облегчения исследований, названный Hanabi Learning Environment. [12]