Поиск по дереву Монте-Карло

В информатике поиск по дереву Монте-Карло ( MCTS ) представляет собой эвристический алгоритм поиска для некоторых видов процессов принятия решений , особенно тех, которые используются в программном обеспечении , играющем в настольные игры . В этом контексте MCTS используется для решения дерева игры .

MCTS была объединена с нейронными сетями в 2016 году ^[1] и использовалась во многих настольных играх, таких как шахматы , сёги , ^[2] шашки , нарды , контрактный мост , го , скрэббл и клоббер ^[3], а также в пошаговых играх. -стратегические видеоигры (например, реализация Total War: Rome II в искусственном интеллекте кампании высокого уровня ^[4] ).

История

Метод Монте-Карло

Метод Монте-Карло , использующий случайную выборку для детерминированных задач, которые трудно или невозможно решить с помощью других подходов, появился в 1940-х годах. ^[5] В своей докторской диссертации 1987 года Брюс Абрамсон объединил минимаксный поиск с моделью ожидаемого результата, основанной на случайном ходе игры до конца, вместо обычной статической функции оценки . Абрамсон сказал, что модель ожидаемого результата «показалась точной, достоверной, легко поддающейся оценке, эффективно вычисляемой и независимой от предметной области». ^[6] Он тщательно экспериментировал с крестиками-ноликами , а затем с машинными оценочными функциями для Отелло и шахмат .

Такие методы затем были исследованы и успешно применены для эвристического поиска в области автоматизированного доказательства теорем В. Эртелем, Дж. Шуманом и К. Саттнером в 1989 г., ^[7]^[8]^[9] , что позволило сократить время экспоненциального поиска неинформированных данных. алгоритмы поиска, такие как, например, поиск в ширину, поиск в глубину или итеративное углубление .

В 1992 году Б. Брюгманн впервые применил его в программе игры в го . ^[10] В 2002 году Чанг и др. ^[11] предложили идею «рекурсивного развертывания и обратного отслеживания» с «адаптивным» выбором выборки в своем алгоритме адаптивной многоэтапной выборки (AMS) для модели марковских процессов принятия решений . AMS была первой работой, в которой исследовалась идея исследования и эксплуатации на основе UCB при построении выборочных/моделированных деревьев (Монте-Карло), и она была основным исходным кодом для UCT (деревьев верхней уверенности). ^[12]

Поиск по дереву Монте-Карло (MCTS)

Рейтинг лучших программ для игры в Го на сервере KGS с 2007 года. С 2006 года все лучшие программы используют поиск по дереву Монте-Карло. ^[13]

В 2006 году, вдохновленный этими предшественниками, ^[14] Реми Кулом описал применение метода Монте-Карло для поиска по дереву игр и придумал название «поиск по дереву Монте-Карло», ^[15] Л. Кочис и Кс. Сепешвари разработал алгоритм UCT (верхние доверительные границы, применяемые к деревьям) ^[16] , а С. Гелли и др. реализовали UCT в своей программе MoGo. ^[17] В 2008 году MoGo достигла уровня дана (мастера) в 9×9 Го, ^[18] и программа Fuego начала побеждать сильных игроков-любителей в 9×9 Го. ^[19]

В январе 2012 года программа «Дзен» выиграла со счетом 3:1 в матче по го на доске 19х19 с игроком -любителем с 2 даном . ^[20] Компания Google Deepmind разработала программу AlphaGo , которая в октябре 2015 года стала первой программой для компьютерного го, которая обыграла профессионального игрока в го-человека без ограничений на полноразмерной доске 19х19. ^[1]^[21]^[22] В марте 2016 года AlphaGo была удостоена почетного 9-данного (мастера) уровня в го 19×19 за победу над Ли Седолем в матче из пяти игр с окончательным счетом четыре игры к одной. ^[23] AlphaGo представляет собой значительное улучшение по сравнению с предыдущими программами Go, а также является важной вехой в машинном обучении , поскольку он использует поиск по дереву Монте-Карло с искусственными нейронными сетями ( метод глубокого обучения ) для политики (выбор хода) и ценности, что значительно повышает его эффективность. превосходящие предыдущие программы. ^[24]

Алгоритм MCTS также использовался в программах, играющих в другие настольные игры (например , Hex , ^[25] Havannah , ^[26] Game of the Amazons , ^[27] и Arimaa ^[28] ), видеоиграх в реальном времени (например, Ms Pac-Man ^[29]^[30] и Fable Legends ^[31] ) и недетерминированные игры (такие как скат , ^[32] покер , ^[33] Magic: The Gathering , ^[34] или Settlers of Catan ^[35] ) . .

Принцип действия

Основное внимание MCTS уделяется анализу наиболее перспективных ходов, расширению дерева поиска на основе случайной выборки пространства поиска. Применение поиска по дереву Монте-Карло в играх основано на множестве плейаутов, также называемых разворотами . В каждом розыгрыше игра ведется до самого конца путем случайного выбора ходов. Конечный результат игры каждого розыгрыша затем используется для взвешивания узлов в дереве игры, чтобы в будущих розыгрышах с большей вероятностью были выбраны лучшие узлы.

Самый простой способ использования плейаутов — применить одинаковое количество плейаутов после каждого допустимого хода текущего игрока, а затем выбрать ход, который привел к наибольшему количеству побед. ^[10] Эффективность этого метода, называемого « Чистый поиск игры по Монте-Карло », часто увеличивается со временем, поскольку больше ходов назначается ходам, которые часто приводили к победе текущего игрока в соответствии с предыдущими розыгрышами. Каждый раунд поиска по дереву Монте-Карло состоит из четырех шагов: ^[36]

Выбор : начать с корня $R$ и выбирать последующие дочерние узлы, пока не будет достигнут листовой узел $L.$ Корень — это текущее состояние игры, а лист — это любой узел, имеющий потенциального дочернего узла, от которого еще не было инициировано моделирование (воспроизведение). В разделе ниже больше говорится о способе смещения выбора дочерних узлов, который позволяет дереву игры расширяться в сторону наиболее перспективных ходов, что является сутью поиска в дереве Монте-Карло.
Расширение : если $L$ не завершает игру решительно (например, победа/проигрыш/ничья) для любого игрока, создайте один (или несколько) дочерних узлов и выберите узел $C$ из одного из них. Дочерние узлы — это любые допустимые ходы из игровой позиции, определенной $L$ .
Моделирование : Завершите одно случайное воспроизведение из узла $C.$ Этот шаг иногда также называют воспроизведением или развертыванием. Плейаут может быть таким же простым, как выбор одинаковых случайных ходов до тех пор, пока игра не будет решена (например, в шахматах игра выиграна, проиграна или ничья).
Обратное распространение ошибки : используйте результат воспроизведения для обновления информации в узлах на пути от $C$ к $R.$

На этом графике показаны шаги, необходимые для принятия одного решения, при этом каждый узел показывает соотношение побед к общему количеству игр из этой точки дерева игры для игрока, которого представляет этот узел. ^[37] На диаграмме выбора черные собираются двигаться. Корневой узел показывает, что на данный момент белые из этой позиции одержали 11 побед из 21 розыгрыша. Он дополняет общую сумму выигрышей черных 10/21, показанную в трех черных узлах под ним, каждый из которых представляет собой возможный ход черных. Обратите внимание, что этот график не соответствует алгоритму UCT, описанному ниже.

Если белые проигрывают симуляцию, все узлы по выборке увеличивают счетчик симуляций (знаменатель), но среди них только черные узлы получают выигрыши (числитель). Если вместо этого выиграют белые, все узлы по выборке все равно будут увеличивать счетчик своих симуляций, но среди них только белые узлы будут засчитаны как победы. В играх, где возможны ничьи, ничья приводит к увеличению числителя как для черных, так и для белых на 0,5, а знаменателя на 1. Это гарантирует, что во время выбора выбор каждого игрока расширяется в сторону наиболее перспективных ходов для этого игрока, что отражает цель каждого игрока — максимизировать ценность своего хода.

Раунды поиска повторяются до тех пор, пока остается время, отведенное на ход. Затем в качестве окончательного ответа выбирается ход с наибольшим количеством выполненных симуляций (т.е. с наибольшим знаменателем).

Чистый поиск игр в Монте-Карло

Эту базовую процедуру можно применить к любой игре, позиции которой обязательно имеют конечное число ходов и конечную длину. Для каждой позиции определяются все возможные ходы: до самого конца доигрываются k случайных партий и записываются результаты. Выбирается ход, ведущий к лучшему результату. Ничья разрешается честным подбрасыванием монеты . Pure Monte Carlo Game Search приводит к сильной игре в нескольких играх со случайными элементами, как, например, в игре EinStein würfelt nicht! . Он сходится к оптимальной игре (поскольку k стремится к бесконечности) в играх с заполнением доски со случайным порядком ходов, например, в игре Hex со случайным порядком ходов. ^[38] AlphaZero компании DeepMind заменяет этап моделирования оценкой на основе нейронной сети. ^[2]

Разведка и эксплуатация

Основная трудность при выборе дочерних узлов заключается в поддержании некоторого баланса между использованием глубоких вариантов после ходов с высоким средним процентом выигрышей и исследованием ходов с небольшим количеством симуляций. Первую формулу балансировки эксплуатации и исследования в играх, получившую название UCT ( верхняя доверительная граница 1, применяемая к деревьям ), представили Левенте Кочиш и Чаба Сепешвари. ^[16] UCT основан на формуле UCB1, выведенной Ауэром, Чезой-Бьянки и Фишером ^[39] и вероятно конвергентном алгоритме AMS (адаптивной многоэтапной выборки), впервые примененном к многоэтапным моделям принятия решений (в частности, Марковской модели принятия решений). Процессы принятия решений ) Чанга, Фу, Ху и Маркуса. ^[11] Кочиш и Сепешвари рекомендуют выбирать в каждом узле дерева игры ход, для которого выражение имеет наибольшее значение. В этой формуле: ${\frac {w_{i}}{n_{i}}}+c{\sqrt {\frac {\ln N_{i}}{n_{i}}}}$

$w i$ обозначает количество побед рассматриваемого узла после $i$ -го хода
$n i$ обозначает количество симуляций для узла, рассматриваемого после $i$ -го хода
$Ni$ обозначает общее количество симуляций после $i -го$ $хода$ , выполненного родительским узлом рассматриваемого узла.
$c$ – параметр разведки, теоретически равный $\sqrt 2$ ; на практике обычно выбирают эмпирически

Первый компонент приведенной выше формулы соответствует эксплуатации; он высок для ходов с высоким средним коэффициентом выигрыша. Второй компонент соответствует разведке; он высок для ходов с небольшим количеством симуляций.

Большинство современных реализаций поиска по дереву Монте-Карло основаны на некотором варианте UCT, корни которого восходят к алгоритму оптимизации моделирования AMS для оценки функции значения в марковских процессах принятия решений (MDP) с конечным горизонтом, представленных Чангом и др. ^[11] (2005) в области исследования операций . (AMS была первой работой, в которой исследовалась идея исследования и эксплуатации на основе UCB при построении выборочных/моделированных деревьев (Монте-Карло) и была основным исходным материалом для UCT. ^[12] ).

Преимущества и недостатки

Хотя было доказано, что оценка ходов при поиске по дереву Монте-Карло сходится к минимаксу при использовании UCT, ^[16]^[40] базовая версия поиска по дереву Монте-Карло сходится только в так называемых «Идеальных играх Монте-Карло». ^[41] Однако поиск по дереву Монте-Карло действительно предлагает значительные преимущества по сравнению с альфа-бета-обрезкой и аналогичными алгоритмами, которые минимизируют пространство поиска.

В частности, чистый поиск по дереву Монте-Карло не требует явной оценочной функции . Простой реализации игровой механики достаточно для исследования пространства поиска (т.е. генерации разрешенных ходов в заданной позиции и условий завершения игры). Таким образом, поиск по дереву Монте-Карло можно использовать в играх без развитой теории или в обычных играх .

Дерево игры в поиске по дереву Монте-Карло растет асимметрично, поскольку метод концентрируется на более перспективных поддеревьях. Таким образом ^{[ сомнительно – обсудить ]} , он достигает лучших результатов, чем классические алгоритмы в играх с высоким коэффициентом ветвления .

Недостатком является то, что в определенных позициях могут быть ходы, которые на первый взгляд кажутся сильными, но на самом деле приводят к проигрышу из-за тонкой линии игры. Такие «состояния-ловушки» требуют тщательного анализа для правильной обработки, особенно при игре против опытного игрока; однако MCTS может «не видеть» такие линии из-за своей политики выборочного расширения узлов. ^[42]^[43] Считается, что это могло быть одной из причин поражения AlphaGo в четвертой игре против Ли Седоля . По сути, поиск пытается отсеять менее релевантные последовательности. В некоторых случаях игра может привести к очень специфической линии игры, которая важна, но которую упускают из виду при обрезке дерева, и поэтому этот результат «с радара поиска». ^[44]

Улучшения

Для сокращения времени поиска были предложены различные модификации базового метода поиска по дереву Монте-Карло. Некоторые используют экспертные знания в конкретной области, другие — нет.

Поиск по дереву Монте-Карло может использовать как легкие , так и тяжелые плейауты. Легкие игры состоят из случайных ходов, в то время как тяжелые игры применяют различные эвристики, влияющие на выбор ходов. ^[45] Эти эвристики могут использовать результаты предыдущих игр (например, эвристику «Последний хороший ответ» ^[46] ) или экспертные знания о данной игре. Например, во многих программах игры в го определенные узоры камней на определенной части доски влияют на вероятность перемещения в эту область. ^[17] Парадоксально, но неоптимальная игра в симуляциях иногда приводит к тому, что программа поиска по дереву Монте-Карло в целом работает лучше. ^[47]

Узоры *ханэ* (окружающих камней противника), используемые в играх программы MoGo. И черным, и белым выгодно положить камень на средний квадрат, за исключением крайнего правого рисунка, где предпочтение отдается только черному цвету. ^[17]

Знания, специфичные для предметной области, могут использоваться при построении дерева игры, чтобы помочь в использовании некоторых вариантов. Один из таких методов присваивает ненулевые априорные значения количеству выигранных и сыгранных симуляций при создании каждого дочернего узла, что приводит к искусственному повышению или понижению среднего показателя выигрыша, что приводит к более или менее частому выбору узла на этапе выбора соответственно. ^[48] Родственный метод, называемый прогрессивным смещением , заключается в добавлении к формуле UCB1 элемента, где $b$ $i$ — эвристическая оценка $i$ -го хода. ^[36] ${\frac {b_{i}}{n_{i}}}$

Базовый поиск по дереву Монте-Карло собирает достаточно информации, чтобы найти наиболее перспективные ходы только после многих раундов; до тех пор его ходы по существу случайны. Эта исследовательская фаза может быть значительно сокращена в определенном классе игр с использованием RAVE ( оценка значения быстрого действия ). ^[48] В этих играх перестановки последовательности ходов приводят к одной и той же позиции. Обычно это настольные игры, в которых ход предполагает размещение фигуры или камня на доске. В таких играх на ценность каждого хода часто лишь незначительно влияют другие ходы.

В RAVE для данного узла дерева игры $N$ его дочерние узлы $C i$ хранят не только статистику выигрышей в розыгрышах, начатых в узле $N$ , но и статистику выигрышей во всех розыгрышах, начатых в узле $N$ и ниже него, если они содержат ход $i$ (также, когда ход был сыгран в дереве, между узлом $N$ и плейаутом). Таким образом, на содержимое узлов дерева влияют не только ходы, сыгранные непосредственно в данной позиции, но и те же ходы, сыгранные позже.

RAVE на примере крестиков-ноликов. В красных узлах статистика RAVE будет обновлена после моделирования b1-a2-b3.

При использовании RAVE на этапе выбора выбирается узел, для которого модифицированная формула UCB1 имеет наибольшее значение. В этой формуле и обозначают количество выигранных розыгрышей, содержащих ход $i$ , и количество всех розыгрышей, содержащих ход $i$ , причем функция должна быть близка к единице и нулю для относительно малых и относительно больших $n$ $i$ и соответственно. Одна из многих формул для , предложенная Д. Сильвером ^[49], говорит, что в сбалансированных положениях можно взять , где $b$ — эмпирически выбранная константа. $(1-\beta (n_{i},{\tilde {n}}_{i})){\frac {w_{i}}{n_{i}}}+\beta (n_{i },{\tilde {n}}_{i}){\frac {{\tilde {w}}_{i}}{{\tilde {n}}_{i}}}+c{\sqrt { \frac {\ln t}{n_{i}}}}$ ${\tilde {w}}_{i}$ ${\tilde {n}}_{i}$ $\beta (n_{i}, {\tilde {n}}_{i})$ ${\tilde {n}}_{i}$ $\beta (n_{i}, {\tilde {n}}_{i})$ $\beta (n_{i},{\tilde {n}}_{i})={\frac {{\tilde {n}}_{i}}{n_{i}+{\tilde { n}}_{i}+4b^{2}n_{i}{\tilde {n}}_{i}}}$

Эвристики, используемые при поиске по дереву Монте-Карло, часто требуют множества параметров. Существуют автоматизированные методы настройки параметров для максимизации процента выигрыша. ^[50]

Поиск по дереву Монте-Карло может выполняться одновременно многими потоками или процессами . Существует несколько принципиально различных способов его параллельного выполнения: ^[51]

Распараллеливание листьев , т.е. параллельное выполнение множества плейаутов из одного листа игрового дерева.
Корневое распараллеливание , то есть параллельное построение независимых игровых деревьев и выполнение хода на основе ветвей корневого уровня всех этих деревьев.
Распараллеливание дерева , т.е. параллельное построение одного и того же игрового дерева, защита данных от одновременной записи либо с одним, глобальным мьютексом , с большим количеством мьютексов, либо с неблокирующей синхронизацией . ^[52]

Смотрите также

AlphaGo — программа Go, использующая поиск по дереву Монте-Карло, обучение с подкреплением и глубокое обучение .
AlphaGo Zero — обновленная программа Go, использующая поиск по дереву Монте-Карло, обучение с подкреплением и глубокое обучение .
AlphaZero — обобщенная версия AlphaGo Zero, использующая поиск по дереву Монте-Карло, обучение с подкреплением и глубокое обучение .
Leela Chess Zero — бесплатная программная реализация методов AlphaZero в шахматах, которая в настоящее время входит в число ведущих программ для игры в шахматы.

Библиография

Кэмерон Браун; Эдвард Паули; Дэниел Уайтхаус; Саймон Лукас; Питер I. Коулинг; Филипп Рольфсхаген; Стивен Тавенер; Диего Перес; Спиридон Самофракий; Саймон Колтон (март 2012 г.). «Обзор методов поиска по дереву Монте-Карло». Транзакции IEEE по вычислительному интеллекту и искусственному интеллекту в играх . 4 (1): 1–43. CiteSeerX 10.1.1.297.3086 . doi : 10.1109/tciaig.2012.2186810. S2CID 9316331.
Мацей Свеховский; Конрад Годлевский; Бартош Савицкий; Яцек Мандзюк (июль 2022 г.). «Поиск в дереве Монте-Карло: обзор последних модификаций и приложений». Обзор искусственного интеллекта Springer Nature . 56 (3): 497–2562 (66 страниц). arXiv : 2103.04931 . doi : 10.1007/s10462-022-10228-y. S2CID 232147848.

Внешние ссылки

Руководство для начинающих по поиску в дереве Монте-Карло