ТД-Гаммон

TD-Gammon — компьютерная программа для игры в нарды , разработанная в 1992 году Джеральдом Тезауро в Исследовательском центре Томаса Дж. Уотсона компании IBM . Его название происходит от того факта, что это искусственная нейронная сеть, обученная методом обучения временной разности , в частности TD-Lambda .

Окончательная версия TD-Gammon (2.1) была обучена с помощью 1,5 миллионов игр самостоятельно и достигла уровня игры, чуть ниже уровня лучших игроков в нарды того времени. Он исследовал стратегии, которые люди не использовали, и привел к прогрессу в теории правильной игры в нарды.

В 1998 году в серии из 100 игр она проиграла чемпиону мира с перевесом всего в 8 очков. Его нетрадиционная оценка некоторых дебютных стратегий была принята и принята опытными игроками. ^[1]

Алгоритм игры и обучения

Во время игры TD-Gammon на каждом ходу проверяет все возможные допустимые ходы и все возможные ответы на них (двойной просмотр вперед ), передает каждую результирующую позицию на доске в свою функцию оценки и выбирает ход, который приводит к положению на доске, получившему наивысшую оценку. счет. В этом отношении TD-Gammon ничем не отличается от почти любой другой программы для компьютерных настольных игр. Инновация TD-Gammon заключалась в том, как она научилась выполнять свою функцию оценки.

Алгоритм обучения TD-Gammon состоит в обновлении весов в нейронной сети после каждого хода, чтобы уменьшить разницу между оценкой позиций доски предыдущих ходов и оценкой позиции доски текущего хода — отсюда «обучение с временной разницей ». Счет на любой позиции на доске представляет собой набор из четырех чисел, отражающих оценку программой вероятности каждого возможного результата игры: белые выигрывают в обычном режиме, черные выигрывают в обычном режиме, белые выигрывают окорок, черные выигрывают окорок. Для окончательного положения доски в игре алгоритм сравнивает ее с фактическим результатом игры, а не с собственной оценкой положения доски. ^[2]

После каждого хода алгоритм обучения обновляет каждый вес в нейронной сети согласно следующему правилу:

w_{t+1}-w_{t}=\alpha (Y_{t+1}-Y_{t})\sum _{k=1}^{t}\lambda ^{tk}\nabla _{w}Y_{k}

где:

Эксперименты и этапы обучения

В отличие от предыдущих программ игры в нарды с нейронной сетью, таких как Neurogammon (также написанная Тезауро), где эксперт обучал программу, предоставляя «правильную» оценку каждой позиции, TD-Gammon сначала была запрограммирована «без знаний». ^[2] В ранних экспериментах, используя только необработанную кодировку доски без каких-либо функций, разработанных человеком, TD-Gammon достиг уровня игры, сравнимого с Neurogammon: уровня человека, играющего в нарды среднего уровня.

Несмотря на то, что TD-Gammon сама обнаружила полезные функции, Тезауро задался вопросом, можно ли улучшить ее игру, используя функции, разработанные вручную, такие как Neurogammon. Действительно, самообучающаяся TD-Gammon с специально разработанными функциями вскоре превзошла все предыдущие компьютерные программы для игры в нарды. Он перестал улучшаться примерно после 1 500 000 игр (самостоятельная игра) с использованием трехслойной нейронной сети со 198 входными блоками, кодирующими разработанные экспертами функции, 80 скрытыми блоками и одним выходным блоком, представляющим прогнозируемую вероятность выигрыша. ^[3]

Достижения в теории нард

Эксклюзивное обучение TD-Gammon посредством самостоятельной игры (а не опеки) позволило ему исследовать стратегии, которые люди ранее не рассматривали или исключали ошибочно. Успех компании в использовании неортодоксальных стратегий оказал значительное влияние на сообщество игроков в нарды. ^[2]

Например, в дебютной игре общепринятое мнение заключалось в том, что при выпадении 2-1, 4-1 или 5-1 белые должны переместить одну шашку из пункта 6 в пункт 5. Это называется «прорезью». Техника меняет риск попадания на возможность развить агрессивную позицию. TD-Gammon обнаружил, что более консервативная игра 24-23 была лучше. Турнирные игроки начали экспериментировать с ходом TD-Gammon и добились успеха. Через несколько лет слоттинг исчез из турнирной игры, хотя в 2006 году он снова появился со счетом 2-1. ^[4]

Эксперт по нардам Кит Вулси обнаружил, что позиционное суждение TD-Gammon, особенно соотношение риска и безопасности, превосходит его собственное или суждение любого человека. ^[2]

Превосходная позиционная игра TD-Gammon была подорвана случайной неудачной игрой в эндшпиле. Финал требует более аналитического подхода, иногда с обширным прогнозом. Ограничение TD-Gammon на двухслойный просмотр вперед ограничивало возможности TD-Gammon в этой части игры. Сильные и слабые стороны TD-Gammon были противоположностью символических программ искусственного интеллекта и большинства компьютерных программ в целом: он был хорош в вопросах, требующих интуитивного «чувства», но плох в систематическом анализе.

Смотрите также

Всемирная федерация нард

Внешние ссылки

TD-Gammon в IBM
TD-Gammon на GitHub