Обучение временной разнице

Обучение временной разнице ( TD ) относится к классу методов обучения без модели с подкреплением , которые обучаются путем начальной загрузки из текущей оценки функции значения. Эти методы выбирают данные из окружающей среды, например методы Монте-Карло , и выполняют обновления на основе текущих оценок, как методы динамического программирования . ^[1]

В то время как методы Монте-Карло корректируют свои оценки только после того, как становится известен окончательный результат, методы TD корректируют прогнозы, чтобы они соответствовали более поздним, более точным прогнозам о будущем, прежде чем станет известен окончательный результат. ^[2] Это форма начальной загрузки , как показано на следующем примере:

Предположим, вы хотите спрогнозировать погоду на субботу и у вас есть некоторая модель, которая предсказывает погоду на субботу, учитывая погоду каждого дня недели. В стандартном случае вам придется подождать до субботы, а затем настроить все свои модели. Однако, когда, например, пятница, вы должны иметь довольно хорошее представление о том, какая погода будет в субботу, и, таким образом, иметь возможность изменить, скажем, субботнюю модель до наступления субботы. ^[2]

Методы временных различий связаны с моделью временных различий в обучении животных . ^[3]^[4]^[5]^[6]^[7]

Математическая формулировка

Табличный метод TD(0) является одним из самых простых методов TD. Это частный случай более общих методов стохастической аппроксимации. Он оценивает функцию значения состояния марковского процесса принятия решений (MDP) с конечным числом состояний в соответствии с политикой . Обозначим функцию стоимости состояния MDP с состояниями , вознаграждениями и ставкой дисконтирования ^[8] в рамках политики : ^[9] $\pi$ $V^{\pi }$ $(S_{t})_{t\in \mathbb {N} }$ $(R_{t})_{t\in \mathbb {N} }$ $\gamma$ $\pi$

V^{\pi }(s)=E_{a\sim \pi }\left\{\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}{\Bigg |}S_{0}=s\right\}.

Для удобства мы опускаем действие из обозначений. удовлетворяет уравнению Гамильтона-Якоби-Беллмана : $V^{\pi }$

V^{\pi }(s)=E_{\pi }\{R_{1}+\gamma V^{\pi }(S_{1})|S_{0}=s\},

такова несмещенная оценка для . Это наблюдение мотивирует следующий алгоритм оценки . $R_{1}+\gamma V^{\pi }(S_{1})$ $V^{\pi }(s)$ $V^{\pi }$

Алгоритм начинается с произвольной инициализации таблицы с одним значением для каждого состояния MDP. Выбирается положительная скорость обучения . $V(s)$ $\alpha$

Затем мы повторно оцениваем политику , получаем вознаграждение и обновляем функцию значения для текущего состояния, используя правило: ^[10] $\pi$ $r$

V(S_{t})\leftarrow (1-\alpha )V(S_{t})+\underbrace {\alpha } _{\text{learning rate}}[\overbrace {R_{t+1}+\gamma V(S_{t+1})} ^{\text{The TD target}}]

где и – текущее и следующее состояния соответственно. Это значение известно как цель TD и называется ошибкой TD. $S_{t}$ $S_{t+1}$ $R_{t+1}+\gamma V(S_{t+1})$ $R_{t+1}+\gamma V(S_{t+1})-V(S_{t})$

ТД-Лямбда

TD-Lambda — это алгоритм обучения, изобретенный Ричардом С. Саттоном на основе более ранней работы Артура Сэмюэля по обучению временной разности . ^[11] Этот алгоритм был широко применен Джеральдом Тезауро для создания TD-Gammon , программы, которая научилась играть в нарды на уровне опытных игроков. ^[12]

Параметр лямбда ( ) относится к параметру затухания трассировки с . Более высокие настройки приводят к более длительному сохранению следов; то есть большая часть вознаграждения может быть отдана более отдаленным состояниям и действиям, когда оно выше, с параллельным обучением алгоритмам RL Монте-Карло. ^[13] $\lambda$ $0\leqslant \lambda \leqslant 1$ $\lambda$ $\lambda =1$

В нейробиологии

Алгоритм TD также привлек внимание в области нейробиологии . Исследователи обнаружили, что частота возбуждения дофаминовых нейронов в вентральной покрышке (VTA) и черной субстанции (SNc), похоже, имитирует функцию ошибки в алгоритме. ^[3]^[4]^[5]^[6]^[7] Функция ошибок возвращает разницу между предполагаемым вознаграждением в любом заданном состоянии или временном шаге и фактически полученным вознаграждением. Чем больше функция ошибок, тем больше разница между ожидаемым и фактическим вознаграждением. Когда это сочетается со стимулом, который точно отражает будущее вознаграждение, ошибку можно использовать для того, чтобы связать стимул с будущим вознаграждением .

Дофаминовые клетки, по-видимому, ведут себя аналогичным образом. В одном эксперименте измерения количества дофаминовых клеток проводились во время обучения обезьяны связывать стимул с вознаграждением в виде сока. ^[14] Первоначально дофаминовые клетки увеличивали скорость срабатывания, когда обезьяна получала сок, что указывает на разницу в ожидаемом и фактическом вознаграждении. Со временем это усиление ответного огня распространилось на самый ранний надежный стимул для получения награды. Когда обезьяна была полностью обучена, при вручении прогнозируемой награды скорострельность не увеличивалась. Впоследствии, когда ожидаемое вознаграждение не было получено, частота активации дофаминовых клеток снизилась ниже нормальной активации. Это очень похоже на то, как функция ошибок в TD используется для обучения с подкреплением .

Взаимосвязь между моделью и потенциальной неврологической функцией привела к исследованию, пытающемуся использовать TD для объяснения многих аспектов поведенческих исследований. ^[15]^[16] Его также использовали для изучения таких состояний, как шизофрения или последствий фармакологических манипуляций с дофамином на обучение. ^[17]

Смотрите также

Примечания

^ Саттон и Барто (2018), с. 133.
^ Аб Саттон, Ричард С. (1 августа 1988 г.). «Учимся прогнозировать методами временных разностей». Машинное обучение . 3 (1): 9–44. дои : 10.1007/BF00115009 . ISSN 1573-0565. S2CID 207771194 . Проверено 4 апреля 2023 г.
^ Аб Шульц, В., Даян, П. и Монтегю, PR. (1997). «Нейронный субстрат предсказания и вознаграждения». Наука . 275 (5306): 1593–1599. CiteSeerX 10.1.1.133.6176 . дои : 10.1126/science.275.5306.1593. PMID 9054347. S2CID 220093382. {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ аб Монтегю, PR; Даян, П.; Сейновский, Т.Дж. (1 марта 1996 г.). «Система мезэнцефальных дофаминовых систем, основанная на прогнозирующем обучении Хебба» (PDF) . Журнал неврологии . 16 (5): 1936–1947. doi :10.1523/JNEUROSCI.16-05-01936.1996. ISSN 0270-6474. ПМК 6578666 . ПМИД 8774460.
^ аб Монтегю, PR; Даян, П.; Ноулан, С.Дж.; Пуже, А.; Сейновский, Т.Дж. (1993). «Использование апериодического подкрепления для направленной самоорганизации» (PDF) . Достижения в области нейронных систем обработки информации . 5 : 969–976.
^ аб Монтегю, PR; Сейновский, Т.Дж. (1994). «Прогностический мозг: временное совпадение и временной порядок в механизмах синаптического обучения». Обучение и память . 1 (1): 1–33. дои : 10.1101/lm.1.1.1 . ISSN 1072-0502. PMID 10467583. S2CID 44560099.
^ Аб Сейновски, TJ; Даян, П.; Монтегю, PR (1995). «Прогнозирующее обучение Хебба». Материалы восьмой ежегодной конференции по теории вычислительного обучения - COLT '95 . стр. 15–18. дои : 10.1145/225298.225300 . ISBN 0897917235. S2CID 1709691.
^ Параметр ставки дисконтирования позволяет отдать предпочтение по времени в пользу более немедленных вознаграждений и отказаться от вознаграждений в отдаленном будущем.
^ Саттон и Барто (2018), с. 134.
^ Саттон и Барто (2018), с. 135.
^ Саттон и Барто (2018), с. 130?.
^ Тезауро (1995).
^ Саттон и Барто (2018), с. 175.
^ Шульц, В. (1998). «Прогнозирующий сигнал вознаграждения дофаминовых нейронов». Журнал нейрофизиологии . 80 (1): 1–27. CiteSeerX 10.1.1.408.5994 . дои : 10.1152/jn.1998.80.1.1. PMID 9658025. S2CID 52857162.
^ Даян, П. (2001). «Мотивированное обучение с подкреплением» (PDF) . Достижения в области нейронных систем обработки информации . МТИ Пресс. 14 :11–18.
^ Тобиа, MJ и др. (2016). «Измененная поведенческая и нервная реакция на контрфактические достижения у пожилых людей». Когнитивная, аффективная и поведенческая нейронаука . 16 (3): 457–472. дои : 10.3758/s13415-016-0406-7 . PMID 26864879. S2CID 11299945.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Смит А., Ли М., Беккер С. и Капур С. (2006). «Дофамин, ошибка прогнозирования и ассоциативное обучение: отчет на основе модели». Сеть: Вычисления в нейронных системах . 17 (1): 61–84. дои : 10.1080/09548980500361624. PMID 16613795. S2CID 991839.{{cite journal}}: CS1 maint: multiple names: authors list (link)

Цитируемые работы

Саттон, Ричард С.; Барто, Эндрю Г. (2018). Обучение с подкреплением: Введение (2-е изд.). Кембридж, Массачусетс: MIT Press.
Тезауро, Джеральд (март 1995 г.). «Обучение временным разницам и TD-Gammon». Коммуникации АКМ . 38 (3): 58–68. дои : 10.1145/203330.203343 . S2CID 6023746.

дальнейшее чтение

Мейн, СП (2007). Методы управления сложными сетями . Издательство Кембриджского университета. ISBN 978-0521884419.См. последнюю главу и приложение.
Саттон, РС; Барто, АГ (1990). «Модели производной по времени павловского армирования» (PDF) . Обучение и вычислительная нейронаука: основы адаптивных сетей : 497–537.

Внешние ссылки

Апплет Connect Four TDGravity (+ версия для мобильного телефона) – самостоятельное обучение с использованием метода TD-Leaf (комбинация TD-Lambda с поиском по мелкому дереву)
Пример веб-приложения для самообучения Meta-Tic-Tac-Toe, показывающий, как можно использовать обучение временной разнице для изучения констант оценки состояния минимаксного ИИ, играющего в простую настольную игру.
Проблема обучения с подкреплением , документ, объясняющий, как обучение с временной разницей можно использовать для ускорения Q-обучения.
TD-Simulator Симулятор временной разницы для классического кондиционирования