Обучение с подкреплением

Обучение с подкреплением ( RL ) — это междисциплинарная область машинного обучения и оптимального управления, занимающаяся тем, как интеллектуальный агент должен выполнять действия в динамической среде, чтобы максимизировать сигнал вознаграждения . Обучение с подкреплением — одна из трех основных парадигм машинного обучения , наряду с контролируемым обучением и неконтролируемым обучением .

Q-learning в своей простейшей форме хранит данные в таблицах. Этот подход становится невозможным по мере увеличения количества состояний/действий (например, если пространство состояний или пространство действий были непрерывными), поскольку вероятность посещения агентом определенного состояния и выполнения определенного действия уменьшается.

Обучение с подкреплением отличается от контролируемого обучения тем, что не требует представления помеченных пар ввода-вывода и не требует явной коррекции неоптимальных действий. Вместо этого основное внимание уделяется поиску баланса между исследованием (неизведанной территории) и эксплуатацией (текущих знаний) с целью максимизации совокупного вознаграждения (обратная связь которого может быть неполной или отложенной). ^[1] Поиск этого баланса известен как дилемма исследования-эксплуатации .

Окружающая среда обычно описывается в форме марковского процесса принятия решений (MDP), поскольку многие алгоритмы обучения с подкреплением используют методы динамического программирования . ^[2] Основное различие между классическими методами динамического программирования и алгоритмами обучения с подкреплением заключается в том, что последние не предполагают знания точной математической модели марковского процесса принятия решений и нацелены на большие MDP, где точные методы становятся неосуществимыми. ^[3]

Введение

Благодаря своей общности, обучение с подкреплением изучается во многих дисциплинах, таких как теория игр , теория управления , исследование операций , теория информации , оптимизация на основе моделирования , многоагентные системы , роевой интеллект и статистика . В литературе по исследованию операций и управлению обучение с подкреплением называется приближенным динамическим программированием или нейродинамическим программированием. Проблемы, представляющие интерес для обучения с подкреплением, также изучались в теории оптимального управления , которая в основном занимается существованием и характеристикой оптимальных решений и алгоритмами для их точного вычисления, и в меньшей степени обучением или приближением, особенно при отсутствии математической модели среды.

Базовое обучение с подкреплением моделируется как марковский процесс принятия решений :

набор состояний среды и агента, ; ${\mathcal {S}}$
набор действий, , агента; ${\mathcal {A}}$
$P_{a}(s,s')=\Pr(S_{t+1}=s'\mid S_{t}=s,A_{t}=a)$ , вероятность перехода (в момент времени ) из состояния в состояние под действием . $t$ $s$ $s'$ $a$
$R_{a}(s,s')$ , немедленное вознаграждение после перехода от к действию . $s$ $s'$ $a$

Цель обучения с подкреплением состоит в том, чтобы агент научился оптимальной или почти оптимальной политике, которая максимизирует «функцию вознаграждения» или другой предоставленный пользователем сигнал подкрепления, который накапливается из непосредственных вознаграждений. Это похоже на процессы, которые, по-видимому, происходят в психологии животных. (См. Подкрепление .) Например, биологический мозг запрограммирован на интерпретацию сигналов, таких как боль и голод, как отрицательных подкреплений, и на интерпретацию удовольствия и приема пищи как положительных подкреплений. В некоторых обстоятельствах животные могут научиться участвовать в поведении, которое оптимизирует эти вознаграждения. Это говорит о том, что животные способны к обучению с подкреплением. ^[4]^[5]

Базовый агент обучения с подкреплением ИИ взаимодействует со своей средой в дискретных временных шагах. В каждый момент времени $t$ агент получает текущее состояние и вознаграждение . Затем он выбирает действие из набора доступных действий, которое затем отправляется в среду. Среда переходит в новое состояние , и определяется вознаграждение, связанное с переходом . Целью агента обучения с подкреплением является изучение политики : , которая максимизирует ожидаемое кумулятивное вознаграждение. $S_{t}$ $R_{t}$ $A_{t}$ $S_{t+1}$ $R_{t+1}$ $(S_{t},A_{t},S_{t+1})$ $\pi :{\mathcal {S}}\times {\mathcal {A}}\rightarrow [0,1]$ $\pi (s,a)=\Pr(A_{t}=a\mid S_{t}=s)$

Формулировка проблемы как марковского процесса принятия решений предполагает, что агент непосредственно наблюдает текущее состояние окружающей среды; в этом случае говорят, что проблема имеет полную наблюдаемость . Если агент имеет доступ только к подмножеству состояний или если наблюдаемые состояния искажены шумом, говорят, что агент имеет частичную наблюдаемость , и формально проблема должна быть сформулирована как частично наблюдаемый марковский процесс принятия решений . В обоих случаях набор действий, доступных агенту, может быть ограничен. Например, состояние баланса счета может быть ограничено положительным; если текущее значение состояния равно 3, а переход состояния пытается уменьшить значение на 4, переход не будет разрешен.

Когда производительность агента сравнивается с производительностью агента, действующего оптимально, разница в производительности порождает понятие сожаления . Чтобы действовать близко к оптимальному, агент должен рассуждать о долгосрочных последствиях своих действий (т. е. максимизировать будущий доход), хотя немедленное вознаграждение, связанное с этим, может быть отрицательным.

Таким образом, обучение с подкреплением особенно хорошо подходит для проблем, которые включают долгосрочный и краткосрочный компромисс вознаграждения. Он был успешно применен к различным проблемам, включая работу хранилища энергии, ^[6] управление роботом, ^[7] диспетчеризацию фотоэлектрических генераторов, ^[8] нарды , шашки , ^[9] го ( AlphaGo ) и автономные системы вождения . ^[10]

Два элемента делают обучение с подкреплением мощным: использование образцов для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам обучение с подкреплением может использоваться в больших средах в следующих ситуациях:

Модель среды известна, но аналитическое решение отсутствует;
Дана только имитационная модель окружающей среды (предмет имитационной оптимизации ); ^[11]
Единственный способ собрать информацию об окружающей среде — это взаимодействовать с ней.

Первые две из этих проблем можно считать проблемами планирования (поскольку доступна некоторая форма модели), тогда как последнюю можно считать настоящей проблемой обучения. Однако обучение с подкреплением преобразует обе проблемы планирования в проблемы машинного обучения .

Исследование

Компромисс между разведкой и эксплуатацией был наиболее подробно изучен с помощью задачи о многоруком бандите и для марковских процессов принятия решений в конечном пространстве состояний в работе Бернетаса и Катехакиса (1997). ^[12]

Обучение с подкреплением требует умных механизмов исследования; случайный выбор действий без ссылки на предполагаемое распределение вероятностей показывает плохую производительность. Случай (малых) конечных марковских процессов принятия решений относительно хорошо изучен. Однако из-за отсутствия алгоритмов, которые хорошо масштабируются с числом состояний (или масштабируются для задач с бесконечными пространствами состояний), простые методы исследования являются наиболее практичными.

Один из таких методов - жадный, где - параметр, контролирующий количество разведки и эксплуатации. При вероятности выбирается эксплуатация, и агент выбирает действие, которое, по его мнению, имеет наилучший долгосрочный эффект (связи между действиями разрываются равномерно и случайным образом). В качестве альтернативы, при вероятности выбирается разведка, и действие выбирается равномерно и случайным образом. обычно является фиксированным параметром, но может быть скорректирован либо в соответствии с графиком (заставляя агента исследовать все меньше), либо адаптивно на основе эвристики. ^[13] $\varepsilon$ $0<\varepsilon <1$ $1-\varepsilon$ $\varepsilon$ $\varepsilon$

Алгоритмы для управления обучением

Даже если вопрос исследования не принимается во внимание и даже если состояние можно было наблюдать (что предполагается далее), остается проблема использования прошлого опыта для выяснения того, какие действия приводят к более высокому совокупному вознаграждению.

Критерий оптимальности

Политика

Выбор действий агента моделируется в виде карты, называемой политикой :

\pi :{\mathcal {A}}\times {\mathcal {S}}\rightarrow [0,1]

\pi (a,s)=\Pr(A_{t}=a\mid S_{t}=s)

Карта политики показывает вероятность принятия мер в состоянии . ^[14]^{: 61} Существуют также детерминированные политики. $a$ $s$

Функция состояния-значения

Функция состояния-стоимости определяется как ожидаемая дисконтированная доходность, начиная с состояния , т.е. , и последовательно следуя политике . Таким образом, грубо говоря, функция стоимости оценивает «насколько хорошо» находиться в данном состоянии. ^[14]^{: 60} $V_{\pi }(s)$ $s$ $S_{0}=s$ $\pi$

V_{\pi }(s)=\operatorname {\mathbb {E} } [G\mid S_{0}=s]=\operatorname {\mathbb {E} } \left[\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}\mid S_{0}=s\right],

где случайная величина обозначает дисконтированную доходность и определяется как сумма будущих дисконтированных вознаграждений: $G$

G=\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}=R_{1}+\gamma R_{2}+\gamma ^{2}R_{3}+\dots ,

где — вознаграждение за переход из состояния в , — ставка дисконтирования . меньше 1, поэтому вознаграждения в отдаленном будущем имеют меньший вес, чем вознаграждения в ближайшем будущем. $R_{t+1}$ $S_{t}$ $S_{t+1}$ $0\leq \gamma <1$ $\gamma$

Алгоритм должен найти политику с максимальным ожидаемым дисконтированным доходом. Из теории марковских процессов принятия решений известно, что без потери общности поиск можно ограничить набором так называемых стационарных политик. Политика является стационарной , если возвращаемое ею распределение действий зависит только от последнего посещенного состояния (из истории агента наблюдения). Поиск можно дополнительно ограничить детерминированными стационарными политиками. Детерминированная стационарная политика детерминированно выбирает действия на основе текущего состояния. Поскольку любая такая политика может быть идентифицирована с помощью отображения из набора состояний в набор действий, эти политики можно идентифицировать с помощью таких отображений без потери общности.

Грубая сила

Метод грубой силы включает в себя два шага:

Для каждой возможной политики образец возвращается при ее соблюдении
Выберите политику с наибольшей ожидаемой дисконтированной доходностью

Одна из проблем заключается в том, что количество полисов может быть большим или даже бесконечным. Другая проблема заключается в том, что дисперсия доходности может быть большой, что требует множества выборок для точной оценки дисконтированной доходности каждого полиса.

Эти проблемы можно смягчить, если предположить некоторую структуру и позволить образцам, полученным из одной политики, влиять на оценки, сделанные для других. Два основных подхода к достижению этого — оценка функции ценности и прямой поиск политики.

Функция ценности

Подходы на основе функции стоимости пытаются найти политику, которая максимизирует дисконтированную доходность, поддерживая набор оценок ожидаемой дисконтированной доходности для некоторой политики (обычно либо «текущей» [в рамках политики], либо оптимальной [вне политики]). $\operatorname {\mathbb {E} } [G]$

Эти методы опираются на теорию марковских процессов принятия решений, где оптимальность определяется в более строгом смысле, чем тот, что указан выше: политика оптимальна, если она достигает наилучшего ожидаемого дисконтированного дохода из любого начального состояния (т. е. начальные распределения не играют никакой роли в этом определении). Опять же, оптимальную политику всегда можно найти среди стационарных политик.

Чтобы определить оптимальность формальным образом, определите государственную стоимость политики следующим образом: $\pi$

V^{\pi }(s)=\operatorname {\mathbb {E} } [G\mid s,\pi ],

где означает дисконтированную доходность, связанную с выходом из начального состояния . Определяя как максимально возможное значение состояния , где разрешено изменяться, $G$ $\pi$ $s$ $V^{*}(s)$ $V^{\pi }(s)$ $\pi$

V^{*}(s)=\max _{\pi }V^{\pi }(s).

Политика, которая достигает этих оптимальных значений состояний в каждом состоянии, называется оптимальной . Очевидно, что политика, которая оптимальна в этом смысле, также оптимальна в том смысле, что она максимизирует ожидаемую дисконтированную доходность, поскольку , где — состояние, случайно выбранное из распределения начальных состояний (так что ). $V^{*}(s)=\max _{\pi }\mathbb {E} [G\mid s,\pi ]$ $s$ $\mu$ $\mu (s)=\Pr(S_{0}=s)$

Хотя state-values достаточно для определения оптимальности, полезно определить action-values. При наличии state , action и policy action-value пары ниже определяется как $s$ $a$ $\pi$ $(s,a)$ $\pi$

Q^{\pi }(s,a)=\operatorname {\mathbb {E} } [G\mid s,a,\pi ],\,

где теперь обозначает случайную дисконтированную доходность, связанную с первым совершением действия в состоянии и последующими действиями в дальнейшем. $G$ $a$ $s$ $\pi$

Теория марковских процессов принятия решений утверждает, что если — оптимальная политика, мы действуем оптимально (предпринимаем оптимальное действие), выбирая действие из с наивысшей ценностью действия в каждом состоянии, . Функция ценности действия такой оптимальной политики ( ) называется оптимальной функцией ценности действия и обычно обозначается . Подводя итог, можно сказать, что знания одной только оптимальной функции ценности действия достаточно, чтобы знать, как действовать оптимально. $\pi ^{*}$ $Q^{\pi ^{*}}(s,\cdot )$ $s$ $Q^{\pi ^{*}}$ $Q^{*}$

Предполагая полное знание процесса принятия решений Маркова, два основных подхода к вычислению оптимальной функции действие-значение — это итерация значения и итерация политики . Оба алгоритма вычисляют последовательность функций ( ), которые сходятся к . Вычисление этих функций включает вычисление ожиданий по всему пространству состояний, что непрактично для всех, кроме самых маленьких (конечных) процессов принятия решений Маркова. В методах обучения с подкреплением ожидания аппроксимируются путем усреднения по образцам и использования методов аппроксимации функций, чтобы справиться с необходимостью представления функций значений по большим пространствам состояний-действий. $Q_{k}$ $k=0,1,2,\ldots$ $Q^{*}$

Методы Монте-Карло

Методы Монте-Карло ^[15] используются для решения задач обучения с подкреплением путем усреднения выборочных возвратов. В отличие от методов, требующих полного знания динамики среды, методы Монте-Карло полагаются исключительно на реальный или смоделированный опыт — последовательности состояний, действий и вознаграждений, полученных в результате взаимодействия со средой. Это делает их применимыми в ситуациях, когда полная динамика неизвестна. Обучение на реальном опыте не требует предварительного знания среды и все еще может привести к оптимальному поведению. При использовании смоделированного опыта требуется только модель, способная генерировать выборочные переходы, а не полная спецификация вероятностей переходов , которая необходима для методов динамического программирования .

Методы Монте-Карло применяются к эпизодическим задачам, где опыт делится на эпизоды, которые в конечном итоге завершаются. Обновления политики и функции ценности происходят только после завершения эпизода, что делает эти методы инкрементальными на основе эпизод за эпизодом, хотя и не на пошаговой (онлайн) основе. Термин «Монте-Карло» обычно относится к любому методу, включающему случайную выборку ; однако в этом контексте он конкретно относится к методам, которые вычисляют средние значения из полных возвратов, а не частичных возвратов.

Эти методы функционируют аналогично алгоритмам бандита , в которых возвраты усредняются для каждой пары состояние-действие. Ключевое отличие заключается в том, что действия, предпринимаемые в одном состоянии, влияют на возвраты последующих состояний в том же эпизоде, делая проблему нестационарной . Для решения этой нестационарности методы Монте-Карло используют структуру общей итерации политики (GPI). В то время как динамическое программирование вычисляет функции значений, используя полное знание процесса принятия решений Маркова (MDP), методы Монте-Карло изучают эти функции с помощью выборочных возвратов. Функции значений и политики взаимодействуют аналогично динамическому программированию для достижения оптимальности , сначала решая проблему прогнозирования, а затем расширяя ее до улучшения и контроля политики, все на основе выборочного опыта. ^[14]

Методы временной разницы

Первая проблема устраняется путем разрешения процедуре изменять политику (в некоторых или всех состояниях) до того, как значения установятся. Это также может быть проблематично, поскольку может помешать конвергенции. Большинство современных алгоритмов делают это, что приводит к классу обобщенных алгоритмов итерации политики . Многие методы актор-критик относятся к этой категории.

Вторая проблема может быть исправлена, если позволить траекториям вносить вклад в любую пару состояние-действие в них. Это также может помочь в некоторой степени с третьей проблемой, хотя лучшим решением, когда возвраты имеют высокую дисперсию, являются методы временной разницы (TD) Саттона, которые основаны на рекурсивном уравнении Беллмана . ^[16]^[17] Вычисления в методах TD могут быть инкрементными (когда после каждого перехода память изменяется, а переход отбрасывается) или пакетными (когда переходы пакетируются, а оценки вычисляются один раз на основе пакета). Пакетные методы, такие как метод временной разницы наименьших квадратов, ^[18] могут лучше использовать информацию в выборках, в то время как инкрементные методы являются единственным выбором, когда пакетные методы неосуществимы из-за их высокой вычислительной или памяти сложности. Некоторые методы пытаются объединить два подхода. Методы, основанные на временных различиях, также преодолевают четвертую проблему.

Другая проблема, характерная для TD, возникает из-за их зависимости от рекурсивного уравнения Беллмана. Большинство методов TD имеют так называемый параметр , который может непрерывно интерполировать между методами Монте-Карло, которые не полагаются на уравнения Беллмана, и базовыми методами TD, которые полностью полагаются на уравнения Беллмана. Это может быть эффективным для решения этой проблемы. $\lambda$ $(0\leq \lambda \leq 1)$

Методы аппроксимации функций

Для решения пятой проблемы используются методы аппроксимации функций . Линейная аппроксимация функций начинается с отображения , которое назначает конечномерный вектор каждой паре состояние-действие. Затем значения действия пары состояние-действие получаются путем линейного объединения компонентов с некоторыми весами : $\phi$ $(s,a)$ $\phi (s,a)$ $\theta$

Q(s,a)=\sum _{i=1}^{d}\theta _{i}\phi _{i}(s,a).

Затем алгоритмы корректируют веса, а не корректируют значения, связанные с отдельными парами состояние-действие. Были исследованы методы, основанные на идеях непараметрической статистики (которые, как можно увидеть, конструируют свои собственные признаки).

Итерация значений также может использоваться в качестве отправной точки, что приводит к появлению алгоритма Q-обучения и его многочисленных вариантов. ^[19] Включая методы глубокого Q-обучения, когда нейронная сеть используется для представления Q, с различными приложениями в задачах стохастического поиска. ^[20]

Проблема с использованием значений действий заключается в том, что им могут потребоваться очень точные оценки конкурирующих значений действий, которые может быть трудно получить, когда возвраты зашумлены, хотя эта проблема в некоторой степени смягчается методами временной разницы. Использование так называемого метода аппроксимации совместимых функций ставит под угрозу общность и эффективность.

Прямой поиск политики

Альтернативный метод заключается в прямом поиске в (некотором подмножестве) пространства политики, в этом случае проблема становится случаем стохастической оптимизации . Доступны два подхода: градиентные и безградиентные методы.

Методы на основе градиента ( методы градиента политики ) начинаются с отображения из конечномерного (параметрического) пространства в пространство политик: учитывая вектор параметров , обозначим политику, связанную с . Определяя функцию производительности с помощью при мягких условиях эта функция будет дифференцируемой как функция вектора параметров . Если бы градиент был известен, можно было бы использовать градиентный подъем . Поскольку аналитическое выражение для градиента недоступно, доступна только шумовая оценка. Такая оценка может быть построена многими способами, что приводит к появлению алгоритмов, таких как метод Уильямса REINFORCE ^[21] (который известен как метод отношения правдоподобия в литературе по оптимизации на основе моделирования ). ^[22] $\theta$ $\pi _{\theta }$ $\theta$ $\rho (\theta )=\rho ^{\pi _{\theta }}$ $\theta$ $\rho$

Большой класс методов избегает использования градиентной информации. К ним относятся имитация отжига , кросс-энтропийный поиск или методы эволюционных вычислений . Многие методы без градиента могут достичь (в теории и в пределе) глобального оптимума.

Методы поиска политики могут сходиться медленно, учитывая шумные данные. Например, это происходит в эпизодических задачах, когда траектории длинные, а дисперсия возвратов большая. Методы, основанные на функциях ценности, которые полагаются на временные различия, могут помочь в этом случае. В последние годы были предложены и хорошо зарекомендовали себя методы актор-критик для различных задач. ^[23]

Методы поиска политики использовались в контексте робототехники . ^[24] Многие методы поиска политики могут застрять в локальных оптимумах (поскольку они основаны на локальном поиске ).

Алгоритмы на основе моделей

Наконец, все вышеперечисленные методы можно объединить с алгоритмами, которые сначала изучают модель процесса принятия решений Маркова , вероятность каждого следующего состояния, заданного действием, предпринятым из существующего состояния. Например, алгоритм Dyna ^[25] изучает модель на основе опыта и использует ее для предоставления большего количества смоделированных переходов для функции значения в дополнение к реальным переходам. Такие методы иногда можно расширить до использования непараметрических моделей, например, когда переходы просто сохраняются и «воспроизводятся» ^[26] в алгоритме обучения.

Методы, основанные на моделях, могут быть более вычислительно интенсивными, чем подходы без моделей, и их полезность может быть ограничена степенью, в которой можно изучить процесс принятия решений Маркова. ^[27]

Существуют и другие способы использования моделей, помимо обновления функции значения. ^[28] Например, в управлении с прогнозированием модели модель используется для непосредственного обновления поведения.

Теория

Как асимптотическое, так и конечно-выборочное поведение большинства алгоритмов хорошо изучены. Известны алгоритмы с доказуемо хорошей производительностью в режиме онлайн (решающие проблему разведки).

Эффективное исследование марковских процессов принятия решений представлено в работе Бернетаса и Катехакиса (1997). ^[12] Для многих алгоритмов также появились границы производительности за конечное время, но ожидается, что эти границы будут довольно свободными, и поэтому необходимо провести больше работы для лучшего понимания относительных преимуществ и ограничений.

Для инкрементальных алгоритмов решены вопросы асимптотической сходимости ^{[ требуется разъяснение ]} . Алгоритмы, основанные на временной разнице, сходятся при более широком наборе условий, чем это было возможно ранее (например, при использовании с произвольной, гладкой аппроксимацией функции).

Исследовать

Темы исследований включают:

архитектура актер-критик ^[29]
архитектура актер-критик-декорация ^[3]
адаптивные методы, которые работают с меньшим количеством (или без) параметров при большом количестве условий
обнаружение ошибок в программных проектах ^[30]
непрерывное обучение
комбинации с логическими фреймворками ^[31]
исследование в больших марковских процессах принятия решений
человеческая обратная связь ^[32]
взаимодействие между неявным и явным обучением при приобретении навыков
внутренняя мотивация , которая отличает поведение, направленное на поиск информации и любопытство, от поведения, ориентированного на выполнение задач, масштабные эмпирические оценки
большие (или непрерывные) пространства действия
модульное и иерархическое обучение с подкреплением ^[33]
многоагентное/распределенное обучение с подкреплением — интересная тема. Приложения расширяются. ^[34]
контроль, ориентированный на пассажира
оптимизация вычислительных ресурсов ^[35]^[36]^[37]
частичная информация (например, с использованием прогностического представления состояния )
Функция вознаграждения, основанная на максимизации новой информации ^[38]^[39]^[40]
планирование на основе выборки (например, на основе поиска по дереву Монте-Карло ).
торговля ценными бумагами ^[41]
передача обучения ^[42]
Обучение TD, моделирующее дофаминергическое обучение в мозге. Дофаминергические проекции от черной субстанции к функции базальных ганглиев являются ошибкой прогнозирования.
методы поиска функций ценности и политики

Сравнение основных алгоритмов

Ассоциативное обучение с подкреплением

Задачи ассоциативного обучения с подкреплением объединяют аспекты задач стохастического обучения автоматов и задач классификации шаблонов контролируемого обучения. В задачах ассоциативного обучения с подкреплением обучающаяся система взаимодействует в замкнутом цикле со своей средой. ^[46]

Глубокое обучение с подкреплением

Этот подход расширяет обучение с подкреплением, используя глубокую нейронную сеть и без явного проектирования пространства состояний. ^[47] Работа по обучению играм ATARI от Google DeepMind привлекла внимание к глубокому обучению с подкреплением или сквозному обучению с подкреплением . ^[48]

Состязательное глубокое обучение с подкреплением

Состязательное глубокое обучение с подкреплением является активной областью исследований в области обучения с подкреплением, фокусирующейся на уязвимостях изученных политик. В этой области исследований некоторые исследования изначально показали, что политики обучения с подкреплением подвержены незаметным состязательным манипуляциям. ^[49]^[50]^[51] Хотя были предложены некоторые методы для преодоления этих уязвимостей, в самых последних исследованиях было показано, что эти предлагаемые решения далеки от предоставления точного представления текущих уязвимостей политик глубокого обучения с подкреплением. ^[52]

Нечеткое обучение с подкреплением

Вводя нечеткий вывод в обучение с подкреплением, ^[53] становится возможным приближение функции значения состояния-действия с помощью нечетких правил в непрерывном пространстве. Форма IF - THEN нечетких правил делает этот подход подходящим для выражения результатов в форме, близкой к естественному языку. Расширение FRL с помощью интерполяции нечетких правил ^[54] позволяет использовать разреженные нечеткие базы правил уменьшенного размера для подчеркивания кардинальных правил (наиболее важных значений состояния-действия).

Обратное обучение с подкреплением

В обратном обучении с подкреплением (IRL) функция вознаграждения не задана. Вместо этого функция вознаграждения выводится с учетом наблюдаемого поведения эксперта. Идея состоит в том, чтобы имитировать наблюдаемое поведение, которое часто является оптимальным или близким к оптимальному. ^[55] Одна популярная парадигма IRL называется обратным обучением с подкреплением с максимальной энтропией (MaxEnt IRL). ^[56] MaxEnt IRL оценивает параметры линейной модели функции вознаграждения путем максимизации энтропии распределения вероятностей наблюдаемых траекторий с учетом ограничений, связанных с соответствием ожидаемых количеств признаков. Недавно было показано, что MaxEnt IRL является частным случаем более общей структуры, называемой обратным обучением с подкреплением со случайной полезностью (RU-IRL). ^[57] RU-IRL основан на теории случайной полезности и процессах принятия решений Маркова. В то время как предыдущие подходы IRL предполагали, что кажущееся случайное поведение наблюдаемого агента обусловлено тем, что он следует случайной политике, RU-IRL предполагает, что наблюдаемый агент следует детерминированной политике, но случайность в наблюдаемом поведении обусловлена тем, что наблюдатель имеет лишь частичный доступ к признакам, которые наблюдаемый агент использует при принятии решений. Функция полезности моделируется как случайная величина, чтобы учесть неосведомленность наблюдателя относительно признаков, которые наблюдаемый агент фактически учитывает в своей функции полезности.

Безопасное обучение с подкреплением

Безопасное обучение с подкреплением (SRL) можно определить как процесс политик обучения, которые максимизируют ожидание возврата в задачах, в которых важно обеспечить разумную производительность системы и/или соблюдать ограничения безопасности во время процессов обучения и/или развертывания. ^[58] Альтернативный подход — это обучение с подкреплением, не склонное к риску, где вместо ожидаемого возврата оптимизируется мера риска возврата, такая как условная стоимость под риском (CVaR). ^[59] Помимо снижения риска, цель CVaR повышает устойчивость к неопределенностям модели. ^[60]^[61] Однако оптимизация CVaR в RL, не склонном к риску, требует особой осторожности, чтобы предотвратить смещение градиента ^[62] и слепоту к успеху. ^[63]

Самоподкрепляющее обучение

Обучение с самоподкреплением (или самообучение) — это парадигма обучения, которая не использует концепцию немедленного вознаграждения Ra(s,s') после перехода от s к s' с действием a. Уравнение обучения не включает немедленное вознаграждение, оно включает только оценку состояния. Эмоция рассматривается как внутренняя оценка состояния и используется как внутреннее самоподкрепление. В процессе обучения эмоции распространяются обратно с помощью механизма вторичного подкрепления.

Алгоритм самоусиления обновляет матрицу памяти W =||w(a,s)|| таким образом, что на каждой итерации выполняется следующая процедура машинного обучения: 1. в ситуации s выполнить действие a 2. получить последствие ситуации s' 3. вычислить оценку состояния v(s') того, насколько хорошо быть в последствии ситуации s' 4. обновить перекрестную память w'(a,s) = w(a,s) + v(s')

Начальные условия памяти получены в качестве входных данных из генетической среды. Это система с единственным входом (ситуацией) и единственным выходом (действием или поведением).

Самоподкрепление (самообучение) было введено в 1982 году вместе с нейронной сетью, способной к самоподкрепляющему обучению, названной Crossbar Adaptive Array (CAA). ^[64]^[65] CAA вычисляет, в стиле Crossbar, как решения о действиях, так и эмоции (чувства) о состояниях последствий. Система управляется взаимодействием между познанием и эмоциями. ^[66]

Статистическое сравнение алгоритмов обучения с подкреплением

Эффективное сравнение алгоритмов RL необходимо для исследования, развертывания и мониторинга систем RL. Чтобы сравнить различные алгоритмы в заданной среде, агент может быть обучен для каждого алгоритма. Поскольку производительность чувствительна к деталям реализации, все алгоритмы должны быть реализованы как можно ближе друг к другу. ^[67] После завершения обучения агенты могут быть запущены на выборке тестовых эпизодов, и их баллы (возвраты) могут быть сравнены. Поскольку эпизоды обычно предполагаются как iid , для проверки гипотез могут использоваться стандартные статистические инструменты, такие как T-тест и тест перестановки . ^[68] Для этого требуется аккумулировать все вознаграждения в эпизоде в одно число — эпизодический возврат. Однако это приводит к потере информации, поскольку различные временные шаги усредняются вместе, возможно, с различными уровнями шума. Всякий раз, когда уровень шума меняется в течение эпизода, статистическую мощность можно значительно улучшить, взвешивая вознаграждения в соответствии с их оценочным шумом. ^[69]

Смотрите также

Временная разница в обучении
Q-обучение
Государство-действие-вознаграждение-государство-действие (SARSA)
Подкрепление обучения на основе обратной связи от человека
Оптимальное управление
Обучение на основе ошибок
Многоагентное обучение с подкреплением
Обучение по программе ученичества
Безмоделевое обучение (обучение с подкреплением)
Обучение с подкреплением на основе моделей
Прямое обучение с подкреплением ^[3] ^[70]
Косвенное обучение с подкреплением ^[3] ^[70]
активное обучение (машинное обучение)

Ссылки

^ Kaelbling, Leslie P. ; Littman, Michael L. ; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research . 4 : 237–285. arXiv : cs/9605103 . doi :10.1613/jair.301. S2CID 1708582. Архивировано из оригинала 20 ноября 2001 г.
^ Ван Оттерло, М.; Виринг, М. (2012). «Обучение с подкреплением и марковские процессы принятия решений». Обучение с подкреплением . Адаптация, обучение и оптимизация. Том 12. С. 3–42. doi :10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
^ abcd Ли, Шенгбо (2023). Обучение с подкреплением для последовательного принятия решений и оптимального управления (первое издание). Springer Verlag, Сингапур. стр. 1–460. doi :10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID 257928563.{{cite book}}: CS1 maint: location missing publisher (link)
^ Рассел, Стюарт Дж.; Норвиг, Питер (2010). Искусственный интеллект: современный подход (третье изд.). Верхняя Сэддл-Ривер, Нью-Джерси. стр. 830, 831. ISBN 978-0-13-604259-4.{{cite book}}: CS1 maint: location missing publisher (link)
^ Ли, Дэёль; Со, Хёджон; Чон, Мин Вань (21 июля 2012 г.). «Нейронная основа обучения с подкреплением и принятия решений». Annual Review of Neuroscience . 35 (1): 287–308. doi :10.1146/ annurev -neuro-062111-150512. PMC 3490621. PMID 22462543.
^ Салазар Дуке, Эдгар Маурисио; Хиральдо, Хуан С.; Вергара, Педро П.; Нгуен, Фуонг; Ван дер Молен, Энн; Слотвег, Хан (2022). «Эксплуатация общественного хранилища энергии посредством обучения с подкреплением и отслеживанием приемлемости». Исследование электроэнергетических систем . 212 . Бибкод : 2022EPSR..21208515S. дои : 10.1016/j.epsr.2022.108515 . S2CID 250635151.
^ Се, Чжаомин; Хун Юй Лин; Нам Хи Ким; Михиль ван де Панне (2020). «ALLSTEPS: Обучение навыкам перехода на ступеньку в рамках учебной программы». arXiv : 2005.04323 [cs.GR].
^ Вергара, Педро П.; Салазар, Маурисио; Хиральдо, Хуан С.; Паленски, Питер (2022). «Оптимальное распределение фотоэлектрических инверторов в несбалансированных системах распределения с использованием обучения с подкреплением». Международный журнал по электроэнергетике и энергетическим системам . 136. Bibcode : 2022IJEPE.13607628V. doi : 10.1016/j.ijepes.2021.107628 . S2CID 244099841.
^ Саттон и Барто 2018, Глава 11.
^ Жэнь, Янган; Цзян, Цзяньхуа; Чжань, Гоцзянь; Ли, Шэнбо Эбен; Чэнь, Чэнь; Ли, Кэцян; Дуань, Цзинлян (2022). «Самообучающийся интеллект для комплексного принятия решений и управления автоматизированными транспортными средствами на светофорных перекрестках». Труды IEEE по интеллектуальным транспортным системам . 23 (12): 24145–24156. arXiv : 2110.12359 . doi : 10.1109/TITS.2022.3196167.
^ Госави, Абхиджит (2003). Оптимизация на основе моделирования: Методы параметрической оптимизации и подкрепление. Серия «Исследование операций/Интерфейсы компьютерной науки». Springer. ISBN 978-1-4020-7454-7.
^ ab Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Оптимальные адаптивные политики для марковских процессов принятия решений", Mathematics of Operations Research , 22 (1): 222–255, doi :10.1287/moor.22.1.222, JSTOR 3690147
^ Tokic, Michel; Palm, Günther (2011), «Исследование на основе разницы значений: адаптивное управление между Epsilon-Greedy и Softmax» (PDF) , KI 2011: Достижения в области искусственного интеллекта , Lecture Notes in Computer Science, т. 7006, Springer, стр. 335–346, ISBN 978-3-642-24455-1
^ abc "Reinforcement learning: An Introduction" (PDF) . Архивировано из оригинала (PDF) 2017-07-12 . Получено 2017-07-23 .
^ Сингх, Сатиндер П.; Саттон, Ричард С. (1996-03-01). «Обучение с подкреплением с заменой следов пригодности». Машинное обучение . 22 (1): 123–158. doi :10.1007/BF00114726. ISSN 1573-0565.
^ Саттон, Ричард С. (1984). Временное присвоение кредитов в обучении с подкреплением (диссертация на степень доктора философии). Массачусетский университет, Амхерст, Массачусетс. Архивировано из оригинала 2017-03-30 . Получено 2017-03-29 .
^ Sutton & Barto 2018, § 6. Обучение с учетом временных различий.
^ Bradtke, Steven J.; Barto, Andrew G. (1996). «Обучение прогнозированию методом временных различий». Machine Learning . 22 : 33–57. CiteSeerX 10.1.1.143.857 . doi :10.1023/A:1018056104778. S2CID 20327856.
^ Уоткинс, Кристофер Дж. Ч. Х. (1989). Обучение на основе отложенных вознаграждений (PDF) (диссертация доктора философии). Королевский колледж, Кембридж, Великобритания.
^ Мацлиах, Барух; Бен-Гал, Ирад; Каган, Евгений (2022). «Обнаружение статических и мобильных целей автономным агентом с глубокими способностями к Q-обучению». Энтропия . 24 (8): 1168. Bibcode : 2022Entrp..24.1168M . doi : 10.3390/e24081168 . PMC 9407070. PMID 36010832.
^ Уильямс, Рональд Дж. (1987). «Класс алгоритмов оценки градиента для обучения с подкреплением в нейронных сетях». Труды Первой международной конференции IEEE по нейронным сетям . CiteSeerX 10.1.1.129.8871 .
^ Питерс, Ян ; Виджаякумар, Сету ; Шааль, Стефан (2003). Обучение с подкреплением для гуманоидной робототехники (PDF) . Международная конференция IEEE-RAS по гуманоидным роботам. Архивировано из оригинала (PDF) 2013-05-12.
^ Джулиани, Артур (17.12.2016). "Простое обучение с подкреплением с Tensorflow, часть 8: асинхронные агенты актор-критик (A3C)". Medium . Получено 22.02.2018 .
^ Дайзенрот, Марк Питер; Нойманн, Герхард ; Питерс, Ян (2013). Обзор поиска политики в области робототехники (PDF) . Основы и тенденции в робототехнике. Том 2. NOW Publishers. С. 1–142. doi :10.1561/2300000021. hdl :10044/1/12051.
^ Саттон, Ричард (1990). «Интегрированные архитектуры для обучения, планирования и реагирования на основе динамического программирования». Машинное обучение: Труды седьмого международного семинара .
^ Лин, Лонг-Джи (1992). «Самосовершенствующиеся реактивные агенты на основе обучения с подкреплением, планирования и обучения» (PDF) . Машинное обучение, том 8. doi : 10.1007/BF00992699.
^ Цзоу, Лан (2023-01-01), Цзоу, Лан (ред.), «Глава 7 — Мета-обучение с подкреплением», Meta-Learning , Academic Press, стр. 267–297, doi :10.1016/b978-0-323-89931-4.00011-0, ISBN 978-0-323-89931-4, получено 2023-11-08
^ Ван Хасселт, Хадо; Хессель, Маттео; Асланидес, Джон (2019). «Когда использовать параметрические модели в обучении с подкреплением?» (PDF) . Достижения в области нейронных систем обработки информации 32 .
^ Грондман, Иво; Ваандрагер, Мартен; Бузониу, Лучиан; Бабушка, Роберт; Шуитема, Эрик (1 июня 2012 г.). «Эффективные методы обучения моделей для управления актером и критиком». Пер. Сис. Человек Кибер. Часть Б. 42 (3): 591–602. дои : 10.1109/TSMCB.2011.2170565. ISSN 1083-4419. ПМИД 22156998.
^ «Об использовании обучения с подкреплением для тестирования игровой механики: ACM — Компьютеры в развлечениях». cie.acm.org . Получено 27.11.2018 .
^ Риверет, Реджис; Гао, Ян (2019). «Вероятностная структура аргументации для агентов обучения с подкреплением». Автономные агенты и многоагентные системы . 33 (1–2): 216–274. doi :10.1007/s10458-019-09404-2. S2CID 71147890.
^ Ямагата, Таку; МакКонвилл, Райан; Сантос-Родригес, Рауль (16.11.2021). «Обучение с подкреплением с обратной связью от нескольких людей с различными навыками». arXiv : 2111.08596 [cs.LG].
^ Кулкарни, Теджас Д.; Нарасимхан, Картик Р.; Саиди, Ардаван; Тененбаум, Джошуа Б. (2016). «Иерархическое глубокое обучение с подкреплением: интеграция временной абстракции и внутренней мотивации». Труды 30-й Международной конференции по системам обработки нейронной информации . NIPS'16. США: Curran Associates Inc.: 3682–3690. arXiv : 1604.06057 . Bibcode : 2016arXiv160406057K. ISBN 978-1-5108-3881-9.
^ "Обучение с подкреплением / Успехи обучения с подкреплением". umichrl.pbworks.com . Получено 2017-08-06 .
^ Дей, Сомдип; Сингх, Амит Кумар; Ван, Сяохан; Макдональд-Майер, Клаус (март 2020 г.). «Обучение с подкреплением, учитывающее взаимодействие с пользователем, для повышения энергоэффективности и тепловой эффективности мобильных MPSoC CPU-GPU». Конференция и выставка «Проектирование, автоматизация и тестирование в Европе» 2020 г. (ДАТА) (PDF) . стр. 1728–1733. doi :10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID 219858480.
^ Квестед, Тони. «Смартфоны становятся умнее с инновациями Эссекса». Business Weekly . Получено 17 июня 2021 г.
^ Уильямс, Рианнон (21 июля 2020 г.). «Будущие смартфоны «продлят срок службы своих аккумуляторов, отслеживая поведение владельцев». i . Получено 17 июня 2021 г.
^ Каплан, Ф.; Оудейер, П. (2004). «Максимизация прогресса обучения: внутренняя система вознаграждения за развитие». В Иида, Ф.; Пфайфер, Р.; Стилс, Л.; Куниёси, Й. (ред.). Воплощенный искусственный интеллект . Конспект лекций по информатике. Том 3139. Берлин; Гейдельберг: Springer. стр. 259–270. doi :10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6. S2CID 9781221.
^ Клюбин, А.; Полани, Д.; Неханив, К. (2008). «Держите свои возможности открытыми: принцип управления на основе информации для сенсомоторных систем». PLOS ONE . 3 (12): e4018. Bibcode : 2008PLoSO ...3.4018K. doi : 10.1371/journal.pone.0004018 . PMC 2607028. PMID 19107219.
^ Барто, АГ (2013). «Внутренняя мотивация и обучение с подкреплением». Внутренне мотивированное обучение в естественных и искусственных системах (PDF) . Берлин; Гейдельберг: Springer. С. 17–47.
^ Дабериус , Кевин; Гранат, Элвин; Карлссон, Патрик (2020). «Глубокое исполнение — обучение с подкреплением на основе стоимости и политики для торговли и преодоления рыночных эталонов». Журнал машинного обучения в финансах . 1. SSRN 3374766.
^ Джордж Каримпанал, Томмен; Буффанаис, Роланд (2019). «Самоорганизующиеся карты для хранения и передачи знаний в обучении с подкреплением». Adaptive Behavior . 27 (2): 111–126. arXiv : 1811.08318 . doi :10.1177/1059712318818568. ISSN 1059-7123. S2CID 53774629.
^ J Duan; Y Guan; S Li (2021). «Распределительный мягкий актор-критик: обучение с подкреплением вне политики для устранения ошибок оценки значений». Труды IEEE по нейронным сетям и системам обучения . 33 (11): 6584–6598. arXiv : 2001.02811 . doi : 10.1109/TNNLS.2021.3082568. PMID 34101599. S2CID 211259373.
^ Y Ren; J Duan; S Li (2020). «Улучшение обобщения обучения с подкреплением с помощью минимаксного распределения мягкого актера-критика». 2020 IEEE 23-я международная конференция по интеллектуальным транспортным системам (ITSC) . стр. 1–6. arXiv : 2002.05502 . doi : 10.1109/ITSC45102.2020.9294300. ISBN 978-1-7281-4149-7. S2CID 211096594.
^ Дуань, Дж.; Ван, В.; Сяо, Л. (2023-10-26). «DSAC-T: Распределительный мягкий актор-критик с тремя уточнениями». arXiv : 2310.05858 [cs.LG].
^ Соучек, Бранко (6 мая 1992 г.). Динамическое, генетическое и хаотическое программирование: серия компьютерных технологий шестого поколения . John Wiley & Sons, Inc. стр. 38. ISBN 0-471-55717-X.
^ Франсуа-Лаве, Винсент; и др. (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode :2018arXiv181112560F. doi :10.1561/2200000071. S2CID 54434537.
^ Мних, Владимир и др. (2015). «Управление на уровне человека посредством глубокого обучения с подкреплением». Nature . 518 (7540): 529–533. Bibcode :2015Natur.518..529M. doi :10.1038/nature14236. PMID 25719670. S2CID 205242740.
^ Гудфеллоу, Ян; Шленс, Джонатан; Сзегеди, Кристиан (2015). «Объяснение и использование состязательных примеров». Международная конференция по представлениям обучения . arXiv : 1412.6572 .
^ Бехзадан, Вахид; Мунир, Арслан (2017). «Уязвимость глубокого обучения с подкреплением к атакам на основе политики». Машинное обучение и интеллектуальный анализ данных в распознавании образов . Конспект лекций по информатике. Том 10358. С. 262–275. arXiv : 1701.04143 . doi :10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. S2CID 1562290.
^ Питер, Хуан, Сэнди Папернот, Николас Гудфеллоу, Ян Дуань, Ян Аббель (2017-02-07). Состязательные атаки на политики нейронных сетей. OCLC 1106256905.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Коркмаз, Эзги (2022). «Политики глубокого обучения с подкреплением изучают общие состязательные признаки в MDP». Тридцать шестая конференция AAAI по искусственному интеллекту (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . doi : 10.1609/aaai.v36i7.20684 . S2CID 245219157.
^ Berenji, HR (1994). "Fuzzy Q-learning: новый подход к нечеткому динамическому программированию". Труды 3-й Международной конференции IEEE по нечетким системам 1994 года . Орландо, Флорида, США: IEEE. стр. 486–491. doi :10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X. S2CID 56694947.
^ Винце, Дэвид (2017). «Интерполяция нечетких правил и обучение с подкреплением» (PDF) . 2017 IEEE 15-й Международный симпозиум по прикладному машинному интеллекту и информатике (SAMI) . IEEE. стр. 173–178. doi :10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.
^ Ng, AY; Russell, SJ (2000). "Алгоритмы для обратного обучения с подкреплением" (PDF) . Труды ICML '00 Труды семнадцатой международной конференции по машинному обучению . стр. 663–670. ISBN 1-55860-707-2.
^ Зибарт, Брайан Д.; Маас, Эндрю; Багнелл, Дж. Эндрю; Дей, Анинд К. (2008-07-13). "Максимальная энтропия обратного обучения с подкреплением". Труды 23-й Национальной конференции по искусственному интеллекту - Том 3. AAAI'08. Чикаго, Иллинойс: AAAI Press: 1433–1438. ISBN 978-1-57735-368-3. S2CID 336219.
^ Питомбейра-Нето, Ансельмо Р.; Сантос, Хелано П.; Коэльо да Силва, Тициана Л.; де Маседо, Хосе Антонио Ф. (март 2024 г.). «Моделирование траектории с помощью обучения с обратным подкреплением со случайной полезностью». Информационные науки . 660 : 120128. arXiv : 2105.12092 . doi : 10.1016/j.ins.2024.120128. ISSN 0020-0255. S2CID 235187141.
^ Гарсия, Хавьер; Фернандес, Фернандо (1 января 2015 г.). «Комплексный обзор безопасного обучения с подкреплением» (PDF) . Журнал исследований машинного обучения . 16 (1): 1437–1480.
^ Дэбни, Уилл; Островски, Георг; Сильвер, Дэвид; Муньос, Реми (2018-07-03). «Неявные квантильные сети для обучения с подкреплением на основе распределения». Труды 35-й Международной конференции по машинному обучению . PMLR: 1096–1105. arXiv : 1806.06923 .
^ Чоу, Йинлам; Тамар, Авив; Маннор, Ши; Павоне, Марко (2015). «Чувствительное к риску и надежное принятие решений: подход к оптимизации CVaR». Достижения в области нейронных систем обработки информации . 28. Curran Associates, Inc. arXiv : 1506.02188 .
^ «Тренируйся усердно, сражайся легко: надежное метаподкрепляющее обучение». scholar.google.com . Получено 21.06.2024 .
^ Тамар, Авив; Гласснер, Йонатан; Маннор, Ши (21.02.2015). «Оптимизация CVaR с помощью выборки». Труды конференции AAAI по искусственному интеллекту . 29 (1). arXiv : 1404.3862 . doi : 10.1609/aaai.v29i1.9561. ISSN 2374-3468.
^ Гринберг, Идо; Чоу, Йинлам; Гавамзаде, Мохаммад; Маннор, Ши (2022-12-06). «Эффективное обучение с подкреплением, избегающее риска». Достижения в области нейронных систем обработки информации . 35 : 32639–32652. arXiv : 2205.05138 .
^ Бозиновски, С. (1982). «Самообучающаяся система с использованием вторичного подкрепления». В Траппл, Роберт (ред.). Кибернетика и системные исследования: Труды шестой европейской встречи по кибернетике и системным исследованиям. Северная Голландия. С. 397–402. ISBN 978-0-444-86488-8
^ Бозиновски С. (1995) «Нейрогенетические агенты и структурная теория систем самоподкрепления обучения». Технический отчет CMPSCI 95-107, Массачусетский университет в Амхерсте [1]
^ Бозиновски, С. (2014) «Моделирование механизмов взаимодействия познания и эмоций в искусственных нейронных сетях с 1981 года». Procedia Computer Science, стр. 255-263
^ Энгстром, Логан; Ильяс, Эндрю; Сантуркар, Шибани; Ципрас, Димитрис; Джанус, Фирдаус; Рудольф, Ларри; Мадри, Александр (2019-09-25). «Внедрение имеет значение в глубоком RL: исследование случая PPO и TRPO». ICLR .
^ Колас, Седрик (2019-03-06). "Руководство для путешествующих автостопом по статистическим сравнениям алгоритмов обучения с подкреплением". Международная конференция по представлениям обучения . arXiv : 1904.06979 .
^ Гринберг, Идо; Маннор, Ши (01.07.2021). «Обнаружение ухудшения вознаграждений в эпизодическом обучении с подкреплением». Труды 38-й Международной конференции по машинному обучению . PMLR: 3842–3853. arXiv : 2010.11660 .
^ ab Guan, Yang; Li, Shengbo; Duan, Jiangliang (2021). «Прямое и косвенное обучение с подкреплением». Международный журнал интеллектуальных систем . 36 (8): 4439–4467. arXiv : 1912.10600 . doi : 10.1002/int.22466.

Источники

Саттон, Ричард С.; Барто , Эндрю Г. (2018) [1998]. Обучение с подкреплением: Введение (2-е изд.). MIT Press. ISBN 978-0-262-03924-6.
Ли, Шенгбо Эбен (2023). Обучение с подкреплением для последовательного принятия решений и оптимального управления (1-е изд.). Springer Verlag, Сингапур. doi :10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1.
Берцекас, Димитрий П. (2023) [2019]. ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ И ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ (1-е изд.). Athena Scientific. ISBN 978-1-886-52939-7.

Дальнейшее чтение

Аннасвами, Анурадха М. (3 мая 2023 г.). «Адаптивное управление и пересечения с обучением с подкреплением». Ежегодный обзор управления, робототехники и автономных систем . 6 (1): 65–93. doi : 10.1146/annurev-control-062922-090153 . ISSN 2573-5144. S2CID 255702873.
Ауэр, Питер ; Якш, Томас; Ортнер, Рональд (2010). «Почти оптимальные границы сожалений для обучения с подкреплением». Журнал исследований машинного обучения . 11 : 1563–1600.
Бузониу, Лучиан; Бабушка, Роберт; Де Шуттер, Барт ; Эрнст, Дэмиен (2010). Обучение с подкреплением и динамическое программирование с использованием аппроксиматоров функций. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
Франсуа-Лаве, Винсент; Хендерсон, Питер; Ислам, Риашат; Бельмар, Марк Г.; Пино, Жоэль (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode :2018arXiv181112560F. doi :10.1561/2200000071. S2CID 54434537.
Powell, Warren (2011). Приближенное динамическое программирование: разрешение проклятий размерности. Wiley-Interscience. Архивировано из оригинала 2016-07-31 . Получено 2010-09-08 .
Саттон, Ричард С. (1988). «Обучение прогнозированию методом временных различий». Машинное обучение . 3 : 9–44. doi : 10.1007/BF00115009 .
Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Almostly Tight Exploration Complexity Bounds" (PDF) . ICML 2010 . Omnipress. стр. 1031–1038. Архивировано из оригинала (PDF) 2010-07-14.

Внешние ссылки

Репозиторий обучения с подкреплением
Обучение с подкреплением и искусственный интеллект (RLAI, лаборатория Рича Саттона в Университете Альберты )
Лаборатория автономного обучения (ALL, лаборатория Эндрю Барто в Массачусетском университете в Амхерсте )
Реальные эксперименты по обучению с подкреплением Архивировано 08.10.2018 в Wayback Machine в Делфтском технологическом университете
Лекция Эндрю Нга в Стэнфордском университете по обучению с подкреплением
Анализ обучения с подкреплением. Серия сообщений в блоге об обучении с подкреплением с использованием кода Python.
(Длинный) взгляд на обучение с подкреплением