stringtranslate.com

Обучение с подкреплением

Обучение с подкреплением ( RL ) — это междисциплинарная область машинного обучения и оптимального управления , связанная с тем, как интеллектуальный агент должен действовать в динамической среде, чтобы максимизировать совокупное вознаграждение . Обучение с подкреплением — одна из трех основных парадигм машинного обучения , наряду с обучением с учителем и обучением без учителя .

Обучение с подкреплением отличается от обучения с учителем тем, что не требует представления помеченных пар входных/выходных данных и не требует явного исправления неоптимальных действий. Вместо этого основное внимание уделяется поиску баланса между исследованием (неизведанной территории) и использованием (текущих знаний) с целью максимизации долгосрочного вознаграждения, чья обратная связь может быть неполной или отложенной. [1]

Среда обычно описывается в форме марковского процесса принятия решений (MDP), поскольку многие алгоритмы обучения с подкреплением для этого контекста используют методы динамического программирования . [2] Основное различие между классическими методами динамического программирования и алгоритмами обучения с подкреплением заключается в том, что последние не предполагают знание точной математической модели марковского процесса принятия решений и нацелены на большие марковские процессы принятия решений, где точные методы становятся невозможными. [3]

Введение

Типичная структура сценария обучения с подкреплением (RL): агент совершает действия в среде, которые интерпретируются как вознаграждение и представление состояния, которые передаются обратно агенту.

Из-за своей общности обучение с подкреплением изучается во многих дисциплинах, таких как теория игр , теория управления , исследование операций , теория информации , оптимизация на основе моделирования , многоагентные системы , роевой интеллект и статистика . В литературе по исследованию операций и управлению обучение с подкреплением называется приближенным динамическим программированием или нейродинамическим программированием. Проблемы, представляющие интерес для обучения с подкреплением, также изучались в теории оптимального управления , которая занимается главным образом существованием и характеристикой оптимальных решений, а также алгоритмами их точного вычисления, и в меньшей степени обучением или аппроксимацией, особенно в отсутствие математическая модель окружающей среды.

Базовое обучение с подкреплением моделируется как марковский процесс принятия решений :

Цель обучения с подкреплением состоит в том, чтобы агент выучил оптимальную или почти оптимальную политику, которая максимизирует «функцию вознаграждения» или другой сигнал подкрепления, предоставляемый пользователем, который накапливается из немедленных вознаграждений. Это похоже на процессы, которые происходят в психологии животных. Например, биологический мозг запрограммирован интерпретировать такие сигналы, как боль и голод, как отрицательное подкрепление, а удовольствие и прием пищи — как положительное подкрепление. В некоторых обстоятельствах животные могут научиться вести себя так, чтобы оптимизировать эти вознаграждения. Это говорит о том, что животные способны к обучению с подкреплением. [4] [5]

Базовый ИИ-агент обучения с подкреплением взаимодействует со своей средой дискретными шагами по времени. В каждый момент времени t агент получает текущее состояние и вознаграждение . Затем он выбирает действие из набора доступных действий, которое впоследствии отправляется в среду. Окружающая среда переходит в новое состояние и определяется вознаграждение , связанное с переходом . Целью агента обучения с подкреплением является изучение политики , которая максимизирует ожидаемое совокупное вознаграждение.

Формулировка проблемы в виде марковского процесса принятия решений предполагает, что агент непосредственно наблюдает за текущим состоянием окружающей среды; в этом случае говорят, что задача имеет полную наблюдаемость . Если агент имеет доступ только к подмножеству состояний или если наблюдаемые состояния искажаются шумом, говорят, что агент имеет частичную наблюдаемость , и формально проблема должна быть сформулирована как частично наблюдаемый марковский процесс принятия решений . В обоих случаях набор доступных агенту действий может быть ограничен. Например, состояние баланса счета может быть ограничено положительным; если текущее значение состояния равно 3 и переход между состояниями пытается уменьшить значение на 4, переход не будет разрешен.

Когда эффективность агента сравнивается с эффективностью агента, действующего оптимально, разница в производительности порождает понятие сожаления . Чтобы действовать почти оптимально, агент должен рассуждать о долгосрочных последствиях своих действий (т. е. максимизировать будущий доход), хотя связанное с этим немедленное вознаграждение может быть отрицательным.

Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, которые включают в себя компромисс между долгосрочным и краткосрочным вознаграждением. Он успешно применялся для решения различных задач, включая эксплуатацию накопителей энергии, [6] управление роботами, [7] диспетчеризацию фотоэлектрических генераторов, [8] нарды , шашки , [9] Го ( AlphaGo ) и системы автономного вождения. [10]

Два элемента делают обучение с подкреплением мощным: использование выборок для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам обучение с подкреплением можно использовать в больших средах в следующих ситуациях:

Первые две из этих проблем можно считать проблемами планирования (поскольку доступна некоторая форма модели), а последнюю можно считать настоящей проблемой обучения. Однако обучение с подкреплением превращает обе проблемы планирования в проблемы машинного обучения .

Исследование

Компромисс между разведкой и эксплуатацией наиболее тщательно изучался с помощью проблемы многорукого бандита и марковских процессов принятия решений с конечным пространством состояний в Бернетасе и Катехакисе (1997). [12]

Обучение с подкреплением требует умных механизмов исследования; случайный выбор действий без привязки к предполагаемому распределению вероятностей показывает плохую производительность. Случай (малых) конечных марковских процессов принятия решений относительно хорошо изучен. Однако из-за отсутствия алгоритмов, которые хорошо масштабируются в зависимости от количества состояний (или масштабируются для задач с бесконечными пространствами состояний), наиболее практичными являются простые методы исследования.

Одним из таких методов является -greedy, где это параметр, контролирующий объем исследования и эксплуатации. С вероятностью выбирается эксплуатация, и агент выбирает действие, которое, по его мнению, имеет наилучший долгосрочный эффект (связь между действиями разрывается равномерно и случайным образом). Альтернативно, с вероятностью выбирается исследование, а действие выбирается равномерно случайным образом. обычно является фиксированным параметром, но его можно корректировать либо по расписанию (заставляя агента все меньше исследовать), либо адаптивно на основе эвристики. [13]

Алгоритмы управления обучением

Даже если вопрос исследования игнорируется и даже если состояние было наблюдаемым (предполагается ниже), остается проблема использования прошлого опыта, чтобы выяснить, какие действия приводят к более высоким совокупным вознаграждениям.

Критерий оптимальности

Политика

Выбор действий агента моделируется в виде карты, называемой политикой :

Карта политики дает вероятность принятия мер в состоянии . [14] : 61  Существуют также детерминистские политики.

Функция значения состояния

Функция стоимости состояния определяется как ожидаемая дисконтированная доходность , начиная с состояния , т. е . и последовательно следуя политике . Следовательно, грубо говоря, функция ценности оценивает, «насколько хорошо» находиться в данном состоянии. [14] : 60 

где случайная величина обозначает дисконтированный доход и определяется как сумма будущих дисконтированных вознаграждений:

где – вознаграждение за переход из состояния в , – ставка дисконтирования . меньше 1, поэтому вознаграждения в отдаленном будущем имеют меньший вес, чем вознаграждения в ближайшем будущем.

Алгоритм должен найти политику с максимальной ожидаемой дисконтированной доходностью. Из теории марковских процессов принятия решений известно, что без ограничения общности поиск можно ограничить множеством так называемых стационарных политик. Политика является стационарной , если возвращаемое ею распределение действий зависит только от последнего посещенного состояния (из истории агента наблюдения). Поиск может быть дополнительно ограничен детерминистской стационарной политикой. Детерминированная стационарная политика детерминированно выбирает действия на основе текущего состояния. Поскольку любую такую ​​политику можно идентифицировать с помощью отображения набора состояний на набор действий, эти политики можно идентифицировать с помощью таких отображений без потери общности.

Грубая сила

Метод грубой силы включает в себя два этапа:

Одна из проблем заключается в том, что количество политик может быть большим или даже бесконечным. Другая причина заключается в том, что дисперсия доходности может быть большой, что требует большого количества выборок для точной оценки дисконтированной доходности каждого полиса.

Эти проблемы можно решить, если мы предположим некоторую структуру и позволим выборкам, полученным на основе одной политики, влиять на оценки, сделанные для других. Двумя основными подходами для достижения этой цели являются оценка функции стоимости и прямой поиск политики.

Функция значения

Подходы с использованием функции стоимости пытаются найти политику, которая максимизирует дисконтированную доходность, поддерживая набор оценок ожидаемой дисконтированной доходности для некоторой политики (обычно либо «текущей» [в соответствии с политикой], либо оптимальной [вне политики]).

Эти методы основаны на теории марковских процессов принятия решений, где оптимальность определяется в более строгом смысле, чем приведенный выше: политика оптимальна, если она обеспечивает наилучший ожидаемый дисконтированный доход от любого начального состояния (т. е. начальные распределения не играют никакой роли в это определение). Опять же, оптимальную политику всегда можно найти среди стационарных политик.

Чтобы формально определить оптимальность, определите государственную ценность политики с помощью

где обозначает дисконтированную доходность, связанную с следованием из исходного состояния . Определяя как максимально возможное значение состояния , где разрешено изменяться,

Политика, которая достигает этих оптимальных значений состояния в каждом штате, называется оптимальной . Очевидно, что политика, оптимальная в этом строгом смысле, также оптимальна в том смысле, что она максимизирует ожидаемый дисконтированный доход , поскольку , где – состояние, случайно выбранное из распределения начальных состояний (так что ).

Хотя значений состояния достаточно для определения оптимальности, полезно определить значения действия. Учитывая состояние , действие и политику , значение действия пары ниже определяется формулой

где теперь обозначает случайный дисконтированный доход, связанный с первым действием в состоянии и последующими действиями .

Теория марковских процессов принятия решений утверждает, что если это оптимальная политика, мы действуем оптимально (принимаем оптимальное действие), выбирая действие с наибольшим значением действия в каждом состоянии . Функция значения действия такой оптимальной политики ( ) называется оптимальной функцией значения действия и обычно обозначается . Таким образом, одного только знания оптимальной функции «действие-ценность» достаточно, чтобы знать, как действовать оптимально.

Предполагая полное знание марковского процесса принятия решений, можно выделить два основных подхода к вычислению оптимальной функции «действие-ценность»: итерация значения и итерация политики . Оба алгоритма вычисляют последовательность функций ( ), сходящихся к . Вычисление этих функций включает в себя вычисление ожиданий по всему пространству состояний, что непрактично для всех, кроме самых маленьких (конечных) марковских процессов принятия решений. В методах обучения с подкреплением ожидания аппроксимируются путем усреднения по выборкам и использования методов аппроксимации функций, чтобы справиться с необходимостью представления функций значения в больших пространствах состояний и действий.

Методы Монте-Карло

Методы Монте-Карло можно использовать в алгоритме, имитирующем итерацию политики. Итерация политики состоит из двух этапов: оценка политики и улучшение политики .

Монте-Карло используется на этапе оценки политики. На этом этапе, учитывая стационарную, детерминированную политику , цель состоит в том, чтобы вычислить значения функции (или хорошее приближение к ним) для всех пар состояние-действие . Предположим (для простоты), что процесс решения Маркова конечен, что доступно достаточно памяти для размещения значений действия, и что проблема носит эпизодический характер, и после каждого эпизода новый начинается с некоторого случайного начального состояния. Затем оценку значения данной пары состояние-действие можно вычислить путем усреднения выборочных доходов, полученных за определенный период времени. Таким образом, при наличии достаточного времени эта процедура может построить точную оценку функции действие-ценность . На этом заканчивается описание этапа оценки политики.

На этапе улучшения политики следующая политика получается путем вычисления жадной политики относительно : Учитывая состояние , эта новая политика возвращает действие, которое максимизирует . На практике ленивая оценка может отложить вычисление максимизирующих действий до того момента, когда они потребуются.

Проблемы с этой процедурой включают в себя:

  1. Процедура может потребовать слишком много времени для оценки неоптимальной политики.
  2. Он использует выборки неэффективно, поскольку длинная траектория улучшает оценку только одной пары состояние-действие, с которой началась траектория.
  3. Когда доходность по траекториям имеет высокую дисперсию , сходимость происходит медленно.
  4. Это работает только в эпизодических проблемах .
  5. Он работает только в небольших, конечных марковских процессах принятия решений.

Методы временной разницы

Первая проблема решается путем разрешения процедуре изменять политику (в некоторых или всех состояниях) до того, как значения установятся. Это также может быть проблематичным, поскольку может помешать конвергенции. Большинство современных алгоритмов делают это, создавая класс алгоритмов итерации обобщенной политики . Многие актерско-критические методы относятся к этой категории.

Вторую проблему можно исправить, разрешив траекториям вносить вклад в любую пару состояние-действие в них. Это также может в некоторой степени помочь в решении третьей проблемы, хотя лучшим решением, когда доходность имеет высокую дисперсию, является метод временной разницы (TD) Саттона, основанный на рекурсивном уравнении Беллмана . [15] [16] Вычисления в методах TD могут быть инкрементальными (когда после каждого перехода память меняется и переход выбрасывается) или пакетными (когда переходы группируются и оценки вычисляются один раз на основе пакета) . Пакетные методы, такие как метод временной разницы наименьших квадратов [17] , могут лучше использовать информацию в выборках, в то время как инкрементные методы являются единственным выбором, когда пакетные методы неосуществимы из-за их высокой вычислительной сложности или сложности памяти. Некоторые методы пытаются объединить два подхода. Методы, основанные на временных различиях, также решают четвертую проблему.

Другая проблема, характерная для TD, связана с тем, что они полагаются на рекурсивное уравнение Беллмана. Большинство методов TD имеют так называемый параметр , который может непрерывно интерполировать между методами Монте-Карло, не основанными на уравнениях Беллмана, и базовыми методами TD, которые полностью полагаются на уравнения Беллмана. Это может быть эффективным решением этой проблемы.

Методы аппроксимации функций

Для решения пятой задачи используются методы аппроксимации функций . Аппроксимация линейной функции начинается с отображения , которое присваивает конечномерный вектор каждой паре состояние-действие. Затем значения действия пары состояние-действие получаются путем линейного объединения компонентов с некоторыми весами :

Затем алгоритмы корректируют веса вместо корректировки значений, связанных с отдельными парами состояние-действие. Были изучены методы, основанные на идеях непараметрической статистики (которые, как видно, создают свои собственные функции).

Итерацию значений также можно использовать в качестве отправной точки, что дает начало алгоритму Q-обучения и его многочисленным вариантам. [18] Включая методы глубокого Q-обучения, когда для представления Q используется нейронная сеть, с различными приложениями в задачах стохастического поиска. [19]

Проблема с использованием значений действий заключается в том, что им могут потребоваться очень точные оценки конкурирующих значений действий, которые может быть трудно получить, когда результаты зашумлены, хотя эта проблема в некоторой степени смягчается методами временной разницы. Использование так называемого метода аппроксимации совместимых функций снижает общность и эффективность.

Прямой поиск политики

Альтернативным методом является поиск непосредственно в (некотором подмножестве) политического пространства, и в этом случае проблема становится случаем стохастической оптимизации . Доступны два подхода: градиентный и безградиентный.

Градиентные методы ( методы градиента политики ) начинаются с отображения конечномерного пространства (параметров) в пространство политик: учитывая вектор параметров , пусть обозначает политику, связанную с . Определив функцию производительности, в мягких условиях эта функция будет дифференцируемой как функция вектора параметров . Если бы градиент был известен, можно было бы использовать градиентное восхождение . Поскольку аналитическое выражение для градиента недоступно, доступна только зашумленная оценка. Такая оценка может быть построена разными способами, что приводит к появлению таких алгоритмов, как метод REINFORCE Уильямса [20] (который в литературе по оптимизации на основе моделирования известен как метод отношения правдоподобия ). [21]

Большой класс методов избегает использования информации о градиенте. К ним относятся моделирование отжига , перекрестный энтропийный поиск или методы эволюционных вычислений . Многие безградиентные методы могут достичь (теоретически и в пределе) глобального оптимума.

Методы поиска политики могут медленно сходиться при наличии зашумленных данных. Например, это происходит в эпизодических задачах, когда траектории длинные и дисперсия доходностей велика. В этом случае могут помочь методы, основанные на функции стоимости, основанные на временных различиях. В последние годы методы актер-критик были предложены и хорошо зарекомендовали себя при решении различных проблем. [22]

Методы поиска политики использовались в контексте робототехники . [23] Многие методы поиска политик могут застрять в локальных оптимах (поскольку они основаны на локальном поиске ).

Алгоритмы на основе моделей

Наконец, все вышеперечисленные методы можно объединить с алгоритмами, которые сначала изучают модель марковского процесса принятия решений , вероятность каждого следующего состояния с учетом действия, предпринятого из существующего состояния. Например, алгоритм Dyna [24] изучает модель на основе опыта и использует его для обеспечения более смоделированных переходов для функции значения в дополнение к реальным переходам. Такие методы иногда можно расширить за счет использования непараметрических моделей, например, когда переходы просто сохраняются и «воспроизводятся» [25] в алгоритме обучения.

Методы, основанные на моделях, могут быть более интенсивными в вычислительном отношении, чем подходы без моделей, и их полезность может быть ограничена степенью, в которой можно изучить марковский процесс принятия решений. [26]

Существуют и другие способы использования моделей, кроме обновления функции значения. [27] Например, в прогнозирующем управлении моделью модель используется для непосредственного обновления поведения.

Теория

Как асимптотическое, так и конечно-выборочное поведение большинства алгоритмов хорошо изучено. Алгоритмы с доказуемо хорошей онлайновой производительностью (решающие проблему разведки) известны.

Эффективное исследование марковских процессов принятия решений дано в Burnetas and Katehakis (1997). [12] Для многих алгоритмов также появились границы производительности за конечное время, но ожидается, что эти границы будут довольно расплывчатыми, и поэтому требуется дополнительная работа, чтобы лучше понять относительные преимущества и ограничения.

Для инкрементных алгоритмов проблемы асимптотической сходимости решены [ необходимы пояснения ] . Алгоритмы, основанные на временной разности, сходятся при более широком наборе условий, чем это было возможно ранее (например, при использовании произвольной плавной аппроксимации функции).

Исследовать

Темы исследований включают в себя:

Сравнение ключевых алгоритмов

Ассоциативное обучение с подкреплением

Задачи ассоциативного обучения с подкреплением сочетают в себе аспекты задач автоматов стохастического обучения и задач классификации моделей обучения с учителем. В задачах ассоциативного обучения с подкреплением система обучения взаимодействует со своей средой в замкнутом цикле. [44]

Глубокое обучение с подкреплением

Этот подход расширяет обучение с подкреплением за счет использования глубокой нейронной сети без явного проектирования пространства состояний. [45] Работа Google DeepMind над изучением игр ATARI повысила внимание к глубокому обучению с подкреплением или сквозному обучению с подкреплением . [46]

Состязательное обучение с глубоким подкреплением

Состязательное глубокое обучение с подкреплением — это активная область исследований в области обучения с подкреплением, в которой основное внимание уделяется уязвимостям изученных политик. Некоторые исследования в этой области исследований изначально показали, что политика обучения с подкреплением подвержена незаметным состязательным манипуляциям. [47] [48] [49] Хотя были предложены некоторые методы для преодоления этой уязвимости, в самых последних исследованиях было показано, что эти предлагаемые решения далеки от обеспечения точного представления текущих уязвимостей политики глубокого обучения с подкреплением. [50]

Нечеткое обучение с подкреплением

Путем введения нечеткого вывода в обучение с подкреплением [51] становится возможным аппроксимировать функцию ценности состояния-действия нечеткими правилами в непрерывном пространстве. Форма нечетких правил ЕСЛИ-ТО делает этот подход пригодным для выражения результатов в форме, близкой к естественному языку. Расширение FRL с помощью интерполяции нечетких правил [52] позволяет использовать разреженные нечеткие базы правил уменьшенного размера, чтобы подчеркнуть кардинальные правила (наиболее важные значения действий состояния).

Обучение с обратным подкреплением

В обратном обучении с подкреплением (IRL) функция вознаграждения не задается. Вместо этого функция вознаграждения выводится с учетом наблюдаемого поведения эксперта. Идея состоит в том, чтобы имитировать наблюдаемое поведение, которое часто является оптимальным или близким к оптимальному. [53]

Безопасное обучение с подкреплением

Безопасное обучение с подкреплением (SRL) можно определить как процесс политики обучения, которая максимизирует ожидание отдачи в проблемах, в которых важно обеспечить разумную производительность системы и/или соблюдать ограничения безопасности во время процессов обучения и/или развертывания. [54]

Смотрите также

Рекомендации

  1. ^ Кельблинг, Лесли П .; Литтман, Майкл Л .; Мур, Эндрю В. (1996). «Обучение с подкреплением: опрос». Журнал исследований искусственного интеллекта . 4 : 237–285. arXiv : cs/9605103 . дои : 10.1613/jair.301. S2CID  1708582. Архивировано из оригинала 20 ноября 2001 г.
  2. ^ ван Оттерло, М.; Виринг, М. (2012). «Обучение с подкреплением и марковские процессы принятия решений». Обучение с подкреплением . Адаптация, обучение и оптимизация. Том. 12. стр. 3–42. дои : 10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  3. ^ abcd Ли, Шэнбо (2023). Обучение с подкреплением для последовательного принятия решений и оптимального управления (первое изд.). Спрингер Верлаг, Сингапур. стр. 1–460. дои : 10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID  257928563.{{cite book}}: CS1 maint: location missing publisher (link)
  4. ^ Рассел, Стюарт Дж.; Норвиг, Питер (2010). Искусственный интеллект: современный подход (Третье изд.). Река Аппер-Сэдл, Нью-Джерси. стр. 830, 831. ISBN. 978-0-13-604259-4.{{cite book}}: CS1 maint: location missing publisher (link)
  5. ^ Ли, Дэёль; Со, Хёджон; Юнг, Мин Ван (21 июля 2012 г.). «Нейронная основа обучения с подкреплением и принятия решений». Ежегодный обзор неврологии . 35 (1): 287–308. doi : 10.1146/annurev-neuro-062111-150512. ПМК 3490621 . ПМИД  22462543. 
  6. ^ Салазар Дуке, Эдгар Маурисио; Хиральдо, Хуан С.; Вергара, Педро П.; Нгуен, Фуонг; Ван дер Молен, Энн; Слотвег, Хан (2022). «Эксплуатация общественного хранилища энергии посредством обучения с подкреплением и отслеживанием приемлемости». Исследование электроэнергетических систем . 212 . дои : 10.1016/j.epsr.2022.108515 . S2CID  250635151.
  7. ^ Се, Чжаомин; Хун Юй Лин; Нам Хи Ким; Мишель ван де Панн (2020). «ALLSTEPS: Обучение ступенькам на основе учебной программы». arXiv : 2005.04323 [cs.GR].
  8. ^ Вергара, Педро П.; Салазар, Маурисио; Хиральдо, Хуан С.; Паленский, Петр (2022). «Оптимальное управление фотоэлектрическими инверторами в несбалансированных распределительных системах с использованием обучения с подкреплением». Международный журнал электроэнергетики и энергетических систем . 136 . дои : 10.1016/j.ijepes.2021.107628 . S2CID  244099841.
  9. ^ Саттон и Барто 2018, Глава 11.
  10. ^ Рен, Янган; Цзян, Цзяньхуа; Чжан, Гоцзянь; Ли, Шэнбо Эбен; Чен, Чен; Ли, Кэцян; Дуань, Цзинлян (2022). «Самообучающийся интеллект для комплексного принятия решений и управления автоматическими транспортными средствами на регулируемых перекрестках». Транзакции IEEE в интеллектуальных транспортных системах . 23 (12): 24145–24156. arXiv : 2110.12359 . дои : 10.1109/TITS.2022.3196167.
  11. ^ Госави, Абхиджит (2003). Оптимизация на основе моделирования: методы параметрической оптимизации и усиление. Серия интерфейсов исследования операций/информатики. Спрингер. ISBN 978-1-4020-7454-7.
  12. ^ аб Бурнетас, Апостол Н.; Катехакис, Майкл Н. (1997), «Оптимальные адаптивные политики для марковских процессов принятия решений», Mathematics of Operations Research , 22 (1): 222–255, doi : 10.1287/moor.22.1.222, JSTOR  3690147
  13. ^ Токич, Мишель; Палм, Гюнтер (2011), «Исследование на основе разницы ценностей: адаптивное управление между Epsilon-Greedy и Softmax» (PDF) , KI 2011: Достижения в области искусственного интеллекта , Конспекты лекций по информатике, том. 7006, Springer, стр. 335–346, ISBN. 978-3-642-24455-1
  14. ^ ab «Обучение с подкреплением: введение» (PDF) . Архивировано из оригинала (PDF) 12 июля 2017 г. Проверено 23 июля 2017 г.
  15. ^ Саттон, Ричард С. (1984). Временное присвоение кредитов в обучении с подкреплением (докторская диссертация). Массачусетский университет, Амхерст, Массачусетс. Архивировано из оригинала 30 марта 2017 г. Проверено 29 марта 2017 г.
  16. ^ Саттон и Барто 2018, §6. Обучение с временными различиями.
  17. ^ Брадтке, Стивен Дж.; Барто, Эндрю Г. (1996). «Учимся прогнозировать методом временных разностей». Машинное обучение . 22 : 33–57. CiteSeerX 10.1.1.143.857 . дои : 10.1023/А: 1018056104778. S2CID  20327856. 
  18. ^ Уоткинс, Кристофер Дж.Ч. (1989). Обучение на основе отложенного вознаграждения (PDF) (кандидатская диссертация). Королевский колледж, Кембридж, Великобритания.
  19. ^ Мацлиах, Баруш; Бен-Гал, Ирад; Каган, Евгений (2022). «Обнаружение статических и мобильных целей автономным агентом с возможностями глубокого Q-обучения». Энтропия . 24 (8): 1168. Бибкод : 2022Entrp..24.1168M. дои : 10.3390/e24081168 . ПМК 9407070 . ПМИД  36010832. 
  20. ^ Уильямс, Рональд Дж. (1987). «Класс алгоритмов оценки градиента для обучения с подкреплением в нейронных сетях». Материалы Первой международной конференции IEEE по нейронным сетям . CiteSeerX 10.1.1.129.8871 . 
  21. ^ Питерс, Ян; Виджаякумар, Сету ; Шааль, Стефан (2003). «Обучение с подкреплением для гуманоидной робототехники» (PDF) . Международная конференция IEEE-RAS по роботам-гуманоидам .
  22. ^ Джулиани, Артур (17 декабря 2016 г.). «Простое обучение с подкреплением с помощью Tensorflow. Часть 8: Асинхронные агенты-актеры-критики (A3C)». Середина . Проверено 22 февраля 2018 г.
  23. ^ Дейзенрот, Марк Питер; Нойманн, Герхард ; Петерс, Ян (2013). Опрос по поиску политики в области робототехники (PDF) . Основы и тенденции в робототехнике. Том. 2. Издательство NOW. стр. 1–142. дои : 10.1561/2300000021. hdl : 10044/1/12051.
  24. ^ Саттон, Ричард (1990). «Интегрированные архитектуры для обучения, планирования и реагирования на основе динамического программирования». Машинное обучение: материалы седьмого международного семинара .
  25. ^ Линь, Лун-Цзи (1992). «Самосовершенствование реактивных агентов на основе обучения, планирования и обучения с подкреплением» (PDF) . Машинное обучение, том 8 . дои : 10.1007/BF00992699.
  26. ^ Цзоу, Лан (01.01.2023), Цзоу, Лан (редактор), «Глава 7 - Обучение с метаподкреплением», Мета-обучение , Academic Press, стр. 267–297, doi : 10.1016/b978-0 -323-89931-4.00011-0, ISBN 978-0-323-89931-4, получено 8 ноября 2023 г.
  27. ^ ван Хасселт, Хадо; Хессель, Маттео; Асланидес, Джон (2019). «Когда использовать параметрические модели в обучении с подкреплением?» (PDF) . Достижения в области нейронных систем обработки информации 32 .
  28. ^ «Об использовании обучения с подкреплением для тестирования игровой механики: ACM - Компьютеры в развлечениях» . cie.acm.org . Проверено 27 ноября 2018 г.
  29. ^ Риверет, Реджис; Гао, Ян (2019). «Вероятностная основа аргументации для агентов обучения с подкреплением». Автономные агенты и мультиагентные системы . 33 (1–2): 216–274. дои : 10.1007/s10458-019-09404-2. S2CID  71147890.
  30. ^ Ямагата, Таку; МакКонвилл, Райан; Сантос-Родригес, Рауль (16 ноября 2021 г.). «Обучение с подкреплением с обратной связью от нескольких людей с различными навыками». arXiv : 2111.08596 [cs.LG].
  31. ^ Кулкарни, Теджас Д.; Нарасимхан, Картик Р.; Саиди, Ардаван; Тененбаум, Джошуа Б. (2016). «Иерархическое обучение с глубоким подкреплением: интеграция временной абстракции и внутренней мотивации». Материалы 30-й Международной конференции по нейронным системам обработки информации . НИПС'16. США: Curran Associates Inc.: 3682–3690. arXiv : 1604.06057 . Бибкод : 2016arXiv160406057K. ISBN 978-1-5108-3881-9.
  32. ^ «Обучение с подкреплением / Успехи обучения с подкреплением» . umichrl.pbworks.com . Проверено 6 августа 2017 г.
  33. ^ Дей, Сомдип; Сингх, Амит Кумар; Ван, Сяохан; Макдональд-Майер, Клаус (март 2020 г.). «Усиленное обучение с учетом взаимодействия с пользователем для повышения энергоэффективности и тепловой эффективности мобильных MPSoC CPU-GPU». Конференция и выставка «Проектирование, автоматизация и испытания в Европе» 2020 (ДАТА) (PDF) . стр. 1728–1733. дои : 10.23919/ДАТА48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID  219858480.
  34. ^ Заданный вопрос, Тони. «Смартфоны становятся умнее благодаря инновациям Essex». Деловой еженедельник . Проверено 17 июня 2021 г.
  35. ^ Уильямс, Рианнон (21 июля 2020 г.). «Смартфоны будущего «продлят срок службы батареи, отслеживая поведение владельцев»». я . Проверено 17 июня 2021 г.
  36. ^ Каплан, Ф.; Удейер, П. (2004). «Максимизация прогресса в обучении: внутренняя система вознаграждения за развитие». В Ииде, Ф.; Пфайфер, Р.; Стилс, Л.; Куниёси, Ю. (ред.). Воплощенный искусственный интеллект . Конспекты лекций по информатике. Том. 3139. Берлин; Гейдельберг: Спрингер. стр. 259–270. дои : 10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6. S2CID  9781221.
  37. ^ Клубин, А.; Полани, Д.; Неханив, К. (2008). «Держите свои возможности открытыми: принцип управления сенсомоторными системами, основанный на информации». ПЛОС ОДИН . 3 (12): е4018. Бибкод : 2008PLoSO...3.4018K. дои : 10.1371/journal.pone.0004018 . ПМК 2607028 . ПМИД  19107219. 
  38. ^ Барто, AG (2013). «Внутренняя мотивация и обучение с подкреплением». Внутренне мотивированное обучение в естественных и искусственных системах (PDF) . Берлин; Гейдельберг: Спрингер. стр. 17–47.
  39. ^ Дабериус, Кевин; Гранат, Элвин; Карлссон, Патрик (2020). «Deep Execution - обучение с подкреплением на основе ценностей и политик для торговли и достижения рыночных показателей». Журнал машинного обучения в финансах . 1 . ССНН  3374766.
  40. ^ Джордж Каримпанал, Томмен; Буффанае, Роланд (2019). «Самоорганизующиеся карты для хранения и передачи знаний в обучении с подкреплением». Адаптивное поведение . 27 (2): 111–126. arXiv : 1811.08318 . дои : 10.1177/1059712318818568. ISSN  1059-7123. S2CID  53774629.
  41. ^ Дж Дуань; Ю Гуань; С. Ли (2021). «Распределительный мягкий актер-критик: обучение с подкреплением вне политики для устранения ошибок оценки стоимости». Транзакции IEEE в нейронных сетях и системах обучения . 33 (11): 6584–6598. arXiv : 2001.02811 . дои : 10.1109/TNNLS.2021.3082568. PMID  34101599. S2CID  211259373.
  42. ^ Ю Рен; Дж Дуань; С Ли (2020). «Улучшение обобщения обучения с подкреплением с помощью минимаксного распределительного мягкого актера-критика». 23-я Международная конференция IEEE по интеллектуальным транспортным системам (ITSC), 2020 г. стр. 1–6. arXiv : 2002.05502 . дои : 10.1109/ITSC45102.2020.9294300. ISBN 978-1-7281-4149-7. S2CID  211096594.
  43. ^ Дуань, Дж; Ван, В; Сяо, Л. (26 октября 2023 г.). «DSAC-T: Распределительный мягкий актер-критик с тремя уточнениями». arXiv : 2310.05858 [cs.LG].
  44. Соучек, Бранко (6 мая 1992 г.). Динамическое, генетическое и хаотическое программирование: серия компьютерных технологий шестого поколения . John Wiley & Sons, Inc. с. 38. ISBN 0-471-55717-Х.
  45. ^ Франсуа-Лаве, Винсент; и другие. (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Бибкод : 2018arXiv181112560F. дои : 10.1561/2200000071. S2CID  54434537.
  46. ^ Мних, Владимир; и другие. (2015). «Контроль на человеческом уровне посредством глубокого обучения с подкреплением». Природа . 518 (7540): 529–533. Бибкод : 2015Natur.518..529M. дои : 10.1038/nature14236. PMID  25719670. S2CID  205242740.
  47. ^ Гудфеллоу, Ян; Шленс, Джонатан; Сегеди, Кристиан (2015). «Объяснение и использование состязательных примеров». Международная конференция по обучению представлений . arXiv : 1412.6572 .
  48. ^ Бехзадан, Вахид; Мунир, Арслан (2017). «Уязвимость глубокого обучения с подкреплением для политических атак». Машинное обучение и интеллектуальный анализ данных в распознавании образов . Конспекты лекций по информатике. Том. 10358. стр. 262–275. arXiv : 1701.04143 . дои : 10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. S2CID  1562290.
  49. ^ Питер, Хуанг, Сэнди Папернот, Николас Гудфеллоу, Ян Дуан, Ян Аббил (07 февраля 2017 г.). Состязательные атаки на политики нейронных сетей. ОСЛК  1106256905.{{cite book}}: CS1 maint: multiple names: authors list (link)
  50. ^ Коркмаз, Эзги (2022). «Политики глубокого обучения с подкреплением изучают общие состязательные функции в MDP». Тридцать шестая конференция AAAI по искусственному интеллекту (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . дои : 10.1609/aaai.v36i7.20684 . S2CID  245219157.
  51. ^ Беренджи, HR (1994). «Нечеткое Q-обучение: новый подход к нечеткому динамическому программированию». Материалы 3-й Международной конференции по нечетким системам IEEE 1994 г. Орландо, Флорида, США: IEEE. стр. 486–491. дои : 10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-Х. S2CID  56694947.
  52. ^ Винце, Дэвид (2017). «Интерполяция нечетких правил и обучение с подкреплением» (PDF) . 2017 15-й Международный симпозиум IEEE по прикладному машинному интеллекту и информатике (SAMI) . IEEE. стр. 173–178. дои : 10.1109/САМИ.2017.7880298. ISBN 978-1-5090-5655-2. S2CID  17590120.
  53. ^ Нг, АЙ; Рассел, SJ (2000). «Алгоритмы обратного обучения с подкреплением» (PDF) . Труды ICML '00 Материалы семнадцатой международной конференции по машинному обучению . стр. 663–670. ISBN 1-55860-707-2.
  54. ^ Гарсия, Хавьер; Фернандес, Фернандо (1 января 2015 г.). «Комплексный опрос по безопасному обучению с подкреплением» (PDF) . Журнал исследований машинного обучения . 16 (1): 1437–1480.
  55. ^ Аб Гуань, Ян; Ли, Шэнбо; Дуань, Цзянлян (2021). «Прямое и косвенное обучение с подкреплением». Международный журнал интеллектуальных систем . 36 (8): 4439–4467. arXiv : 1912.10600 . дои : 10.1002/int.22466.

Источники

дальнейшее чтение

Внешние ссылки