Обучение с подкреплением ( RL ) — это междисциплинарная область машинного обучения и оптимального управления, занимающаяся тем, как интеллектуальный агент должен выполнять действия в динамической среде, чтобы максимизировать сигнал вознаграждения . Обучение с подкреплением — одна из трех основных парадигм машинного обучения , наряду с контролируемым обучением и неконтролируемым обучением .
Q-learning в своей простейшей форме хранит данные в таблицах. Этот подход становится невозможным по мере увеличения количества состояний/действий (например, если пространство состояний или пространство действий были непрерывными), поскольку вероятность посещения агентом определенного состояния и выполнения определенного действия уменьшается.
Обучение с подкреплением отличается от контролируемого обучения тем, что не требует представления помеченных пар ввода-вывода и не требует явной коррекции неоптимальных действий. Вместо этого основное внимание уделяется поиску баланса между исследованием (неизведанной территории) и эксплуатацией (текущих знаний) с целью максимизации совокупного вознаграждения (обратная связь которого может быть неполной или отложенной). [1] Поиск этого баланса известен как дилемма исследования-эксплуатации .
Окружающая среда обычно описывается в форме марковского процесса принятия решений (MDP), поскольку многие алгоритмы обучения с подкреплением используют методы динамического программирования . [2] Основное различие между классическими методами динамического программирования и алгоритмами обучения с подкреплением заключается в том, что последние не предполагают знания точной математической модели марковского процесса принятия решений и нацелены на большие MDP, где точные методы становятся неосуществимыми. [3]
Благодаря своей общности, обучение с подкреплением изучается во многих дисциплинах, таких как теория игр , теория управления , исследование операций , теория информации , оптимизация на основе моделирования , многоагентные системы , роевой интеллект и статистика . В литературе по исследованию операций и управлению RL называется приближенным динамическим программированием или нейродинамическим программированием. Проблемы, представляющие интерес для RL, также изучались в теории оптимального управления , которая в основном занимается существованием и характеристикой оптимальных решений и алгоритмами для их точного вычисления, и в меньшей степени обучением или приближением (особенно при отсутствии математической модели среды).
Базовое обучение с подкреплением моделируется как марковский процесс принятия решений :
Цель обучения с подкреплением состоит в том, чтобы агент научился оптимальной (или почти оптимальной) политике, которая максимизирует функцию вознаграждения или другой предоставленный пользователем сигнал подкрепления, который накапливается из немедленных вознаграждений. Это похоже на процессы , которые, по-видимому, происходят в психологии животных. Например, биологический мозг запрограммирован на интерпретацию сигналов, таких как боль и голод, как отрицательных подкреплений, и на интерпретацию удовольствия и приема пищи как положительных подкреплений. В некоторых обстоятельствах животные учатся принимать поведение, которое оптимизирует эти вознаграждения. Это говорит о том, что животные способны к обучению с подкреплением. [4] [5]
Базовый агент обучения с подкреплением взаимодействует со своей средой в дискретных временных шагах. На каждом временном шаге t агент получает текущее состояние и вознаграждение . Затем он выбирает действие из набора доступных действий, которое затем отправляется в среду. Среда переходит в новое состояние , и определяется вознаграждение, связанное с переходом . Целью агента обучения с подкреплением является изучение политики :
,
что максимизирует ожидаемое совокупное вознаграждение.
Формулировка проблемы как марковского процесса принятия решений предполагает, что агент непосредственно наблюдает текущее состояние окружающей среды; в этом случае говорят, что проблема имеет полную наблюдаемость . Если агент имеет доступ только к подмножеству состояний или если наблюдаемые состояния искажены шумом, говорят, что агент имеет частичную наблюдаемость , и формально проблема должна быть сформулирована как частично наблюдаемый марковский процесс принятия решений . В обоих случаях набор действий, доступных агенту, может быть ограничен. Например, состояние баланса счета может быть ограничено положительным; если текущее значение состояния равно 3, а переход состояния пытается уменьшить значение на 4, переход не будет разрешен.
Когда производительность агента сравнивается с производительностью агента, действующего оптимально, разница в производительности дает понятие сожаления . Чтобы действовать близко к оптимальному, агент должен рассуждать о долгосрочных последствиях своих действий (т. е. максимизировать будущие вознаграждения), хотя немедленное вознаграждение, связанное с этим, может быть отрицательным.
Таким образом, обучение с подкреплением особенно хорошо подходит для проблем, которые включают долгосрочный и краткосрочный компромисс вознаграждения. Он был успешно применен к различным проблемам, включая хранение энергии , [6] управление роботом , [7] фотоэлектрические генераторы , [8] нарды , шашки , [9] го ( AlphaGo ) и автономные системы вождения . [10]
Два элемента делают обучение с подкреплением мощным: использование образцов для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам RL можно использовать в больших средах в следующих ситуациях:
Первые две из этих проблем можно считать проблемами планирования (поскольку доступна некоторая форма модели), тогда как последнюю можно считать настоящей проблемой обучения. Однако обучение с подкреплением преобразует обе проблемы планирования в проблемы машинного обучения .
Компромисс между разведкой и эксплуатацией был наиболее подробно изучен с помощью задачи о многоруком бандите и для марковских процессов принятия решений в конечном пространстве состояний в работе Бернетаса и Катехакиса (1997). [12]
Обучение с подкреплением требует умных механизмов исследования; случайный выбор действий без ссылки на предполагаемое распределение вероятностей показывает плохую производительность. Случай (малых) конечных марковских процессов принятия решений относительно хорошо изучен. Однако из-за отсутствия алгоритмов, которые хорошо масштабируются с числом состояний (или масштабируются для задач с бесконечными пространствами состояний), простые методы исследования являются наиболее практичными.
Один из таких методов - жадный, где - параметр, контролирующий количество разведки и эксплуатации. При вероятности выбирается эксплуатация, и агент выбирает действие, которое, по его мнению, имеет наилучший долгосрочный эффект (связи между действиями разрываются равномерно и случайным образом). В качестве альтернативы, при вероятности выбирается разведка, и действие выбирается равномерно и случайным образом. обычно является фиксированным параметром, но может быть скорректирован либо в соответствии с графиком (заставляя агента исследовать все меньше), либо адаптивно на основе эвристики. [13]
Даже если вопрос исследования не принимается во внимание и даже если состояние можно было наблюдать (что предполагается далее), остается проблема использования прошлого опыта для выяснения того, какие действия приводят к более высокому совокупному вознаграждению.
Выбор действий агента моделируется в виде карты, называемой политикой :
Карта политики показывает вероятность принятия мер в состоянии . [14] : 61 Существуют также детерминированные политики.
Функция состояния-стоимости определяется как ожидаемая дисконтированная доходность, начиная с состояния , т.е. , и последовательно следуя политике . Таким образом, грубо говоря, функция стоимости оценивает «насколько хорошо» находиться в данном состоянии. [14] : 60
где случайная величина обозначает дисконтированную доходность и определяется как сумма будущих дисконтированных вознаграждений:
где — вознаграждение за переход из состояния в , — ставка дисконтирования . меньше 1, поэтому вознаграждения в отдаленном будущем имеют меньший вес, чем вознаграждения в ближайшем будущем.
Алгоритм должен найти политику с максимальным ожидаемым дисконтированным доходом. Из теории марковских процессов принятия решений известно, что без потери общности поиск можно ограничить набором так называемых стационарных политик. Политика является стационарной , если возвращаемое ею распределение действий зависит только от последнего посещенного состояния (из истории агента наблюдения). Поиск можно дополнительно ограничить детерминированными стационарными политиками. Детерминированная стационарная политика детерминированно выбирает действия на основе текущего состояния. Поскольку любая такая политика может быть идентифицирована с помощью отображения из набора состояний в набор действий, эти политики можно идентифицировать с помощью таких отображений без потери общности.
Метод грубой силы включает в себя два шага:
Одна из проблем заключается в том, что количество полисов может быть большим или даже бесконечным. Другая проблема заключается в том, что дисперсия доходности может быть большой, что требует множества выборок для точной оценки дисконтированной доходности каждого полиса.
Эти проблемы можно смягчить, если предположить некоторую структуру и позволить образцам, полученным из одной политики, влиять на оценки, сделанные для других. Два основных подхода к достижению этого — оценка функции ценности и прямой поиск политики.
Подходы на основе функции стоимости пытаются найти политику, которая максимизирует дисконтированную доходность, поддерживая набор оценок ожидаемой дисконтированной доходности для некоторой политики (обычно либо «текущей» [в рамках политики], либо оптимальной [вне политики]).
Эти методы опираются на теорию марковских процессов принятия решений, где оптимальность определяется в более строгом смысле, чем тот, что указан выше: политика оптимальна, если она достигает наилучшего ожидаемого дисконтированного дохода из любого начального состояния (т. е. начальные распределения не играют никакой роли в этом определении). Опять же, оптимальную политику всегда можно найти среди стационарных политик.
Чтобы определить оптимальность формальным образом, определите государственную стоимость политики следующим образом:
где означает дисконтированную доходность, связанную с выходом из начального состояния . Определяя как максимально возможное значение состояния , где разрешено изменяться,
Политика, которая достигает этих оптимальных значений состояний в каждом состоянии, называется оптимальной . Очевидно, что политика, которая оптимальна в этом смысле, также оптимальна в том смысле, что она максимизирует ожидаемую дисконтированную доходность, поскольку , где — состояние, случайно выбранное из распределения начальных состояний (так что ).
Хотя state-values достаточно для определения оптимальности, полезно определить action-values. При наличии state , action и policy action-value пары ниже определяется как
где теперь обозначает случайную дисконтированную доходность, связанную с первым совершением действия в состоянии и последующими действиями в дальнейшем.
Теория марковских процессов принятия решений утверждает, что если — оптимальная политика, мы действуем оптимально (предпринимаем оптимальное действие), выбирая действие из с наивысшей ценностью действия в каждом состоянии, . Функция ценности действия такой оптимальной политики ( ) называется оптимальной функцией ценности действия и обычно обозначается . Подводя итог, можно сказать, что знания одной только оптимальной функции ценности действия достаточно, чтобы знать, как действовать оптимально.
Предполагая полное знание процесса принятия решений Маркова, два основных подхода к вычислению оптимальной функции действие-значение — это итерация значения и итерация политики . Оба алгоритма вычисляют последовательность функций ( ), которые сходятся к . Вычисление этих функций включает вычисление ожиданий по всему пространству состояний, что непрактично для всех, кроме самых маленьких (конечных) процессов принятия решений Маркова. В методах обучения с подкреплением ожидания аппроксимируются путем усреднения по образцам и использования методов аппроксимации функций, чтобы справиться с необходимостью представления функций значений по большим пространствам состояний-действий.
Методы Монте-Карло [15] используются для решения задач обучения с подкреплением путем усреднения выборочных возвратов. В отличие от методов, требующих полного знания динамики среды, методы Монте-Карло полагаются исключительно на реальный или смоделированный опыт — последовательности состояний, действий и вознаграждений, полученных в результате взаимодействия со средой. Это делает их применимыми в ситуациях, когда полная динамика неизвестна. Обучение на реальном опыте не требует предварительного знания среды и все еще может привести к оптимальному поведению. При использовании смоделированного опыта требуется только модель, способная генерировать выборочные переходы, а не полная спецификация вероятностей переходов , которая необходима для методов динамического программирования .
Методы Монте-Карло применяются к эпизодическим задачам, где опыт делится на эпизоды, которые в конечном итоге завершаются. Обновления политики и функции ценности происходят только после завершения эпизода, что делает эти методы инкрементальными на основе эпизод за эпизодом, хотя и не на пошаговой (онлайн) основе. Термин «Монте-Карло» обычно относится к любому методу, включающему случайную выборку ; однако в этом контексте он конкретно относится к методам, которые вычисляют средние значения из полных возвратов, а не частичных возвратов.
Эти методы функционируют аналогично алгоритмам бандита , в которых возвраты усредняются для каждой пары состояние-действие. Ключевое отличие заключается в том, что действия, предпринимаемые в одном состоянии, влияют на возвраты последующих состояний в том же эпизоде, делая проблему нестационарной . Для решения этой нестационарности методы Монте-Карло используют структуру общей итерации политики (GPI). В то время как динамическое программирование вычисляет функции значений, используя полное знание процесса принятия решений Маркова (MDP), методы Монте-Карло изучают эти функции с помощью выборочных возвратов. Функции значений и политики взаимодействуют аналогично динамическому программированию для достижения оптимальности , сначала решая проблему прогнозирования, а затем расширяя ее до улучшения и контроля политики, все на основе выборочного опыта. [14]
Первая проблема устраняется путем разрешения процедуре изменять политику (в некоторых или всех состояниях) до того, как значения установятся. Это также может быть проблематично, поскольку может помешать конвергенции. Большинство современных алгоритмов делают это, что приводит к классу обобщенных алгоритмов итерации политики . Многие методы актор-критик относятся к этой категории.
Вторая проблема может быть исправлена, если позволить траекториям вносить вклад в любую пару состояние-действие в них. Это также может помочь в некоторой степени с третьей проблемой, хотя лучшим решением, когда возвраты имеют высокую дисперсию, являются методы временной разницы (TD) Саттона, которые основаны на рекурсивном уравнении Беллмана . [16] [17] Вычисления в методах TD могут быть инкрементными (когда после каждого перехода память изменяется, а переход отбрасывается) или пакетными (когда переходы пакетируются, а оценки вычисляются один раз на основе пакета). Пакетные методы, такие как метод временной разницы наименьших квадратов, [18] могут лучше использовать информацию в выборках, в то время как инкрементные методы являются единственным выбором, когда пакетные методы неосуществимы из-за их высокой вычислительной или памяти сложности. Некоторые методы пытаются объединить два подхода. Методы, основанные на временных различиях, также преодолевают четвертую проблему.
Другая проблема, характерная для TD, возникает из-за их зависимости от рекурсивного уравнения Беллмана. Большинство методов TD имеют так называемый параметр , который может непрерывно интерполировать между методами Монте-Карло, которые не полагаются на уравнения Беллмана, и базовыми методами TD, которые полностью полагаются на уравнения Беллмана. Это может быть эффективным для решения этой проблемы.
Для решения пятой проблемы используются методы аппроксимации функций . Линейная аппроксимация функций начинается с отображения , которое назначает конечномерный вектор каждой паре состояние-действие. Затем значения действия пары состояние-действие получаются путем линейного объединения компонентов с некоторыми весами :
Затем алгоритмы корректируют веса, а не корректируют значения, связанные с отдельными парами состояние-действие. Были исследованы методы, основанные на идеях непараметрической статистики (которые, как можно увидеть, конструируют свои собственные признаки).
Итерация значений также может использоваться в качестве отправной точки, что приводит к появлению алгоритма Q-обучения и его многочисленных вариантов. [19] Включая методы глубокого Q-обучения, когда нейронная сеть используется для представления Q, с различными приложениями в задачах стохастического поиска. [20]
Проблема с использованием значений действий заключается в том, что им могут потребоваться очень точные оценки конкурирующих значений действий, которые может быть трудно получить, когда возвраты зашумлены, хотя эта проблема в некоторой степени смягчается методами временной разницы. Использование так называемого метода аппроксимации совместимых функций ставит под угрозу общность и эффективность.
Альтернативный метод заключается в прямом поиске в (некотором подмножестве) пространства политики, в этом случае проблема становится случаем стохастической оптимизации . Доступны два подхода: градиентные и безградиентные методы.
Методы на основе градиента ( методы градиента политики ) начинаются с отображения из конечномерного (параметрического) пространства в пространство политик: учитывая вектор параметров , обозначим политику, связанную с . Определяя функцию производительности с помощью при мягких условиях эта функция будет дифференцируемой как функция вектора параметров . Если бы градиент был известен, можно было бы использовать градиентный подъем . Поскольку аналитическое выражение для градиента недоступно, доступна только шумовая оценка. Такая оценка может быть построена многими способами, что приводит к появлению алгоритмов, таких как метод Уильямса REINFORCE [21] (который известен как метод отношения правдоподобия в литературе по оптимизации на основе моделирования ). [22]
Большой класс методов избегает использования градиентной информации. К ним относятся имитация отжига , кросс-энтропийный поиск или методы эволюционных вычислений . Многие методы без градиента могут достичь (в теории и в пределе) глобального оптимума.
Методы поиска политики могут сходиться медленно, учитывая шумные данные. Например, это происходит в эпизодических задачах, когда траектории длинные, а дисперсия возвратов большая. Методы, основанные на функциях ценности, которые полагаются на временные различия, могут помочь в этом случае. В последние годы были предложены и хорошо зарекомендовали себя методы актор-критик для различных задач. [23]
Методы поиска политики использовались в контексте робототехники . [24] Многие методы поиска политики могут застрять в локальных оптимумах (поскольку они основаны на локальном поиске ).
Наконец, все вышеперечисленные методы можно объединить с алгоритмами, которые сначала изучают модель процесса принятия решений Маркова , вероятность каждого следующего состояния, заданного действием, предпринятым из существующего состояния. Например, алгоритм Dyna [25] изучает модель на основе опыта и использует ее для предоставления большего количества смоделированных переходов для функции значения в дополнение к реальным переходам. Такие методы иногда можно расширить до использования непараметрических моделей, например, когда переходы просто сохраняются и «воспроизводятся» [26] в алгоритме обучения.
Методы, основанные на моделях, могут быть более вычислительно интенсивными, чем подходы без моделей, и их полезность может быть ограничена степенью, в которой можно изучить процесс принятия решений Маркова. [27]
Существуют и другие способы использования моделей, помимо обновления функции значения. [28] Например, в управлении с прогнозированием модели модель используется для непосредственного обновления поведения.
Как асимптотическое, так и конечно-выборочное поведение большинства алгоритмов хорошо изучены. Известны алгоритмы с доказуемо хорошей производительностью в режиме онлайн (решающие проблему разведки).
Эффективное исследование марковских процессов принятия решений представлено в работе Бернетаса и Катехакиса (1997). [12] Для многих алгоритмов также появились границы производительности за конечное время, но ожидается, что эти границы будут довольно свободными, и поэтому необходимо провести больше работы для лучшего понимания относительных преимуществ и ограничений.
Для инкрементальных алгоритмов решены вопросы асимптотической сходимости [ требуется разъяснение ] . Алгоритмы, основанные на временной разнице, сходятся при более широком наборе условий, чем это было возможно ранее (например, при использовании с произвольной, гладкой аппроксимацией функции).
Темы исследований включают:
Задачи ассоциативного обучения с подкреплением объединяют аспекты задач стохастического обучения автоматов и задач классификации шаблонов контролируемого обучения. В задачах ассоциативного обучения с подкреплением обучающаяся система взаимодействует в замкнутом цикле со своей средой. [46]
Этот подход расширяет обучение с подкреплением, используя глубокую нейронную сеть и без явного проектирования пространства состояний. [47] Работа по обучению играм ATARI от Google DeepMind привлекла внимание к глубокому обучению с подкреплением или сквозному обучению с подкреплением . [48]
Состязательное глубокое обучение с подкреплением является активной областью исследований в области обучения с подкреплением, фокусирующейся на уязвимостях изученных политик. В этой области исследований некоторые исследования изначально показали, что политики обучения с подкреплением подвержены незаметным состязательным манипуляциям. [49] [50] [51] Хотя были предложены некоторые методы для преодоления этих уязвимостей, в самых последних исследованиях было показано, что эти предлагаемые решения далеки от предоставления точного представления текущих уязвимостей политик глубокого обучения с подкреплением. [52]
Вводя нечеткий вывод в обучение с подкреплением, [53] становится возможным приближение функции значения состояния-действия с помощью нечетких правил в непрерывном пространстве. Форма IF - THEN нечетких правил делает этот подход подходящим для выражения результатов в форме, близкой к естественному языку. Расширение FRL с помощью интерполяции нечетких правил [54] позволяет использовать разреженные нечеткие базы правил уменьшенного размера для подчеркивания кардинальных правил (наиболее важных значений состояния-действия).
В обратном обучении с подкреплением (IRL) функция вознаграждения не задана. Вместо этого функция вознаграждения выводится с учетом наблюдаемого поведения эксперта. Идея состоит в том, чтобы имитировать наблюдаемое поведение, которое часто является оптимальным или близким к оптимальному. [55] Одна популярная парадигма IRL называется обратным обучением с подкреплением с максимальной энтропией (MaxEnt IRL). [56] MaxEnt IRL оценивает параметры линейной модели функции вознаграждения путем максимизации энтропии распределения вероятностей наблюдаемых траекторий с учетом ограничений, связанных с соответствием ожидаемых количеств признаков. Недавно было показано, что MaxEnt IRL является частным случаем более общей структуры, называемой обратным обучением с подкреплением со случайной полезностью (RU-IRL). [57] RU-IRL основан на теории случайной полезности и процессах принятия решений Маркова. В то время как предыдущие подходы IRL предполагали, что кажущееся случайное поведение наблюдаемого агента обусловлено тем, что он следует случайной политике, RU-IRL предполагает, что наблюдаемый агент следует детерминированной политике, но случайность в наблюдаемом поведении обусловлена тем, что наблюдатель имеет лишь частичный доступ к признакам, которые наблюдаемый агент использует при принятии решений. Функция полезности моделируется как случайная величина, чтобы учесть неосведомленность наблюдателя относительно признаков, которые наблюдаемый агент фактически учитывает в своей функции полезности.
Безопасное обучение с подкреплением (SRL) можно определить как процесс политик обучения, которые максимизируют ожидание возврата в задачах, в которых важно обеспечить разумную производительность системы и/или соблюдать ограничения безопасности во время процессов обучения и/или развертывания. [58] Альтернативный подход — это обучение с подкреплением, не склонное к риску, где вместо ожидаемого возврата оптимизируется мера риска возврата, такая как условная стоимость под риском (CVaR). [59] Помимо снижения риска, цель CVaR повышает устойчивость к неопределенностям модели. [60] [61] Однако оптимизация CVaR в RL, не склонном к риску, требует особой осторожности, чтобы предотвратить смещение градиента [62] и слепоту к успеху. [63]
Обучение с самоподкреплением (или самообучение) — это парадигма обучения, которая не использует концепцию немедленного вознаграждения Ra(s,s') после перехода от s к s' с действием a. Она не использует внешнее подкрепление, она использует только внутреннее самоподкрепление агента. Внутреннее самоподкрепление обеспечивается механизмом чувств и эмоций. В процессе обучения эмоции распространяются обратно с помощью механизма вторичного подкрепления. Уравнение обучения не включает немедленное вознаграждение, оно включает только оценку состояния.
Алгоритм самоусиления обновляет матрицу памяти W =||w(a,s)|| таким образом, что на каждой итерации выполняется следующая процедура машинного обучения: 1. в ситуации s выполнить действие a 2. получить последствие ситуации s' 3. вычислить оценку состояния v(s') того, насколько хорошо быть в последствии ситуации s' 4. обновить перекрестную память w'(a,s) = w(a,s) + v(s')
Начальные условия памяти получены в качестве входных данных из генетической среды. Это система с единственным входом (ситуацией) и единственным выходом (действием или поведением).
Самоподкрепление (самообучение) было введено в 1982 году вместе с нейронной сетью, способной к самоподкрепляющему обучению, названной Crossbar Adaptive Array (CAA). [64] [65] CAA вычисляет, в стиле Crossbar, как решения о действиях, так и эмоции (чувства) о состояниях последствий. Система управляется взаимодействием между познанием и эмоциями. [66]
Эффективное сравнение алгоритмов RL необходимо для исследования, развертывания и мониторинга систем RL. Чтобы сравнить различные алгоритмы в заданной среде, агент может быть обучен для каждого алгоритма. Поскольку производительность чувствительна к деталям реализации, все алгоритмы должны быть реализованы как можно ближе друг к другу. [67] После завершения обучения агенты могут быть запущены на выборке тестовых эпизодов, и их баллы (возвраты) могут быть сравнены. Поскольку эпизоды обычно предполагаются как iid , для проверки гипотез могут использоваться стандартные статистические инструменты, такие как T-тест и тест перестановки . [68] Для этого требуется аккумулировать все вознаграждения в эпизоде в одно число — эпизодический возврат. Однако это приводит к потере информации, поскольку различные временные шаги усредняются вместе, возможно, с различными уровнями шума. Всякий раз, когда уровень шума меняется в течение эпизода, статистическую мощность можно значительно улучшить, взвешивая вознаграждения в соответствии с их оценочным шумом. [69]
{{cite book}}
: CS1 maint: location missing publisher (link){{cite book}}
: CS1 maint: location missing publisher (link){{cite book}}
: CS1 maint: multiple names: authors list (link)