stringtranslate.com

Безмоделевое обучение (обучение с подкреплением)

В обучении с подкреплением (RL) алгоритм без модели — это алгоритм, который не оценивает распределение вероятностей переходафункцию вознаграждения ), связанную с марковским процессом принятия решений (MDP), [1] который в RL представляет собой решаемую проблему. Распределение вероятностей перехода (или модель перехода) и функция вознаграждения часто вместе называются «моделью» среды (или MDP), отсюда и название «без модели». Алгоритм RL без модели можно рассматривать как «явный» алгоритм проб и ошибок . [1] Типичные примеры алгоритмов без модели включают RL Монте-Карло (MC), SARSA и Q-learning .

Оценка Монте-Карло является центральным компонентом многих алгоритмов RL без моделей. Алгоритм обучения MC по сути является важной ветвью обобщенной итерации политики, которая имеет два периодически чередующихся шага: оценка политики (PEV) и улучшение политики (PIM). В этой структуре каждая политика сначала оценивается по ее соответствующей функции ценности. Затем, на основе результата оценки, выполняется жадный поиск для получения лучшей политики. Оценка MC в основном применяется к первому шагу оценки политики. Простейшая идея используется для оценки эффективности текущей политики, которая заключается в усреднении возвратов всех собранных образцов. По мере накопления большего опыта оценка будет сходиться к истинному значению по закону больших чисел . Следовательно, оценка политики MC не требует каких-либо предварительных знаний динамики среды. Вместо этого необходим только опыт (т. е. образцы состояния, действия и вознаграждения), который генерируется в результате взаимодействия со средой (которая может быть реальной или смоделированной). [2]

Оценка функции ценности имеет решающее значение для алгоритмов RL без модели. В отличие от методов MC, методы временной разницы (TD) изучают эту функцию, повторно используя существующие оценки значений. Обучение TD имеет возможность обучаться на неполной последовательности событий, не дожидаясь окончательного результата. Оно также может аппроксимировать будущую отдачу как функцию текущего состояния. Подобно MC, TD использует только опыт для оценки функции ценности, не зная никаких предварительных знаний о динамике окружающей среды. Преимущество TD заключается в том, что он может обновлять функцию ценности на основе ее текущей оценки. Таким образом, алгоритмы обучения TD могут обучаться на неполных эпизодах или продолжающихся задачах поэтапно, в то время как MC должен быть реализован эпизод за эпизодом. [2]

Алгоритмы обучения с подкреплением без моделей

Алгоритмы RL без моделей могут начинаться с пустого кандидата политики и достигать сверхчеловеческой производительности во многих сложных задачах, включая игры Atari, StarCraft и Go . Глубокие нейронные сети ответственны за недавние прорывы в области искусственного интеллекта, и их можно комбинировать с RL для создания сверхчеловеческих агентов, таких как AlphaGo от Google DeepMind . Основные алгоритмы RL без моделей включают Deep Q-Network (DQN), Dueling DQN, Double DQN (DDQN), Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO), Asynchronous Advantage Actor-Critic (A3C), Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3), Soft Actor-Critic (SAC), Distributional Soft Actor-Critic (DSAC) и т. д. [2] Ниже перечислены некоторые алгоритмы RL без моделей (глубокие):

Ссылки

  1. ^ ab Sutton, Richard S.; Barto, Andrew G. (13 ноября 2018 г.). Reinforcement Learning: An Introduction (PDF) (Второе изд.). A Bradford Book. стр. 552. ISBN 0262039249. Получено 18 февраля 2019 г. .
  2. ^ abc Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (Первое издание). Springer Verlag, Сингапур. стр. 1–460. doi :10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID  257928563.{{cite book}}: CS1 maint: location missing publisher (link)
  3. ^ J Duan; Y Guan; S Li (2021). «Распределительный мягкий актор-критик: обучение с подкреплением вне политики для устранения ошибок оценки значений». Труды IEEE по нейронным сетям и системам обучения . 33 (11): 6584–6598. arXiv : 2001.02811 . doi : 10.1109/TNNLS.2021.3082568. PMID  34101599. S2CID  211259373.