stringtranslate.com

Глубокое обучение с подкреплением

Глубокое обучение с подкреплением ( глубокое RL ) — это подраздел машинного обучения , который объединяет обучение с подкреплением (RL) и глубокое обучение . RL рассматривает проблему вычислительного агента, обучающегося принимать решения методом проб и ошибок. Глубокое RL включает в себя глубокое обучение в решение, позволяя агентам принимать решения на основе неструктурированных входных данных без ручного проектирования пространства состояний . Алгоритмы глубокого RL способны принимать очень большие входные данные (например, каждый пиксель, отображаемый на экране в видеоигре) и решать, какие действия выполнить для оптимизации цели (например, максимизации счета в игре). Глубокое обучение с подкреплением использовалось для разнообразного набора приложений, включая, помимо прочего, робототехнику , видеоигры , обработку естественного языка , компьютерное зрение , [1] образование, транспорт, финансы и здравоохранение . [2]

Обзор

Глубокое обучение

Изображение базовой искусственной нейронной сети

Глубокое обучение — это форма машинного обучения , которая использует нейронную сеть для преобразования набора входных данных в набор выходных данных с помощью искусственной нейронной сети . Методы глубокого обучения, часто использующие контролируемое обучение с маркированными наборами данных, как было показано, решают задачи, которые включают обработку сложных, многомерных необработанных входных данных (например, изображений) с меньшим ручным проектированием признаков , чем предыдущие методы, что обеспечивает значительный прогресс в нескольких областях, включая компьютерное зрение и обработку естественного языка . За последнее десятилетие глубокое RL достигло замечательных результатов по целому ряду проблем, от однопользовательских и многопользовательских игр, таких как Go , Atari Games и Dota 2 , до робототехники. [3]

Обучение с подкреплением

Диаграмма, поясняющая цикл, повторяющийся в алгоритмах обучения с подкреплением
Диаграмма цикла, повторяющегося в алгоритмах обучения с подкреплением

Обучение с подкреплением — это процесс, в котором агент учится принимать решения методом проб и ошибок. Эту проблему часто математически моделируют как процесс принятия решений Маркова (MDP), где агент на каждом временном шаге находится в состоянии , выполняет действие , получает скалярное вознаграждение и переходит в следующее состояние в соответствии с динамикой среды . Агент пытается изучить политику или карту из наблюдений в действия, чтобы максимизировать свою отдачу (ожидаемую сумму вознаграждений). В обучении с подкреплением (в отличие от оптимального управления ) алгоритм имеет доступ к динамике только через выборку.

Глубокое обучение с подкреплением

Во многих практических задачах принятия решений состояния MDP являются многомерными (например, изображения с камеры или необработанный поток датчиков от робота) и не могут быть решены традиционными алгоритмами RL. Глубокие алгоритмы обучения с подкреплением включают глубокое обучение для решения таких MDP, часто представляя политику или другие изученные функции как нейронную сеть и разрабатывая специализированные алгоритмы, которые хорошо работают в этой обстановке.

История

Наряду с ростом интереса к нейронным сетям, начавшимся в середине 1980-х годов, возрос интерес к глубокому обучению с подкреплением, где нейронная сеть используется в обучении с подкреплением для представления политик или функций ценности. Поскольку в такой системе весь процесс принятия решений от датчиков до двигателей в роботе или агенте включает в себя одну нейронную сеть , его также иногда называют сквозным обучением с подкреплением. [4] Одним из первых успешных приложений обучения с подкреплением с нейронными сетями была TD-Gammon , компьютерная программа, разработанная в 1992 году для игры в нарды . [5] Четыре входа использовались для количества фигур заданного цвета в заданном месте на доске, что в общей сложности составляло 198 входных сигналов. С нулевым встроенным знанием сеть научилась играть в игру на промежуточном уровне с помощью самостоятельной игры и TD( ) .

Основополагающие учебники Саттона и Барто по обучению с подкреплением [6], Берцекаса и Цитиклиса по нейродинамическому программированию [7] и других [8] углубили знания и интерес к этой области.

Группа Кацунари Шибаты показала, что в этой структуре возникают различные функции, [9] [10] [11] включая распознавание изображений, постоянство цвета, движение сенсора (активное распознавание), координацию рук и глаз и движение руки, объяснение мозговой деятельности, передачу знаний, память, [12] избирательное внимание, прогнозирование и исследование. [10] [13]

Начиная примерно с 2012 года, так называемая революция глубокого обучения привела к росту интереса к использованию глубоких нейронных сетей в качестве аппроксиматоров функций в различных областях. Это привело к возобновлению интереса к исследователям, использующим глубокие нейронные сети для изучения политик, значений и/или функций Q, присутствующих в существующих алгоритмах обучения с подкреплением.

Начиная примерно с 2013 года DeepMind показал впечатляющие результаты обучения с использованием глубокого RL для видеоигр Atari . [14] [15] Компьютерный игрок нейронной сети, обученной с использованием глубокого алгоритма RL, глубокой версии Q-learning, которую они назвали глубокими Q-сетями (DQN), с игровым счетом в качестве награды. Они использовали глубокую сверточную нейронную сеть для обработки 4 кадров RGB пикселей (84x84) в качестве входных данных. Все 49 игр были обучены с использованием той же сетевой архитектуры и с минимальными предварительными знаниями, превзойдя конкурирующие методы почти во всех играх и выступая на уровне, сопоставимом или превосходящем профессионального тестировщика игр. [15]

Глубокое обучение с подкреплением достигло еще одной вехи в 2015 году, когда AlphaGo , [16] компьютерная программа, обученная с помощью глубокого RL играть в го , стала первой компьютерной программой го, которая победила профессионального игрока в го без гандикапа на полноразмерной доске 19×19. В последующем проекте в 2017 году AlphaZero улучшила производительность в го, а также продемонстрировала, что они могут использовать тот же алгоритм, чтобы научиться играть в шахматы и сёги на уровне, конкурентоспособном или превосходящем существующие компьютерные программы для этих игр, и снова улучшила в 2019 году с MuZero . [17] Отдельно еще одна веха была достигнута исследователями из Университета Карнеги-Меллона в 2019 году, разработавшими Pluribus , компьютерную программу для игры в покер , которая была первой, кто победил профессионалов в многопользовательских играх в безлимитный техасский холдем . OpenAI Five , программа для игры пять на пять в Dota 2, победила предыдущих чемпионов мира в демонстрационном матче в 2019 году.

Глубокое обучение с подкреплением также применялось во многих областях за пределами игр. В робототехнике оно использовалось для того, чтобы роботы могли выполнять простые домашние задачи [18] и собирать кубик Рубика с помощью руки робота. [19] [20] Глубокое обучение с подкреплением также нашло применение в области устойчивого развития, используя его для снижения потребления энергии в центрах обработки данных. [21] Глубокое обучение с подкреплением для автономного вождения является активной областью исследований в академических кругах и промышленности. [22] Loon исследовала глубокое обучение с подкреплением для автономной навигации своих высотных воздушных шаров. [23]

Алгоритмы

Существуют различные методы обучения политик для решения задач с помощью алгоритмов глубокого обучения с подкреплением, каждый из которых имеет свои преимущества. На самом высоком уровне существует различие между обучением с подкреплением на основе модели и без модели, которое относится к тому, пытается ли алгоритм изучить прямую модель динамики среды.

В алгоритмах глубокого обучения с подкреплением на основе моделей оценивается прямая модель динамики среды, обычно с помощью контролируемого обучения с использованием нейронной сети. Затем действия получаются с помощью предиктивного управления моделью с использованием изученной модели. Поскольку истинная динамика среды обычно будет отличаться от изученной динамики, агент часто перепланирует при выполнении действий в среде. Выбранные действия могут быть оптимизированы с помощью методов Монте-Карло, таких как метод кросс-энтропии , или комбинации обучения модели с методами без модели.

В алгоритмах глубокого обучения с подкреплением без моделей политика изучается без явного моделирования динамики вперед. Политика может быть оптимизирована для максимизации отдачи путем прямой оценки градиента политики [24], но страдает от высокой дисперсии, что делает ее непрактичной для использования с аппроксимацией функций в глубоком обучении с подкреплением. Последующие алгоритмы были разработаны для более стабильного обучения и широко применяются. [25] [26] Другой класс алгоритмов глубокого обучения с подкреплением без моделей основан на динамическом программировании , вдохновленном обучением по временным различиям и Q-обучением . В дискретных пространствах действий эти алгоритмы обычно изучают Q-функцию нейронной сети , которая оценивает будущую отдачу, принимая меры из состояния . [14] В непрерывных пространствах эти алгоритмы часто изучают как оценку значения, так и политику. [27] [28] [29]

Исследовать

Глубокое обучение с подкреплением — это активная область исследований, включающая несколько направлений.

Исследование

Агент RL должен сбалансировать компромисс между исследованием и эксплуатацией: проблема принятия решения о том, следует ли выполнять действия, которые, как известно, приносят высокие вознаграждения, или исследовать другие действия, чтобы обнаружить более высокие вознаграждения. Агенты RL обычно собирают данные с помощью некоторого типа стохастической политики, такой как распределение Больцмана в дискретных пространствах действий или гауссово распределение в непрерывных пространствах действий, вызывая базовое поведение исследования. Идея, лежащая в основе исследования, основанного на новизне или движимого любопытством, заключается в том, чтобы дать агенту мотив для исследования неизвестных результатов, чтобы найти наилучшие решения. Это делается путем «модификации функции потерь (или даже архитектуры сети) путем добавления членов для стимулирования исследования». [30] Агенту также может быть оказана помощь в исследовании путем использования демонстраций успешных траекторий или формирования вознаграждения, предоставляя агенту промежуточные вознаграждения, которые настраиваются в соответствии с задачей, которую он пытается выполнить. [31]

Обучение с подкреплением вне политики

Важное различие в RL — это разница между алгоритмами on-policy, которые требуют оценки или улучшения политики, собирающей данные, и алгоритмами off-policy, которые могут изучать политику на основе данных, сгенерированных произвольной политикой. Как правило, методы на основе функции значения, такие как Q-learning, лучше подходят для обучения off-policy и имеют лучшую эффективность выборки — объем данных, необходимых для изучения задачи, уменьшается, поскольку данные повторно используются для обучения. В крайнем случае, offline (или «пакетное») RL рассматривает изучение политики из фиксированного набора данных без дополнительного взаимодействия со средой.

Обратное обучение с подкреплением

Обратное RL относится к выведению функции вознаграждения агента с учетом поведения агента. Обратное обучение с подкреплением может использоваться для обучения на основе демонстраций (или обучения ученичества ) путем выведения вознаграждения демонстратора и последующей оптимизации политики для максимизации отдачи с RL. Подходы к глубокому обучению использовались для различных форм имитационного обучения и обратного RL. [32]

Целеустремленное обучение с подкреплением

Другая активная область исследований — изучение политик, обусловленных целью, также называемых контекстными или универсальными политиками , которые принимают дополнительную цель в качестве входных данных для сообщения желаемой цели агенту. [33] Воспроизведение опыта ретроспективного восприятия — это метод обучения с подкреплением цели, который включает в себя хранение и обучение на основе предыдущих неудачных попыток выполнить задачу. [34] Хотя неудачная попытка могла не достичь намеченной цели, она может послужить уроком того, как достичь непреднамеренного результата посредством перемаркировки ретроспективного восприятия.

Многоагентное обучение с подкреплением

Многие приложения обучения с подкреплением не включают в себя одного агента, а скорее набор агентов, которые обучаются вместе и коадаптируются. Эти агенты могут быть конкурентными, как во многих играх, или кооперативными, как во многих реальных многоагентных системах. Многоагентное обучение с подкреплением изучает проблемы, возникающие в этой обстановке.

Обобщение

Перспективой использования инструментов глубокого обучения в обучении с подкреплением является обобщение: способность правильно работать с ранее невиданными входными данными. Например, нейронные сети, обученные распознаванию изображений, могут распознать, что на картинке изображена птица, даже если они никогда не видели этого конкретного изображения или даже этой конкретной птицы. Поскольку глубокое RL допускает необработанные данные (например, пиксели) в качестве входных данных, уменьшается необходимость в предварительном определении среды, что позволяет обобщать модель для нескольких приложений. С этим уровнем абстракции алгоритмы глубокого обучения с подкреплением могут быть разработаны таким образом, чтобы они были общими, и одну и ту же модель можно было использовать для разных задач. [35] Одним из методов повышения способности политик, обученных с помощью политик глубокого RL, обобщать, является включение обучения представлениям .

Ссылки

  1. ^ Ле, Нган; Ратхур, Видхивар Сингх; Ямазаки, Кашу; Луу, Хоа; Саввидес, Мариос (2022-04-01). «Глубокое обучение с подкреплением в компьютерном зрении: всеобъемлющий обзор». Обзор искусственного интеллекта . 55 (4): 2733–2819. arXiv : 2108.11510 . doi : 10.1007/s10462-021-10061-9. ISSN  1573-7462.
  2. ^ Франсуа-Лаве, Винсент; Хендерсон, Питер; Ислам, Риашат; Бельмар, Марк Г.; Пино, Жоэль (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode :2018arXiv181112560F. doi :10.1561/2200000071. ISSN  1935-8237. S2CID  54434537.
  3. ^ Грэссер, Лора. "Основы глубокого обучения с подкреплением: теория и практика на Python". Открытая библиотека Telkom University . Получено 2023-07-01 .
  4. Демис, Хассабис (11 марта 2016 г.). Искусственный интеллект и будущее (речь).
  5. ^ Тезауро, Джеральд (март 1995 г.). «Временное разностное обучение и TD-Gammon». Сообщения ACM . 38 (3): 58–68. doi : 10.1145/203330.203343 . S2CID  8763243.
  6. ^ Саттон, Ричард; Барто, Эндрю (сентябрь 1996 г.). Обучение с подкреплением: Введение . Athena Scientific.
  7. ^ Берцекас, Джон; Цициклис, Димитрий (сентябрь 1996 г.). Нейродинамическое программирование. Athena Scientific. ISBN 1-886529-10-8.
  8. ^ Миллер, В. Томас; Вербос, Пол; Саттон, Ричард (1990). Нейронные сети для управления .
  9. ^ Шибата, Кацунари; Окабэ, Йоичи (1997). Обучение с подкреплением, когда визуальные сенсорные сигналы напрямую подаются в качестве входных данных (PDF) . Международная конференция по нейронным сетям (ICNN) 1997. Архивировано из оригинала (PDF) 2020-12-09 . Получено 2020-12-01 .
  10. ^ ab Shibata, Katsunari; Iida, Masaru (2003). Acquisition of Box Pushing by Direct-Vision-Based Reinforcement Learning (PDF) . SICE Annual Conference 2003. Архивировано из оригинала (PDF) 2020-12-09 . Получено 2020-12-01 .
  11. ^ Шибата, Кацунари (7 марта 2017 г.). «Функции, возникающие в результате сквозного обучения с подкреплением». arXiv : 1703.02239 [cs.AI].
  12. ^ Уцуномия, Хироки; Шибата, Кацунари (2008). Контекстное поведение и внутренние представления, приобретенные с помощью обучения с подкреплением с рекуррентной нейронной сетью в задаче непрерывного состояния и пространства действий (PDF) . Международная конференция по обработке нейронной информации (ICONIP) '08. Архивировано из оригинала (PDF) 2017-08-10 . Получено 2020-12-14 .
  13. ^ Шибата, Кацунари; Кавано, Томохико (2008). Learning of Action Generation from Raw Camera Images in a Real-World-like Environment by Simple Coupling of Reinforcement Learning and a Neural Network (PDF) . Международная конференция по нейронной обработке информации (ICONIP) '08. Архивировано из оригинала (PDF) 2020-12-11 . Получено 2020-12-01 .
  14. ^ ab Mnih, Volodymyr; et al. (декабрь 2013 г.). Играем в Atari с глубоким обучением с подкреплением (PDF) . Семинар NIPS Deep Learning Workshop 2013.
  15. ^ ab Mnih, Volodymyr; et al. (2015). «Управление на уровне человека посредством глубокого обучения с подкреплением». Nature . 518 (7540): 529–533. Bibcode :2015Natur.518..529M. doi :10.1038/nature14236. PMID  25719670. S2CID  205242740.
  16. ^ Сильвер, Дэвид ; Хуанг, Аджа ; Мэддисон, Крис Дж.; Гез, Артур; Сифре, Лоран; Дрессе, Джордж ван ден; Шритвизер, Джулиан; Антоноглу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нхам, Джон; Кальхбреннер, Нал; Суцкевер, Илья ; Лилликрап, Тимоти; Лич, Мадлен; Кавукчуоглу, Корай; Грепель, Торе; Хассабис, Демис (28 января 2016 г.). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву». Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S. doi : 10.1038/nature16961. ISSN  0028-0836. PMID  26819042. S2CID  515925.Значок закрытого доступа
  17. ^ Шритвизер, Джулиан; Антоноглу, Иоаннис; Юбер, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грепель, Торе; Лилликрап, Тимоти; Сильвер, Дэвид (23 декабря 2020 г.). «Освоение Atari, го, шахмат и сёги путем планирования с использованием изученной модели». Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Бибкод : 2020Natur.588..604S. дои : 10.1038/s41586-020-03051-4. PMID  33361790. S2CID  208158225.
  18. ^ Левин, Сергей; Финн, Челси ; Даррелл, Тревор; Эббил, Питер (январь 2016 г.). «Сквозное обучение глубоким зрительно-моторным стратегиям» (PDF) . JMLR . 17 . arXiv : 1504.00702 .
  19. ^ "OpenAI - Сборка кубика Рубика с помощью руки робота". OpenAI .
  20. ^ OpenAI; и др. (2019). Решение кубика Рубика с помощью руки робота . arXiv : 1910.07113 .
  21. ^ "ИИ DeepMind сокращает расходы на охлаждение центра обработки данных Google на 40%". DeepMind . 14 мая 2024 г.
  22. ^ "Машинное обучение для семинара по автономному вождению @ NeurIPS 2021". NeurIPS 2021. Декабрь 2021 г.
  23. ^ Бельмар, Марк; Кандидо, Сальваторе; Кастро, Пабло; Гонг, Цзюнь; Мачадо, Марлос; Мойтра, Субходип; Понда, Самира; Ван, Зию (2 декабря 2020 г.). «Автономная навигация стратосферных шаров с использованием обучения с подкреплением». Природа . 588 (7836): 77–82. Бибкод : 2020Natur.588...77B. дои : 10.1038/s41586-020-2939-8. PMID  33268863. S2CID  227260253.
  24. ^ Уильямс, Рональд Дж. (1992). «Простые статистические алгоритмы следования градиенту для коннекционистского обучения с подкреплением». Машинное обучение . 8 (3–4): 229–256. doi : 10.1007/BF00992696 . S2CID  2332513.
  25. ^ Шульман, Джон; Левин, Сергей; Мориц, Филипп; Джордан, Майкл; Аббель, Питер (2015). Оптимизация политики доверительного региона . Международная конференция по машинному обучению (ICML). arXiv : 1502.05477 .
  26. ^ Шульман, Джон; Вольски, Филипп; Дхаривал, Прафулла; Рэдфорд, Алек; Климов, Олег (2017). Алгоритмы оптимизации проксимальной политики . arXiv : 1707.06347 .
  27. ^ Лилликрап, Тимоти; Хант, Джонатан; Притцель, Александр; Хисс, Николас; Эрез, Том; Тасса, Ювал; Сильвер, Дэвид; Вирстра, Даан (2016). Непрерывный контроль с глубоким подкрепляющим обучением . Международная конференция по представлениям обучения (ICLR). arXiv : 1509.02971 .
  28. ^ Мних, Владимир; Пучдоменеч Бадиа, Адрия; Мирзи, Мехди; Грейвс, Алекс; Харли, Тим; Лилликрап, Тимоти; Сильвер, Дэвид; Кавукчуоглу, Корай (2016). Асинхронные методы глубокого обучения с подкреплением . Международная конференция по машинному обучению (ICML). arXiv : 1602.01783 .
  29. ^ Хаарноя, Туомас; Чжоу, Аурик; Левин, Сергей; Аббель, Питер (2018). Мягкий актор-критик: нестандартное обучение с максимальной энтропией и подкреплением с использованием стохастического актора . Международная конференция по машинному обучению (ICML). arXiv : 1801.01290 .
  30. ^ Рейзингер, Патрик; Семеней, Мартон (2019-10-23). ​​«Исследование, основанное на внимании и любознательности, в глубоком обучении с подкреплением». ICASSP 2020 - Международная конференция IEEE по акустике, речи и обработке сигналов 2020 (ICASSP) . стр. 3542–3546. arXiv : 1910.10840 . doi : 10.1109/ICASSP40776.2020.9054546. ISBN 978-1-5090-6631-5. S2CID  204852215.
  31. ^ Wiewiora, Eric (2010), «Формирование вознаграждения», в Sammut, Claude; Webb, Geoffrey I. (ред.), Encyclopedia of Machine Learning , Бостон, MA: Springer US, стр. 863–865, doi :10.1007/978-0-387-30164-8_731, ISBN 978-0-387-30164-8, получено 2020-11-16
  32. ^ Вульфмайер, Маркус; Ондрушка, Питер; Познер, Ингмар (2015). «Максимальная энтропия глубокого обратного обучения с подкреплением». arXiv : 1507.04888 [cs.LG].
  33. ^ Шауль, Том; Хорган, Дэниел; Грегор, Кароль; Сильвер, Дэвид (2015). Универсальные аппроксиматоры функций значений. Международная конференция по машинному обучению (ICML).
  34. ^ Андрыхович, Марчин; Вольски, Филипп; Рэй, Алекс; Шнайдер, Йонас; Фонг, Рэйчел; Велиндер, Питер; МакГрю, Боб; Тобин, Джош; Аббель, Питер; Заремба, Войцех (2018). Воспроизведение опыта в ретроспективе . Достижения в области нейронных систем обработки информации (NeurIPS). arXiv : 1707.01495 .
  35. ^ Пакер, Чарльз; Гао, Кейтлин; Кос, Йерней; Крэхенбюль, Филипп; Колтун, Владлен; Сонг, Дон (15.03.2019). «Оценка обобщения в глубоком обучении с подкреплением». arXiv : 1810.12282 [cs.LG].