stringtranslate.com

Обучение с подкреплением на основе отзывов людей

В машинном обучении обучение с подкреплением на основе обратной связи человека ( RLHF ), также называемое обучением с подкреплением на основе предпочтений человека , представляет собой метод согласования агента ИИ с предпочтениями человека. В классическом обучении с подкреплением такой агент изучает политику , которая максимизирует функцию вознаграждения, которая измеряет, насколько хорошо он выполнил свою задачу. Однако сложно явно определить такую ​​функцию вознаграждения, которая бы аппроксимировала человеческие предпочтения. Поэтому RLHF стремится обучать «модель вознаграждения» непосредственно на основе отзывов людей . [1] Эта модель может затем функционировать как функция вознаграждения для оптимизации политики агента с помощью алгоритма оптимизации, такого как оптимизация проксимальной политики . [2] [3] Модель вознаграждения заранее адаптируется к оптимизируемой политике, чтобы предсказать, является ли данный результат хорошим (высокое вознаграждение) или плохим (низкое вознаграждение). RLHF может повысить надежность и эффективность исследования агентов RL, особенно когда функция вознаграждения разрежена или зашумлена. [4] [5] [6]

Мотивация

Оптимизация модели на основе отзывов людей желательна, когда задачу сложно определить, но легко оценить. [7] Например, для создания убедительной истории люди могут итеративно оценивать качество различных историй, созданных ИИ, и цель состоит в том, чтобы модель использовала их отзывы для улучшения создания историй.

Ранее предпринимались различные попытки использовать обратную связь с людьми для оптимизации результатов модели, в том числе посредством обучения с подкреплением, но большинство попыток были либо узкими и трудными для обобщения, либо терпели неудачу при выполнении более сложных задач. [8] [9] [10] [11] RLHF был попыткой создать общий алгоритм для обучения на основе практической обратной связи от людей. [7] [3]

Сбор обратной связи от людей

Обратная связь с людьми обычно собирается путем предложения людям ранжировать примеры поведения агента. [12] [13] [14] Эти рейтинги затем можно использовать для оценки результатов, например, с использованием рейтинговой системы Эло . [3] Хотя ранжирование является наиболее широко распространенной формой обратной связи, в недавних исследованиях были изучены и другие формы, такие как числовая обратная связь, обратная связь на естественном языке и побуждение к прямому редактированию выходных данных модели. [15]

При обучении на основе обратной связи человека посредством парных сравнений по модели Брэдли-Терри-Люса (или модели Плакетта-Люса для K-сравнений) оценка максимального правдоподобия (MLE) для линейных функций вознаграждения сходится, если данные сравнения генерируются при определенных условиях. модели, но при обучении политике более эффективным является пессимистический MLE, который включает в себя более низкую доверительную границу в качестве оценки вознаграждения. Более того, было показано, что, когда это применимо, непосредственное рассмотрение K-сравнений асимптотически более эффективно , чем преобразование их в парные сравнения в целях прогнозирования. [16]

Приложения

RLHF применялся к различным областям обработки естественного языка (NLP), таким как разговорные агенты, обобщение текста и понимание естественного языка. [17] [18] Обычное обучение с подкреплением, при котором агенты учатся на своих действиях на основе заранее определенной «функции вознаграждения», трудно применить к задачам НЛП, поскольку вознаграждения, как правило, трудно определить или измерить, особенно при работе со сложными задачами. задачи, которые затрагивают человеческие ценности или предпочтения. [7] RLHF может управлять моделями НЛП, в частности языковыми моделями , для предоставления ответов, которые соответствуют предпочтениям человека в отношении таких задач, предварительно фиксируя их предпочтения в модели вознаграждения. В результате получается модель, которая потенциально может генерировать более полезные ответы и отклонять вопросы, которые считаются неуместными или находятся за пределами пространства знаний модели. [12] [19] Некоторыми примерами языковых моделей, обученных с помощью RLHF, являются ChatGPT OpenAI (и его предшественник InstructGPT ), [13] [20] [21] [22] Sparrow компании DeepMind , [23] [24] [25] и Google Gemini . _ [26]

В компьютерном зрении RLHF также использовался для согласования моделей текста и изображения . Успешные методы отметили, что использование регуляризации KL в RLHF помогло стабилизировать тренировочный процесс. [27] [28] Другие методы пытались включить обратную связь посредством более прямого полуконтролируемого обучения, но допускали, что подход на основе RLHF, вероятно, будет работать лучше из-за генерации онлайн-выборок, используемой в RLHF во время обновлений, а также вышеупомянутой регуляризации KL. по сравнению с предыдущей моделью, что смягчает переобучение функции вознаграждения. [29]

Первоначально RLHF применялся и в других областях, например, в разработке ботов для видеоигр . Например, OpenAI и DeepMind обучали агентов играть в игры Atari , основываясь на предпочтениях человека. [7] [30] Агенты достигли высоких результатов во многих протестированных средах, часто превосходя человеческие возможности. [31]

Ограничения

RLHF страдает от проблем со сбором отзывов людей, изучением модели вознаграждения и оптимизацией политики. [32] [33] Масштабируемость и стоимость обратной связи с человеком могут быть медленными и дорогостоящими по сравнению с обучением без учителя. Его качество и последовательность также могут варьироваться в зависимости от задачи, интерфейса, а также индивидуальных предпочтений и предубеждений людей. Даже когда человеческая обратная связь возможна, модели RLHF все равно могут демонстрировать нежелательное поведение, которое не фиксируется человеческой обратной связью, возможно, из-за использования лазеек в модели вознаграждения, что является общей проблемой согласованности и надежности . [34]

Эффективность RLHF зависит от качества обратной связи между людьми. [3] Если обратная связь недостаточна беспристрастна, непоследовательна или неверна, модель может стать предвзятой . [35] Существует также риск того, что модель может не соответствовать получаемой обратной связи. Например, если отзывы исходят преимущественно от определенной демографической группы, модель может изучить не только общую направленность, заложенную в обратной связи, но также любые особенности или шум, присутствующие в этой демографической группе. [36] [37] Чрезмерное соответствие конкретной полученной обратной связи (то есть предвзятости в ней) может привести к тому, что модель будет работать неоптимально в новых контекстах или при использовании разными группами.

В некоторых случаях, как это возможно при обычном обучении с подкреплением , может возникнуть риск того, что модель научится манипулировать процессом обратной связи или обманывать систему для достижения более высоких наград вместо того, чтобы действительно улучшать ее производительность, что указывает на ошибку в функции вознаграждения. . [38]

Альтернативы

Альтернатива RLHF, называемая прямой оптимизацией предпочтений (DPO), была предложена для изучения человеческих предпочтений. Как и RLHF, он применялся для согласования предварительно обученных больших языковых моделей с использованием данных о предпочтениях, сгенерированных человеком. Однако вместо обучения модели промежуточного вознаграждения для последующей оптимизации с помощью политики с использованием обучения с подкреплением, DPO использует изменение переменных , чтобы определить « потерю предпочтений » непосредственно как функцию политики, и использует эту потерю для точной настройки модели. . [39]

Смотрите также

Рекомендации

  1. ^ Рассел, Стюарт Дж.; Норвиг, Питер (2016). Искусственный интеллект: современный подход (Третье, Глобальное изд.). Бостон Колумбус Индианаполис Нью-Йорк Сан-Франциско Аппер-Седл-Ривер Амстердам Кейптаун Дубай Лондон Мадрид Милан Мюнхен Париж Монреаль Торонто Дели Мехико Сан-Паулу Сидней Гонконг Сеул Сингапур Тайбэй Токио: Пирсон. стр. 830–831. ISBN 978-0-13-604259-4.
  2. ^ Зиглер, Дэниел М.; Стиеннон, Нисан; Ву, Джеффри; Браун, Том Б.; Рэдфорд, Алек; Амодей, Дарио; Кристиано, Пол; Ирвинг, Джеффри (2019). «Точная настройка языковых моделей на основе человеческих предпочтений». arXiv : 1909.08593 [cs.CL].
  3. ^ abcd Ламберт, Натан; Кастрикато, Луи; фон Верра, Леандро; Гаврилла, Алекс. «Иллюстрация обучения с подкреплением на основе обратной связи с человеком (RLHF)». Huggingface.co . Проверено 4 марта 2023 г.
  4. ^ МакГлашан, Джеймс; Хо, Марк К; Лофтин, Роберт; Пэн, Бэй; Ван, Гуань; Робертс, Дэвид Л.; Тейлор, Мэтью Э.; Литтман, Майкл Л. (6 августа 2017 г.). «Интерактивное обучение на основе обратной связи с людьми, зависящей от политики». Материалы 34-й Международной конференции по машинному обучению. Том 70 . JMLR.org: 2285–2294. arXiv : 1701.06049 .
  5. ^ Уорнелл, Гарретт; Вайтович, Николас; Лоухерн, Вернон; Стоун, Питер (25 апреля 2018 г.). «Deep TAMER: формирование интерактивного агента в многомерных пространствах состояний». Материалы конференции AAAI по искусственному интеллекту . 32 (1). arXiv : 1709.10163 . дои : 10.1609/aaai.v32i1.11485. S2CID  4130751.
  6. ^ Бай, Юньтао; Джонс, Энди; Ндусс, Камаль; Аскелл, Аманда; Чен, Анна; ДасСарма, Нова; Слейте, Рассвет; Форт, Станислав; Гангули, Глубокий; Хениган, Том; Джозеф, Николас; Кадават, Саурав; Кернион, Джексон; Конерли, Том; Эль-Шоук, Шир; Эльхаге, Нельсон; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; Хьюм, Тристан; Джонстон, Скотт; Кравец, Шона; Ловитт, Лиана; Нанда, Нил; Олссон, Кэтрин; Амодей, Дарио; Браун, Том; Кларк, Джек; МакКэндлиш, Сэм; Ола, Крис; Манн, Бен; Каплан, Джаред (2022). «Обучение полезного и безобидного помощника с подкреплением обучения на основе обратной связи с человеком». arXiv : 2204.05862 [cs.CL].
  7. ^ abcd «Изучение человеческих предпочтений». openai.com . Проверено 4 марта 2023 г.
  8. ^ Нокс, В. Брэдли; Стоун, Питер; Бризил, Синтия (2013). «Обучение робота с помощью обратной связи с человеком: практический пример». Социальная робототехника . Springer International Publishing: 460–470. дои : 10.1007/978-3-319-02675-6_46 . Проверено 26 февраля 2024 г.
  9. ^ Акрур, Риад; Шенауэр, Марк; Себаг, Мишель (2012). «АПРЕЛЬ: Обучение с подкреплением на основе активного обучения предпочтениям». Машинное обучение и обнаружение знаний в базах данных . Спрингер: 116–131. дои : 10.1007/978-3-642-33486-3_8 . Проверено 26 февраля 2024 г.
  10. ^ Уилсон, Аарон; Ферн, Алан; Тадепалли, Прасад (2012). «Байесовский подход к изучению политики на основе запросов о предпочтениях траектории». Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 25 . Проверено 26 февраля 2024 г.
  11. ^ Шенауэр, Марк; Акрур, Риад; Себаг, Мишель; Супле, Жан-Кристоф (18 июня 2014 г.). «Программирование по обратной связи». Материалы 31-й Международной конференции по машинному обучению . ПМЛР: 1503–1511 . Проверено 26 февраля 2024 г.
  12. ^ аб Оуян, Лонг; Ву, Джеффри; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Грей, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (31 октября 2022 г.). Обучение языковых моделей следованию инструкциям с обратной связью от человека. Тридцать шестая конференция по нейронным системам обработки информации: NeurIPS 2022. arXiv : 2203.02155 .
  13. ↑ Аб Эдвардс, Бендж (1 декабря 2022 г.). «OpenAI приглашает всех протестировать ChatGPT, нового чат-бота на базе искусственного интеллекта — с забавными результатами». Арс Техника . Проверено 4 марта 2023 г.
  14. Абхишек, Гупта (5 февраля 2023 г.). «Правильное участие заинтересованных сторон в ответственном искусственном интеллекте». ВенчурБит . Проверено 4 марта 2023 г.
  15. ^ Фернандес, Патрик; Мадаан, Аман; Лю, Эмми; Фариньяс, Антониу; Педро Энрике Мартинс; Берч, Аманда; де Соуза, Хосе Г.К.; Чжоу, Шуян; У, Туншуан; Нойбиг, Грэм; Мартинс, Андре FT (2023). «Преодоление разрыва: исследование по интеграции (человеческой) обратной связи для создания естественного языка». arXiv : 2305.00955 [cs.CL].
  16. ^ Чжу, Банхуа; Джордан, Майкл; Цзяо, Цзяньтао (3 июля 2023 г.). «Принципиальное обучение с подкреплением с использованием обратной связи от человека на основе парных или K-сравнений». Материалы 40-й Международной конференции по машинному обучению . ПМЛР: 43037–43067.
  17. ^ Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [cs.CL].
  18. ^ Нисан Стиеннон; Лонг Оуян; Джеффри Ву; Дэниел Зиглер; Райан Лоу; Челси Восс; Алек Рэдфорд; Дарио Амодей; Пол Ф. Кристиано (2020). «Учимся подводить итоги с помощью обратной связи человека». Достижения в области нейронных систем обработки информации . 33 .
  19. Виггерс, Кайл (24 февраля 2023 г.). «Может ли ИИ действительно быть защищен от текстовых атак?». ТехКранч . Проверено 4 марта 2023 г.
  20. ^ Фарсеев, Алекс. «Сообщение совета: чем больше, тем лучше? Почему «битва» ChatGPT против GPT-3 против GPT-4 - это просто семейный чат» . Форбс . Проверено 4 марта 2023 г.
  21. ^ Хейккиля, Мелисса. «Как OpenAI пытается сделать ChatGPT более безопасным и менее предвзятым». Обзор технологий Массачусетского технологического института . Проверено 4 марта 2023 г.
  22. ^ Дуглас Хэвен, Уилл. «ChatGPT — это последнее исправление OpenAI для GPT-3. Оно красивое, но все равно извергает ерунду». Обзор технологий Массачусетского технологического института . Проверено 4 марта 2023 г.
  23. ^ Глезе, Амелия; Макэлис, Нэт; Трембач, Майя; Асланидес, Джон; Фирою, Влад; Эвальдс, Тимо; Раух, Марибет; Вайдингер, Лаура; Чедвик, Мартин; Такер, Фиби; Кэмпбелл-Джиллингем, Люси; Уэсато, Джонатан; Хуанг, По-Сен; Команеску, Рамона; Ян, Фань; Видишь, Эбигейл; Дататри, Сумант; Грейг, Рори; Чен, Чарли; Фриц, Дуг; Элиас, Хауме Санчес; Грин, Ричард; Мокра, Соня; Фернандо, Николас; Ву, Бокси; Фоли, Рэйчел; Янг, Сюзанна; Габриэль, Ясон; Исаак, Уильям; Меллор, Джон; Хассабис, Демис; Кавукчуоглу, Корай; Хендрикс, Лиза Энн; Ирвинг, Джеффри (2022). «Улучшение согласованности агентов диалога посредством целенаправленных человеческих суждений». arXiv : 2209.14375 [cs.LG].
  24. ^ «Почему DeepMind не развертывает своего нового чат-бота с искусственным интеллектом - и что это значит для ответственного искусственного интеллекта» . ВенчурБит . 23 сентября 2022 г. Проверено 4 марта 2023 г.
  25. ^ «Создание более безопасных агентов диалога» . www.deepmind.com . Проверено 4 марта 2023 г.
  26. ^ Пинчай, Сундар; Хассабис, Демис (6 декабря 2023 г.). «Представляем Gemini: нашу самую крупную и эффективную модель искусственного интеллекта». Google . Проверено 29 февраля 2024 г.
  27. ^ Фань, Инь; Уоткинс, Оливия; Ду, Юйцин; Лю, Хао; Рю, Мункён; Бутилье, Крейг; Аббель, Питер; Гавамзаде, Мохаммед; Ли, Кангук; Ли, Кимин (2 ноября 2023 г.). «DPOK: обучение с подкреплением для точной настройки моделей распространения текста в изображение». НейрИПС 2023 . Проверено 1 марта 2024 г.
  28. ^ Сюй, Цзячжэн; Лю, Сяо; Ву, Юйчен; Тонг, Юйсюань; Ли, Цинкай; Дин, Мин; Тан, Цзе; Донг, Юйсяо (15 декабря 2023 г.). «ImageReward: изучение и оценка человеческих предпочтений при преобразовании текста в изображение». Достижения в области нейронных систем обработки информации . 36 : 15903–15935 . Проверено 1 марта 2024 г.
  29. ^ Ли, Кимин; Лю, Хао; Рю, Мункён; Уоткинс, Оливия; Ду, Юйцин; Бутилье, Крейг; Аббель, Питер; Гавамзаде, Мохаммед; Гу, Шисян Шейн (2023). «Согласование моделей текста и изображения с использованием обратной связи между людьми». arXiv : 2302.12192 .
  30. ^ «Обучение через обратную связь с людьми» . www.deepmind.com . Проверено 4 марта 2023 г.
  31. ^ Кристиано, Пол Ф; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений». Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 30 . Проверено 4 марта 2023 г.
  32. ^ Каспер, Стивен; Дэвис, Ксандер; Ши, Клаудия; Гилберт, Томас Крендл; Шерер, Жереми; Рандо, Хавьер; Фридман, Рэйчел; Корбак, Томаш; Линднер, Дэвид; Фрейре, Педро; Ван, Тони; Маркс, Сэмюэл; Сежери, Шарбель-Рафаэль; Кэрролл, Мика; Пэн, Энди; Кристофферсен, Филипп; Дамани, Мехул; Слокам, Стюарт; Анвар, Усман; Ситтаранджан, Ананд; Надо, Макс; Мишо, Эрик Дж.; Пфау, Джейкоб; Крашенинников Дмитрий; Чен, Синь; Лангоско, Лауро; Хасэ, Питер; Бийык, Эрдем; Драган, Анка; Крюгер, Дэвид; Садиг, Дорса; Хэдфилд-Менелл, Дилан (2023). «Открытые проблемы и фундаментальные ограничения обучения с подкреплением на основе обратной связи с человеком». arXiv : 2307.15217 [cs.AI].
  33. ^ Каспер, Стивен; Дэвис, Ксандер; Ши, Клаудия; Гилберт, Томас Крендл; Шерер, Жереми; Рандо, Хавьер; Фридман, Рэйчел; Корбак, Томаш; Линднер, Дэвид; Фрейре, Педро; Ван, Тони Тонг; Маркс, Сэмюэл; Сежери, Шарбель-Рафаэль; Кэрролл, Мика; Пэн, Энди; Кристофферсен, Филипп; Дамани, Мехул; Слокам, Стюарт; Анвар, Усман; Ситтаранджан, Ананд; Надо, Макс; Мишо, Эрик Дж.; Пфау, Джейкоб; Крашенинников Дмитрий; Чен, Синь; Лангоско, Лауро; Хасэ, Питер; Бийик, Эрдем; Драган, Анка; Крюгер, Дэвид; Садиг, Дорса; Хэдфилд-Менелл, Дилан (18 сентября 2023 г.). «Открытые проблемы и фундаментальные ограничения обучения с подкреплением на основе обратной связи с человеком». Труды по исследованиям машинного обучения .
  34. ^ Кристиано, Пол. «Мысли о влиянии исследований RLHF» . Проверено 4 марта 2023 г.
  35. ^ Беленгер, Лоренцо (2022). «Предвзятость искусственного интеллекта: исследование дискриминационных алгоритмических моделей принятия решений и применение возможных машинно-ориентированных решений, адаптированных из фармацевтической промышленности». ИИ и этика . Этика ИИ. 2 (4): 771–787. дои : 10.1007/s43681-022-00138-8. ПМЦ 8830968 . ПМИД  35194591. 
  36. ^ Ван, Остин. «Обучение языковых моделей следованию инструкциям с обратной связью от человека» (PDF) . Принстон.
  37. ^ Чжан, Чиюань; Бенджио, Сами; Хардт, Мориц; Рехт, Бенджамин; Виньялс, Ориол (4 ноября 2016 г.). «Понимание глубокого обучения требует переосмысления обобщений». Международная конференция по обучению представлений.
  38. ^ «Неверные функции вознаграждения в дикой природе» . ОпенАИ.
  39. ^ Рафаилов, Рафаэль; Шарма, Арчит; Митчелл, Эрик; Эрмон, Стефано; Мэннинг, Кристофер Д.; Финн, Челси (2023). «Прямая оптимизация предпочтений: ваша языковая модель тайно является моделью вознаграждения». arXiv : 2305.18290 [cs.LG].