Обучение с подкреплением на основе отзывов людей

В машинном обучении обучение с подкреплением на основе обратной связи человека ( RLHF ), также называемое обучением с подкреплением на основе предпочтений человека , представляет собой метод согласования агента ИИ с предпочтениями человека. В классическом обучении с подкреплением такой агент изучает политику , которая максимизирует функцию вознаграждения, которая измеряет, насколько хорошо он выполнил свою задачу. Однако сложно явно определить такую функцию вознаграждения, которая бы аппроксимировала человеческие предпочтения. Поэтому RLHF стремится обучать «модель вознаграждения» непосредственно на основе отзывов людей . ^[1] Эта модель может затем функционировать как функция вознаграждения для оптимизации политики агента с помощью алгоритма оптимизации, такого как оптимизация проксимальной политики . ^[2]^[3] Модель вознаграждения заранее адаптируется к оптимизируемой политике, чтобы предсказать, является ли данный результат хорошим (высокое вознаграждение) или плохим (низкое вознаграждение). RLHF может повысить надежность и эффективность исследования агентов RL, особенно когда функция вознаграждения разрежена или зашумлена. ^[4]^[5]^[6]

Мотивация

Оптимизация модели на основе отзывов людей желательна, когда задачу сложно определить, но легко оценить. ^[7] Например, для создания убедительной истории люди могут итеративно оценивать качество различных историй, созданных ИИ, и цель состоит в том, чтобы модель использовала их отзывы для улучшения создания историй.

Ранее предпринимались различные попытки использовать обратную связь с людьми для оптимизации результатов модели, в том числе посредством обучения с подкреплением, но большинство попыток были либо узкими и трудными для обобщения, либо терпели неудачу при выполнении более сложных задач. ^[8]^[9]^[10]^[11] RLHF был попыткой создать общий алгоритм для обучения на основе практической обратной связи от людей. ^[7]^[3]

Сбор обратной связи от людей

Обратная связь с людьми обычно собирается путем предложения людям ранжировать примеры поведения агента. ^[12]^[13]^[14] Эти рейтинги затем можно использовать для оценки результатов, например, с использованием рейтинговой системы Эло . ^[3] Хотя ранжирование является наиболее широко распространенной формой обратной связи, в недавних исследованиях были изучены и другие формы, такие как числовая обратная связь, обратная связь на естественном языке и побуждение к прямому редактированию выходных данных модели. ^[15]

При обучении на основе обратной связи человека посредством парных сравнений по модели Брэдли-Терри-Люса (или модели Плакетта-Люса для K-сравнений) оценка максимального правдоподобия (MLE) для линейных функций вознаграждения сходится, если данные сравнения генерируются при определенных условиях. модели, но при обучении политике более эффективным является пессимистический MLE, который включает в себя более низкую доверительную границу в качестве оценки вознаграждения. Более того, было показано, что, когда это применимо, непосредственное рассмотрение K-сравнений асимптотически более эффективно , чем преобразование их в парные сравнения в целях прогнозирования. ^[16]

Приложения

RLHF применялся к различным областям обработки естественного языка (NLP), таким как разговорные агенты, обобщение текста и понимание естественного языка. ^[17]^[18] Обычное обучение с подкреплением, при котором агенты учатся на своих действиях на основе заранее определенной «функции вознаграждения», трудно применить к задачам НЛП, поскольку вознаграждения, как правило, трудно определить или измерить, особенно при работе со сложными задачами. задачи, которые затрагивают человеческие ценности или предпочтения. ^[7] RLHF может управлять моделями НЛП, в частности языковыми моделями , для предоставления ответов, которые соответствуют предпочтениям человека в отношении таких задач, предварительно фиксируя их предпочтения в модели вознаграждения. В результате получается модель, которая потенциально может генерировать более полезные ответы и отклонять вопросы, которые считаются неуместными или находятся за пределами пространства знаний модели. ^[12]^{[19] Некоторыми примерами языковых моделей, обученных с помощью RLHF, являются}ChatGPT OpenAI (и его предшественник InstructGPT ), ^[13]^[20]^[21]^[22] Sparrow компании DeepMind , ^[23]^[24]^[25] и Google Gemini . _ ^[26]

В компьютерном зрении RLHF также использовался для согласования моделей текста и изображения . Успешные методы отметили, что использование регуляризации KL в RLHF помогло стабилизировать тренировочный процесс. ^[27]^[28] Другие методы пытались включить обратную связь посредством более прямого полуконтролируемого обучения, но допускали, что подход на основе RLHF, вероятно, будет работать лучше из-за генерации онлайн-выборок, используемой в RLHF во время обновлений, а также вышеупомянутой регуляризации KL. по сравнению с предыдущей моделью, что смягчает переобучение функции вознаграждения. ^[29]

Первоначально RLHF применялся и в других областях, например, в разработке ботов для видеоигр . Например, OpenAI и DeepMind обучали агентов играть в игры Atari , основываясь на предпочтениях человека. ^[7]^[30] Агенты достигли высоких результатов во многих протестированных средах, часто превосходя человеческие возможности. ^[31]

Ограничения

RLHF страдает от проблем со сбором отзывов людей, изучением модели вознаграждения и оптимизацией политики. ^[32]^[33] Масштабируемость и стоимость обратной связи с человеком могут быть медленными и дорогостоящими по сравнению с обучением без учителя. Его качество и последовательность также могут варьироваться в зависимости от задачи, интерфейса, а также индивидуальных предпочтений и предубеждений людей. Даже когда человеческая обратная связь возможна, модели RLHF все равно могут демонстрировать нежелательное поведение, которое не фиксируется человеческой обратной связью, возможно, из-за использования лазеек в модели вознаграждения, что является общей проблемой согласованности и надежности . ^[34]

Эффективность RLHF зависит от качества обратной связи между людьми. ^[3] Если обратная связь недостаточна беспристрастна, непоследовательна или неверна, модель может стать предвзятой . ^[35] Существует также риск того, что модель может не соответствовать получаемой обратной связи. Например, если отзывы исходят преимущественно от определенной демографической группы, модель может изучить не только общую направленность, заложенную в обратной связи, но также любые особенности или шум, присутствующие в этой демографической группе. ^[36]^[37] Чрезмерное соответствие конкретной полученной обратной связи (то есть предвзятости в ней) может привести к тому, что модель будет работать неоптимально в новых контекстах или при использовании разными группами.

В некоторых случаях, как это возможно при обычном обучении с подкреплением , может возникнуть риск того, что модель научится манипулировать процессом обратной связи или обманывать систему для достижения более высоких наград вместо того, чтобы действительно улучшать ее производительность, что указывает на ошибку в функции вознаграждения. . ^[38]

Альтернативы

Альтернатива RLHF, называемая прямой оптимизацией предпочтений (DPO), была предложена для изучения человеческих предпочтений. Как и RLHF, он применялся для согласования предварительно обученных больших языковых моделей с использованием данных о предпочтениях, сгенерированных человеком. Однако вместо обучения модели промежуточного вознаграждения для последующей оптимизации с помощью политики с использованием обучения с подкреплением, DPO использует изменение переменных , чтобы определить « потерю предпочтений » непосредственно как функцию политики, и использует эту потерю для точной настройки модели. . ^[39]

Смотрите также

Рекомендации

^ Рассел, Стюарт Дж.; Норвиг, Питер (2016). Искусственный интеллект: современный подход (Третье, Глобальное изд.). Бостон Колумбус Индианаполис Нью-Йорк Сан-Франциско Аппер-Седл-Ривер Амстердам Кейптаун Дубай Лондон Мадрид Милан Мюнхен Париж Монреаль Торонто Дели Мехико Сан-Паулу Сидней Гонконг Сеул Сингапур Тайбэй Токио: Пирсон. стр. 830–831. ISBN 978-0-13-604259-4.
^ Зиглер, Дэниел М.; Стиеннон, Нисан; Ву, Джеффри; Браун, Том Б.; Рэдфорд, Алек; Амодей, Дарио; Кристиано, Пол; Ирвинг, Джеффри (2019). «Точная настройка языковых моделей на основе человеческих предпочтений». arXiv : 1909.08593 [cs.CL].
^ abcd Ламберт, Натан; Кастрикато, Луи; фон Верра, Леандро; Гаврилла, Алекс. «Иллюстрация обучения с подкреплением на основе обратной связи с человеком (RLHF)». Huggingface.co . Проверено 4 марта 2023 г.
^ МакГлашан, Джеймс; Хо, Марк К; Лофтин, Роберт; Пэн, Бэй; Ван, Гуань; Робертс, Дэвид Л.; Тейлор, Мэтью Э.; Литтман, Майкл Л. (6 августа 2017 г.). «Интерактивное обучение на основе обратной связи с людьми, зависящей от политики». Материалы 34-й Международной конференции по машинному обучению. Том 70 . JMLR.org: 2285–2294. arXiv : 1701.06049 .
^ Уорнелл, Гарретт; Вайтович, Николас; Лоухерн, Вернон; Стоун, Питер (25 апреля 2018 г.). «Deep TAMER: формирование интерактивного агента в многомерных пространствах состояний». Материалы конференции AAAI по искусственному интеллекту . 32 (1). arXiv : 1709.10163 . дои : 10.1609/aaai.v32i1.11485. S2CID 4130751.
^ Бай, Юньтао; Джонс, Энди; Ндусс, Камаль; Аскелл, Аманда; Чен, Анна; ДасСарма, Нова; Слейте, Рассвет; Форт, Станислав; Гангули, Глубокий; Хениган, Том; Джозеф, Николас; Кадават, Саурав; Кернион, Джексон; Конерли, Том; Эль-Шоук, Шир; Эльхаге, Нельсон; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; Хьюм, Тристан; Джонстон, Скотт; Кравец, Шона; Ловитт, Лиана; Нанда, Нил; Олссон, Кэтрин; Амодей, Дарио; Браун, Том; Кларк, Джек; МакКэндлиш, Сэм; Ола, Крис; Манн, Бен; Каплан, Джаред (2022). «Обучение полезного и безобидного помощника с подкреплением обучения на основе обратной связи с человеком». arXiv : 2204.05862 [cs.CL].
^ abcd «Изучение человеческих предпочтений». openai.com . Проверено 4 марта 2023 г.
^ Нокс, В. Брэдли; Стоун, Питер; Бризил, Синтия (2013). «Обучение робота с помощью обратной связи с человеком: практический пример». Социальная робототехника . Springer International Publishing: 460–470. дои : 10.1007/978-3-319-02675-6_46 . Проверено 26 февраля 2024 г.
^ Акрур, Риад; Шенауэр, Марк; Себаг, Мишель (2012). «АПРЕЛЬ: Обучение с подкреплением на основе активного обучения предпочтениям». Машинное обучение и обнаружение знаний в базах данных . Спрингер: 116–131. дои : 10.1007/978-3-642-33486-3_8 . Проверено 26 февраля 2024 г.
^ Уилсон, Аарон; Ферн, Алан; Тадепалли, Прасад (2012). «Байесовский подход к изучению политики на основе запросов о предпочтениях траектории». Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 25 . Проверено 26 февраля 2024 г.
^ Шенауэр, Марк; Акрур, Риад; Себаг, Мишель; Супле, Жан-Кристоф (18 июня 2014 г.). «Программирование по обратной связи». Материалы 31-й Международной конференции по машинному обучению . ПМЛР: 1503–1511 . Проверено 26 февраля 2024 г.
^ аб Оуян, Лонг; Ву, Джеффри; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Грей, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (31 октября 2022 г.). Обучение языковых моделей следованию инструкциям с обратной связью от человека. Тридцать шестая конференция по нейронным системам обработки информации: NeurIPS 2022. arXiv : 2203.02155 .
↑ Аб Эдвардс, Бендж (1 декабря 2022 г.). «OpenAI приглашает всех протестировать ChatGPT, нового чат-бота на базе искусственного интеллекта — с забавными результатами». Арс Техника . Проверено 4 марта 2023 г.
↑ Абхишек, Гупта (5 февраля 2023 г.). «Правильное участие заинтересованных сторон в ответственном искусственном интеллекте». ВенчурБит . Проверено 4 марта 2023 г.
^ Фернандес, Патрик; Мадаан, Аман; Лю, Эмми; Фариньяс, Антониу; Педро Энрике Мартинс; Берч, Аманда; де Соуза, Хосе Г.К.; Чжоу, Шуян; У, Туншуан; Нойбиг, Грэм; Мартинс, Андре FT (2023). «Преодоление разрыва: исследование по интеграции (человеческой) обратной связи для создания естественного языка». arXiv : 2305.00955 [cs.CL].
^ Чжу, Банхуа; Джордан, Майкл; Цзяо, Цзяньтао (3 июля 2023 г.). «Принципиальное обучение с подкреплением с использованием обратной связи от человека на основе парных или K-сравнений». Материалы 40-й Международной конференции по машинному обучению . ПМЛР: 43037–43067.
^ Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [cs.CL].
^ Нисан Стиеннон; Лонг Оуян; Джеффри Ву; Дэниел Зиглер; Райан Лоу; Челси Восс; Алек Рэдфорд; Дарио Амодей; Пол Ф. Кристиано (2020). «Учимся подводить итоги с помощью обратной связи человека». Достижения в области нейронных систем обработки информации . 33 .
↑ Виггерс, Кайл (24 февраля 2023 г.). «Может ли ИИ действительно быть защищен от текстовых атак?». ТехКранч . Проверено 4 марта 2023 г.
^ Фарсеев, Алекс. «Сообщение совета: чем больше, тем лучше? Почему «битва» ChatGPT против GPT-3 против GPT-4 - это просто семейный чат» . Форбс . Проверено 4 марта 2023 г.
^ Хейккиля, Мелисса. «Как OpenAI пытается сделать ChatGPT более безопасным и менее предвзятым». Обзор технологий Массачусетского технологического института . Проверено 4 марта 2023 г.
^ Дуглас Хэвен, Уилл. «ChatGPT — это последнее исправление OpenAI для GPT-3. Оно красивое, но все равно извергает ерунду». Обзор технологий Массачусетского технологического института . Проверено 4 марта 2023 г.
^ Глезе, Амелия; Макэлис, Нэт; Трембач, Майя; Асланидес, Джон; Фирою, Влад; Эвальдс, Тимо; Раух, Марибет; Вайдингер, Лаура; Чедвик, Мартин; Такер, Фиби; Кэмпбелл-Джиллингем, Люси; Уэсато, Джонатан; Хуанг, По-Сен; Команеску, Рамона; Ян, Фань; Видишь, Эбигейл; Дататри, Сумант; Грейг, Рори; Чен, Чарли; Фриц, Дуг; Элиас, Хауме Санчес; Грин, Ричард; Мокра, Соня; Фернандо, Николас; Ву, Бокси; Фоли, Рэйчел; Янг, Сюзанна; Габриэль, Ясон; Исаак, Уильям; Меллор, Джон; Хассабис, Демис; Кавукчуоглу, Корай; Хендрикс, Лиза Энн; Ирвинг, Джеффри (2022). «Улучшение согласованности агентов диалога посредством целенаправленных человеческих суждений». arXiv : 2209.14375 [cs.LG].
^ «Почему DeepMind не развертывает своего нового чат-бота с искусственным интеллектом - и что это значит для ответственного искусственного интеллекта» . ВенчурБит . 23 сентября 2022 г. Проверено 4 марта 2023 г.
^ «Создание более безопасных агентов диалога» . www.deepmind.com . Проверено 4 марта 2023 г.
^ Пинчай, Сундар; Хассабис, Демис (6 декабря 2023 г.). «Представляем Gemini: нашу самую крупную и эффективную модель искусственного интеллекта». Google . Проверено 29 февраля 2024 г.
^ Фань, Инь; Уоткинс, Оливия; Ду, Юйцин; Лю, Хао; Рю, Мункён; Бутилье, Крейг; Аббель, Питер; Гавамзаде, Мохаммед; Ли, Кангук; Ли, Кимин (2 ноября 2023 г.). «DPOK: обучение с подкреплением для точной настройки моделей распространения текста в изображение». НейрИПС 2023 . Проверено 1 марта 2024 г.
^ Сюй, Цзячжэн; Лю, Сяо; Ву, Юйчен; Тонг, Юйсюань; Ли, Цинкай; Дин, Мин; Тан, Цзе; Донг, Юйсяо (15 декабря 2023 г.). «ImageReward: изучение и оценка человеческих предпочтений при преобразовании текста в изображение». Достижения в области нейронных систем обработки информации . 36 : 15903–15935 . Проверено 1 марта 2024 г.
^ Ли, Кимин; Лю, Хао; Рю, Мункён; Уоткинс, Оливия; Ду, Юйцин; Бутилье, Крейг; Аббель, Питер; Гавамзаде, Мохаммед; Гу, Шисян Шейн (2023). «Согласование моделей текста и изображения с использованием обратной связи между людьми». arXiv : 2302.12192 .
^ «Обучение через обратную связь с людьми» . www.deepmind.com . Проверено 4 марта 2023 г.
^ Кристиано, Пол Ф; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений». Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 30 . Проверено 4 марта 2023 г.
^ Каспер, Стивен; Дэвис, Ксандер; Ши, Клаудия; Гилберт, Томас Крендл; Шерер, Жереми; Рандо, Хавьер; Фридман, Рэйчел; Корбак, Томаш; Линднер, Дэвид; Фрейре, Педро; Ван, Тони; Маркс, Сэмюэл; Сежери, Шарбель-Рафаэль; Кэрролл, Мика; Пэн, Энди; Кристофферсен, Филипп; Дамани, Мехул; Слокам, Стюарт; Анвар, Усман; Ситтаранджан, Ананд; Надо, Макс; Мишо, Эрик Дж.; Пфау, Джейкоб; Крашенинников Дмитрий; Чен, Синь; Лангоско, Лауро; Хасэ, Питер; Бийык, Эрдем; Драган, Анка; Крюгер, Дэвид; Садиг, Дорса; Хэдфилд-Менелл, Дилан (2023). «Открытые проблемы и фундаментальные ограничения обучения с подкреплением на основе обратной связи с человеком». arXiv : 2307.15217 [cs.AI].
^ Каспер, Стивен; Дэвис, Ксандер; Ши, Клаудия; Гилберт, Томас Крендл; Шерер, Жереми; Рандо, Хавьер; Фридман, Рэйчел; Корбак, Томаш; Линднер, Дэвид; Фрейре, Педро; Ван, Тони Тонг; Маркс, Сэмюэл; Сежери, Шарбель-Рафаэль; Кэрролл, Мика; Пэн, Энди; Кристофферсен, Филипп; Дамани, Мехул; Слокам, Стюарт; Анвар, Усман; Ситтаранджан, Ананд; Надо, Макс; Мишо, Эрик Дж.; Пфау, Джейкоб; Крашенинников Дмитрий; Чен, Синь; Лангоско, Лауро; Хасэ, Питер; Бийик, Эрдем; Драган, Анка; Крюгер, Дэвид; Садиг, Дорса; Хэдфилд-Менелл, Дилан (18 сентября 2023 г.). «Открытые проблемы и фундаментальные ограничения обучения с подкреплением на основе обратной связи с человеком». Труды по исследованиям машинного обучения .
^ Кристиано, Пол. «Мысли о влиянии исследований RLHF» . Проверено 4 марта 2023 г.
^ Беленгер, Лоренцо (2022). «Предвзятость искусственного интеллекта: исследование дискриминационных алгоритмических моделей принятия решений и применение возможных машинно-ориентированных решений, адаптированных из фармацевтической промышленности». ИИ и этика . Этика ИИ. 2 (4): 771–787. дои : 10.1007/s43681-022-00138-8. ПМЦ 8830968 . ПМИД 35194591.
^ Ван, Остин. «Обучение языковых моделей следованию инструкциям с обратной связью от человека» (PDF) . Принстон.
^ Чжан, Чиюань; Бенджио, Сами; Хардт, Мориц; Рехт, Бенджамин; Виньялс, Ориол (4 ноября 2016 г.). «Понимание глубокого обучения требует переосмысления обобщений». Международная конференция по обучению представлений.
^ «Неверные функции вознаграждения в дикой природе» . ОпенАИ.
^ Рафаилов, Рафаэль; Шарма, Арчит; Митчелл, Эрик; Эрмон, Стефано; Мэннинг, Кристофер Д.; Финн, Челси (2023). «Прямая оптимизация предпочтений: ваша языковая модель тайно является моделью вознаграждения». arXiv : 2305.18290 [cs.LG].