В машинном обучении обучение с подкреплением на основе обратной связи с человеком ( RLHF ) — это метод согласования интеллектуального агента с предпочтениями человека. Он включает в себя обучение модели вознаграждения для представления предпочтений, которые затем могут быть использованы для обучения других моделей посредством обучения с подкреплением .
В классическом обучении с подкреплением цель интеллектуального агента — изучить функцию, которая управляет его поведением, называемую политикой . Эта функция итеративно обновляется для максимизации вознаграждений на основе выполнения задачи агента. [1] Однако явное определение функции вознаграждения, которая точно аппроксимирует человеческие предпочтения, является сложной задачей. Поэтому RLHF стремится обучить «модель вознаграждения» непосредственно на основе обратной связи от человека . [2] Модель вознаграждения сначала обучается контролируемым образом, чтобы предсказать, будет ли ответ на заданную подсказку хорошим (высокое вознаграждение) или плохим (низкое вознаграждение) на основе данных ранжирования, собранных от людей -аннотаторов . Затем эта модель служит функцией вознаграждения для улучшения политики агента с помощью алгоритма оптимизации, такого как оптимизация проксимальной политики . [3] [4] [5]
RLHF имеет приложения в различных областях машинного обучения, включая задачи обработки естественного языка , такие как реферирование текста и разговорные агенты , задачи компьютерного зрения, такие как модели преобразования текста в изображение , и разработка ботов для видеоигр . Хотя RLHF является эффективным методом обучения моделей лучшему функционированию в соответствии с предпочтениями человека, он также сталкивается с трудностями из-за способа сбора данных о предпочтениях человека. Хотя RLHF не требует огромных объемов данных для повышения производительности, получение высококачественных данных о предпочтениях по-прежнему является дорогостоящим процессом. Кроме того, если данные не собираются тщательно из репрезентативной выборки , полученная модель может демонстрировать нежелательные смещения .
Оптимизация модели на основе обратной связи от человека желательна, когда задачу трудно определить, но легко оценить. [6] Например, можно захотеть обучить модель генерировать безопасный текст, который одновременно полезен и безвреден (например, лишен предвзятости , токсичности или иного вредного контента). Просить людей вручную создавать примеры безвредного и вредного текста было бы сложно и отнимало бы много времени. Однако люди умеют быстро оценивать и сравнивать вредность различных текстов, сгенерированных ИИ. Поэтому более практичной целью было бы позволить модели использовать этот тип обратной связи от человека для улучшения генерации текста. [7]
Несмотря на явные преимущества включения обратной связи от человека в модели обучения, предыдущие попытки, включая те, которые используют обучение с подкреплением , столкнулись со значительными трудностями. Большинство попыток были либо узкими и сложными для обобщения, разбиваясь на более сложные задачи, [8] [9] [10] [11] или они столкнулись с трудностями обучения на основе разреженных (отсутствие конкретной информации и отношение к большим объемам текста одновременно) или шумных (непоследовательное вознаграждение схожих результатов) функций вознаграждения. [12] [13]
RLHF не был первым успешным методом использования обратной связи от человека для обучения с подкреплением, но он является одним из наиболее широко используемых. Основа для RLHF была введена как попытка создать общий алгоритм для обучения на основе практического количества обратной связи от человека. [6] [3] Алгоритм, используемый сегодня, был введен OpenAI в статье об улучшении продолжения текста или резюмирования на основе обратной связи от человека, и он начал набирать популярность, когда тот же метод был повторно использован в их статье об InstructGPT . [2] [14] [15] Также было показано, что RLHF повышает надежность агентов RL и их способность к исследованию , что приводит к процессу оптимизации, более искусному в обработке неопределенности и эффективном исследовании своей среды в поисках наибольшего вознаграждения. [16]
Обратная связь от людей обычно собирается путем побуждения людей ранжировать примеры поведения агента. [15] [17] [18] Эти рейтинги затем могут быть использованы для оценки выходных данных, например, с помощью рейтинговой системы Эло , которая представляет собой алгоритм для расчета относительных уровней мастерства игроков в игре, основанный только на результате каждой игры. [3] Хотя ранжирование выходных данных является наиболее широко принятой формой обратной связи, недавние исследования изучали другие формы, такие как числовая обратная связь, обратная связь на естественном языке и побуждение к прямому редактированию выходных данных модели. [19]
Первоначальным мотивом RLHF было то, что для эффективности требовалось сравнительно небольшое количество сравнительных данных. [6] Было показано, что небольшое количество данных может привести к результатам, сопоставимым с большим количеством. Кроме того, увеличение количества данных, как правило, менее эффективно, чем пропорциональное увеличение размера модели вознаграждения. [14] Тем не менее, большее и более разнообразное количество данных может иметь решающее значение для задач, где важно избежать предвзятости от частично репрезентативной группы аннотаторов. [15]
При обучении на основе обратной связи с людьми посредством парного сравнения в модели Брэдли–Терри–Льюса (или модели Плакетта–Льюса для сравнений по К-критерию более чем двух сравнений) было показано , что оценщик максимального правдоподобия (MLE) для линейных функций вознаграждения сходится , если данные сравнения генерируются в рамках четко определенной линейной модели . Это означает, что при определенных условиях, если модель обучена решать, какой выбор люди предпочтут между парами (или группами) выборов, она обязательно улучшит прогнозирование будущих предпочтений. Это улучшение ожидается, пока сравнения, на которых она учится, основаны на последовательном и простом правиле. [20] [21]
Были математически изучены как модели автономного сбора данных, где модель обучается, взаимодействуя со статическим набором данных и обновляя свою политику партиями, так и модели онлайн-сбора данных, где модель напрямую взаимодействует с динамической средой и немедленно обновляет свою политику, доказав границы сложности выборки для RLHF в рамках различных моделей обратной связи. [20] [22]
В модели сбора данных в автономном режиме, когда целью является обучение политики, наиболее эффективна пессимистическая MLE, которая включает нижнюю границу доверия в качестве оценки вознаграждения. Более того, когда это применимо, было показано, что рассмотрение K-сравнений напрямую асимптотически более эффективно , чем преобразование их в парные сравнения для целей прогнозирования. [22] [23] [15]
В онлайн-сценарии, когда обратная связь от людей собирается посредством парных сравнений в рамках модели Брэдли–Терри–Льюса, а цель состоит в том, чтобы минимизировать сожаление алгоритма (разницу в производительности по сравнению с оптимальным агентом), было показано, что оптимистичный MLE, который включает верхнюю границу доверия в качестве оценки вознаграждения, может использоваться для разработки эффективных алгоритмов выборки (это означает, что им требуется относительно мало обучающих данных). Ключевая проблема в RLHF при обучении с помощью парных (или дуэльных) сравнений связана с немарковской природой его оптимальных политик. В отличие от более простых сценариев, где оптимальная стратегия не требует памяти о прошлых действиях, в RLHF наилучший курс действий часто зависит от предыдущих событий и решений, что делает стратегию по сути зависимой от памяти. [21]
RLHF применялся к различным областям обработки естественного языка (NLP), таким как разговорные агенты, резюмирование текста и понимание естественного языка. [24] [14] Обычное обучение с подкреплением, в котором агенты учатся на своих действиях на основе предопределенной «функции вознаграждения», трудно применять к задачам NLP, поскольку вознаграждения, как правило, трудно определить или измерить, особенно при работе со сложными задачами, которые включают человеческие ценности или предпочтения. [6] RLHF может направлять модели NLP, в частности языковые модели , для предоставления ответов, которые соответствуют человеческим предпочтениям в отношении таких задач, фиксируя их предпочтения заранее в модели вознаграждения. Это приводит к модели, способной генерировать более релевантные ответы и отклонять неуместные или нерелевантные запросы. [15] [25] Некоторые известные примеры языковых моделей, обученных с помощью RLHF, включают ChatGPT от OpenAI (и его предшественник InstructGPT ), [17] [26] [27] Sparrow от DeepMind , [28] [29] [30] Gemini от Google , [31] и Claude от Anthropic . [32]
В компьютерном зрении RLHF также использовался для выравнивания моделей «текст-изображение» . Исследования, в которых RLHF успешно использовалась для этой цели, отметили, что использование регуляризации KL в RLHF, которая направлена на предотвращение слишком большого отклонения изученной политики от невыровненной модели, помогло стабилизировать процесс обучения за счет снижения переобучения модели вознаграждения. Было отмечено, что конечные выходные изображения моделей, обученных с регуляризацией KL, были значительно более высокого качества, чем те, которые обучались без нее. [33] [34] Другие методы пытались включить обратную связь через более прямое обучение — основанное на максимизации вознаграждения без использования обучения с подкреплением — но признали, что подход на основе RLHF, вероятно, будет работать лучше из-за онлайн-генерации выборки, используемой в RLHF во время обновлений, а также вышеупомянутой регуляризации KL по сравнению с предыдущей моделью, которая смягчает переобучение функции вознаграждения. [35]
Первоначально RLHF применялся в других областях, таких как разработка ботов для видеоигр и задач в моделируемой робототехнике . Например, OpenAI и DeepMind обучали агентов играть в игры Atari на основе человеческих предпочтений. В классическом обучении таких ботов на основе RL функция вознаграждения просто коррелирует с тем, насколько хорошо агент играет в игре, обычно с использованием таких метрик, как счет в игре . Для сравнения, в RLHF человеку периодически показывают два клипа поведения агента в игре, и он должен решить, какой из них выглядит лучше. Такой подход может научить агентов играть на конкурентоспособном уровне, даже не имея доступа к их счету. Фактически, было показано, что RLHF иногда может приводить к более высокой производительности, чем RL с метриками очков, потому что предпочтения человека могут содержать больше полезной информации, чем метрики, основанные на производительности. [6] [36] Агенты достигли высокой производительности во многих протестированных средах, часто превосходя производительность человека. [37]
В RLHF обучаются две разные модели: модель вознаграждения и политика обучения с подкреплением (RL). Модель вознаграждения учится определять, какое поведение желательно, основываясь на обратной связи человека, в то время как политика руководствуется моделью вознаграждения для определения действий агента. Обе модели обычно инициализируются с использованием предварительно обученной модели авторегрессионного языка . Затем эта модель обычно обучается контролируемым образом на относительно небольшом наборе данных пар подсказок помощнику и их сопровождающих ответов, написанных людьми-аннотаторами. Модель вознаграждения выигрывает от начала с предварительно обученной модели, так как это инициализирует ее с пониманием языка и фокусирует обучение явно на изучении человеческих предпочтений, ускоряя процесс. Помимо использования для инициализации модели вознаграждения и политики RL, модель затем также используется для выборки данных, которые будут сравниваться аннотаторами. [15] [14]
Затем модель вознаграждения обучается путем замены последнего слоя предыдущей модели на случайно инициализированную регрессионную головку. Это изменение смещает модель с ее первоначальной задачи классификации по ее словарю на простой вывод числа, соответствующего оценке любой заданной подсказки и ответа. Эта модель обучается на данных сравнения человеческих предпочтений, собранных ранее из контролируемой модели. В частности, она обучается минимизировать следующую функцию потерь кросс-энтропии , что стимулирует ее делать прогнозы, которые ближе к фактическим человеческим оценкам:
где — количество ответов, ранжированных маркировщиками, — вывод модели вознаграждения для подсказки и завершения , — предпочтительное завершение по сравнению с , обозначает сигмоидальную функцию , а обозначает ожидаемое значение . [15] Эта функция потерь по сути измеряет разницу между прогнозами модели вознаграждения и решениями, принятыми людьми. Цель состоит в том, чтобы сделать догадки модели как можно ближе к предпочтениям людей, минимизировав разницу, измеренную этим уравнением. В случае только попарных сравнений фактор опускается. [14] В противном случае все сравнения из каждой подсказки используются для обучения как одна партия . [15] После обучения выходные данные модели нормализуются таким образом, чтобы эталонные завершения имели средний балл 0. [14]
Аналогично модели вознаграждения, политика обратной связи человека также настраивается на основе предварительно обученной модели. Цель этого этапа тонкой настройки — адаптировать уже существующую, невыровненную модель (изначально обученную контролируемым образом) для лучшего соответствия человеческим предпочтениям путем корректировки ее параметров на основе вознаграждений, полученных из обратной связи человека. Выходные данные модели вознаграждения можно использовать в качестве вознаграждения, которое будет максимизировано с помощью RL для пар подсказка-ответ. [14] Среда случайным образом представляет политику с подсказками из набора данных и ожидает ответов на них, имитируя реальные сценарии, в которых агент должен понимать разнообразные подсказки и генерировать соответствующие ответы. Обозначая изученную политику RL с параметрами как , мы можем определить следующую целевую функцию:
где — распределение обучения, из которого мы черпаем, а — ранее обученная, невыровненная модель. Константа используется для регулировки интенсивности штрафного члена KL. Этот штраф применяется на основе токенов между политикой и выходными данными невыровненных моделей. Его цель — избежать чрезмерной тонкой настройки политики, гарантируя, что процесс обучения не слишком специализирует модель на новых данных обучения. [15] [14] Этот член KL работает, штрафуя расхождение KL (меру статистического расстояния между распределениями) между настраиваемой моделью и исходной контролируемой моделью. Выбирая подходящий , обучение может сбалансировать обучение на новых данных, сохраняя полезную информацию из исходной модели, увеличивая обобщение , избегая слишком близкого соответствия новым данным. Помимо предотвращения вывода новой моделью результатов, слишком отличающихся от результатов исходной модели, вторая причина включения термина KL заключается в том, чтобы позволить политике более подробно исследовать окружающую среду путем поощрения дополнительной энтропии , которая может предотвратить схлопывание модели до единственного режима . [14]
Проще говоря, целевая функция вычисляет, насколько хорошо ответы политики, как ожидается, будут соответствовать обратной связи человека. Политика генерирует ответы на подсказки, и каждый ответ оценивается как по тому, насколько хорошо он соответствует человеческим предпочтениям (измеряемым моделью вознаграждения), так и по тому, насколько он похож на ответы, которые модель могла бы сгенерировать естественным образом. Цель состоит в том, чтобы сбалансировать улучшение соответствия человеческим предпочтениям, одновременно гарантируя, что ответы модели остаются разнообразными и не слишком далекими от того, чему она научилась во время своего первоначального обучения. Это помогает модели не только давать ответы, которые люди считают полезными или приемлемыми, но и поддерживать широкое понимание и избегать слишком узких или повторяющихся ответов.
Обычно к целевой функции добавляется второй член, который позволяет политике включать градиенты предварительной подготовки. Этот член не дает модели потерять свою первоначальную способность понимать язык, пока она изучает новые задачи на основе обратной связи с человеком, включая свою исходную задачу предварительной подготовки по завершению текста. Окончательная целевая функция записывается как:
где контролирует силу этого дополнительного термина и является исходным предварительным распределением текста. [15] Эта целевая функция затем может быть напрямую использована для обучения политики с использованием проксимального алгоритма оптимизации политики . [15] [14]
В целом эта целевая функция определяет метод корректировки политики RL, сочетая в себе цель соответствия обратной связи от человека и сохранения понимания исходного языка модели.
RLHF страдает от проблем со сбором отзывов людей, изучением модели вознаграждения и оптимизацией политики. [38] Его качество и согласованность могут варьироваться в зависимости от задачи, интерфейса, а также предпочтений и предубеждений отдельных людей. [15] [39]
Эффективность RLHF зависит от качества обратной связи от человека. Например, модель может стать предвзятой , отдавая предпочтение определенным группам по сравнению с другими, если обратная связь не является беспристрастной, непоследовательной или неверной. [3] [40] Существует риск переобучения , когда модель запоминает конкретные примеры обратной связи вместо того, чтобы учиться обобщать . Например, обратная связь преимущественно от определенной демографической группы может привести к тому, что модель узнает особенности или шум вместе с предполагаемым выравниванием. Чрезмерное выравнивание с конкретной полученной обратной связью (то есть с ее предвзятостью) может привести к тому, что модель будет работать неоптимально в новых контекстах или при использовании разными группами. [41] Одна функция вознаграждения не всегда может представлять мнения различных групп людей. Даже при репрезентативной выборке противоречивые взгляды и предпочтения могут привести к тому, что модель вознаграждения будет отдавать предпочтение мнению большинства, что потенциально поставит в невыгодное положение недостаточно представленные группы. [38]
В некоторых случаях, как это возможно при обычном обучении с подкреплением , может существовать риск того, что модель научится манипулировать процессом обратной связи или играть с системой для достижения более высоких наград, а не действительно улучшать ее производительность. [42] В случае RLHF модель может научиться использовать тот факт, что она вознаграждается за то, что оценивается положительно, а не обязательно за то, что на самом деле хорошо, что может привести к тому, что она научится убеждать и манипулировать. Например, модели могут узнать, что кажущаяся уверенность, даже если она неточна, приносит более высокие награды. Такое поведение, если его не контролировать, не просто поощряется, но может вызвать значительные проблемы с развертыванием из-за способности модели вводить в заблуждение. Исследования показали, что люди не умеют определять ошибки в выходных данных LLM в сложных задачах; поэтому модели, обучающиеся генерировать уверенно звучащий, но неверный текст, могут привести к значительным проблемам при развертывании. [38]
Подобно RLHF, обучение с подкреплением на основе обратной связи ИИ (RLAIF) основано на обучении модели предпочтений, за исключением того, что обратная связь генерируется автоматически. [43] Это особенно используется в конституционном ИИ Anthropic , где обратная связь ИИ основана на соответствии принципам конституции. [44]
Другая альтернатива RLHF, называемая Direct Preference Optimization (DPO), была предложена для изучения человеческих предпочтений. Как и RLHF, она применялась для согласования предварительно обученных больших языковых моделей с использованием данных о предпочтениях, сгенерированных человеком. Однако в отличие от RLHF, который сначала обучает отдельную промежуточную модель, чтобы понять, как выглядят хорошие результаты, а затем обучает основную модель, как достичь этих результатов, DPO упрощает процесс, напрямую настраивая основную модель в соответствии с предпочтениями людей. Он использует изменение переменных для определения « потери предпочтений » непосредственно как функции политики и использует эту потерю для тонкой настройки модели, помогая ей понимать и расставлять приоритеты в отношении человеческих предпочтений без необходимости отдельного шага. По сути, этот подход напрямую формирует решения модели на основе положительной или отрицательной обратной связи человека.
DPO проще в реализации и обучении, чем RLHF, и, как было показано, дает сопоставимые, а иногда и превосходящие результаты. [45] Тем не менее, RLHF также показал, что превосходит DPO на некоторых наборах данных, например, на бенчмарках, которые пытаются измерить правдивость. Поэтому выбор метода может варьироваться в зависимости от особенностей данных о человеческих предпочтениях и характера задачи. [46]