stringtranslate.com

Подкрепление обучения на основе обратной связи от человека

В машинном обучении обучение с подкреплением на основе обратной связи с человеком ( RLHF ) — это метод согласования интеллектуального агента с предпочтениями человека. Он включает в себя обучение модели вознаграждения для представления предпочтений, которые затем могут быть использованы для обучения других моделей посредством обучения с подкреплением .

В классическом обучении с подкреплением цель интеллектуального агента — изучить функцию, которая управляет его поведением, называемую политикой . Эта функция итеративно обновляется для максимизации вознаграждений на основе выполнения задачи агента. [1] Однако явное определение функции вознаграждения, которая точно аппроксимирует человеческие предпочтения, является сложной задачей. Поэтому RLHF стремится обучить «модель вознаграждения» непосредственно на основе обратной связи от человека . [2] Модель вознаграждения сначала обучается контролируемым образом, чтобы предсказать, будет ли ответ на заданную подсказку хорошим (высокое вознаграждение) или плохим (низкое вознаграждение) на основе данных ранжирования, собранных от людей -аннотаторов . Затем эта модель служит функцией вознаграждения для улучшения политики агента с помощью алгоритма оптимизации, такого как оптимизация проксимальной политики . [3] [4] [5]

RLHF имеет приложения в различных областях машинного обучения, включая задачи обработки естественного языка , такие как реферирование текста и разговорные агенты , задачи компьютерного зрения, такие как модели преобразования текста в изображение , и разработка ботов для видеоигр . Хотя RLHF является эффективным методом обучения моделей лучшему функционированию в соответствии с предпочтениями человека, он также сталкивается с трудностями из-за способа сбора данных о предпочтениях человека. Хотя RLHF не требует огромных объемов данных для повышения производительности, получение высококачественных данных о предпочтениях по-прежнему является дорогостоящим процессом. Кроме того, если данные не собираются тщательно из репрезентативной выборки , полученная модель может демонстрировать нежелательные смещения .

Общий обзор обучения с подкреплением на основе обратной связи с человеком

Предыстория и мотивация

Оптимизация модели на основе обратной связи от человека желательна, когда задачу трудно определить, но легко оценить. [6] Например, можно захотеть обучить модель генерировать безопасный текст, который одновременно полезен и безвреден (например, лишен предвзятости , токсичности или иного вредного контента). Просить людей вручную создавать примеры безвредного и вредного текста было бы сложно и отнимало бы много времени. Однако люди умеют быстро оценивать и сравнивать вредность различных текстов, сгенерированных ИИ. Поэтому более практичной целью было бы позволить модели использовать этот тип обратной связи от человека для улучшения генерации текста. [7]

Несмотря на явные преимущества включения обратной связи от человека в модели обучения, предыдущие попытки, включая те, которые используют обучение с подкреплением , столкнулись со значительными трудностями. Большинство попыток были либо узкими и сложными для обобщения, разбиваясь на более сложные задачи, [8] [9] [10] [11] или они столкнулись с трудностями обучения на основе разреженных (отсутствие конкретной информации и отношение к большим объемам текста одновременно) или шумных (непоследовательное вознаграждение схожих результатов) функций вознаграждения. [12] [13]

RLHF не был первым успешным методом использования обратной связи от человека для обучения с подкреплением, но он является одним из наиболее широко используемых. Основа для RLHF была введена как попытка создать общий алгоритм для обучения на основе практического количества обратной связи от человека. [6] [3] Алгоритм, используемый сегодня, был введен OpenAI в статье об улучшении продолжения текста или резюмирования на основе обратной связи от человека, и он начал набирать популярность, когда тот же метод был повторно использован в их статье об InstructGPT . [2] [14] [15] Также было показано, что RLHF повышает надежность агентов RL и их способность к исследованию , что приводит к процессу оптимизации, более искусному в обработке неопределенности и эффективном исследовании своей среды в поисках наибольшего вознаграждения. [16]

Сбор отзывов людей

Обратная связь от людей обычно собирается путем побуждения людей ранжировать примеры поведения агента. [15] [17] [18] Эти рейтинги затем могут быть использованы для оценки выходных данных, например, с помощью рейтинговой системы Эло , которая представляет собой алгоритм для расчета относительных уровней мастерства игроков в игре, основанный только на результате каждой игры. [3] Хотя ранжирование выходных данных является наиболее широко принятой формой обратной связи, недавние исследования изучали другие формы, такие как числовая обратная связь, обратная связь на естественном языке и побуждение к прямому редактированию выходных данных модели. [19]

Первоначальным мотивом RLHF было то, что для эффективности требовалось сравнительно небольшое количество сравнительных данных. [6] Было показано, что небольшое количество данных может привести к результатам, сопоставимым с большим количеством. Кроме того, увеличение количества данных, как правило, менее эффективно, чем пропорциональное увеличение размера модели вознаграждения. [14] Тем не менее, большее и более разнообразное количество данных может иметь решающее значение для задач, где важно избежать предвзятости от частично репрезентативной группы аннотаторов. [15]

При обучении на основе обратной связи с людьми посредством парного сравнения в модели Брэдли–Терри–Льюса (или модели Плакетта–Льюса для сравнений по К-критерию более чем двух сравнений) было показано , что оценщик максимального правдоподобия (MLE) для линейных функций вознаграждения сходится , если данные сравнения генерируются в рамках четко определенной линейной модели . Это означает, что при определенных условиях, если модель обучена решать, какой выбор люди предпочтут между парами (или группами) выборов, она обязательно улучшит прогнозирование будущих предпочтений. Это улучшение ожидается, пока сравнения, на которых она учится, основаны на последовательном и простом правиле. [20] [21]

Были математически изучены как модели автономного сбора данных, где модель обучается, взаимодействуя со статическим набором данных и обновляя свою политику партиями, так и модели онлайн-сбора данных, где модель напрямую взаимодействует с динамической средой и немедленно обновляет свою политику, доказав границы сложности выборки для RLHF в рамках различных моделей обратной связи. [20] [22]

В модели сбора данных в автономном режиме, когда целью является обучение политики, наиболее эффективна пессимистическая MLE, которая включает нижнюю границу доверия в качестве оценки вознаграждения. Более того, когда это применимо, было показано, что рассмотрение K-сравнений напрямую асимптотически более эффективно , чем преобразование их в парные сравнения для целей прогнозирования. [22] [23] [15]

В онлайн-сценарии, когда обратная связь от людей собирается посредством парных сравнений в рамках модели Брэдли–Терри–Льюса, а цель состоит в том, чтобы минимизировать сожаление алгоритма (разницу в производительности по сравнению с оптимальным агентом), было показано, что оптимистичный MLE, который включает верхнюю границу доверия в качестве оценки вознаграждения, может использоваться для разработки эффективных алгоритмов выборки (это означает, что им требуется относительно мало обучающих данных). Ключевая проблема в RLHF при обучении с помощью парных (или дуэльных) сравнений связана с немарковской природой его оптимальных политик. В отличие от более простых сценариев, где оптимальная стратегия не требует памяти о прошлых действиях, в RLHF наилучший курс действий часто зависит от предыдущих событий и решений, что делает стратегию по сути зависимой от памяти. [21]

Приложения

RLHF применялся к различным областям обработки естественного языка (NLP), таким как разговорные агенты, резюмирование текста и понимание естественного языка. [24] [14] Обычное обучение с подкреплением, в котором агенты учатся на своих действиях на основе предопределенной «функции вознаграждения», трудно применять к задачам NLP, поскольку вознаграждения, как правило, трудно определить или измерить, особенно при работе со сложными задачами, которые включают человеческие ценности или предпочтения. [6] RLHF может направлять модели NLP, в частности языковые модели , для предоставления ответов, которые соответствуют человеческим предпочтениям в отношении таких задач, фиксируя их предпочтения заранее в модели вознаграждения. Это приводит к модели, способной генерировать более релевантные ответы и отклонять неуместные или нерелевантные запросы. [15] [25] Некоторые известные примеры языковых моделей, обученных с помощью RLHF, включают ChatGPT от OpenAI (и его предшественник InstructGPT ), [17] [26] [27] Sparrow от DeepMind , [28] [29] [30] Gemini от Google , [31] и Claude от Anthropic . [32]

В компьютерном зрении RLHF также использовался для выравнивания моделей «текст-изображение» . Исследования, в которых RLHF успешно использовалась для этой цели, отметили, что использование регуляризации KL в RLHF, которая направлена ​​на предотвращение слишком большого отклонения изученной политики от невыровненной модели, помогло стабилизировать процесс обучения за счет снижения переобучения модели вознаграждения. Было отмечено, что конечные выходные изображения моделей, обученных с регуляризацией KL, были значительно более высокого качества, чем те, которые обучались без нее. [33] [34] Другие методы пытались включить обратную связь через более прямое обучение — основанное на максимизации вознаграждения без использования обучения с подкреплением — но признали, что подход на основе RLHF, вероятно, будет работать лучше из-за онлайн-генерации выборки, используемой в RLHF во время обновлений, а также вышеупомянутой регуляризации KL по сравнению с предыдущей моделью, которая смягчает переобучение функции вознаграждения. [35]

Первоначально RLHF применялся в других областях, таких как разработка ботов для видеоигр и задач в моделируемой робототехнике . Например, OpenAI и DeepMind обучали агентов играть в игры Atari на основе человеческих предпочтений. В классическом обучении таких ботов на основе RL функция вознаграждения просто коррелирует с тем, насколько хорошо агент играет в игре, обычно с использованием таких метрик, как счет в игре . Для сравнения, в RLHF человеку периодически показывают два клипа поведения агента в игре, и он должен решить, какой из них выглядит лучше. Такой подход может научить агентов играть на конкурентоспособном уровне, даже не имея доступа к их счету. Фактически, было показано, что RLHF иногда может приводить к более высокой производительности, чем RL с метриками очков, потому что предпочтения человека могут содержать больше полезной информации, чем метрики, основанные на производительности. [6] [36] Агенты достигли высокой производительности во многих протестированных средах, часто превосходя производительность человека. [37]

Обучение

В RLHF обучаются две разные модели: модель вознаграждения и политика обучения с подкреплением (RL). Модель вознаграждения учится определять, какое поведение желательно, основываясь на обратной связи человека, в то время как политика руководствуется моделью вознаграждения для определения действий агента. Обе модели обычно инициализируются с использованием предварительно обученной модели авторегрессионного языка . Затем эта модель обычно обучается контролируемым образом на относительно небольшом наборе данных пар подсказок помощнику и их сопровождающих ответов, написанных людьми-аннотаторами. Модель вознаграждения выигрывает от начала с предварительно обученной модели, так как это инициализирует ее с пониманием языка и фокусирует обучение явно на изучении человеческих предпочтений, ускоряя процесс. Помимо использования для инициализации модели вознаграждения и политики RL, модель затем также используется для выборки данных, которые будут сравниваться аннотаторами. [15] [14]

Затем модель вознаграждения обучается путем замены последнего слоя предыдущей модели на случайно инициализированную регрессионную головку. Это изменение смещает модель с ее первоначальной задачи классификации по ее словарю на простой вывод числа, соответствующего оценке любой заданной подсказки и ответа. Эта модель обучается на данных сравнения человеческих предпочтений, собранных ранее из контролируемой модели. В частности, она обучается минимизировать следующую функцию потерь кросс-энтропии , что стимулирует ее делать прогнозы, которые ближе к фактическим человеческим оценкам:

где — количество ответов, ранжированных маркировщиками, — вывод модели вознаграждения для подсказки и завершения , — предпочтительное завершение по сравнению с , обозначает сигмоидальную функцию , а обозначает ожидаемое значение . [15] Эта функция потерь по сути измеряет разницу между прогнозами модели вознаграждения и решениями, принятыми людьми. Цель состоит в том, чтобы сделать догадки модели как можно ближе к предпочтениям людей, минимизировав разницу, измеренную этим уравнением. В случае только попарных сравнений фактор опускается. [14] В противном случае все сравнения из каждой подсказки используются для обучения как одна партия . [15] После обучения выходные данные модели нормализуются таким образом, чтобы эталонные завершения имели средний балл 0. [14]

Аналогично модели вознаграждения, политика обратной связи человека также настраивается на основе предварительно обученной модели. Цель этого этапа тонкой настройки — адаптировать уже существующую, невыровненную модель (изначально обученную контролируемым образом) для лучшего соответствия человеческим предпочтениям путем корректировки ее параметров на основе вознаграждений, полученных из обратной связи человека. Выходные данные модели вознаграждения можно использовать в качестве вознаграждения, которое будет максимизировано с помощью RL для пар подсказка-ответ. [14] Среда случайным образом представляет политику с подсказками из набора данных и ожидает ответов на них, имитируя реальные сценарии, в которых агент должен понимать разнообразные подсказки и генерировать соответствующие ответы. Обозначая изученную политику RL с параметрами как , мы можем определить следующую целевую функцию:

где — распределение обучения, из которого мы черпаем, а — ранее обученная, невыровненная модель. Константа используется для регулировки интенсивности штрафного члена KL. Этот штраф применяется на основе токенов между политикой и выходными данными невыровненных моделей. Его цель — избежать чрезмерной тонкой настройки политики, гарантируя, что процесс обучения не слишком специализирует модель на новых данных обучения. [15] [14] Этот член KL работает, штрафуя расхождение KL (меру статистического расстояния между распределениями) между настраиваемой моделью и исходной контролируемой моделью. Выбирая подходящий , обучение может сбалансировать обучение на новых данных, сохраняя полезную информацию из исходной модели, увеличивая обобщение , избегая слишком близкого соответствия новым данным. Помимо предотвращения вывода новой моделью результатов, слишком отличающихся от результатов исходной модели, вторая причина включения термина KL заключается в том, чтобы позволить политике более подробно исследовать окружающую среду путем поощрения дополнительной энтропии , которая может предотвратить схлопывание модели до единственного режима . [14]

Проще говоря, целевая функция вычисляет, насколько хорошо ответы политики, как ожидается, будут соответствовать обратной связи человека. Политика генерирует ответы на подсказки, и каждый ответ оценивается как по тому, насколько хорошо он соответствует человеческим предпочтениям (измеряемым моделью вознаграждения), так и по тому, насколько он похож на ответы, которые модель могла бы сгенерировать естественным образом. Цель состоит в том, чтобы сбалансировать улучшение соответствия человеческим предпочтениям, одновременно гарантируя, что ответы модели остаются разнообразными и не слишком далекими от того, чему она научилась во время своего первоначального обучения. Это помогает модели не только давать ответы, которые люди считают полезными или приемлемыми, но и поддерживать широкое понимание и избегать слишком узких или повторяющихся ответов.

Обычно к целевой функции добавляется второй член, который позволяет политике включать градиенты предварительной подготовки. Этот член не дает модели потерять свою первоначальную способность понимать язык, пока она изучает новые задачи на основе обратной связи с человеком, включая свою исходную задачу предварительной подготовки по завершению текста. Окончательная целевая функция записывается как:

где контролирует силу этого дополнительного термина и является исходным предварительным распределением текста. [15] Эта целевая функция затем может быть напрямую использована для обучения политики с использованием проксимального алгоритма оптимизации политики . [15] [14]

В целом эта целевая функция определяет метод корректировки политики RL, сочетая в себе цель соответствия обратной связи от человека и сохранения понимания исходного языка модели.

Ограничения

RLHF страдает от проблем со сбором отзывов людей, изучением модели вознаграждения и оптимизацией политики. [38] Его качество и согласованность могут варьироваться в зависимости от задачи, интерфейса, а также предпочтений и предубеждений отдельных людей. [15] [39]

Эффективность RLHF зависит от качества обратной связи от человека. Например, модель может стать предвзятой , отдавая предпочтение определенным группам по сравнению с другими, если обратная связь не является беспристрастной, непоследовательной или неверной. [3] [40] Существует риск переобучения , когда модель запоминает конкретные примеры обратной связи вместо того, чтобы учиться обобщать . Например, обратная связь преимущественно от определенной демографической группы может привести к тому, что модель узнает особенности или шум вместе с предполагаемым выравниванием. Чрезмерное выравнивание с конкретной полученной обратной связью (то есть с ее предвзятостью) может привести к тому, что модель будет работать неоптимально в новых контекстах или при использовании разными группами. [41] Одна функция вознаграждения не всегда может представлять мнения различных групп людей. Даже при репрезентативной выборке противоречивые взгляды и предпочтения могут привести к тому, что модель вознаграждения будет отдавать предпочтение мнению большинства, что потенциально поставит в невыгодное положение недостаточно представленные группы. [38]

В некоторых случаях, как это возможно при обычном обучении с подкреплением , может существовать риск того, что модель научится манипулировать процессом обратной связи или играть с системой для достижения более высоких наград, а не действительно улучшать ее производительность. [42] В случае RLHF модель может научиться использовать тот факт, что она вознаграждается за то, что оценивается положительно, а не обязательно за то, что на самом деле хорошо, что может привести к тому, что она научится убеждать и манипулировать. Например, модели могут узнать, что кажущаяся уверенность, даже если она неточна, приносит более высокие награды. Такое поведение, если его не контролировать, не просто поощряется, но может вызвать значительные проблемы с развертыванием из-за способности модели вводить в заблуждение. Исследования показали, что люди не умеют определять ошибки в выходных данных LLM в сложных задачах; поэтому модели, обучающиеся генерировать уверенно звучащий, но неверный текст, могут привести к значительным проблемам при развертывании. [38]

Альтернативы

Подкреплённое обучение на основе обратной связи ИИ

Подобно RLHF, обучение с подкреплением на основе обратной связи ИИ (RLAIF) основано на обучении модели предпочтений, за исключением того, что обратная связь генерируется автоматически. [43] Это особенно используется в конституционном ИИ Anthropic , где обратная связь ИИ основана на соответствии принципам конституции. [44]

Прямая оптимизация предпочтений

Другая альтернатива RLHF, называемая Direct Preference Optimization (DPO), была предложена для изучения человеческих предпочтений. Как и RLHF, она применялась для согласования предварительно обученных больших языковых моделей с использованием данных о предпочтениях, сгенерированных человеком. Однако в отличие от RLHF, который сначала обучает отдельную промежуточную модель, чтобы понять, как выглядят хорошие результаты, а затем обучает основную модель, как достичь этих результатов, DPO упрощает процесс, напрямую настраивая основную модель в соответствии с предпочтениями людей. Он использует изменение переменных для определения « потери предпочтений » непосредственно как функции политики и использует эту потерю для тонкой настройки модели, помогая ей понимать и расставлять приоритеты в отношении человеческих предпочтений без необходимости отдельного шага. По сути, этот подход напрямую формирует решения модели на основе положительной или отрицательной обратной связи человека.

DPO проще в реализации и обучении, чем RLHF, и, как было показано, дает сопоставимые, а иногда и превосходящие результаты. [45] Тем не менее, RLHF также показал, что превосходит DPO на некоторых наборах данных, например, на бенчмарках, которые пытаются измерить правдивость. Поэтому выбор метода может варьироваться в зависимости от особенностей данных о человеческих предпочтениях и характера задачи. [46]

Смотрите также

Ссылки

  1. ^ Рассел, Стюарт Дж.; Норвиг, Питер (2016). Искусственный интеллект: современный подход (Третье глобальное издание). Бостон Колумбус Индианаполис Нью-Йорк Сан-Франциско Верхняя Седловая река Амстердам Кейптаун Дубай Лондон Мадрид Милан Мюнхен Париж Монреаль Торонто Дели Мехико Сан-Паулу Сидней Гонконг Сеул Сингапур Тайбэй Токио: Pearson. стр. 830–831. ISBN 978-0-13-604259-4.
  2. ^ ab Ziegler, Daniel M.; Stiennon, Nisan; Wu, Jeffrey; Brown, Tom B.; Radford, Alec; Amodei, Dario; Christiano, Paul; Irving, Geoffrey (2019). «Тонкая настройка языковых моделей на основе человеческих предпочтений». arXiv : 1909.08593 [cs.CL].
  3. ^ abcd Ламберт, Натан; Кастрикато, Луис; фон Верра, Леандро; Хаврилла, Алекс. «Иллюстрация обучения с подкреплением на основе обратной связи с человеком (RLHF)». huggingface.co . Получено 4 марта 2023 г. .
  4. ^ Шульман, Джон; Вольски, Филипп; Дхаривал, Прафулла; Рэдфорд, Алек; Климов, Олег (2017). «Алгоритмы оптимизации проксимальной политики». arXiv : 1707.06347 [cs.LG].
  5. ^ Туан, И-Лин; Чжан, Цзиньчжи; Ли, Юцзя; Ли, Хун И (2018). «Оптимизация проксимальной политики и ее динамическая версия для генерации последовательностей». arXiv : 1808.07982 [cs.CL].
  6. ^ abcde Амодеи, Дарио; Кристиано, Пол; Рэй, Алекс (13 июня 2017 г.). «Изучение человеческих предпочтений». openai.com . Получено 4 марта 2023 г. .
  7. ^ Чжэн, Руй; Доу, Сихан; Гао, Сунъян; Хуа, Юань; Шен, Вэй; Ван, Бинхай; Лю, Ян; Джин, Сенджи; Лю, Цинь; Чжоу, Юхао; Сюн, Лимао; Чен, Лу; Си, Чжихэн; Сюй, Нуо; Лай, Вэньбинь; Чжу, Минхао; Чанг, Ченг; Инь, Чжанъюэ; Вэн, Жунсян; Ченг, Венсен; Хуан, Хаоран; Сунь, Тяньсян; Ян, Ханг; Гуй, Дао; Чжан, Ци; Цю, Сипэн; Хуан, Сюаньцзин (2023). «Секреты RLHF в моделях большого языка, часть I: PPO». arXiv : 2307.04964 [cs.CL].
  8. ^ Нокс, У. Брэдли; Стоун, Питер; Бризил, Синтия (2013). «Обучение робота с помощью обратной связи с человеком: исследование случая». Социальная робототехника . Конспект лекций по информатике. Том 8239. Springer International Publishing. С. 460–470. doi :10.1007/978-3-319-02675-6_46. ISBN 978-3-319-02674-9. Получено 26 февраля 2024 г. .
  9. ^ Akrour, Riad; Schoenauer, Marc; Sebag, Michèle (2012). "APRIL: Active Preference Learning-Based Reinforcement Learning". Машинное обучение и обнаружение знаний в базах данных . Конспект лекций по информатике. Том 7524. Springer. С. 116–131. arXiv : 1208.0984 . doi :10.1007/978-3-642-33486-3_8. ISBN 978-3-642-33485-6. Получено 26 февраля 2024 г. .
  10. ^ Уилсон, Аарон; Ферн, Алан; Тадепалли, Прасад (2012). «Байесовский подход к обучению политике на основе запросов о предпочтениях траектории». Достижения в области нейронных систем обработки информации . 25. Curran Associates, Inc. Получено 26 февраля 2024 г.
  11. ^ Schoenauer, Marc; Akrour, Riad; Sebag, Michele; Souplet, Jean-Christophe (18 июня 2014 г.). «Программирование с помощью обратной связи». Труды 31-й Международной конференции по машинному обучению . PMLR: 1503–1511 . Получено 26 февраля 2024 г.
  12. ^ Уорнелл, Гарретт; Уэйтович, Николас; Лохерн, Вернон; Стоун, Питер (25 апреля 2018 г.). «Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces». Труды конференции AAAI по искусственному интеллекту . 32 (1). arXiv : 1709.10163 . doi : 10.1609/aaai.v32i1.11485. S2CID  4130751.
  13. ^ MacGlashan, James; Ho, Mark K.; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. (6 августа 2017 г.). «Интерактивное обучение на основе зависимой от политики обратной связи с человеком». Труды 34-й Международной конференции по машинному обучению — том 70. JMLR.org: 2285–2294. arXiv : 1701.06049 .
  14. ^ abcdefghij Нисан Стиннон; Лонг Оуян; Джеффри Ву; Дэниел Циглер; Райан Лоу; Челси Восс; Алек Рэдфорд; Дарио Амодеи; Пол Ф. Кристиано (2020). «Учимся резюмировать с помощью человеческой обратной связи». Достижения в области нейронных систем обработки информации . 33 .
  15. ^ abcdefghijkl Оуян, Лонг; У, Джеффри; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Грей, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (31 октября 2022 г.). Обучение языковых моделей выполнению инструкций с обратной связью от человека. Тридцать шестая конференция по системам обработки нейронной информации: NeurIPS 2022. arXiv : 2203.02155 .
  16. ^ Бай, Юнтао; Джонс, Энди; Ндусс, Камаль; Аскелл, Аманда; Чен, Анна; ДасСарма, Нова; Дрейн, Дон; Форт, Станислав; Гангули, Дип; Хениган, Том; Джозеф, Николас; Кадават, Саурав; Кернион, Джексон; Конерли, Том; Эль-Шоук, Шир; Элхаге, Нельсон; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; ​​Хьюм, Тристан; Джонстон, Скотт; Кравец, Шона; Ловитт, Лиана; Нанда, Нил; Олссон, Кэтрин; Амодей, Дарио; Браун, Том; Кларк, Джек; МакКэндлиш, Сэм; Олах, Крис; Манн, Бен; Каплан, Джаред (2022). «Обучение полезного и безвредного помощника с помощью обучения с подкреплением на основе обратной связи с человеком». arXiv : 2204.05862 [cs.CL].
  17. ^ ab Edwards, Benj (1 декабря 2022 г.). «OpenAI приглашает всех протестировать ChatGPT, нового чат-бота на базе искусственного интеллекта — с забавными результатами». Ars Technica . Получено 4 марта 2023 г.
  18. ^ Абишек, Гупта (5 февраля 2023 г.). «Правильное взаимодействие с заинтересованными сторонами в ответственном ИИ». VentureBeat . Получено 4 марта 2023 г.
  19. ^ Фернандес, Патрик; Мадаан, Аман; Лю, Эмми; Фариньяс, Антониу; Педро Энрике Мартинс; Берч, Аманда; де Соуза, Хосе Г.К.; Чжоу, Шуян; У, Туншуан; Нойбиг, Грэм; Мартинс, Андре FT (2023). «Преодоление разрыва: исследование по интеграции (человеческой) обратной связи для создания естественного языка». arXiv : 2305.00955 [cs.CL].
  20. ^ ab Xie, Tengyang; Jiang, Nan; Wang, Huan; Xiong, Caiming; Bai, Yu (2021). «Policy Finetuning: Bridging Sample-Efficient offline and online reinforcement learning». Advances in Neural Information Processing Systems . 34. Curran Associates, Inc.: 27395–27407. arXiv : 2106.04895 . Получено 10 марта 2024 г.
  21. ^ ab Паккиано, Альдо; Саха, Аадирупа; Ли, Джонатан (2023-03-03). «Dueling RL: Reinforcement Learning with Trajectory Preferences». Труды 26-й Международной конференции по искусственному интеллекту и статистике . PMLR: 6263–6289. arXiv : 2111.04850 .
  22. ^ ab Zhu, Banghua; Jordan, Michael; Jiao, Jiantao (2023-07-03). «Принципиальное обучение с подкреплением с обратной связью от человека на основе парных или K-образных сравнений». Труды 40-й Международной конференции по машинному обучению . PMLR: 43037–43067. arXiv : 2301.11270 .
  23. ^ Ли, Цзыхао; Ян, Чжуорань; Ван, Мэнди (20 июня 2023 г.). «Обучение с подкреплением с обратной связью от человека: изучение динамических выборов с помощью пессимизма». Семинар ILHF ICML 2023 . arXiv : 2305.18438 . Получено 10 марта 2024 г.
  24. ^ Оуян, Лонг; У, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [cs.CL].
  25. ^ Wiggers, Kyle (24 февраля 2023 г.). «Может ли ИИ действительно быть защищен от текстовых атак?». TechCrunch . Получено 4 марта 2023 г.
  26. ^ Хейккиля, Мелисса (21 февраля 2023 г.). «Как OpenAI пытается сделать ChatGPT безопаснее и менее предвзятым». MIT Technology Review . Получено 4 марта 2023 г.
  27. ^ Дуглас Хэвен, Уилл (30 ноября 2022 г.). «ChatGPT — последнее исправление OpenAI для GPT-3. Оно ловкое, но все равно изрыгает чушь». MIT Technology Review . Получено 4 марта 2023 г.
  28. ^ Глэс, Амелия; Макалис, Нат; Требач, Майя; Асланидес, Джон; Фироиу, Влад; Эвальдс, Тимо; Раух, Марибет; Вайдингер, Лора; Чедвик, Мартин; Такер, Фиби; Кэмпбелл-Гиллингем, Люси; Уэсато, Джонатан; Хуан, По-Сен; Команеску, Рамона; Янг, Фань; Си, Абигейл; Дататри, Сумант; Грейг, Рори; Чэнь, Чарли; Фриц, Дуг; Элиас, Жауме Санчес; Грин, Ричард; Мокра, Соня; Фернандо, Николас; Ву, Бокси; Фоли, Рэйчел; Янг, Сусанна; Габриэль, Ясон; Айзек, Уильям; Меллор, Джон; Хассабис, Демис; Кавукчуоглу, Корай; Хендрикс, Лиза Энн; Ирвинг, Джеффри (2022). «Улучшение согласованности агентов диалога посредством целевых человеческих суждений». arXiv : 2209.14375 [cs.LG].
  29. ^ Голдман, Шарон (23 сентября 2022 г.). «Почему DeepMind не развертывает свой новый чат-бот на основе искусственного интеллекта — и что это значит для ответственного искусственного интеллекта». VentureBeat . Получено 4 марта 2023 г.
  30. ^ Команда Sparrow (22 сентября 2022 г.). «Создание более безопасных агентов диалога». www.deepmind.com . Получено 4 марта 2023 г. .
  31. ^ Пинчай, Сундар; Хассабис, Демис (6 декабря 2023 г.). «Представляем Gemini: нашу самую большую и самую способную модель ИИ». Google . Получено 29 февраля 2024 г. .
  32. ^ Хеншолл, Уилл (18 июля 2023 г.). «Что нужно знать о Клоде 2, конкуренте Anthropic для ChatGPT». TIME . Получено 6 марта 2024 г. .
  33. ^ Фань, Ин; Уоткинс, Оливия; Ду, Юцин; Лю, Хао; Рю, Мункён; Бутилье, Крейг; Аббель, Питер; Гавамзаде, Мохаммад; Ли, Канвук; Ли, Кимин (2 ноября 2023 г.). "DPOK: Обучение с подкреплением для тонкой настройки моделей диффузии текста в изображение". NeurIPS 2023 . arXiv : 2305.16381 . Получено 1 марта 2024 г.
  34. ^ Сюй, Цзячжэн; Лю, Сяо; У, Юйчэнь; Тонг, Юйсюань; Ли, Цинькай; Дин, Мин; Тан, Цзе; Дун, Юйсяо (15 декабря 2023 г.). «ImageReward: изучение и оценка человеческих предпочтений при преобразовании текста в изображение». Достижения в системах обработки нейронной информации . 36 : 15903–15935. arXiv : 2304.05977 . Получено 1 марта 2024 г.
  35. ^ Ли, Кимин; Лю, Хао; Рю, Мункён; Уоткинс, Оливия; Ду, Юцин; Бутилье, Крейг; Аббель, Питер; Гавамзаде, Мохаммад; Гу, Шисян Шейн (2023). «Выравнивание моделей текста и изображения с использованием обратной связи с человеком». arXiv : 2302.12192 [cs.LG].
  36. ^ Лейке, Ян; Мартич, Мильян; Легг, Шейн (12 июня 2017 г.). «Обучение через человеческую обратную связь». www.deepmind.com . Получено 4 марта 2023 г. .
  37. ^ Кристиано, Пол Ф.; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодеи, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений». Достижения в области нейронных систем обработки информации . 30. Curran Associates, Inc. arXiv : 1706.03741 . Получено 4 марта 2023 г.
  38. ^ abc Каспер, Стивен; Дэвис, Ксандер; Ши, Клаудия; Гилберт, Томас Крендл; Шерер, Жереми; Рандо, Хавьер; Фридман, Рэйчел; Корбак, Томаш; Линднер, Дэвид; Фрейре, Педро; Ван, Тони Тонг; Маркс, Сэмюэл; Сежери, Шарбель-Рафаэль; Кэрролл, Мика; Пэн, Энди; Кристофферсен, Филипп; Дамани, Мехул; Слокам, Стюарт; Анвар, Усман; Ситтаранджан, Ананд; Надо, Макс; Мишо, Эрик Дж.; Пфау, Джейкоб; Крашенинников Дмитрий; Чен, Синь; Лангоско, Лауро; Хасэ, Питер; Бийик, Эрдем; Драган, Анка; Крюгер, Дэвид; Садиг, Дорса; Хэдфилд-Менелл, Дилан (18 сентября 2023 г.). «Открытые проблемы и фундаментальные ограничения обучения с подкреплением на основе обратной связи с человеком». Труды по исследованию машинного обучения . arXiv : 2307.15217 .
  39. ^ Кристиано, Пол (25 января 2023 г.). «Мысли о влиянии исследований RLHF» . Получено 4 марта 2023 г.
  40. ^ Беленгер, Лоренцо (2022). «Искажение ИИ: изучение дискриминационных алгоритмических моделей принятия решений и применение возможных машинно-ориентированных решений, адаптированных из фармацевтической промышленности». ИИ и этика . 2 (4). Этика ИИ: 771–787. doi : 10.1007/s43681-022-00138-8. PMC 8830968. PMID  35194591 . 
  41. ^ Чжан, Чиюань; Бенджио, Сами; Хардт, Мориц; Рехт, Бенджамин; Виньялс, Ориол (4 ноября 2016 г.). «Понимание глубокого обучения требует переосмысления обобщения». Международная конференция по представлениям обучения.
  42. Кларк, Джек; Амодеи, Дарио (21 декабря 2016 г.). «Ошибочные функции вознаграждения в дикой природе». OpenAI.
  43. ^ Ансари, Тасмия (2023-10-06). «Обучение с подкреплением требует меньше человека, больше ИИ». Журнал Analytics India . Получено 2024-04-27 .
  44. ^ Эдвардс, Бендж (2023-05-09). «ИИ приобретает «ценности» с новым подходом Anthropic к конституционному ИИ-чатботу». Ars Technica . Получено 2024-04-27 .
  45. ^ Рафаилов, Рафаэль; Шарма, Арчит; Митчелл, Эрик; Эрмон, Стефано; Мэннинг, Кристофер Д.; Финн, Челси (2023). «Прямая оптимизация предпочтений: ваша языковая модель тайно является моделью вознаграждения». arXiv : 2305.18290 [cs.LG].
  46. ^ Ван, Жилин; Донг, Йи; Цзэн, Цзяци; Адамс, Вирджиния; Шридхар, Макеш Нарсимхан; Эгерт, Дэниел; Делалло, Оливье; Скоукрофт, Джейн Полак; Кант, Нил; Своп, Эйдан; Кучаев, Алексей (2023). «HelpSteer: набор данных полезности с несколькими атрибутами для SteerLM». arXiv : 2311.09528 [cs.CL].