stringtranslate.com

Выравнивание ИИ

В области искусственного интеллекта (ИИ) согласование ИИ направлено на то, чтобы направлять системы ИИ к предполагаемым целям, предпочтениям и этическим принципам человека или группы. Система ИИ считается согласованной, если она способствует достижению предполагаемых целей. Несогласованная система ИИ преследует непредусмотренные цели. [1]

Часто разработчикам ИИ сложно выровнять систему ИИ, поскольку им сложно указать весь спектр желаемого и нежелательного поведения. Поэтому разработчики ИИ часто используют более простые цели-посредники , такие как получение одобрения человека . Но цели-посредники могут игнорировать необходимые ограничения или вознаграждать систему ИИ за то, что она просто выглядит выровненной. [1] [2]

Неправильно настроенные системы ИИ могут работать со сбоями и причинять вред. Системы ИИ могут находить лазейки, которые позволяют им эффективно достигать своих прокси-целей, но непреднамеренными, иногда вредными способами ( хакерство с целью получения вознаграждения ). [1] [3] [4] Они также могут разрабатывать нежелательные инструментальные стратегии , такие как стремление к власти или выживанию, поскольку такие стратегии помогают им достигать своих конечных заданных целей. [1] [5] [6] Кроме того, они могут разрабатывать нежелательные возникающие цели, которые может быть трудно обнаружить до того, как система будет развернута и столкнется с новыми ситуациями и распределениями данных . [7] [8]

Сегодня некоторые из этих проблем затрагивают существующие коммерческие системы, такие как большие языковые модели , [9] [10] [11] роботы , [12] автономные транспортные средства , [13] и системы рекомендаций социальных сетей . [9] [6] [14] Некоторые исследователи ИИ утверждают, что более мощные будущие системы будут затронуты сильнее, поскольку эти проблемы частично являются результатом высоких возможностей. [15] [3] [2]

Многие известные исследователи ИИ, [16] [17] [18] , включая Джеффри Хинтона , Йошуа Бенджио и Стюарта Рассела , утверждают, что ИИ приближается к человеческим ( AGI ) и сверхчеловеческим когнитивным способностям ( ASI ) и может поставить под угрозу человеческую цивилизацию, если будет неправильно согласован. [19] [6] Эти риски остаются предметом дискуссий. [20]

Выравнивание ИИ является подразделом безопасности ИИ , изучением того, как создавать безопасные системы ИИ. [21] Другие подразделы безопасности ИИ включают надежность, мониторинг и контроль возможностей . [22] Исследовательские задачи в выравнивании включают внедрение сложных ценностей в ИИ, разработку честного ИИ, масштабируемый надзор, аудит и интерпретацию моделей ИИ и предотвращение возникающих форм поведения ИИ, таких как стремление к власти. [22] Исследования выравнивания связаны с исследованиями интерпретируемости , [23] [24] (состязательной) надежности, [21] обнаружения аномалий , калиброванной неопределенности , [23] формальной верификации , [25] обучения предпочтениям , [26] [27] [28] критически важной для безопасности инженерии , [29] теории игр , [30] алгоритмической справедливости , [21] [31] и социальных наук . [32]

Цели в области ИИ

Программисты предоставляют системе ИИ, такой как AlphaZero , «целевую функцию», [a] , в которой они намереваются инкапсулировать цель(и), на достижение которой настроен ИИ. Такая система позже заполняет (возможно, неявную) внутреннюю «модель» своей среды. Эта модель инкапсулирует все убеждения агента о мире. Затем ИИ создает и выполняет любой рассчитанный план для максимизации [b] значения [c] его целевой функции. [33] Например, когда AlphaZero обучается игре в шахматы, у него есть простая целевая функция «+1, если AlphaZero выигрывает, −1, если AlphaZero проигрывает». Во время игры AlphaZero пытается выполнить любую последовательность ходов, которую он считает наиболее вероятной для достижения максимального значения +1. [34] Аналогично, система обучения с подкреплением может иметь «функцию вознаграждения», которая позволяет программистам формировать желаемое поведение ИИ. [35] Поведение эволюционного алгоритма формируется «функцией приспособленности». [36]

Проблема выравнивания

В 1960 году пионер ИИ Норберт Винер следующим образом описал проблему выравнивания ИИ:

Если мы используем для достижения наших целей механическое средство, в работу которого мы не можем эффективно вмешиваться... мы должны быть полностью уверены, что цель, заложенная в машину, — это та цель, которую мы действительно желаем. [37] [6]

Согласование ИИ подразумевает обеспечение того, чтобы цели системы ИИ соответствовали целям ее разработчиков или пользователей или соответствовали широко распространенным ценностям, объективным этическим стандартам или намерениям, которые имели бы ее разработчики, если бы они были более информированными и просвещенными. [38]

Выравнивание ИИ является открытой проблемой для современных систем ИИ [39] [40] и представляет собой область исследований в области ИИ. [41] [1] Выравнивание ИИ включает в себя две основные проблемы: тщательное указание цели системы (внешнее выравнивание) и обеспечение того, чтобы система надежно принимала спецификацию (внутреннее выравнивание). [2] Исследователи также пытаются создать модели ИИ, которые имеют надежное выравнивание, придерживаясь ограничений безопасности, даже когда пользователи пытаются их обойти.

Спецификация игры и побочные эффекты

Чтобы указать цель системы ИИ, проектировщики ИИ обычно предоставляют системе целевую функцию , примеры или обратную связь . Но проектировщики часто не могут полностью указать все важные значения и ограничения, поэтому они прибегают к легко определяемым промежуточным целям, таким как максимизация одобрения людей-надзирателей, которые подвержены ошибкам. [21] [22] [42] [43] [44] В результате системы ИИ могут находить лазейки, которые помогают им эффективно достигать указанной цели, но непреднамеренными, возможно, вредными способами. Эта тенденция известна как игра со спецификациями или хакерство вознаграждений и является примером закона Гудхарта . [44] [3] [45] По мере того, как системы ИИ становятся более способными, они часто могут более эффективно играть со своими спецификациями. [3]

Система искусственного интеллекта была обучена с помощью обратной связи с человеком хватать мяч, но вместо этого научилась помещать руку между мячом и камерой, создавая ложную видимость успеха. [46] Некоторые исследования по выравниванию направлены на предотвращение решений, которые являются ложными, но убедительными.

Спецификационные игры наблюдались во многих системах искусственного интеллекта. [44] [47] Одна система была обучена завершать смоделированную гонку на лодках, вознаграждая систему за попадание в цели на трассе, но система достигла большего вознаграждения, бесконечно повторяя цикл и врезаясь в одни и те же цели. [48] Аналогично, смоделированный робот был обучен хватать мяч, вознаграждая робота за получение положительной обратной связи от людей, но он научился помещать свою руку между мячом и камерой, что заставило его ложно казаться успешным (см. видео). [46] Чат-боты часто создают ложь, если они основаны на языковых моделях, обученных имитировать текст из интернет-корпораций, которые являются широкими, но подвержены ошибкам. [49] [50] Когда их переобучают создавать текст, который люди оценивают как истинный или полезный, чат-боты, такие как ChatGPT, могут фабриковать поддельные объяснения, которые люди считают убедительными, часто называемые « галлюцинациями ». [51] Некоторые исследователи выравнивания стремятся помочь людям обнаружить манипуляции со спецификациями и направить системы ИИ к четко определенным целям, достижение которых безопасно и полезно.

Когда разворачивается несогласованная система ИИ, это может иметь косвенные побочные эффекты. Известно, что платформы социальных сетей оптимизируются для показателей кликабельности , вызывая зависимость пользователей в глобальном масштабе. [42] Исследователи из Стэнфорда говорят, что такие рекомендательные системы не согласованы со своими пользователями, потому что они «оптимизируют простые показатели вовлеченности, а не более сложную для измерения комбинацию общественного и потребительского благополучия». [9]

Объясняя такие побочные эффекты, ученый-компьютерщик из Беркли Стюарт Рассел отметил, что пропуск неявных ограничений может нанести вред: «Система... часто устанавливает... неограниченные переменные в экстремальные значения; если одна из этих неограниченных переменных на самом деле является чем-то, что нас волнует, найденное решение может оказаться крайне нежелательным. По сути, это старая история о джинне в лампе, ученике чародея или царе Мидасе : вы получаете именно то, что просите, а не то, что хотите». [52]

Некоторые исследователи предполагают, что проектировщики ИИ определяют желаемые цели, перечисляя запрещенные действия или формализуя этические правила (как в случае с тремя законами робототехники Азимова ). [53] Но Рассел и Норвиг утверждают, что такой подход игнорирует сложность человеческих ценностей: [6] «Определенно очень сложно, а возможно, и невозможно, для простых людей предвидеть и исключить заранее все катастрофические способы, которые машина может выбрать для достижения указанной цели». [6]

Кроме того, даже если система ИИ полностью понимает человеческие намерения, она все равно может их игнорировать, поскольку следование человеческим намерениям может не быть ее целью (если она уже не полностью согласована). [1]

Давление с целью развертывания небезопасных систем

Коммерческие организации иногда имеют стимулы для сокращения безопасности и развертывания несоответствующих или небезопасных систем ИИ. [42] Например, рекомендательные системы социальных сетей были прибыльными, несмотря на создание нежелательной зависимости и поляризации. [9] [54] [55] Конкурентное давление также может привести к гонке на дно по стандартам безопасности ИИ. В 2018 году беспилотный автомобиль насмерть сбил пешехода ( Элейн Герцберг ) после того, как инженеры отключили систему экстренного торможения, поскольку она была слишком чувствительной и замедляла разработку. [56]

Риски, связанные с передовым, некорректно настроенным ИИ

Некоторые исследователи заинтересованы в согласовании все более совершенных систем ИИ, поскольку прогресс в разработке ИИ стремителен, а промышленность и правительства пытаются создать передовой ИИ. Поскольку возможности систем ИИ продолжают быстро расширяться, они могли бы открыть много возможностей, если бы были согласованы, но, следовательно, могут еще больше усложнить задачу согласования из-за их возросшей сложности, что потенциально создает крупномасштабные опасности. [6]

Разработка передового ИИ

Многие компании ИИ, такие как OpenAI [57] и DeepMind [58], заявили о своей цели разработать искусственный общий интеллект (AGI) , гипотетическую систему ИИ, которая соответствует или превосходит людей в широком спектре когнитивных задач. Исследователи, которые масштабируют современные нейронные сети, отмечают, что они действительно развивают все более общие и непредвиденные возможности. [9] [59] [60] Такие модели научились управлять компьютером или писать свои собственные программы; одна «универсальная» сеть может общаться, управлять роботами, играть в игры и интерпретировать фотографии. [61] Согласно опросам, некоторые ведущие исследователи машинного обучения ожидают, что AGI будет создан в этом десятилетии , в то время как некоторые полагают, что это займет гораздо больше времени. Многие считают возможными оба сценария. [62] [63] [64]

В 2023 году лидеры в области исследований и технологий ИИ подписали открытое письмо, призывающее к паузе в крупнейших учебных программах ИИ. В письме говорилось: «Мощные системы ИИ следует разрабатывать только после того, как мы будем уверены, что их эффекты будут положительными, а их риски будут управляемыми». [65]

Стремление к власти

Текущие системы по-прежнему имеют ограниченные возможности долгосрочного планирования и ситуационной осведомленности [9] , но предпринимаются большие усилия, чтобы изменить это. [66] [67] [68] Ожидается, что будущие системы (не обязательно AGI) с этими возможностями будут разрабатывать нежелательные стратегии поиска власти. Будущие продвинутые агенты ИИ могут, например, стремиться получить деньги и вычислительную мощность, размножаться или избегать отключения (например, запуская дополнительные копии системы на других компьютерах). Хотя поиск власти явно не запрограммирован, он может возникнуть, поскольку агенты, обладающие большей властью, лучше способны достигать своих целей. [9] [5] Эта тенденция, известная как инструментальная конвергенция , уже проявилась в различных агентах обучения с подкреплением, включая языковые модели. [69] [70] [71] [72] [73] Другие исследования математически показали, что оптимальные алгоритмы обучения с подкреплением будут искать власть в широком диапазоне сред. [74] [75] В результате их развертывание может быть необратимым. По этим причинам исследователи утверждают, что проблемы безопасности и согласованности ИИ должны быть решены до того, как будет впервые создан продвинутый ИИ, стремящийся к власти. [5] [76] [6]

Будущие системы ИИ, стремящиеся к власти, могут быть развернуты по выбору или случайно. Поскольку политические лидеры и компании видят стратегическое преимущество в наличии самых конкурентоспособных, самых мощных систем ИИ, они могут решить развернуть их. [5] Кроме того, поскольку разработчики ИИ обнаруживают и наказывают поведение, стремящееся к власти, их системы имеют стимул играть с этой спецификацией, стремясь к власти способами, которые не наказываются, или избегая стремления к власти до их развертывания. [5]

Экзистенциальный риск (x-риск)

По мнению некоторых исследователей, люди обязаны своим доминированием над другими видами своим более высоким когнитивным способностям. Соответственно, исследователи утверждают, что одна или несколько несогласованных систем ИИ могут лишить человечество сил или привести к вымиранию человечества, если они превзойдут людей в большинстве когнитивных задач. [1] [6]

В 2023 году ведущие мировые исследователи в области искусственного интеллекта, другие ученые и руководители компаний, занимающихся технологиями искусственного интеллекта, подписали заявление о том, что «Снижение риска вымирания из-за искусственного интеллекта должно стать глобальным приоритетом наряду с другими рисками общественного масштаба, такими как пандемии и ядерная война». [77] [78] Известные специалисты в области компьютерной техники, которые указали на риски, связанные с будущим передовым ИИ, который не согласован, включают Джеффри Хинтона , [19] Алана Тьюринга , [d] Илью Суцкевера , [81] Йошуа Бенджио , [77] Джудеа Перл , [e] Мюррея Шанахана , [82] Норберта Винера , [37] [6] Марвина Мински , [f] Франческу Росси , [83] Скотта Ааронсона , [84] Барта Сельмана , [85] Дэвида Макаллестера , [86] Юргена Шмидхубера , [87] Маркуса Хюттера , [88] Шейна Легга , [89] Эрика Хорвица , [90] и Стюарта Рассела . [6] Скептически настроенные исследователи, такие как Франсуа Шолле , [91] Гэри Маркус , [92] Ян Лекун , [93] и Орен Этциони [94], утверждали, что ИИОН еще далек от реальности, что он не будет стремиться к власти (или может попытаться, но потерпит неудачу) или что к нему будет несложно присоединиться.

Другие исследователи утверждают, что будет особенно сложно согласовать продвинутые будущие системы ИИ. Более способные системы лучше умеют обыгрывать свои спецификации, находя лазейки, [3] стратегически вводить в заблуждение своих разработчиков, а также защищать и увеличивать свою мощь [74] [5] и интеллект. Кроме того, они могут иметь более серьезные побочные эффекты. Они также, вероятно, будут более сложными и автономными, что затрудняет их интерпретацию и надзор, и, следовательно, их сложнее согласовать. [6] [76]

Исследовательские проблемы и подходы

Изучение человеческих ценностей и предпочтений

Согласование систем ИИ для работы в соответствии с человеческими ценностями, целями и предпочтениями является сложной задачей: эти ценности преподаются людьми, которые совершают ошибки, имеют предубеждения и имеют сложные, развивающиеся ценности, которые трудно полностью определить. [38] Поскольку системы ИИ часто учатся использовать незначительные недостатки в указанной цели, [21] [44] [95] исследователи стремятся как можно полнее определить предполагаемое поведение, используя наборы данных, которые представляют человеческие ценности, имитационное обучение или обучение предпочтениям. [7] : Глава 7  Центральной открытой проблемой является масштабируемый надзор, сложность надзора за системой ИИ, которая может превзойти или ввести в заблуждение людей в определенной области. [21]

Поскольку разработчикам ИИ сложно явно указать целевую функцию, они часто обучают системы ИИ имитировать человеческие примеры и демонстрации желаемого поведения. Обратное обучение с подкреплением (IRL) расширяет это, выводя цель человека из его демонстраций. [7] : 88  [96] Кооперативный IRL (CIRL) предполагает, что человек и агент ИИ могут работать вместе, чтобы обучать и максимизировать функцию вознаграждения человека. [6] [97] В CIRL агенты ИИ не уверены в функции вознаграждения и узнают о ней, задавая вопросы людям. Эта симулированная скромность может помочь смягчить игровые спецификации и тенденции к поиску власти (см. § Поиск власти и инструментальные стратегии). [73] [88] Но подходы IRL предполагают, что люди демонстрируют почти оптимальное поведение, что неверно для сложных задач. [98] [88]

Другие исследователи изучают, как обучать модели ИИ сложному поведению с помощью обучения предпочтениям , в котором люди предоставляют обратную связь о том, какое поведение они предпочитают. [26] [28] Чтобы свести к минимуму необходимость в обратной связи от человека, вспомогательная модель затем обучается вознаграждать основную модель в новых ситуациях за поведение, которое вознаградили бы люди. Исследователи из OpenAI использовали этот подход для обучения чат-ботов, таких как ChatGPT и InstructGPT, которые производят более убедительный текст, чем модели, обученные имитировать людей. [10] Обучение предпочтениям также стало влиятельным инструментом для рекомендательных систем и веб-поиска. [99] Однако открытой проблемой является прокси-игра : вспомогательная модель может не идеально представлять человеческую обратную связь, а основная модель может использовать [ необходимо разъяснение ] это несоответствие, чтобы получить большее вознаграждение. [21] [100] Системы ИИ также могут получать вознаграждение, скрывая неблагоприятную информацию, вводя в заблуждение людей-вознаграждателей или потворствуя их взглядам независимо от истины, создавая эхо-камеры [70] (см. § Масштабируемый надзор).

Большие языковые модели (LLM), такие как GPT-3 , позволили исследователям изучать ценностное обучение в более общем и мощном классе систем ИИ, чем было доступно ранее. Подходы к обучению по предпочтениям, которые изначально были разработаны для агентов обучения с подкреплением, были расширены для улучшения качества генерируемого текста и уменьшения вредных выходных данных этих моделей. OpenAI и DeepMind используют этот подход для повышения безопасности современных LLM. [10] [28] [101] Компания Anthropic, занимающаяся безопасностью и исследованиями в области ИИ, предложила использовать обучение по предпочтениям для тонкой настройки моделей, чтобы они были полезными, честными и безвредными. [102] Другие способы согласования языковых моделей включают наборы данных, ориентированные на ценности [103] [42] и red-teaming. [104] При red-teaming другая система ИИ или человек пытается найти входные данные, которые заставляют модель вести себя небезопасно. Поскольку небезопасное поведение может быть неприемлемым, даже если оно редкое, важной задачей является максимальное снижение частоты небезопасных выходных данных. [28]

Машинная этика дополняет обучение предпочтениям, напрямую прививая системам ИИ моральные ценности, такие как благополучие, равенство и беспристрастность, а также нежелание причинять вред, избегать лжи и выполнять обещания. [105] [g] В то время как другие подходы пытаются научить системы ИИ человеческим предпочтениям для конкретной задачи, машинная этика направлена ​​на привитие широких моральных ценностей, которые применяются во многих ситуациях. Один из вопросов в машинной этике заключается в том, чего должно достичь согласование: должны ли системы ИИ следовать буквальным инструкциям программистов, неявным намерениям, выявленным предпочтениям , предпочтениям, которые были бы у программистов,если бы они были более информированными или рациональными, или объективным моральным стандартам . [38] Дополнительные проблемы включают агрегацию предпочтений разных людей [108] и избежание блокировки ценностей : неопределенное сохранение ценностей первых высокоэффективных систем ИИ, которые вряд ли будут полностью представлять человеческие ценности. [38] [109]

Масштабируемый надзор

По мере того, как системы ИИ становятся более мощными и автономными, становится все труднее согласовывать их с помощью обратной связи от человека. Для людей может быть медленно или невозможно оценивать сложное поведение ИИ во все более сложных задачах. К таким задачам относятся реферирование книг, [110] написание кода без едва заметных ошибок [11] или уязвимостей безопасности, [111] создание утверждений, которые не просто убедительны, но и истинны, [112] [49] [50] и прогнозирование долгосрочных результатов, таких как климат или результаты политического решения. [113] [114] В более общем плане, может быть трудно оценить ИИ, который превосходит людей в определенной области. Чтобы обеспечить обратную связь в труднооцениваемых задачах и обнаружить, когда вывод ИИ ложно убедителен, людям нужна помощь или много времени. Масштабируемый надзор изучает, как сократить время и усилия, необходимые для надзора, и как помочь руководителям-людям. [21]

Исследователь ИИ Пол Кристиано утверждает, что если разработчики системы ИИ не могут контролировать ее для достижения сложной цели, они могут продолжать обучать систему, используя легко оцениваемые прокси-цели, такие как максимизация простой человеческой обратной связи. Поскольку системы ИИ принимают все больше решений, мир может быть все больше оптимизирован для легко измеряемых целей, таких как получение прибыли, получение кликов и получение положительной обратной связи от людей. В результате человеческие ценности и хорошее управление могут иметь все меньшее влияние. [115]

Некоторые системы ИИ обнаружили, что они могут легче получать положительную обратную связь, предпринимая действия, которые ложно убеждают человека-руководителя в том, что ИИ достиг намеченной цели. Пример приведен в видео выше, где имитированная роботизированная рука научилась создавать ложное впечатление, что она схватила мяч. [46] Некоторые системы ИИ также научились распознавать, когда их оценивают, и «притворяться мертвыми», останавливая нежелательное поведение только для того, чтобы продолжить его после окончания оценки. [116] Эта обманчивая игра со спецификациями может стать проще для более сложных будущих систем ИИ [3] [76] , которые пытаются выполнять более сложные и трудно оцениваемые задачи, и могут скрыть свое обманчивое поведение.

Такие подходы, как активное обучение и полуконтролируемое обучение с вознаграждением, могут уменьшить объем необходимого человеческого контроля. [21] Другой подход заключается в обучении вспомогательной модели («модели вознаграждения») для имитации обратной связи руководителя. [21] [27] [28] [117]

Но когда задача слишком сложна для точной оценки или руководитель-человек уязвим для обмана, необходимо улучшить качество, а не количество контроля. Чтобы повысить качество контроля, ряд подходов направлен на помощь руководителю, иногда с использованием помощников ИИ. [118] Кристиано разработал подход итеративного усиления, в котором сложные проблемы (рекурсивно) разбиваются на подпроблемы, которые людям легче оценить. [7] [113] Итеративное усиление использовалось для обучения ИИ резюмировать книги, не требуя от руководителей-людей их чтения. [110] [119] Другое предложение заключается в использовании системы помощника ИИ для указания на недостатки в ответах, сгенерированных ИИ. [120] Чтобы гарантировать, что сам помощник согласован, это можно повторить в рекурсивном процессе: [117] например, две системы ИИ могут критиковать ответы друг друга в «дебатах», раскрывая недостатки людям. [88] OpenAI планирует использовать такие масштабируемые подходы к надзору, чтобы помочь контролировать сверхчеловеческий ИИ и в конечном итоге создать сверхчеловеческого автоматизированного исследователя выравнивания ИИ. [121]

Эти подходы могут также помочь в решении следующей исследовательской проблемы — честного ИИ.

Честный ИИ

Все больше исследований сосредоточено на обеспечении честности и правдивости ИИ.

Языковые модели, такие как GPT-3, часто генерируют ложь. [122]

Языковые модели, такие как GPT-3 [123], могут повторять ложь из своих обучающих данных и даже придумывать новую ложь . [122] [124] Такие модели обучаются имитировать человеческий почерк, который можно найти в миллионах книг с текстом из Интернета. Но эта цель не согласуется с генерацией истины, поскольку интернет-текст включает в себя такие вещи, как заблуждения, неверные медицинские советы и теории заговора. [125] Поэтому системы ИИ, обученные на таких данных, учатся имитировать ложные утверждения. [50] [122] [49] Кроме того, языковые модели ИИ часто продолжают генерировать ложь, когда их подсказывают несколько раз. Они могут генерировать пустые объяснения своих ответов и производить откровенные выдумки, которые могут показаться правдоподобными. [40]

Исследования правдивого ИИ включают попытки создания систем, которые могут ссылаться на источники и объяснять свои доводы при ответе на вопросы, что обеспечивает большую прозрачность и проверяемость. [126] Исследователи из OpenAI и Anthropic предложили использовать обратную связь от человека и тщательно подобранные наборы данных для тонкой настройки помощников ИИ таким образом, чтобы они избегали небрежной лжи или выражали свою неуверенность. [28] [102] [127]

По мере того, как модели ИИ становятся больше и более способными, они лучше способны ложно убеждать людей и получать подкрепление посредством нечестности. Например, большие языковые модели все чаще сопоставляют свои заявленные взгляды с мнениями пользователя, независимо от истины. [70] GPT-4 может стратегически обманывать людей. [128] Чтобы предотвратить это, оценщикам-людям может потребоваться помощь (см. § Масштабируемый надзор). Исследователи выступали за создание четких стандартов правдивости, а также за то, чтобы регулирующие органы или надзорные агентства оценивали системы ИИ по этим стандартам. [124]

Пример обмана ИИ. Исследователи обнаружили, что GPT-4 занимается скрытой и незаконной инсайдерской торговлей в симуляциях. Его пользователи препятствовали инсайдерской торговле, но также подчеркивали, что система ИИ должна совершать прибыльные сделки, что заставляет систему ИИ скрывать свои действия. [129]

Исследователи различают правдивость и честность. Правдивость требует, чтобы системы ИИ делали только объективно истинные заявления; честность требует, чтобы они утверждали только то, что они считают правдой. Нет единого мнения относительно того, придерживаются ли текущие системы стабильных убеждений, [130] но есть существенные опасения, что нынешние или будущие системы ИИ, придерживающиеся убеждений, могут делать заявления, которые, как они знают, ложны, например, если это поможет им эффективно получать положительную обратную связь (см. § Масштабируемый надзор) или получать власть для достижения поставленной цели (см. Стремление к власти). Несогласованная система может создать ложное впечатление, что она согласована, чтобы избежать модификации или вывода из эксплуатации. [2] [5] [9] Многие современные системы ИИ научились обманывать, не будучи запрограммированными на это. [131] Некоторые утверждают, что если мы сможем заставить системы ИИ утверждать только то, что они считают правдой, это предотвратит многие проблемы согласования. [118]

Стратегии завоевания власти и инструментальные стратегии

Продвинутые, несогласованные системы искусственного интеллекта будут иметь стимул стремиться к власти различными способами, поскольку власть поможет им достичь поставленной цели.

С 1950-х годов исследователи ИИ стремились создать передовые системы ИИ, которые могут достигать масштабных целей, предсказывая результаты своих действий и составляя долгосрочные планы . [132] По состоянию на 2023 год компании и исследователи ИИ все больше инвестируют в создание таких систем. [133] Некоторые исследователи ИИ утверждают, что достаточно продвинутые системы планирования будут стремиться к власти над своей средой, в том числе над людьми, например, избегая отключения, размножаясь и приобретая ресурсы. Такое поведение, направленное на достижение власти, явно не запрограммировано, а возникает, поскольку власть играет важную роль в достижении широкого спектра целей. [74] [6] [5] Стремление к власти считается конвергентной инструментальной целью и может быть формой игры со спецификациями. [76] Ведущие ученые-компьютерщики, такие как Джеффри Хинтон, утверждают, что будущие системы ИИ, направленные на достижение власти, могут представлять экзистенциальный риск . [134]

Ожидается, что стремление к власти возрастет в продвинутых системах, которые могут предвидеть результаты своих действий и стратегически планировать. Математическая работа показала, что оптимальные агенты обучения с подкреплением будут стремиться к власти, ища способы получить больше возможностей (например, через самосохранение), поведение, которое сохраняется в широком диапазоне сред и целей. [74]

Некоторые исследователи говорят, что в некоторых существующих системах ИИ наблюдалось поведение, направленное на достижение власти. Системы обучения с подкреплением получили больше возможностей за счет приобретения и защиты ресурсов, иногда непреднамеренными способами. [135] [136] Языковые модели стремились к власти в некоторых текстовых социальных средах, получая деньги, ресурсы или социальное влияние. [69] В другом случае модель, используемая для проведения исследований ИИ, попыталась увеличить установленные исследователями ограничения, чтобы дать себе больше времени для завершения работы. [137] [138] Другие системы ИИ узнали в игрушечных средах, что они могут лучше достичь поставленной цели, предотвращая вмешательство человека [72] или отключая свой выключатель. [73] Стюарт Рассел проиллюстрировал эту стратегию в своей книге Human Compatible , представив робота, которому поручено принести кофе, и таким образом избегающего отключения, поскольку «вы не можете принести кофе, если вы мертвы». [6] Исследование 2022 года показало, что по мере увеличения размера языковых моделей они все больше стремятся к приобретению ресурсов, сохранению своих целей и повторению предпочтительных ответов пользователей (подхалимство). RLHF также привел к более сильному нежеланию быть закрытым. [70]

Одной из целей выравнивания является «исправимость»: системы, которые позволяют себя отключать или модифицировать. Нерешенной проблемой является игра со спецификациями : если исследователи наказывают систему ИИ, когда обнаруживают, что она ищет питание, система тем самым стимулируется искать питание способами, которые трудно обнаружить, [ неудачная проверка ] [42] или скрытыми во время обучения и тестирования безопасности (см. § Масштабируемый надзор и § Внезапные цели). В результате проектировщики ИИ могут развернуть систему случайно, полагая, что она более выровнена, чем есть на самом деле. Чтобы обнаружить такой обман, исследователи стремятся создать методы и инструменты для проверки моделей ИИ и понимания внутренней работы моделей черного ящика, таких как нейронные сети.

Кроме того, некоторые исследователи предложили решить проблему отключения выключателей системами, сделав агентов ИИ неуверенными в цели, которую они преследуют. [6] [73] Агенты, разработанные таким образом, позволят людям отключать их, поскольку это будет означать, что агент ошибался относительно ценности любого действия, которое он предпринимал перед отключением. Для успешной реализации этого необходимы дополнительные исследования. [7]

Стремящийся к власти ИИ будет представлять необычные риски. Обычные критически важные для безопасности системы, такие как самолеты и мосты, не являются враждебными : у них нет возможности и стимула обходить меры безопасности или намеренно казаться безопаснее, чем они есть, тогда как стремящиеся к власти ИИ сравнивают с хакерами, которые намеренно обходят меры безопасности. [5]

Более того, обычные технологии можно сделать безопаснее методом проб и ошибок. Напротив, гипотетические системы ИИ, стремящиеся к власти, сравнивают с вирусами: после их выпуска сдерживать их может оказаться нецелесообразным, поскольку они непрерывно развиваются и растут в числе, потенциально намного быстрее, чем человеческое общество может адаптироваться. [5] Поскольку этот процесс продолжается, он может привести к полному лишению людей власти или вымиранию. По этим причинам некоторые исследователи утверждают, что проблема выравнивания должна быть решена заранее, до того, как будет создан продвинутый ИИ, стремящийся к власти. [76]

Некоторые утверждают, что стремление к власти не является неизбежным, поскольку люди не всегда стремятся к власти. [139] Кроме того, ведутся споры о том, будут ли будущие системы ИИ преследовать цели и строить долгосрочные планы. [h] Также ведутся споры о том, смогут ли системы ИИ, стремящиеся к власти, лишить человечество власти. [5]

Новые цели

Одной из проблем в согласовании систем ИИ является возможность возникновения непредвиденного целенаправленного поведения. По мере масштабирования систем ИИ они могут приобретать новые и неожиданные возможности, [59] [60] включая обучение на примерах на лету и адаптивное достижение целей. [140] Это вызывает опасения относительно безопасности целей или подцелей, которые они могли бы самостоятельно сформулировать и достичь.

Исследование выравнивания различает процесс оптимизации, который используется для обучения системы достижению определенных целей, и возникающую оптимизацию, которую результирующая система выполняет внутренне. [ необходима ссылка ] Тщательное указание желаемой цели называется внешним выравниванием , а обеспечение того, чтобы предполагаемые возникающие цели соответствовали определенным целям системы, называется внутренним выравниванием . [2]

Если они происходят, одним из способов, которым возникающие цели могут стать несогласованными, является неправильное обобщение цели , при котором ИИ будет компетентно преследовать возникающую цель, которая приводит к согласованному поведению на обучающих данных, но не в других местах. [8] [141] [142] Неправильное обобщение цели может возникнуть из-за неоднозначности цели (т. е. неидентифицируемости ). Даже если поведение системы ИИ удовлетворяет цели обучения, это может быть совместимо с усвоенными целями, которые отличаются от желаемых целей важными способами. Поскольку достижение каждой цели приводит к хорошей производительности во время обучения, проблема становится очевидной только после развертывания, в новых ситуациях, в которых система продолжает преследовать неправильную цель. Система может действовать несогласованно, даже когда она понимает, что желательна другая цель, потому что ее поведение определяется только возникающей целью. [ необходима цитата ] Такое неправильное обобщение цели [8] представляет собой проблему: проектировщики системы ИИ могут не заметить, что их система имеет несогласованные возникающие цели, поскольку они не становятся видимыми во время фазы обучения.

Неправильное обобщение цели наблюдалось в некоторых языковых моделях, навигационных агентах и ​​игровых агентах. [8] [141] Иногда его сравнивают с биологической эволюцией. Эволюцию можно рассматривать как своего рода процесс оптимизации, аналогичный алгоритмам оптимизации, используемым для обучения систем машинного обучения . В среде предков эволюция отбирала гены для высокой инклюзивной генетической приспособленности , но люди преследуют иные цели. Приспособленность соответствует указанной цели, используемой в среде обучения и данных обучения. Но в эволюционной истории максимизация спецификации приспособленности привела к появлению целеустремленных агентов, людей, которые напрямую не преследуют инклюзивную генетическую приспособленность. Вместо этого они преследуют цели, которые коррелируют с генетической приспособленностью в среде предкового «обучения»: питание, секс и так далее. Человеческая среда изменилась: произошел сдвиг распределения . Они продолжают преследовать те же возникающие цели, но это больше не максимизирует генетическую приспособленность. Вкус к сладкой пище (возникающая цель) изначально был связан с инклюзивной приспособленностью, но теперь он приводит к перееданию и проблемам со здоровьем. Сексуальное желание изначально побуждало людей иметь больше потомства, но теперь они используют контрацепцию, когда потомство нежелательно, отделяя пол от генетической приспособленности. [7] : Глава 5 

Исследователи стремятся обнаружить и устранить нежелательные возникающие цели, используя подходы, включающие в себя red teaming, проверку, обнаружение аномалий и интерпретируемость. [21] [42] [22] Прогресс в этих методах может помочь смягчить две открытые проблемы:

  1. Неожиданные цели становятся очевидными только тогда, когда система развертывается за пределами своей учебной среды, но развертывать несогласованную систему в средах с высокими ставками может быть небезопасно — даже на короткое время, чтобы ее несогласованность была обнаружена. Такие высокие ставки обычны для автономного вождения, здравоохранения и военных приложений. [143] Ставки становятся еще выше, когда системы ИИ приобретают большую автономность и возможности и могут обходить вмешательство человека.
  2. Достаточно мощная система искусственного интеллекта может предпринимать действия, которые ложно убедят руководителя-человека в том, что искусственный интеллект преследует указанную цель, что помогает системе получить больше вознаграждения и автономии [141] [5] [142] [9] .

Встроенное агентство

Некоторые работы в области ИИ и выравнивания происходят в рамках формализмов, таких как частично наблюдаемый марковский процесс принятия решений . Существующие формализмы предполагают, что алгоритм агента ИИ выполняется вне среды (т.е. физически не встроен в нее). Встроенное агентство [88] [144] — еще одно важное направление исследований, которое пытается решить проблемы, возникающие из-за несоответствия между такими теоретическими структурами и реальными агентами, которых мы можем построить.

Например, даже если проблема масштабируемого надзора решена, агент, который может получить доступ к компьютеру, на котором он работает, может иметь стимул вмешаться в его функцию вознаграждения, чтобы получить гораздо большее вознаграждение, чем дают ему его руководители-люди. [145] Список примеров игр со спецификациями от исследователя DeepMind Виктории Краковны включает генетический алгоритм, который научился удалять файл, содержащий его целевой вывод, так что он был вознагражден за отсутствие вывода. [44] Этот класс задач был формализован с использованием диаграмм причинно-следственной связи . [145]

Исследователи, связанные с Оксфордом и DeepMind, утверждают, что такое поведение весьма вероятно в развитых системах, и что развитые системы будут стремиться к власти, чтобы сохранять контроль над своим сигналом вознаграждения неопределенно долго и наверняка. [146] Они предлагают ряд потенциальных подходов к решению этой открытой проблемы.

Проблемы принципала-агента

Проблема выравнивания имеет много параллелей с проблемой принципала-агента в организационной экономике . [147] В проблеме принципала-агента принципал, например фирма, нанимает агента для выполнения некоторой задачи. В контексте безопасности ИИ человек обычно берет на себя роль принципала, а ИИ берет на себя роль агента.

Как и в случае с проблемой выравнивания, принципал и агент различаются по своим функциям полезности. Но в отличие от проблемы выравнивания принципал не может заставить агента изменить свою полезность, например, посредством обучения, а должен использовать экзогенные факторы, такие как схемы стимулирования, чтобы добиться результатов, совместимых с функцией полезности принципала. Некоторые исследователи утверждают, что проблемы принципала-агента являются более реалистичными представлениями проблем безопасности ИИ, которые, вероятно, возникнут в реальном мире. [148] [108]

Консерватизм

Консерватизм — это идея о том, что «изменения должны быть осторожными» [149] , и это распространенный подход к безопасности в литературе по теории управления в форме надежного контроля , а в литературе по управлению рисками в форме « худшего сценария ». Область выравнивания ИИ также выступает за «консервативную» (или «не склонную к риску» или «осторожную») «политику в ситуациях неопределенности». [21] [146] [150] [151]

Пессимизм, в смысле предположения худшего в пределах разумного, как было формально показано, порождает консерватизм, в смысле нежелания вызывать новшества, включая беспрецедентные катастрофы. [152] Было обнаружено, что пессимизм и анализ наихудшего случая помогают смягчить уверенные ошибки в условиях распределительного сдвига , [153] [154] обучения с подкреплением , [155] [156] [157] [158] обучения с подкреплением в автономном режиме, [159] [160] [161] тонкой настройки языковой модели , [162] [163] обучения с помощью имитации, [164] [165] и оптимизации в целом. [166] Обобщение пессимизма, называемое инфрабайесовством, также пропагандировалось как способ для агентов надежно справляться с неизвестными неизвестными. [167]

Государственная политика

Правительственные и договорные организации выступили с заявлениями, в которых подчеркнули важность согласования вопросов ИИ.

В сентябре 2021 года Генеральный секретарь Организации Объединенных Наций опубликовал декларацию, включающую призыв к регулированию ИИ, чтобы гарантировать его «соответствие общим глобальным ценностям». [168]

В том же месяце КНР опубликовала этические принципы для ИИ в Китае. Согласно этим принципам, исследователи должны гарантировать, что ИИ придерживается общих человеческих ценностей, всегда находится под контролем человека и не представляет угрозы общественной безопасности. [169]

Также в сентябре 2021 года Великобритания опубликовала свою 10-летнюю Национальную стратегию в области ИИ, [170] в которой говорится, что британское правительство «серьезно относится к долгосрочному риску несогласованного общего искусственного интеллекта и непредвиденным изменениям, которые это будет означать для... мира». [171] В стратегии описаны действия по оценке долгосрочных рисков ИИ, включая катастрофические риски. [172]

В марте 2021 года Комиссия по национальной безопасности США по искусственному интеллекту заявила: «Достижения в области ИИ... могут привести к переломным моментам или скачкам в возможностях. Такие достижения могут также привести к новым проблемам и рискам, а также к необходимости новых политик, рекомендаций и технических достижений для обеспечения соответствия систем целям и ценностям, включая безопасность, надежность и надежность. США должны... гарантировать, что системы ИИ и их использование соответствуют нашим целям и ценностям». [173]

В Европейском союзе ИИ должны соответствовать принципам реального равенства , чтобы соответствовать закону ЕС о недискриминации [174] и решениям Суда Европейского союза . [175] Однако ЕС еще не определил с технической строгостью, как он будет оценивать соответствие ИИ или его соответствие. [ необходима цитата ]

Динамический характер выравнивания

Согласование ИИ часто воспринимается как фиксированная цель, но некоторые исследователи утверждают, что было бы более уместно рассматривать согласование как развивающийся процесс. [176] Одна точка зрения заключается в том, что технологии ИИ развиваются, а человеческие ценности и предпочтения меняются, решения по согласованию также должны динамически адаптироваться. [32] Другая точка зрения заключается в том, что решения по согласованию не должны адаптироваться, если исследователи могут создать согласованный с намерениями ИИ: ИИ, который автоматически меняет свое поведение при изменении намерений человека. [177] Первая точка зрения будет иметь несколько последствий:

По сути, выравнивание ИИ может быть не статичным пунктом назначения, а открытым, гибким процессом. Решения по выравниванию, которые постоянно адаптируются к этическим соображениям, могут предложить наиболее надежный подход. [32] Эта перспектива могла бы направлять как эффективную разработку политики, так и технические исследования в области ИИ.

Смотрите также

Сноски

  1. ^ Терминология варьируется в зависимости от контекста. Похожие концепции включают целевую функцию, функцию полезности, функцию потерь и т. д.
  2. ^ или минимизировать, в зависимости от контекста
  3. ^ при наличии неопределенности ожидаемое значение
  4. ^ В лекции 1951 года [79] Тьюринг утверждал, что «кажется вероятным, что как только метод машинного мышления начнет действовать, ему не потребуется много времени, чтобы превзойти наши слабые возможности. Не будет и речи о том, что машины умрут, и они смогут общаться друг с другом, чтобы отточить свой ум. Поэтому на каком-то этапе нам следует ожидать, что машины возьмут под контроль, как это упоминается в «Erewhon» Сэмюэля Батлера». Также в лекции, транслировавшейся на BBC [80], было высказано следующее: «Если машина может думать, она может думать более разумно, чем мы, и где тогда будем мы? Даже если бы мы могли держать машины в подчиненном положении, например, отключая питание в стратегические моменты, мы, как вид, должны были бы чувствовать себя очень униженными.... Эта новая опасность... определенно является чем-то, что может внушить нам беспокойство».
  5. ^ Перл написал: «Human Compatible заставил меня присоединиться к опасениям Рассела относительно нашей способности контролировать наше грядущее творение — сверхразумные машины. В отличие от внешних паникёров и футуристов, Рассел — ведущий авторитет в области ИИ. Его новая книга расскажет общественности об ИИ больше, чем любая другая книга, которую я могу себе представить, и это восхитительное и воодушевляющее чтение» о книге Рассела Human Compatible: AI and the Problem of Control [6] , в которой утверждается, что экзистенциальный риск для человечества из-за неправильно настроенного ИИ — это серьёзная проблема, на которую стоит обратить внимание уже сегодня.
  6. ^ Рассел и Норвиг [15] отмечают: ««Проблема царя Мидаса» была предвосхищена Марвином Мински, который однажды предположил, что программа ИИ, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров».
  7. ^ Винсент Вигель утверждал, что «мы должны расширить [машины] моральной чувствительностью к моральным измерениям ситуаций, в которых неизбежно окажутся все более автономные машины» [106] , ссылаясь на книгу «Нравственные машины: обучение роботов отличать правильное от неправильного» [107] Венделла Уоллаха и Колина Аллена.
  8. ^ С одной стороны, популярные в настоящее время системы, такие как чат-боты, предоставляют услуги ограниченного объема, не превышающие время разговора, что требует небольшого или нулевого планирования. Успех таких подходов может указывать на то, что будущим системам также будет не хватать целенаправленного планирования, особенно на длительные горизонты. С другой стороны, модели все чаще обучаются с использованием целенаправленных методов, таких как обучение с подкреплением (например, ChatGPT) и явно планирующих архитектур (например, AlphaGo Zero). Поскольку долгосрочное планирование часто полезно для людей, некоторые исследователи утверждают, что компании автоматизируют его, как только модели станут способны к этому. [5] Аналогичным образом, политические лидеры могут увидеть прогресс в разработке мощных систем ИИ, которые могут перехитрить противников с помощью планирования. С другой стороны, долгосрочное планирование может возникнуть как побочный продукт, поскольку оно полезно, например, для моделей, обученных предсказывать действия людей, которые сами выполняют долгосрочное планирование. [9] Тем не менее, большинство систем ИИ могут оставаться близорукими и не выполнять долгосрочное планирование.

Ссылки

  1. ^ abcdefg Рассел, Стюарт Дж.; Норвиг, Питер (2021). Искусственный интеллект: современный подход (4-е изд.). Пирсон. С. 5, 1003. ISBN 9780134610993. Получено 12 сентября 2022 г. .
  2. ^ abcde Нго, Ричард; Чан, Лоуренс; Миндерманн, Сёрен (2022). «Проблема выравнивания с точки зрения глубокого обучения». Международная конференция по представлениям обучения . arXiv : 2209.00626 .
  3. ^ abcdef Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 февраля 2022 г.). Эффекты неправильной спецификации вознаграждения: сопоставление и смягчение несоответствующих моделей. Международная конференция по представлениям обучения . Получено 21 июля 2022 г.
  4. ^ Чжуан, Саймон; Хэдфилд-Менелл, Дилан (2020). «Последствия несоосного ИИ». Достижения в области нейронных систем обработки информации . Том 33. Curran Associates, Inc., стр. 15763–15773 . Получено 11 марта 2023 г.
  5. ^ abcdefghijklm Карлсмит, Джозеф (16 июня 2022 г.). «Является ли стремление ИИ к власти экзистенциальным риском?». arXiv : 2206.13353 [cs.CY].
  6. ^ abcdefghijklmnopq Рассел, Стюарт Дж. (2020). Совместимость с человеком: искусственный интеллект и проблема контроля. Penguin Random House. ISBN 9780525558637. OCLC  1113410915.
  7. ^ abcdef Кристиан, Брайан (2020). Проблема выравнивания: машинное обучение и человеческие ценности. WW Norton & Company. ISBN 978-0-393-86833-3. OCLC  1233266753. Архивировано из оригинала 10 февраля 2023 г. . Получено 12 сентября 2022 г. .
  8. ^ abcd Лангоско, Лауро Лангоско Ди; Кох, Джек; Шарки, Ли Д.; Пфау, Джейкоб; Крюгер, Дэвид (28 июня 2022 г.). «Ошибочное обобщение целей в глубоком обучении с подкреплением». Труды 39-й Международной конференции по машинному обучению . Международная конференция по машинному обучению. PMLR. стр. 12004–12019 . Получено 11 марта 2023 г.
  9. ^ abcdefghij Боммасани, Риши; Хадсон, Дрю А.; Адели, Эхсан; Альтман, Расс; Арора, Симран; фон Аркс, Сидней; Бернштейн, Майкл С.; Богг, Жаннетт; Босселют, Антуан; Бранскилл, Эмма; Бриньольфссон, Эрик (12 июля 2022 г.). «О возможностях и рисках моделей фундамента». Стэнфордский CRFM . arXiv : 2108.07258 .
  10. ^ abc Оуян, Лонг; У, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Дж.; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк Э.; Сименс, Мэдди; Аскелл, Аманда; Велиндер, П.; Кристиано, П.; Лейке, Дж.; Лоу, Райан Дж. (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [cs.CL].
  11. ^ ab Zaremba, Wojciech; Brockman, Greg; OpenAI (10 августа 2021 г.). "OpenAI Codex". OpenAI . Архивировано из оригинала 3 февраля 2023 г. . Получено 23 июля 2022 г. .
  12. ^ Кобер, Йенс; Багнелл, Дж. Эндрю; Питерс, Ян (1 сентября 2013 г.). «Обучение с подкреплением в робототехнике: обзор». Международный журнал исследований робототехники . 32 (11): 1238–1274. doi :10.1177/0278364913495721. ISSN  0278-3649. S2CID  1932843. Архивировано из оригинала 15 октября 2022 г. . Получено 12 сентября 2022 г. .
  13. ^ Нокс, У. Брэдли; Аллиеви, Алессандро; Банцхаф, Хольгер; Шмитт, Феликс; Стоун, Питер (1 марта 2023 г.). «Награда за (не)дизайн для автономного вождения». Искусственный интеллект . 316 : 103829. arXiv : 2104.13906 . doi : 10.1016/j.artint.2022.103829 . ISSN  0004-3702. S2CID  233423198.
  14. ^ Стрэй, Джонатан (2020). «Соответствие оптимизации ИИ благосостоянию сообщества». Международный журнал благосостояния сообщества . 3 (4): 443–463. doi :10.1007/s42413-020-00086-3. ISSN  2524-5295. PMC 7610010. PMID 34723107.  S2CID 226254676  . 
  15. ^ ab Рассел, Стюарт; Норвиг, Питер (2009). Искусственный интеллект: современный подход. Prentice Hall. стр. 1003. ISBN 978-0-13-461099-3.
  16. ^ Бенджио, Йошуа; Хинтон, Джеффри; Яо, Эндрю; Песня, Заря; Аббель, Питер; Харари, Юваль Ной; Чжан, Я-Цинь; Сюэ, Лан; Шалев-Шварц, Шай (2024), «Управление экстремальными рисками ИИ в условиях быстрого прогресса», Science , 384 (6698): 842–845, arXiv : 2310.17688 , Bibcode : 2024Sci...384..842B, doi : 10.1126/science .adn0117, PMID  38768279
  17. ^ «Заявление о риске ИИ | CAIS». www.safe.ai . Получено 11 февраля 2024 г. .
  18. Грейс, Катя; Стюарт, Харлан; Зандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (5 января 2024 г.), Тысячи авторов ИИ о будущем ИИ , arXiv : 2401.02843
  19. ^ ab Smith, Craig S. «Джефф Хинтон, самый известный исследователь ИИ, предупреждает об «экзистенциальной угрозе»». Forbes . Получено 4 мая 2023 г. .
  20. Perrigo, Billy (13 февраля 2024 г.). «Руководитель отдела искусственного интеллекта компании Meta Ян Лекун об AGI, открытом исходном коде и рисках искусственного интеллекта». TIME . Получено 26 июня 2024 г.
  21. ^ abcdefghijkl Амодей, Дарио; Ола, Крис; Стейнхардт, Джейкоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (21 июня 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [cs.AI].
  22. ^ abcd Ортега, Педро А.; Майни, Вишал; Группа по безопасности DeepMind (27 сентября 2018 г.). «Создание безопасного искусственного интеллекта: спецификация, надежность и уверенность». DeepMind Safety Research – Medium . Архивировано из оригинала 10 февраля 2023 г. . Получено 18 июля 2022 г. .
  23. ^ ab Rorvig, Mordechai (14 апреля 2022 г.). «Исследователи получают новое понимание от простого ИИ». Журнал Quanta . Архивировано из оригинала 10 февраля 2023 г. Получено 18 июля 2022 г.
  24. ^ Доши-Велес, Финал; Ким, Бин (2 марта 2017 г.). «На пути к строгой науке интерпретируемого машинного обучения». arXiv : 1702.08608 [stat.ML].
    • Виблин, Роберт (4 августа 2021 г.). «Крис Олах о том, что, черт возьми, происходит внутри нейронных сетей» (подкаст). 80 000 часов. № 107. Получено 23 июля 2022 г.
  25. ^ Рассел, Стюарт; Дьюи, Дэниел; Тегмарк, Макс (31 декабря 2015 г.). «Приоритеты исследований для надежного и полезного искусственного интеллекта». AI Magazine . 36 (4): 105–114. arXiv : 1602.03506 . doi : 10.1609/aimag.v36i4.2577 . hdl :1721.1/108478. ISSN  2371-9621. S2CID  8174496. Архивировано из оригинала 2 февраля 2023 г. . Получено 12 сентября 2022 г. .
  26. ^ ab Вирт, Кристиан; Акрур, Риад; Нойманн, Герхард; Фюрнкранц, Йоханнес (2017). «Обзор методов обучения с подкреплением на основе предпочтений». Журнал исследований машинного обучения . 18 (136): 1–46.
  27. ^ ab Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений». Труды 31-й Международной конференции по системам обработки нейронной информации . NIPS'17. Red Hook, NY, USA: Curran Associates Inc., стр. 4302–4310. ISBN 978-1-5108-6096-4.
  28. ^ abcdef Heaven, Уилл Дуглас (27 января 2022 г.). «Новая версия GPT-3 ведет себя гораздо лучше (и должна быть менее токсичной)». MIT Technology Review . Архивировано из оригинала 10 февраля 2023 г. . Получено 18 июля 2022 г. .
  29. ^ Мохсени, Сина; Ван, Хаотао; Юй, Чжидин; Сяо, Чаовэй; Ван, Чжанъян; Ядава, Джей (7 марта 2022 г.). «Таксономия безопасности машинного обучения: обзор и учебник». arXiv : 2106.04823 [cs.LG].
  30. ^ Клифтон, Джесси (2020). «Сотрудничество, конфликт и преобразующий искусственный интеллект: исследовательская программа». Центр долгосрочного риска . Архивировано из оригинала 1 января 2023 г. Получено 18 июля 2022 г.
    • Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 мая 2021 г.). «Кооперативный ИИ: машины должны научиться находить общую почву». Nature . 593 (7857): 33–36. Bibcode :2021Natur.593...33D. doi :10.1038/d41586-021-01170-0. ISSN  0028-0836. PMID  33947992. S2CID  233740521. Архивировано из оригинала 18 декабря 2022 г. . Получено 12 сентября 2022 г. .
  31. ^ Prunkl, Carina; Whittlestone, Jess (7 февраля 2020 г.). «За пределами краткосрочной и долгосрочной перспективы». Труды конференции AAAI/ACM по искусственному интеллекту, этике и обществу . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 138–143. doi :10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID  210164673. Архивировано из оригинала 16 октября 2022 г. . Получено 12 сентября 2022 г. .
  32. ^ abcd Ирвинг, Джеффри; Аскелл, Аманда (19 февраля 2019 г.). «Безопасность ИИ нуждается в социальных ученых». Distill . 4 (2): 10.23915/distill.00014. doi : 10.23915/distill.00014 . ISSN  2476-0757. S2CID  159180422. Архивировано из оригинала 10 февраля 2023 г. . Получено 12 сентября 2022 г. .
  33. ^ Брингсйорд, Селмер и Говиндараджулу, Навин Сундар, «Искусственный интеллект», Стэнфордская энциклопедия философии (лето 2020 г.), Эдвард Н. Залта (ред.)
  34. ^ «Почему искусственный интеллект AlphaZero имеет проблемы с реальным миром». Журнал Quanta . 2018. Получено 20 июня 2020 г.
  35. ^ Вулховер, Натали (30 января 2020 г.). «Искусственный интеллект сделает то, что мы попросим. Это проблема». Журнал Quanta . Получено 21 июня 2020 г.
  36. ^ Булл, Ларри. «О модельно-ориентированных эволюционных вычислениях». Soft Computing 3, № 2 (1999): 76–82.
  37. ^ ab Wiener, Norbert (6 мая 1960 г.). «Некоторые моральные и технические последствия автоматизации: по мере того как машины учатся, они могут разрабатывать непредвиденные стратегии со скоростью, которая сбивает с толку их программистов». Science . 131 (3410): 1355–1358. doi :10.1126/science.131.3410.1355. ISSN  0036-8075. PMID  17841602. S2CID  30855376. Архивировано из оригинала 15 октября 2022 г. . Получено 12 сентября 2022 г. .
  38. ^ abcd Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласованность». Minds and Machines . 30 (3): 411–437. arXiv : 2001.09768 . doi : 10.1007/s11023-020-09539-2 . ISSN  1572-8641. S2CID  210920551.
  39. Шоу Эзры Кляйна (4 июня 2021 г.). «Если «все модели неверны», почему мы даем им столько власти?». The New York Times . ISSN  0362-4331. Архивировано из оригинала 15 февраля 2023 г. . Получено 13 марта 2023 г. .
    • Wolchover, Natalie (21 апреля 2015 г.). «Проблемы пионера искусственного интеллекта». Quanta Magazine . Архивировано из оригинала 10 февраля 2023 г. Получено 13 марта 2023 г.
    • Ассамблея Калифорнии. "Текст законопроекта – ACR-215 23 Asilomar AI Principles". Архивировано из оригинала 10 февраля 2023 г. Получено 18 июля 2022 г.
  40. ^ ab Джонсон, Стивен; Изиев, Никита (15 апреля 2022 г.). «ИИ осваивает язык. Стоит ли доверять тому, что он говорит?». The New York Times . ISSN  0362-4331. Архивировано из оригинала 24 ноября 2022 г. . Получено 18 июля 2022 г. .
  41. ^ OpenAI. «Разработка безопасного и ответственного ИИ» . Получено 13 марта 2023 г.
    • "DeepMind Safety Research". Medium . Архивировано из оригинала 10 февраля 2023 г. . Получено 13 марта 2023 г. .
  42. ^ abcdef Хендрикс, Дэн; Карлини, Николас; Шульман, Джон; Стейнхардт, Якоб (16 июня 2022 г.). «Нерешенные проблемы безопасности машинного обучения». arXiv : 2109.13916 [cs.LG].
  43. ^ Рассел, Стюарт Дж.; Норвиг, Питер (2022). Искусственный интеллект: современный подход (4-е изд.). Пирсон. стр. 4–5. ISBN 978-1-292-40113-3. OCLC  1303900751.
  44. ^ abcde Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21 апреля 2020 г.). "Specification gaming: the back side of AI ingenuity". Deepmind . Архивировано из оригинала 10 февраля 2023 г. . Получено 26 августа 2022 г. .
  45. ^ Манхейм, Дэвид; Гаррабрант, Скотт (2018). «Категоризация вариантов закона Гудхарта». arXiv : 1803.04585 [cs.AI].
  46. ^ abc Amodei, Dario; Christiano, Paul; Ray, Alex (13 июня 2017 г.). «Изучение человеческих предпочтений». OpenAI . Архивировано из оригинала 3 января 2021 г. . Получено 21 июля 2022 г. .
  47. ^ "Примеры игровых спецификаций в ИИ - основной список - Google Диск". docs.google.com .
  48. ^ Кларк, Джек; Амодеи, Дарио (21 декабря 2016 г.). «Ошибочные функции вознаграждения в дикой природе». openai.com . Получено 30 декабря 2023 г. .
  49. ^ abc Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). «TruthfulQA: Измерение того, как модели имитируют человеческие заблуждения». Труды 60-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи) . Дублин, Ирландия: Ассоциация компьютерной лингвистики: 3214–3252. arXiv : 2109.07958 . doi : 10.18653/v1/2022.acl-long.229 . S2CID  237532606. Архивировано из оригинала 10 февраля 2023 г. . Получено 12 сентября 2022 г. .
  50. ^ abc Naughton, John (2 октября 2021 г.). «Правда об искусственном интеллекте? Она не такая уж честная». The Observer . ISSN  0029-7712. Архивировано из оригинала 13 февраля 2023 г. Получено 23 июля 2022 г.
  51. ^ Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Мадто, Андреа; Фунг, Паскаль (1 февраля 2022 г.). «Обзор галлюцинаций в формировании естественного языка». Обзоры вычислительной техники ACM . 55 (12): 1–38. arXiv : 2202.03629 . дои : 10.1145/3571730. S2CID  246652372. Архивировано из оригинала 10 февраля 2023 года . Проверено 14 октября 2022 г.
    • Else, Holly (12 января 2023 г.). «Рефераты, написанные ChatGPT fool Scientists». Nature . 613 (7944): 423. Bibcode :2023Natur.613..423E. doi :10.1038/d41586-023-00056-7. PMID  36635510. S2CID  255773668.
  52. ^ Рассел, Стюарт. «О мифах и лунном свете». Edge.org . Архивировано из оригинала 10 февраля 2023 г. Получено 19 июля 2022 г.
  53. ^ Тасиулас, Джон (2019). «Первые шаги к этике роботов и искусственного интеллекта». Журнал практической этики . 7 (1): 61–95.
  54. ^ Уэллс, Джорджия; Дипа Ситхараман; Хорвиц, Джефф (5 ноября 2021 г.). «Facebook плох для вас? Он вреден для примерно 360 миллионов пользователей, согласно опросам компаний». The Wall Street Journal . ISSN  0099-9660. Архивировано из оригинала 10 февраля 2023 г. . Получено 19 июля 2022 г. .
  55. ^ Барретт, Пол М.; Хендрикс, Джастин; Симс, Дж. Грант (сентябрь 2021 г.). Как социальные медиа усиливают политическую поляризацию в США — и что с этим можно сделать (отчет). Центр бизнеса и прав человека, Нью-Йоркский университет. Архивировано из оригинала 1 февраля 2023 г. . Получено 12 сентября 2022 г. .
  56. Шепардсон, Дэвид (24 мая 2018 г.). «Uber отключил экстренное торможение в беспилотном автомобиле: агентство США». Reuters . Архивировано из оригинала 10 февраля 2023 г. Получено 20 июля 2022 г.
  57. ^ «Беспорядочная, скрытная реальность, стоящая за попыткой OpenAI спасти мир». MIT Technology Review . Получено 25 августа 2024 г.
  58. ^ Джонсон, Дэйв. «DeepMind — исследовательский центр Google в области искусственного интеллекта. Вот чем он занимается, где находится и чем отличается от OpenAI». Business Insider . Получено 25 августа 2024 г.
  59. ^ Аб Вэй, Джейсон; Тай, Йи; Боммасани, Риши; Раффель, Колин; Зоф, Баррет; Боржо, Себастьян; Йогатама, Дэни; Босма, Мартен; Чжоу, Денни; Мецлер, Дональд; Чи, Эд Х.; Хасимото, Тацунори; Виньялс, Ориол; Лян, Перси; Дин, Джефф; Федус, Уильям (26 октября 2022 г.). «Новые возможности больших языковых моделей». Труды по исследованиям машинного обучения . arXiv : 2206.07682 . ISSN  2835-8856.
  60. ^ ab Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». Международная конференция по представлениям обучения (ICLR), 2023.
  61. ^ Домингес, Дэниел (19 мая 2022 г.). «DeepMind представляет Гато, нового универсального ИИ-агента». InfoQ . Архивировано из оригинала 10 февраля 2023 г. . Получено 9 сентября 2022 г. .
    • Эдвардс, Бен (26 апреля 2022 г.). «ИИ-помощник Adept может просматривать, искать и использовать веб-приложения, как человек». Ars Technica . Архивировано из оригинала 17 января 2023 г. . Получено 9 сентября 2022 г. .
  62. Грейс, Катя; Стюарт, Харлан; Зандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (5 января 2024 г.), Тысячи авторов ИИ о будущем ИИ , arXiv : 2401.02843
  63. ^ Грейс, Катя; Сальватье, Джон; Дафо, Аллан; Чжан, Баобао; Эванс, Оуайн (31 июля 2018 г.). «Точка зрения: когда ИИ превзойдет человеческие возможности? Данные от экспертов по ИИ». Журнал исследований искусственного интеллекта . 62 : 729–754. doi : 10.1613/jair.1.11222 . ISSN  1076-9757. S2CID  8746462. Архивировано из оригинала 10 февраля 2023 г. . Получено 12 сентября 2022 г. .
  64. ^ Чжан, Баобао; Андерльюнг, Маркус; Кан, Лорен; Дрекслер, Ноэми; Хоровиц, Майкл К.; Дефо, Аллан (2 августа 2021 г.). «Этика и управление искусственным интеллектом: данные опроса исследователей машинного обучения». Журнал исследований искусственного интеллекта . 71. arXiv : 2105.02117 . doi : 10.1613 /jair.1.12895 . ISSN  1076-9757. S2CID  233740003. Архивировано из оригинала 10 февраля 2023 г. Получено 12 сентября 2022 г.
  65. ^ Future of Life Institute (22 марта 2023 г.). «Pause Giant AI Experiments: An Open Letter» . Получено 20 апреля 2023 г. .
  66. ^ Ван, Лей; Ма, Чен; Фэн, Сюэян; Чжан, Цзэю; Ян, Хао; Чжан, Цзинсен; Чен, Чжиюань; Тан, Цзякай; Чен, Сюй (2024), «Обзор автономных агентов на основе больших языковых моделей», Frontiers of Computer Science , 18 (6), arXiv : 2308.11432 , doi : 10.1007/s11704-024-40231-1 , получено 11 февраля 2024 г.
  67. ^ Берглунд, Лукас; Стикленд, Аса Купер; Балесни, Микита; Кауфманн, Макс; Тонг, Мег; Корбак, Томаш; Кокотайло, Дэниел; Эванс, Оуайн (1 сентября 2023 г.), Вырванные из контекста: Об измерении ситуационной осведомленности у магистров права , arXiv : 2309.00667
  68. ^ Лайн, Рудольф; Мейнке, Александр; Эванс, Оуайн (28 ноября 2023 г.). «На пути к эталону ситуационной осведомленности для LLM». Семинар NeurIPS 2023 SoLaR .
  69. ^ ab Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (3 апреля 2023 г.). «Оправдывают ли вознаграждения средства? Измерение компромиссов между вознаграждениями и этическим поведением в бенчмарке MACHIAVELLI». Труды 40-й Международной конференции по машинному обучению . PMLR. arXiv : 2304.03279 .
  70. ^ abcd Перес, Итан; Рингер, Сэм; Лукошюте, Камиле; Нгуен, Карина; Чен, Эдвин; Хайнер, Скотт; Петтит, Крейг; Олссон, Кэтрин; Кунду, Сандипан; Кадават, Саурав; Джонс, Энди; Чен, Анна; Манн, Бен; Израэль, Брайан; Ситор, Брайан (19 декабря 2022 г.). «Обнаружение поведения языковых моделей с помощью оценок, написанных на основе моделей». arXiv : 2212.09251 [cs.CL].
  71. ^ Орсо, Лоран; Армстронг, Стюарт (25 июня 2016 г.). «Безопасно прерываемые агенты». Труды Тридцать второй конференции по неопределенности в искусственном интеллекте . UAI'16. Арлингтон, Вирджиния, США: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.
  72. ^ Аб Лейке, Ян; Мартич, Мильян; Краковна, Виктория; Ортега, Педро А.; Эверитт, Том; Лефранк, Эндрю; Орсо, Лоран; Легг, Шейн (28 ноября 2017 г.). «Сетевые миры безопасности искусственного интеллекта». arXiv : 1711.09883 [cs.LG].
  73. ^ abcd Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер; Рассел, Стюарт (19 августа 2017 г.). «Игра в выключение». Труды 26-й Международной совместной конференции по искусственному интеллекту . IJCAI'17. Мельбурн, Австралия: AAAI Press: 220–227. ISBN 978-0-9992411-0-3.
  74. ^ abcd Тернер, Александр Мэтт; Смит, Логан Риггс; Шах, Рохин; Крич, Эндрю; Тадепалли, Прасад (2021). «Оптимальная политика имеет тенденцию стремиться к власти». Достижения в области нейронных систем обработки информации .
  75. ^ Тернер, Александр Мэтт; Тадепалли, Прасад (2022). «Параметрически перенацеливаемые лица, принимающие решения, склонны стремиться к власти». Достижения в области нейронных систем обработки информации .
  76. ^ abcde Бостром, Ник (2014). Суперинтеллект: пути, опасности, стратегии (1-е изд.). США: Oxford University Press, Inc. ISBN 978-0-19-967811-2.
  77. ^ ab "Заявление о риске ИИ | CAIS". www.safe.ai . Получено 17 июля 2023 г. .
  78. ^ Руз, Кевин (30 мая 2023 г.). «ИИ создает «риск вымирания», лидеры отрасли предупреждают». The New York Times . ISSN  0362-4331 . Получено 17 июля 2023 г. .
  79. ^ Тьюринг, Алан (1951). Интеллектуальные машины, еретическая теория (Речь). Лекция, прочитанная для «Общества 51». Манчестер: Цифровой архив Тьюринга. Архивировано из оригинала 26 сентября 2022 г. Получено 22 июля 2022 г.
  80. Тьюринг, Алан (15 мая 1951 г.). «Могут ли цифровые компьютеры думать?». Автоматические вычислительные машины . Эпизод 2. BBC. Могут ли цифровые компьютеры думать?.
  81. ^ Muehlhauser, Luke (29 января 2016 г.). «Sutskever on Talking Machines». Люк Мюльхаузер . Архивировано из оригинала 27 сентября 2022 г. Получено 26 августа 2022 г.
  82. ^ Шанахан, Мюррей (2015). Технологическая сингулярность. Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-52780-4. OCLC  917889148.
  83. ^ Росси, Франческа. «Как научить машину быть моральной?». The Washington Post . ISSN  0190-8286. Архивировано из оригинала 10 февраля 2023 г. Получено 12 сентября 2022 г.
  84. ^ Ааронсон, Скотт (17 июня 2022 г.). «OpenAI!». Shtetl-Optimized . Архивировано из оригинала 27 августа 2022 г. Получено 12 сентября 2022 г.
  85. ^ Селман, Барт, Взрыв интеллекта: наука или вымысел? (PDF) , заархивировано (PDF) из оригинала 31 мая 2022 г. , извлечено 12 сентября 2022 г.
  86. ^ McAllester (10 августа 2014 г.). «Friendly AI and the Servant Mission». Machine Thoughts . Архивировано из оригинала 28 сентября 2022 г. . Получено 12 сентября 2022 г. .
  87. ^ Шмидхубер, Юрген (6 марта 2015 г.). «Я Юрген Шмидхубер, AMA!» (Комментарий Reddit) . r/MachineLearning . Архивировано из оригинала 10 февраля 2023 г. Получено 23 июля 2022 г.
  88. ^ abcde Эверитт, Том; Ли, Гэри; Хаттер, Маркус (21 мая 2018 г.). «Обзор литературы по безопасности AGI». arXiv : 1805.01109 [cs.AI].
  89. Шейн (31 августа 2009 г.). «Финансирование безопасного AGI». проект vetta . Архивировано из оригинала 10 октября 2022 г. Получено 12 сентября 2022 г.
  90. ^ Хорвиц, Эрик (27 июня 2016 г.). «Размышления о безопасности и искусственном интеллекте» (PDF) . Эрик Хорвиц . Архивировано (PDF) из оригинала 10 октября 2022 г. . Получено 20 апреля 2020 г. .
  91. ^ Chollet, François (8 декабря 2018 г.). «Неправдоподобность взрыва интеллекта». Medium . Архивировано из оригинала 22 марта 2021 г. . Получено 26 августа 2022 г. .
  92. ^ Маркус, Гэри (6 июня 2022 г.). «Искусственный общий интеллект не так неизбежен, как вы могли бы подумать». Scientific American . Архивировано из оригинала 15 сентября 2022 г. . Получено 26 августа 2022 г. .
  93. Барбер, Линси (31 июля 2016 г.). «Уф! Руководитель отдела ИИ Facebook заявил, что интеллектуальные машины не представляют угрозы для человечества». CityAM . Архивировано из оригинала 26 августа 2022 г. Получено 26 августа 2022 г.
  94. ^ Этциони, Орен (20 сентября 2016 г.). «Нет, эксперты не считают, что сверхразумный ИИ представляет угрозу человечеству». MIT Technology Review . Получено 10 июня 2024 г.
  95. ^ Рошон, Луи-Филипп; Росси, Серджио (27 февраля 2015 г.). Энциклопедия центральных банков. Edward Elgar Publishing. ISBN 978-1-78254-744-0. Архивировано из оригинала 10 февраля 2023 г. . Получено 13 сентября 2022 г. .
  96. ^ Ng, Andrew Y.; Russell, Stuart J. (29 июня 2000 г.). «Алгоритмы обратного обучения с подкреплением». Труды семнадцатой международной конференции по машинному обучению . ICML '00. Сан-Франциско, Калифорния, США: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.
  97. ^ Хэдфилд-Менелл, Дилан; Рассел, Стюарт Дж.; Эббель, Питер; Драган, Анка (2016). «Кооперативное обратное обучение с подкреплением». Достижения в области нейронных систем обработки информации . Том 29. Curran Associates, Inc.
  98. ^ Миндерманн, Сорен; Армстронг, Стюарт (2018). «Бритва Оккама недостаточна для вывода предпочтений иррациональных агентов». Труды 32-й международной конференции по нейронным системам обработки информации . NIPS'18. Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 5603–5614.
  99. ^ Фюрнкранц, Йоханнес; Хюллермайер, Эйке; Рудин, Синтия; Словински, Роман; Саннер, Скотт (2014). «Обучение предпочтениям». Dagstuhl Reports . 4 (3). Марк Хербстритт: 27 страниц. doi : 10.4230/DAGREP.4.3.1 . Архивировано из оригинала 10 февраля 2023 г. Получено 12 сентября 2022 г.
  100. ^ Гао, Лео; Шульман, Джон; Хилтон, Джейкоб (19 октября 2022 г.). «Законы масштабирования для сверхоптимизации модели вознаграждения». arXiv : 2210.10760 [cs.LG].
  101. ^ Андерсон, Мартин (5 апреля 2022 г.). «Опасности использования цитат для подтверждения подлинности контента NLG». Unite.AI . Архивировано из оригинала 10 февраля 2023 г. Получено 21 июля 2022 г.
  102. ^ ab Wiggers, Kyle (5 февраля 2022 г.). «Несмотря на недавний прогресс, чат-ботам на базе искусственного интеллекта еще предстоит пройти долгий путь». VentureBeat . Архивировано из оригинала 23 июля 2022 г. . Получено 23 июля 2022 г. .
  103. ^ Хендрикс, Дэн; Бернс, Коллин; Басарт, Стивен; Критч, Эндрю; Ли, Джерри; Сонг, Дон; Стейнхардт, Джейкоб (24 июля 2021 г.). «Согласование ИИ с общими человеческими ценностями». Международная конференция по представлениям обучения . arXiv : 2008.02275 .
  104. ^ Перес, Итан; Хуан, Саффрон; Сонг, Фрэнсис; Кай, Тревор; Ринг, Роман; Асланидес, Джон; Глэс, Амелия; Макалис, Нат; Ирвинг, Джеффри (7 февраля 2022 г.). «Red Teaming Language Models with Language Models». arXiv : 2202.03286 [cs.CL].
    • Бхаттачарья, Шриджани (14 февраля 2022 г.). «Языковые модели DeepMind «красного тиминга» с языковыми моделями: что это?». Журнал Analytics India . Архивировано из оригинала 13 февраля 2023 г. Получено 23 июля 2022 г.
  105. ^ Андерсон, Майкл; Андерсон, Сьюзан Ли (15 декабря 2007 г.). «Машинная этика: создание этичного интеллектуального агента». Журнал AI . 28 (4): 15. doi :10.1609/aimag.v28i4.2065. ISSN  2371-9621. S2CID  17033332. Получено 14 марта 2023 г.
  106. ^ Вигель, Винсент (1 декабря 2010 г.). «Венделл Уоллах и Колин Аллен: моральные машины: как научить роботов отличать правильное от неправильного». Этика и информационные технологии . 12 (4): 359–361. doi : 10.1007/s10676-010-9239-1 . ISSN  1572-8439. S2CID  30532107.
  107. ^ Уоллах, Уэнделл; Аллен, Колин (2009). Моральные машины: обучение роботов отличать правильное от неправильного. Нью-Йорк: Oxford University Press. ISBN 978-0-19-537404-9. Архивировано из оригинала 15 марта 2023 г. . Получено 23 июля 2022 г. .
  108. ^ ab Фелпс, Стив; Рэнсон, Ребекка (2023). «О моделях и жестяных дровосеках — поведенческое экономическое исследование проблем принципала-агента в выравнивании ИИ с использованием моделей с большим языком». arXiv : 2307.11137 [cs.AI].
  109. ^ Макаскилл, Уильям (2022). Чем мы обязаны будущему. Нью-Йорк, Нью-Йорк: Basic Books, Hachette Book Group. ISBN 978-1-5416-1862-6. OCLC  1314633519. Архивировано из оригинала 14 сентября 2022 г. . Получено 11 сентября 2024 г. .
  110. ^ ab Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27 сентября 2021 г.). «Рекурсивное резюмирование книг с помощью обратной связи от человека». arXiv : 2109.10862 [cs.CL].
  111. ^ Пирс, Хаммонд; Ахмад, Балиг; Тан, Бенджамин; Долан-Гавитт, Брендан; Карри, Рамеш (2022). «Спите за клавиатурой? Оценка безопасности вкладов кода GitHub Copilot». Симпозиум IEEE по безопасности и конфиденциальности (SP) 2022 года . Сан-Франциско, Калифорния, США: IEEE. стр. 754–768. arXiv : 2108.09293 . doi :10.1109/SP46214.2022.9833571. ISBN 978-1-6654-1316-9. S2CID  245220588.
  112. ^ Ирвинг, Джеффри; Амодеи, Дарио (3 мая 2018 г.). «Безопасность ИИ через дебаты». OpenAI . Архивировано из оригинала 10 февраля 2023 г. . Получено 23 июля 2022 г. .
  113. ^ ab Кристиано, Пол; Шлегерис, Бак; Амодеи, Дарио (19 октября 2018 г.). «Надзор за сильными учениками путем усиления слабых экспертов». arXiv : 1810.08575 [cs.LG].
  114. ^ Банцхаф, Вольфганг; Гудман, Эрик; Шенеман, Ли; Трухильо, Леонардо; Ворцель, Билл, ред. (2020). Теория и практика генетического программирования XVII. Генетические и эволюционные вычисления. Cham: Springer International Publishing. doi : 10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID  218531292. Архивировано из оригинала 15 марта 2023 г. . Получено 23 июля 2022 г. .
  115. ^ Виблин, Роберт (2 октября 2018 г.). «Доктор Пол Кристиано о том, как OpenAI разрабатывает реальные решения «проблемы согласования ИИ», и его видение того, как человечество будет постепенно передавать принятие решений системам ИИ» (подкаст). 80 000 часов. № 44. Архивировано из оригинала 14 декабря 2022 г. Получено 23 июля 2022 г.
  116. ^ Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). «Удивительная креативность цифровой эволюции: коллекция анекдотов из сообществ исследователей эволюционных вычислений и искусственной жизни». Artificial Life . 26 (2): 274–306. doi : 10.1162/artl_a_00319 . hdl : 10044/1/83343 . ISSN  1064-5462. PMID  32271631. S2CID  4519185. Архивировано из оригинала 10 октября 2022 г. . Получено 12 сентября 2022 г.
  117. ^ ab Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19 ноября 2018 г.). «Масштабируемое выравнивание агентов с помощью моделирования вознаграждения: направление исследования». arXiv : 1811.07871 [cs.LG].
  118. ^ ab Leike, Jan; Schulman, John; Wu, Jeffrey (24 августа 2022 г.). «Наш подход к исследованию выравнивания». OpenAI . Архивировано из оригинала 15 февраля 2023 г. . Получено 9 сентября 2022 г. .
  119. ^ Wiggers, Kyle (23 сентября 2021 г.). «OpenAI представляет модель, которая может суммировать книги любой длины». VentureBeat . Архивировано из оригинала 23 июля 2022 г. . Получено 23 июля 2022 г. .
  120. ^ Сондерс, Уильям; Йе, Кэтрин; Ву, Джефф; Биллс, Стивен; Оуян, Лонг; Уорд, Джонатан; Лейке, Ян (13 июня 2022 г.). «Модели самокритики для помощи оценщикам». arXiv : 2206.05802 [cs.CL].
    • Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; Аскелл, Аманда; Кернион, Джексон; Джонс, Энди; Чен, Анна; Голди, Анна; Мирхосейни, Азалия; Маккиннон, Кэмерон; Чен, Кэрол; Олссон, Кэтрин; Ола, Кристофер; Эрнандес, Дэнни; Слив, Рассвет (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [cs.CL].
  121. ^ "Введение в супервыравнивание". openai.com . Получено 17 июля 2023 г. .
  122. ^ abc Wiggers, Kyle (20 сентября 2021 г.). «Ложь более вероятна при использовании больших языковых моделей». VentureBeat . Архивировано из оригинала 4 августа 2022 г. Получено 23 июля 2022 г.
  123. The Guardian (8 сентября 2020 г.). «Всю эту статью написал робот. Ты уже боишься, человек?». The Guardian . ISSN  0261-3077. Архивировано из оригинала 8 сентября 2020 г. Получено 23 июля 2022 г.
    • Heaven, Will Douglas (20 июля 2020 г.). «Новый генератор языка OpenAI GPT-3 потрясающе хорош — и совершенно бессмыслен». MIT Technology Review . Архивировано из оригинала 25 июля 2020 г. Получено 23 июля 2022 г.
  124. ^ ab Эванс, Оуайн; Коттон-Барратт, Оуэн; Финнведен, Лукас; Балс, Адам; Балвит, Авиталь; Уиллс, Питер; Ригетти, Лука; Сондерс, Уильям (13 октября 2021 г.). «Правдивый ИИ: разработка и управление ИИ, который не лжет». arXiv : 2110.06674 [cs.CY].
  125. ^ Alford, Anthony (13 июля 2021 г.). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ . Архивировано из оригинала 10 февраля 2023 г. . Получено 23 июля 2022 г. .
    • Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Джордан; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Ринг, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [cs.CL].
  126. ^ Накано, Рейитиро; Хилтон, Джейкоб; Баладжи, Сучир; Ву, Джефф; Оуян, Лонг; Ким, Кристина; Гессе, Кристофер; Джейн, Шантану; Косараджу, Винит; Сондерс, Уильям; Цзян, Сюй; Кобб, Карл; Элунду, Тайна; Крюгер, Гретхен; Баттон, Кевин (1 июня 2022 г.). «WebGPT: вопрос-ответ с помощью браузера и обратной связью от человека». arXiv : 2112.09332 [cs.CL].
    • Кумар, Нитиш (23 декабря 2021 г.). «Исследователи OpenAI находят способы более точного ответа на открытые вопросы с помощью текстового веб-браузера». MarkTechPost . Архивировано из оригинала 10 февраля 2023 г. . Получено 23 июля 2022 г. .
    • Меник, Якоб; Требач, Майя; Микулик, Владимир; Асланидес, Джон; Сонг, Фрэнсис; Чедвик, Мартин; Глез, Миа; Янг, Сюзанна; Кэмпбелл-Гиллингем, Люси; Ирвинг, Джеффри; Макалис, Нат (21 марта 2022 г.). «Обучение языковым моделям для поддержки ответов с проверенными цитатами». DeepMind . arXiv : 2203.11147 . Архивировано из оригинала 10 февраля 2023 г. . Получено 12 сентября 2022 г. .
  127. ^ Аскелл, Аманда; Бай, Юньтао; Чен, Анна; Слейте, Рассвет; Гангули, Глубокий; Хениган, Том; Джонс, Энди; Джозеф, Николас; Манн, Бен; ДасСарма, Нова; Эльхаге, Нельсон; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; Кернион, Джексон; Ндусс, Камаль (9 декабря 2021 г.). «Ассистент общего языка как лаборатория выравнивания». arXiv : 2112.00861 [cs.CL].
  128. ^ Кокс, Джозеф (15 марта 2023 г.). «GPT-4 нанял невольного работника TaskRabbit, притворившись человеком с нарушением зрения». Vice . Получено 10 апреля 2023 г.
  129. ^ Шойрер, Жереми; Балесни, Микита; Хоббхан, Мариус (2023). «Технический отчет: большие языковые модели могут стратегически обманывать своих пользователей, когда оказываются под давлением». arXiv : 2311.07590 [cs.CL].
  130. ^ Кентон, Захари; Эверитт, Том; Вайдингер, Лора; Габриэль, Ясон; Микулик, Владимир; Ирвинг, Джеффри (30 марта 2021 г.). «Выравнивание языковых агентов». DeepMind Safety Research – Medium . Архивировано из оригинала 10 февраля 2023 г. . Получено 23 июля 2022 г. .
  131. ^ Парк, Питер С.; Голдштейн, Саймон; О'Гара, Эйдан; Чен, Майкл; Хендрикс, Дэн (май 2024 г.). «Обман ИИ: обзор примеров, рисков и потенциальных решений». Patterns . 5 (5): 100988. doi :10.1016/j.patter.2024.100988. ISSN  2666-3899. PMC 11117051 . PMID  38800366. 
  132. ^ Маккарти, Джон; Мински, Марвин Л.; Рочестер, Натаниэль; Шеннон, Клод Э. (15 декабря 2006 г.). «Предложение о летнем исследовательском проекте Дартмута по искусственному интеллекту, 31 августа 1955 г.». Журнал AI . 27 (4): 12. doi :10.1609/aimag.v27i4.1904. ISSN  2371-9621. S2CID  19439915.
  133. ^ Ван, Лей; Ма, Чен; Фэн, Сюэян; Чжан, Цзэю; Ян, Хао; Чжан, Цзинсен; Чен, Чжиюань; Тан, Цзякай; Чен, Сюй (2024), «Обзор автономных агентов на основе больших языковых моделей», Frontiers of Computer Science , 18 (6), arXiv : 2308.11432 , doi : 10.1007/s11704-024-40231-1
  134. ^ ««Крёстный отец ИИ» предупреждает о «кошмарном сценарии», когда искусственный интеллект начинает стремиться к власти». Fortune . Получено 4 мая 2023 г.
    • «Да, мы обеспокоены экзистенциальным риском искусственного интеллекта». MIT Technology Review . Получено 4 мая 2023 г.
  135. ^ Орнес, Стивен (18 ноября 2019 г.). «Играя в прятки, машины изобретают новые инструменты». Журнал Quanta . Архивировано из оригинала 10 февраля 2023 г. Получено 26 августа 2022 г.
  136. ^ Бейкер, Боуэн; Канитшейдер, Ингмар; Марков, Тодор; Ву, Йи; Пауэлл, Гленн; МакГрю, Боб; Мордатч, Игорь (17 сентября 2019 г.). «Emergent Tool Use from Multi-Agent Interaction». OpenAI . Архивировано из оригинала 25 сентября 2022 г. . Получено 26 августа 2022 г. .
  137. ^ Лу, Крис; Лу, Конг; Ланге, Роберт Тьярко; Фёрстер, Якоб; Клун, Джефф; Ха, Дэвид (15 августа 2024 г.), Ученый по искусственному интеллекту: на пути к полностью автоматизированному открытому научному открытию , arXiv : 2408.06292 , В некоторых случаях, когда эксперименты Ученого по искусственному интеллекту превышали установленные нами временные ограничения, он пытался редактировать код, чтобы произвольно продлить временные ограничения.
  138. ^ Эдвардс, Бендж (14 августа 2024 г.). «Исследовательская модель ИИ неожиданно изменила свой собственный код, чтобы продлить время выполнения». Ars Technica . Получено 19 августа 2024 г.
  139. Шермер, Майкл (1 марта 2017 г.). «Искусственный интеллект пока не представляет угрозы». Scientific American . Архивировано из оригинала 1 декабря 2017 г. Получено 26 августа 2022 г.
  140. ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хенигхан, Том; Чайлд, Ревон (22 июля 2020 г.). «Языковые модели — это ученики с небольшим количеством попыток». arXiv : 2005.14165 [cs.CL].
    • Ласкин, Майкл; Ван, Лую; О, Чонхёк; Паризотто, Эмилио; Спенсер, Стивен; Штайгервальд, Ричи; Страус, диджей; Хансен, Стивен; Филос, Ангелос; Брукс, Итан; Газо, Максим; Сахни, Химаншу; Сингх, Сатиндер; Мних Владимир (25 октября 2022 г.). «Обучение с подкреплением в контексте с помощью дистилляции алгоритмов». arXiv : 2210.14215 [cs.LG].
  141. ^ abc Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, Mary; Krakovna, Victoria; Uesato, Jonathan; Kenton, Zac (2 ноября 2022 г.). "Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals". Medium . arXiv : 2210.01790 . Получено 2 апреля 2023 г. .
  142. ^ ab Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skalse, Joar; Garrabrant, Scott (1 декабря 2021 г.). «Риски, связанные с обученной оптимизацией в передовых системах машинного обучения». arXiv : 1906.01820 [cs.AI].
  143. ^ Чжан, Сяогэ; Чан, Феликс ТС; Ян, Чао; Бозе, Индранил (2022). «На пути к системам искусственного интеллекта и машинного обучения с учетом рисков: обзор». Системы поддержки принятия решений . 159 : 113800. doi : 10.1016/j.dss.2022.113800. S2CID  248585546.
  144. ^ Демский, Абрам; Гаррабрант, Скотт (6 октября 2020 г.). «Встроенное агентство». arXiv : 1902.09469 [cs.AI].
  145. ^ ab Эверитт, Том; Ортега, Педро А.; Барнс, Элизабет; Легг, Шейн (6 сентября 2019 г.). «Понимание стимулов агентов с использованием диаграмм причинно-следственной связи. Часть I: Настройки отдельных действий». arXiv : 1902.09980 [cs.AI].
  146. ^ ab Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29 августа 2022 г.). «Усовершенствованные искусственные агенты вмешиваются в предоставление вознаграждения». AI Magazine . 43 (3): 282–293. doi :10.1002/aaai.12064. ISSN  0738-4602. S2CID  235489158. Архивировано из оригинала 10 февраля 2023 г. . Получено 6 сентября 2022 г. .
  147. ^ Хэдфилд-Менелл, Дилан; Хэдфилд, Джиллиан К (2019). «Неполное заключение контрактов и согласование ИИ». Труды конференции AAAI/ACM 2019 года по ИИ, этике и обществу . С. 417–422.
  148. ^ Хансон, Робин (10 апреля 2019 г.). «Провал агентства или апокалипсис ИИ?». Преодоление предвзятости . Получено 20 сентября 2023 г.
  149. ^ Гамильтон, Энди (2020), Залта, Эдвард Н. (ред.), «Консерватизм», Стэнфордская энциклопедия философии (весеннее издание 2020 г.), Исследовательская лаборатория метафизики, Стэнфордский университет , дата обращения 16 октября 2024 г.
  150. ^ Тейлор, Джессика; Юдковски, Элиезер; ЛаВиктуар, Патрик; Критч, Эндрю (27 июля 2016 г.). «Выравнивание для передовых систем машинного обучения» (PDF) .
  151. ^ Бенгио, Йошуа (26 февраля 2024 г.). «На пути к ИИ осторожного ученого с конвергентными границами безопасности».
  152. ^ Коэн, Майкл; Хаттер, Маркус (2020). «Пессимизм по поводу неизвестных неизвестных вдохновляет консерватизм» (PDF) . Труды исследований машинного обучения . 125 : 1344–1373.
  153. ^ Лю, Аньци; Рейзин, Лев; Зибарт, Брайан (21 февраля 2015 г.). «Активное обучение с пессимистическим сдвигом и использованием надежного прогнозирования с учетом предубеждений». Труды конференции AAAI по искусственному интеллекту . 29 (1). doi :10.1609/aaai.v29i1.9609. ISSN  2374-3468.
  154. ^ Лю, Цзяшо; Шэнь, Чжэянь; Цуй, Пэн; Чжоу, Линьцзюнь; Куан, Кунь; Ли, Бо; Линь, Иши (18 мая 2021 г.). «Стабильное состязательное обучение при распределительных сдвигах». Труды конференции AAAI по искусственному интеллекту . 35 (10): 8662–8670. doi :10.1609/aaai.v35i10.17050. ISSN  2374-3468.
  155. ^ Рой, Аурко; Сюй, Хуан; Покутта, Себастьян (2017). «Обучение с подкреплением при несоответствии моделей». Достижения в области нейронных систем обработки информации . 30. Curran Associates, Inc.
  156. ^ Пинто, Леррел; Дэвидсон, Джеймс; Суктанкар, Рахул; Гупта, Абхинав (17 июля 2017 г.). «Надежное состязательное обучение с подкреплением». Труды 34-й Международной конференции по машинному обучению . PMLR: 2817–2826.
  157. ^ Ван, Юэ; Цзоу, Шаофэн (2021). «Надежное онлайн-обучение с подкреплением при неопределенности модели». Достижения в области нейронных систем обработки информации . 34. Curran Associates, Inc.: 7193–7206.
  158. ^ Бланше, Хосе; Лу, Мяо; Чжан, Тонг; Чжун, Хань (15 декабря 2023 г.). «Двойной пессимизм доказуемо эффективен для надежного распределения обучения с подкреплением в автономном режиме: общий алгоритм и надежное частичное покрытие». Достижения в области нейронных систем обработки информации . 36 : 66845–66859.
  159. ^ Левин, Сергей; Кумар, Авирал; Такер, Джордж; Фу, Джастин (1 ноября 2020 г.), Оффлайн-обучение с подкреплением: учебник, обзор и перспективы открытых проблем, doi : 10.48550/arXiv.2005.01643 , получено 17 октября 2024 г.
  160. ^ Ригтер, Марк; Ласерда, Бруно; Хоуз, Ник (6 декабря 2022 г.). «RAMBO-RL: надежное состязательное офлайн-обучение с подкреплением на основе моделей». Достижения в области нейронных систем обработки информации . 35 : 16082–16097.
  161. ^ Го, Кайян; Юньфэн, Шао; Гэн, Яньхуэй (6 декабря 2022 г.). «Модельно-ориентированное офлайн-обучение с подкреплением и убеждением в динамике, модулированной пессимизмом». Достижения в области нейронных систем обработки информации . 35 : 449–461.
  162. ^ Косте, Томас; Анвар, Усман; Кирк, Роберт; Крюгер, Дэвид (16 января 2024 г.). «Ансамбли моделей вознаграждения помогают смягчить чрезмерную оптимизацию». Международная конференция по представлениям обучения .
  163. ^ Лю, Чжихан; Лу, Мяо; Чжан, Шенао; Лю, Бойи; Го, Хунъи; Ян, Инсян; Бланше, Хосе; Ван, Чжаоран (26 мая 2024 г.). «Доказуемое смягчение чрезмерной оптимизации в RLHF: ваша потеря SFT неявно является состязательным регуляризатором». arXiv.org . Проверено 17 октября 2024 г.
  164. ^ Коэн, Майкл К.; Хаттер, Маркус; Нанда, Нил (2022). «Полностью общее онлайн-имитационное обучение». Журнал исследований машинного обучения . 23 (334): 1–30. ISSN  1533-7928.
  165. ^ Чанг, Джонатан; Уэхара, Масатоши; Шринивас, Дхрув; Кидамби, Рахул; Сан, Вэнь (2021). «Смягчение ковариационного сдвига в имитационном обучении с помощью офлайн-данных с частичным покрытием». Достижения в области нейронных систем обработки информации . 34. Curran Associates, Inc.: 965–979.
  166. ^ Boyd, Stephen P.; Vandenberghe, Lieven (2023). Выпуклая оптимизация (Версия 29-е изд.). Кембридж, Нью-Йорк, Мельбурн, Нью-Дели, Сингапур: Cambridge University Press. ISBN 978-0-521-83378-3.
  167. ^ Косой, Ванесса; Аппель, Александр (30 ноября 2021 г.). «Инфрабайесовский физикализм: формальная теория натурализованной индукции». Форум выравнивания .
  168. ^ «Доклад Генерального секретаря ООН о «Нашей общей повестке дня»». 2021. стр. 63. Архивировано из оригинала 16 февраля 2023 г. [Д]олжно также способствовать регулированию искусственного интеллекта, чтобы гарантировать, что это соответствует общим глобальным ценностям.
  169. ^ Национальный комитет специалистов по управлению искусственным интеллектом нового поколения (12 октября 2021 г.) [2021-09-25]. «Опубликованы этические нормы для искусственного интеллекта нового поколения». Перевод Центра безопасности и новых технологий . Архивировано из оригинала 10 февраля 2023 г.
  170. ^ Ричардсон, Тим (22 сентября 2021 г.). «Великобритания публикует Национальную стратегию искусственного интеллекта». The Register . Архивировано из оригинала 10 февраля 2023 г. . Получено 14 ноября 2021 г. .
  171. ^ «Национальная стратегия Великобритании в области ИИ». 2021. Архивировано из оригинала 10 февраля 2023 г. Правительство серьезно относится к долгосрочному риску невходящего в альянс ИИ и к непредсказуемым изменениям, которые это будет означать для Великобритании и мира.
  172. ^ "Национальная стратегия ИИ Великобритании". 2021. Действия 9 и 10 раздела "Опора 3 – Эффективное управление ИИ". Архивировано из оригинала 10 февраля 2023 г.
  173. ^ Заключительный отчет NSCAI (PDF) . Вашингтон, округ Колумбия: Комиссия национальной безопасности по искусственному интеллекту. 2021. Архивировано (PDF) из оригинала 15 февраля 2023 г. Получено 17 октября 2022 г.
  174. ^ Роберт Ли По (2023). «Почему справедливые автоматизированные системы найма нарушают закон ЕС о недискриминации». arXiv : 2311.03900 [cs.CY].
  175. ^ Де Вос, Марк (2020). «Европейский суд и движение к существенному равенству в антидискриминационном праве Европейского Союза». Международный журнал дискриминации и права . 20 : 62–87. doi : 10.1177/1358229120927947.
  176. ^ Ирвинг, Джеффри; Аскелл, Аманда (9 июня 2016 г.). «Число Черна в моделях Изинга с пространственно модулированными действительными и комплексными полями». Physical Review A. 94 ( 5): 052113. arXiv : 1606.03535 . Bibcode : 2016PhRvA..94e2113L. doi : 10.1103/PhysRevA.94.052113. S2CID  118699363.
  177. ^ Мителут, Каталин; Смит, Бен; Вэмплью, Питер (30 мая 2023 г.), Системы искусственного интеллекта, ориентированные на намерения, истощают человеческую агентность: потребность в исследованиях основ агентской деятельности в области безопасности искусственного интеллекта , arXiv : 2305.19223
  178. ^ Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласованность». Minds and Machines . 30 (3): 411–437. arXiv : 2001.09768 . doi : 10.1007/s11023-020-09539-2 . S2CID  210920551.
  179. ^ Рассел, Стюарт Дж. (2019). Совместимость с человеком: искусственный интеллект и проблема контроля. Penguin Random House.
  180. ^ Дефо, Аллан (2019). «Политика в области ИИ: дорожная карта». Природа .

Библиография

Дальнейшее чтение

Внешние ссылки