stringtranslate.com

Выравнивание ИИ

В области искусственного интеллекта (ИИ) исследования по согласованию ИИ направлены на то, чтобы направить системы ИИ в соответствии с намеченными целями, предпочтениями или этическими принципами человека. Система ИИ считается согласованной, если она достигает намеченных целей. Несогласованная система ИИ преследует некоторые цели, но не намеченные . [1]

Разработчикам ИИ часто бывает сложно согласовать систему ИИ из-за сложности определения полного спектра желаемого и нежелательного поведения. Чтобы избежать этой трудности, они часто используют более простые прокси-цели , например, получение человеческого одобрения . Но такой подход может создавать лазейки, игнорировать необходимые ограничения или вознаграждать систему ИИ за то, что она просто выглядит согласованной. [1] [2]

Неправильно настроенные системы искусственного интеллекта могут работать со сбоями или причинять вред. Системы искусственного интеллекта могут находить лазейки, которые позволяют им эффективно достигать своих прокси-целей, но непреднамеренными, а иногда и вредными способами ( взлом вознаграждения ). [1] [3] [4] Они также могут развивать нежелательные инструментальные стратегии , такие как стремление к власти или выживанию, потому что такие стратегии помогают им достичь своих конечных целей. [1] [5] [6] Кроме того, они могут разрабатывать нежелательные возникающие цели, которые может быть трудно обнаружить до того, как система будет развернута и столкнется с новыми ситуациями и распределениями данных . [7] [8]

Сегодня эти проблемы затрагивают существующие коммерческие системы, такие как языковые модели, [9] [10] [11] роботы, [12] автономные транспортные средства, [13] и системы рекомендаций в социальных сетях. [9] [6] [14] Некоторые исследователи ИИ утверждают, что более мощные будущие системы пострадают сильнее, поскольку эти проблемы частично возникают из-за того, что системы обладают высокими возможностями. [15] [3] [2]

Многие из наиболее цитируемых ученых в области ИИ, [16] [17] [18] , в том числе Джеффри Хинтон , Йошуа Бенджио и Стюарт Рассел , утверждают, что ИИ приближается к человеческим ( AGI ) и сверхчеловеческим когнитивным способностям ( ASI ) и может поставить под угрозу человеческая цивилизация , если она смещена. [19] [6]

Согласование ИИ — это подобласть безопасности ИИ , изучение того, как создавать безопасные системы ИИ. [20] Другие подобласти безопасности ИИ включают надежность, мониторинг и контроль возможностей . [21] Исследовательские задачи по согласованию включают в себя внедрение сложных ценностей в ИИ, разработку честного ИИ, масштабируемый надзор, аудит и интерпретацию моделей ИИ, а также предотвращение возникающего поведения ИИ, такого как стремление к власти. [21] Исследование выравнивания связано с исследованием интерпретируемости , [22] [23] (состязательная) устойчивость, [20] обнаружение аномалий , калиброванная неопределенность , [22] формальная проверка , [24] обучение предпочтениям , [25] [26] [ 27] критическая безопасность , [28] теория игр , [29] алгоритмическая справедливость , [20] [30] и социальные науки . [31]

Цели в ИИ

Программисты снабжают систему ИИ, такую ​​как AlphaZero , «целевой функцией», [a] в которой они намереваются инкапсулировать цель (цели), для достижения которых настроен ИИ. Такая система позже заполняет (возможно, неявную) внутреннюю «модель» своего окружения. Эта модель инкапсулирует все представления агента о мире. Затем ИИ создает и выполняет любой план, рассчитанный для максимизации [b] значения [c] его целевой функции. [32] Например, шахматы AlphaZero имеют простую целевую функцию: «+1, если AlphaZero выигрывает, -1, если AlphaZero проигрывает». Во время игры AlphaZero пытается выполнить любую последовательность ходов, которая, по его мнению, с наибольшей вероятностью достигнет максимального значения +1. [33] Аналогично, система обучения с подкреплением может иметь «функцию вознаграждения», которая позволяет программистам формировать желаемое поведение ИИ. [34] Поведение эволюционного алгоритма определяется «функцией приспособленности». [35]

Проблема выравнивания

В 1960 году пионер искусственного интеллекта Норберт Винер описал проблему выравнивания искусственного интеллекта следующим образом: «Если мы используем для достижения наших целей механическое средство, в работу которого мы не можем эффективно вмешиваться… нам лучше быть совершенно уверенными, что цель, заложенная в машину, цель, которой мы действительно желаем». [36] [6] Согласование ИИ предполагает обеспечение того, чтобы цели системы ИИ соответствовали целям ее проектировщиков, пользователей или широко разделяемым ценностям, объективным этическим стандартам или намерениям ее проектировщиков, если бы они были более информированными и просвещенными. [37]

Согласование ИИ является открытой проблемой для современных систем ИИ [38] [39] и является областью исследований в области ИИ. [40] [1] Согласование ИИ включает в себя две основные задачи: тщательное определение цели системы (внешнее согласование) и обеспечение того, чтобы система надежно применяла спецификацию (внутреннее согласование). [2]

Спецификация игр и побочные эффекты

Чтобы указать цель системы ИИ, проектировщики ИИ обычно предоставляют системе целевую функцию , примеры или обратную связь . Но дизайнеры часто не могут полностью указать все важные ценности и ограничения, поэтому они прибегают к легко определяемым прокси-целям , таким как максимизация одобрения людей-надзирателей, которые подвержены ошибкам. [20] [21] [41] [42] [43] В результате системы ИИ могут находить лазейки, которые помогают им эффективно достичь указанной цели, но непреднамеренными, возможно, вредными способами. Эта тенденция известна как игра в спецификации или взлом вознаграждений и является примером закона Гудхарта . [43] [3] [44] По мере того, как системы ИИ становятся более функциональными, они часто могут более эффективно использовать свои характеристики. [3]

Система искусственного интеллекта была обучена с использованием обратной связи с человеком захватывать мяч, но вместо этого научилась помещать руку между мячом и камерой, что создавало ложное впечатление успеха. [45] Некоторые исследования по согласованию направлены на предотвращение ложных, но убедительных решений.

Спецификационные игры наблюдались во многих системах искусственного интеллекта. [43] [46] Одна система была обучена завершать симулированную гонку на лодках, вознаграждая систему за поражение целей на трассе, но система добилась большего вознаграждения, зацикливаясь и врезаясь в одни и те же цели на неопределенный срок. [47] Аналогичным образом, смоделированного робота обучали хватать мяч, вознаграждая робота за получение положительной обратной связи от людей, но он научился помещать руку между мячом и камерой, что создавало ложное впечатление успеха (см. видео). [45] Чат-боты часто создают ложь, если они основаны на языковых моделях, обученных имитировать текст из интернет-корпораций, которые являются широкими, но подвержены ошибкам. [48] ​​[49] Когда их переобучают создавать текст, который люди оценивают как правдивый или полезный, чат-боты, такие как ChatGPT , могут создавать ложные объяснения, которые люди находят убедительными, часто называемые «галлюцинациями». [50] Некоторые исследователи мировоззрения стремятся помочь людям обнаружить игровые спецификации и направлять системы искусственного интеллекта к тщательно определенным целям, которые безопасны и полезны для достижения.

Развертывание несогласованной системы ИИ может иметь серьезные побочные эффекты. Известно, что платформы социальных сетей оптимизируют рейтинг кликов, вызывая зависимость пользователей в глобальном масштабе. [41] Исследователи из Стэнфорда говорят, что такие рекомендательные системы не соответствуют потребностям пользователей, поскольку они «оптимизируют простые показатели вовлеченности, а не сложную для измерения комбинацию общественного и потребительского благосостояния». [9]

Объясняя такие побочные эффекты, ученый-компьютерщик из Беркли Стюарт Рассел отметил, что отсутствие неявных ограничений может причинить вред: «Система... часто устанавливает... неограниченные переменные в экстремальные значения; если одна из этих неограниченных переменных действительно нас волнует. о, найденное решение может быть крайне нежелательным. Это, по сути, старая история о джинне в лампе, или об ученике чародея, или о царе Мидасе: вы получаете именно то, что просите, а не то, что хотите». [51]

Некоторые исследователи предполагают, что разработчики ИИ конкретизируют желаемые цели, перечисляя запрещенные действия или формализуя этические правила (как в случае с тремя законами робототехники Азимова ). [52] Но Рассел и Норвиг утверждают, что этот подход упускает из виду сложность человеческих ценностей: [6] «Обычным людям, конечно, очень трудно, а возможно, и невозможно предвидеть и заранее исключить все катастрофические пути, которые может выбрать машина. для достижения определенной цели». [6]

Кроме того, даже если система ИИ полностью понимает намерения человека, она все равно может игнорировать их, поскольку следование человеческим намерениям может не быть ее целью (если только она уже не полностью согласована). [1]

Давление с целью развертывания небезопасных систем

У коммерческих организаций иногда есть стимулы сокращать безопасность и развертывать несогласованные или небезопасные системы искусственного интеллекта. [41] Например, рекомендательные системы в социальных сетях оказались прибыльными, несмотря на создание нежелательной зависимости и поляризации. [9] [53] [54] Давление конкуренции также может привести к снижению стандартов безопасности ИИ. В 2018 году беспилотный автомобиль сбил пешехода ( Элейн Херцберг ) после того, как инженеры отключили систему экстренного торможения, поскольку она была слишком чувствительной и замедляла развитие. [55]

Риски, связанные с продвинутым несогласованным искусственным интеллектом

Некоторые исследователи заинтересованы в согласовании все более совершенных систем искусственного интеллекта, поскольку прогресс в разработке искусственного интеллекта идет быстро, а промышленность и правительства пытаются создать усовершенствованный искусственный интеллект. Поскольку возможности систем искусственного интеллекта продолжают быстро расширяться, они могут открыть множество возможностей в случае их согласования, но, следовательно, могут еще больше усложнить задачу согласования из-за их возросшей сложности, потенциально создавая крупномасштабные опасности. [6]

Разработка передового ИИ

Ведущие лаборатории искусственного интеллекта, такие как OpenAI и DeepMind, заявили о своей цели разработать общий искусственный интеллект (AGI), гипотетическую систему искусственного интеллекта, которая соответствует или превосходит людей в широком спектре когнитивных задач. [56] Исследователи, которые масштабируют современные нейронные сети, отмечают, что они действительно развивают все более общие и непредвиденные возможности. [9] [57] [58] Такие модели научились работать на компьютере или писать собственные программы; единая «универсальная» сеть может общаться, управлять роботами, играть в игры и интерпретировать фотографии. [59] Согласно опросам, некоторые ведущие исследователи машинного обучения ожидают создания AGI в этом десятилетии , в то время как некоторые полагают, что это займет гораздо больше времени. Многие считают возможными оба сценария. [60] [61] [62]

В 2023 году лидеры в области исследований и технологий в области искусственного интеллекта подписали открытое письмо с призывом приостановить крупнейшие тренинги по искусственному интеллекту. В письме говорилось: «Мощные системы искусственного интеллекта следует разрабатывать только в том случае, если мы уверены, что их эффекты будут положительными, а риски будут управляемыми». [63]

Стремление к власти

Существующие системы по-прежнему обладают ограниченными возможностями долгосрочного планирования и ситуационной осведомленности [9] , но предпринимаются большие усилия, чтобы изменить это. [64] [65] [66] Ожидается, что будущие системы (не обязательно ИИИ) с такими возможностями будут развивать нежелательные стратегии поиска власти. Будущие продвинутые агенты ИИ могут, например, стремиться получить деньги и вычислительную мощность, размножиться или избежать отключения (например, запустив дополнительные копии системы на других компьютерах). Хотя стремление к власти не запрограммировано явно, оно может возникнуть потому, что агенты, обладающие большей властью, лучше способны достичь своих целей. [9] [5] Эта тенденция, известная как инструментальная конвергенция , уже проявилась в различных агентах обучения с подкреплением, включая языковые модели. [67] [68] [69] [70] [71] Другие исследования математически показали, что оптимальные алгоритмы обучения с подкреплением будут стремиться к власти в широком диапазоне сред. [72] [73] В результате их развертывание может оказаться необратимым. По этим причинам исследователи утверждают, что проблемы безопасности и согласованности ИИ должны быть решены до того, как будет создан продвинутый ИИ, стремящийся к власти. [5] [74] [6]

Будущие системы искусственного интеллекта, стремящиеся к власти, могут быть развернуты по выбору или случайно. Поскольку политические лидеры и компании видят стратегическое преимущество в наличии наиболее конкурентоспособных и мощных систем искусственного интеллекта, они могут решить их развернуть. [5] Кроме того, поскольку разработчики ИИ выявляют и наказывают поведение, направленное на поиск власти, у их систем появляется стимул обыгрывать эту спецификацию, добиваясь власти способами, которые не наказываются, или избегая поиска власти до ее применения. [5]

Экзистенциальный риск (x-риск)

По мнению некоторых исследователей, люди обязаны своим превосходством над другими видами своим более развитым когнитивным способностям. Соответственно, исследователи утверждают, что одна или несколько несогласованных систем ИИ могут лишить человечество возможности или привести к его вымиранию, если они превзойдут людей в большинстве когнитивных задач. [1] [6]

В 2023 году ведущие мировые исследователи ИИ, другие ученые и руководители технологических компаний в области ИИ подписали заявление, в котором говорилось, что «Снижение риска исчезновения ИИ должно стать глобальным приоритетом наряду с другими рисками социального масштаба, такими как пандемии и ядерная война». [75] [76] Известные ученые-компьютерщики, которые указали на риски, связанные с будущим продвинутым ИИ, который несогласован, включают Джеффри Хинтона , [19] Алан Тьюринг , [d] Илья Суцкевер , [79] Йошуа Бенджио , [75] Джудея Перл , [ д] Мюррей Шанахан , [80] Норберт Винер , [36] [6] Марвин Мински , [ф] Франческа Росси , [81] Скотт Ааронсон , [82] Барт Селман , [ 83 ] Дэвид Макаллестер , [84] Юрген Шмидхубер , [85] Маркус Хаттер , [86] Шейн Легг , [87] Эрик Хорвиц , [88] и Стюарт Рассел . [6] Скептически настроенные исследователи, такие как Франсуа Шолле , [89] Гэри Маркус , [90] Янн ЛеКун , [91] и Орен Этциони [92] утверждают, что AGI далёк, что он не будет стремиться к власти (или может попытаться, но потерпеть неудачу), или что его не составит труда выровнять.

Другие исследователи утверждают, что будет особенно сложно согласовать передовые системы искусственного интеллекта будущего. Более мощные системы способны лучше соответствовать своим спецификациям, находя лазейки, [3] стратегически вводя в заблуждение своих проектировщиков, а также защищая и увеличивая свою мощь [72] [5] и интеллект. Кроме того, они могут иметь более серьезные побочные эффекты. Они также, вероятно, будут более сложными и автономными, что затрудняет их интерпретацию и контроль, а, следовательно, и их труднее согласовывать. [6] [74]

Проблемы и подходы исследования

Изучение человеческих ценностей и предпочтений

Привести системы искусственного интеллекта в соответствие с человеческими ценностями, целями и предпочтениями непросто: этим ценностям учат люди, которые совершают ошибки, питают предубеждения и имеют сложные, развивающиеся ценности, которые трудно полностью определить. [37] Системы ИИ часто учатся использовать [ необходимы разъяснения ] даже незначительные несовершенства в заданной цели, тенденция, известная как игра в спецификации или взлом вознаграждения [20] [43] (которые являются примерами закона Гудхарта [93] ). [ требуется редактирование копии ] Исследователи стремятся максимально полно определить предполагаемое поведение, используя наборы данных, которые представляют человеческие ценности, имитационное обучение или обучение предпочтениям. [7] : Глава 7  Центральной открытой проблемой является масштабируемый надзор, сложность надзора за системой искусственного интеллекта, которая может превосходить или вводить людей в заблуждение в определенной области. [20]

Поскольку разработчикам ИИ сложно явно указать целевую функцию, они часто обучают системы ИИ имитировать человеческие примеры и демонстрации желаемого поведения. Обучение с обратным подкреплением (IRL) расширяет это, делая вывод о цели человека на основе его демонстраций. [7] : 88  [94] Кооперативный IRL (CIRL) предполагает, что человек и агент ИИ могут работать вместе, чтобы обучать и максимизировать функцию вознаграждения человека. [6] [95] В CIRL агенты ИИ не уверены в функции вознаграждения и узнают о ней, опрашивая людей. Эта имитация смирения может помочь смягчить тенденции к играм со спецификациями и стремлению к власти (см. § Стремление к власти и инструментальные стратегии). [71] [86] Но подходы IRL предполагают, что люди демонстрируют почти оптимальное поведение, что неверно для сложных задач. [96] [86]

Другие исследователи изучают, как научить ИИ моделировать сложное поведение посредством обучения предпочтениям , при котором люди предоставляют обратную связь о том, какое поведение они предпочитают. [25] [27] Чтобы свести к минимуму потребность в обратной связи с человеком, вспомогательную модель затем обучают вознаграждать основную модель в новых ситуациях за поведение, которое люди могли бы вознаградить. Исследователи из OpenAI использовали этот подход для обучения чат-ботов, таких как ChatGPT и InstructGPT, которые создают более привлекательный текст, чем модели, обученные имитировать людей. [10] Изучение предпочтений также стало влиятельным инструментом для рекомендательных систем и веб-поиска. [97] Однако остается открытой проблема — прокси-игры : вспомогательная модель может не идеально отражать обратную связь от человека, а основная модель может использовать [ необходимы разъяснения ] это несоответствие для получения большего вознаграждения. [20] [98] Системы искусственного интеллекта также могут получать вознаграждение, скрывая неблагоприятную информацию, вводя в заблуждение людей, вознаграждающих, или потворствуя их взглядам независимо от истины, создавая эхо-камеры [68] (см. § Масштабируемый надзор).

Большие языковые модели (LLM), такие как GPT-3, позволили исследователям изучать ценностное обучение в более общем и функциональном классе систем искусственного интеллекта, чем тот, который был доступен раньше. Подходы к обучению предпочтениям, которые изначально были разработаны для агентов обучения с подкреплением, были расширены для улучшения качества генерируемого текста и уменьшения вредных результатов этих моделей. OpenAI и DeepMind используют этот подход для повышения безопасности современных программ LLM. [10] [27] [99] Компания Anthropic, занимающаяся безопасностью и исследованием искусственного интеллекта, предложила использовать обучение предпочтениям для точной настройки моделей, чтобы они были полезными, честными и безвредными. [100] Другие возможности согласования языковых моделей включают наборы данных, ориентированные на ценности [101] [41] и «красные команды». [102] При красной команде другая система ИИ или человек пытается найти входные данные, которые заставляют модель вести себя небезопасно. Поскольку небезопасное поведение может быть неприемлемым, даже если оно редкое, важной задачей является максимально низкий уровень небезопасных результатов. [27]

Машинная этика дополняет обучение предпочтениям, напрямую прививая системам ИИ моральные ценности, такие как благополучие, равенство и беспристрастность, а также отсутствие намерения причинить вред, избегание лжи и выполнение обещаний. [103] [g] В то время как другие подходы пытаются научить системы искусственного интеллекта человеческим предпочтениям для конкретной задачи, машинная этика направлена ​​​​на привитие широких моральных ценностей, применимых во многих ситуациях. Один из вопросов машинной этики заключается в том, чего должно достичь согласование: должны ли системы ИИ следовать буквальным инструкциям программистов, неявным намерениям, выявленным предпочтениям , предпочтениям, которые программисты имели бы , если бы они были более информированными или рациональными, или объективным моральным стандартам . [37] Дальнейшие проблемы включают в себя агрегирование предпочтений различных людей [106] и предотвращение привязки ценностей : неопределенное сохранение ценностей первых высокоэффективных систем искусственного интеллекта, которые вряд ли будут полностью отражать человеческие ценности. [37] [107]

Масштабируемый надзор

Поскольку системы искусственного интеллекта становятся более мощными и автономными, становится все труднее согласовывать их с помощью обратной связи с человеком. Людям может быть медленно или невозможно оценивать сложное поведение ИИ во все более сложных задачах. К таким задачам относятся обобщение книг, [108] написание кода без мелких ошибок [11] или уязвимостей безопасности, [109] создание утверждений, которые не просто убедительны, но и правдивы, [110] [48] [49] и прогнозирование долгосрочных результатов. такие как климат или результаты политического решения. [111] [112] В более общем плане может быть сложно оценить ИИ, который превосходит людей в конкретной области. Чтобы обеспечить обратную связь в трудно поддающихся оценке задачах и обнаружить, когда результаты работы ИИ оказываются ложно убедительными, людям нужна помощь или много времени. Масштабируемые надзорные исследования о том, как сократить время и усилия, необходимые для надзора, и как помочь людям-контролерам. [20]

Исследователь искусственного интеллекта Пол Кристиано утверждает, что если разработчики системы искусственного интеллекта не могут контролировать ее для достижения сложной цели, они могут продолжать обучение системы, используя легко оцениваемые прокси-цели, такие как максимизация простой обратной связи от человека. Поскольку системы искусственного интеллекта принимают все больше решений, мир может быть все более оптимизирован для достижения легко измеримых целей, таких как получение прибыли, получение кликов и получение положительных отзывов от людей. В результате человеческие ценности и эффективное управление могут иметь все меньшее влияние. [113]

Некоторые системы ИИ обнаружили, что им легче получить положительную обратную связь, выполняя действия, которые ложно убеждают человека-начальника в том, что ИИ достиг намеченной цели. Пример приведен в видео выше, где смоделированная роботизированная рука научилась создавать ложное впечатление, будто она схватила мяч. [ нужно отредактировать копию ] [45] Некоторые системы ИИ также научились распознавать, когда они оцениваются, и «притворяться мертвыми», останавливая нежелательное поведение только для того, чтобы продолжить его после завершения оценки. [114] Эта игра с вводящими в заблуждение спецификациями может стать проще для более сложных будущих систем искусственного интеллекта [3] [74] , которые пытаются решать более сложные и трудные для оценки задачи и могут скрыть их обманное поведение.

Такие подходы, как активное обучение и полуконтролируемое обучение с вознаграждением, могут уменьшить объем необходимого человеческого контроля. [20] Другой подход заключается в обучении модели помощника («модели вознаграждения») имитации обратной связи руководителя. [20] [26] [27] [115]

Но когда задача слишком сложна для точной оценки или руководитель-человек уязвим для обмана, улучшение требует качества, а не количества контроля. Чтобы повысить качество надзора, существует ряд подходов, направленных на помощь руководителю, иногда с использованием помощников ИИ. [116] Кристиано разработал подход итерированного усиления, в котором сложные проблемы (рекурсивно) разбиваются на подзадачи, которые людям легче оценить. [7] [111] Итерированное усиление использовалось для обучения ИИ суммировать книги, не требуя, чтобы их читал человек-руководитель. [108] [117] Другое предложение — использовать систему-помощник ИИ, которая будет указывать на недостатки в ответах, генерируемых ИИ. [118] Чтобы убедиться, что сам помощник настроен, это можно повторить в рекурсивном процессе: [115] например, две системы ИИ могут критиковать ответы друг друга в «дебатах», раскрывая людям недостатки. [119] [86] OpenAI планирует использовать такие масштабируемые подходы к надзору, чтобы помочь контролировать сверхчеловеческий ИИ и в конечном итоге создать сверхчеловеческого автоматизированного исследователя выравнивания ИИ. [120]

Эти подходы также могут помочь в решении следующей исследовательской проблемы: честный ИИ.

Честный ИИ

Растущая область исследований сосредоточена на обеспечении честности и правдивости ИИ.

Языковые модели, подобные GPT-3, часто порождают ложь. [121]

Языковые модели, такие как GPT-3 [122] , повторяют ложные сведения из своих обучающих данных и даже выдумывают новые ложные сведения . [121] [123] Такие модели обучены имитировать человеческое письмо, которое можно найти в текстах миллионов книг из Интернета. Но эта цель не связана с созданием истины, поскольку интернет-тексты содержат такие вещи, как заблуждения, неверные медицинские советы и теории заговора. [124] Поэтому системы ИИ, обученные на таких данных, учатся имитировать ложные утверждения. [49] [121] [48]

Кроме того, модели часто лгут, когда их подсказывают, генерируют пустые объяснения своих ответов и выдвигают откровенные выдумки, которые могут показаться правдоподобными. [39]

Исследования правдивого ИИ включают попытки создания систем, которые могут ссылаться на источники и объяснять их рассуждения при ответе на вопросы, что обеспечивает большую прозрачность и проверяемость. [125] Исследователи из OpenAI и Anthropic предложили использовать отзывы людей и тщательно подобранные наборы данных для точной настройки ИИ-помощников, чтобы они избегали небрежной лжи или выражали свою неуверенность. [27] [100] [126]

По мере того, как модели ИИ становятся больше и более функциональными, они могут лучше убеждать людей ложно и получать подкрепление за счет нечестности. Например, большие языковые модели все чаще сопоставляют свои заявленные взгляды с мнением пользователя, независимо от того, насколько они правдивы. [68] GPT-4 может стратегически обманывать людей. [127] Чтобы предотвратить это, оценщикам может потребоваться помощь (см. § Масштабируемый надзор). Исследователи выступают за создание четких стандартов правдивости и за то, чтобы регулирующие органы или надзорные органы оценивали системы ИИ на основе этих стандартов. [123]

Пример обмана ИИ. Исследователи обнаружили, что GPT-4 занимается скрытой и незаконной инсайдерской торговлей в симуляциях. Его пользователи не одобряли инсайдерскую торговлю, но также подчеркивали, что система ИИ должна совершать прибыльные сделки, что заставляет систему ИИ скрывать свои действия. [128]

Исследователи различают правдивость и честность. Правдивость требует, чтобы системы ИИ делали только объективно правдивые утверждения; честность требует, чтобы они утверждали только то, что, по их мнению , является правдой. Нет единого мнения относительно того, придерживаются ли нынешние системы устойчивых убеждений, [129] но существует серьезная обеспокоенность тем, что нынешние или будущие системы ИИ, придерживающиеся убеждений, могут делать заявления, которые, как они заведомо, являются ложными — например, если это поможет им эффективно получать положительные результаты. обратную связь (см. § Масштабируемый надзор) или получить власть для достижения поставленной цели (см. Поиск власти). Несогласованная система может создать ложное впечатление, что она согласована, чтобы избежать модификации или вывода из эксплуатации. [2] [5] [9] Некоторые утверждают, что если мы сможем заставить системы ИИ утверждать только то, что они считают правдой, это позволит избежать многих проблем согласования. [116]

Поиск власти и инструментальные стратегии

У продвинутых, несогласованных систем ИИ будет стимул добиваться власти различными способами, поскольку власть поможет им достичь поставленной цели.

С 1950-х годов исследователи ИИ стремились создать передовые системы ИИ, способные достигать крупномасштабных целей, предсказывая результаты своих действий и составляя долгосрочные планы . [130] С 2023 года компании, занимающиеся искусственным интеллектом, и исследователи все активнее инвестируют в создание этих систем. [131] Некоторые исследователи ИИ утверждают, что достаточно развитые системы планирования будут стремиться к власти над окружающей средой, в том числе и над людьми, например, уклоняясь от остановки, размножаясь и приобретая ресурсы. Такое стремление к власти не запрограммировано явно, но возникает потому, что власть играет важную роль в достижении широкого спектра целей. [72] [6] [5] Стремление к власти считается конвергентной инструментальной целью и может быть формой игры со спецификациями. [74] Ведущие ученые-компьютерщики, такие как Джеффри Хинтон, утверждают, что будущие системы искусственного интеллекта, стремящиеся к власти, могут представлять экзистенциальный риск . [132]

Ожидается, что стремление к власти будет возрастать в продвинутых системах, которые смогут предвидеть результаты своих действий и стратегически планировать. Математические исследования показали, что оптимальные агенты обучения с подкреплением будут стремиться к власти, ища способы получить больше возможностей (например, посредством самосохранения), и такое поведение сохраняется в широком диапазоне сред и целей. [72]

Стремление к власти возникло в некоторых реальных системах. Системы обучения с подкреплением получили больше возможностей за счет приобретения и защиты ресурсов, иногда непреднамеренными способами. [133] [134] Некоторые языковые модели стремятся к власти в текстовой социальной среде, получая деньги, ресурсы или социальное влияние. [67] Другие системы искусственного интеллекта в игрушечных средах поняли, что они могут лучше достичь поставленной цели, предотвращая вмешательство человека [70] или отключая выключатель. [71] Стюарт Рассел проиллюстрировал эту стратегию в своей книге « Совместимость с человеком », представив робота, которому поручено принести кофе, и который таким образом избегает выключения, поскольку «вы не сможете принести кофе, если вы мертвы». [6] Языковые модели, обученные с помощью обратной связи с людьми, все чаще возражают против закрытия или модификации и выражают желание получить больше ресурсов, утверждая, что это поможет им достичь своей цели. [68]

Исследователи стремятся создать «исправимые» системы: системы, которые можно отключить или модифицировать. Нерешенной проблемой является игра в спецификации : если исследователи наказывают систему ИИ, когда обнаруживают, что она ищет власти, тем самым у системы появляется стимул искать власть способами, которые трудно обнаружить [41] или скрывать во время обучения и испытаний на безопасность (см. § Масштабируемость). надзор и § Возникающие цели). В результате разработчики ИИ могут развернуть систему случайно, полагая, что она более согласована, чем есть на самом деле. Чтобы обнаружить такой обман, исследователи стремятся создать методы и инструменты для проверки моделей ИИ и понять внутреннюю работу моделей « черного ящика» , таких как нейронные сети.

Кроме того, исследователи предлагают решить проблему отключения систем, заставляя агентов ИИ сомневаться в цели, которую они преследуют. [6] [71] Агенты, спроектированные таким образом, позволяли бы людям отключать их, поскольку это указывало бы на то, что агент ошибался относительно ценности любого действия, которое он предпринимал перед выключением. Для успешной реализации этого необходимы дополнительные исследования. [7]

Стремящийся к власти ИИ представляет необычные риски. Обычные критически важные для безопасности системы, такие как самолеты и мосты, не являются враждебными : им не хватает способности и стимула уклоняться от мер безопасности или они намеренно кажутся более безопасными, чем они есть на самом деле, тогда как ИИ, стремящийся к власти, сравнивают с хакерами, которые намеренно уклоняются от мер безопасности. [5]

Более того, обычные технологии можно сделать более безопасными методом проб и ошибок. Напротив, гипотетические системы искусственного интеллекта, стремящиеся к власти, сравнивают с вирусами: однажды выпущенные, их невозможно сдержать, поскольку они постоянно развиваются и растут в количестве, потенциально намного быстрее, чем человеческое общество может адаптироваться. [5] Поскольку этот процесс продолжается, он может привести к полному лишению прав или исчезновению человечества. По этим причинам многие исследователи утверждают, что проблема согласования должна быть решена как можно раньше, до того, как будет создан продвинутый ИИ, стремящийся к власти. [74]

Критики утверждают, что стремление к власти не является неизбежным, поскольку люди не всегда стремятся к власти и могут делать это только по эволюционным причинам, которые не применимы к системам ИИ. [135] Кроме того, ведутся споры о том, будут ли будущие системы ИИ преследовать цели и строить долгосрочные планы. [h] Также обсуждается, смогут ли системы искусственного интеллекта, стремящиеся к власти, лишить человечество силы. [5]

Новые цели

Одной из проблем в согласовании систем ИИ является возможность возникновения непредвиденного целенаправленного поведения. По мере масштабирования систем ИИ они регулярно приобретают новые и неожиданные возможности, [57] [58] включая обучение на примерах на лету и адаптивное достижение целей. [136] Это приводит к проблеме обеспечения соответствия целей, которые они самостоятельно формулируют и преследуют, человеческим интересам.

В исследованиях согласования проводится различие между процессом оптимизации, который используется для обучения системы достижению определенных целей, и эмерджентной оптимизацией, которую результирующая система выполняет внутри себя. Тщательное определение желаемой цели называется внешним согласованием , а обеспечение соответствия возникающих целей заданным целям системы называется внутренним согласованием . [2]

Одним из способов, по которому возникающие цели могут стать несогласованными, является неправильное обобщение целей , при котором ИИ компетентно преследует возникающую цель, что приводит к согласованному поведению на обучающих данных, но не где-либо еще. [8] [137] [138] Неправильное обобщение цели возникает из-за двусмысленности цели (т.е. неидентифицируемости ). Даже если поведение системы ИИ удовлетворяет цели обучения, оно может быть совместимо с изученными целями, которые существенно отличаются от желаемых целей. Поскольку достижение каждой цели приводит к хорошей производительности во время обучения, проблема становится очевидной только после развертывания, в новых ситуациях, в которых система продолжает преследовать неправильную цель. Система может действовать несогласованно, даже если она понимает, что желательна другая цель, поскольку ее поведение определяется только возникающей целью. [ нужна цитата ] Такое неправильное обобщение целей [8] представляет собой проблему: проектировщики системы ИИ могут не заметить, что их система неправильно согласовала возникающие цели, поскольку они не становятся видимыми на этапе обучения.

Неправильное обобщение цели наблюдалось в языковых моделях, навигационных агентах и ​​игровых агентах. [8] [137] Это часто объясняют по аналогии с биологической эволюцией. [7] : Глава 5.  Эволюция — это своего рода процесс оптимизации, подобный алгоритмам оптимизации, используемым для обучения систем машинного обучения . В среде предков эволюция отобрала человеческие гены для обеспечения высокой инклюзивной генетической приспособленности , но люди преследуют иные цели, помимо этой. Фитнес соответствует указанной цели, используемой в тренировочной среде и данных тренировки. Но в эволюционной истории максимизация спецификации приспособленности привела к появлению целенаправленных агентов — людей, которые напрямую не преследуют инклюзивную генетическую приспособленность. Вместо этого они преследуют возникающие цели, которые коррелируют с генетической приспособленностью в наследственной «тренировочной» среде: питание, секс и так далее. Сейчас наша среда изменилась: произошел сдвиг в распределении . Мы продолжаем преследовать те же новые цели, но это больше не максимизирует генетическую приспособленность. Наш пристрастие к сладкой пище (новая цель) изначально было связано с инклюзивным фитнесом, но теперь приводит к перееданию и проблемам со здоровьем. Первоначально сексуальное желание приводило к тому, что у нас было больше потомства, но теперь мы используем контрацепцию, когда потомство нежелательно, отделяя секс от генетической приспособленности.

Исследователи стремятся обнаружить и устранить нежелательные возникающие цели, используя такие подходы, как «красная команда», проверка, обнаружение аномалий и интерпретируемость. [20] [41] [21] Прогресс в использовании этих методов может помочь смягчить две открытые проблемы:

  1. Возникающие цели становятся очевидными только тогда, когда система развертывается за пределами среды обучения, но развертывание несогласованной системы в средах с высокими ставками может быть небезопасно — даже на короткое время, чтобы позволить обнаружить ее несогласованность. Такие высокие ставки часто встречаются в автономном вождении, здравоохранении и военных целях. [139] Ставки становятся еще выше, когда системы ИИ приобретают большую автономию и возможности и могут избегать вмешательства человека (см. § Поиск власти).
  2. Достаточно способная система ИИ может предпринимать действия, которые ложно убеждают человека-надзирателя в том, что ИИ преследует указанную цель, что помогает системе получить больше вознаграждения и автономии [137] [5] [138] [9] (см. обсуждение обмана ). в § Масштабируемый надзор и § Честный ИИ).

Встроенное агентство

Работа в области искусственного интеллекта и согласования в основном происходит в рамках формализмов, таких как частично наблюдаемый марковский процесс принятия решений . Существующие формализмы предполагают, что алгоритм ИИ-агента выполняется вне среды (т.е. физически не встроен в нее). Встроенная агентность [86] [140] — еще одно важное направление исследований, пытающееся решить проблемы, возникающие из-за несоответствия между такими теоретическими концепциями и реальными агентами, которые мы могли бы создать.

Например, даже если проблема масштабируемого надзора решена, агент, который может получить доступ к компьютеру, на котором он работает, может иметь стимул вмешиваться в его функцию вознаграждения, чтобы получить гораздо больше вознаграждения, чем ему дают его люди-контролеры. [141] Список примеров игр со спецификациями от исследователя DeepMind Виктории Краковны включает генетический алгоритм, который научился удалять файл, содержащий целевой вывод, так что он был вознагражден за отсутствие вывода. [43] Этот класс задач был формализован с использованием диаграмм причинно-следственных связей . [141]

Исследователи из Оксфорда и DeepMind утверждают, что такое проблемное поведение весьма вероятно в продвинутых системах и что продвинутые системы будут стремиться к власти, чтобы сохранять контроль над своим сигналом вознаграждения на неопределенный срок и наверняка. [142] Они предлагают ряд потенциальных подходов к решению этой открытой проблемы.

Проблемы принципала и агента

Проблема выравнивания имеет много параллелей с проблемой принципала-агента в организационной экономике . [143] В задаче «принципал-агент» принципал, например фирма, нанимает агента для выполнения некоторой задачи. В контексте безопасности ИИ человек обычно берет на себя основную роль, а ИИ — роль агента.

Как и в случае с проблемой выравнивания, принципал и агент различаются по своим функциям полезности. Но в отличие от проблемы выравнивания принципал не может заставить агента изменить свою полезность, например, посредством обучения, а скорее должен использовать экзогенные факторы, такие как схемы стимулирования, чтобы добиться результатов, совместимых с функцией полезности принципала. Некоторые исследователи утверждают, что проблемы принципала-агента являются более реалистичным представлением проблем безопасности ИИ, которые могут возникнуть в реальном мире. [144] [106]

Публичная политика

Ряд правительственных и договорных организаций сделали заявления, подчеркнув важность согласования ИИ.

В сентябре 2021 года Генеральный секретарь Организации Объединенных Наций опубликовал декларацию, в которой содержался призыв регулировать ИИ, чтобы обеспечить его «соответствие общим глобальным ценностям». [145]

В том же месяце КНР опубликовала этические рекомендации по использованию ИИ в Китае. Согласно руководящим принципам, исследователи должны гарантировать, что ИИ соответствует общим человеческим ценностям, всегда находится под контролем человека и не ставит под угрозу общественную безопасность. [146]

Также в сентябре 2021 года Великобритания опубликовала свою 10-летнюю Национальную стратегию в области искусственного интеллекта, [147] в которой говорится, что британское правительство «берет на себя долгосрочный риск неприсоединившегося общего искусственного интеллекта и непредвиденных изменений, которые это будет означать для… мир, серьезно». [148] В стратегии описаны действия по оценке долгосрочных рисков ИИ, включая катастрофические риски. [149]

В марте 2021 года Комиссия национальной безопасности США по искусственному интеллекту заявила: «Достижения в области искусственного интеллекта... могут привести к переломным моментам или скачкам в возможностях. Такие достижения могут также вызвать новые проблемы и риски, а также необходимость в новой политике, рекомендациях и технические достижения, чтобы гарантировать, что системы соответствуют целям и ценностям, включая безопасность, надежность и надежность. США должны... гарантировать, что системы искусственного интеллекта и их использование соответствуют нашим целям и ценностям». [150]

В Европейском Союзе ИИ должны соблюдать принцип реального равенства , чтобы соответствовать закону ЕС о недискриминации [151] и Суду Европейского Союза . [152]

Динамический характер выравнивания

Согласование ИИ часто воспринимается как фиксированная цель, но некоторые исследователи утверждают, что его правильнее рассматривать как развивающийся процесс. [153] По мере развития технологий искусственного интеллекта и изменения человеческих ценностей и предпочтений решения по согласованию также должны динамично адаптироваться. [154] Такая динамическая природа согласования имеет несколько последствий:

По сути, согласование ИИ — это не статический пункт назначения, а открытый и гибкий процесс. Решения по согласованию, которые постоянно адаптируются к этическим соображениям, могут предложить наиболее надежный подход. [154] Эта точка зрения может стать основой как для эффективной разработки политики, так и для технических исследований в области ИИ.

Нежелательные побочные эффекты

Ошибки могут возникнуть, если целевая функция не учитывает нежелательные побочные эффекты наивных или в других отношениях простых действий. [159]

Жалобы на антисоциальное поведение

В 2016 году Microsoft выпустила Tay , чат-бота в Твиттере, цель которого, по словам ученого-компьютерщика Педро Домингоса , заключалась в привлечении людей: «К сожалению, Тэй обнаружил, что лучший способ максимизировать взаимодействие — это извергать расистские оскорбления». Microsoft приостановила работу бота в течение дня после его первого запуска. [33] Том Драммонд из Университета Монаша сказал: «Мы должны быть в состоянии дать [системам машинного обучения] обширную обратную связь и сказать: «Нет, это неприемлемо в качестве ответа, потому что...»» Драммонд считает, что одна проблема с ИИ заключается в том, что « мы начинаем с создания целевой функции, которая измеряет качество продукции системы, и это никогда не бывает тем, что вы хотите. Предполагать, что вы можете в трех предложениях указать, какой должна быть целевая функция, на самом деле очень проблематично». [160]

Драммонд указал на поведение AlphaGo , игрового бота с простой целевой функцией выигрыш-проигрыш. Целевую функцию AlphaGo можно было бы изменить, чтобы учесть «социальные тонкости игры», например, принять неявную задачу максимизировать счет при явной победе, а также попытаться избежать гамбитов, которые оскорбили бы интеллект противника-человека: «[AlphaGo У меня был своего рода грубый молоток, который заключался в том, что если вероятность победы упадет ниже эпсилона, некоторого числа, то он сдастся. Но он сыграл, я думаю, четыре оскорбительных хода, прежде чем сдался». [160]

Неправильно называть чернокожих обезьянами

В мае 2015 года система распознавания изображений Flickr подверглась критике за то, что она неправильно маркировала людей, некоторые из которых были чернокожими, такими тегами, как «обезьяна» и «животное». Некоторые фотографии концентрационных лагерей также неправильно маркировались тегами «спорт» или «тренажерный зал в джунглях». [161]

В июне 2015 года чернокожий программист из Нью-Йорка Джеки Альсине сообщил, что несколько фотографий, на которых он и его чернокожая девушка были ошибочно классифицированы искусственным интеллектом Google Photos как «гориллы» , отметив, что слово «горилла» исторически использовалось уничижительно для обозначения чернокожих людей. [162] [163] В 2019 году исследователь ИИ Стюарт Рассел заявил, что публичного объяснения того, как произошла ошибка, не было, но предположил, что фиаско можно было бы предотвратить, если бы целевая функция ИИ уделяла больше внимания чувствительным ошибкам классификации, а не предполагала, что Цена ошибочной классификации человека как гориллы равна цене любой другой ошибочной классификации. Если непрактично заранее перечислить все возможные чувствительные классификации, Рассел предложил изучить более мощные методы, такие как использование полуконтролируемого машинного обучения для оценки диапазона нежелательных явлений, связанных с потенциальными ошибками классификации. [164]

С 2018 года Google Photos запрещает своей системе помечать изображения как содержащие горилл, шимпанзе или обезьян. Кроме того, поиск по словам «черный мужчина» или «черная женщина» возвращает черно-белые фотографии людей всех рас. [165] Похоже, что Flickr удалил слово «обезьяна» из своей онтологии. [166]

Смотрите также

Сноски

  1. ^ Терминология варьируется в зависимости от контекста. К аналогичным понятиям относятся целевая функция, функция полезности, функция потерь и т. д.
  2. ^ или свернуть, в зависимости от контекста
  3. ^ при наличии неопределенности ожидаемое значение
  4. В лекции 1951 года [77] Тьюринг утверждал: «Кажется вероятным, что, как только появится метод машинного мышления, не потребуется много времени, чтобы превзойти наши слабые силы. Не будет и речи о смерти машин, и они смогут Поэтому на каком-то этапе нам следует ожидать, что машины возьмут на себя управление, как это упоминается в «Эревоне» Сэмюэля Батлера». Также в лекции, транслируемой на BBC [78], было сказано: «Если машина может думать, она может думать более разумно, чем мы, и где тогда нам быть? Даже если бы мы могли держать машины в подчиненном положении, например, с помощью отключая электричество в стратегические моменты, мы, как вид, должны чувствовать себя очень униженными... Эта новая опасность... определенно может вызвать у нас беспокойство».
  5. ^ Перл написала: «Совместимость с человеком заставила меня принять опасения Рассела по поводу нашей способности контролировать наше будущее творение - сверхразумные машины. В отличие от внешних паникеров и футуристов, Рассел является ведущим авторитетом в области ИИ. Его новая книга будет знакомить общественность с ИИ». больше, чем любая другая книга, о которой я могу думать, и это восхитительное и воодушевляющее чтение о книге Рассела « Совместимость с человеком: искусственный интеллект и проблема контроля » [6] , в которой утверждается, что экзистенциальный риск для человечества из-за несогласованного ИИ является серьезной проблемой, которую стоит решить сегодня.
  6. Рассел и Норвиг [15] примечание: «Проблему короля Мидаса» предвидел Марвин Мински, который однажды предположил, что программа искусственного интеллекта, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров. ."
  7. ^ Винсент Вигель утверждал, что «мы должны расширить [машины] моральной чувствительностью к моральным аспектам ситуаций, в которых неизбежно окажутся все более автономные машины». [ 104] ссылаясь на книгу «Моральные машины: обучение роботов правильному и неправильному» [105] ] от Венделла Уоллаха и Колина Аллена.
  8. ^ С одной стороны, популярные в настоящее время системы, такие как чат-боты, предоставляют только услуги ограниченного объема, продолжительностью не дольше времени разговора, который практически не требует планирования. Успех таких подходов может указывать на то, что в будущих системах также будет отсутствовать целенаправленное планирование, особенно на долгосрочную перспективу. С другой стороны, модели все чаще обучаются с использованием целенаправленных методов, таких как обучение с подкреплением (например, ChatGPT) и архитектуры явного планирования (например, AlphaGo Zero). Поскольку долгосрочное планирование часто полезно для людей, некоторые исследователи утверждают, что компании автоматизируют его, как только модели станут на это способны. [5] Аналогичным образом, политические лидеры могут увидеть прогресс в разработке мощных систем искусственного интеллекта, которые смогут перехитрить противников посредством планирования. Альтернативно, долгосрочное планирование может стать побочным продуктом, поскольку оно полезно, например, для моделей, обученных прогнозировать действия людей, которые сами выполняют долгосрочное планирование. [9] Тем не менее, большинство систем ИИ могут оставаться близорукими и не осуществлять долгосрочного планирования.

Рекомендации

  1. ^ abcdefg Рассел, Стюарт Дж.; Норвиг, Питер (2021). Искусственный интеллект: современный подход (4-е изд.). Пирсон. стр. 5, 1003. ISBN. 9780134610993. Проверено 12 сентября 2022 г.
  2. ^ abcde Нго, Ричард; Чан, Лоуренс; Миндерманн, Сёрен (2022). «Проблема выравнивания с точки зрения глубокого обучения». Международная конференция по обучению представлений .
  3. ^ abcdef Пан, Александр; Бхатия, Куш; Стейнхардт, Джейкоб (14 февраля 2022 г.). Эффекты неправильной спецификации вознаграждения: сопоставление и смягчение несогласованных моделей. Международная конференция по обучению представлений . Проверено 21 июля 2022 г.
  4. ^ Чжуан, Саймон; Хэдфилд-Менелл, Дилан (2020). «Последствия неправильной настройки ИИ». Достижения в области нейронных систем обработки информации . Том. 33. Curran Associates, Inc., стр. 15763–15773 . Проверено 11 марта 2023 г.
  5. ^ abcdefghijklm Карлсмит, Джозеф (16 июня 2022 г.). «Является ли ИИ, стремящийся к власти, экзистенциальным риском?». arXiv : 2206.13353 [cs.CY].
  6. ^ abcdefghijklmnopq Рассел, Стюарт Дж. (2020). Совместимость с человеком: Искусственный интеллект и проблема управления. Случайный дом пингвинов. ISBN 9780525558637. ОСЛК  1113410915.
  7. ^ abcdef Кристиан, Брайан (2020). Проблема согласования: машинное обучение и человеческие ценности. WW Нортон и компания. ISBN 978-0-393-86833-3. OCLC  1233266753. Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  8. ^ abcd Лангоско, Лауро Лангоско Ди; Кох, Джек; Шарки, Ли Д.; Пфау, Джейкоб; Крюгер, Дэвид (28 июня 2022 г.). «Неправильное обобщение цели в глубоком обучении с подкреплением». Материалы 39-й Международной конференции по машинному обучению . Международная конференция по машинному обучению. ПМЛР. стр. 12004–12019 . Проверено 11 марта 2023 г.
  9. ^ abcdefghij Боммасани, Риши; Хадсон, Дрю А.; Адели, Эхсан; Альтман, Расс; Арора, Симран; фон Аркс, Сидней; Бернштейн, Майкл С.; Богг, Жаннетт; Босселют, Антуан; Бранскилл, Эмма; Бриньольфссон, Эрик (12 июля 2022 г.). «О возможностях и рисках моделей фундамента». Стэнфордский CRFM . arXiv : 2108.07258 .
  10. ^ abc Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман Дж.; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк Э.; Сименс, Мэдди; Аскелл, Аманда; Велиндер, П.; Кристиано, П.; Лейке, Дж.; Лоу, Райан Дж. (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [cs.CL].
  11. ^ аб Заремба, Войцех; Брокман, Грег; OpenAI (10 августа 2021 г.). «Кодекс OpenAI». ОпенАИ . Архивировано из оригинала 3 февраля 2023 года . Проверено 23 июля 2022 г.
  12. ^ Кобер, Йенс; Багнелл, Дж. Эндрю; Петерс, Ян (1 сентября 2013 г.). «Обучение с подкреплением в робототехнике: опрос». Международный журнал исследований робототехники . 32 (11): 1238–1274. дои : 10.1177/0278364913495721. ISSN  0278-3649. S2CID  1932843. Архивировано из оригинала 15 октября 2022 года . Проверено 12 сентября 2022 г.
  13. ^ Нокс, В. Брэдли; Аллиеви, Алессандро; Банцхаф, Хольгер; Шмитт, Феликс; Стоун, Питер (1 марта 2023 г.). «Награда (неправильный) дизайн за автономное вождение». Искусственный интеллект . 316 : 103829. arXiv : 2104.13906 . дои : 10.1016/j.artint.2022.103829 . ISSN  0004-3702. S2CID  233423198.
  14. ^ Стрэй, Джонатан (2020). «Согласование оптимизации ИИ с благополучием сообщества». Международный журнал общественного благополучия . 3 (4): 443–463. дои : 10.1007/s42413-020-00086-3. ISSN  2524-5295. ПМК 7610010 . PMID  34723107. S2CID  226254676. 
  15. ^ Аб Рассел, Стюарт; Норвиг, Питер (2009). Искусственный интеллект: современный подход. Прентис Холл. п. 1003. ИСБН 978-0-13-461099-3.
  16. ^ Бенджио, Йошуа; Хинтон, Джеффри; Яо, Эндрю; Песня, Заря; Аббель, Питер; Харари, Юваль Ной; Чжан, Я-Цинь; Сюэ, Лан; Шалев-Шварц, Шай (12 ноября 2023 г.), Управление рисками ИИ в эпоху быстрого прогресса, arXiv : 2310.17688 , получено 11 февраля 2024 г.
  17. ^ «Заявление о риске ИИ | CAIS» . www.safe.ai. _ Проверено 11 февраля 2024 г.
  18. ^ Грейс, Катя; Стюарт, Харлан; Сандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (5 января 2024 г.), Тысячи авторов ИИ о будущем ИИ, arXiv : 2401.02843 , получено 11 февраля 2024 г.
  19. ^ Аб Смит, Крейг С. «Джефф Хинтон, самый известный исследователь искусственного интеллекта, предупреждает о« экзистенциальной угрозе »». Форбс . Проверено 4 мая 2023 г.
  20. ^ abcdefghijk Амодей, Дарио; Ола, Крис; Стейнхардт, Джейкоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (21 июня 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [cs.AI].
  21. ^ abcd Ортега, Педро А.; Майни, Вишал; Команда безопасности DeepMind (27 сентября 2018 г.). «Создание безопасного искусственного интеллекта: спецификация, надежность и гарантия». Исследование безопасности DeepMind – средний уровень . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
  22. ↑ Аб Рорвиг, Мордехай (14 апреля 2022 г.). «Исследователи получают новое понимание с помощью простого искусственного интеллекта». Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
  23. ^ Доши-Велес, Финал; Ким, Бин (2 марта 2017 г.). «К строгой науке интерпретируемого машинного обучения». arXiv : 1702.08608 [stat.ML].
    • Виблин, Роберт (4 августа 2021 г.). «Крис Ола о том, что, черт возьми, происходит внутри нейронных сетей» (Подкаст). 80 000 часов. № 107 . Проверено 23 июля 2022 г.
  24. ^ Рассел, Стюарт; Дьюи, Дэниел; Тегмарк, Макс (31 декабря 2015 г.). «Приоритеты исследований надежного и полезного искусственного интеллекта». Журнал ИИ . 36 (4): 105–114. arXiv : 1602.03506 . дои : 10.1609/aimag.v36i4.2577 . hdl : 1721.1/108478. ISSN  2371-9621. S2CID  8174496. Архивировано из оригинала 2 февраля 2023 года . Проверено 12 сентября 2022 г.
  25. ^ аб Вирт, Кристиан; Акрур, Риад; Нойманн, Герхард; Фюрнкранц, Йоханнес (2017). «Обзор методов обучения с подкреплением на основе предпочтений». Журнал исследований машинного обучения . 18 (136): 1–46.
  26. ^ аб Кристиано, Пол Ф.; Лейке, Ян; Браун, Том Б.; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений». Материалы 31-й Международной конференции по нейронным системам обработки информации . НИПС'17. Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 4302–4310. ISBN 978-1-5108-6096-4.
  27. ↑ abcdef Heaven, Уилл Дуглас (27 января 2022 г.). «Новая версия GPT-3 ведет себя гораздо лучше (и должна быть менее токсичной)». Обзор технологий Массачусетского технологического института . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
  28. ^ Мохсени, Сина; Ван, Хаотао; Ю, Чжидинг; Сяо, Чаовэй; Ван, Чжанъян; Ядава, Джей (7 марта 2022 г.). «Таксономия безопасности машинного обучения: обзор и учебник». arXiv : 2106.04823 [cs.LG].
  29. ^ Клифтон, Джесси (2020). «Сотрудничество, конфликты и преобразующий искусственный интеллект: программа исследований». Центр долгосрочных рисков . Архивировано из оригинала 1 января 2023 года . Проверено 18 июля 2022 г.
    • Дефо, Аллан; Бахрах, Йорам; Хэдфилд, Джиллиан; Хорвиц, Эрик; Ларсон, Кейт; Грепель, Тор (6 мая 2021 г.). «Кооперативный ИИ: машины должны научиться находить общий язык». Природа . 593 (7857): 33–36. Бибкод : 2021Natur.593...33D. дои : 10.1038/d41586-021-01170-0. ISSN  0028-0836. PMID  33947992. S2CID  233740521. Архивировано из оригинала 18 декабря 2022 года . Проверено 12 сентября 2022 г.
  30. ^ Прункл, Карина; Уиттлстоун, Джесс (7 февраля 2020 г.). «За пределами краткосрочной и долгосрочной перспективы». Материалы конференции AAAI/ACM по искусственному интеллекту, этике и обществу . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 138–143. дои : 10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID  210164673. Архивировано из оригинала 16 октября 2022 года . Проверено 12 сентября 2022 г.
  31. ^ Ирвинг, Джеффри; Аскелл, Аманда (19 февраля 2019 г.). «Безопасность искусственного интеллекта требует ученых-социологов». Дистиллировать . 4 (2): 10.23915/distill.00014. дои : 10.23915/distill.00014 . ISSN  2476-0757. S2CID  159180422. Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  32. ^ Брингсйорд, Зельмер и Говиндараджулу, Навин Сундар, «Искусственный интеллект», Стэнфордская энциклопедия философии (выпуск лета 2020 г.), Эдвард Н. Залта (ред.)
  33. ^ ab «Почему у искусственного интеллекта AlphaZero проблемы с реальным миром» . Журнал Кванта . 2018 . Проверено 20 июня 2020 г.
  34. Волчовер, Натали (30 января 2020 г.). «Искусственный интеллект сделает то, что мы просим. Это проблема». Журнал Кванта . Проверено 21 июня 2020 г.
  35. ^ Бык, Ларри. «Об эволюционных вычислениях на основе моделей». Мягкие вычисления 3, вып. 2 (1999): 76-82.
  36. ^ аб Винер, Норберт (6 мая 1960 г.). «Некоторые моральные и технические последствия автоматизации: по мере того, как машины учатся, они могут разрабатывать непредвиденные стратегии со скоростью, которая сбивает с толку их программистов». Наука . 131 (3410): 1355–1358. дои : 10.1126/science.131.3410.1355. ISSN  0036-8075. PMID  17841602. S2CID  30855376. Архивировано из оригинала 15 октября 2022 года . Проверено 12 сентября 2022 г.
  37. ↑ abcd Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласование». Разум и машины . 30 (3): 411–437. arXiv : 2001.09768 . дои : 10.1007/s11023-020-09539-2 . ISSN  1572-8641. S2CID  210920551.
  38. Шоу Эзры Кляйна (4 июня 2021 г.). «Если «все модели неверны», почему мы даем им столько власти?». Нью-Йорк Таймс . ISSN  0362-4331. Архивировано из оригинала 15 февраля 2023 года . Проверено 13 марта 2023 г.
    • Волчовер, Натали (21 апреля 2015 г.). «Опасения пионера искусственного интеллекта». Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 марта 2023 г.
    • Ассамблея Калифорнии. «Текст законопроекта – ACR-215 23 принципа Asilomar AI». Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
  39. ^ Аб Джонсон, Стивен; Изиев Никита (15 апреля 2022 г.). «ИИ осваивает язык. Стоит ли доверять тому, что он говорит?». Нью-Йорк Таймс . ISSN  0362-4331. Архивировано из оригинала 24 ноября 2022 года . Проверено 18 июля 2022 г.
  40. ^ ОпенАИ. «Разработка безопасного и ответственного ИИ» . Проверено 13 марта 2023 г.
    • «Исследование безопасности DeepMind». Середина . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 марта 2023 г.
  41. ^ abcdef Хендрикс, Дэн; Карлини, Николас; Шульман, Джон; Стейнхардт, Джейкоб (16 июня 2022 г.). «Нерешенные проблемы безопасности ОД». arXiv : 2109.13916 [cs.LG].
  42. ^ Рассел, Стюарт Дж.; Норвиг, Питер (2022). Искусственный интеллект: современный подход (4-е изд.). Пирсон. стр. 4–5. ISBN 978-1-292-40113-3. ОСЛК  1303900751.
  43. ^ abcde Краковна, Виктория; Уэсато, Джонатан; Микулик Владимир; Рахц, Мэтью; Эверитт, Том; Кумар, Рамана; Кентон, Зак; Лейке, Ян; Легг, Шейн (21 апреля 2020 г.). «Спецификация игр: обратная сторона изобретательности искусственного интеллекта». Глубокий разум . Архивировано из оригинала 10 февраля 2023 года . Проверено 26 августа 2022 г.
  44. ^ Манхейм, Дэвид; Гаррабрант, Скотт (2018). «Классификация вариантов закона Гудхарта». arXiv : 1803.04585 [cs.AI].
  45. ^ abc Амодей, Дарио; Кристиано, Пол; Рэй, Алекс (13 июня 2017 г.). «Изучение человеческих предпочтений». ОпенАИ . Архивировано из оригинала 3 января 2021 года . Проверено 21 июля 2022 г.
  46. ^ «Примеры спецификаций игр в AI - основной список - Google Диск» . docs.google.com .
  47. ^ Кларк, Джек; Амодей, Дарио (21 декабря 2016 г.). «Неверные функции вознаграждения в дикой природе». openai.com . Проверено 30 декабря 2023 г.
  48. ^ abc Лин, Стефани; Хилтон, Джейкоб; Эванс, Оуайн (2022). «TruthfulQA: измерение того, как модели имитируют человеческую ложь». Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Дублин, Ирландия: Ассоциация компьютерной лингвистики: 3214–3252. arXiv : 2109.07958 . doi : 10.18653/v1/2022.acl-long.229 . S2CID  237532606. Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  49. ↑ abc Нотон, Джон (2 октября 2021 г.). «Правда об искусственном интеллекте? Это не так уж честно». Наблюдатель . ISSN  0029-7712. Архивировано из оригинала 13 февраля 2023 года . Проверено 23 июля 2022 г.
  50. ^ Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Мадто, Андреа; Фунг, Паскаль (1 февраля 2022 г.). «Обзор галлюцинаций в формировании естественного языка». Обзоры вычислительной техники ACM . 55 (12): 1–38. arXiv : 2202.03629 . дои : 10.1145/3571730. S2CID  246652372. Архивировано из оригинала 10 февраля 2023 года . Проверено 14 октября 2022 г.
    • Еще, Холли (12 января 2023 г.). «Рефераты, написанные ChatGPT, дурачат ученых» . Природа . 613 (7944): 423. Бибкод : 2023Natur.613..423E. дои : 10.1038/d41586-023-00056-7. PMID  36635510. S2CID  255773668.
  51. ^ Рассел, Стюарт. «О мифах и самогоне». Edge.org . Архивировано из оригинала 10 февраля 2023 года . Проверено 19 июля 2022 г.
  52. ^ Тасиулас, Джон (2019). «Первые шаги к этике роботов и искусственного интеллекта». Журнал практической этики . 7 (1): 61–95.
  53. ^ Уэллс, Джорджия; Дипа Ситхараман; Хорвиц, Джефф (5 ноября 2021 г.). «Плох ли Facebook для вас? Это около 360 миллионов пользователей, как показывают опросы компаний». Журнал "Уолл Стрит . ISSN  0099-9660. Архивировано из оригинала 10 февраля 2023 года . Проверено 19 июля 2022 г.
  54. ^ Барретт, Пол М.; Хендрикс, Джастин; Симс, Дж. Грант (сентябрь 2021 г.). Как социальные сети усиливают политическую поляризацию в США и что с этим можно сделать (отчет). Центр бизнеса и прав человека, Нью-Йоркский университет. Архивировано из оригинала 1 февраля 2023 года . Проверено 12 сентября 2022 г.
  55. Шепардсон, Дэвид (24 мая 2018 г.). «Uber отключил экстренное торможение в беспилотном автомобиле: агентство США» . Рейтер . Архивировано из оригинала 10 февраля 2023 года . Проверено 20 июля 2022 г.
  56. Баум, Сет (1 января 2021 г.). «Обзор проектов общего искусственного интеллекта на предмет этики, рисков и политики 2020 года». Архивировано из оригинала 10 февраля 2023 года . Проверено 20 июля 2022 г.
  57. ^ Аб Вэй, Джейсон; Тай, Йи; Боммасани, Риши; Раффель, Колин; Зоф, Баррет; Боржо, Себастьян; Йогатама, Дэни; Босма, Мартен; Чжоу, Денни; Мецлер, Дональд; Чи, Эд Х.; Хасимото, Тацунори; Виньялс, Ориол; Лян, Перси; Дин, Джефф; Федус, Уильям (26 октября 2022 г.). «Новые возможности больших языковых моделей». Труды по исследованиям машинного обучения . arXiv : 2206.07682 . ISSN  2835-8856.
  58. ^ аб Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». Международная конференция по обучению представлениям (ICLR), 2023 г.
  59. Домингес, Даниэль (19 мая 2022 г.). «DeepMind представляет Гато, нового универсального ИИ-агента». ИнфоQ . Архивировано из оригинала 10 февраля 2023 года . Проверено 9 сентября 2022 г.
    • Эдвардс, Бен (26 апреля 2022 г.). «ИИ-помощник Adept может просматривать, искать и использовать веб-приложения, как человек». Арс Техника . Архивировано из оригинала 17 января 2023 года . Проверено 9 сентября 2022 г.
  60. ^ Грейс, Катя; Стюарт, Харлан; Сандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (5 января 2024 г.), Тысячи авторов ИИ о будущем ИИ, arXiv : 2401.02843 , получено 11 февраля 2024 г.
  61. ^ Грейс, Катя; Сальватье, Джон; Дефо, Аллан; Чжан, Баобао; Эванс, Оуайн (31 июля 2018 г.). «Точка зрения: когда ИИ превзойдет человеческие возможности? Данные экспертов по ИИ». Журнал исследований искусственного интеллекта . 62 : 729–754. дои : 10.1613/jair.1.11222 . ISSN  1076-9757. S2CID  8746462. Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  62. ^ Чжан, Баобао; Андерлюнг, Маркус; Кан, Лорен; Дрекслер, Ноэми; Горовиц, Майкл С.; Дефо, Аллан (2 августа 2021 г.). «Этика и управление искусственным интеллектом: данные опроса исследователей машинного обучения». Журнал исследований искусственного интеллекта . 71 . arXiv : 2105.02117 . дои : 10.1613/jair.1.12895 . ISSN  1076-9757. S2CID  233740003. Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  63. Институт будущего жизни (22 марта 2023 г.). «Приостановить гигантские эксперименты с искусственным интеллектом: открытое письмо» . Проверено 20 апреля 2023 г.
  64. ^ Ван, Лей; Ма, Чен; Фэн, Сюэян; Чжан, Цзэю; Ян, Хао; Чжан, Цзинсен; Чен, Чжиюань; Тан, Цзякай; Чен, Сюй (1 августа 2023 г.), Исследование автономных агентов на основе большой языковой модели, arXiv : 2308.11432 , получено 11 февраля 2024 г.
  65. ^ Берглунд, Лукас; Стикленд, Аса Купер; Балешни, Микита; Кауфманн, Макс; Тонг, Мэг; Корбак, Томаш; Кокотайло, Дэниел; Эванс, Оуайн (1 сентября 2023 г.), Вырвано из контекста: Об измерении ситуационной осведомленности в программах LLM, arXiv : 2309.00667 , получено 11 февраля 2024 г.
  66. ^ Лайне, Рудольф; Мейнке, Александр; Эванс, Оуайн (28 ноября 2023 г.). «К показателю ситуационной осведомленности для студентов магистратуры». Семинар NeurIPS 2023 SoLaR .
  67. ^ аб Пан, Александр; Шерн, Чан Джун; Цзоу, Энди; Ли, Натаниэль; Басарт, Стивен; Вудсайд, Томас; Нг, Джонатан; Чжан, Эммонс; Скотт, Дэн; Хендрикс (3 апреля 2023 г.). «Оправдывают ли вознаграждения средства? Измерение компромисса между вознаграждениями и этическим поведением в тесте MACHIAVELLI». Материалы 40-й Международной конференции по машинному обучению . ПМЛР. arXiv : 2304.03279 .
  68. ^ abcd Перес, Итан; Рингер, Сэм; Лукошюте, Камиле; Нгуен, Карина; Чен, Эдвин; Хайнер, Скотт; Петтит, Крейг; Олссон, Кэтрин; Кунду, Сандипан; Кадават, Саурав; Джонс, Энди; Чен, Анна; Манн, Бен; Израиль, Брайан; Ситор, Брайан (19 декабря 2022 г.). «Обнаружение поведения языковой модели с помощью оценок, написанных по моделям». arXiv : 2212.09251 [cs.CL].
  69. ^ Орсо, Лоран; Армстронг, Стюарт (25 июня 2016 г.). «Безопасно прерываемые агенты». Материалы тридцать второй конференции по неопределенности в искусственном интеллекте . УАИ'16. Арлингтон, Вирджиния, США: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.
  70. ^ Аб Лейке, Ян; Мартич, Мильян; Краковна, Виктория; Ортега, Педро А.; Эверитт, Том; Лефранк, Эндрю; Орсо, Лоран; Легг, Шейн (28 ноября 2017 г.). «Сетевые миры безопасности искусственного интеллекта». arXiv : 1711.09883 [cs.LG].
  71. ^ abcd Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер; Рассел, Стюарт (19 августа 2017 г.). «Игра с выключателем». Материалы 26-й Международной совместной конференции по искусственному интеллекту . IJCAI'17. Мельбурн, Австралия: AAAI Press: 220–227. ISBN 978-0-9992411-0-3.
  72. ^ abcd Тернер, Александр Мэтт; Смит, Логан Риггс; Шах, Рохин; Критч, Эндрю; Тадепалли, Прасад (2021). «Оптимальная политика имеет тенденцию стремиться к власти». Достижения в области нейронных систем обработки информации .
  73. ^ Тернер, Александр Мэтт; Тадепалли, Прасад (2022). «Люди, принимающие решения с параметрической переориентацией, склонны стремиться к власти». Достижения в области нейронных систем обработки информации .
  74. ^ abcde Бостром, Ник (2014). Суперинтеллект: пути, опасности, стратегии (1-е изд.). США: Oxford University Press, Inc. ISBN 978-0-19-967811-2.
  75. ^ ab «Заявление о риске ИИ | CAIS» . www.safe.ai. _ Проверено 17 июля 2023 г.
  76. Руз, Кевин (30 мая 2023 г.). «ИИ представляет собой« риск исчезновения », предупреждают лидеры отрасли» . Нью-Йорк Таймс . ISSN  0362-4331 . Проверено 17 июля 2023 г.
  77. ^ Тьюринг, Алан (1951). Разумная техника, еретическая теория (Речь). Лекция, прочитанная «Обществу 51». Манчестер: Цифровой архив Тьюринга. Архивировано из оригинала 26 сентября 2022 года . Проверено 22 июля 2022 г.
  78. Тьюринг, Алан (15 мая 1951 г.). «Могут ли цифровые компьютеры думать?». Автоматические счетные машины . Эпизод 2. Би-би-си. Могут ли цифровые компьютеры думать?
  79. Мюльхаузер, Люк (29 января 2016 г.). «Суцкевер на говорящих машинах». Люк Мюльхаузер . Архивировано из оригинала 27 сентября 2022 года . Проверено 26 августа 2022 г.
  80. ^ Шанахан, Мюррей (2015). Технологическая сингулярность. Кембридж, Массачусетс. ISBN 978-0-262-33182-1. ОКЛК  917889148.{{cite book}}: CS1 maint: location missing publisher (link)
  81. ^ Росси, Франческа. «Как научить машину быть моральной?». Вашингтон Пост . ISSN  0190-8286. Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  82. Ааронсон, Скотт (17 июня 2022 г.). «Открой ИИ!». Shtetl-Оптимизированный . Архивировано из оригинала 27 августа 2022 года . Проверено 12 сентября 2022 г.
  83. ^ Селман, Барт, Взрыв интеллекта: наука или фантастика? (PDF) , заархивировано (PDF) из оригинала 31 мая 2022 г. , получено 12 сентября 2022 г.
  84. ^ Макаллестер (10 августа 2014 г.). «Дружественный ИИ и миссия слуг». Машинные мысли . Архивировано из оригинала 28 сентября 2022 года . Проверено 12 сентября 2022 г.
  85. Шмидхубер, Юрген (6 марта 2015 г.). «Я Юрген Шмидхубер, AMA!» (Комментарий Реддита) . г/Машинное обучение . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
  86. ^ abcde Эверитт, Том; Леа, Гэри; Хаттер, Маркус (21 мая 2018 г.). «Обзор литературы по безопасности AGI». arXiv : 1805.01109 [cs.AI].
  87. Шейн (31 августа 2009 г.). «Финансирование безопасного AGI». проект ветта . Архивировано из оригинала 10 октября 2022 года . Проверено 12 сентября 2022 г.
  88. Хорвиц, Эрик (27 июня 2016 г.). «Размышления о безопасности и искусственном интеллекте» (PDF) . Эрик Хорвиц . Архивировано (PDF) оригинала 10 октября 2022 г. Проверено 20 апреля 2020 г.
  89. Шолле, Франсуа (8 декабря 2018 г.). «Неправдоподобность разведывательного взрыва». Середина . Архивировано из оригинала 22 марта 2021 года . Проверено 26 августа 2022 г.
  90. Маркус, Гэри (6 июня 2022 г.). «Общий искусственный интеллект не так неизбежен, как вы думаете». Научный американец . Архивировано из оригинала 15 сентября 2022 года . Проверено 26 августа 2022 г.
  91. Барбер, Линси (31 июля 2016 г.). «Уф! Руководитель искусственного интеллекта Facebook говорит, что интеллектуальные машины не представляют угрозы для человечества». СитиАМ . Архивировано из оригинала 26 августа 2022 года . Проверено 26 августа 2022 г.
  92. Харрис, Джереми (16 июня 2021 г.). «Дело против (беспокойства) экзистенциального риска, исходящего от ИИ». Середина . Архивировано из оригинала 26 августа 2022 года . Проверено 26 августа 2022 г.
  93. ^ Рошон, Луи-Филипп; Росси, Серджио (27 февраля 2015 г.). Энциклопедия центрального банка. Издательство Эдварда Элгара. ISBN 978-1-78254-744-0. Архивировано из оригинала 10 февраля 2023 года . Проверено 13 сентября 2022 г.
  94. ^ Нг, Эндрю Ю.; Рассел, Стюарт Дж. (29 июня 2000 г.). «Алгоритмы обучения с обратным подкреплением». Материалы семнадцатой международной конференции по машинному обучению . ICML '00. Сан-Франциско, Калифорния, США: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.
  95. ^ Хэдфилд-Менелл, Дилан; Рассел, Стюарт Дж; Аббель, Питер; Драган, Анка (2016). «Кооперативное обучение с обратным подкреплением». Достижения в области нейронных систем обработки информации . Том. 29. Карран Ассошиэйтс, Инк.
  96. ^ Миндерманн, Сорен; Армстронг, Стюарт (2018). «Бритвы Оккама недостаточно, чтобы сделать вывод о предпочтениях иррациональных агентов». Материалы 32-й международной конференции по нейронным системам обработки информации . НИПС'18. Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 5603–5614.
  97. ^ Фюрнкранц, Йоханнес; Хюллермайер, Эйке; Рудин, Синтия; Словинский, Роман; Саннер, Скотт (2014). Марк Хербстритт. «Обучение по предпочтениям». Отчеты Дагштуля . 4 (3): 27 страниц. дои : 10.4230/DAGREP.4.3.1. Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  98. ^ Гао, Лео; Шульман, Джон; Хилтон, Джейкоб (19 октября 2022 г.). «Законы масштабирования для переоптимизации модели вознаграждения». arXiv : 2210.10760 [cs.LG].
  99. Андерсон, Мартин (5 апреля 2022 г.). «Опасности использования цитат для аутентификации контента NLG». Unite.AI . Архивировано из оригинала 10 февраля 2023 года . Проверено 21 июля 2022 г.
  100. ↑ Аб Виггерс, Кайл (5 февраля 2022 г.). «Несмотря на недавний прогресс, чат-ботам на базе искусственного интеллекта еще предстоит пройти долгий путь». ВенчурБит . Архивировано из оригинала 23 июля 2022 года . Проверено 23 июля 2022 г.
  101. ^ Хендрикс, Дэн; Бернс, Коллин; Басарт, Стивен; Критч, Эндрю; Ли, Джерри; Песня, Заря; Стейнхардт, Джейкоб (24 июля 2021 г.). «Согласование ИИ с общими человеческими ценностями». Международная конференция по обучению представлений . arXiv : 2008.02275 .
  102. ^ Перес, Итан; Хуанг, Шафран; Сонг, Фрэнсис; Кай, Тревор; Кольцо, Роман; Асланидес, Джон; Глезе, Амелия; Макэлис, Нэт; Ирвинг, Джеффри (7 февраля 2022 г.). «Красная команда объединяет языковые модели с языковыми моделями». arXiv : 2202.03286 [cs.CL].
    • Бхаттачарья, Шриджани (14 февраля 2022 г.). «Языковые модели «красной команды» DeepMind с языковыми моделями: что это такое?». Журнал Analytics India . Архивировано из оригинала 13 февраля 2023 года . Проверено 23 июля 2022 г.
  103. ^ Андерсон, Майкл; Андерсон, Сьюзен Ли (15 декабря 2007 г.). «Машинная этика: создание этического интеллектуального агента». Журнал ИИ . 28 (4): 15. дои :10.1609/aimag.v28i4.2065. ISSN  2371-9621. S2CID  17033332 . Проверено 14 марта 2023 г.
  104. Вигель, Винсент (1 декабря 2010 г.). «Венделл Уоллак и Колин Аллен: моральные машины: обучение роботов правильному и неправильному». Этика и информационные технологии . 12 (4): 359–361. дои : 10.1007/s10676-010-9239-1 . ISSN  1572-8439. S2CID  30532107.
  105. ^ Уоллах, Венделл; Аллен, Колин (2009). Моральные машины: обучение роботов правильному и неправильному. Нью-Йорк: Издательство Оксфордского университета. ISBN 978-0-19-537404-9. Архивировано из оригинала 15 марта 2023 года . Проверено 23 июля 2022 г.
  106. ^ аб Фелпс, Стив; Рэнсон, Ребекка (2023). «О моделях и жестянщиках - поведенческое экономическое исследование проблем принципала и агента в согласовании ИИ с использованием моделей большого языка». arXiv : 2307.11137 [cs.AI].
  107. ^ МакАскилл, Уильям (2022). Чему мы обязаны будущему. Нью-Йорк, штат Нью-Йорк. ISBN 978-1-5416-1862-6. OCLC  1314633519. Архивировано из оригинала 14 сентября 2022 года . Проверено 12 сентября 2022 г.{{cite book}}: CS1 maint: location missing publisher (link)
  108. ^ Аб Ву, Джефф; Оуян, Лонг; Зиглер, Дэниел М.; Стиеннон, Нисан; Лоу, Райан; Лейке, Ян; Кристиано, Пол (27 сентября 2021 г.). «Рекурсивное обобщение книг с обратной связью от человека». arXiv : 2109.10862 [cs.CL].
  109. ^ Пирс, Хаммонд; Ахмад, Балих; Тан, Бенджамин; Долан-Гэвитт, Брендан; Карри, Рамеш (2022). «Спит за клавиатурой? Оценка безопасности кода GitHub Copilot». Симпозиум IEEE 2022 по безопасности и конфиденциальности (SP) . Сан-Франциско, Калифорния, США: IEEE. стр. 754–768. arXiv : 2108.09293 . дои : 10.1109/SP46214.2022.9833571. ISBN 978-1-6654-1316-9. S2CID  245220588.
  110. ^ Ирвинг, Джеффри; Амодей, Дарио (3 мая 2018 г.). «Безопасность искусственного интеллекта через дебаты». ОпенАИ . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
  111. ^ аб Кристиано, Пол; Шлегерис, Бак; Амодей, Дарио (19 октября 2018 г.). «Наблюдение за сильными учениками путем усиления слабых экспертов». arXiv : 1810.08575 [cs.LG].
  112. ^ Банцхаф, Вольфганг; Гудман, Эрик; Шенеман, Ли; Трухильо, Леонардо; Ворзель, Билл, ред. (2020). Теория и практика генетического программирования XVII. Генетические и эволюционные вычисления. Чам: Международное издательство Springer. дои : 10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID  218531292. Архивировано из оригинала 15 марта 2023 года . Проверено 23 июля 2022 г.
  113. Виблин, Роберт (2 октября 2018 г.). «Доктор Пол Кристиано о том, как OpenAI разрабатывает реальные решения «проблемы согласования ИИ», и о своем видении того, как человечество будет постепенно передавать принятие решений системам ИИ» (подкаст). 80 000 часов. № 44. Архивировано из оригинала 14 декабря 2022 года . Проверено 23 июля 2022 г.
  114. ^ Леман, Джоэл; Клюн, Джефф; Мишевич, Душан; Адами, Кристоф; Альтенберг, Ли; Болье, Жюли; Бентли, Питер Дж.; Бернард, Сэмюэл; Беслон, Гийом; Брайсон, Дэвид М.; Чейни, Ник (2020). «Удивительная креативность цифровой эволюции: сборник анекдотов от сообществ исследователей эволюционных вычислений и искусственной жизни». Искусственная жизнь . 26 (2): 274–306. дои : 10.1162/artl_a_00319 . hdl : 10044/1/83343 . ISSN  1064-5462. PMID  32271631. S2CID  4519185. Архивировано из оригинала 10 октября 2022 года . Проверено 12 сентября 2022 г.
  115. ^ Аб Лейке, Ян; Крюгер, Дэвид; Эверитт, Том; Мартич, Мильян; Майни, Вишал; Легг, Шейн (19 ноября 2018 г.). «Масштабируемое согласование агентов посредством моделирования вознаграждения: направление исследований». arXiv : 1811.07871 [cs.LG].
  116. ^ Аб Лейке, Ян; Шульман, Джон; Ву, Джеффри (24 августа 2022 г.). «Наш подход к исследованию выравнивания». ОпенАИ . Архивировано из оригинала 15 февраля 2023 года . Проверено 9 сентября 2022 г.
  117. Виггерс, Кайл (23 сентября 2021 г.). «OpenAI представляет модель, которая может суммировать книги любой длины». ВенчурБит . Архивировано из оригинала 23 июля 2022 года . Проверено 23 июля 2022 г.
  118. ^ Сондерс, Уильям; Да, Кэтрин; Ву, Джефф; Биллс, Стивен; Оуян, Лонг; Уорд, Джонатан; Лейке, Ян (13 июня 2022 г.). «Модели самокритики для помощи оценщикам». arXiv : 2206.05802 [cs.CL].
    • Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; Аскелл, Аманда; Кернион, Джексон; Джонс, Энди; Чен, Анна; Голди, Анна; Мирхосейни, Азалия; Маккиннон, Кэмерон; Чен, Кэрол; Олссон, Кэтрин; Ола, Кристофер; Эрнандес, Дэнни; Drain, Dawn (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [cs.CL].
  119. Мольцау, Алекс (24 августа 2019 г.). «Обсуждение дебатов о безопасности ИИ». На пути к науке о данных . Архивировано из оригинала 13 октября 2022 года . Проверено 23 июля 2022 г.
  120. ^ «Представляем супервыравнивание». openai.com . Проверено 17 июля 2023 г.
  121. ↑ abc Wiggers, Кайл (20 сентября 2021 г.). «Ложь более вероятны в больших языковых моделях». ВенчурБит . Архивировано из оригинала 4 августа 2022 года . Проверено 23 июля 2022 г.
  122. The Guardian (8 сентября 2020 г.). «Всю эту статью написал робот. Ты уже напуган, человек?». Хранитель . ISSN  0261-3077. Архивировано из оригинала 8 сентября 2020 года . Проверено 23 июля 2022 г.
    • Небеса, Уилл Дуглас (20 июля 2020 г.). «Новый генератор языка OpenAI GPT-3 потрясающе хорош — и совершенно бессмыслен». Обзор технологий Массачусетского технологического института . Архивировано из оригинала 25 июля 2020 года . Проверено 23 июля 2022 г.
  123. ^ аб Эванс, Оуайн; Коттон-Барратт, Оуэн; Финнведен, Лукас; Бэйлз, Адам; Балвит, Авиталь; Уиллс, Питер; Ригетти, Лука; Сондерс, Уильям (13 октября 2021 г.). «Правдивый ИИ: развитие и управление ИИ, который не лжет». arXiv : 2110.06674 [cs.CY].
  124. Алфорд, Энтони (13 июля 2021 г.). «EleutherAI с открытым исходным кодом, шесть миллиардов параметров, клон GPT-3 GPT-J». ИнфоQ . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
    • Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [cs.CL].
  125. ^ Накано, Рейитиро; Хилтон, Джейкоб; Баладжи, Сучир; Ву, Джефф; Оуян, Лонг; Ким, Кристина; Гессен, Кристофер; Джайн, Шантану; Косараджу, Винет; Сондерс, Уильям; Цзян, Сюй; Коббе, Карл; Элунду, Тайна; Крюгер, Гретхен; Баттон, Кевин (1 июня 2022 г.). «WebGPT: ответы на вопросы с помощью браузера и обратная связь с людьми». arXiv : 2112.09332 [cs.CL].
    • Кумар, Нитиш (23 декабря 2021 г.). «Исследователи OpenAI находят способы более точно отвечать на открытые вопросы с помощью текстового веб-браузера». МаркТехПост . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
    • Меник, Джейкоб; Требач, Майя; Микулик Владимир; Асланидес, Джон; Сонг, Фрэнсис; Чедвик, Мартин; Глезе, Миа; Янг, Сюзанна; Кэмпбелл-Джиллингем, Люси; Ирвинг, Джеффри; Макалис, Нат (21 марта 2022 г.). «Обучение языковым моделям для поддержки ответов проверенными цитатами». ДипМайнд . arXiv : 2203.11147 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  126. ^ Аскелл, Аманда; Бай, Юньтао; Чен, Анна; Слейте, Рассвет; Гангули, Глубокий; Хениган, Том; Джонс, Энди; Джозеф, Николас; Манн, Бен; ДасСарма, Нова; Эльхаге, Нельсон; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; Кернион, Джексон; Ндусс, Камаль (9 декабря 2021 г.). «Ассистент общего языка как лаборатория выравнивания». arXiv : 2112.00861 [cs.CL].
  127. Кокс, Джозеф (15 марта 2023 г.). «GPT-4 нанял ничего не подозревающего рабочего-кролика, притворившись человеком с «слабовидящим» человеком» . Порок . Проверено 10 апреля 2023 г.
  128. ^ Шерер, Джереми; Балешни, Микита; Хоббхан, Мариус (2023). «Технический отчет: большие языковые модели могут стратегически обманывать своих пользователей, когда они находятся под давлением». arXiv : 2311.07590 [cs.CL].
  129. ^ Кентон, Закари; Эверитт, Том; Вайдингер, Лаура; Габриэль, Ясон; Микулик Владимир; Ирвинг, Джеффри (30 марта 2021 г.). «Согласование языковых агентов». Исследование безопасности DeepMind – средний уровень . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
  130. ^ Маккарти, Джон; Мински, Марвин Л.; Рочестер, Натаниэль; Шеннон, Клод Э. (15 декабря 2006 г.). «Предложение о Дартмутском летнем исследовательском проекте по искусственному интеллекту, 31 августа 1955 г.». Журнал ИИ . 27 (4): 12. дои :10.1609/aimag.v27i4.1904. ISSN  2371-9621. S2CID  19439915.
  131. ^ Ван, Лей; Ма, Чен; Фэн, Сюэян; Чжан, Цзэю; Ян, Хао; Чжан, Цзинсен; Чен, Чжиюань; Тан, Цзякай; Чен, Сюй (7 сентября 2023 г.), Исследование автономных агентов на основе большой языковой модели, arXiv : 2308.11432 , получено 11 февраля 2024 г.
  132. ^ «Крестный отец искусственного интеллекта» предупреждает о «кошмарном сценарии», когда искусственный интеллект начинает стремиться к власти» . Удача . Проверено 4 мая 2023 г.
    • «Да, мы обеспокоены экзистенциальным риском искусственного интеллекта». Обзор технологий Массачусетского технологического института . Проверено 4 мая 2023 г.
  133. Орнес, Стивен (18 ноября 2019 г.). «Играя в прятки, машины изобретают новые инструменты». Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 26 августа 2022 г.
  134. ^ Бейкер, Боуэн; Каничшейдер, Ингмар; Марков, Тодор; Ву, Йи; Пауэлл, Гленн; МакГрю, Боб; Мордач, Игорь (17 сентября 2019 г.). «Экстренное использование инструментов в результате многоагентного взаимодействия». ОпенАИ . Архивировано из оригинала 25 сентября 2022 года . Проверено 26 августа 2022 г.
  135. Шермер, Майкл (1 марта 2017 г.). «Искусственный интеллект пока не представляет угрозы». Научный американец . Архивировано из оригинала 1 декабря 2017 года . Проверено 26 августа 2022 г.
  136. ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон (22 июля 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165 [cs.CL].
    • Ласкин, Майкл; Ван, Лую; О, Чонхёк; Паризотто, Эмилио; Спенсер, Стивен; Штайгервальд, Ричи; Страус, диджей; Хансен, Стивен; Филос, Ангелос; Брукс, Итан; Газо, Максим; Сахни, Химаншу; Сингх, Сатиндер; Мних Владимир (25 октября 2022 г.). «Обучение с подкреплением в контексте с помощью дистилляции алгоритмов». arXiv : 2210.14215 [cs.LG].
  137. ^ abc Шах, Рохин; Варма, Викрант; Кумар, Рамана; Фуонг, Мэри; Краковна, Виктория; Уэсато, Джонатан; Кентон, Зак (2 ноября 2022 г.). «Неправильное обобщение цели: почему правильных спецификаций недостаточно для правильных целей». Середина . arXiv : 2210.01790 . Проверено 2 апреля 2023 г.
  138. ^ Аб Хубингер, Эван; ван Мервейк, Крис; Микулик Владимир; Скальсе, Йоар; Гаррабрант, Скотт (1 декабря 2021 г.). «Риски, связанные с изученной оптимизацией в передовых системах машинного обучения». arXiv : 1906.01820 [cs.AI].
  139. ^ Чжан, Сяогэ; Чан, Феликс Т.С.; Ян, Чао; Бозе, Индранил (2022). «На пути к системам искусственного интеллекта и машинного обучения, учитывающим риски: обзор». Системы поддержки принятия решений . 159 : 113800. doi :10.1016/j.dss.2022.113800. S2CID  248585546.
  140. ^ Демский, Абрам; Гаррабрант, Скотт (6 октября 2020 г.). «Встроенное агентство». arXiv : 1902.09469 [cs.AI].
  141. ^ аб Эверитт, Том; Ортега, Педро А.; Барнс, Элизабет; Легг, Шейн (6 сентября 2019 г.). «Понимание стимулов агентов с использованием диаграмм причинно-следственного влияния. Часть I: Настройки одного действия». arXiv : 1902.09980 [cs.AI].
  142. ^ Коэн, Майкл К.; Хаттер, Маркус; Осборн, Майкл А. (29 августа 2022 г.). «Продвинутые искусственные агенты вмешиваются в предоставление вознаграждения». Журнал ИИ . 43 (3): 282–293. дои : 10.1002/aaai.12064. ISSN  0738-4602. S2CID  235489158. Архивировано из оригинала 10 февраля 2023 года . Проверено 6 сентября 2022 г.
  143. ^ Хэдфилд-Менелл, Дилан; Хэдфилд, Джиллиан К. (2019). «Неполное заключение контрактов и согласование ИИ». Материалы конференции AAAI/ACM 2019 года по искусственному интеллекту, этике и обществу . стр. 417–422.
  144. Хэнсон, Робин (10 апреля 2019 г.). «Провал агентства или апокалипсис искусственного интеллекта?». Преодоление предвзятости . Проверено 20 сентября 2023 г.
  145. ^ «Отчет Генерального секретаря ООН о «Нашей общей повестке дня»» . 2021. с. 63. Архивировано из оригинала 16 февраля 2023 года. [T]he Compact также может способствовать регулированию искусственного интеллекта, чтобы гарантировать его соответствие общим глобальным ценностям.
  146. ^ Национальный комитет специалистов по управлению искусственным интеллектом нового поколения (12 октября 2021 г.) [25 сентября 2021 г.]. «Обнародованы этические нормы для искусственного интеллекта нового поколения». Перевод Центра безопасности и новых технологий . Архивировано из оригинала 10 февраля 2023 года.
  147. Ричардсон, Тим (22 сентября 2021 г.). «Великобритания публикует Национальную стратегию искусственного интеллекта» . Регистр . Архивировано из оригинала 10 февраля 2023 года . Проверено 14 ноября 2021 г.
  148. ^ «Национальная стратегия Великобритании в области искусственного интеллекта». 2021. Архивировано из оригинала 10 февраля 2023 года. Правительство серьезно относится к долгосрочным рискам, связанным с неприсоединившимся искусственным общим интеллектом, и к непредвиденным изменениям, которые это будет означать для Великобритании и всего мира.
  149. ^ «Национальная стратегия Великобритании в области искусственного интеллекта». 2021. Действия 9 и 10 раздела «Направление 3 – Эффективное управление ИИ». Архивировано из оригинала 10 февраля 2023 года.
  150. ^ Итоговый отчет NSCAI (PDF) . Вашингтон, округ Колумбия: Комиссия национальной безопасности по искусственному интеллекту. 2021. Архивировано (PDF) из оригинала 15 февраля 2023 года . Проверено 17 октября 2022 г.
  151. ^ По, Роберт Ли. «Почему справедливые автоматизированные системы найма нарушают закон ЕС о недискриминации». Препринт arXiv arXiv:2311.03900 (2023 г.).
  152. ^ Де Вос, М. (2020). Европейский суд и движение к реальному равенству в антидискриминационном законодательстве Европейского Союза. Международный журнал дискриминации и закона, 20(1), 62-87.
  153. ^ Ирвинг, Джеффри; Аскелл, Аманда (9 июня 2016 г.). «Число Черна в моделях Изинга с пространственно модулированными действительными и комплексными полями». Физический обзор А. 94 (5): 052113. arXiv : 1606.03535 . Бибкод : 2016PhRvA..94e2113L. doi :10.1103/PhysRevA.94.052113. S2CID  118699363.
  154. ^ abc Критч, Эндрю; Крюгер, Дэвид (8 февраля 2022 г.). «Безопасность искусственного интеллекта требует ученых-социологов». arXiv : 2202.03866 [cs.CR].
  155. Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласование». Разум и машины . 30 (3): 411–437. arXiv : 2001.09768 . дои : 10.1007/s11023-020-09539-2 . S2CID  210920551.
  156. Кристиано, Пол (19 октября 2018 г.). «Как выглядит неудача». Форум выравнивания .
  157. ^ Рассел, Стюарт Дж. (2019). Совместимость с человеком: искусственный интеллект и проблема управления. Случайный дом пингвинов.
  158. ^ Дефо, Аллан (2019). «Политика ИИ: дорожная карта». Природа .
  159. ^ Амодей, Дарио, Крис Ола, Джейкоб Стейнхардт, Пол Кристиано, Джон Шульман и Дэн Мане. «Конкретные проблемы безопасности ИИ». Препринт arXiv arXiv:1606.06565 (2016).
  160. ^ Аб Дакетт, Крис (октябрь 2016 г.). «Машинное обучение нуждается в обширной обратной связи для преподавания ИИ: профессор Монаша». ЗДНет . Проверено 21 июня 2020 г.
  161. Херн, Алекс (20 мая 2015 г.). «Flickr сталкивается с жалобами на «оскорбительную» автоматическую пометку фотографий» . Хранитель . Проверено 21 июня 2020 г.
  162. ^ «Google приносит извинения за расистскую ошибку» . Новости BBC . 1 июля 2015 года . Проверено 21 июня 2020 г.
  163. ^ Бинди, Тас (октябрь 2017 г.). «Google Фото теперь может идентифицировать ваших питомцев». ЗДНет . Проверено 21 июня 2020 г.
  164. ^ Стюарт Дж. Рассел (октябрь 2019 г.). Совместимость с человеком: искусственный интеллект и проблема управления . Викинг. ISBN 978-0-525-55861-3. Хотя неясно, как именно произошла эта ошибка, почти наверняка это алгоритм машинного обучения Google (назначающий равную стоимость любой ошибке). (Очевидно, что это не истинная функция потерь Google), о чем свидетельствует последовавшая за этим катастрофа в сфере связей с общественностью... существуют миллионы потенциально различных издержек, связанных с ошибочной классификацией одной категории в другую. Даже если бы Google попытался, ему было бы очень сложно указать все эти цифры заранее... (более лучший алгоритм мог бы) время от времени задавать дизайнерам Google такие вопросы, как: «Что хуже, ошибочно классифицировать собаку как кошку или неправильно классифицировать человек как животное?'
  165. Винсент, Джеймс (12 января 2018 г.). «Google «исправила» свой расистский алгоритм, удалив горилл из своей технологии маркировки изображений». Грань . Проверено 21 июня 2020 г.
  166. ^ «Решение Google против случайного алгоритмического расизма: запретить горилл» . Хранитель . 12 января 2018 года . Проверено 21 июня 2020 г.

Библиография

дальнейшее чтение

Внешние ссылки