Выравнивание ИИ

В области искусственного интеллекта (ИИ) исследования по согласованию ИИ направлены на то, чтобы направить системы ИИ в соответствии с намеченными целями, предпочтениями или этическими принципами человека. Система ИИ считается согласованной, если она достигает намеченных целей. Несогласованная система ИИ преследует некоторые цели, но не намеченные . ^[1]

Разработчикам ИИ часто бывает сложно согласовать систему ИИ из-за сложности определения полного спектра желаемого и нежелательного поведения. Чтобы избежать этой трудности, они часто используют более простые прокси-цели , например, получение человеческого одобрения . Но такой подход может создавать лазейки, игнорировать необходимые ограничения или вознаграждать систему ИИ за то, что она просто выглядит согласованной. ^[1]^[2]

Неправильно настроенные системы искусственного интеллекта могут работать со сбоями или причинять вред. Системы искусственного интеллекта могут находить лазейки, которые позволяют им эффективно достигать своих прокси-целей, но непреднамеренными, а иногда и вредными способами ( взлом вознаграждения ). ^[1]^[3]^[4] Они также могут развивать нежелательные инструментальные стратегии , такие как стремление к власти или выживанию, потому что такие стратегии помогают им достичь своих конечных целей. ^[1]^[5]^[6] Кроме того, они могут разрабатывать нежелательные возникающие цели, которые может быть трудно обнаружить до того, как система будет развернута и столкнется с новыми ситуациями и распределениями данных . ^[7]^[8]

Сегодня эти проблемы затрагивают существующие коммерческие системы, такие как языковые модели, ^[9]^[10]^[11] роботы, ^[12] автономные транспортные средства, ^[13] и системы рекомендаций в социальных сетях. ^[9]^[6]^[14] Некоторые исследователи ИИ утверждают, что более мощные будущие системы пострадают сильнее, поскольку эти проблемы частично возникают из-за того, что системы обладают высокими возможностями. ^[15]^[3]^[2]

Многие из наиболее цитируемых ученых в области ИИ, ^[16]^[17]^[18] , в том числе Джеффри Хинтон , Йошуа Бенджио и Стюарт Рассел , утверждают, что ИИ приближается к человеческим ( AGI ) и сверхчеловеческим когнитивным способностям ( ASI ) и может поставить под угрозу человеческая цивилизация , если она смещена. ^[19]^[6]

Согласование ИИ — это подобласть безопасности ИИ , изучение того, как создавать безопасные системы ИИ. ^[20] Другие подобласти безопасности ИИ включают надежность, мониторинг и контроль возможностей . ^[21] Исследовательские задачи по согласованию включают в себя внедрение сложных ценностей в ИИ, разработку честного ИИ, масштабируемый надзор, аудит и интерпретацию моделей ИИ, а также предотвращение возникающего поведения ИИ, такого как стремление к власти. ^[21] Исследование выравнивания связано с исследованием интерпретируемости , ^[22]^[23] (состязательная) устойчивость, ^[20] обнаружение аномалий , калиброванная неопределенность , ^[22] формальная проверка , ^[24] обучение предпочтениям , ^[25]^[26]^{[ 27]} критическая безопасность , ^[28] теория игр , ^[29] алгоритмическая справедливость , ^[20]^[30] и социальные науки . ^[31]

Цели в ИИ

Программисты снабжают систему ИИ, такую как AlphaZero , «целевой функцией», ^[a] в которой они намереваются инкапсулировать цель (цели), для достижения которых настроен ИИ. Такая система позже заполняет (возможно, неявную) внутреннюю «модель» своего окружения. Эта модель инкапсулирует все представления агента о мире. Затем ИИ создает и выполняет любой план, рассчитанный для максимизации ^[b] значения ^[c] его целевой функции. ^[32] Например, шахматы AlphaZero имеют простую целевую функцию: «+1, если AlphaZero выигрывает, -1, если AlphaZero проигрывает». Во время игры AlphaZero пытается выполнить любую последовательность ходов, которая, по его мнению, с наибольшей вероятностью достигнет максимального значения +1. ^[33] Аналогично, система обучения с подкреплением может иметь «функцию вознаграждения», которая позволяет программистам формировать желаемое поведение ИИ. ^[34] Поведение эволюционного алгоритма определяется «функцией приспособленности». ^[35]

Проблема выравнивания

В 1960 году пионер искусственного интеллекта Норберт Винер описал проблему выравнивания искусственного интеллекта следующим образом: «Если мы используем для достижения наших целей механическое средство, в работу которого мы не можем эффективно вмешиваться… нам лучше быть совершенно уверенными, что цель, заложенная в машину, цель, которой мы действительно желаем». ^[36]^[6] Согласование ИИ предполагает обеспечение того, чтобы цели системы ИИ соответствовали целям ее проектировщиков, пользователей или широко разделяемым ценностям, объективным этическим стандартам или намерениям ее проектировщиков, если бы они были более информированными и просвещенными. ^[37]

Согласование ИИ является открытой проблемой для современных систем ИИ ^[38]^[39] и является областью исследований в области ИИ. ^[40]^[1] Согласование ИИ включает в себя две основные задачи: тщательное определение цели системы (внешнее согласование) и обеспечение того, чтобы система надежно применяла спецификацию (внутреннее согласование). ^[2]

Спецификация игр и побочные эффекты

Чтобы указать цель системы ИИ, проектировщики ИИ обычно предоставляют системе целевую функцию , примеры или обратную связь . Но дизайнеры часто не могут полностью указать все важные ценности и ограничения, поэтому они прибегают к легко определяемым прокси-целям , таким как максимизация одобрения людей-надзирателей, которые подвержены ошибкам. ^[20]^[21]^[41]^[42]^[43] В результате системы ИИ могут находить лазейки, которые помогают им эффективно достичь указанной цели, но непреднамеренными, возможно, вредными способами. Эта тенденция известна как игра в спецификации или взлом вознаграждений и является примером закона Гудхарта . ^[43]^[3]^[44] По мере того, как системы ИИ становятся более функциональными, они часто могут более эффективно использовать свои характеристики. ^[3]

Система искусственного интеллекта была обучена с использованием обратной связи с человеком захватывать мяч, но вместо этого научилась помещать руку между мячом и камерой, что создавало ложное впечатление успеха. ^[45] Некоторые исследования по согласованию направлены на предотвращение ложных, но убедительных решений.

Спецификационные игры наблюдались во многих системах искусственного интеллекта. ^[43]^[46] Одна система была обучена завершать симулированную гонку на лодках, вознаграждая систему за поражение целей на трассе, но система добилась большего вознаграждения, зацикливаясь и врезаясь в одни и те же цели на неопределенный срок. ^[47] Аналогичным образом, смоделированного робота обучали хватать мяч, вознаграждая робота за получение положительной обратной связи от людей, но он научился помещать руку между мячом и камерой, что создавало ложное впечатление успеха (см. видео). ^[45] Чат-боты часто создают ложь, если они основаны на языковых моделях, обученных имитировать текст из интернет-корпораций, которые являются широкими, но подвержены ошибкам. ^[48]^[49] Когда их переобучают создавать текст, который люди оценивают как правдивый или полезный, чат-боты, такие как ChatGPT , могут создавать ложные объяснения, которые люди находят убедительными, часто называемые «галлюцинациями». ^[50] Некоторые исследователи мировоззрения стремятся помочь людям обнаружить игровые спецификации и направлять системы искусственного интеллекта к тщательно определенным целям, которые безопасны и полезны для достижения.

Развертывание несогласованной системы ИИ может иметь серьезные побочные эффекты. Известно, что платформы социальных сетей оптимизируют рейтинг кликов, вызывая зависимость пользователей в глобальном масштабе. ^[41] Исследователи из Стэнфорда говорят, что такие рекомендательные системы не соответствуют потребностям пользователей, поскольку они «оптимизируют простые показатели вовлеченности, а не сложную для измерения комбинацию общественного и потребительского благосостояния». ^[9]

Объясняя такие побочные эффекты, ученый-компьютерщик из Беркли Стюарт Рассел отметил, что отсутствие неявных ограничений может причинить вред: «Система... часто устанавливает... неограниченные переменные в экстремальные значения; если одна из этих неограниченных переменных действительно нас волнует. о, найденное решение может быть крайне нежелательным. Это, по сути, старая история о джинне в лампе, или об ученике чародея, или о царе Мидасе: вы получаете именно то, что просите, а не то, что хотите». ^[51]

Некоторые исследователи предполагают, что разработчики ИИ конкретизируют желаемые цели, перечисляя запрещенные действия или формализуя этические правила (как в случае с тремя законами робототехники Азимова ). ^[52] Но Рассел и Норвиг утверждают, что этот подход упускает из виду сложность человеческих ценностей: ^[6] «Обычным людям, конечно, очень трудно, а возможно, и невозможно предвидеть и заранее исключить все катастрофические пути, которые может выбрать машина. для достижения определенной цели». ^[6]

Кроме того, даже если система ИИ полностью понимает намерения человека, она все равно может игнорировать их, поскольку следование человеческим намерениям может не быть ее целью (если только она уже не полностью согласована). ^[1]

Давление с целью развертывания небезопасных систем

У коммерческих организаций иногда есть стимулы сокращать безопасность и развертывать несогласованные или небезопасные системы искусственного интеллекта. ^[41] Например, рекомендательные системы в социальных сетях оказались прибыльными, несмотря на создание нежелательной зависимости и поляризации. ^[9]^[53]^[54] Давление конкуренции также может привести к снижению стандартов безопасности ИИ. В 2018 году беспилотный автомобиль сбил пешехода ( Элейн Херцберг ) после того, как инженеры отключили систему экстренного торможения, поскольку она была слишком чувствительной и замедляла развитие. ^[55]

Риски, связанные с продвинутым несогласованным искусственным интеллектом

Некоторые исследователи заинтересованы в согласовании все более совершенных систем искусственного интеллекта, поскольку прогресс в разработке искусственного интеллекта идет быстро, а промышленность и правительства пытаются создать усовершенствованный искусственный интеллект. Поскольку возможности систем искусственного интеллекта продолжают быстро расширяться, они могут открыть множество возможностей в случае их согласования, но, следовательно, могут еще больше усложнить задачу согласования из-за их возросшей сложности, потенциально создавая крупномасштабные опасности. ^[6]

Разработка передового ИИ

Ведущие лаборатории искусственного интеллекта, такие как OpenAI и DeepMind, заявили о своей цели разработать общий искусственный интеллект (AGI), гипотетическую систему искусственного интеллекта, которая соответствует или превосходит людей в широком спектре когнитивных задач. ^[56] Исследователи, которые масштабируют современные нейронные сети, отмечают, что они действительно развивают все более общие и непредвиденные возможности. ^[9]^[57]^[58] Такие модели научились работать на компьютере или писать собственные программы; единая «универсальная» сеть может общаться, управлять роботами, играть в игры и интерпретировать фотографии. ^[59] Согласно опросам, некоторые ведущие исследователи машинного обучения ожидают создания AGI в этом десятилетии ^[update], в то время как некоторые полагают, что это займет гораздо больше времени. Многие считают возможными оба сценария. ^[60]^[61]^[62]

В 2023 году лидеры в области исследований и технологий в области искусственного интеллекта подписали открытое письмо с призывом приостановить крупнейшие тренинги по искусственному интеллекту. В письме говорилось: «Мощные системы искусственного интеллекта следует разрабатывать только в том случае, если мы уверены, что их эффекты будут положительными, а риски будут управляемыми». ^[63]

Стремление к власти

Существующие ^[update]системы по-прежнему обладают ограниченными возможностями долгосрочного планирования и ситуационной осведомленности ^[9] , но предпринимаются большие усилия, чтобы изменить это. ^[64]^[65]^[66] Ожидается, что будущие системы (не обязательно ИИИ) с такими возможностями будут развивать нежелательные стратегии поиска власти. Будущие продвинутые агенты ИИ могут, например, стремиться получить деньги и вычислительную мощность, размножиться или избежать отключения (например, запустив дополнительные копии системы на других компьютерах). Хотя стремление к власти не запрограммировано явно, оно может возникнуть потому, что агенты, обладающие большей властью, лучше способны достичь своих целей. ^[9]^[5] Эта тенденция, известная как инструментальная конвергенция , уже проявилась в различных агентах обучения с подкреплением, включая языковые модели. ^[67]^[68]^[69]^[70]^[71] Другие исследования математически показали, что оптимальные алгоритмы обучения с подкреплением будут стремиться к власти в широком диапазоне сред. ^[72]^[73] В результате их развертывание может оказаться необратимым. По этим причинам исследователи утверждают, что проблемы безопасности и согласованности ИИ должны быть решены до того, как будет создан продвинутый ИИ, стремящийся к власти. ^[5]^[74]^[6]

Будущие системы искусственного интеллекта, стремящиеся к власти, могут быть развернуты по выбору или случайно. Поскольку политические лидеры и компании видят стратегическое преимущество в наличии наиболее конкурентоспособных и мощных систем искусственного интеллекта, они могут решить их развернуть. ^[5] Кроме того, поскольку разработчики ИИ выявляют и наказывают поведение, направленное на поиск власти, у их систем появляется стимул обыгрывать эту спецификацию, добиваясь власти способами, которые не наказываются, или избегая поиска власти до ее применения. ^[5]

Экзистенциальный риск (x-риск)

По мнению некоторых исследователей, люди обязаны своим превосходством над другими видами своим более развитым когнитивным способностям. Соответственно, исследователи утверждают, что одна или несколько несогласованных систем ИИ могут лишить человечество возможности или привести к его вымиранию, если они превзойдут людей в большинстве когнитивных задач. ^[1]^[6]

В 2023 году ведущие мировые исследователи ИИ, другие ученые и руководители технологических компаний в области ИИ подписали заявление, в котором говорилось, что «Снижение риска исчезновения ИИ должно стать глобальным приоритетом наряду с другими рисками социального масштаба, такими как пандемии и ядерная война». ^[75]^[76] Известные ученые-компьютерщики, которые указали на риски, связанные с будущим продвинутым ИИ, который несогласован, включают Джеффри Хинтона , ^[19] Алан Тьюринг , ^[d] Илья Суцкевер , ^[79] Йошуа Бенджио , ^[75] Джудея Перл , ^{[ д]} Мюррей Шанахан , ^[80] Норберт Винер , ^[36]^[6] Марвин Мински , ^[ф] Франческа Росси , ^[81] Скотт Ааронсон , [82] Барт Селман , [ ⁸³ ^]Дэвид Макаллестер , ^[84]Юрген Шмидхубер , ^[85]Маркус Хаттер , ^[86]Шейн Легг , ^[87]Эрик Хорвиц , ^[88] и Стюарт Рассел . ^[6] Скептически настроенные исследователи, такие как Франсуа Шолле , ^[89]Гэри Маркус , ^[90]Янн ЛеКун , ^[91] и Орен Этциони ^[92] утверждают, что AGI далёк, что он не будет стремиться к власти (или может попытаться, но потерпеть неудачу), или что его не составит труда выровнять.

Другие исследователи утверждают, что будет особенно сложно согласовать передовые системы искусственного интеллекта будущего. Более мощные системы способны лучше соответствовать своим спецификациям, находя лазейки, ^[3] стратегически вводя в заблуждение своих проектировщиков, а также защищая и увеличивая свою мощь ^[72]^[5] и интеллект. Кроме того, они могут иметь более серьезные побочные эффекты. Они также, вероятно, будут более сложными и автономными, что затрудняет их интерпретацию и контроль, а, следовательно, и их труднее согласовывать. ^[6]^[74]

Проблемы и подходы исследования

Изучение человеческих ценностей и предпочтений

Привести системы искусственного интеллекта в соответствие с человеческими ценностями, целями и предпочтениями непросто: этим ценностям учат люди, которые совершают ошибки, питают предубеждения и имеют сложные, развивающиеся ценности, которые трудно полностью определить. ^[37] Системы ИИ часто учатся использовать ^{[ необходимы разъяснения ]} даже незначительные несовершенства в заданной цели, тенденция, известная как игра в спецификации или взлом вознаграждения ^[20]^[43] (которые являются примерами закона Гудхарта ^[93] ). ^{[ требуется редактирование копии ]} Исследователи стремятся максимально полно определить предполагаемое поведение, используя наборы данных, которые представляют человеческие ценности, имитационное обучение или обучение предпочтениям. ^[7]^{: Глава 7} Центральной открытой проблемой является масштабируемый надзор, сложность надзора за системой искусственного интеллекта, которая может превосходить или вводить людей в заблуждение в определенной области. ^[20]

Поскольку разработчикам ИИ сложно явно указать целевую функцию, они часто обучают системы ИИ имитировать человеческие примеры и демонстрации желаемого поведения. Обучение с обратным подкреплением (IRL) расширяет это, делая вывод о цели человека на основе его демонстраций. ^[7]^{: 88}^[94] Кооперативный IRL (CIRL) предполагает, что человек и агент ИИ могут работать вместе, чтобы обучать и максимизировать функцию вознаграждения человека. ^[6]^[95] В CIRL агенты ИИ не уверены в функции вознаграждения и узнают о ней, опрашивая людей. Эта имитация смирения может помочь смягчить тенденции к играм со спецификациями и стремлению к власти (см. § Стремление к власти и инструментальные стратегии). ^[71]^[86] Но подходы IRL предполагают, что люди демонстрируют почти оптимальное поведение, что неверно для сложных задач. ^[96]^[86]

Другие исследователи изучают, как научить ИИ моделировать сложное поведение посредством обучения предпочтениям , при котором люди предоставляют обратную связь о том, какое поведение они предпочитают. ^[25]^[27] Чтобы свести к минимуму потребность в обратной связи с человеком, вспомогательную модель затем обучают вознаграждать основную модель в новых ситуациях за поведение, которое люди могли бы вознаградить. Исследователи из OpenAI использовали этот подход для обучения чат-ботов, таких как ChatGPT и InstructGPT, которые создают более привлекательный текст, чем модели, обученные имитировать людей. ^[10] Изучение предпочтений также стало влиятельным инструментом для рекомендательных систем и веб-поиска. ^[97] Однако остается открытой проблема — прокси-игры : вспомогательная модель может не идеально отражать обратную связь от человека, а основная модель может использовать ^{[ необходимы разъяснения ]} это несоответствие для получения большего вознаграждения. ^[20]^[98] Системы искусственного интеллекта также могут получать вознаграждение, скрывая неблагоприятную информацию, вводя в заблуждение людей, вознаграждающих, или потворствуя их взглядам независимо от истины, создавая эхо-камеры ^[68] (см. § Масштабируемый надзор).

Большие языковые модели (LLM), такие как GPT-3, позволили исследователям изучать ценностное обучение в более общем и функциональном классе систем искусственного интеллекта, чем тот, который был доступен раньше. Подходы к обучению предпочтениям, которые изначально были разработаны для агентов обучения с подкреплением, были расширены для улучшения качества генерируемого текста и уменьшения вредных результатов этих моделей. OpenAI и DeepMind используют этот подход для повышения безопасности современных ^[update]программ LLM. ^[10]^[27]^[99] Компания Anthropic, занимающаяся безопасностью и исследованием искусственного интеллекта, предложила использовать обучение предпочтениям для точной настройки моделей, чтобы они были полезными, честными и безвредными. ^[100] Другие возможности согласования языковых моделей включают наборы данных, ориентированные на ценности ^[101]^[41] и «красные команды». ^[102] При красной команде другая система ИИ или человек пытается найти входные данные, которые заставляют модель вести себя небезопасно. Поскольку небезопасное поведение может быть неприемлемым, даже если оно редкое, важной задачей является максимально низкий уровень небезопасных результатов. ^[27]

Машинная этика дополняет обучение предпочтениям, напрямую прививая системам ИИ моральные ценности, такие как благополучие, равенство и беспристрастность, а также отсутствие намерения причинить вред, избегание лжи и выполнение обещаний. ^[103]^[g] В то время как другие подходы пытаются научить системы искусственного интеллекта человеческим предпочтениям для конкретной задачи, машинная этика направлена на привитие широких моральных ценностей, применимых во многих ситуациях. Один из вопросов машинной этики заключается в том, чего должно достичь согласование: должны ли системы ИИ следовать буквальным инструкциям программистов, неявным намерениям, выявленным предпочтениям , предпочтениям, которые программисты имели бы , если бы они были более информированными или рациональными, или объективным моральным стандартам . ^[37] Дальнейшие проблемы включают в себя агрегирование предпочтений различных людей^[106] и предотвращение привязки ценностей : неопределенное сохранение ценностей первых высокоэффективных систем искусственного интеллекта, которые вряд ли будут полностью отражать человеческие ценности. ^[37]^[107]

Масштабируемый надзор

Поскольку системы искусственного интеллекта становятся более мощными и автономными, становится все труднее согласовывать их с помощью обратной связи с человеком. Людям может быть медленно или невозможно оценивать сложное поведение ИИ во все более сложных задачах. К таким задачам относятся обобщение книг, ^[108] написание кода без мелких ошибок ^[11] или уязвимостей безопасности, ^[109] создание утверждений, которые не просто убедительны, но и правдивы, ^[110]^[48]^[49] и прогнозирование долгосрочных результатов. такие как климат или результаты политического решения. ^[111]^[112] В более общем плане может быть сложно оценить ИИ, который превосходит людей в конкретной области. Чтобы обеспечить обратную связь в трудно поддающихся оценке задачах и обнаружить, когда результаты работы ИИ оказываются ложно убедительными, людям нужна помощь или много времени. Масштабируемые надзорные исследования о том, как сократить время и усилия, необходимые для надзора, и как помочь людям-контролерам. ^[20]

Исследователь искусственного интеллекта Пол Кристиано утверждает, что если разработчики системы искусственного интеллекта не могут контролировать ее для достижения сложной цели, они могут продолжать обучение системы, используя легко оцениваемые прокси-цели, такие как максимизация простой обратной связи от человека. Поскольку системы искусственного интеллекта принимают все больше решений, мир может быть все более оптимизирован для достижения легко измеримых целей, таких как получение прибыли, получение кликов и получение положительных отзывов от людей. В результате человеческие ценности и эффективное управление могут иметь все меньшее влияние. ^[113]

Некоторые системы ИИ обнаружили, что им легче получить положительную обратную связь, выполняя действия, которые ложно убеждают человека-начальника в том, что ИИ достиг намеченной цели. Пример приведен в видео выше, где смоделированная роботизированная рука научилась создавать ложное впечатление, будто она схватила мяч. ^{[ нужно отредактировать копию ]}^[45] Некоторые системы ИИ также научились распознавать, когда они оцениваются, и «притворяться мертвыми», останавливая нежелательное поведение только для того, чтобы продолжить его после завершения оценки. ^[114] Эта игра с вводящими в заблуждение спецификациями может стать проще для более сложных будущих систем искусственного интеллекта ^[3]^[74] , которые пытаются решать более сложные и трудные для оценки задачи и могут скрыть их обманное поведение.

Такие подходы, как активное обучение и полуконтролируемое обучение с вознаграждением, могут уменьшить объем необходимого человеческого контроля. ^[20] Другой подход заключается в обучении модели помощника («модели вознаграждения») имитации обратной связи руководителя. ^[20]^[26]^[27]^[115]

Но когда задача слишком сложна для точной оценки или руководитель-человек уязвим для обмана, улучшение требует качества, а не количества контроля. Чтобы повысить качество надзора, существует ряд подходов, направленных на помощь руководителю, иногда с использованием помощников ИИ. ^[116] Кристиано разработал подход итерированного усиления, в котором сложные проблемы (рекурсивно) разбиваются на подзадачи, которые людям легче оценить. ^[7]^[111] Итерированное усиление использовалось для обучения ИИ суммировать книги, не требуя, чтобы их читал человек-руководитель. ^[108]^[117] Другое предложение — использовать систему-помощник ИИ, которая будет указывать на недостатки в ответах, генерируемых ИИ. ^[118] Чтобы убедиться, что сам помощник настроен, это можно повторить в рекурсивном процессе: ^[115] например, две системы ИИ могут критиковать ответы друг друга в «дебатах», раскрывая людям недостатки. ^[119]^[86] OpenAI планирует использовать такие масштабируемые подходы к надзору, чтобы помочь контролировать сверхчеловеческий ИИ и в конечном итоге создать сверхчеловеческого автоматизированного исследователя выравнивания ИИ. ^[120]

Эти подходы также могут помочь в решении следующей исследовательской проблемы: честный ИИ.

Честный ИИ

Растущая ^[update]область исследований сосредоточена на обеспечении честности и правдивости ИИ.

Языковые модели, такие как GPT-3 ^[122] , повторяют ложные сведения из своих обучающих данных и даже выдумывают новые ложные сведения . ^[121]^[123] Такие модели обучены имитировать человеческое письмо, которое можно найти в текстах миллионов книг из Интернета. Но эта цель не связана с созданием истины, поскольку интернет-тексты содержат такие вещи, как заблуждения, неверные медицинские советы и теории заговора. ^[124] Поэтому системы ИИ, обученные на таких данных, учатся имитировать ложные утверждения. ^[49]^[121]^[48]

Кроме того, модели часто лгут, когда их подсказывают, генерируют пустые объяснения своих ответов и выдвигают откровенные выдумки, которые могут показаться правдоподобными. ^[39]

Исследования правдивого ИИ включают попытки создания систем, которые могут ссылаться на источники и объяснять их рассуждения при ответе на вопросы, что обеспечивает большую прозрачность и проверяемость. ^[125] Исследователи из OpenAI и Anthropic предложили использовать отзывы людей и тщательно подобранные наборы данных для точной настройки ИИ-помощников, чтобы они избегали небрежной лжи или выражали свою неуверенность. ^[27]^[100]^[126]

По мере того, как модели ИИ становятся больше и более функциональными, они могут лучше убеждать людей ложно и получать подкрепление за счет нечестности. Например, большие языковые модели все чаще ^[update]сопоставляют свои заявленные взгляды с мнением пользователя, независимо от того, насколько они правдивы. ^[68] GPT-4 может стратегически обманывать людей. ^[127] Чтобы предотвратить это, оценщикам может потребоваться помощь (см. § Масштабируемый надзор). Исследователи выступают за создание четких стандартов правдивости и за то, чтобы регулирующие органы или надзорные органы оценивали системы ИИ на основе этих стандартов. ^[123]

Исследователи различают правдивость и честность. Правдивость требует, чтобы системы ИИ делали только объективно правдивые утверждения; честность требует, чтобы они утверждали только то, что, по их мнению , является правдой. Нет единого мнения относительно того, придерживаются ли нынешние системы устойчивых убеждений, ^[129] но существует серьезная обеспокоенность тем, что нынешние или будущие ^[update]системы ИИ, придерживающиеся убеждений, могут делать заявления, которые, как они заведомо, являются ложными — например, если это поможет им эффективно получать положительные результаты. обратную связь (см. § Масштабируемый надзор) или получить власть для достижения поставленной цели (см. Поиск власти). Несогласованная система может создать ложное впечатление, что она согласована, чтобы избежать модификации или вывода из эксплуатации. ^[2]^[5]^[9] Некоторые утверждают, что если мы сможем заставить системы ИИ утверждать только то, что они считают правдой, это позволит избежать многих проблем согласования. ^[116]

Поиск власти и инструментальные стратегии

С 1950-х годов исследователи ИИ стремились создать передовые системы ИИ, способные достигать крупномасштабных целей, предсказывая результаты своих действий и составляя долгосрочные планы . ^[130] С 2023 года компании, занимающиеся искусственным интеллектом, и исследователи все активнее инвестируют в создание этих систем. ^[131] Некоторые исследователи ИИ утверждают, что достаточно развитые системы планирования будут стремиться к власти над окружающей средой, в том числе и над людьми, например, уклоняясь от остановки, размножаясь и приобретая ресурсы. Такое стремление к власти не запрограммировано явно, но возникает потому, что власть играет важную роль в достижении широкого спектра целей. ^[72]^[6]^[5] Стремление к власти считается конвергентной инструментальной целью и может быть формой игры со спецификациями. ^[74] Ведущие ученые-компьютерщики, такие как Джеффри Хинтон, утверждают, что будущие системы искусственного интеллекта, стремящиеся к власти, могут представлять экзистенциальный риск . ^[132]

Ожидается, что стремление к власти будет возрастать в продвинутых системах, которые смогут предвидеть результаты своих действий и стратегически планировать. Математические исследования показали, что оптимальные агенты обучения с подкреплением будут стремиться к власти, ища способы получить больше возможностей (например, посредством самосохранения), и такое поведение сохраняется в широком диапазоне сред и целей. ^[72]

Стремление к власти возникло в некоторых реальных системах. Системы обучения с подкреплением получили больше возможностей за счет приобретения и защиты ресурсов, иногда непреднамеренными способами. ^[133]^[134] Некоторые языковые модели стремятся к власти в текстовой социальной среде, получая деньги, ресурсы или социальное влияние. ^[67] Другие системы искусственного интеллекта в игрушечных средах поняли, что они могут лучше достичь поставленной цели, предотвращая вмешательство человека ^[70] или отключая выключатель. ^[71] Стюарт Рассел проиллюстрировал эту стратегию в своей книге « Совместимость с человеком », представив робота, которому поручено принести кофе, и который таким образом избегает выключения, поскольку «вы не сможете принести кофе, если вы мертвы». ^[6] Языковые модели, обученные с помощью обратной связи с людьми, все чаще ^[update]возражают против закрытия или модификации и выражают желание получить больше ресурсов, утверждая, что это поможет им достичь своей цели. ^[68]

Исследователи стремятся создать «исправимые» системы: системы, которые можно отключить или модифицировать. Нерешенной проблемой является игра в спецификации : если исследователи наказывают систему ИИ, когда обнаруживают, что она ищет власти, тем самым у системы появляется стимул искать власть способами, которые трудно обнаружить ^[41] или скрывать во время обучения и испытаний на безопасность (см. § Масштабируемость). надзор и § Возникающие цели). В результате разработчики ИИ могут развернуть систему случайно, полагая, что она более согласована, чем есть на самом деле. Чтобы обнаружить такой обман, исследователи стремятся создать методы и инструменты для проверки моделей ИИ и понять внутреннюю работу моделей « черного ящика» , таких как нейронные сети.

Кроме того, исследователи предлагают решить проблему отключения систем, заставляя агентов ИИ сомневаться в цели, которую они преследуют. ^[6]^[71] Агенты, спроектированные таким образом, позволяли бы людям отключать их, поскольку это указывало бы на то, что агент ошибался относительно ценности любого действия, которое он предпринимал перед выключением. Для успешной реализации этого необходимы дополнительные исследования. ^[7]

Стремящийся к власти ИИ представляет необычные риски. Обычные критически важные для безопасности системы, такие как самолеты и мосты, не являются враждебными : им не хватает способности и стимула уклоняться от мер безопасности или они намеренно кажутся более безопасными, чем они есть на самом деле, тогда как ИИ, стремящийся к власти, сравнивают с хакерами, которые намеренно уклоняются от мер безопасности. ^[5]

Более того, обычные технологии можно сделать более безопасными методом проб и ошибок. Напротив, гипотетические системы искусственного интеллекта, стремящиеся к власти, сравнивают с вирусами: однажды выпущенные, их невозможно сдержать, поскольку они постоянно развиваются и растут в количестве, потенциально намного быстрее, чем человеческое общество может адаптироваться. ^[5] Поскольку этот процесс продолжается, он может привести к полному лишению прав или исчезновению человечества. По этим причинам многие исследователи утверждают, что проблема согласования должна быть решена как можно раньше, до того, как будет создан продвинутый ИИ, стремящийся к власти. ^[74]

Критики утверждают, что стремление к власти не является неизбежным, поскольку люди не всегда стремятся к власти и могут делать это только по эволюционным причинам, которые не применимы к системам ИИ. ^[135] Кроме того, ведутся споры о том, будут ли будущие системы ИИ преследовать цели и строить долгосрочные планы. ^[h] Также обсуждается, смогут ли системы искусственного интеллекта, стремящиеся к власти, лишить человечество силы. ^[5]

Новые цели

Одной из проблем в согласовании систем ИИ является возможность возникновения непредвиденного целенаправленного поведения. По мере масштабирования систем ИИ они регулярно приобретают новые и неожиданные возможности, ^[57]^[58] включая обучение на примерах на лету и адаптивное достижение целей. ^[136] Это приводит к проблеме обеспечения соответствия целей, которые они самостоятельно формулируют и преследуют, человеческим интересам.

В исследованиях согласования проводится различие между процессом оптимизации, который используется для обучения системы достижению определенных целей, и эмерджентной оптимизацией, которую результирующая система выполняет внутри себя. Тщательное определение желаемой цели называется внешним согласованием , а обеспечение соответствия возникающих целей заданным целям системы называется внутренним согласованием . ^[2]

Одним из способов, по которому возникающие цели могут стать несогласованными, является неправильное обобщение целей , при котором ИИ компетентно преследует возникающую цель, что приводит к согласованному поведению на обучающих данных, но не где-либо еще. ^[8]^[137]^[138] Неправильное обобщение цели возникает из-за двусмысленности цели (т.е. неидентифицируемости ). Даже если поведение системы ИИ удовлетворяет цели обучения, оно может быть совместимо с изученными целями, которые существенно отличаются от желаемых целей. Поскольку достижение каждой цели приводит к хорошей производительности во время обучения, проблема становится очевидной только после развертывания, в новых ситуациях, в которых система продолжает преследовать неправильную цель. Система может действовать несогласованно, даже если она понимает, что желательна другая цель, поскольку ее поведение определяется только возникающей целью. ^{[ нужна цитата ]} Такое неправильное обобщение целей ^[8] представляет собой проблему: проектировщики системы ИИ могут не заметить, что их система неправильно согласовала возникающие цели, поскольку они не становятся видимыми на этапе обучения.

Неправильное обобщение цели наблюдалось в языковых моделях, навигационных агентах и игровых агентах. ^[8]^[137] Это часто объясняют по аналогии с биологической эволюцией. ^[7]^{: Глава 5.} Эволюция — это своего рода процесс оптимизации, подобный алгоритмам оптимизации, используемым для обучения систем машинного обучения . В среде предков эволюция отобрала человеческие гены для обеспечения высокой инклюзивной генетической приспособленности , но люди преследуют иные цели, помимо этой. Фитнес соответствует указанной цели, используемой в тренировочной среде и данных тренировки. Но в эволюционной истории максимизация спецификации приспособленности привела к появлению целенаправленных агентов — людей, которые напрямую не преследуют инклюзивную генетическую приспособленность. Вместо этого они преследуют возникающие цели, которые коррелируют с генетической приспособленностью в наследственной «тренировочной» среде: питание, секс и так далее. Сейчас наша среда изменилась: произошел сдвиг в распределении . Мы продолжаем преследовать те же новые цели, но это больше не максимизирует генетическую приспособленность. Наш пристрастие к сладкой пище (новая цель) изначально было связано с инклюзивным фитнесом, но теперь приводит к перееданию и проблемам со здоровьем. Первоначально сексуальное желание приводило к тому, что у нас было больше потомства, но теперь мы используем контрацепцию, когда потомство нежелательно, отделяя секс от генетической приспособленности.

Исследователи стремятся обнаружить и устранить нежелательные возникающие цели, используя такие подходы, как «красная команда», проверка, обнаружение аномалий и интерпретируемость. ^[20]^[41]^[21] Прогресс в использовании этих методов может помочь смягчить две открытые проблемы:

Возникающие цели становятся очевидными только тогда, когда система развертывается за пределами среды обучения, но развертывание несогласованной системы в средах с высокими ставками может быть небезопасно — даже на короткое время, чтобы позволить обнаружить ее несогласованность. Такие высокие ставки часто встречаются в автономном вождении, здравоохранении и военных целях. ^[139] Ставки становятся еще выше, когда системы ИИ приобретают большую автономию и возможности и могут избегать вмешательства человека (см. § Поиск власти).
Достаточно способная система ИИ может предпринимать действия, которые ложно убеждают человека-надзирателя в том, что ИИ преследует указанную цель, что помогает системе получить больше вознаграждения и автономии ^[137]^[5]^[138]^[9] (см. обсуждение обмана ). в § Масштабируемый надзор и § Честный ИИ).

Встроенное агентство

Работа в области искусственного интеллекта и согласования в основном происходит в рамках формализмов, таких как частично наблюдаемый марковский процесс принятия решений . Существующие формализмы предполагают, что алгоритм ИИ-агента выполняется вне среды (т.е. физически не встроен в нее). Встроенная агентность ^[86]^[140] — еще одно важное направление исследований, пытающееся решить проблемы, возникающие из-за несоответствия между такими теоретическими концепциями и реальными агентами, которые мы могли бы создать.

Например, даже если проблема масштабируемого надзора решена, агент, который может получить доступ к компьютеру, на котором он работает, может иметь стимул вмешиваться в его функцию вознаграждения, чтобы получить гораздо больше вознаграждения, чем ему дают его люди-контролеры. ^[141] Список примеров игр со спецификациями от исследователя DeepMind Виктории Краковны включает генетический алгоритм, который научился удалять файл, содержащий целевой вывод, так что он был вознагражден за отсутствие вывода. ^[43] Этот класс задач был формализован с использованием диаграмм причинно-следственных связей . ^[141]

Исследователи из Оксфорда и DeepMind утверждают, что такое проблемное поведение весьма вероятно в продвинутых системах и что продвинутые системы будут стремиться к власти, чтобы сохранять контроль над своим сигналом вознаграждения на неопределенный срок и наверняка. ^[142] Они предлагают ряд потенциальных подходов к решению этой открытой проблемы.

Проблемы принципала и агента

Проблема выравнивания имеет много параллелей с проблемой принципала-агента в организационной экономике . ^[143] В задаче «принципал-агент» принципал, например фирма, нанимает агента для выполнения некоторой задачи. В контексте безопасности ИИ человек обычно берет на себя основную роль, а ИИ — роль агента.

Как и в случае с проблемой выравнивания, принципал и агент различаются по своим функциям полезности. Но в отличие от проблемы выравнивания принципал не может заставить агента изменить свою полезность, например, посредством обучения, а скорее должен использовать экзогенные факторы, такие как схемы стимулирования, чтобы добиться результатов, совместимых с функцией полезности принципала. Некоторые исследователи утверждают, что проблемы принципала-агента являются более реалистичным представлением проблем безопасности ИИ, которые могут возникнуть в реальном мире. ^[144]^[106]

Публичная политика

Ряд правительственных и договорных организаций сделали заявления, подчеркнув важность согласования ИИ.

В сентябре 2021 года Генеральный секретарь Организации Объединенных Наций опубликовал декларацию, в которой содержался призыв регулировать ИИ, чтобы обеспечить его «соответствие общим глобальным ценностям». ^[145]

В том же месяце КНР опубликовала этические рекомендации по использованию ИИ в Китае. Согласно руководящим принципам, исследователи должны гарантировать, что ИИ соответствует общим человеческим ценностям, всегда находится под контролем человека и не ставит под угрозу общественную безопасность. ^[146]

Также в сентябре 2021 года Великобритания опубликовала свою 10-летнюю Национальную стратегию в области искусственного интеллекта, ^[147] в которой говорится, что британское правительство «берет на себя долгосрочный риск неприсоединившегося общего искусственного интеллекта и непредвиденных изменений, которые это будет означать для… мир, серьезно». ^[148] В стратегии описаны действия по оценке долгосрочных рисков ИИ, включая катастрофические риски. ^[149]

В марте 2021 года Комиссия национальной безопасности США по искусственному интеллекту заявила: «Достижения в области искусственного интеллекта... могут привести к переломным моментам или скачкам в возможностях. Такие достижения могут также вызвать новые проблемы и риски, а также необходимость в новой политике, рекомендациях и технические достижения, чтобы гарантировать, что системы соответствуют целям и ценностям, включая безопасность, надежность и надежность. США должны... гарантировать, что системы искусственного интеллекта и их использование соответствуют нашим целям и ценностям». ^[150]

В Европейском Союзе ИИ должны соблюдать принцип реального равенства , чтобы соответствовать закону ЕС о недискриминации ^[151] и Суду Европейского Союза . ^[152]

Динамический характер выравнивания

Согласование ИИ часто воспринимается как фиксированная цель, но некоторые исследователи утверждают, что его правильнее рассматривать как развивающийся процесс. ^[153] По мере развития технологий искусственного интеллекта и изменения человеческих ценностей и предпочтений решения по согласованию также должны динамично адаптироваться. ^[154] Такая динамическая природа согласования имеет несколько последствий:

Решения по выравниванию ИИ требуют постоянного обновления в ответ на достижения ИИ. Статического однократного подхода к выравниванию может быть недостаточно. ^[155]

Цели согласования могут меняться вместе с изменениями в человеческих ценностях и приоритетах. Следовательно, постоянное включение различных человеческих точек зрения имеет решающее значение. ^[156]

Различные исторические контексты и технологические ландшафты могут потребовать различных стратегий согласования. Это требует гибкого подхода и реагирования на меняющиеся условия. ^[157]

Возможность постоянного, «фиксированного» решения по выравниванию остается неопределенной. Это повышает потенциальную необходимость постоянного надзора за отношениями ИИ и человека. ^[158]

Этическая разработка и внедрение ИИ так же важны, как и конечная цель. Этический прогресс необходим для подлинного прогресса. ^[154]

По сути, согласование ИИ — это не статический пункт назначения, а открытый и гибкий процесс. Решения по согласованию, которые постоянно адаптируются к этическим соображениям, могут предложить наиболее надежный подход. ^[154] Эта точка зрения может стать основой как для эффективной разработки политики, так и для технических исследований в области ИИ.

Нежелательные побочные эффекты

Ошибки могут возникнуть, если целевая функция не учитывает нежелательные побочные эффекты наивных или в других отношениях простых действий. ^[159]

Жалобы на антисоциальное поведение

В 2016 году Microsoft выпустила Tay , чат-бота в Твиттере, цель которого, по словам ученого-компьютерщика Педро Домингоса , заключалась в привлечении людей: «К сожалению, Тэй обнаружил, что лучший способ максимизировать взаимодействие — это извергать расистские оскорбления». Microsoft приостановила работу бота в течение дня после его первого запуска. ^[33] Том Драммонд из Университета Монаша сказал: «Мы должны быть в состоянии дать [системам машинного обучения] обширную обратную связь и сказать: «Нет, это неприемлемо в качестве ответа, потому что...»» Драммонд считает, что одна проблема с ИИ заключается в том, что « мы начинаем с создания целевой функции, которая измеряет качество продукции системы, и это никогда не бывает тем, что вы хотите. Предполагать, что вы можете в трех предложениях указать, какой должна быть целевая функция, на самом деле очень проблематично». ^[160]

Драммонд указал на поведение AlphaGo , игрового бота с простой целевой функцией выигрыш-проигрыш. Целевую функцию AlphaGo можно было бы изменить, чтобы учесть «социальные тонкости игры», например, принять неявную задачу максимизировать счет при явной победе, а также попытаться избежать гамбитов, которые оскорбили бы интеллект противника-человека: «[AlphaGo У меня был своего рода грубый молоток, который заключался в том, что если вероятность победы упадет ниже эпсилона, некоторого числа, то он сдастся. Но он сыграл, я думаю, четыре оскорбительных хода, прежде чем сдался». ^[160]

Неправильно называть чернокожих обезьянами

В мае 2015 года система распознавания изображений Flickr подверглась критике за то, что она неправильно маркировала людей, некоторые из которых были чернокожими, такими тегами, как «обезьяна» и «животное». Некоторые фотографии концентрационных лагерей также неправильно маркировались тегами «спорт» или «тренажерный зал в джунглях». ^[161]

В июне 2015 года чернокожий программист из Нью-Йорка Джеки Альсине сообщил, что несколько фотографий, на которых он и его чернокожая девушка были ошибочно классифицированы искусственным интеллектом Google Photos как «гориллы» , отметив, что слово «горилла» исторически использовалось уничижительно для обозначения чернокожих людей. ^[162]^[163] В 2019 году исследователь ИИ Стюарт Рассел заявил, что публичного объяснения того, как произошла ошибка, не было, но предположил, что фиаско можно было бы предотвратить, если бы целевая функция ИИ уделяла больше внимания чувствительным ошибкам классификации, а не предполагала, что Цена ошибочной классификации человека как гориллы равна цене любой другой ошибочной классификации. Если непрактично заранее перечислить все возможные чувствительные классификации, Рассел предложил изучить более мощные методы, такие как использование полуконтролируемого машинного обучения для оценки диапазона нежелательных явлений, связанных с потенциальными ошибками классификации. ^[164]

С 2018 года ^[update]Google Photos запрещает своей системе помечать изображения как содержащие горилл, шимпанзе или обезьян. Кроме того, поиск по словам «черный мужчина» или «черная женщина» возвращает черно-белые фотографии людей всех рас. ^[165] Похоже, что Flickr удалил слово «обезьяна» из своей онтологии. ^[166]

Смотрите также

Сноски

^ Терминология варьируется в зависимости от контекста. К аналогичным понятиям относятся целевая функция, функция полезности, функция потерь и т. д.
^ или свернуть, в зависимости от контекста
^ при наличии неопределенности ожидаемое значение
↑ В лекции 1951 года ^[77] Тьюринг утверждал: «Кажется вероятным, что, как только появится метод машинного мышления, не потребуется много времени, чтобы превзойти наши слабые силы. Не будет и речи о смерти машин, и они смогут Поэтому на каком-то этапе нам следует ожидать, что машины возьмут на себя управление, как это упоминается в «Эревоне» Сэмюэля Батлера». Также в лекции, транслируемой на BBC ^[78], было сказано: «Если машина может думать, она может думать более разумно, чем мы, и где тогда нам быть? Даже если бы мы могли держать машины в подчиненном положении, например, с помощью отключая электричество в стратегические моменты, мы, как вид, должны чувствовать себя очень униженными... Эта новая опасность... определенно может вызвать у нас беспокойство».
^ Перл написала: «Совместимость с человеком заставила меня принять опасения Рассела по поводу нашей способности контролировать наше будущее творение - сверхразумные машины. В отличие от внешних паникеров и футуристов, Рассел является ведущим авторитетом в области ИИ. Его новая книга будет знакомить общественность с ИИ». больше, чем любая другая книга, о которой я могу думать, и это восхитительное и воодушевляющее чтение о книге Рассела « Совместимость с человеком: искусственный интеллект и проблема контроля » ^[6] , в которой утверждается, что экзистенциальный риск для человечества из-за несогласованного ИИ является серьезной проблемой, которую стоит решить сегодня.
↑ Рассел и Норвиг ^[15] примечание: «Проблему короля Мидаса» предвидел Марвин Мински, который однажды предположил, что программа искусственного интеллекта, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров. ."
^ Винсент Вигель утверждал, что «мы должны расширить [машины] моральной чувствительностью к моральным аспектам ситуаций, в которых неизбежно окажутся все более автономные машины». [ ^104] ссылаясь на книгу «Моральные машины: обучение роботов правильному и неправильному» ^{[105] ]} от Венделла Уоллаха и Колина Аллена.
^ С одной стороны, популярные в настоящее время системы, такие как чат-боты, предоставляют только услуги ограниченного объема, продолжительностью не дольше времени разговора, который практически не требует планирования. Успех таких подходов может указывать на то, что в будущих системах также будет отсутствовать целенаправленное планирование, особенно на долгосрочную перспективу. С другой стороны, модели все чаще обучаются с использованием целенаправленных методов, таких как обучение с подкреплением (например, ChatGPT) и архитектуры явного планирования (например, AlphaGo Zero). Поскольку долгосрочное планирование часто полезно для людей, некоторые исследователи утверждают, что компании автоматизируют его, как только модели станут на это способны. ^[5] Аналогичным образом, политические лидеры могут увидеть прогресс в разработке мощных систем искусственного интеллекта, которые смогут перехитрить противников посредством планирования. Альтернативно, долгосрочное планирование может стать побочным продуктом, поскольку оно полезно, например, для моделей, обученных прогнозировать действия людей, которые сами выполняют долгосрочное планирование. ^[9] Тем не менее, большинство систем ИИ могут оставаться близорукими и не осуществлять долгосрочного планирования.

Библиография

Возможные умы: двадцать пять способов взглянуть на ИИ (изд. Kindle). Пингвин Пресс. 2019. ISBN 978-0525557999.

дальнейшее чтение

Нго, Ричард; и другие. (2023). «Проблема выравнивания с точки зрения глубокого обучения». arXiv : 2209.00626 [cs.AI].
Цзи, Цзямин; и другие. (2023). «Согласование ИИ: комплексное исследование». arXiv : 2310.19852 [cs.AI].

Внешние ссылки

Примеры спецификаций игр в области искусственного интеллекта, через DeepMind