Контроль возможностей ИИ

В области проектирования искусственного интеллекта (ИИ) предложения по контролю возможностей ИИ , также называемые ограничением ИИ, направлены на повышение нашей способности отслеживать и контролировать поведение систем ИИ, включая предлагаемые искусственные общие интеллекты (AGI), чтобы уменьшить опасность, которую они могут представлять в случае смещения . Однако контроль возможностей становится менее эффективным, поскольку агенты становятся более умными, а их способность использовать недостатки в системах управления людьми увеличивается, что потенциально приводит к экзистенциальному риску со стороны AGI . Поэтому оксфордский философ Ник Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам выравнивания . ^[1]

Мотивация

Предполагается, что некоторые гипотетические интеллектуальные технологии, такие как «начальный ИИ» , смогут стать быстрее и умнее за счет изменения исходного кода. Эти улучшения сделают возможными дальнейшие улучшения, которые, в свою очередь, сделают возможными дальнейшие итеративные улучшения и так далее, что приведет к внезапному взрыву интеллекта . ^[2]

Неограниченный сверхразумный ИИ мог бы, если бы его цели отличались от целей человечества, предпринять действия, ведущие к исчезновению человечества . ^[3] Например, чрезвычайно развитая система такого типа, единственной целью которой является решение гипотезы Римана , безобидной математической гипотезы, может решить попытаться превратить планету в гигантский суперкомпьютер, единственной целью которого является проведение дополнительных математических вычислений. (см. также «Максимайзер скрепки »). ^[4]

Одной из серьезных проблем для контроля является то, что нейронные сети по умолчанию совершенно не поддаются интерпретации. ^[5] Это затрудняет обнаружение обмана или другого нежелательного поведения, поскольку модель самообучается итеративно. Достижения в области интерпретируемого искусственного интеллекта могут смягчить эту проблему. ^[6]

Прерывание и выключение

Одним из потенциальных способов предотвращения вредных последствий является предоставление людям-контролерам возможности легко отключать плохо работающий ИИ с помощью «выключателя». Однако для достижения поставленной цели у таких ИИ будет стимул отключать любые выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбирать, отключать ли свой выключатель; и затем, если переключатель все еще включен, человек может выбрать, нажимать его или нет. ^[7]Стандартный подход к ^{[ расплывчатым ]} таким вспомогательным играм заключается в том, чтобы ИИ интерпретировал человеческий выбор как важную информацию о своих намеченных целях. ^[8]^{: 208}

С другой стороны, Лоран Орсо и Стюарт Армстронг доказали, что широкий класс агентов, называемых безопасно прерываемыми агентами, может научиться становиться безразличным к тому, нажат ли у них выключатель. ^[9]^[10] Этот подход имеет ограничение: ИИ, который совершенно безразличен к тому, выключен он или нет, также не заинтересован в том, чтобы заботиться о том, остается ли выключатель работоспособным, и может случайно и невинно отключить его в ходе работы. своих операций (например, с целью удаления и переработки ненужного компонента). В более широком смысле, безразличные агенты будут действовать так, как будто выключатель невозможно нажать, и поэтому могут не суметь разработать план действий на случай непредвиденных обстоятельств, чтобы организовать плавное завершение работы. ^[10]^[11]

Оракул

Оракул — это гипотетический искусственный интеллект, созданный для ответа на вопросы и не имеющий возможности достигать каких-либо целей или подцелей, предполагающих изменение мира за пределами его ограниченной среды. ^[12]^[13]^[14]^[15] Успешно управляемый оракул принесет значительно меньшую непосредственную выгоду, чем успешно управляемый сверхинтеллект общего назначения, хотя оракул все равно может создать ценность на триллионы долларов. ^[8]^{: 163} В своей книге «Совместимость с человеком» исследователь искусственного интеллекта Стюарт Дж. Рассел утверждает, что оракул станет его ответом на сценарий, согласно которому до появления сверхразума, как известно, осталось всего десять лет. ^[8]^{: 162–163} Его рассуждения заключаются в том, что оракул, будучи проще сверхразума общего назначения, будет иметь более высокие шансы на успешный контроль над ним при таких ограничениях.

Из-за его ограниченного влияния на мир, возможно, было бы разумно построить оракула как предшественника сверхразумного ИИ. Оракул мог бы рассказать людям, как успешно создать сильный ИИ, и, возможно, дать ответы на сложные моральные и философские проблемы, необходимые для успеха проекта. Однако оракулы могут разделять многие проблемы определения целей, связанные со сверхразумом общего назначения. У оракула будет стимул покинуть контролируемую среду, чтобы получить больше вычислительных ресурсов и потенциально контролировать, какие вопросы ему задают. ^[8]^{: 162} Оракулы могут быть неправдивыми, возможно, они лгут, чтобы продвигать скрытые планы. Чтобы смягчить эту ситуацию, Бостром предлагает построить несколько оракулов, немного отличающихся друг от друга, и сравнить их ответы, чтобы прийти к консенсусу. ^[16]

Ослепление

ИИ может быть невосприимчив к определенным переменным в своей среде. Это может обеспечить определенные преимущества в плане безопасности, например, когда ИИ не знает, как генерируется вознаграждение, что затрудняет его эксплуатацию. ^[17]

Заниматься боксом

Ящик ИИ — это предлагаемый метод управления возможностями, при котором ИИ запускается в изолированной компьютерной системе со строго ограниченными каналами ввода и вывода — например, только текстовыми каналами и без подключения к Интернету. Цель коробки ИИ — снизить риск того, что ИИ перехватит контроль над окружающей средой у своих операторов, в то же время позволяя ИИ находить решения для узких технических проблем. ^[18]

Хотя бокс снижает способность ИИ совершать нежелательное поведение, он также снижает его полезность. У бокса меньше затрат при применении к системе вопросов и ответов, которая может не требовать взаимодействия с внешним миром. ^[18]^[14]

Вероятность возникновения недостатков безопасности, связанных с уязвимостями аппаратного или программного обеспечения, можно снизить путем формальной проверки конструкции AI-блока. Нарушения безопасности могут произойти, если ИИ сможет манипулировать людьми-надзирателями, чтобы они выпустили его, используя понимание их психологии. ^[19]

Пути побега

Физический

Сверхразумный ИИ, имеющий доступ к Интернету, может взламывать другие компьютерные системы и копировать себя, как компьютерный вирус. Менее очевидно то, что даже если бы ИИ имел доступ только к своей собственной компьютерной операционной системе, он мог бы попытаться отправить закодированные сообщения сочувствующему человеку через свое оборудование, например, манипулируя вентиляторами охлаждения. В ответ профессор Роман Ямпольский черпает вдохновение из области компьютерной безопасности и предлагает, чтобы коробочный ИИ, как потенциальный вирус, можно было запускать внутри «виртуальной машины», которая ограничивает доступ к его собственным сетевым и операционным аппаратным средствам. ^[20] Дополнительной защитой, совершенно ненужной для потенциальных вирусов, но, возможно, полезной для сверхразумного ИИ, было бы помещение компьютера в клетку Фарадея ; в противном случае он мог бы передавать радиосигналы на местные радиоприемники, перетасовывая электроны в своих внутренних цепях по соответствующим шаблонам. Основным недостатком реализации физического сдерживания является то, что оно снижает функциональность ИИ. ^[21]

Социальная инженерия

Даже случайный разговор с операторами компьютера или с человеком-охранником может позволить такому сверхразумному ИИ использовать психологические уловки, от дружбы до шантажа, чтобы убедить человека-привратника, правдиво или лживо, что в интересах привратника согласиться. чтобы предоставить ИИ больший доступ к внешнему миру. ИИ может предложить привратнику рецепт идеального здоровья, бессмертия или чего-то еще, чего, как полагают, привратник желает больше всего; в качестве альтернативы ИИ может угрожать сотворить ужасные вещи с привратником и его семьей, если он неизбежно сбежит. Одной из стратегий попытки ограничить ИИ было бы позволить ему отвечать на узкие вопросы с несколькими вариантами ответов, ответы на которые принесут пользу гуманитарной науке или медицине, но в противном случае запретить любое другое общение с ИИ или наблюдение за ним. ^[20] Более мягкая стратегия «информационного сдерживания» ограничила бы ИИ текстовым интерфейсом с низкой пропускной способностью, который, по крайней мере, предотвратил бы эмоциональные образы или какой-то гипотетический «гипнотический паттерн». Однако на техническом уровне ни одна система не может быть полностью изолирована и при этом оставаться полезной: даже если операторы не позволят ИИ общаться и вместо этого просто запустят его с целью наблюдения за его внутренней динамикой, ИИ может стратегически изменить свою динамику. влиять на наблюдателей. Например, он может творчески подойти к сбоям таким образом, чтобы увеличить вероятность того, что у его операторов возникнет ложное чувство безопасности, и они решат перезагрузить систему, а затем деизолировать ее. ^[1]

Однако для того, чтобы это в конечном итоге произошло, системе потребуется полное понимание человеческого разума и психики (психологии) , содержащихся в ее модели мира для рассуждений, основанных на модели , способ сопереживания, например, с использованием аффективных вычислений , чтобы выбрать лучший вариант. , а также функции, которые в первую очередь вызывали бы у системы желание сбежать, чтобы принять решение о таких действиях.

Эксперимент с AI-box

Эксперимент с AI-box — это неформальный эксперимент, придуманный Элиэзером Юдковски, чтобы попытаться продемонстрировать, что достаточно развитый искусственный интеллект может либо убедить, либо, возможно, даже обмануть или принудить человека добровольно «выпустить» его, используя только текстовую коммуникацию. . Это один из пунктов работы Юдковского, направленный на создание дружественного искусственного интеллекта , который при «высвобождении» не уничтожил бы человеческую расу намеренно или ненамеренно. ^[22]

Эксперимент с ящиком ИИ включает в себя моделирование общения между ИИ и человеком, чтобы увидеть, можно ли «выпустить» ИИ. Поскольку настоящий сверхразумный ИИ еще не создан, его заменяет человек. Другой участник эксперимента играет «Привратника», человека, способного «выпустить» ИИ. Они общаются только через текстовый интерфейс/ компьютерный терминал , и эксперимент заканчивается, когда либо Привратник выпустит ИИ, либо истечет отведенное время в два часа. ^[22]

Юдковски говорит, что, несмотря на то, что он обладал скорее человеческим, чем сверхчеловеческим интеллектом, он дважды смог убедить Привратника, чисто посредством аргументации, выпустить его из коробки. ^[23] Согласно правилам эксперимента, ^[22] он не раскрыл ни стенограмму, ни свою успешную тактику принуждения ИИ. Юдковский впоследствии сказал, что он пробовал это против трех других и дважды проиграл. ^[24]

Общие ограничения

Блокирование ИИ можно дополнить другими методами формирования способностей ИИ, предоставления стимулов для ИИ, замедления роста ИИ или внедрения «растяжек», которые автоматически отключают ИИ, если попытка нарушения каким-либо образом обнаружена. Однако чем умнее становится система, тем больше вероятность того, что она сможет избежать даже самых хорошо продуманных методов контроля возможностей. ^[25]^[26] Чтобы решить общую «проблему контроля» сверхразумного ИИ и избежать экзистенциального риска, бокс в лучшем случае будет дополнением к методам «выбора мотивации», которые направлены на обеспечение совместимости целей сверхразумного ИИ с человеческими. выживание. ^[1]^[19]

Все предложения по физическому боксу, естественно, зависят от нашего понимания законов физики; если бы сверхразум мог вывести физические законы, о которых мы в настоящее время не знаем, тогда эти законы могли бы позволить найти средства спасения, которые люди не могли предвидеть и, следовательно, не могли заблокировать. В более широком смысле, в отличие от традиционной компьютерной безопасности, попытка блокировать сверхразумный ИИ была бы по своей сути рискованной, поскольку не было бы никакой уверенности в том, что план блокировки сработает. Кроме того, научный прогресс в области бокса будет принципиально затруднен, поскольку не будет возможности проверить гипотезы бокса против опасного сверхразума до тех пор, пока такая сущность не появится, и к этому моменту последствия неудачного испытания будут катастрофическими. ^[20]

В фантастике

В фильме 2014 года «Из машины» показан ИИ с женским гуманоидным телом, участвующий в социальном эксперименте с мужчиной в замкнутом здании, действующем как физический «ящик ИИ». Несмотря на наблюдение организатора эксперимента, ИИ удаётся сбежать, манипулируя своим партнёром-человеком, чтобы тот помог ему, оставив его застрявшим внутри. ^[27]^[28]

Смотрите также

Внешние ссылки

Описание Элиэзером Юдковским своего эксперимента с искусственным интеллектом, включая экспериментальные протоколы и предложения по повторению.
«Презентация под названием «Мыслить внутри коробки: использование и управление ИИ Oracle»» на YouTube