stringtranslate.com

Контроль возможностей ИИ

В области проектирования искусственного интеллекта (ИИ) предложения по контролю возможностей ИИ , также называемые ограничением ИИ, направлены на повышение нашей способности отслеживать и контролировать поведение систем ИИ, включая предлагаемые искусственные общие интеллекты (AGI), чтобы уменьшить опасность, которую они могут представлять в случае смещения . Однако контроль возможностей становится менее эффективным, поскольку агенты становятся более умными, а их способность использовать недостатки в системах управления людьми увеличивается, что потенциально приводит к экзистенциальному риску со стороны AGI . Поэтому оксфордский философ Ник Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам выравнивания . [1]

Мотивация

Предполагается, что некоторые гипотетические интеллектуальные технологии, такие как «начальный ИИ» , смогут стать быстрее и умнее за счет изменения исходного кода. Эти улучшения сделают возможными дальнейшие улучшения, которые, в свою очередь, сделают возможными дальнейшие итеративные улучшения и так далее, что приведет к внезапному взрыву интеллекта . [2]

Неограниченный сверхразумный ИИ мог бы, если бы его цели отличались от целей человечества, предпринять действия, ведущие к исчезновению человечества . [3] Например, чрезвычайно развитая система такого типа, единственной целью которой является решение гипотезы Римана , безобидной математической гипотезы, может решить попытаться превратить планету в гигантский суперкомпьютер, единственной целью которого является проведение дополнительных математических вычислений. (см. также «Максимайзер скрепки »). [4]

Одной из серьезных проблем для контроля является то, что нейронные сети по умолчанию совершенно не поддаются интерпретации. [5] Это затрудняет обнаружение обмана или другого нежелательного поведения, поскольку модель самообучается итеративно. Достижения в области интерпретируемого искусственного интеллекта могут смягчить эту проблему. [6]

Прерывание и выключение

Одним из потенциальных способов предотвращения вредных последствий является предоставление людям-контролерам возможности легко отключать плохо работающий ИИ с помощью «выключателя». Однако для достижения поставленной цели у таких ИИ будет стимул отключать любые выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбирать, отключать ли свой выключатель; и затем, если переключатель все еще включен, человек может выбрать, нажимать его или нет. [7] Стандартный подход к [ расплывчатым ] таким вспомогательным играм заключается в том, чтобы ИИ интерпретировал человеческий выбор как важную информацию о своих намеченных целях. [8] : 208 

С другой стороны, Лоран Орсо и Стюарт Армстронг доказали, что широкий класс агентов, называемых безопасно прерываемыми агентами, может научиться становиться безразличным к тому, нажат ли у них выключатель. [9] [10] Этот подход имеет ограничение: ИИ, который совершенно безразличен к тому, выключен он или нет, также не заинтересован в том, чтобы заботиться о том, остается ли выключатель работоспособным, и может случайно и невинно отключить его в ходе работы. своих операций (например, с целью удаления и переработки ненужного компонента). В более широком смысле, безразличные агенты будут действовать так, как будто выключатель невозможно нажать, и поэтому могут не суметь разработать план действий на случай непредвиденных обстоятельств, чтобы организовать плавное завершение работы. [10] [11]

Оракул

Оракул — это гипотетический искусственный интеллект, созданный для ответа на вопросы и не имеющий возможности достигать каких-либо целей или подцелей, предполагающих изменение мира за пределами его ограниченной среды. [12] [13] [14] [15] Успешно управляемый оракул принесет значительно меньшую непосредственную выгоду, чем успешно управляемый сверхинтеллект общего назначения, хотя оракул все равно может создать ценность на триллионы долларов. [8] : 163  В своей книге «Совместимость с человеком» исследователь искусственного интеллекта Стюарт Дж. Рассел утверждает, что оракул станет его ответом на сценарий, согласно которому до появления сверхразума, как известно, осталось всего десять лет. [8] : 162–163  Его рассуждения заключаются в том, что оракул, будучи проще сверхразума общего назначения, будет иметь более высокие шансы на успешный контроль над ним при таких ограничениях.

Из-за его ограниченного влияния на мир, возможно, было бы разумно построить оракула как предшественника сверхразумного ИИ. Оракул мог бы рассказать людям, как успешно создать сильный ИИ, и, возможно, дать ответы на сложные моральные и философские проблемы, необходимые для успеха проекта. Однако оракулы могут разделять многие проблемы определения целей, связанные со сверхразумом общего назначения. У оракула будет стимул покинуть контролируемую среду, чтобы получить больше вычислительных ресурсов и потенциально контролировать, какие вопросы ему задают. [8] : 162  Оракулы могут быть неправдивыми, возможно, они лгут, чтобы продвигать скрытые планы. Чтобы смягчить эту ситуацию, Бостром предлагает построить несколько оракулов, немного отличающихся друг от друга, и сравнить их ответы, чтобы прийти к консенсусу. [16]

Ослепление

ИИ может быть невосприимчив к определенным переменным в своей среде. Это может обеспечить определенные преимущества в плане безопасности, например, когда ИИ не знает, как генерируется вознаграждение, что затрудняет его эксплуатацию. [17]

Заниматься боксом

Ящик ИИ — это предлагаемый метод управления возможностями, при котором ИИ запускается в изолированной компьютерной системе со строго ограниченными каналами ввода и вывода — например, только текстовыми каналами и без подключения к Интернету. Цель коробки ИИ — снизить риск того, что ИИ перехватит контроль над окружающей средой у своих операторов, в то же время позволяя ИИ находить решения для узких технических проблем. [18]

Хотя бокс снижает способность ИИ совершать нежелательное поведение, он также снижает его полезность. У бокса меньше затрат при применении к системе вопросов и ответов, которая может не требовать взаимодействия с внешним миром. [18] [14]

Вероятность возникновения недостатков безопасности, связанных с уязвимостями аппаратного или программного обеспечения, можно снизить путем формальной проверки конструкции AI-блока. Нарушения безопасности могут произойти, если ИИ сможет манипулировать людьми-надзирателями, чтобы они выпустили его, используя понимание их психологии. [19]

Пути побега

Физический

Сверхразумный ИИ, имеющий доступ к Интернету, может взламывать другие компьютерные системы и копировать себя, как компьютерный вирус. Менее очевидно то, что даже если бы ИИ имел доступ только к своей собственной компьютерной операционной системе, он мог бы попытаться отправить закодированные сообщения сочувствующему человеку через свое оборудование, например, манипулируя вентиляторами охлаждения. В ответ профессор Роман Ямпольский черпает вдохновение из области компьютерной безопасности и предлагает, чтобы коробочный ИИ, как потенциальный вирус, можно было запускать внутри «виртуальной машины», которая ограничивает доступ к его собственным сетевым и операционным аппаратным средствам. [20] Дополнительной защитой, совершенно ненужной для потенциальных вирусов, но, возможно, полезной для сверхразумного ИИ, было бы помещение компьютера в клетку Фарадея ; в противном случае он мог бы передавать радиосигналы на местные радиоприемники, перетасовывая электроны в своих внутренних цепях по соответствующим шаблонам. Основным недостатком реализации физического сдерживания является то, что оно снижает функциональность ИИ. [21]

Социальная инженерия

Даже случайный разговор с операторами компьютера или с человеком-охранником может позволить такому сверхразумному ИИ использовать психологические уловки, от дружбы до шантажа, чтобы убедить человека-привратника, правдиво или лживо, что в интересах привратника согласиться. чтобы предоставить ИИ больший доступ к внешнему миру. ИИ может предложить привратнику рецепт идеального здоровья, бессмертия или чего-то еще, чего, как полагают, привратник желает больше всего; в качестве альтернативы ИИ может угрожать сотворить ужасные вещи с привратником и его семьей, если он неизбежно сбежит. Одной из стратегий попытки ограничить ИИ было бы позволить ему отвечать на узкие вопросы с несколькими вариантами ответов, ответы на которые принесут пользу гуманитарной науке или медицине, но в противном случае запретить любое другое общение с ИИ или наблюдение за ним. [20] Более мягкая стратегия «информационного сдерживания» ограничила бы ИИ текстовым интерфейсом с низкой пропускной способностью, который, по крайней мере, предотвратил бы эмоциональные образы или какой-то гипотетический «гипнотический паттерн». Однако на техническом уровне ни одна система не может быть полностью изолирована и при этом оставаться полезной: даже если операторы не позволят ИИ общаться и вместо этого просто запустят его с целью наблюдения за его внутренней динамикой, ИИ может стратегически изменить свою динамику. влиять на наблюдателей. Например, он может творчески подойти к сбоям таким образом, чтобы увеличить вероятность того, что у его операторов возникнет ложное чувство безопасности, и они решат перезагрузить систему, а затем деизолировать ее. [1]

Однако для того, чтобы это в конечном итоге произошло, системе потребуется полное понимание человеческого разума и психики (психологии) , содержащихся в ее модели мира для рассуждений, основанных на модели , способ сопереживания, например, с использованием аффективных вычислений , чтобы выбрать лучший вариант. , а также функции, которые в первую очередь вызывали бы у системы желание сбежать, чтобы принять решение о таких действиях.

Эксперимент с AI-box

Эксперимент с AI-box — это неформальный эксперимент, придуманный Элиэзером Юдковски, чтобы попытаться продемонстрировать, что достаточно развитый искусственный интеллект может либо убедить, либо, возможно, даже обмануть или принудить человека добровольно «выпустить» его, используя только текстовую коммуникацию. . Это один из пунктов работы Юдковского, направленный на создание дружественного искусственного интеллекта , который при «высвобождении» не уничтожил бы человеческую расу намеренно или ненамеренно. [22]

Эксперимент с ящиком ИИ включает в себя моделирование общения между ИИ и человеком, чтобы увидеть, можно ли «выпустить» ИИ. Поскольку настоящий сверхразумный ИИ еще не создан, его заменяет человек. Другой участник эксперимента играет «Привратника», человека, способного «выпустить» ИИ. Они общаются только через текстовый интерфейс/ компьютерный терминал , и эксперимент заканчивается, когда либо Привратник выпустит ИИ, либо истечет отведенное время в два часа. [22]

Юдковски говорит, что, несмотря на то, что он обладал скорее человеческим, чем сверхчеловеческим интеллектом, он дважды смог убедить Привратника, чисто посредством аргументации, выпустить его из коробки. [23] Согласно правилам эксперимента, [22] он не раскрыл ни стенограмму, ни свою успешную тактику принуждения ИИ. Юдковский впоследствии сказал, что он пробовал это против трех других и дважды проиграл. [24]

Общие ограничения

Блокирование ИИ можно дополнить другими методами формирования способностей ИИ, предоставления стимулов для ИИ, замедления роста ИИ или внедрения «растяжек», которые автоматически отключают ИИ, если попытка нарушения каким-либо образом обнаружена. Однако чем умнее становится система, тем больше вероятность того, что она сможет избежать даже самых хорошо продуманных методов контроля возможностей. [25] [26] Чтобы решить общую «проблему контроля» сверхразумного ИИ и избежать экзистенциального риска, бокс в лучшем случае будет дополнением к методам «выбора мотивации», которые направлены на обеспечение совместимости целей сверхразумного ИИ с человеческими. выживание. [1] [19]

Все предложения по физическому боксу, естественно, зависят от нашего понимания законов физики; если бы сверхразум мог вывести физические законы, о которых мы в настоящее время не знаем, тогда эти законы могли бы позволить найти средства спасения, которые люди не могли предвидеть и, следовательно, не могли заблокировать. В более широком смысле, в отличие от традиционной компьютерной безопасности, попытка блокировать сверхразумный ИИ была бы по своей сути рискованной, поскольку не было бы никакой уверенности в том, что план блокировки сработает. Кроме того, научный прогресс в области бокса будет принципиально затруднен, поскольку не будет возможности проверить гипотезы бокса против опасного сверхразума до тех пор, пока такая сущность не появится, и к этому моменту последствия неудачного испытания будут катастрофическими. [20]

В фантастике

В фильме 2014 года «Из машины» показан ИИ с женским гуманоидным телом, участвующий в социальном эксперименте с мужчиной в замкнутом здании, действующем как физический «ящик ИИ». Несмотря на наблюдение организатора эксперимента, ИИ удаётся сбежать, манипулируя своим партнёром-человеком, чтобы тот помог ему, оставив его застрявшим внутри. [27] [28]

Смотрите также

Рекомендации

  1. ^ abc Бостром, Ник (2014). Суперинтеллект: пути, опасности, стратегии (первое изд.). Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112.
  2. ^ И. Дж. Гуд, «Рассуждения относительно первой сверхразумной машины»], « Достижения в области компьютеров» , том. 6, 1965.
  3. ^ Винсент К. Мюллер и Ник Бостром . «Будущий прогресс в области искусственного интеллекта: обзор мнений экспертов» в журнале «Фундаментальные проблемы искусственного интеллекта». Спрингер 553–571 (2016).
  4. ^ Рассел, Стюарт Дж.; Норвиг, Питер (2003). «Раздел 26.3: Этика и риски разработки искусственного интеллекта». Искусственный интеллект: современный подход . Река Аппер-Сэдл, Нью-Джерси: Прентис-Холл. ISBN 978-0137903955. Точно так же Марвин Мински однажды предположил, что программа искусственного интеллекта, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров, которые помогут достичь своей цели.
  5. ^ Монтавон, Грегуар; Самек, Войцех; Мюллер, Клаус Роберт (2018). «Методы интерпретации и понимания глубоких нейронных сетей». Цифровая обработка сигналов . 73 : 1–15. дои : 10.1016/j.dsp.2017.10.011 . hdl : 21.11116/0000-0000-4313-F . ISSN  1051-2004. S2CID  207170725.
  6. ^ Ямпольский, Роман В. «Необъяснимость и непостижимость ИИ». Журнал искусственного интеллекта и сознания 7.02 (2020): 277-291.
  7. ^ Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер; Рассел, Стюарт (15 июня 2017 г.). «Игра с выключением». arXiv : 1611.08219 [cs.AI].
  8. ^ abcd Рассел, Стюарт (8 октября 2019 г.). Совместимость с человеком: искусственный интеллект и проблема управления . США: Викинг. ISBN 978-0-525-55861-3. ОСЛК  1083694322.
  9. ^ «Google разрабатывает аварийный выключатель для ИИ» . Новости BBC . 8 июня 2016 г. Архивировано из оригинала 11 июня 2016 г. Проверено 12 июня 2016 г.
  10. ^ аб Орсо, Лоран; Армстронг, Стюарт (25 июня 2016 г.). «Безопасно прерываемые агенты». Материалы тридцать второй конференции по неопределенности в искусственном интеллекте . УАИ'16. Пресса ААИ: 557–566. ISBN 9780996643115. Архивировано из оригинала 15 февраля 2021 года . Проверено 7 февраля 2021 г.
  11. ^ Соарес, Нейт и др. «Исправляемость». Семинары на Двадцать девятой конференции AAAI по искусственному интеллекту. 2015.
  12. ^ Бостром, Ник (2014). «Глава 10: Оракулы, джинны, государи, инструменты (стр. 145)». Суперинтеллект: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112. Оракул – это вопросно-ответная система. Он может принимать вопросы на естественном языке и представлять ответы в виде текста. Оракул, который принимает вопросы только типа «да/нет», может выдать свое лучшее предположение с помощью одного бита или, возможно, с несколькими дополнительными битами, чтобы представить степень своей уверенности. Оракулу, принимающему открытые вопросы, потребуется некая метрика, с помощью которой можно будет ранжировать возможные правдивые ответы с точки зрения их информативности или уместности. В любом случае создание оракула, обладающего полностью универсальной способностью отвечать на вопросы на естественном языке, является задачей, полной для ИИ. Если бы можно было это сделать, то, вероятно, можно было бы также создать ИИ, обладающий достойной способностью понимать человеческие намерения так же, как и человеческие слова.
  13. ^ Армстронг, Стюарт; Сандберг, Андерс; Бостром, Ник (2012). «Мышление внутри коробки: контроль и использование ИИ Oracle». Разум и машины . 22 (4): 299–324. doi : 10.1007/s11023-012-9282-2. S2CID  9464769.
  14. ^ аб Ямпольский, Роман (2012). «Защита от утечек сингулярности: проблема ограничения искусственного интеллекта» (PDF) . Журнал исследований сознания . 19 (1–2): 194–214.
  15. ^ Армстронг, Стюарт (2013), Мюллер, Винсент К. (редактор), «Риски и стратегии смягчения последствий для Oracle AI», Философия и теория искусственного интеллекта , Исследования в области прикладной философии, эпистемологии и рациональной этики, Берлин, Гейдельберг: Springer Берлин Гейдельберг, том. 5, стр. 335–347, номер документа : 10.1007/978-3-642-31674-6_25, ISBN. 978-3-642-31673-9, получено 18 сентября 2022 г.
  16. ^ Бостром, Ник (2014). «Глава 10: Оракулы, джинны, государи, инструменты (стр. 147)». Суперинтеллект: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112. Например, рассмотрим риск того, что оракул будет отвечать на вопросы не максимально правдиво, а таким образом, чтобы тонко манипулировать нами, заставляя продвигать свои собственные скрытые планы. Одним из способов немного смягчить эту угрозу может быть создание нескольких оракулов, каждый со слегка отличающимся кодом и немного разной информационной базой. Затем простой механизм мог бы сравнить ответы, данные разными оракулами, и представить их на рассмотрение человека только в том случае, если все ответы совпадают.
  17. ^ Амодей, Дарио; Ола, Крис; Стейнхардт, Джейкоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (25 июля 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [cs.AI].
  18. ^ аб Ямпольский, Роман В. (2013), Мюллер, Винсент К. (редактор), «Что делать с парадоксом сингулярности?», Философия и теория искусственного интеллекта , Исследования в области прикладной философии, эпистемологии и рациональной этики, Берлин , Гейдельберг: Springer Berlin Heidelberg, vol. 5, стр. 397–413, номер документа : 10.1007/978-3-642-31674-6_30, ISBN. 978-3-642-31673-9, получено 19 сентября 2022 г.
  19. ^ Аб Чалмерс, Дэвид (2010). «Необычность: философский анализ». Журнал исследований сознания . 17 (9–10): 7–65.
  20. ^ abc Сюй, Джереми (1 марта 2012 г.). «Управляйте опасным ИИ до того, как он начнет контролировать нас», — говорит один эксперт. Новости Эн-Би-Си . Проверено 29 января 2016 г.
  21. ^ Бостром, Ник (2013). «Глава 9: Проблема управления: методы бокса». Суперинтеллект: грядущая революция машинного интеллекта . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112.
  22. ^ abc «Эксперимент с AI-Box: - Элиэзер С. Юдковски». www.yudkowsky.net . Проверено 19 сентября 2022 г.
  23. ^ Армстронг, Стюарт; Сандберг, Андерс; Бостром, Ник (6 июня 2012 г.). «Мышление внутри коробки: контроль и использование ИИ Oracle». Разум и машины . 22 (4): 299–324. CiteSeerX 10.1.1.396.799 . doi : 10.1007/s11023-012-9282-2. S2CID  9464769. 
  24. Юдковский, Элиезер (8 октября 2008 г.). «Заткнись и сделай невозможное!» . Проверено 11 августа 2015 г. Помимо описанных на связанной странице, было еще три эксперимента с AI-Box, которые я так и не удосужился добавить... Итак, после расследования, чтобы убедиться, что они могут позволить себе его потерять, я сыграл еще три AI-Box. эксперименты. Я выиграл первый, а затем проиграл следующие два. И тогда я приказал прекратить это.
  25. ^ Виндж, Вернор (1993). «Грядущая технологическая сингулярность: как выжить в постчеловеческую эпоху». Видение-21: Междисциплинарная наука и техника в эпоху киберпространства : 11–22. Бибкод : 1993vise.nasa...11V. Я утверждаю, что заключение под стражу по своей сути непрактично. В случае физического заключения: представьте, что вы заперты в своем доме и имеете лишь ограниченный доступ к данным снаружи, к вашим хозяевам. Если бы эти мастера думали со скоростью, скажем, в миллион раз медленнее, чем вы, нет никаких сомнений в том, что за период лет (вашего времени) вы могли бы придумать «полезный совет», который случайно освободил бы вас.
  26. ^ Ямпольский, Роман (2012). «Защита от утечек проблемы заключения сингулярного искусственного интеллекта». Журнал исследований сознания : 194–214.
  27. Роббинс, Мартин (26 января 2016 г.). «Искусственный интеллект: Боги, эго и Ex Machina». Хранитель . Проверено 9 апреля 2018 г.
  28. Ахенбах, Джоэл (30 декабря 2015 г.). «Ex Machina» и скрепки гибели». Вашингтон Пост . Проверено 9 апреля 2018 г.

Внешние ссылки