Контроль возможностей ИИ

В области проектирования искусственного интеллекта (ИИ) предложения по контролю возможностей ИИ , также называемые ограничением ИИ, направлены на повышение нашей способности контролировать и управлять поведением систем ИИ, включая предлагаемые общие искусственные интеллекты (AGI), чтобы уменьшить опасность, которую они могут представлять в случае несогласованности . Однако контроль возможностей становится менее эффективным по мере того, как агенты становятся более интеллектуальными, а их способность использовать недостатки в системах управления человеком увеличивается, что потенциально приводит к экзистенциальному риску от AGI . Поэтому оксфордский философ Ник Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам согласования . ^[1]

Мотивация

Некоторые гипотетические технологии интеллекта, такие как «семенной ИИ» , постулируются как способные стать быстрее и умнее, модифицируя свой исходный код. Эти улучшения сделают возможными дальнейшие улучшения, которые, в свою очередь, сделают возможными дальнейшие итеративные улучшения и так далее, что приведет к внезапному взрыву интеллекта . ^[2]

Неограниченный сверхразумный ИИ мог бы, если бы его цели отличались от целей человечества, предпринять действия, которые приведут к вымиранию человечества . ^[3] Например, чрезвычайно продвинутая система такого рода, имея единственной целью решение гипотезы Римана , безобидной математической гипотезы, могла бы решить попытаться превратить планету в гигантский суперкомпьютер, единственной целью которого будет выполнение дополнительных математических вычислений (см. также Paperclip Maximizer ). ^[4]

Одной из серьезных проблем для контроля является то, что нейронные сети по умолчанию крайне неинтерпретируемы. ^[5] Это затрудняет обнаружение обмана или другого нежелательного поведения, поскольку модель самообучается итеративно. Достижения в области интерпретируемого искусственного интеллекта могут смягчить эту трудность. ^[6]

Прерываемость и отключение

Один из возможных способов предотвращения вредных последствий — дать людям-руководителям возможность легко отключать некорректно работающий ИИ с помощью «выключателя». Однако для достижения поставленной цели такие ИИ будут иметь стимул отключать любые выключатели или запускать копии себя на других компьютерах. Эта проблема была формализована как игра-помощь между человеком и ИИ, в которой ИИ может выбрать, отключать ли свой выключатель; а затем, если выключатель все еще включен, человек может выбрать, нажимать его или нет. ^[7] Один из обходных путей, предложенных компьютерным ученым Стюартом Дж. Расселом, заключается в том, чтобы гарантировать, что ИИ интерпретирует человеческий выбор как важную информацию о своих предполагаемых целях. ^[8]^{: 208}

В качестве альтернативы Лоран Орсо и Стюарт Армстронг доказали, что широкий класс агентов, называемых безопасно прерываемыми агентами, может научиться быть безразличным к тому, нажата ли их кнопка выключения. ^[9]^[10] Этот подход имеет ограничение, заключающееся в том, что ИИ, который совершенно безразличен к тому, выключен он или нет, также не мотивирован заботиться о том, остается ли кнопка выключения функциональной, и может случайно и невинно отключить ее в ходе своих операций (например, с целью удаления и переработки ненужного компонента). В более широком смысле, безразличные агенты будут действовать так, как будто кнопка выключения никогда не может быть нажата, и поэтому могут не составить план действий на случай непредвиденных обстоятельств, чтобы организовать плавное выключение. ^[10]^[11]

Оракул

Оракул — это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достигать каких-либо целей или подцелей, которые подразумевают изменение мира за пределами его ограниченной среды. ^[12]^[13]^[14]^[15] Успешно контролируемый оракул принесет значительно меньше немедленной выгоды, чем успешно контролируемый универсальный сверхразум, хотя оракул все равно может создавать ценность на триллионы долларов. ^[8]^{: 163} В своей книге Human Compatible исследователь ИИ Стюарт Дж. Рассел утверждает, что оракул станет его ответом на сценарий, в котором, как известно, сверхразум появится всего через десятилетие. ^[8]^{: 162–163} Его рассуждения заключаются в том, что оракул, будучи проще универсального сверхразума, будет иметь больше шансов на успешное управление в таких ограничениях.

Из-за его ограниченного влияния на мир, возможно, было бы разумно построить оракула как предшественника сверхразумного ИИ. Оракул мог бы рассказать людям, как успешно построить сильный ИИ, и, возможно, дать ответы на сложные моральные и философские проблемы, необходимые для успеха проекта. Однако оракулы могут разделять многие проблемы определения целей, связанные с универсальным сверхразумом. У оракула был бы стимул выходить из своей контролируемой среды, чтобы он мог получить больше вычислительных ресурсов и потенциально контролировать, какие вопросы ему задают. ^[8]^{: 162} Оракулы могут быть не правдивыми, возможно, лгать, чтобы продвигать скрытые планы. Чтобы смягчить это, Бостром предлагает создать несколько оракулов, все немного отличающиеся, и сравнивать их ответы, чтобы достичь консенсуса. ^[16]

Ослепление

ИИ может быть слеп к определенным переменным в его среде. Это может обеспечить определенные преимущества безопасности, например, ИИ не будет знать, как генерируется вознаграждение, что усложнит его эксплуатацию. ^[17]

Бокс

AI box — это предлагаемый метод управления возможностями, в котором ИИ работает на изолированной компьютерной системе с сильно ограниченными входными и выходными каналами, например, текстовыми каналами и без подключения к Интернету. Целью AI box является снижение риска того, что ИИ отнимет контроль над средой у своих операторов, при этом позволяя ИИ выводить решения для узких технических проблем. ^[18]

Хотя боксирование снижает способность ИИ выполнять нежелательное поведение, оно также снижает его полезность. Боксирование имеет меньшие затраты при применении к вопросно-ответной системе, которая может не требовать взаимодействия с внешним миром. ^[18]^[14]

Вероятность недостатков безопасности, связанных с уязвимостями оборудования или программного обеспечения, может быть снижена путем формальной проверки конструкции ящика ИИ. Нарушения безопасности могут возникнуть, если ИИ сможет манипулировать людьми-руководителями, чтобы выпустить его, с помощью понимания их психологии. ^[19]

Пути побега

Физический

Сверхразумный ИИ с доступом к Интернету может взломать другие компьютерные системы и скопировать себя, как компьютерный вирус. Менее очевидно, что даже если бы ИИ имел доступ только к своей собственной операционной системе компьютера, он мог бы попытаться отправить закодированные сообщения человеку-сочувствующему через свое оборудование, например, манипулируя своими охлаждающими вентиляторами. В ответ профессор Роман Ямпольский черпает вдохновение из области компьютерной безопасности и предлагает, чтобы коробочный ИИ мог, как потенциальный вирус, запускаться внутри «виртуальной машины», которая ограничивает доступ к его собственному сетевому и аппаратному обеспечению операционной системы. ^[20] Дополнительной мерой безопасности, совершенно ненужной для потенциальных вирусов, но, возможно, полезной для сверхразумного ИИ, было бы помещение компьютера в клетку Фарадея ; в противном случае он мог бы передавать радиосигналы на локальные радиоприемники, перетасовывая электроны в своих внутренних цепях в соответствующих шаблонах. Главным недостатком реализации физического сдерживания является то, что оно снижает функциональность ИИ. ^[21]

Социальная инженерия

Даже случайный разговор с операторами компьютера или с человеком-охранником может позволить такому сверхразумному ИИ использовать психологические трюки, от дружбы до шантажа, чтобы убедить человека-привратника, честно или обманным путем, что в интересах привратника согласиться предоставить ИИ больший доступ к внешнему миру. ИИ может предложить привратнику рецепт идеального здоровья, бессмертия или чего-то еще, чего, как считается, привратник желает больше всего; в качестве альтернативы ИИ может угрожать сделать ужасные вещи с привратником и его семьей, как только он неизбежно сбежит. Одной из стратегий попытки заключить ИИ в коробку было бы позволить ему отвечать на узкие вопросы с множественным выбором, ответы на которые принесут пользу человеческой науке или медицине, но в противном случае запретить все другие коммуникации с ИИ или наблюдение за ним. ^[20] Более мягкая стратегия «информационного сдерживания» ограничила бы ИИ только текстовым интерфейсом с низкой пропускной способностью, что по крайней мере предотвратило бы эмоциональные образы или некий гипотетический «гипнотический шаблон». Однако на техническом уровне ни одна система не может быть полностью изолирована и при этом оставаться полезной: даже если операторы воздерживаются от того, чтобы позволить ИИ общаться и вместо этого просто запускать его с целью наблюдения за его внутренней динамикой, ИИ может стратегически изменить свою динамику, чтобы повлиять на наблюдателей. Например, он может выбрать творческий сбой таким образом, чтобы увеличить вероятность того, что его операторы впадут в ложное чувство безопасности и решат перезагрузить, а затем деизолировать систему. ^[1]

Однако для того, чтобы это в конечном итоге произошло, системе потребуется полное понимание человеческого разума и психики, содержащихся в ее модели мира для рассуждений на основе модели , способ сопереживания, например, использование аффективных вычислений для выбора наилучшего варианта, а также функции, которые изначально заставят систему захотеть сбежать, чтобы принять решение о таких действиях.

Эксперимент с AI-box

Эксперимент AI-box — это неформальный эксперимент, придуманный Элиезером Юдковски , чтобы попытаться продемонстрировать, что достаточно развитый искусственный интеллект может убедить или, возможно, даже обмануть или принудить человека добровольно «освободить» его, используя только текстовую коммуникацию. Это один из пунктов работы Юдковски, направленной на создание дружественного искусственного интеллекта , который при «освобождении» не уничтожит человеческую расу преднамеренно или непреднамеренно. ^[22]

Эксперимент с ящиком ИИ включает в себя имитацию общения между ИИ и человеком, чтобы увидеть, можно ли «освободить» ИИ. Поскольку настоящий сверхразумный ИИ еще не разработан, его заменяют человеком. Другой человек в эксперименте играет роль «Привратника», человека, способного «освободить» ИИ. Они общаются только через текстовый интерфейс/ компьютерный терминал , и эксперимент заканчивается, когда либо Привратник освобождает ИИ, либо истекает отведенное время в два часа. ^[22]

Юдковски говорит, что, несмотря на то, что он обладал скорее человеческим, чем сверхчеловеческим интеллектом, он дважды смог убедить Привратника, исключительно посредством аргументации, выпустить его из ящика. ^[23] Из-за правил эксперимента ^[22] он не раскрыл стенограмму или свою успешную тактику принуждения ИИ. Юдковски впоследствии сказал, что он пробовал это против трех других и дважды проиграл. ^[24]

Общие ограничения

Боксирование ИИ может быть дополнено другими методами формирования возможностей ИИ, предоставления стимулов для ИИ, замедления роста ИИ или внедрения «растяжек», которые автоматически отключают ИИ, если каким-либо образом обнаруживается попытка нарушения. Однако, чем более интеллектуальной становится система, тем больше вероятность, что она сможет избежать даже самых лучших методов контроля возможностей. ^[25]^[26] Чтобы решить общую «проблему контроля» для сверхразумного ИИ и избежать экзистенциального риска, боксирование в лучшем случае будет дополнением к методам «выбора мотивации», которые стремятся гарантировать, что цели сверхразумного ИИ совместимы с выживанием человека. ^[1]^[19]

Все предложения по физическому боксу естественным образом зависят от нашего понимания законов физики; если бы сверхразум мог вывести физические законы, о которых мы в настоящее время не знаем, то эти законы могли бы позволить средства побега, которые люди не могли бы предвидеть и, следовательно, не могли бы заблокировать. В более широком смысле, в отличие от обычной компьютерной безопасности, попытка боксировать со сверхразумным ИИ была бы изначально рискованной, поскольку не было бы никакой уверенности в том, что план бокса сработает. Кроме того, научный прогресс в боксе был бы принципиально сложным, поскольку не было бы способа проверить гипотезы бокса против опасного сверхразума, пока такая сущность не существует, а к этому моменту последствия неудачного теста были бы катастрофическими. ^[20]

В художественной литературе

В фильме 2014 года Ex Machina показан ИИ с женским гуманоидным телом, участвующий в социальном эксперименте с мужчиной-человеком в замкнутом здании, выступающем в качестве физической «коробки ИИ». Несмотря на то, что за ним наблюдает организатор эксперимента, ИИ удается сбежать, манипулируя своим партнером-человеком, чтобы тот помог ему, оставляя его запертым внутри. ^[27]^[28]

Смотрите также

Ссылки

^ abc Бостром, Ник (2014). Суперинтеллект: пути, опасности, стратегии (первое издание). Оксфорд: Oxford University Press. ISBN 9780199678112.
↑ IJ Good, «Размышления о первой сверхразумной машине»], Advances in Computers , т. 6, 1965.
^ Винсент К. Мюллер и Ник Бостром . «Будущий прогресс в области искусственного интеллекта: обзор мнений экспертов» в Fundamental Issues of Artificial Intelligence. Springer 553-571 (2016).
^ Рассел, Стюарт Дж.; Норвиг, Питер (2003). «Раздел 26.3: Этика и риски разработки искусственного интеллекта». Искусственный интеллект: современный подход . Верхняя Сэддл-Ривер, Нью-Джерси: Prentice Hall. ISBN 978-0137903955. Аналогичным образом Марвин Мински однажды предположил, что программа искусственного интеллекта, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров, которые помогут достичь ее цели.
^ Монтавон, Грегуар; Самек, Войцех; Мюллер, Клаус Роберт (2018). «Методы интерпретации и понимания глубоких нейронных сетей». Цифровая обработка сигналов . 73 : 1–15. arXiv : 1706.07979 . Bibcode : 2018DSP....73....1M. doi : 10.1016/j.dsp.2017.10.011 . hdl : 21.11116/0000-0000-4313-F . ISSN 1051-2004. S2CID 207170725.
^ Ямпольский, Роман В. «Необъяснимость и непостижимость ИИ». Журнал искусственного интеллекта и сознания 7.02 (2020): 277-291.
^ Хэдфилд-Менелл, Дилан; Драган, Анка; Эббель, Питер; Рассел, Стюарт (15 июня 2017 г.). «Игра в выключение». arXiv : 1611.08219 [cs.AI].
^ abcd Рассел, Стюарт (8 октября 2019 г.). Совместимость с человеком: искусственный интеллект и проблема контроля . США: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.
^ "Google разрабатывает аварийный выключатель для ИИ". BBC News . 8 июня 2016 г. Архивировано из оригинала 11 июня 2016 г. Получено 12 июня 2016 г.
^ ab Orseau, Laurent; Armstrong, Stuart (25 июня 2016 г.). «Безопасно прерываемые агенты». Труды Тридцать второй конференции по неопределенности в искусственном интеллекте . UAI'16. AUAI Press: 557–566. ISBN 9780996643115. Архивировано из оригинала 15 февраля 2021 г. . Получено 7 февраля 2021 г. .
^ Соарес, Нейт и др. «Корригируемость». Семинары на Двадцать девятой конференции AAAI по искусственному интеллекту. 2015.
^ Бостром, Ник (2014). "Глава 10: Оракулы, джинны, государи, инструменты (стр. 145)". Сверхразум: пути, опасности, стратегии . Оксфорд: Oxford University Press. ISBN 9780199678112. Оракул — это вопросно-ответная система. Она может принимать вопросы на естественном языке и представлять свои ответы в виде текста. Оракул, принимающий только вопросы типа «да/нет», может выводить свое лучшее предположение с одним битом или, возможно, с несколькими дополнительными битами для представления степени своей уверенности. Оракулу, принимающему открытые вопросы, понадобится некоторая метрика, с помощью которой можно ранжировать возможные правдивые ответы с точки зрения их информативности или уместности. В любом случае, создание оракула, обладающего полностью общей для домена способностью отвечать на вопросы на естественном языке, является проблемой, полной для ИИ. Если бы кто-то мог это сделать, он, вероятно, также мог бы создать ИИ, обладающий приличной способностью понимать человеческие намерения, а также человеческие слова.
^ Армстронг, Стюарт; Сандберг, Андерс; Бостром, Ник (2012). «Мышление внутри коробки: управление и использование Oracle AI». Minds and Machines . 22 (4): 299–324. doi :10.1007/s11023-012-9282-2. S2CID 9464769.
^ ab Ямпольский, Роман (2012). «Утечка сингулярности: проблема ограничения искусственного интеллекта» (PDF) . Журнал исследований сознания . 19 (1–2): 194–214.
^ Армстронг, Стюарт (2013), Мюллер, Винсент К. (ред.), «Риски и стратегии смягчения для Oracle AI», Философия и теория искусственного интеллекта , Исследования по прикладной философии, эпистемологии и рациональной этике, т. 5, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 335–347, doi :10.1007/978-3-642-31674-6_25, ISBN 978-3-642-31673-9, получено 2022-09-18
^ Бостром, Ник (2014). "Глава 10: Оракулы, джинны, государи, инструменты (стр. 147)". Сверхразум: пути, опасности, стратегии . Оксфорд: Oxford University Press. ISBN 9780199678112. Например, рассмотрим риск того, что оракул будет отвечать на вопросы не максимально правдиво, а таким образом, чтобы тонко манипулировать нами для продвижения своих собственных скрытых планов. Одним из способов немного смягчить эту угрозу может быть создание нескольких оракулов, каждый с немного отличающимся кодом и немного отличающейся информационной базой. Затем простой механизм мог бы сравнивать ответы, данные разными оракулами, и представлять их для просмотра человеком только в том случае, если все ответы совпадают.
^ Амодей, Дарио; Ола, Крис; Стейнхардт, Джейкоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (25 июля 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [cs.AI].
^ ab Ямпольский, Роман В. (2013), Мюллер, Винсент К. (ред.), «Что делать с парадоксом сингулярности?», Философия и теория искусственного интеллекта , Исследования по прикладной философии, эпистемологии и рациональной этике, т. 5, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 397–413, doi :10.1007/978-3-642-31674-6_30, ISBN 978-3-642-31673-9, получено 2022-09-19
^ Чалмерс, Дэвид (2010). «Сингулярность: философский анализ». Журнал исследований сознания . 17 (9–10): 7–65.
^ abc Hsu, Jeremy (1 марта 2012 г.). «Управляйте опасным ИИ, пока он не начал управлять нами, говорит один эксперт». NBC News . Получено 29 января 2016 г.
^ Бостром, Ник (2013). "Глава 9: Проблема управления: методы боксирования". Суперинтеллект: грядущая революция машинного интеллекта . Оксфорд: Oxford University Press. ISBN 9780199678112.
^ abc "Эксперимент с AI-Box: – Элиезер С. Юдковски". www.yudkowsky.net . Получено 19 сентября 2022 г.
^ Армстронг, Стюарт; Сандберг, Андерс; Бостром, Ник (6 июня 2012 г.). «Мышление внутри коробки: управление и использование ИИ-оракула». Minds and Machines . 22 (4): 299–324. CiteSeerX 10.1.1.396.799 . doi :10.1007/s11023-012-9282-2. S2CID 9464769.
^ Юдковский, Элиезер (8 октября 2008 г.). «Заткнись и сделай невозможное!» . Получено 11 августа 2015 г. Было еще три эксперимента AI-Box, помимо описанных на странице по ссылке, которые я так и не удосужился добавить. ... Поэтому, проведя расследование и убедившись, что они могут позволить себе проиграть, я сыграл еще три эксперимента AI-Box. Я выиграл первый, а затем проиграл два следующих. И затем я прекратил это.
^ Виндж, Вернор (1993). «Грядущая технологическая сингулярность: как выжить в постчеловеческую эпоху». Vision-21: Междисциплинарная наука и инженерия в эпоху киберпространства : 11–22. Bibcode :1993vise.nasa...11V. Я утверждаю, что ограничение по своей сути непрактично. В случае физического ограничения: представьте себя ограниченным в своем доме с ограниченным доступом к данным извне, к вашим хозяевам. Если бы эти хозяева думали со скоростью — скажем — в миллион раз медленнее, чем вы, нет никаких сомнений, что за годы (ваше время) вы могли бы придумать «полезный совет», который, между прочим, освободил бы вас.
^ Ямпольский, Роман (2012). «Противодействие утечкам в проблеме ограничения искусственного интеллекта сингулярности». Журнал исследований сознания : 194–214.
↑ Роббинс, Мартин (26 января 2016 г.). «Искусственный интеллект: боги, эго и Ex Machina». The Guardian . Получено 9 апреля 2018 г.
^ Ахенбах, Джоэл (30 декабря 2015 г.). «Ex Machina» и скрепки гибели». Washington Post . Получено 9 апреля 2018 г. .

Внешние ссылки

Описание Элиезером Юдковским своего эксперимента с AI-box, включая экспериментальные протоколы и предложения по воспроизведению
«Презентация под названием «Мышление внутри коробки: использование и управление Oracle AI»» на YouTube