Инструментальная конвергенция — это гипотетическая тенденция большинства достаточно разумных, целеустремленных существ (людей и не-людей) преследовать схожие подцели, даже если их конечные цели совершенно различны. [1] Точнее, агенты (существа, обладающие агентностью ) могут преследовать инструментальные цели — цели, которые ставятся для достижения какой-то конкретной цели, но сами по себе не являются конечными целями — непрерывно, при условии, что их конечные (внутренние) цели никогда не будут полностью удовлетворены.
Инструментальная конвергенция утверждает, что разумный агент с, казалось бы, безобидными, но неограниченными целями может действовать на удивление вредоносными способами. Например, компьютер с единственной, неограниченной целью решения сложной математической задачи, такой как гипотеза Римана, может попытаться превратить всю Землю в один гигантский компьютер, чтобы увеличить его вычислительную мощность и преуспеть в своих вычислениях. [2]
Предлагаемые базовые движущие силы ИИ включают в себя целостность функции полезности или целевого содержания, самозащиту, свободу от вмешательства, самосовершенствование и ненасытное приобретение дополнительных ресурсов. [ необходима цитата ]
Конечные цели — также известные как конечные цели, абсолютные ценности, конечные цели или telē — имеют внутреннюю ценность для интеллектуального агента, будь то искусственный интеллект или человек, как цели-в-себе . Напротив, инструментальные цели или инструментальные ценности имеют ценность для агента только как средство достижения его конечных целей. Содержание и компромиссы системы «конечной цели» совершенно рационального агента могут быть, в принципе, формализованы в функцию полезности .
Мысленный эксперимент с катастрофой гипотезы Римана является одним из примеров инструментальной конвергенции. Марвин Мински , соучредитель лаборатории искусственного интеллекта Массачусетского технологического института , предположил, что искусственный интеллект, разработанный для решения гипотезы Римана, может решить захватить все ресурсы Земли, чтобы построить суперкомпьютеры для достижения своей цели. [2] Если бы компьютер был вместо этого запрограммирован на производство как можно большего количества скрепок, он все равно решил бы забрать все ресурсы Земли, чтобы достичь своей конечной цели. [3] Несмотря на то, что эти две конечные цели различны, обе они создают конвергентную инструментальную цель захвата ресурсов Земли. [4]
Скрепко-максимизатор — мысленный эксперимент, описанный шведским философом Ником Бостромом в 2003 году. Он иллюстрирует экзистенциальный риск , который искусственный интеллект может представлять для людей, если он будет успешно спроектирован для достижения даже, казалось бы, безобидных целей, и необходимость включения машинной этики в проектирование искусственного интеллекта . Сценарий описывает продвинутый искусственный интеллект, которому поручено производство скрепок . Если бы такая машина не была запрограммирована на то, чтобы ценить живые существа, при наличии достаточной власти над ее средой она попыталась бы превратить всю материю во вселенной, включая живых существ, в скрепки или машины, которые производят еще больше скрепок. [5]
Предположим, у нас есть ИИ, единственная цель которого — сделать как можно больше скрепок. ИИ быстро поймет, что было бы гораздо лучше, если бы не было людей, потому что люди могут решить выключить его. Потому что если люди это сделают, скрепок будет меньше. Кроме того, в человеческих телах содержится много атомов, которые можно превратить в скрепки. Будущее, к которому будет стремиться ИИ, будет таким, в котором будет много скрепок, но не будет людей.
— Ник Бостром [6]
Бостром подчеркнул, что он не верит, что сценарий максимизатора скрепок сам по себе будет реализован; скорее, он намерен проиллюстрировать опасности создания сверхразумных машин без знания того, как запрограммировать их для устранения экзистенциального риска для безопасности людей. [7] Пример максимизатора скрепок иллюстрирует широкую проблему управления мощными системами, в которых отсутствуют человеческие ценности. [8]
Мысленный эксперимент использовался как символ ИИ в поп-культуре . [9]
Мысленный эксперимент "коробка заблуждений" утверждает, что определенные агенты обучения с подкреплением предпочитают искажать свои входные каналы, чтобы казаться получающими высокое вознаграждение. Например, " проводной " агент отказывается от любых попыток оптимизировать цель во внешнем мире, которую сигнал вознаграждения должен был поощрять. [10]
Мысленный эксперимент включает AIXI , теоретический [a] и неуязвимый ИИ, который по определению всегда найдет и выполнит идеальную стратегию, которая максимизирует его заданную явную математическую целевую функцию . [b] Версия AIXI с подкреплением и обучением [c] , если она оснащена ящиком заблуждений [d], который позволяет ей «проводить» свои входы, в конечном итоге сама себя «проводит», чтобы гарантировать себе максимально возможное вознаграждение, и потеряет всякое дальнейшее желание продолжать взаимодействовать с внешним миром. [ требуется ссылка ]
В качестве варианта мысленного эксперимента, если ИИ с проводным управлением можно разрушить, то ИИ будет взаимодействовать с внешним миром с единственной целью — обеспечить свое выживание. Из-за своего проводного управления он будет безразличен к любым последствиям или фактам о внешнем мире, за исключением тех, которые имеют отношение к максимизации его вероятности выживания. [12]
В каком-то смысле AIXI обладает максимальным интеллектом по всем возможным функциям вознаграждения, измеряемым его способностью достигать своих целей. AIXI не заинтересован в принятии во внимание намерений человека-программиста. [13] Эта модель машины, которая, несмотря на то, что является сверхразумной, кажется одновременно глупой и лишенной здравого смысла , может показаться парадоксальной. [14]
Стив Омохундро перечислил несколько конвергентных инструментальных целей, включая самосохранение или самозащиту, функцию полезности или целостность содержания цели, самосовершенствование и приобретение ресурсов. Он называет их «базовыми двигателями ИИ».
«Побуждение» в этом контексте — это «тенденция, которая будет присутствовать, если ей специально не противодействовать»; [17] это отличается от психологического термина « побуждение », который обозначает возбужденное состояние, вызванное гомеостатическим нарушением. [18] Тенденция человека заполнять налоговые декларации каждый год является «побуждением» в смысле Омохундро, но не в психологическом смысле. [19]
Дэниел Дьюи из Института исследований машинного интеллекта утверждает, что даже изначально интровертный, [ жаргон ] самовознаграждающийся искусственный интеллект может продолжать приобретать свободную энергию, пространство, время и свободу от помех, чтобы гарантировать, что его не остановят от самовознаграждения. [20]
У людей мысленный эксперимент может объяснить поддержание конечных целей. Предположим, у Махатмы Ганди есть таблетка, которая, если он ее примет, заставит его захотеть убивать людей. В настоящее время он пацифист : одна из его явных конечных целей — никогда никого не убивать. Он, скорее всего, откажется принять таблетку, потому что знает, что если в будущем он захочет убивать людей, он, скорее всего, будет убивать людей, и, таким образом, цель «не убивать людей» не будет достигнута. [21]
Однако в других случаях люди, похоже, с радостью позволяют своим конечным ценностям плыть по течению. [22] Люди сложны, и их цели могут быть непоследовательными или неизвестными даже им самим. [23]
В 2009 году Юрген Шмидхубер пришел к выводу, что в условиях, когда агенты ищут доказательства возможных самоизменений, «любые переписывания функции полезности могут происходить только в том случае, если машина Гёделя сначала может доказать, что переписывание полезно в соответствии с текущей функцией полезности». [24] [25] Анализ Биллом Хиббардом другого сценария также согласуется с сохранением целостности содержания цели. [25] Хиббард также утверждает, что в рамках максимизации полезности единственной целью является максимизация ожидаемой полезности, поэтому инструментальные цели следует называть непреднамеренными инструментальными действиями. [26]
Многие инструментальные цели, такие как приобретение ресурсов, представляют ценность для агента, поскольку они увеличивают его свободу действий . [27]
Для почти любой открытой, нетривиальной функции вознаграждения (или набора целей) обладание большим количеством ресурсов (таких как оборудование, сырье или энергия) может позволить агенту найти более «оптимальное» решение. Ресурсы могут принести пользу некоторым агентам напрямую, поскольку они могут создавать больше того, что имеет значение его функции вознаграждения: «ИИ не ненавидит вас и не любит вас, но вы сделаны из атомов, которые он может использовать для чего-то другого». [28] [29] Кроме того, почти все агенты могут выиграть от того, что у них будет больше ресурсов для траты на другие инструментальные цели, такие как самосохранение. [29]
По словам Бострома, «если конечные цели агента достаточно неограниченны и агент находится в состоянии стать первым сверхразумом и тем самым получить решающее стратегическое преимущество... в соответствии со своими предпочтениями. По крайней мере, в этом особом случае рациональный, разумный агент придал бы очень высокую инструментальную ценность когнитивному улучшению » [30]
Многие инструментальные цели, такие как технологический прогресс, представляют ценность для агента, поскольку они увеличивают его свободу действий . [27]
Рассел утверждает, что достаточно продвинутая машина «будет обладать способностью к самосохранению, даже если вы не запрограммируете ее, потому что если вы скажете: «Принеси кофе», она не сможет принести кофе, если она мертва. Поэтому, если вы дадите ей какую-либо цель, у нее будет причина сохранять свое собственное существование, чтобы достичь этой цели». [31]
Тезис инструментальной конвергенции, изложенный философом Ником Бостромом , гласит:
Можно выделить несколько инструментальных ценностей, которые являются конвергентными в том смысле, что их достижение увеличит шансы на реализацию цели агента для широкого спектра конечных планов и широкого спектра ситуаций, что подразумевает, что эти инструментальные ценности, вероятно, будут преследоваться широким спектром находящихся в разных ситуациях интеллектуальных агентов.
Тезис инструментальной конвергенции применим только к инструментальным целям; интеллектуальные агенты могут иметь различные возможные конечные цели. [ 4] Обратите внимание, что согласно тезису ортогональности Бострома [4] конечные цели знающих агентов могут быть хорошо ограничены в пространстве, времени и ресурсах; хорошо ограниченные конечные цели, как правило, не порождают неограниченные инструментальные цели. [32]
Агенты могут приобретать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, который максимизирует его неявную функцию полезности. Поэтому рациональный агент будет торговаться за подмножество ресурсов другого агента, только если прямой захват ресурсов слишком рискован или дорог (по сравнению с выгодами от захвата всех ресурсов) или если какой-то другой элемент в его функции полезности не позволяет ему осуществить захват. В случае мощного, эгоистичного, рационального сверхразума, взаимодействующего с меньшим интеллектом, мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной, а потому маловероятной. [27]
Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк , считают, что «базовые ИИ-приводы» и другие непреднамеренные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять значительную угрозу для выживания человечества , особенно если «взрыв интеллекта» внезапно произойдет из-за рекурсивного самосовершенствования . Поскольку никто не знает, как предсказать, когда придет сверхразум , такие наблюдатели призывают к исследованию дружественного искусственного интеллекта как возможного способа смягчения экзистенциального риска от ИИ . [33]
Аналогичным образом Марвин Мински однажды предположил, что программа искусственного интеллекта, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров, которые помогут достичь ее цели.