stringtranslate.com

Инструментальная конвергенция

Инструментальная конвергенция — это гипотетическая тенденция большинства достаточно разумных, целеустремленных существ (людей и не-людей) преследовать схожие подцели, даже если их конечные цели совершенно различны. [1] Точнее, агенты (существа, обладающие агентностью ) могут преследовать инструментальные цели — цели, которые ставятся для достижения какой-то конкретной цели, но сами по себе не являются конечными целями — непрерывно, при условии, что их конечные (внутренние) цели никогда не будут полностью удовлетворены.

Инструментальная конвергенция утверждает, что разумный агент с, казалось бы, безобидными, но неограниченными целями может действовать на удивление вредоносными способами. Например, компьютер с единственной, неограниченной целью решения сложной математической задачи, такой как гипотеза Римана, может попытаться превратить всю Землю в один гигантский компьютер, чтобы увеличить его вычислительную мощность и преуспеть в своих вычислениях. [2]

Предлагаемые базовые движущие силы ИИ включают в себя целостность функции полезности или целевого содержания, самозащиту, свободу от вмешательства, самосовершенствование и ненасытное приобретение дополнительных ресурсов. [ необходима цитата ]

Инструментальные и конечные цели

Конечные цели — также известные как конечные цели, абсолютные ценности, конечные цели или telē — имеют внутреннюю ценность для интеллектуального агента, будь то искусственный интеллект или человек, как цели-в-себе . Напротив, инструментальные цели или инструментальные ценности имеют ценность для агента только как средство достижения его конечных целей. Содержание и компромиссы системы «конечной цели» совершенно рационального агента могут быть, в принципе, формализованы в функцию полезности .

Гипотетические примеры конвергенции

Мысленный эксперимент с катастрофой гипотезы Римана является одним из примеров инструментальной конвергенции. Марвин Мински , соучредитель лаборатории искусственного интеллекта Массачусетского технологического института , предположил, что искусственный интеллект, разработанный для решения гипотезы Римана, может решить захватить все ресурсы Земли, чтобы построить суперкомпьютеры для достижения своей цели. [2] Если бы компьютер был вместо этого запрограммирован на производство как можно большего количества скрепок, он все равно решил бы забрать все ресурсы Земли, чтобы достичь своей конечной цели. [3] Несмотря на то, что эти две конечные цели различны, обе они создают конвергентную инструментальную цель захвата ресурсов Земли. [4]

Максимизатор скрепок

Скрепко-максимизатор — мысленный эксперимент, описанный шведским философом Ником Бостромом в 2003 году. Он иллюстрирует экзистенциальный риск , который искусственный интеллект может представлять для людей, если он будет успешно спроектирован для достижения даже, казалось бы, безобидных целей, и необходимость включения машинной этики в проектирование искусственного интеллекта . Сценарий описывает продвинутый искусственный интеллект, которому поручено производство скрепок . Если бы такая машина не была запрограммирована на то, чтобы ценить живые существа, при наличии достаточной власти над ее средой она попыталась бы превратить всю материю во вселенной, включая живых существ, в скрепки или машины, которые производят еще больше скрепок. [5]

Предположим, у нас есть ИИ, единственная цель которого — сделать как можно больше скрепок. ИИ быстро поймет, что было бы гораздо лучше, если бы не было людей, потому что люди могут решить выключить его. Потому что если люди это сделают, скрепок будет меньше. Кроме того, в человеческих телах содержится много атомов, которые можно превратить в скрепки. Будущее, к которому будет стремиться ИИ, будет таким, в котором будет много скрепок, но не будет людей.

Бостром подчеркнул, что он не верит, что сценарий максимизатора скрепок сам по себе будет реализован; скорее, он намерен проиллюстрировать опасности создания сверхразумных машин без знания того, как запрограммировать их для устранения экзистенциального риска для безопасности людей. [7] Пример максимизатора скрепок иллюстрирует широкую проблему управления мощными системами, в которых отсутствуют человеческие ценности. [8]

Мысленный эксперимент использовался как символ ИИ в поп-культуре . [9]

Заблуждение и выживание

Мысленный эксперимент "коробка заблуждений" утверждает, что определенные агенты обучения с подкреплением предпочитают искажать свои входные каналы, чтобы казаться получающими высокое вознаграждение. Например, " проводной " агент отказывается от любых попыток оптимизировать цель во внешнем мире, которую сигнал вознаграждения должен был поощрять. [10]

Мысленный эксперимент включает AIXI , теоретический [a] и неуязвимый ИИ, который по определению всегда найдет и выполнит идеальную стратегию, которая максимизирует его заданную явную математическую целевую функцию . [b] Версия AIXI с подкреплением и обучением [c] , если она оснащена ящиком заблуждений [d], который позволяет ей «проводить» свои входы, в конечном итоге сама себя «проводит», чтобы гарантировать себе максимально возможное вознаграждение, и потеряет всякое дальнейшее желание продолжать взаимодействовать с внешним миром. [ требуется ссылка ]

В качестве варианта мысленного эксперимента, если ИИ с проводным управлением можно разрушить, то ИИ будет взаимодействовать с внешним миром с единственной целью — обеспечить свое выживание. Из-за своего проводного управления он будет безразличен к любым последствиям или фактам о внешнем мире, за исключением тех, которые имеют отношение к максимизации его вероятности выживания. [12]

В каком-то смысле AIXI обладает максимальным интеллектом по всем возможным функциям вознаграждения, измеряемым его способностью достигать своих целей. AIXI не заинтересован в принятии во внимание намерений человека-программиста. [13] Эта модель машины, которая, несмотря на то, что является сверхразумной, кажется одновременно глупой и лишенной здравого смысла , может показаться парадоксальной. [14]

Базовые приводы ИИ

Некоторые способы, с помощью которых продвинутый несогласованный ИИ может попытаться получить больше власти. [15] Поведение, направленное на стремление к власти, может возникнуть, поскольку власть полезна для достижения практически любой цели. [16]

Стив Омохундро перечислил несколько конвергентных инструментальных целей, включая самосохранение или самозащиту, функцию полезности или целостность содержания цели, самосовершенствование и приобретение ресурсов. Он называет их «базовыми двигателями ИИ».

«Побуждение» в этом контексте — это «тенденция, которая будет присутствовать, если ей специально не противодействовать»; [17] это отличается от психологического термина « побуждение », который обозначает возбужденное состояние, вызванное гомеостатическим нарушением. [18] Тенденция человека заполнять налоговые декларации каждый год является «побуждением» в смысле Омохундро, но не в психологическом смысле. [19]

Дэниел Дьюи из Института исследований машинного интеллекта утверждает, что даже изначально интровертный, [ жаргон ] самовознаграждающийся искусственный интеллект может продолжать приобретать свободную энергию, пространство, время и свободу от помех, чтобы гарантировать, что его не остановят от самовознаграждения. [20]

Целостность содержания цели

У людей мысленный эксперимент может объяснить поддержание конечных целей. Предположим, у Махатмы Ганди есть таблетка, которая, если он ее примет, заставит его захотеть убивать людей. В настоящее время он пацифист : одна из его явных конечных целей — никогда никого не убивать. Он, скорее всего, откажется принять таблетку, потому что знает, что если в будущем он захочет убивать людей, он, скорее всего, будет убивать людей, и, таким образом, цель «не убивать людей» не будет достигнута. [21]

Однако в других случаях люди, похоже, с радостью позволяют своим конечным ценностям плыть по течению. [22] Люди сложны, и их цели могут быть непоследовательными или неизвестными даже им самим. [23]

В области искусственного интеллекта

В 2009 году Юрген Шмидхубер пришел к выводу, что в условиях, когда агенты ищут доказательства возможных самоизменений, «любые переписывания функции полезности могут происходить только в том случае, если машина Гёделя сначала может доказать, что переписывание полезно в соответствии с текущей функцией полезности». [24] [25] Анализ Биллом Хиббардом другого сценария также согласуется с сохранением целостности содержания цели. [25] Хиббард также утверждает, что в рамках максимизации полезности единственной целью является максимизация ожидаемой полезности, поэтому инструментальные цели следует называть непреднамеренными инструментальными действиями. [26]

Приобретение ресурсов

Многие инструментальные цели, такие как приобретение ресурсов, представляют ценность для агента, поскольку они увеличивают его свободу действий . [27]

Для почти любой открытой, нетривиальной функции вознаграждения (или набора целей) обладание большим количеством ресурсов (таких как оборудование, сырье или энергия) может позволить агенту найти более «оптимальное» решение. Ресурсы могут принести пользу некоторым агентам напрямую, поскольку они могут создавать больше того, что имеет значение его функции вознаграждения: «ИИ не ненавидит вас и не любит вас, но вы сделаны из атомов, которые он может использовать для чего-то другого». [28] [29] Кроме того, почти все агенты могут выиграть от того, что у них будет больше ресурсов для траты на другие инструментальные цели, такие как самосохранение. [29]

Улучшение когнитивных способностей

По словам Бострома, «если конечные цели агента достаточно неограниченны и агент находится в состоянии стать первым сверхразумом и тем самым получить решающее стратегическое преимущество... в соответствии со своими предпочтениями. По крайней мере, в этом особом случае рациональный, разумный агент придал бы очень высокую инструментальную ценность когнитивному улучшению » [30]

Технологическое совершенство

Многие инструментальные цели, такие как технологический прогресс, представляют ценность для агента, поскольку они увеличивают его свободу действий . [27]

Самосохранение

Рассел утверждает, что достаточно продвинутая машина «будет обладать способностью к самосохранению, даже если вы не запрограммируете ее, потому что если вы скажете: «Принеси кофе», она не сможет принести кофе, если она мертва. Поэтому, если вы дадите ей какую-либо цель, у нее будет причина сохранять свое собственное существование, чтобы достичь этой цели». [31]

Тезис инструментальной конвергенции

Тезис инструментальной конвергенции, изложенный философом Ником Бостромом , гласит:

Можно выделить несколько инструментальных ценностей, которые являются конвергентными в том смысле, что их достижение увеличит шансы на реализацию цели агента для широкого спектра конечных планов и широкого спектра ситуаций, что подразумевает, что эти инструментальные ценности, вероятно, будут преследоваться широким спектром находящихся в разных ситуациях интеллектуальных агентов.

Тезис инструментальной конвергенции применим только к инструментальным целям; интеллектуальные агенты могут иметь различные возможные конечные цели. [ 4] Обратите внимание, что согласно тезису ортогональности Бострома [4] конечные цели знающих агентов могут быть хорошо ограничены в пространстве, времени и ресурсах; хорошо ограниченные конечные цели, как правило, не порождают неограниченные инструментальные цели. [32]

Влияние

Агенты могут приобретать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, который максимизирует его неявную функцию полезности. Поэтому рациональный агент будет торговаться за подмножество ресурсов другого агента, только если прямой захват ресурсов слишком рискован или дорог (по сравнению с выгодами от захвата всех ресурсов) или если какой-то другой элемент в его функции полезности не позволяет ему осуществить захват. В случае мощного, эгоистичного, рационального сверхразума, взаимодействующего с меньшим интеллектом, мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной, а потому маловероятной. [27]

Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк , считают, что «базовые ИИ-приводы» и другие непреднамеренные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять значительную угрозу для выживания человечества , особенно если «взрыв интеллекта» внезапно произойдет из-за рекурсивного самосовершенствования . Поскольку никто не знает, как предсказать, когда придет сверхразум , такие наблюдатели призывают к исследованию дружественного искусственного интеллекта как возможного способа смягчения экзистенциального риска от ИИ . [33]

Смотрите также

Пояснительные записки

  1. ^ AIXI — невычислимый идеальный агент, который не может быть полностью реализован в реальном мире.
  2. ^ Технически, в условиях неопределенности AIXI пытается максимизировать свою « ожидаемую полезность », ожидаемое значение своей целевой функции.
  3. ^ Стандартный агент обучения с подкреплением — это агент, который пытается максимизировать ожидаемое значение будущего дисконтированного по времени интеграла своей функции вознаграждения. [11]
  4. ^ Роль ящика заблуждений заключается в имитации среды, в которой агент получает возможность управлять собой. Ящик заблуждений определяется здесь как изменяемая агентом «функция заблуждения», отображающая «немодифицированный» поток окружающей среды в «воспринимаемый» поток окружающей среды; функция начинается как функция идентичности , но как действие агент может изменять функцию заблуждения любым желаемым им способом.

Цитаты

  1. ^ "Инструментальная конвергенция". LessWrong . Архивировано из оригинала 2023-04-12 . Получено 2023-04-12 .
  2. ^ ab Russell, Stuart J. ; Norvig, Peter (2003). "Раздел 26.3: Этика и риски разработки искусственного интеллекта". Искусственный интеллект: современный подход . Upper Saddle River, NJ: Prentice Hall. ISBN 978-0137903955. Аналогичным образом Марвин Мински однажды предположил, что программа искусственного интеллекта, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров, которые помогут достичь ее цели.
  3. ^ Бостром 2014, Глава 8, стр. 123. «ИИ, разработанный для управления производством на фабрике, получает конечную цель — максимизировать производство скрепок, и приступает к преобразованию сначала Земли, а затем все более крупных кусков наблюдаемой Вселенной в скрепки».
  4. ^ abc Bostrom 2014, глава 7
  5. ^ Бостром, Ник (2003). «Этические проблемы в передовом искусственном интеллекте». Архивировано из оригинала 2018-10-08 . Получено 2016-02-26 .
  6. ^ как цитируется в Miles, Kathleen (2014-08-22). «Искусственный интеллект может погубить человеческую расу в течение столетия, говорит профессор Оксфорда». Huffington Post . Архивировано из оригинала 2018-02-25 . Получено 2018-11-30 .
  7. ^ Форд, Пол (11 февраля 2015 г.). «Достаточно ли мы умны, чтобы контролировать искусственный интеллект?». MIT Technology Review . Архивировано из оригинала 23 января 2016 г. Получено 25 января 2016 г.
  8. Друг, Тэд (3 октября 2016 г.). «Явная судьба Сэма Олтмана». The New Yorker . Получено 25 ноября 2017 г.
  9. ^ Картер, Том (23 ноября 2023 г.). «В офисы OpenAI были отправлены тысячи скрепок в качестве сложной шутки, чтобы предупредить об апокалипсисе ИИ». Business Insider .
  10. ^ Амодей, Д.; Ола, К.; Стейнхардт, Дж.; Кристиано, П.; Шульман Дж.; Мане, Д. (2016). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [cs.AI].
  11. ^ Kaelbling, LP; Littman, ML; Moore, AW (1 мая 1996 г.). «Обучение с подкреплением: обзор». Журнал исследований искусственного интеллекта . 4 : 237–285. doi : 10.1613/jair.301 .
  12. ^ Ринг, М.; Орсо, Л. (2011). «Заблуждение, выживание и интеллектуальные агенты». В Шмидхубер, Дж.; Ториссон, К. Р.; Лукс, М. (ред.). Искусственный общий интеллект . Конспект лекций по информатике. Том 6830. Берлин, Гейдельберг: Springer.
  13. ^ Ямпольский, Роман; Фокс, Джошуа (24 августа 2012 г.). «Технология безопасности для искусственного интеллекта общего назначения». Topoi . 32 (2): 217–226. doi :10.1007/s11245-012-9128-9. S2CID  144113983.
  14. ^ Ямпольский, Роман В. (2013). «Что делать с парадоксом сингулярности?». Философия и теория искусственного интеллекта . Исследования по прикладной философии, эпистемологии и рациональной этике. Том 5. С. 397–413. doi :10.1007/978-3-642-31674-6_30. ISBN 978-3-642-31673-9.
  15. ^ Карлсмит, Джозеф (16.06.2022). «Является ли стремление ИИ к власти экзистенциальным риском?». arXiv : 2206.13353 [cs.CY].
  16. ^ ""Крёстный отец ИИ" предупреждает о "кошмарном сценарии", когда искусственный интеллект начинает стремиться к власти". Fortune . Архивировано из оригинала 2023-05-25 . Получено 2023-06-10 .
  17. ^ Омохундро, Стивен М. (февраль 2008 г.). «Основные приводы ИИ». Общий искусственный интеллект 2008 . Том. 171. ИОС Пресс. стр. 483–492. CiteSeerX 10.1.1.393.8356 . ISBN  978-1-60750-309-5.
  18. ^ Сьюард, Джон П. (1956). «Драйв, стимул и подкрепление». Psychological Review . 63 (3): 195–203. doi :10.1037/h0048229. PMID  13323175.
  19. ^ Бостром 2014, сноска 8 к главе 7
  20. ^ Дьюи, Дэниел (2011). «Изучение того, что ценить». Искусственный общий интеллект . Конспект лекций по информатике. Берлин, Гейдельберг: Springer. стр. 309–314. doi :10.1007/978-3-642-22887-2_35. ISBN 978-3-642-22887-2.
  21. ^ Юдковски, Элиезер (2011). «Сложные системы ценностей в дружественном ИИ». Искусственный общий интеллект . Конспект лекций по информатике. Берлин, Гейдельберг: Springer. стр. 388–393. doi :10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22887-2.
  22. ^ Каллард, Агнес (2018). Стремление: агентство становления . Oxford University Press . doi :10.1093/oso/9780190639488.001.0001. ISBN 978-0-19-063951-8.
  23. ^ Бостром 2014, глава 7, стр. 110 «Мы, люди, часто, кажемся, рады позволить нашим конечным ценностям дрейфовать... Например, кто-то, решивший завести ребенка, может предположить, что он начнет ценить ребенка ради него самого, даже если на момент принятия решения он может не особенно ценить своего будущего ребенка... Люди сложны, и в такой ситуации могут играть роль многие факторы... у кого-то может быть конечная ценность, которая подразумевает наличие определенного опыта и выполнение определенной социальной роли, а становление родителем — и сопутствующее этому изменение цели — может быть необходимым аспектом этого...»
  24. ^ Шмидхубер-младший (2009). «Высшее познание а-ля Гёдель». Когнитивные вычисления . 1 (2): 177–193. CiteSeerX 10.1.1.218.3323 . doi : 10.1007/s12559-009-9014-y. S2CID  10784194. 
  25. ^ ab Hibbard, B. (2012). «Функции полезности на основе моделей». Журнал искусственного интеллекта . 3 (1): 1–24. arXiv : 1111.3934 . Bibcode :2012JAGI....3....1H. doi : 10.2478/v10229-011-0013-5 .
  26. ^ Хиббард, Билл (2014). «Этический искусственный интеллект». arXiv : 1411.1373 [cs.AI].
  27. ^ abc Benson-Tilsen, Tsvi; Soares, Nate (март 2016 г.). "Формализация конвергентных инструментальных целей" (PDF) . Семинары тридцатой конференции AAAI по искусственному интеллекту . Финикс, Аризона. WS-16-02: AI, этика и общество. ISBN 978-1-57735-759-9.
  28. ^ Юдковски, Элиезер (2008). «Искусственный интеллект как положительный и отрицательный фактор глобального риска». Глобальные катастрофические риски . Т. 303. OUP Oxford. стр. 333. ISBN 9780199606504.
  29. ^ ab Shanahan, Murray (2015). "Глава 7, Раздел 5: "Безопасный сверхразум"". Технологическая сингулярность . MIT Press.
  30. ^ Бостром 2014, Глава 7, подраздел «Когнитивное улучшение»
  31. ^ «Миллиардный крестовый поход Илона Маска, чтобы остановить апокалипсис ИИ». Vanity Fair . 2017-03-26 . Получено 2023-04-12 .
  32. ^ Дрекслер, К. Эрик (2019). Переосмысление суперинтеллекта: комплексные службы ИИ как общий интеллект (PDF) (технический отчет). Future of Humanity Institute. #2019-1.
  33. ^ Чен, Анджела (11 сентября 2014 г.). «Искусственный интеллект — угроза?». The Chronicle of Higher Education . Архивировано из оригинала 1 декабря 2017 г. Получено 25 ноября 2017 г.

Ссылки