stringtranslate.com

Дружелюбный искусственный интеллект

Дружественный искусственный интеллект ( friendly AI или FAI ) — гипотетический искусственный общий интеллект (AGI), который окажет положительное (благоприятное) влияние на человечество или, по крайней мере, будет соответствовать человеческим интересам или способствовать улучшению человеческого вида. Это часть этики искусственного интеллекта , тесно связанная с машинной этикой . В то время как машинная этика касается того, как должен вести себя агент с искусственным интеллектом, исследования дружественного искусственного интеллекта сосредоточены на том, как практически реализовать это поведение и обеспечить его адекватное ограничение.

Этимология и использование

Элиезер Юдковски , исследователь искусственного интеллекта и создатель термина

Термин был придуман Элиезером Юдковски , [1] который наиболее известен популяризацией этой идеи, [2] [3] для обсуждения сверхразумных искусственных агентов, которые надежно реализуют человеческие ценности. Ведущий учебник по искусственному интеллекту Стюарта Дж. Рассела и Питера Норвига , «Искусственный интеллект: современный подход» , описывает эту идею: [2]

Юдковски (2008) более подробно описывает, как спроектировать Дружественный ИИ . Он утверждает, что дружелюбие (желание не причинять вреда людям) должно быть заложено с самого начала, но что проектировщики должны осознавать, что их собственные проекты могут быть несовершенны, и что робот будет учиться и развиваться с течением времени. Таким образом, задача заключается в проектировании механизма — определить механизм для развивающихся систем ИИ в рамках системы сдержек и противовесов и предоставить системам функции полезности, которые останутся дружелюбными при таких изменениях.

«Дружественный» используется в этом контексте как технический термин и выбирает агентов, которые безопасны и полезны, а не обязательно те, которые являются «дружелюбными» в разговорном смысле. Эта концепция в первую очередь используется в контексте обсуждений рекурсивно самосовершенствующихся искусственных агентов, которые быстро взрываются в интеллекте , на том основании, что эта гипотетическая технология будет иметь большое, быстрое и трудно контролируемое влияние на человеческое общество. [4]

Риски недружественного ИИ

Корни беспокойства об искусственном интеллекте очень древние. Кевин Лаграндер показал, что опасности, характерные для ИИ, можно увидеть в древней литературе, посвященной искусственным гуманоидным слугам, таким как голем , или протороботам Герберта Орийакского и Роджера Бэкона . В этих историях чрезвычайный интеллект и сила этих гуманоидных созданий сталкиваются с их статусом рабов (которые по своей природе рассматриваются как недочеловеки) и вызывают катастрофический конфликт. [5] К 1942 году эти темы побудили Айзека Азимова создать « Три закона робототехники » — принципы, жестко зашитые во всех роботах в его произведениях, призванные не дать им напасть на своих создателей или позволить им пострадать. [6]

В наше время, когда перспектива сверхразумного ИИ становится все ближе, философ Ник Бостром сказал, что сверхразумные системы ИИ с целями, которые не соответствуют человеческой этике, по своей сути опасны, если не принять крайние меры для обеспечения безопасности человечества. Он выразился так:

По сути, мы должны предположить, что «сверхразум» сможет достичь любых поставленных целей. Поэтому крайне важно, чтобы цели, которыми мы его наделяем, и вся его система мотивации были «дружественны человеку».

В 2008 году Элиезер Юдковски призвал к созданию «дружественного ИИ» для снижения экзистенциального риска от передового искусственного интеллекта . Он поясняет: «ИИ не ненавидит вас и не любит, но вы сделаны из атомов, которые он может использовать для чего-то другого». [7]

Стив Омохундро говорит, что достаточно развитая система ИИ, если ей явно не противодействовать, будет демонстрировать ряд основных «стремлений» , таких как приобретение ресурсов, самосохранение и постоянное самосовершенствование, из-за внутренней природы любых систем, ориентированных на цели, и что эти стремления будут, «без особых мер предосторожности», заставлять ИИ демонстрировать нежелательное поведение. [8] [9]

Александр Висснер-Гросс говорит, что ИИ, стремящиеся максимизировать свою будущую свободу действий (или энтропию причинно-следственной связи), можно считать дружественными, если их горизонт планирования длиннее определенного порога, и недружественными, если их горизонт планирования короче этого порога. [10] [11]

Люк Мюльхаузер, пишущий для Института исследований машинного интеллекта , рекомендует исследователям машинной этики принять то, что Брюс Шнайер назвал «мышлением безопасности»: вместо того, чтобы думать о том, как будет работать система, представьте, как она может выйти из строя. Например, он предполагает, что даже ИИ, который делает только точные прогнозы и общается через текстовый интерфейс, может причинить непреднамеренный вред. [12]

В 2014 году Люк Мюльхаузер и Ник Бостром подчеркнули необходимость «дружественного ИИ»; [13] тем не менее, трудности в проектировании «дружественного» сверхинтеллекта, например, посредством программирования контрфактуального морального мышления, значительны. [14] [15]

Последовательное экстраполированное волеизъявление

Юдковски выдвигает модель когерентной экстраполированной воли (CEV). По его словам, наша когерентная экстраполированная воля — это «наше желание, чтобы мы знали больше, думали быстрее, были такими людьми, какими хотели бы быть, росли вместе; где экстраполяция сходится, а не расходится, где наши желания связываются, а не мешают; экстраполируются так, как мы хотим, чтобы экстраполировалось, интерпретируются так, как мы хотим, чтобы интерпретировалось». [16]

Вместо того, чтобы Дружественный ИИ проектировался непосредственно людьми-программистами, он должен быть разработан «семенным ИИ», запрограммированным на то, чтобы сначала изучить человеческую природу , а затем создать ИИ, который человечество хотело бы, при наличии достаточного времени и понимания, чтобы прийти к удовлетворительному ответу. [16] Обращение к цели через обусловленную человеческую природу (возможно, выраженную, для математических целей, в форме функции полезности или другого формализма теории принятия решений ), как предоставление окончательного критерия «Дружественности», является ответом на метаэтическую проблему определения объективной морали ; экстраполированная воля должна быть тем, чего человечество объективно хотело бы, принимая во внимание все обстоятельства, но ее можно определить только относительно психологических и когнитивных качеств современного, неэкстраполированного человечества.

Другие подходы

Стив Омохундро предложил подход «строительных лесов» к безопасности ИИ , при котором одно поколение ИИ, которое доказано безопасно, помогает построить следующее поколение, которое доказано безопасно. [17]

Сет Баум утверждает, что разработка безопасного, социально полезного искусственного интеллекта или искусственного общего интеллекта является функцией социальной психологии исследовательских сообществ ИИ, и поэтому может быть ограничена внешними мерами и мотивирована внутренними мерами. Внутренние мотивы могут быть усилены, когда сообщения находят отклик у разработчиков ИИ; Баум утверждает, что, напротив, «существующие сообщения о полезном ИИ не всегда хорошо сформулированы». Баум выступает за «кооперативные отношения и позитивное восприятие исследователей ИИ» и предостерегает от характеристики исследователей ИИ как «не желающих заниматься полезными разработками». [18]

В своей книге Human Compatible исследователь ИИ Стюарт Дж. Рассел перечисляет три принципа, которыми следует руководствоваться при разработке полезных машин. Он подчеркивает, что эти принципы не предназначены для явного кодирования в машинах; скорее, они предназначены для разработчиков-людей. Принципы следующие: [19] : 173 

  1. Единственная цель машины — максимально реализовать человеческие предпочтения.
  2. Машина изначально не знает, каковы эти предпочтения.
  3. Основным источником информации о человеческих предпочтениях является человеческое поведение.

«Предпочтения», о которых говорит Рассел, «являются всеобъемлющими; они охватывают все, что может вас волновать, в сколь угодно далеком будущем». [19] : 173  Аналогично, «поведение» включает любой выбор между вариантами, [19] : 177  и неопределенность такова, что некоторая вероятность, которая может быть весьма малой, должна быть назначена каждому логически возможному человеческому предпочтению. [19] : 201 

Государственная политика

Джеймс Баррат , автор книги «Наше последнее изобретение» , предположил, что «необходимо создать государственно-частное партнерство, чтобы объединить разработчиков ИИ для обмена идеями о безопасности — что-то вроде Международного агентства по атомной энергии , но в партнерстве с корпорациями». Он призывает исследователей ИИ созвать встречу, похожую на Асиломарскую конференцию по рекомбинантной ДНК , на которой обсуждались риски биотехнологий . [17]

Джон МакГиннис призывает правительства ускорить исследования дружественного ИИ. Поскольку цели дружественного ИИ не обязательно выдающиеся, он предлагает модель, похожую на модель Национальных институтов здравоохранения , где «группы рецензирования компьютерных и когнитивных ученых будут просеивать проекты и выбирать те, которые предназначены как для продвижения ИИ, так и для обеспечения того, чтобы такие достижения сопровождались соответствующими гарантиями». МакГиннис считает, что рецензирование лучше, «чем регулирование, для решения технических проблем, которые невозможно охватить с помощью бюрократических мандатов». МакГиннис отмечает, что его предложение контрастирует с предложением Института исследований машинного интеллекта , который в целом стремится избегать участия правительства в дружественном ИИ. [20]

Критика

Некоторые критики считают, что как ИИ человеческого уровня, так и сверхинтеллект маловероятны, и что, следовательно, дружественный ИИ маловероятен. В своей статье в The Guardian Алан Уинфилд сравнивает искусственный интеллект человеческого уровня с путешествиями со скоростью, превышающей скорость света, с точки зрения сложности и заявляет, что, хотя нам нужно быть «осторожными и подготовленными», учитывая поставленные ставки, нам «не нужно зацикливаться» на рисках сверхинтеллекта. [21] С другой стороны, Бойлз и Хоакин утверждают, что предложение Люка Мюльхаузера и Ника Бострома о создании дружественных ИИ кажется мрачным. Это связано с тем, что Мюльхаузер и Бостром, по-видимому, придерживаются идеи, что интеллектуальные машины можно запрограммировать так, чтобы они думали контрфактуально о моральных ценностях, которые были бы у людей. [13] В статье в журнале AI & Society Бойлз и Хоакин утверждают, что такие ИИ не были бы такими уж дружелюбными, учитывая следующее: бесконечное количество предшествующих контрфактуальных условий, которые необходимо было бы запрограммировать в машине, сложность обналичивания набора моральных ценностей, то есть тех, которые более идеальны, чем те, которыми обладают люди в настоящее время, и очевидная нестыковка между контрфактическими предпосылками и идеальными ценностными следствиями. [14]

Некоторые философы утверждают, что любой действительно «рациональный» агент, будь то искусственный или человеческий, будет по своей природе доброжелательным; с этой точки зрения, преднамеренные меры предосторожности, разработанные для создания дружественного ИИ, могут быть ненужными или даже вредными. [22] Другие критики сомневаются в том, что искусственный интеллект может быть дружелюбным. Адам Кейпер и Ари Н. Шульман, редакторы технологического журнала The New Atlantis , говорят, что будет невозможно когда-либо гарантировать «дружественное» поведение в ИИ, поскольку проблемы этической сложности не поддадутся достижениям программного обеспечения или увеличению вычислительной мощности. Они пишут, что критерии, на которых основаны теории дружественного ИИ, работают «только тогда, когда у человека есть не только большие возможности предсказывать вероятность множества возможных результатов, но и уверенность и консенсус относительно того, как он оценивает различные результаты. [23]

Внутренние механизмы работы современных систем искусственного интеллекта могут быть сложными и трудными для интерпретации, что приводит к проблемам прозрачности и подотчетности. [24]

Смотрите также

Ссылки

  1. ^ Тегмарк, Макс (2014). «Жизнь, наша Вселенная и всё остальное». Наша математическая Вселенная: Мои поиски высшей природы реальности (первое издание). Knopf Doubleday Publishing. ISBN 9780307744258. Его владелец может передать управление тому, что Элиезер Юдковски называет «Дружественным ИИ»...
  2. ^ ab Рассел, Стюарт ; Норвиг, Питер (2009). Искусственный интеллект: современный подход . Prentice Hall. ISBN 978-0-13-604259-4.
  3. ^ Лейтон, Джонатан (2011). Битва за сострадание: этика в апатичной вселенной . Algora. ISBN 978-0-87586-870-7.
  4. ^ Уоллах, Уэнделл; Аллен, Колин (2009). Моральные машины: обучение роботов отличать правильное от неправильного . Oxford University Press, Inc. ISBN 978-0-19-537404-9.
  5. ^ Кевин ЛаГрандёр (2011). «Постоянная опасность искусственного раба». Science Fiction Studies . 38 (2): 232. doi :10.5621/sciefictstud.38.2.0232. Архивировано из оригинала 13 января 2023 г. Получено 6 мая 2013 г.
  6. ^ Айзек Азимов (1964). "Введение" . Остальные роботы . Doubleday. ISBN 0-385-09041-2.
  7. ^ Элиезер Юдковски (2008). «Искусственный интеллект как положительный и отрицательный фактор глобального риска» (PDF) . В Ник Бостром; Милан М. Чиркович (ред.). Глобальные катастрофические риски . стр. 308–345. Архивировано (PDF) из оригинала 19 октября 2013 г. . Получено 19 октября 2013 г. .
  8. ^ Омохундро, SM (февраль 2008). «Основные приводы ИИ». Artificial General Intelligence . 171 : 483–492. CiteSeerX 10.1.1.393.8356 . 
  9. ^ Бостром, Ник (2014). "Глава 7: Сверхразумная воля". Сверхразум: пути, опасности, стратегии . Оксфорд: Oxford University Press. ISBN 9780199678112.
  10. ^ Дворски, Джордж (26 апреля 2013 г.). «Как Skynet может возникнуть из простой физики». Gizmodo . Архивировано из оригинала 8 октября 2021 г. Получено 23 декабря 2021 г.
  11. ^ Wissner-Gross, AD ; Freer, CE (2013). "Причинные энтропийные силы". Physical Review Letters . 110 (16): 168702. Bibcode :2013PhRvL.110p8702W. doi : 10.1103/PhysRevLett.110.168702 . hdl : 1721.1/79750 . PMID  23679649.
  12. ^ Muehlhauser, Luke (31 июля 2013 г.). «Риск ИИ и мышление безопасности». Machine Intelligence Research Institute . Архивировано из оригинала 19 июля 2014 г. Получено 15 июля 2014 г.
  13. ^ ab Muehlhauser, Luke; Bostrom, Nick (17 декабря 2013 г.). «Почему нам нужен дружественный ИИ». Think . 13 (36): 41–47. doi :10.1017/s1477175613000316. ISSN  1477-1756. S2CID  143657841.
  14. ^ ab Boyles, Robert James M.; Joaquin, Jeremiah Joven (23 июля 2019 г.). «Почему дружелюбные ИИ не будут такими уж дружелюбными: дружелюбный ответ Мюльхаузеру и Бострому». AI & Society . 35 (2): 505–507. doi :10.1007/s00146-019-00903-0. ISSN  0951-5666. S2CID  198190745.
  15. ^ Чан, Берман (4 марта 2020 г.). «Возвышение искусственного интеллекта и кризис моральной пассивности». AI & Society . 35 (4): 991–993. doi :10.1007/s00146-020-00953-9. ISSN  1435-5655. S2CID  212407078. Архивировано из оригинала 10 февраля 2023 г. . Получено 21 января 2023 г. .
  16. ^ ab Элиезер Юдковский (2004). "Coherent Extrapolated Volition" (PDF) . Singularity Institute for Artificial Intelligence. Архивировано (PDF) из оригинала 30 сентября 2015 г. . Получено 12 сентября 2015 г. .
  17. ^ ab Hendry, Erica R. (21 января 2014 г.). «Что происходит, когда искусственный интеллект нападает на нас?». Smithsonian Magazine . Архивировано из оригинала 19 июля 2014 г. Получено 15 июля 2014 г.
  18. ^ Баум, Сет Д. (28 сентября 2016 г.). «О продвижении безопасного и социально полезного искусственного интеллекта». AI & Society . 32 (4): 543–551. doi :10.1007/s00146-016-0677-0. ISSN  0951-5666. S2CID  29012168.
  19. ^ abcd Рассел, Стюарт (8 октября 2019 г.). Совместимость с человеком: искусственный интеллект и проблема контроля . США: Viking. ISBN 978-0-525-55861-3. OCLC  1083694322.
  20. ^ МакГиннис, Джон О. (лето 2010 г.). «Ускорение ИИ». Northwestern University Law Review . 104 (3): 1253–1270. Архивировано из оригинала 1 декабря 2014 г. Получено 16 июля 2014 г.
  21. Уинфилд, Алан (9 августа 2014 г.). «Искусственный интеллект не превратится в чудовище Франкенштейна». The Guardian . Архивировано из оригинала 17 сентября 2014 г. Получено 17 сентября 2014 г.
  22. ^ Корнаи, Андраш (15 мая 2014 г.). «Ограничение влияния ИИОН». Журнал экспериментального и теоретического искусственного интеллекта . 26 (3). Informa UK Limited: 417–438. doi : 10.1080/0952813x.2014.895109. ISSN  0952-813X. S2CID  7067517. ...сущность ИИОН — это их рассудочные возможности, и именно логика их бытия заставит их вести себя морально... Настоящий кошмарный сценарий (такой), когда) люди находят выгодным прочно связать себя с ИИОН, не имея никаких гарантий против самообмана.
  23. ^ Keiper, Adam; Schulman, Ari N. (Лето 2011). «Проблема с „дружественным“ искусственным интеллектом». The New Atlantis . № 32. стр. 80–89. Архивировано из оригинала 15 января 2012 г. Получено 16 января 2012 г.
  24. ^ Норвиг, Питер; Рассел, Стюарт (2010). Искусственный интеллект: современный подход (3-е изд.). Пирсон. ISBN 978-0136042594.

Дальнейшее чтение

Внешние ссылки