Дружелюбный искусственный интеллект

Дружественный искусственный интеллект ( friendly AI или FAI ) — гипотетический искусственный общий интеллект (AGI), который окажет положительное (благоприятное) влияние на человечество или, по крайней мере, будет соответствовать человеческим интересам или способствовать улучшению человеческого вида. Это часть этики искусственного интеллекта , тесно связанная с машинной этикой . В то время как машинная этика касается того, как должен вести себя агент с искусственным интеллектом, исследования дружественного искусственного интеллекта сосредоточены на том, как практически реализовать это поведение и обеспечить его адекватное ограничение.

Этимология и использование

Термин был придуман Элиезером Юдковски , ^[1] который наиболее известен популяризацией этой идеи, ^[2]^[3] для обсуждения сверхразумных искусственных агентов, которые надежно реализуют человеческие ценности. Ведущий учебник по искусственному интеллекту Стюарта Дж. Рассела и Питера Норвига , «Искусственный интеллект: современный подход» , описывает эту идею: ^[2]

Юдковски (2008) более подробно описывает, как спроектировать Дружественный ИИ . Он утверждает, что дружелюбие (желание не причинять вреда людям) должно быть заложено с самого начала, но что проектировщики должны осознавать, что их собственные проекты могут быть несовершенны, и что робот будет учиться и развиваться с течением времени. Таким образом, задача заключается в проектировании механизма — определить механизм для развивающихся систем ИИ в рамках системы сдержек и противовесов и предоставить системам функции полезности, которые останутся дружелюбными при таких изменениях.

«Дружественный» используется в этом контексте как технический термин и выбирает агентов, которые безопасны и полезны, а не обязательно те, которые являются «дружелюбными» в разговорном смысле. Эта концепция в первую очередь используется в контексте обсуждений рекурсивно самосовершенствующихся искусственных агентов, которые быстро взрываются в интеллекте , на том основании, что эта гипотетическая технология будет иметь большое, быстрое и трудно контролируемое влияние на человеческое общество. ^[4]

Риски недружественного ИИ

Корни беспокойства об искусственном интеллекте очень древние. Кевин Лаграндер показал, что опасности, характерные для ИИ, можно увидеть в древней литературе, посвященной искусственным гуманоидным слугам, таким как голем , или протороботам Герберта Орийакского и Роджера Бэкона . В этих историях чрезвычайный интеллект и сила этих гуманоидных созданий сталкиваются с их статусом рабов (которые по своей природе рассматриваются как недочеловеки) и вызывают катастрофический конфликт. ^[5] К 1942 году эти темы побудили Айзека Азимова создать « Три закона робототехники » — принципы, жестко зашитые во всех роботах в его произведениях, призванные не дать им напасть на своих создателей или позволить им пострадать. ^[6]

В наше время, когда перспектива сверхразумного ИИ становится все ближе, философ Ник Бостром сказал, что сверхразумные системы ИИ с целями, которые не соответствуют человеческой этике, по своей сути опасны, если не принять крайние меры для обеспечения безопасности человечества. Он выразился так:

По сути, мы должны предположить, что «сверхразум» сможет достичь любых поставленных целей. Поэтому крайне важно, чтобы цели, которыми мы его наделяем, и вся его система мотивации были «дружественны человеку».

В 2008 году Элиезер Юдковски призвал к созданию «дружественного ИИ» для снижения экзистенциального риска от передового искусственного интеллекта . Он поясняет: «ИИ не ненавидит вас и не любит, но вы сделаны из атомов, которые он может использовать для чего-то другого». ^[7]

Стив Омохундро говорит, что достаточно развитая система ИИ, если ей явно не противодействовать, будет демонстрировать ряд основных «стремлений» , таких как приобретение ресурсов, самосохранение и постоянное самосовершенствование, из-за внутренней природы любых систем, ориентированных на цели, и что эти стремления будут, «без особых мер предосторожности», заставлять ИИ демонстрировать нежелательное поведение. ^[8]^[9]

Александр Висснер-Гросс говорит, что ИИ, стремящиеся максимизировать свою будущую свободу действий (или энтропию причинно-следственной связи), можно считать дружественными, если их горизонт планирования длиннее определенного порога, и недружественными, если их горизонт планирования короче этого порога. ^[10]^[11]

Люк Мюльхаузер, пишущий для Института исследований машинного интеллекта , рекомендует исследователям машинной этики принять то, что Брюс Шнайер назвал «мышлением безопасности»: вместо того, чтобы думать о том, как будет работать система, представьте, как она может выйти из строя. Например, он предполагает, что даже ИИ, который делает только точные прогнозы и общается через текстовый интерфейс, может причинить непреднамеренный вред. ^[12]

В 2014 году Люк Мюльхаузер и Ник Бостром подчеркнули необходимость «дружественного ИИ»; ^[13] тем не менее, трудности в проектировании «дружественного» сверхинтеллекта, например, посредством программирования контрфактуального морального мышления, значительны. ^[14]^[15]

Последовательное экстраполированное волеизъявление

Юдковски выдвигает модель когерентной экстраполированной воли (CEV). По его словам, наша когерентная экстраполированная воля — это «наше желание, чтобы мы знали больше, думали быстрее, были такими людьми, какими хотели бы быть, росли вместе; где экстраполяция сходится, а не расходится, где наши желания связываются, а не мешают; экстраполируются так, как мы хотим, чтобы экстраполировалось, интерпретируются так, как мы хотим, чтобы интерпретировалось». ^[16]

Вместо того, чтобы Дружественный ИИ проектировался непосредственно людьми-программистами, он должен быть разработан «семенным ИИ», запрограммированным на то, чтобы сначала изучить человеческую природу , а затем создать ИИ, который человечество хотело бы, при наличии достаточного времени и понимания, чтобы прийти к удовлетворительному ответу. ^[16] Обращение к цели через обусловленную человеческую природу (возможно, выраженную, для математических целей, в форме функции полезности или другого формализма теории принятия решений ), как предоставление окончательного критерия «Дружественности», является ответом на метаэтическую проблему определения объективной морали ; экстраполированная воля должна быть тем, чего человечество объективно хотело бы, принимая во внимание все обстоятельства, но ее можно определить только относительно психологических и когнитивных качеств современного, неэкстраполированного человечества.

Другие подходы

Стив Омохундро предложил подход «строительных лесов» к безопасности ИИ , при котором одно поколение ИИ, которое доказано безопасно, помогает построить следующее поколение, которое доказано безопасно. ^[17]

Сет Баум утверждает, что разработка безопасного, социально полезного искусственного интеллекта или искусственного общего интеллекта является функцией социальной психологии исследовательских сообществ ИИ, и поэтому может быть ограничена внешними мерами и мотивирована внутренними мерами. Внутренние мотивы могут быть усилены, когда сообщения находят отклик у разработчиков ИИ; Баум утверждает, что, напротив, «существующие сообщения о полезном ИИ не всегда хорошо сформулированы». Баум выступает за «кооперативные отношения и позитивное восприятие исследователей ИИ» и предостерегает от характеристики исследователей ИИ как «не желающих заниматься полезными разработками». ^[18]

В своей книге Human Compatible исследователь ИИ Стюарт Дж. Рассел перечисляет три принципа, которыми следует руководствоваться при разработке полезных машин. Он подчеркивает, что эти принципы не предназначены для явного кодирования в машинах; скорее, они предназначены для разработчиков-людей. Принципы следующие: ^[19]^{: 173}

Единственная цель машины — максимально реализовать человеческие предпочтения.
Машина изначально не знает, каковы эти предпочтения.
Основным источником информации о человеческих предпочтениях является человеческое поведение.

«Предпочтения», о которых говорит Рассел, «являются всеобъемлющими; они охватывают все, что может вас волновать, в сколь угодно далеком будущем». ^[19]^{: 173} Аналогично, «поведение» включает любой выбор между вариантами, ^[19]^{: 177} и неопределенность такова, что некоторая вероятность, которая может быть весьма малой, должна быть назначена каждому логически возможному человеческому предпочтению. ^[19]^{: 201}

Государственная политика

Джеймс Баррат , автор книги «Наше последнее изобретение» , предположил, что «необходимо создать государственно-частное партнерство, чтобы объединить разработчиков ИИ для обмена идеями о безопасности — что-то вроде Международного агентства по атомной энергии , но в партнерстве с корпорациями». Он призывает исследователей ИИ созвать встречу, похожую на Асиломарскую конференцию по рекомбинантной ДНК , на которой обсуждались риски биотехнологий . ^[17]

Джон МакГиннис призывает правительства ускорить исследования дружественного ИИ. Поскольку цели дружественного ИИ не обязательно выдающиеся, он предлагает модель, похожую на модель Национальных институтов здравоохранения , где «группы рецензирования компьютерных и когнитивных ученых будут просеивать проекты и выбирать те, которые предназначены как для продвижения ИИ, так и для обеспечения того, чтобы такие достижения сопровождались соответствующими гарантиями». МакГиннис считает, что рецензирование лучше, «чем регулирование, для решения технических проблем, которые невозможно охватить с помощью бюрократических мандатов». МакГиннис отмечает, что его предложение контрастирует с предложением Института исследований машинного интеллекта , который в целом стремится избегать участия правительства в дружественном ИИ. ^[20]

Критика

Некоторые критики считают, что как ИИ человеческого уровня, так и сверхинтеллект маловероятны, и что, следовательно, дружественный ИИ маловероятен. В своей статье в The Guardian Алан Уинфилд сравнивает искусственный интеллект человеческого уровня с путешествиями со скоростью, превышающей скорость света, с точки зрения сложности и заявляет, что, хотя нам нужно быть «осторожными и подготовленными», учитывая поставленные ставки, нам «не нужно зацикливаться» на рисках сверхинтеллекта. ^[21] С другой стороны, Бойлз и Хоакин утверждают, что предложение Люка Мюльхаузера и Ника Бострома о создании дружественных ИИ кажется мрачным. Это связано с тем, что Мюльхаузер и Бостром, по-видимому, придерживаются идеи, что интеллектуальные машины можно запрограммировать так, чтобы они думали контрфактуально о моральных ценностях, которые были бы у людей. ^[13] В статье в журнале AI & Society Бойлз и Хоакин утверждают, что такие ИИ не были бы такими уж дружелюбными, учитывая следующее: бесконечное количество предшествующих контрфактуальных условий, которые необходимо было бы запрограммировать в машине, сложность обналичивания набора моральных ценностей, то есть тех, которые более идеальны, чем те, которыми обладают люди в настоящее время, и очевидная нестыковка между контрфактическими предпосылками и идеальными ценностными следствиями. ^[14]

Некоторые философы утверждают, что любой действительно «рациональный» агент, будь то искусственный или человеческий, будет по своей природе доброжелательным; с этой точки зрения, преднамеренные меры предосторожности, разработанные для создания дружественного ИИ, могут быть ненужными или даже вредными. ^[22] Другие критики сомневаются в том, что искусственный интеллект может быть дружелюбным. Адам Кейпер и Ари Н. Шульман, редакторы технологического журнала The New Atlantis , говорят, что будет невозможно когда-либо гарантировать «дружественное» поведение в ИИ, поскольку проблемы этической сложности не поддадутся достижениям программного обеспечения или увеличению вычислительной мощности. Они пишут, что критерии, на которых основаны теории дружественного ИИ, работают «только тогда, когда у человека есть не только большие возможности предсказывать вероятность множества возможных результатов, но и уверенность и консенсус относительно того, как он оценивает различные результаты. ^[23]

Внутренние механизмы работы современных систем искусственного интеллекта могут быть сложными и трудными для интерпретации, что приводит к проблемам прозрачности и подотчетности. ^[24]

Смотрите также

Ссылки

^ Тегмарк, Макс (2014). «Жизнь, наша Вселенная и всё остальное». Наша математическая Вселенная: Мои поиски высшей природы реальности (первое издание). Knopf Doubleday Publishing. ISBN 9780307744258. Его владелец может передать управление тому, что Элиезер Юдковски называет «Дружественным ИИ»...
^ ab Рассел, Стюарт ; Норвиг, Питер (2009). Искусственный интеллект: современный подход . Prentice Hall. ISBN 978-0-13-604259-4.
^ Лейтон, Джонатан (2011). Битва за сострадание: этика в апатичной вселенной . Algora. ISBN 978-0-87586-870-7.
^ Уоллах, Уэнделл; Аллен, Колин (2009). Моральные машины: обучение роботов отличать правильное от неправильного . Oxford University Press, Inc. ISBN 978-0-19-537404-9.
^ Кевин ЛаГрандёр (2011). «Постоянная опасность искусственного раба». Science Fiction Studies . 38 (2): 232. doi :10.5621/sciefictstud.38.2.0232. Архивировано из оригинала 13 января 2023 г. Получено 6 мая 2013 г.
^ Айзек Азимов (1964). "Введение" . Остальные роботы . Doubleday. ISBN 0-385-09041-2.
^ Элиезер Юдковски (2008). «Искусственный интеллект как положительный и отрицательный фактор глобального риска» (PDF) . В Ник Бостром; Милан М. Чиркович (ред.). Глобальные катастрофические риски . стр. 308–345. Архивировано (PDF) из оригинала 19 октября 2013 г. . Получено 19 октября 2013 г. .
^ Омохундро, SM (февраль 2008). «Основные приводы ИИ». Artificial General Intelligence . 171 : 483–492. CiteSeerX 10.1.1.393.8356 .
^ Бостром, Ник (2014). "Глава 7: Сверхразумная воля". Сверхразум: пути, опасности, стратегии . Оксфорд: Oxford University Press. ISBN 9780199678112.
^ Дворски, Джордж (26 апреля 2013 г.). «Как Skynet может возникнуть из простой физики». Gizmodo . Архивировано из оригинала 8 октября 2021 г. Получено 23 декабря 2021 г.
^ Wissner-Gross, AD ; Freer, CE (2013). "Причинные энтропийные силы". Physical Review Letters . 110 (16): 168702. Bibcode :2013PhRvL.110p8702W. doi : 10.1103/PhysRevLett.110.168702 . hdl : 1721.1/79750 . PMID 23679649.
^ Muehlhauser, Luke (31 июля 2013 г.). «Риск ИИ и мышление безопасности». Machine Intelligence Research Institute . Архивировано из оригинала 19 июля 2014 г. Получено 15 июля 2014 г.
^ ab Muehlhauser, Luke; Bostrom, Nick (17 декабря 2013 г.). «Почему нам нужен дружественный ИИ». Think . 13 (36): 41–47. doi :10.1017/s1477175613000316. ISSN 1477-1756. S2CID 143657841.
^ ab Boyles, Robert James M.; Joaquin, Jeremiah Joven (23 июля 2019 г.). «Почему дружелюбные ИИ не будут такими уж дружелюбными: дружелюбный ответ Мюльхаузеру и Бострому». AI & Society . 35 (2): 505–507. doi :10.1007/s00146-019-00903-0. ISSN 0951-5666. S2CID 198190745.
^ Чан, Берман (4 марта 2020 г.). «Возвышение искусственного интеллекта и кризис моральной пассивности». AI & Society . 35 (4): 991–993. doi :10.1007/s00146-020-00953-9. ISSN 1435-5655. S2CID 212407078. Архивировано из оригинала 10 февраля 2023 г. . Получено 21 января 2023 г. .
^ ab Элиезер Юдковский (2004). "Coherent Extrapolated Volition" (PDF) . Singularity Institute for Artificial Intelligence. Архивировано (PDF) из оригинала 30 сентября 2015 г. . Получено 12 сентября 2015 г. .
^ ab Hendry, Erica R. (21 января 2014 г.). «Что происходит, когда искусственный интеллект нападает на нас?». Smithsonian Magazine . Архивировано из оригинала 19 июля 2014 г. Получено 15 июля 2014 г.
^ Баум, Сет Д. (28 сентября 2016 г.). «О продвижении безопасного и социально полезного искусственного интеллекта». AI & Society . 32 (4): 543–551. doi :10.1007/s00146-016-0677-0. ISSN 0951-5666. S2CID 29012168.
^ abcd Рассел, Стюарт (8 октября 2019 г.). Совместимость с человеком: искусственный интеллект и проблема контроля . США: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.
^ МакГиннис, Джон О. (лето 2010 г.). «Ускорение ИИ». Northwestern University Law Review . 104 (3): 1253–1270. Архивировано из оригинала 1 декабря 2014 г. Получено 16 июля 2014 г.
↑ Уинфилд, Алан (9 августа 2014 г.). «Искусственный интеллект не превратится в чудовище Франкенштейна». The Guardian . Архивировано из оригинала 17 сентября 2014 г. Получено 17 сентября 2014 г.
^ Корнаи, Андраш (15 мая 2014 г.). «Ограничение влияния ИИОН». Журнал экспериментального и теоретического искусственного интеллекта . 26 (3). Informa UK Limited: 417–438. doi : 10.1080/0952813x.2014.895109. ISSN 0952-813X. S2CID 7067517. ...сущность ИИОН — это их рассудочные возможности, и именно логика их бытия заставит их вести себя морально... Настоящий кошмарный сценарий (такой), когда) люди находят выгодным прочно связать себя с ИИОН, не имея никаких гарантий против самообмана.
^ Keiper, Adam; Schulman, Ari N. (Лето 2011). «Проблема с „дружественным“ искусственным интеллектом». The New Atlantis . № 32. стр. 80–89. Архивировано из оригинала 15 января 2012 г. Получено 16 января 2012 г.
^ Норвиг, Питер; Рассел, Стюарт (2010). Искусственный интеллект: современный подход (3-е изд.). Пирсон. ISBN 978-0136042594.

Дальнейшее чтение

Юдковски, Э. Искусственный интеллект как положительный и отрицательный фактор глобального риска. В Global Catastrophic Risks , Oxford University Press, 2008.
Обсуждает искусственный интеллект с точки зрения экзистенциального риска . В частности, разделы 1–4 дают предысторию определения Дружественного ИИ в разделе 5. Раздел 6 дает два класса ошибок (технические и философские), которые оба могут привести к случайному созданию недружественных ИИ. Разделы 7–13 обсуждают дальнейшие связанные вопросы.
Омохундро, С. 2008 Основные приводы ИИ появились в AGI-08 - Труды первой конференции по общему искусственному интеллекту
Мейсон, К. 2008 г. Искусственный интеллект человеческого уровня требует сострадательного интеллекта. Архивировано 09.01.2022 г. в Wayback Machine. Появляется в семинаре AAAI 2008 по мета-рассуждениям: размышления о мышлении.
Фродинг, Б. и Петерсон, М. 2021 Дружественная этика ИИ и информационные технологии, том 23, стр. 207–214.

Внешние ссылки

Этические проблемы в передовом искусственном интеллекте Ника Бострома
Что такое Дружественный ИИ? — Краткое описание Дружественного ИИ от Института исследований машинного интеллекта.
Создание дружественного ИИ 1.0: анализ и проектирование благожелательных целевых архитектур — описание длиной почти в книгу от MIRI
Критика руководящих принципов MIRI по дружественному ИИ — Билл Хиббард
Комментарий к Руководству MIRI по дружественному ИИ — Питер Восс.
Проблема с «дружественным» искусственным интеллектом — о мотивах и невозможности создания ИИ; Адам Кейпер и Ари Н. Шульман.