Дружественный искусственный интеллект ( friendly AI или FAI ) — гипотетический искусственный общий интеллект (AGI), который окажет положительное (благоприятное) влияние на человечество или, по крайней мере, будет соответствовать человеческим интересам или способствовать улучшению человеческого вида. Это часть этики искусственного интеллекта , тесно связанная с машинной этикой . В то время как машинная этика касается того, как должен вести себя агент с искусственным интеллектом, исследования дружественного искусственного интеллекта сосредоточены на том, как практически реализовать это поведение и обеспечить его адекватное ограничение.
Термин был придуман Элиезером Юдковски , [1] который наиболее известен популяризацией этой идеи, [2] [3] для обсуждения сверхразумных искусственных агентов, которые надежно реализуют человеческие ценности. Ведущий учебник по искусственному интеллекту Стюарта Дж. Рассела и Питера Норвига , «Искусственный интеллект: современный подход» , описывает эту идею: [2]
Юдковски (2008) более подробно описывает, как спроектировать Дружественный ИИ . Он утверждает, что дружелюбие (желание не причинять вреда людям) должно быть заложено с самого начала, но что проектировщики должны осознавать, что их собственные проекты могут быть несовершенны, и что робот будет учиться и развиваться с течением времени. Таким образом, задача заключается в проектировании механизма — определить механизм для развивающихся систем ИИ в рамках системы сдержек и противовесов и предоставить системам функции полезности, которые останутся дружелюбными при таких изменениях.
«Дружественный» используется в этом контексте как технический термин и выбирает агентов, которые безопасны и полезны, а не обязательно те, которые являются «дружелюбными» в разговорном смысле. Эта концепция в первую очередь используется в контексте обсуждений рекурсивно самосовершенствующихся искусственных агентов, которые быстро взрываются в интеллекте , на том основании, что эта гипотетическая технология будет иметь большое, быстрое и трудно контролируемое влияние на человеческое общество. [4]
Корни беспокойства об искусственном интеллекте очень древние. Кевин Лаграндер показал, что опасности, характерные для ИИ, можно увидеть в древней литературе, посвященной искусственным гуманоидным слугам, таким как голем , или протороботам Герберта Орийакского и Роджера Бэкона . В этих историях чрезвычайный интеллект и сила этих гуманоидных созданий сталкиваются с их статусом рабов (которые по своей природе рассматриваются как недочеловеки) и вызывают катастрофический конфликт. [5] К 1942 году эти темы побудили Айзека Азимова создать « Три закона робототехники » — принципы, жестко зашитые во всех роботах в его произведениях, призванные не дать им напасть на своих создателей или позволить им пострадать. [6]
В наше время, когда перспектива сверхразумного ИИ становится все ближе, философ Ник Бостром сказал, что сверхразумные системы ИИ с целями, которые не соответствуют человеческой этике, по своей сути опасны, если не принять крайние меры для обеспечения безопасности человечества. Он выразился так:
По сути, мы должны предположить, что «сверхразум» сможет достичь любых поставленных целей. Поэтому крайне важно, чтобы цели, которыми мы его наделяем, и вся его система мотивации были «дружественны человеку».
В 2008 году Элиезер Юдковски призвал к созданию «дружественного ИИ» для снижения экзистенциального риска от передового искусственного интеллекта . Он поясняет: «ИИ не ненавидит вас и не любит, но вы сделаны из атомов, которые он может использовать для чего-то другого». [7]
Стив Омохундро говорит, что достаточно развитая система ИИ, если ей явно не противодействовать, будет демонстрировать ряд основных «стремлений» , таких как приобретение ресурсов, самосохранение и постоянное самосовершенствование, из-за внутренней природы любых систем, ориентированных на цели, и что эти стремления будут, «без особых мер предосторожности», заставлять ИИ демонстрировать нежелательное поведение. [8] [9]
Александр Висснер-Гросс говорит, что ИИ, стремящиеся максимизировать свою будущую свободу действий (или энтропию причинно-следственной связи), можно считать дружественными, если их горизонт планирования длиннее определенного порога, и недружественными, если их горизонт планирования короче этого порога. [10] [11]
Люк Мюльхаузер, пишущий для Института исследований машинного интеллекта , рекомендует исследователям машинной этики принять то, что Брюс Шнайер назвал «мышлением безопасности»: вместо того, чтобы думать о том, как будет работать система, представьте, как она может выйти из строя. Например, он предполагает, что даже ИИ, который делает только точные прогнозы и общается через текстовый интерфейс, может причинить непреднамеренный вред. [12]
В 2014 году Люк Мюльхаузер и Ник Бостром подчеркнули необходимость «дружественного ИИ»; [13] тем не менее, трудности в проектировании «дружественного» сверхинтеллекта, например, посредством программирования контрфактуального морального мышления, значительны. [14] [15]
Юдковски выдвигает модель когерентной экстраполированной воли (CEV). По его словам, наша когерентная экстраполированная воля — это «наше желание, чтобы мы знали больше, думали быстрее, были такими людьми, какими хотели бы быть, росли вместе; где экстраполяция сходится, а не расходится, где наши желания связываются, а не мешают; экстраполируются так, как мы хотим, чтобы экстраполировалось, интерпретируются так, как мы хотим, чтобы интерпретировалось». [16]
Вместо того, чтобы Дружественный ИИ проектировался непосредственно людьми-программистами, он должен быть разработан «семенным ИИ», запрограммированным на то, чтобы сначала изучить человеческую природу , а затем создать ИИ, который человечество хотело бы, при наличии достаточного времени и понимания, чтобы прийти к удовлетворительному ответу. [16] Обращение к цели через обусловленную человеческую природу (возможно, выраженную, для математических целей, в форме функции полезности или другого формализма теории принятия решений ), как предоставление окончательного критерия «Дружественности», является ответом на метаэтическую проблему определения объективной морали ; экстраполированная воля должна быть тем, чего человечество объективно хотело бы, принимая во внимание все обстоятельства, но ее можно определить только относительно психологических и когнитивных качеств современного, неэкстраполированного человечества.
Стив Омохундро предложил подход «строительных лесов» к безопасности ИИ , при котором одно поколение ИИ, которое доказано безопасно, помогает построить следующее поколение, которое доказано безопасно. [17]
Сет Баум утверждает, что разработка безопасного, социально полезного искусственного интеллекта или искусственного общего интеллекта является функцией социальной психологии исследовательских сообществ ИИ, и поэтому может быть ограничена внешними мерами и мотивирована внутренними мерами. Внутренние мотивы могут быть усилены, когда сообщения находят отклик у разработчиков ИИ; Баум утверждает, что, напротив, «существующие сообщения о полезном ИИ не всегда хорошо сформулированы». Баум выступает за «кооперативные отношения и позитивное восприятие исследователей ИИ» и предостерегает от характеристики исследователей ИИ как «не желающих заниматься полезными разработками». [18]
В своей книге Human Compatible исследователь ИИ Стюарт Дж. Рассел перечисляет три принципа, которыми следует руководствоваться при разработке полезных машин. Он подчеркивает, что эти принципы не предназначены для явного кодирования в машинах; скорее, они предназначены для разработчиков-людей. Принципы следующие: [19] : 173
- Единственная цель машины — максимально реализовать человеческие предпочтения.
- Машина изначально не знает, каковы эти предпочтения.
- Основным источником информации о человеческих предпочтениях является человеческое поведение.
«Предпочтения», о которых говорит Рассел, «являются всеобъемлющими; они охватывают все, что может вас волновать, в сколь угодно далеком будущем». [19] : 173 Аналогично, «поведение» включает любой выбор между вариантами, [19] : 177 и неопределенность такова, что некоторая вероятность, которая может быть весьма малой, должна быть назначена каждому логически возможному человеческому предпочтению. [19] : 201
Джеймс Баррат , автор книги «Наше последнее изобретение» , предположил, что «необходимо создать государственно-частное партнерство, чтобы объединить разработчиков ИИ для обмена идеями о безопасности — что-то вроде Международного агентства по атомной энергии , но в партнерстве с корпорациями». Он призывает исследователей ИИ созвать встречу, похожую на Асиломарскую конференцию по рекомбинантной ДНК , на которой обсуждались риски биотехнологий . [17]
Джон МакГиннис призывает правительства ускорить исследования дружественного ИИ. Поскольку цели дружественного ИИ не обязательно выдающиеся, он предлагает модель, похожую на модель Национальных институтов здравоохранения , где «группы рецензирования компьютерных и когнитивных ученых будут просеивать проекты и выбирать те, которые предназначены как для продвижения ИИ, так и для обеспечения того, чтобы такие достижения сопровождались соответствующими гарантиями». МакГиннис считает, что рецензирование лучше, «чем регулирование, для решения технических проблем, которые невозможно охватить с помощью бюрократических мандатов». МакГиннис отмечает, что его предложение контрастирует с предложением Института исследований машинного интеллекта , который в целом стремится избегать участия правительства в дружественном ИИ. [20]
Некоторые критики считают, что как ИИ человеческого уровня, так и сверхинтеллект маловероятны, и что, следовательно, дружественный ИИ маловероятен. В своей статье в The Guardian Алан Уинфилд сравнивает искусственный интеллект человеческого уровня с путешествиями со скоростью, превышающей скорость света, с точки зрения сложности и заявляет, что, хотя нам нужно быть «осторожными и подготовленными», учитывая поставленные ставки, нам «не нужно зацикливаться» на рисках сверхинтеллекта. [21] С другой стороны, Бойлз и Хоакин утверждают, что предложение Люка Мюльхаузера и Ника Бострома о создании дружественных ИИ кажется мрачным. Это связано с тем, что Мюльхаузер и Бостром, по-видимому, придерживаются идеи, что интеллектуальные машины можно запрограммировать так, чтобы они думали контрфактуально о моральных ценностях, которые были бы у людей. [13] В статье в журнале AI & Society Бойлз и Хоакин утверждают, что такие ИИ не были бы такими уж дружелюбными, учитывая следующее: бесконечное количество предшествующих контрфактуальных условий, которые необходимо было бы запрограммировать в машине, сложность обналичивания набора моральных ценностей, то есть тех, которые более идеальны, чем те, которыми обладают люди в настоящее время, и очевидная нестыковка между контрфактическими предпосылками и идеальными ценностными следствиями. [14]
Некоторые философы утверждают, что любой действительно «рациональный» агент, будь то искусственный или человеческий, будет по своей природе доброжелательным; с этой точки зрения, преднамеренные меры предосторожности, разработанные для создания дружественного ИИ, могут быть ненужными или даже вредными. [22] Другие критики сомневаются в том, что искусственный интеллект может быть дружелюбным. Адам Кейпер и Ари Н. Шульман, редакторы технологического журнала The New Atlantis , говорят, что будет невозможно когда-либо гарантировать «дружественное» поведение в ИИ, поскольку проблемы этической сложности не поддадутся достижениям программного обеспечения или увеличению вычислительной мощности. Они пишут, что критерии, на которых основаны теории дружественного ИИ, работают «только тогда, когда у человека есть не только большие возможности предсказывать вероятность множества возможных результатов, но и уверенность и консенсус относительно того, как он оценивает различные результаты. [23]
Внутренние механизмы работы современных систем искусственного интеллекта могут быть сложными и трудными для интерпретации, что приводит к проблемам прозрачности и подотчетности. [24]
Его владелец может передать управление тому, что Элиезер Юдковски называет «Дружественным ИИ»...
...сущность ИИОН — это их рассудочные возможности, и именно логика их бытия заставит их вести себя морально... Настоящий кошмарный сценарий (такой), когда) люди находят выгодным прочно связать себя с ИИОН, не имея никаких гарантий против самообмана.