Дружественный искусственный интеллект (также дружественный искусственный интеллект или FAI ) — это гипотетический общий искусственный интеллект (AGI), который окажет положительное (благотворное) влияние на человечество или, по крайней мере, будет соответствовать человеческим интересам или способствовать совершенствованию человеческого вида. Это часть этики искусственного интеллекта и тесно связана с машинной этикой . В то время как машинная этика связана с тем, как должен вести себя агент с искусственным интеллектом, дружественные исследования искусственного интеллекта сосредоточены на том, как практически добиться такого поведения и обеспечить его адекватное ограничение.
Этот термин был придуман Элиезером Юдковским , [1] который наиболее известен популяризацией этой идеи, [2] [3] для обсуждения сверхразумных искусственных агентов, которые надежно реализуют человеческие ценности. Ведущий учебник по искусственному интеллекту Стюарта Дж. Рассела и Питера Норвига «Искусственный интеллект: современный подход» описывает эту идею: [2]
Юдковский (2008) более подробно описывает, как создать дружественный ИИ . Он утверждает, что дружелюбие (желание не причинять вред людям) должно быть заложено с самого начала, но дизайнеры должны осознавать, что их собственные разработки могут быть ошибочными, а также то, что робот будет учиться и развиваться с течением времени. Таким образом, задача заключается в разработке механизма: определить механизм развития систем ИИ в рамках системы сдержек и противовесов и предоставить системам полезные функции, которые останутся дружественными перед лицом таких изменений.
«Дружественный» используется в этом контексте как техническая терминология и выбирает агентов, которые являются безопасными и полезными, а не обязательно «дружественными» в разговорном смысле. Эта концепция в первую очередь используется в контексте дискуссий о рекурсивно самосовершенствующихся искусственных агентах, которые быстро взрываются в интеллекте , на том основании, что эта гипотетическая технология будет иметь большое, быстрое и трудноконтролируемое воздействие на человеческое общество. [4]
Корни беспокойства по поводу искусственного интеллекта очень древние. Кевин Лаграндер показал, что опасности, характерные для ИИ, можно увидеть в древней литературе, посвященной искусственным гуманоидным слугам, таким как големы или протороботы Герберта Орийакского и Роджера Бэкона . В этих историях исключительный интеллект и сила этих гуманоидных созданий вступают в противоречие с их статусом рабов (которые по своей природе считаются недочеловеками) и вызывают катастрофический конфликт. [5] К 1942 году эти темы побудили Айзека Азимова создать « Три закона робототехники » — принципы, встроенные во всех роботов в его произведениях, предназначенные для предотвращения их нападения на своих создателей или причинения им вреда. [6]
В наше время, когда перспектива создания сверхразумного ИИ становится все ближе, философ Ник Бостром заявил, что сверхразумные системы ИИ, цели которых не соответствуют человеческой этике, по своей сути опасны, если не будут приняты крайние меры для обеспечения безопасности человечества. Он выразил это так:
По сути, мы должны предположить, что «сверхразум» сможет достичь любых целей, которые у него есть. Поэтому чрезвычайно важно, чтобы цели, которыми мы его наделяем, и вся его система мотивации были «дружественными к человеку».
В 2008 году Элиэзер Юдковски призвал к созданию «дружественного ИИ», чтобы снизить экзистенциальный риск, связанный с передовым искусственным интеллектом . Он объясняет: «ИИ не ненавидит вас и не любит вас, но вы состоите из атомов, которые он может использовать для чего-то другого». [7]
Стив Омохундро говорит, что достаточно развитая система ИИ, если ей явно не противодействовать, будет демонстрировать ряд основных «стимул» , таких как приобретение ресурсов, самосохранение и постоянное самосовершенствование, из-за внутренней природы любой целенаправленной системы. и что эти приводы «без особых мер предосторожности» заставят ИИ проявлять нежелательное поведение. [8] [9]
Александр Висснер-Гросс говорит, что ИИ, стремящиеся максимизировать свою будущую свободу действий (или энтропию причинно-следственных связей), можно считать дружественными, если их горизонт планирования длиннее определенного порога, и недружественными, если их горизонт планирования короче этого порога. [10] [11]
Люк Мюльхаузер, пишущий для Исследовательского института машинного интеллекта , рекомендует исследователям машинной этики принять то, что Брюс Шнайер назвал «мышлением безопасности»: вместо того, чтобы думать о том, как система будет работать, представьте, как она может выйти из строя. Например, он предполагает, что даже ИИ, который только делает точные прогнозы и общается через текстовый интерфейс, может нанести непреднамеренный вред. [12]
В 2014 году Люк Мюльхаузер и Ник Бостром подчеркнули необходимость «дружественного ИИ»; [13] тем не менее, трудности в создании «дружественного» сверхразума, например, посредством программирования контрфактического морального мышления, значительны. [14] [15]
Юдковский продвигает модель когерентной экстраполированной воли (CEV). По его словам, наша последовательная экстраполированная воля — это «наше желание, если бы мы знали больше, думали быстрее, были бы больше теми людьми, которыми нам хотелось бы быть, росли бы дальше вместе; где экстраполяция скорее сходится, чем расходится, где наши желания скорее совпадают, чем мешают». ; экстраполируем так, как мы хотим, чтобы это экстраполировали, интерпретировали так, как мы хотим, чтобы это интерпретировали». [16]
Вместо того, чтобы Дружественный ИИ разрабатывался непосредственно программистами-людьми, он должен быть разработан «исходным ИИ», запрограммированным сначала на изучение человеческой природы , а затем на создание ИИ, который человечество хотело бы, при наличии достаточного времени и знаний, для достижения удовлетворительного результата. отвечать. [16] Обращение к цели через случайную человеческую природу (возможно, выраженное в математических целях в форме функции полезности или другого формализма теории принятия решений ), как обеспечивающее окончательный критерий «Дружелюбия», является ответом на метаэтическая проблема определения объективной морали ; экстраполированная воля призвана быть тем, чего объективно хотело бы человечество, учитывая все обстоятельства, но ее можно определить только относительно психологических и когнитивных качеств современного, неэкстраполированного человечества.
Стив Омохундро предложил «строительный» подход к безопасности ИИ , при котором одно доказуемо безопасное поколение ИИ помогает построить следующее доказуемо безопасное поколение. [17]
Сет Баум утверждает, что развитие безопасного, социально полезного искусственного интеллекта или общего искусственного интеллекта является функцией социальной психологии исследовательских сообществ в области ИИ и поэтому может быть ограничено внешними мерами и мотивировано внутренними мерами. Внутреннюю мотивацию можно усилить, когда сообщения находят отклик у разработчиков ИИ; Баум, напротив, утверждает, что «существующие сообщения о полезном ИИ не всегда хорошо сформулированы». Баум выступает за «отношения сотрудничества и позитивное отношение к исследователям ИИ» и предостерегает от характеристики исследователей ИИ как «не желающих преследовать полезные проекты». [18]
В своей книге «Совместимость с человеком » исследователь искусственного интеллекта Стюарт Дж. Рассел перечисляет три принципа, которыми следует руководствоваться при разработке полезных машин. Он подчеркивает, что эти принципы не предназначены для явного закодирования в машинах; скорее, они предназначены для разработчиков-людей. Принципы заключаются в следующем: [19] : 173
- Единственная цель машины — максимизировать реализацию человеческих предпочтений.
- Машина изначально не уверена в том, каковы эти предпочтения.
- Основным источником информации о человеческих предпочтениях является поведение человека.
«Предпочтения», о которых говорит Рассел, «носят всеобъемлющий характер; они охватывают все, что может вас интересовать, в сколь угодно отдаленном будущем». [19] : 173 Точно так же «поведение» включает в себя любой выбор между вариантами, [19] : 177 и неопределенность такова, что некоторая вероятность, которая может быть весьма маленькой, должна быть присвоена каждому логически возможному человеческому предпочтению. [19] : 201
Джеймс Баррат , автор книги «Наше последнее изобретение» , предположил, что «необходимо создать государственно-частное партнерство, чтобы объединить производителей ИИ для обмена идеями о безопасности — что-то вроде Международного агентства по атомной энергии, но в партнерстве с корпорациями». Он призывает исследователей ИИ созвать встречу, аналогичную конференции Asilomar по рекомбинантной ДНК , на которой обсуждались риски биотехнологии . [17]
Джон МакГиннис призывает правительства ускорить исследования дружественного ИИ. Поскольку цели создания дружественного ИИ не обязательно являются выдающимися, он предлагает модель, аналогичную Национальным институтам здравоохранения , в которой «группы экспертной оценки из ученых-компьютерщиков и когнитивистов будут анализировать проекты и выбирать те, которые предназначены как для развития ИИ, так и для обеспечения того, чтобы такие достижения будут сопровождаться соответствующими гарантиями». Макгиннис считает, что экспертная оценка лучше, «чем регулирование, для решения технических вопросов, которые невозможно решить с помощью бюрократических процедур». Макгиннис отмечает, что его предложение контрастирует с предложением Научно-исследовательского института машинного интеллекта , который обычно стремится избежать вмешательства правительства в создание дружественного ИИ. [20]
Некоторые критики считают, что появление ИИ и сверхразума человеческого уровня маловероятно, и поэтому дружественный ИИ маловероятен. В статье для The Guardian Алан Уинфилд сравнивает искусственный интеллект человеческого уровня с путешествием со скоростью, превышающей скорость света, с точки зрения сложности и заявляет, что, хотя нам нужно быть «осторожными и подготовленными», учитывая ставки, нам «не нужно быть одержимыми» рисками сверхинтеллекта. [21] Бойлс и Хоакин, с другой стороны, утверждают, что предложение Люка Мюльхаузера и Ника Бострома о создании дружественных ИИ выглядит мрачным. Это потому, что Мюльхаузер и Бостром, похоже, придерживаются идеи, что разумные машины можно запрограммировать так, чтобы они думали контрфактически о моральных ценностях, которыми могли бы обладать люди. [13] В статье в журнале «AI & Society» Бойлс и Хоакин утверждают, что такие ИИ не были бы такими дружелюбными, учитывая следующее: бесконечное количество предшествующих контрфактических условий, которые пришлось бы запрограммировать в машину, сложность обналичивания набор моральных ценностей, то есть тех, которые более идеальны, чем те, которыми обладают люди в настоящее время, и, как следствие, очевидный разрыв между контрфактическими предшественниками и идеальными ценностями. [14]
Некоторые философы утверждают, что любой действительно «рациональный» агент, будь то искусственный или человеческий, по природе своей будет доброжелательным; с этой точки зрения, преднамеренные меры безопасности, направленные на создание дружественного ИИ, могут оказаться ненужными или даже вредными. [22] Другие критики задаются вопросом, может ли искусственный интеллект быть дружелюбным. Адам Кейпер и Ари Н. Шульман, редакторы технологического журнала The New Atlantis , говорят, что невозможно когда-либо гарантировать «дружественное» поведение ИИ, поскольку проблемы этической сложности не уступят развитию программного обеспечения или увеличению вычислительной мощности. Они пишут, что критерии, на которых основаны теории дружественного ИИ, работают «только тогда, когда человек обладает не только большими способностями к предсказанию вероятности множества возможных результатов, но и уверенностью и консенсусом в том, как он оценивает различные результаты». [23 ]
Внутренняя работа передовых систем искусственного интеллекта может быть сложной и трудной для интерпретации, что приводит к беспокойству по поводу прозрачности и подотчетности. [24]
Его владелец может передать контроль тому, что Элиэзер Юдковский называет «Дружественным ИИ»...
...суть ОИИ заключается в их способностях к рассуждению, и именно логика их существования заставит их вести себя морально... Настоящий кошмарный сценарий (это тот, в котором) люди находят это выгодным прочно связывать себя с ОИИ без каких-либо гарантий против самообмана.