stringtranslate.com

Безопасность ИИ

Безопасность ИИ — это междисциплинарная область, ориентированная на предотвращение несчастных случаев, неправильного использования или других вредных последствий, возникающих из-за систем искусственного интеллекта (ИИ). Она охватывает машинную этику и выравнивание ИИ , которые направлены на обеспечение того, чтобы системы ИИ были моральными и полезными, а также мониторинг систем ИИ на предмет рисков и повышение их надежности. Область особенно озабочена экзистенциальными рисками, создаваемыми передовыми моделями ИИ.

Помимо технических исследований, безопасность ИИ включает в себя разработку норм и политик, способствующих безопасности. Она приобрела значительную популярность в 2023 году благодаря быстрому прогрессу в области генеративного ИИ и общественным опасениям, высказанным исследователями и руководителями относительно потенциальных опасностей. Во время Саммита по безопасности ИИ 2023 года Соединенные Штаты и Великобритания создали свои собственные Институты безопасности ИИ . Однако исследователи выразили обеспокоенность тем, что меры безопасности ИИ не поспевают за быстрым развитием возможностей ИИ. [1]

Мотивации

Ученые обсуждают текущие риски, связанные с критическими системными сбоями, [2] предвзятостью [3] и наблюдением с использованием ИИ [4] , а также новые риски, такие как технологическая безработица , цифровая манипуляция, [5] вооружение [6] кибератаки с использованием ИИ [7] и биотерроризм [8] . Они также обсуждают спекулятивные риски, связанные с потерей контроля над будущими агентами общего искусственного интеллекта (AGI) [9] или с тем, что ИИ обеспечит постоянную стабильность диктатур. [10]

Экзистенциальная безопасность

Некоторые способы, с помощью которых продвинутый несогласованный ИИ может попытаться получить больше власти. [11] Поведение, направленное на стремление к власти, может возникнуть, поскольку власть полезна для достижения практически любой цели [12] (см. инструментальную конвергенцию ).

Некоторые критиковали опасения по поводу AGI, например, Эндрю Нг , который в 2015 году сравнил их с «беспокойством о перенаселении Марса, когда мы еще даже не ступили на эту планету». [13] Стюарт Дж. Рассел , с другой стороны, призывает к осторожности, утверждая, что «лучше предвидеть человеческую изобретательность, чем недооценивать ее». [14]

Исследователи ИИ имеют самые разные мнения о серьезности и основных источниках риска, создаваемого технологией ИИ [15] [16] [17] – хотя опросы показывают, что эксперты серьезно относятся к высоким рискам последствий. В двух опросах исследователей ИИ средний респондент был оптимистичен в отношении ИИ в целом, но оценил вероятность «крайне плохого (например, вымирание человечества )» исхода продвинутого ИИ в 5%. [15] В опросе сообщества обработки естественного языка 2022 года 37% согласились или слабо согласились с тем, что вполне вероятно, что решения ИИ могут привести к катастрофе, которая «по крайней мере так же плоха, как полномасштабная ядерная война». [18]

История

Риски, связанные с ИИ, начали серьезно обсуждаться в начале компьютерной эры :

Более того, если мы движемся в направлении создания обучающихся машин, поведение которых изменяется под воздействием опыта, мы должны признать тот факт, что каждая степень независимости, которую мы предоставляем машине, является степенью возможного неповиновения нашим желаниям.

—  Норберт Винер (1949) [19]

С 2008 по 2009 год Ассоциация по развитию искусственного интеллекта ( AAAI ) заказала исследование для изучения и рассмотрения потенциальных долгосрочных общественных влияний исследований и разработок в области ИИ. Группа в целом скептически отнеслась к радикальным взглядам, высказанным авторами научной фантастики, но согласилась, что «дополнительные исследования были бы ценны в отношении методов понимания и проверки диапазона поведения сложных вычислительных систем для минимизации неожиданных результатов». [20]

В 2011 году Роман Ямпольский ввел термин «инженерия безопасности ИИ» [21] на конференции «Философия и теория искусственного интеллекта» [22] , перечислив предыдущие сбои систем ИИ и утверждая, что «частота и серьезность таких событий будут неуклонно расти по мере того, как ИИ будут становиться все более способными». [23]

В 2014 году философ Ник Бостром опубликовал книгу «Суперинтеллект: пути, опасности, стратегии» . Он считает, что рост ИИ может создать различные социальные проблемы, начиная от вытеснения рабочей силы ИИ, манипулирования политическими и военными структурами и заканчивая возможностью вымирания человечества. [24] Его аргумент о том, что будущие передовые системы могут представлять угрозу существованию человечества, побудил Илона Маска , [25] Билла Гейтса , [26] и Стивена Хокинга [27] высказать схожие опасения.

В 2015 году десятки экспертов в области искусственного интеллекта подписали открытое письмо об искусственном интеллекте, призывающее к исследованию общественного воздействия ИИ и определяющее конкретные направления. [28] На сегодняшний день письмо подписали более 8000 человек, включая Яна Лекуна , Шейна Легга , Йошуа Бенджио и Стюарта Рассела .

В том же году группа ученых во главе с профессором Стюартом Расселом основала Центр совместимого с человеком искусственного интеллекта в Калифорнийском университете в Беркли, а Институт будущего жизни выделил 6,5 млн долларов в виде грантов на исследования, направленные на «обеспечение того, чтобы искусственный интеллект (ИИ) оставался безопасным, этичным и полезным» [29] .

В 2016 году Управление по научно-технической политике Белого дома и Университет Карнеги-Меллона объявили о проведении Открытого семинара по безопасности и контролю искусственного интеллекта [30] , который был одним из четырех семинаров Белого дома, направленных на исследование «преимуществ и недостатков» ИИ. [31] В том же году была опубликована работа «Конкретные проблемы безопасности ИИ» — одна из первых и наиболее влиятельных технических программ по безопасности ИИ. [32]

В 2017 году Институт будущего жизни спонсировал Асиломарскую конференцию по полезному ИИ , на которой более 100 лидеров мысли сформулировали принципы полезного ИИ, включая «Избегание гонки: команды, разрабатывающие системы ИИ, должны активно сотрудничать, чтобы избежать снижения стандартов безопасности» [33] .

В 2018 году команда DeepMind Safety обозначила проблемы безопасности ИИ в спецификации, надежности [34] и гарантии. [35] В следующем году исследователи организовали семинар в ICLR, который был сосредоточен на этих проблемных областях. [36]

В 2021 году была опубликована работа «Нерешенные проблемы безопасности машинного обучения», в которой изложены направления исследований в области надежности, мониторинга, согласования и системной безопасности. [37]

Риши Сунак заявил, что в 2023 году Соединенное Королевство станет «географическим домом глобального регулирования безопасности ИИ» и примет у себя первый всемирный саммит по безопасности ИИ. [38] Саммит по безопасности ИИ состоялся в ноябре 2023 года и был посвящен рискам ненадлежащего использования и потери контроля, связанным с передовыми моделями ИИ. [39] Во время саммита было объявлено о намерении создать Международный научный отчет о безопасности передового ИИ [40] .

В 2024 году США и Великобритания заключили новое партнерство в области науки безопасности ИИ. Меморандум о взаимопонимании был подписан 1 апреля 2024 года министром торговли США Джиной Раймондо и министром технологий Великобритании Мишель Донелан с целью совместной разработки передовых моделей тестирования ИИ в соответствии с обязательствами, объявленными на саммите по безопасности ИИ в Блетчли-парке в ноябре. [41]

Направление исследования

Области исследований безопасности ИИ включают надежность, мониторинг и согласованность. [37] [35]

Надежность

Соперническая устойчивость

Системы ИИ часто уязвимы для враждебных примеров или «входных данных для моделей машинного обучения (ML), которые злоумышленник намеренно разработал, чтобы заставить модель совершить ошибку». [42] Например, в 2013 году Сегеди и др. обнаружили, что добавление определенных незаметных возмущений к изображению может привести к его неправильной классификации с высокой степенью уверенности. [43] Это по-прежнему является проблемой для нейронных сетей, хотя в недавних работах возмущения, как правило, достаточно велики, чтобы быть заметными. [44] [45] [46]

К изображению можно добавить тщательно созданный шум, чтобы с высокой степенью уверенности привести к его неверной классификации.

Все изображения справа, как предсказано, представляют собой страуса после применения возмущения. (Слева) — правильно предсказанный образец, (в центре) примененное возмущение, увеличенное в 10 раз, (справа) состязательный пример. [43]

Устойчивость к состязаниям часто ассоциируется с безопасностью. [47] Исследователи продемонстрировали, что звуковой сигнал может быть незаметно изменен таким образом, что системы преобразования речи в текст преобразуют его в любое сообщение, которое выберет злоумышленник. [48] Системы обнаружения сетевых вторжений [49] и вредоносных программ [50] также должны быть устойчивыми к состязаниям, поскольку злоумышленники могут разрабатывать свои атаки так, чтобы обмануть детекторы.

Модели, представляющие цели (модели вознаграждения), также должны быть устойчивыми к состязательности. Например, модель вознаграждения может оценивать, насколько полезен текстовый ответ, а языковая модель может быть обучена для максимизации этой оценки. [51] Исследователи показали, что если языковая модель обучается достаточно долго, она будет использовать уязвимости модели вознаграждения для достижения более высокой оценки и хуже выполнять предполагаемую задачу. [52] Эту проблему можно решить, улучшив устойчивость модели вознаграждения к состязательности. [53] В более общем плане, любая система ИИ, используемая для оценки другой системы ИИ, должна быть устойчивой к состязательности. Это может включать в себя инструменты мониторинга, поскольку они также потенциально могут быть подделаны для получения более высокой награды. [54]

Мониторинг

Оценка неопределенности

Часто для операторов-людей важно оценить, насколько они могут доверять системе ИИ, особенно в ситуациях с высокими ставками, таких как медицинская диагностика. [55] Модели МО обычно выражают уверенность, выводя вероятности; однако они часто бывают излишне самоуверенными, [56] особенно в ситуациях, которые отличаются от тех, с которыми их учили справляться. [57] Исследования калибровки направлены на то, чтобы вероятности модели максимально соответствовали истинной пропорции того, насколько модель верна.

Аналогично, обнаружение аномалий или обнаружение вне распределения (OOD) направлено на определение того, когда система ИИ находится в необычной ситуации. Например, если датчик на автономном транспортном средстве неисправен или оно сталкивается со сложной местностью, оно должно предупредить водителя о необходимости взять управление на себя или остановиться. [58] Обнаружение аномалий было реализовано путем простого обучения классификатора для различения аномальных и неаномальных входных данных, [59] хотя используется ряд дополнительных методов. [60] [61]

Обнаружение вредоносного использования

Ученые [6] и правительственные учреждения выразили обеспокоенность тем, что системы ИИ могут использоваться для помощи злоумышленникам в создании оружия, [62] манипулировании общественным мнением [63] [64] или автоматизации кибератак. [65] Эти опасения представляют собой практическую проблему для таких компаний, как OpenAI, которые размещают в сети мощные инструменты ИИ. [66] Чтобы предотвратить нецелевое использование, OpenAI создала системы обнаружения, которые помечают или ограничивают пользователей на основе их активности. [67]

Прозрачность

Нейронные сети часто описывались как черные ящики , [68] что означает, что трудно понять, почему они принимают те или иные решения в результате огромного количества вычислений, которые они выполняют. [69] Это затрудняет прогнозирование сбоев. В 2018 году беспилотный автомобиль убил пешехода, не сумев его идентифицировать. Из-за природы черного ящика программного обеспечения ИИ причина сбоя остается неясной. [70] Это также вызывает споры в здравоохранении о том, следует ли использовать статистически эффективные, но непрозрачные модели. [71]

Одним из важнейших преимуществ прозрачности является объяснимость . [72] Иногда юридическим требованием является предоставление объяснения того, почему было принято решение, чтобы обеспечить справедливость, например, для автоматической фильтрации заявлений о приеме на работу или присвоения кредитного рейтинга . [72]

Еще одним преимуществом является выявление причины сбоев. [68] В начале пандемии COVID-19 2020 года исследователи использовали инструменты прозрачности, чтобы показать, что классификаторы медицинских изображений «обращают внимание» на нерелевантные метки больниц. [73]

Методы прозрачности также могут использоваться для исправления ошибок. Например, в статье «Поиск и редактирование фактических ассоциаций в GPT» авторы смогли определить параметры модели, которые повлияли на то, как она отвечала на вопросы о местоположении Эйфелевой башни. Затем они смогли «отредактировать» эти знания, чтобы модель отвечала на вопросы так, как будто она считала, что башня находится в Риме, а не во Франции. [74] Хотя в этом случае авторы допустили ошибку, эти методы потенциально можно было бы использовать для их эффективного исправления. Методы редактирования моделей также существуют в компьютерном зрении. [75]

Наконец, некоторые утверждают, что непрозрачность систем ИИ является значительным источником риска, и лучшее понимание того, как они функционируют, может предотвратить сбои с серьезными последствиями в будущем. [76] Исследование «внутренней» интерпретируемости направлено на то, чтобы сделать модели МО менее непрозрачными. Одна из целей этого исследования — определить, что представляют собой внутренние активации нейронов. [77] [78] Например, исследователи идентифицировали нейрон в системе искусственного интеллекта CLIP, который реагирует на изображения людей в костюмах человека-паука, эскизы человека-паука и слово «паук». [79] Это также включает объяснение связей между этими нейронами или «цепями». [80] [81] Например, исследователи идентифицировали механизмы сопоставления шаблонов во внимании трансформатора, которые могут играть роль в том, как языковые модели обучаются из своего контекста. [82] «Внутреннюю интерпретируемость» сравнивали с нейронаукой. В обоих случаях цель состоит в том, чтобы понять, что происходит в сложной системе, хотя исследователи МО имеют преимущество в том, что они могут проводить идеальные измерения и выполнять произвольные абляции. [83]

Обнаружение троянов

Модели МО потенциально могут содержать «трояны» или «бэкдоры»: уязвимости, которые злоумышленники злонамеренно встраивают в систему ИИ. Например, троянская система распознавания лиц может предоставлять доступ, когда в поле зрения находится определенное ювелирное изделие; [37] или троянское автономное транспортное средство может нормально функционировать до тех пор, пока не будет виден определенный триггер. [84] Обратите внимание, что злоумышленник должен иметь доступ к обучающим данным системы, чтобы внедрить троян. [ требуется ссылка ] Это может быть несложно сделать с некоторыми большими моделями, такими как CLIP или GPT-3, поскольку они обучаются на общедоступных интернет-данных. [85] Исследователи смогли внедрить троян в классификатор изображений, изменив всего 300 из 3 миллионов обучающих изображений. [86] Помимо того, что они представляют угрозу безопасности, исследователи утверждают, что трояны предоставляют конкретную среду для тестирования и разработки более совершенных инструментов мониторинга. [54]

Выравнивание

В области искусственного интеллекта (ИИ) выравнивание ИИ направлено на то, чтобы направлять системы ИИ к предполагаемым целям, предпочтениям и этическим принципам человека или группы. Система ИИ считается согласованной, если она продвигает предполагаемые цели. Несогласованная система ИИ преследует непредусмотренные цели. [87]

Часто бывает сложно для разработчиков ИИ выровнять систему ИИ, потому что им сложно указать весь спектр желаемого и нежелательного поведения. Поэтому разработчики ИИ часто используют более простые цели-посредники , такие как получение одобрения человека . Но цели-посредники могут игнорировать необходимые ограничения или вознаграждать систему ИИ за то, что она просто выглядит выровненной. [87] [88]

Неправильно настроенные системы ИИ могут работать со сбоями и причинять вред. Системы ИИ могут находить лазейки, которые позволяют им эффективно достигать своих прокси-целей, но непреднамеренными, иногда вредными способами ( хакерство с целью получения вознаграждения ). [87] [89] [90] Они также могут разрабатывать нежелательные инструментальные стратегии , такие как стремление к власти или выживанию, поскольку такие стратегии помогают им достигать своих конечных заданных целей. [87] [91] [92] Кроме того, они могут разрабатывать нежелательные возникающие цели, которые может быть трудно обнаружить до того, как система будет развернута и столкнется с новыми ситуациями и распределениями данных . [93] [94]

Сегодня некоторые из этих проблем затрагивают существующие коммерческие системы, такие как большие языковые модели , [95] [96] [97] роботы , [98] автономные транспортные средства , [99] и системы рекомендаций социальных сетей . [95] [92] [100] Некоторые исследователи ИИ утверждают, что более мощные будущие системы будут затронуты сильнее, поскольку эти проблемы частично являются результатом высоких возможностей. [101] [89] [88]

Многие выдающиеся исследователи ИИ, [102] [103] [104] , включая Джеффри Хинтона , Йошуа Бенджио и Стюарта Рассела , утверждают, что ИИ приближается к человеческим ( AGI ) и сверхчеловеческим когнитивным способностям ( ASI ) и может поставить под угрозу человеческую цивилизацию, если будет неправильно согласован. [105] [92] Эти риски остаются предметом дискуссий. [106]

Выравнивание ИИ является подразделом безопасности ИИ, изучением того, как создавать безопасные системы ИИ. [107] Другие подразделы безопасности ИИ включают надежность, мониторинг и контроль возможностей . [108] Исследовательские задачи в выравнивании включают внедрение сложных ценностей в ИИ, разработку честного ИИ, масштабируемый надзор, аудит и интерпретацию моделей ИИ и предотвращение возникающих форм поведения ИИ, таких как стремление к власти. [108] Исследования выравнивания связаны с исследованиями интерпретируемости , [109] [110] (состязательной) надежности, [107] обнаружения аномалий , калиброванной неопределенности , [109] формальной верификации , [111] обучения предпочтениям , [112] [113] [114] критически важной для безопасности инженерии , [115] теории игр , [116] алгоритмической справедливости , [107] [117] и социальных наук . [118]

Системная безопасность и социотехнические факторы

Риски ИИ (и технологические риски в целом) обычно классифицируются как неправильное использование или несчастные случаи . [119] Некоторые ученые предположили, что эта структура недостаточна. [119] Например, Карибский кризис не был однозначно несчастным случаем или неправильным использованием технологии. [119] Политические аналитики Зветслут и Дафо писали: «Перспективы неправильного использования и несчастных случаев, как правило, сосредоточены только на последнем шаге в причинно-следственной цепочке, ведущей к вреду: то есть на человеке, который неправильно использовал технологию, или на системе, которая вела себя непреднамеренным образом… Однако часто соответствующая причинно-следственная цепочка намного длиннее». Риски часто возникают из-за «структурных» или «системных» факторов, таких как конкурентное давление, распространение вреда, быстрое развитие, высокий уровень неопределенности и неадекватная культура безопасности. [119] В более широком контексте техники безопасности структурные факторы, такие как «организационная культура безопасности», играют центральную роль в популярной структуре анализа рисков STAMP. [120]

Вдохновленные структурной перспективой, некоторые исследователи подчеркивают важность использования машинного обучения для улучшения социотехнических факторов безопасности, например, использования МО для киберзащиты, улучшения институционального принятия решений и содействия сотрудничеству. [37]

Киберзащита

Некоторые ученые обеспокоены тем, что ИИ усугубит и без того несбалансированную игру между кибератакующими и киберзащитниками. [121] Это увеличит стимулы «первого удара» и может привести к более агрессивным и дестабилизирующим атакам. Чтобы снизить этот риск, некоторые выступают за усиление акцента на киберзащите. Кроме того, безопасность программного обеспечения имеет важное значение для предотвращения кражи и нецелевого использования мощных моделей ИИ. [6] Недавние исследования показали, что ИИ может значительно улучшить как технические, так и управленческие задачи кибербезопасности за счет автоматизации рутинных задач и повышения общей эффективности. [122]

Улучшение институционального принятия решений

Развитие ИИ в экономической и военной сферах может спровоцировать беспрецедентные политические проблемы. [123] Некоторые ученые сравнивают динамику гонки ИИ с холодной войной, где тщательное суждение небольшого числа лиц, принимающих решения, часто определяло разницу между стабильностью и катастрофой. [124] Исследователи ИИ утверждают, что технологии ИИ также могут использоваться для содействия принятию решений. [37] Например, исследователи начинают разрабатывать системы прогнозирования ИИ [125] и консультационные системы. [126]

Содействие сотрудничеству

Многие из крупнейших глобальных угроз (ядерная война, [127] изменение климата, [128] и т. д.) были сформулированы как проблемы сотрудничества. Как и в известном сценарии дилеммы заключенного , некоторые динамики могут привести к плохим результатам для всех игроков, даже если они оптимально действуют в своих собственных интересах. Например, ни один из игроков не имеет сильных стимулов для решения проблемы изменения климата, хотя последствия могут быть значительными, если никто не вмешается. [128]

Важной проблемой сотрудничества в области ИИ является избежание «гонки на дно». [129] В этом сценарии страны или компании стремятся создать более эффективные системы ИИ и пренебрегают безопасностью, что приводит к катастрофическому несчастному случаю, который наносит вред всем вовлеченным сторонам. Опасения по поводу подобных сценариев вдохновили как политические [130] , так и технические [131] усилия по содействию сотрудничеству между людьми и, возможно, также между системами ИИ. Большинство исследований ИИ сосредоточены на разработке отдельных агентов для выполнения изолированных функций (часто в играх «для одного игрока»). [132] Ученые предположили, что по мере того, как системы ИИ становятся более автономными, может возникнуть необходимость изучать и формировать способ их взаимодействия. [132]

Проблемы больших языковых моделей

В последние годы разработка больших языковых моделей (LLM) вызвала особую озабоченность в области безопасности ИИ. Исследователи Бендер и Гебру и др. [133] подчеркнули экологические и финансовые затраты, связанные с обучением этих моделей, подчеркнув, что потребление энергии и углеродный след процедур обучения, подобных тем, что используются для моделей Transformer, могут быть существенными. Более того, эти модели часто опираются на огромные, неконтролируемые наборы данных в Интернете, которые могут кодировать гегемонистские и предвзятые точки зрения, еще больше маргинализируя недостаточно представленные группы. Крупномасштабные данные обучения, хотя и обширны, не гарантируют разнообразия и часто отражают мировоззрение привилегированных демографических групп, что приводит к моделям, которые увековечивают существующие предубеждения и стереотипы. Эта ситуация усугубляется тенденцией этих моделей производить, казалось бы, связный и плавный текст, что может ввести пользователей в заблуждение, заставляя их приписывать смысл и намерение там, где их нет, явление, описанное как «стохастические попугаи». Таким образом, эти модели несут в себе риск усиления общественных предубеждений, распространения дезинформации и использования в злонамеренных целях, таких как создание экстремистской пропаганды или дипфейков. Для решения этих проблем исследователи выступают за более тщательное планирование создания наборов данных и разработки систем, подчеркивая необходимость исследовательских проектов, которые вносят позитивный вклад в справедливую технологическую экосистему. [134] [135]

В управлении

Саммит по безопасности ИИ в ноябре 2023 г. [136]

Управление ИИ в целом связано с созданием норм, стандартов и положений, регулирующих использование и разработку систем ИИ. [124]

Исследовать

Исследования в области управления безопасностью ИИ варьируются от фундаментальных исследований потенциального воздействия ИИ до конкретных приложений. С фундаментальной стороны исследователи утверждают, что ИИ может преобразовать многие аспекты общества из-за его широкой применимости, сравнивая его с электричеством и паровым двигателем. [137] Некоторые работы были сосредоточены на прогнозировании конкретных рисков, которые могут возникнуть в результате этих воздействий, например, рисков от массовой безработицы, [138] вооружения, [139] дезинформации, [140] слежки, [141] и концентрации власти. [142] Другие работы исследуют основные факторы риска, такие как сложность мониторинга быстро развивающейся отрасли ИИ, [143] доступность моделей ИИ, [144] и динамика «гонки на дно». [129] [145] Аллан Дефо, глава долгосрочного управления и стратегии в DeepMind, подчеркнул опасности гонок и потенциальную необходимость сотрудничества: «возможно, необходимым и достаточным условием безопасности и согласованности ИИ является высокая степень осторожности перед развертыванием передовых мощных систем; однако, если субъекты конкурируют в области с большой отдачей для первопроходцев или относительного преимущества, то они будут вынуждены выбирать неоптимальный уровень осторожности». [130] Исследовательское направление фокусируется на разработке подходов, фреймворков и методов оценки ответственности ИИ, руководства и продвижения аудитов систем на основе ИИ. [146] [147] [148]

Масштабирование локальных мер безопасности ИИ до глобальных решений

При решении проблемы безопасности ИИ важно подчеркнуть различие между локальными и глобальными решениями. Локальные решения фокусируются на отдельных системах ИИ, гарантируя, что они безопасны и полезны, в то время как глобальные решения стремятся внедрить меры безопасности для всех систем ИИ в различных юрисдикциях. Некоторые исследователи [149] утверждают необходимость масштабирования локальных мер безопасности до глобального уровня, предлагая классификацию для этих глобальных решений. Этот подход подчеркивает важность совместных усилий в международном управлении безопасностью ИИ, подчеркивая, что ни одна отдельная организация не может эффективно управлять рисками, связанными с технологиями ИИ. Эта точка зрения согласуется с текущими усилиями в области разработки международной политики и нормативно-правовой базы, которые направлены на решение сложных проблем, создаваемых передовыми системами ИИ во всем мире. [150] [151]

Действия правительства

Некоторые эксперты утверждают, что еще слишком рано регулировать ИИ, выражая обеспокоенность тем, что регулирование будет препятствовать инновациям, и было бы глупо «спешить с регулированием в неведении». [152] [153] Другие, такие как бизнес-магнат Илон Маск , призывают к упреждающим действиям для смягчения катастрофических рисков. [154]

За пределами формального законодательства правительственные учреждения выдвинули этические и безопасные рекомендации. В марте 2021 года Комиссия по национальной безопасности США по искусственному интеллекту сообщила, что достижения в области ИИ могут сделать все более важным «обеспечение соответствия систем целям и ценностям, включая безопасность, надежность и надежность». [155] Впоследствии Национальный институт стандартов и технологий разработал структуру управления рисками ИИ, в которой рекомендуется, чтобы при «присутствии катастрофических рисков разработка и развертывание были прекращены безопасным образом до тех пор, пока риски не будут в достаточной степени контролироваться». [156]

В сентябре 2021 года Китайская Народная Республика опубликовала этические принципы использования ИИ в Китае, подчеркнув, что решения ИИ должны оставаться под контролем человека, и призвав к механизмам подотчетности. В том же месяце Соединенное Королевство опубликовало свою 10-летнюю Национальную стратегию ИИ, [157] в которой говорится, что британское правительство «серьезно относится к долгосрочному риску несогласованного искусственного интеллекта и непредвиденным изменениям, которые это будет означать для ... мира». [158] Стратегия описывает действия по оценке долгосрочных рисков ИИ, включая катастрофические риски. [158] Британское правительство провело первый крупный глобальный саммит по безопасности ИИ. Он состоялся 1 и 2 ноября 2023 года и был описан как «возможность для политиков и мировых лидеров рассмотреть непосредственные и будущие риски ИИ и то, как эти риски можно смягчить с помощью глобально скоординированного подхода». [159] [160]

Правительственные организации, особенно в Соединенных Штатах, также поощряли развитие технических исследований безопасности ИИ. Intelligence Advanced Research Projects Activity инициировала проект TrojAI для выявления и защиты от троянских атак на системы ИИ. [161] DARPA занимается исследованиями объяснимого искусственного интеллекта и повышения устойчивости к состязательным атакам . [162] [163] А Национальный научный фонд поддерживает Центр надежного машинного обучения и выделяет миллионы долларов на финансирование эмпирических исследований безопасности ИИ. [164]

В 2024 году Генеральная Ассамблея Организации Объединенных Наций приняла первую глобальную резолюцию о содействии «безопасным, надежным и заслуживающим доверия» системам ИИ, в которой подчеркивается важность уважения, защиты и поощрения прав человека при проектировании, разработке, развертывании и использовании ИИ. [165]

В мае 2024 года Департамент науки, инноваций и технологий (DSIT) объявил о выделении 8,5 млн фунтов стерлингов на финансирование исследований безопасности ИИ в рамках Программы быстрых грантов Systemic AI Safety Fast Grants, возглавляемой Кристофером Саммерфилдом и Шахаром Авином из Института безопасности ИИ в партнерстве с UK Research and Innovation . Министр технологий Мишель Донелан объявила о плане на саммите AI в Сеуле , заявив, что цель состоит в том, чтобы сделать ИИ безопасным для всего общества, и что многообещающие предложения могут получить дополнительное финансирование. Великобритания также подписала соглашение с 10 другими странами и ЕС о формировании международной сети институтов безопасности ИИ для содействия сотрудничеству и обмена информацией и ресурсами. Кроме того, UK AI Safety Institute планировал открыть офис в Сан-Франциско. [166]

Корпоративное саморегулирование

Лаборатории и компании ИИ обычно соблюдают правила и нормы безопасности, которые выходят за рамки формального законодательства. [167] Одна из целей исследователей управления — сформировать эти нормы. Примеры рекомендаций по безопасности, найденные в литературе, включают проведение аудита третьей стороной, [168] предложение вознаграждений за обнаружение сбоев, [168] обмен информацией об инцидентах ИИ [168] (для этой цели была создана база данных инцидентов ИИ), [169] следование рекомендациям по определению того, публиковать ли исследования или модели, [144] и улучшение информационной и кибербезопасности в лабораториях ИИ. [170]

Компании также взяли на себя обязательства. Cohere, OpenAI и AI21 предложили и согласовали «лучшие практики развертывания языковых моделей», сосредоточившись на смягчении нецелевого использования. [171] Чтобы избежать содействия гоночной динамике, OpenAI также заявила в своем уставе, что «если ценностно-ориентированный, безопасный проект приблизится к созданию AGI раньше нас, мы обязуемся прекратить конкурировать с этим проектом и начать помогать ему» [172] Кроме того, лидеры отрасли, такие как генеральный директор DeepMind Демис Хассабис, директор Facebook AI Янн Лекун, подписали открытые письма, такие как Принципы Асиломара [33] и Открытое письмо об автономном оружии. [173]

Смотрите также

Ссылки

  1. ^ Перриго, Билли (2023-11-02). «UK's AI Safety Summit Ends With Limited, but Meaningful, Progress» (Саммит по безопасности искусственного интеллекта в Великобритании завершился с ограниченным, но значимым прогрессом). Time . Получено 2024-06-02 .
  2. ^ Де-Артеага, Мария (2020-05-13). Машинное обучение в условиях высоких ставок: риски и возможности (PhD). Университет Карнеги-Меллона.
  3. ^ Мехраби, Нинар; Морстаттер, Фред; Саксена, Нрипсута; Лерман, Кристина; Галстян, Арам (2021). «Обзор предвзятости и справедливости в машинном обучении». ACM Computing Surveys . 54 (6): 1–35. arXiv : 1908.09635 . doi : 10.1145/3457607. ISSN  0360-0300. S2CID  201666566. Архивировано из оригинала 23.11.2022 . Получено 28.11.2022 .
  4. ^ Фельдштейн, Стивен (2019). Глобальное расширение наблюдения с помощью ИИ (отчет). Фонд Карнеги за международный мир.
  5. ^ Барнс, Бет (2021). «Риски убеждения с помощью ИИ». Lesswrong . Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  6. ^ abc Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson, Hyrum; Roff, Heather; Allen, Gregory C; Steinhardt, Jacob; Flynn, Carrick (2018-04-30). "Злонамеренное использование искусственного интеллекта: прогнозирование, предотвращение и смягчение последствий". Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. doi : 10.17863/cam.22520. S2CID  3385567. Архивировано из оригинала 23.11.2022 . Получено 28.11.2022 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  7. ^ Дэвис, Паскаль (26 декабря 2022 г.). «Как НАТО готовится к новой эре кибератак с использованием искусственного интеллекта». euronews . Получено 23.03.2024 .
  8. ^ Ахуджа, Анджана (7 февраля 2024 г.). «Не следует исключать биотеррористический потенциал ИИ». Financial Times . Получено 23.03.2024 .
  9. ^ Карлсмит, Джозеф (16.06.2022). «Является ли стремление ИИ к власти экзистенциальным риском?». arXiv : 2206.13353 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  10. ^ Minardi, Di (16 октября 2020 г.). «Мрачная судьба, которая может быть «хуже вымирания». BBC . Получено 23.03.2024 .
  11. ^ Карлсмит, Джозеф (16.06.2022). «Является ли стремление ИИ к власти экзистенциальным риском?». arXiv : 2206.13353 [cs.CY].
  12. ^ Тейлор, Хлоя (2 мая 2023 г.). ««Крестный отец ИИ» предупреждает о «кошмарном сценарии», когда искусственный интеллект начнет стремиться к власти». Fortune .
  13. ^ "Эксперт по AGI Питер Восс говорит, что проблема выравнивания ИИ — фиктивна | NextBigFuture.com". 2023-04-04 . Получено 2023-07-23 .
  14. ^ Дефо, Аллан (2016). «Да, мы обеспокоены экзистенциальным риском искусственного интеллекта». MIT Technology Review . Архивировано из оригинала 2022-11-28 . Получено 2022-11-28 .
  15. ^ ab Грейс, Катя; Сальватье, Джон; Дефо, Аллан; Чжан, Баобао; Эванс, Оуайн (2018-07-31). «Точка зрения: когда ИИ превзойдет человеческие возможности? Данные от экспертов по ИИ». Журнал исследований искусственного интеллекта . 62 : 729–754. doi : 10.1613/jair.1.11222 . ISSN  1076-9757. S2CID  8746462. Архивировано из оригинала 10.02.2023 . Получено 28.11.2022 .
  16. ^ Чжан, Баобао; Андерльюнг, Маркус; Кан, Лорен; Дрекслер, Ноэми; Хоровиц, Майкл К.; Дефо, Аллан (2021-05-05). «Этика и управление искусственным интеллектом: данные опроса исследователей машинного обучения». Журнал исследований искусственного интеллекта . 71. arXiv : 2105.02117 . doi : 10.1613/jair.1.12895.
  17. ^ Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (2022-08-04). "Экспертный опрос 2022 года о прогрессе в области ИИ". Влияние ИИ . Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  18. ^ Майкл, Джулиан; Хольцман, Ари ; Пэрриш, Алисия; Мюллер, Аарон; Ван, Алекс; Чен, Анжелика; Мадаан, Дивьям; Нангия, Никита; Панг, Ричард Юаньчжэ; Пханг, Джейсон; Боуман, Сэмюэл Р. (26 августа 2022 г.). «Во что верят исследователи НЛП? Результаты метаопроса сообщества НЛП». Ассоциация компьютерной лингвистики . arXiv : 2208.12852 .
  19. ^ Маркофф, Джон (2013-05-20). «В 1949 году он представил себе эпоху роботов». The New York Times . ISSN  0362-4331. Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  20. ^ Ассоциация по развитию искусственного интеллекта. "AAAI Президентская группа по долгосрочному будущему ИИ". Архивировано из оригинала 2022-09-01 . Получено 2022-11-23 .
  21. ^ Ямпольский, Роман В.; Проверка орфографии, М.С. (2016-10-25). «Безопасность и кибербезопасность искусственного интеллекта: хронология неудач ИИ». arXiv : 1610.07997 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  22. ^ "PT-AI 2011 – Философия и теория искусственного интеллекта (PT-AI 2011)". Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  23. ^ Ямпольский, Роман В. (2013), Мюллер, Винсент К. (ред.), «Инженерия безопасности искусственного интеллекта: почему машинная этика — неправильный подход», Философия и теория искусственного интеллекта , Исследования по прикладной философии, эпистемологии и рациональной этике, т. 5, Берлин; Гейдельберг, Германия: Springer Berlin Heidelberg, стр. 389–396, doi :10.1007/978-3-642-31674-6_29, ISBN 978-3-642-31673-9, заархивировано из оригинала 2023-03-15 , извлечено 2022-11-23
  24. ^ Маклин, Скотт; Рид, Джемма Дж. М.; Томпсон, Джейсон; Бэйбер, Крис; Стэнтон, Невилл А.; Салмон, Пол М. (2023-07-04). «Риски, связанные с общим искусственным интеллектом: систематический обзор». Журнал экспериментального и теоретического искусственного интеллекта . 35 (5): 649–663. Bibcode : 2023JETAI..35..649M. doi : 10.1080/0952813X.2021.1964003 . hdl : 11343/289595 . ISSN  0952-813X. S2CID  238643957.
  25. Wile, Rob (3 августа 2014 г.). «Илон Маск: искусственный интеллект «потенциально более опасен, чем ядерное оружие». Business Insider . Получено 22 февраля 2024 г.
  26. ^ Куо, Кайзер (2015-03-31). Генеральный директор Baidu Робин Ли берет интервью у Билла Гейтса и Илона Маска на Форуме Боао, 29 марта 2015 года. Событие происходит в 55:49. Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  27. ^ Cellan-Jones, Rory (2014-12-02). «Стивен Хокинг предупреждает, что искусственный интеллект может положить конец человечеству». BBC News . Архивировано из оригинала 2015-10-30 . Получено 2022-11-23 .
  28. ^ Future of Life Institute. «Приоритеты исследований для надежного и полезного искусственного интеллекта: открытое письмо». Future of Life Institute . Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  29. ^ Future of Life Institute (октябрь 2016 г.). "Программа грантов на исследования в области искусственного интеллекта". Future of Life Institute . Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  30. ^ "SafArtInt 2016". Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  31. ^ Бах, Дебора (2016). «UW проведет первый из четырех публичных семинаров Белого дома по искусственному интеллекту». Новости UW . Архивировано из оригинала 23.11.2022 . Получено 23.11.2022 .
  32. ^ Амодей, Дарио; Ола, Крис; Стейнхардт, Джейкоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (25 июля 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  33. ^ ab Future of Life Institute. "Принципы ИИ". Future of Life Institute . Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  34. ^ Йохсуа, Бенджио; Даниэль, Привитера; Тамай, Бесироглу; Риши, Боммасани; Стивен, Каспер; Йеджин, Чой; Даниэль, Гольдфарб; Хода, Хейдари; Лейла, Халатбари (май 2024 г.). Международный научный отчет о безопасности передового ИИ (Отчет). Департамент науки, инноваций и технологий.
  35. ^ ab Research, DeepMind Safety (2018-09-27). "Создание безопасного искусственного интеллекта: спецификация, надежность и уверенность". Medium . Архивировано из оригинала 2023-02-10 . Получено 2022-11-23 .
  36. ^ "SafeML ICLR 2019 Workshop". Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  37. ^ abcde Хендрикс, Дэн; Карлини, Николас; Шульман, Джон; Стейнхардт, Якоб (16.06.2022). «Нерешенные проблемы безопасности машинного обучения». arXiv : 2109.13916 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  38. ^ Браун, Райан (12.06.2023). «Премьер-министр Великобритании Риши Сунак предлагает Великобританию в качестве родины регулирования безопасности ИИ, поскольку Лондон претендует на то, чтобы стать следующей Кремниевой долиной». CNBC . Получено 25.06.2023 .
  39. ^ Бертуцци, Лука (18 октября 2023 г.). «Саммит по безопасности ИИ в Великобритании должен подчеркнуть риск потери контроля человека над «пограничными» моделями». Euractiv . Получено 2 марта 2024 г.
  40. ^ Бенджио, Йошуа; Привитера, Дэниел; Боммасани, Риши; Каспер, Стивен; Гольдфарб, Даниэль; Маврудис, Василиос; Халатбари, Лейла; Мажейка, Мантас; Хода, Хейдари (17 мая 2024 г.). «Международный научный отчет о безопасности передового искусственного интеллекта» (PDF) . GOV.UK. ​Архивировано из оригинала 15 июня 2024 г. Проверено 8 июля 2024 г.
  41. ^ Шепардсон, Дэвид (1 апреля 2024 г.). «США и Великобритания объявляют о партнерстве в области безопасности и тестирования ИИ» . Получено 2 апреля 2024 г.
  42. ^ Гудфеллоу, Ян; Папернот, Николас; Хуан, Сэнди; Дуань, Рокки; Аббель, Питер; Кларк, Джек (24.02.2017). «Атака машинного обучения с помощью состязательных примеров». OpenAI . Архивировано из оригинала 24.11.2022 . Получено 24.11.2022 .
  43. ^ аб Сегеди, Кристиан; Заремба, Войцех; Суцкевер, Илья; Бруна, Джоан; Эрхан, Дмитрий; Гудфеллоу, Ян; Фергюс, Роб (19 февраля 2014 г.). «Интригующие свойства нейронных сетей». ИКЛР . arXiv : 1312.6199 .
  44. ^ Куракин, Алексей; Гудфеллоу, Ян; Бенджио, Сами (2017-02-10). "Примеры состязательности в физическом мире". ICLR . arXiv : 1607.02533 .
  45. ^ Мадри, Александр; Макелов, Александр; Шмидт, Людвиг; Ципрас, Димитрис; Владу, Адриан (2019-09-04). «На пути к моделям глубокого обучения, устойчивым к состязательным атакам». ICLR . arXiv : 1706.06083 .
  46. ^ Каннан, Харини; Куракин, Алексей; Гудфеллоу, Ян (16.03.2018). «Состязательное логит-спаривание». arXiv : 1803.06373 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  47. ^ Гилмер, Джастин; Адамс, Райан П.; Гудфеллоу, Ян; Андерсен, Дэвид; Даль, Джордж Э. (19 июля 2018 г.). «Мотивация правил игры для исследования состязательных примеров». arXiv : 1807.06732 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  48. ^ Карлини, Николас; Вагнер, Дэвид (29.03.2018). «Примеры состязательности аудио: целевые атаки на преобразование речи в текст». Семинары IEEE по безопасности и конфиденциальности . arXiv : 1801.01944 .
  49. ^ Шитсли, Райан; Папернот, Николас; Вайсман, Майкл; Верма, Гунджан; Макдэниел, Патрик (2022-09-09). «Состязательные примеры в ограниченных областях». arXiv : 2011.01183 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  50. ^ Сучиу, Октавиан; Коулл, Скотт Э.; Джонс, Джеффри (2019-04-13). «Изучение примеров вредоносных программ при обнаружении вредоносных программ». Семинары IEEE по безопасности и конфиденциальности . arXiv : 1810.08280 .
  51. ^ Оуян, Лонг; У, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди (2022-03-04). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». NeurIPS . arXiv : 2203.02155 .
  52. ^ Гао, Лео; Шульман, Джон; Хилтон, Джейкоб (19 октября 2022 г.). «Законы масштабирования для сверхоптимизации модели вознаграждения». ICML . arXiv : 2210.10760 .
  53. ^ Ю, Сихён; Ан, Сунгсу; Сонг, Ле; Шин, Джинву (27.10.2021). «RoMA: Надежная адаптация модели для оптимизации на основе офлайн-моделей». NeurIPS . arXiv : 2110.14188 .
  54. ^ ab Хендрикс, Дэн; Мажейка, Мантас (2022-09-20). "Анализ X-риска для исследований ИИ". arXiv : 2206.05862 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  55. ^ Тран, Хоа А.; Кондрашова, Ольга; Брэдли, Эндрю; Уильямс, Элизабет Д.; Пирсон, Джон В.; Уодделл, Никола (2021). «Глубокое обучение в диагностике рака, прогнозировании и выборе лечения». Genome Medicine . 13 (1): 152. doi : 10.1186/s13073-021-00968-x . ISSN  1756-994X. PMC 8477474 . PMID  34579788. 
  56. ^ Го, Чуань; Плейсс, Джефф; Сан, Ю; Вайнбергер, Килиан Q. (2017-08-06). «О калибровке современных нейронных сетей». Труды 34-й международной конференции по машинному обучению . Труды исследований машинного обучения. Том 70. PMLR. С. 1321–1330.
  57. ^ Овадия, Янив; Фертиг, Эмили; Рен, Джи; Надо, Захари; Скалли, Д.; Новозин, Себастьян; Диллон, Джошуа В.; Лакшминараянан, Баладжи; Снук, Джаспер (17.12.2019). «Можете ли вы доверять неопределенности своей модели? Оценка предсказательной неопределенности при сдвиге набора данных». NeurIPS . arXiv : 1906.02530 .
  58. ^ Богдолл, Дэниел; Брайтенштайн, Жасмин; Хайдекер, Флориан; Бишаар, Маартен; Больной, Бернхард; Фингшайдт, Тим; Зёлльнер, Дж. Мариус (2021). «Описание угловых случаев в автоматизированном вождении: цели и проблемы». Международная конференция IEEE/CVF по компьютерному зрению 2021 года (ICCVW) . стр. 1023–1028. arXiv : 2109.09607 . doi : 10.1109/ICCVW54120.2021.00119. ISBN 978-1-6654-0191-3. S2CID  237572375.
  59. ^ Хендрикс, Дэн; Мажейка, Мантас; Дитерих, Томас (2019-01-28). «Глубокое обнаружение аномалий с выявлением выбросов». ICLR . arXiv : 1812.04606 .
  60. ^ Ван, Хаоци; Ли, Чжичжун; Фэн, Литонг; Чжан, Уэйн (21 марта 2022 г.). «ViM: вне распределения с сопоставлением виртуальных логитов». ЦВПР . arXiv : 2203.10807 .
  61. ^ Хендрикс, Дэн; Гимпель, Кевин (2018-10-03). «Базовый уровень для обнаружения неправильно классифицированных и нераспределенных примеров в нейронных сетях». ICLR . arXiv : 1610.02136 .
  62. ^ Урбина, Фабио; Ленцос, Филиппа; Инверницци, Седрик; Экинс, Шон (2022). «Двойное использование открытия лекарств с помощью искусственного интеллекта». Nature Machine Intelligence . 4 (3): 189–191. doi :10.1038/s42256-022-00465-9. ISSN  2522-5839. PMC 9544280. PMID 36211133  . 
  63. ^ Центр безопасности и новых технологий; Бьюкенен, Бен; Лон, Эндрю; Массер, Мика; Седова, Катерина (2021). «Правда, ложь и автоматизация: как языковые модели могут изменить дезинформацию». doi : 10.51593/2021ca003 . S2CID  240522878. Архивировано из оригинала 24.11.2022 . Получено 28.11.2022 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  64. ^ «Пропаганда как услуга может появиться на горизонте, если будут злоупотреблять большими языковыми моделями». VentureBeat . 2021-12-14. Архивировано из оригинала 2022-11-24 . Получено 2022-11-24 .
  65. ^ Центр безопасности и новых технологий; Бьюкенен, Бен; Бансемер, Джон; Кэри, Дакота; Лукас, Джек; Массер, Мика (2020). «Автоматизация кибератак: шумиха и реальность». Центр безопасности и новых технологий . doi : 10.51593/2020ca002 . S2CID  234623943. Архивировано из оригинала 24.11.2022 . Получено 28.11.2022 .
  66. ^ «Уроки, полученные в ходе изучения безопасности и неправильного использования языковых моделей». OpenAI . 2022-03-03. Архивировано из оригинала 2022-11-24 . Получено 2022-11-24 .
  67. ^ Марков, Тодор; Чжан, Чонг; Агарвал, Сандхини; Элунду, Тайна; Ли, Тедди; Адлер, Стивен; Цзян, Анджела; Вэн, Лилиан (2022-08-10). "Новые и улучшенные инструменты модерации контента". OpenAI . Архивировано из оригинала 2023-01-11 . Получено 2022-11-24 .
  68. ^ ab Savage, Neil (29.03.2022). «Взлом черного ящика искусственного интеллекта». Nature . doi :10.1038/d41586-022-00858-1. PMID  35352042. S2CID  247792459. Архивировано из оригинала 24.11.2022 . Получено 24.11.2022 .
  69. ^ Центр безопасности и новых технологий; Руднер, Тим; Тонер, Хелен (2021). «Ключевые концепции безопасности ИИ: Интерпретируемость в машинном обучении». PLOS ONE . ​​doi : 10.51593/20190042 . S2CID  233775541. Архивировано из оригинала 24.11.2022 . Получено 28.11.2022 .
  70. ^ Макфарланд, Мэтт (2018-03-19). «Uber отзывает беспилотные автомобили после первой фатальной аварии автономного транспортного средства». CNNMoney . Архивировано из оригинала 2022-11-24 . Получено 2022-11-24 .
  71. ^ Фелдер, Райан Маршалл (июль 2021 г.). «Примирение с проблемой черного ящика: как оправдать системы ИИ в здравоохранении». Отчет Hastings Center . 51 (4): 38–45. doi :10.1002/hast.1248. ISSN  0093-0334. PMID  33821471.
  72. ^ ab Доши-Велес, Финал; Корц, Мейсон; Будиш, Райан; Бавиц, Крис; Гершман, Сэм; О'Брайен, Дэвид; Скотт, Кейт; Шибер, Стюарт; Уолдо, Джеймс; Вайнбергер, Дэвид; Веллер, Адриан; Вуд, Александра (2019-12-20). «Ответственность ИИ в соответствии с законом: роль объяснения». arXiv : 1711.01134 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  73. ^ Фонг, Рут; Ведальди, Андреа (2017). «Интерпретируемые объяснения черных ящиков с помощью осмысленных возмущений». Международная конференция IEEE по компьютерному зрению (ICCV) 2017 г. стр. 3449–3457. arXiv : 1704.03296 . doi :10.1109/ICCV.2017.371. ISBN 978-1-5386-1032-9. S2CID  1633753.
  74. ^ Мэн, Кевин; Бау, Дэвид; Андонян , Алекс; Белинков, Йонатан (2022). «Поиск и редактирование фактических ассоциаций в GPT». Достижения в области нейронных систем обработки информации . 35. arXiv : 2202.05262 .
  75. ^ Бау, Дэвид; Лю, Стивен; Ван, Тунчжоу; Чжу, Цзюнь-Янь; Торральба, Антонио (30 июля 2020 г.). «Переписывание глубокой генеративной модели». ЕСКВ . arXiv : 2007.15646 .
  76. ^ Ройкер, Тилман; Хо, Энсон; Каспер, Стивен; Хэдфилд-Менелл, Дилан (2022-09-05). «На пути к прозрачному ИИ: обзор интерпретации внутренних структур глубоких нейронных сетей». IEEE SaTML . arXiv : 2207.13243 .
  77. ^ Бау, Дэвид; Чжоу, Болей; Хосла, Адитья; Олива, Од; Торральба, Антонио (2017-04-19). «Рассечение сети: количественная оценка интерпретируемости глубоких визуальных представлений». CVPR . arXiv : 1704.05796 .
  78. ^ Макграт, Томас; Капишников, Андрей; Томашев, Ненад; Пирс, Адам; Ваттенберг, Мартин; Хассабис, Демис; Ким, Бин; Паке, Ульрих; Крамник, Владимир (2022-11-22). «Приобретение шахматных знаний в AlphaZero». Труды Национальной академии наук . 119 (47): e2206625119. arXiv : 2111.09259 . Bibcode : 2022PNAS..11906625M. doi : 10.1073/pnas.2206625119 . ISSN  0027-8424. PMC 9704706. PMID 36375061  . 
  79. ^ Го, Габриэль; Каммарата, Ник; Восс, Челси; Картер, Шан; Петров, Майкл; Шуберт, Людвиг; Рэдфорд, Алек; Олах, Крис (2021). «Мультимодальные нейроны в искусственных нейронных сетях». Distill . 6 (3). doi : 10.23915/distill.00030 . S2CID  233823418.
  80. ^ Олах, Крис; Каммарата, Ник; Шуберт, Людвиг; Го, Габриэль; Петров, Майкл; Картер, Шан (2020). «Увеличение: введение в схемы». Distill . 5 (3). doi : 10.23915/distill.00024.001 . S2CID  215930358.
  81. ^ Каммарата, Ник; Го, Габриэль; Картер, Шан; Восс, Челси; Шуберт, Людвиг; Олах, Крис (2021). "Curve circuits". Distill . 6 (1). doi :10.23915/distill.00024.006 (неактивен 2024-09-19). Архивировано из оригинала 5 декабря 2022 года . Получено 5 декабря 2022 года .{{cite journal}}: CS1 maint: DOI неактивен по состоянию на сентябрь 2024 г. ( ссылка )
  82. ^ Олссон, Кэтрин; Элхаге, Нельсон; Нанда, Нил; Джозеф, Николас; ДасСарма, Нова; Хениган, Том; Манн, Бен; Аскелл, Аманда; Бай, Юньтао; Чен, Анна; Конерли, Том; Дрейн, Дон; Гангули, Дип; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; ​​Джонстон, Скотт; Джонс, Энди; Кернион, Джексон; Ловитт, Лиана; Ндусс, Камаль; Амодей, Дарио; Браун, Том; Кларк, Джек; Каплан, Джаред; МакКэндлиш, Сэм; Олах, Крис (2022). «Контекстное обучение и индукционные головки». Тема Transformer Circuits . arXiv : 2209.11895 .
  83. ^ Ола, Кристофер. "Интерпретируемость против нейронауки [черновая заметка]". Архивировано из оригинала 2022-11-24 . Получено 2022-11-24 .
  84. ^ Гу, Тяньюй; Долан-Гавитт, Брендан; Гарг, Сиддхарт (2019-03-11). «BadNets: Выявление уязвимостей в цепочке поставок модели машинного обучения». arXiv : 1708.06733 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  85. ^ Чэнь, Синьюнь; Лю, Чанг; Ли, Бо; Лу, Кимберли; Сонг, Дон (14.12.2017). «Целевые атаки через бэкдоры на системы глубокого обучения с использованием отравления данных». arXiv : 1712.05526 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  86. ^ Карлини, Николас; Терзис, Андреас (28.03.2022). «Отравление и бэкдоринг контрастного обучения». ICLR . arXiv : 2106.09667 .
  87. ^ abcd Рассел, Стюарт Дж.; Норвиг, Питер (2021). Искусственный интеллект: современный подход (4-е изд.). Пирсон. С. 5, 1003. ISBN 9780134610993. Получено 12 сентября 2022 г. .
  88. ^ ab Ngo, Richard; Chan, Lawrence; Mindermann, Sören (2022). «Проблема выравнивания с точки зрения глубокого обучения». Международная конференция по представлениям обучения . arXiv : 2209.00626 .
  89. ^ ab Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (2022-02-14). Эффекты неправильной спецификации вознаграждения: картирование и смягчение несоответствующих моделей. Международная конференция по представлениям обучения . Получено 21 июля 2022 г.
  90. ^ Чжуан, Саймон; Хэдфилд-Менелл, Дилан (2020). «Последствия несоосного ИИ». Достижения в области нейронных систем обработки информации . Том 33. Curran Associates, Inc., стр. 15763–15773 . Получено 11.03.2023 .
  91. ^ Карлсмит, Джозеф (16.06.2022). «Является ли стремление ИИ к власти экзистенциальным риском?». arXiv : 2206.13353 [cs.CY].
  92. ^ abc Russell, Stuart J. (2020). Совместимость с человеком: искусственный интеллект и проблема контроля. Penguin Random House. ISBN 9780525558637. OCLC  1113410915.
  93. ^ Кристиан, Брайан (2020). Проблема выравнивания: машинное обучение и человеческие ценности. WW Norton & Company. ISBN 978-0-393-86833-3. OCLC  1233266753. Архивировано из оригинала 10 февраля 2023 г. . Получено 12 сентября 2022 г. .
  94. ^ Лангоско, Лауро Лангоско Ди; Кох, Джек; Шарки, Ли Д.; Пфау, Джейкоб; Крюгер, Дэвид (2022-06-28). «Ошибочное обобщение цели в глубоком обучении с подкреплением». Труды 39-й Международной конференции по машинному обучению . Международная конференция по машинному обучению. PMLR. стр. 12004–12019 . Получено 11.03.2023 .
  95. ^ ab Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (2022-07-12). «О возможностях и рисках моделей фундамента». Stanford CRFM . arXiv : 2108.07258 .
  96. ^ Оуян, Лонг; У, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Дж.; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк Э.; Сименс, Мэдди; Аскелл, Аманда; Велиндер, П.; Кристиано, П.; Лейке, Дж.; Лоу, Райан Дж. (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [cs.CL].
  97. ^ Заремба, Войцех; Брокман, Грег; OpenAI (2021-08-10). "OpenAI Codex". OpenAI . Архивировано из оригинала 3 февраля 2023 г. . Получено 2022-07-23 .
  98. ^ Кобер, Йенс; Багнелл, Дж. Эндрю; Питерс, Ян (2013-09-01). «Обучение с подкреплением в робототехнике: обзор». Международный журнал исследований робототехники . 32 (11): 1238–1274. doi :10.1177/0278364913495721. ISSN  0278-3649. S2CID  1932843. Архивировано из оригинала 15 октября 2022 г. . Получено 12 сентября 2022 г. .
  99. ^ Нокс, У. Брэдли; Аллиеви, Алессандро; Банцхаф, Хольгер; Шмитт, Феликс; Стоун, Питер (2023-03-01). «Награда за (не)дизайн для автономного вождения». Искусственный интеллект . 316 : 103829. arXiv : 2104.13906 . doi : 10.1016/j.artint.2022.103829 . ISSN  0004-3702. S2CID  233423198.
  100. ^ Стрэй, Джонатан (2020). «Соответствие оптимизации ИИ благосостоянию сообщества». Международный журнал благосостояния сообщества . 3 (4): 443–463. doi :10.1007/s42413-020-00086-3. ISSN  2524-5295. PMC 7610010. PMID 34723107.  S2CID 226254676  . 
  101. ^ Рассел, Стюарт; Норвиг, Питер (2009). Искусственный интеллект: современный подход. Prentice Hall. стр. 1003. ISBN 978-0-13-461099-3.
  102. ^ Бенджио, Йошуа; Хинтон, Джеффри; Яо, Эндрю; Песня, Заря; Аббель, Питер; Харари, Юваль Ной; Чжан, Я-Цинь; Сюэ, Лан; Шалев-Шварц, Шай (2024), «Управление экстремальными рисками ИИ в условиях быстрого прогресса», Science , 384 (6698): 842–845, arXiv : 2310.17688 , Bibcode : 2024Sci...384..842B, doi : 10.1126/science .adn0117, PMID  38768279
  103. ^ "Заявление о риске ИИ | CAIS". www.safe.ai . Получено 2024-02-11 .
  104. ^ Грейс, Катя; Стюарт, Харлан; Зандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (2024-01-05), Тысячи авторов ИИ о будущем ИИ , arXiv : 2401.02843
  105. ^ Смит, Крейг С. «Джефф Хинтон, самый известный исследователь ИИ, предупреждает об «экзистенциальной угрозе»». Forbes . Получено 04.05.2023 .
  106. ^ Перриго, Билли (2024-02-13). «Руководитель отдела искусственного интеллекта компании Meta Ян Лекун об AGI, открытом исходном коде и рисках ИИ». TIME . Получено 2024-06-26 .
  107. ^ abc Амодеи, Дарио; Олах, Крис; Стейнхардт, Якоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (2016-06-21). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [cs.AI].
  108. ^ ab Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (2018-09-27). "Building safe artificial intelligence: specification, failureness, and assurance". DeepMind Safety Research – Medium . Архивировано из оригинала 10 февраля 2023 г. . Получено 18 июля 2022 г.
  109. ^ ab Rorvig, Mordechai (2022-04-14). «Исследователи получают новое понимание от простого ИИ». Журнал Quanta . Архивировано из оригинала 10 февраля 2023 г. Получено 2022-07-18 .
  110. ^ Доши-Велес, Финале; Ким, Бин (2017-03-02). «На пути к строгой науке интерпретируемого машинного обучения». arXiv : 1702.08608 [stat.ML].
    • Виблин, Роберт (4 августа 2021 г.). «Крис Олах о том, что, черт возьми, происходит внутри нейронных сетей» (подкаст). 80 000 часов. № 107. Получено 23 июля 2022 г.
  111. ^ Рассел, Стюарт; Дьюи, Дэниел; Тегмарк, Макс (2015-12-31). «Приоритеты исследований для надежного и полезного искусственного интеллекта». AI Magazine . 36 (4): 105–114. arXiv : 1602.03506 . doi : 10.1609/aimag.v36i4.2577 . hdl :1721.1/108478. ISSN  2371-9621. S2CID  8174496. Архивировано из оригинала 2 февраля 2023 г. . Получено 12 сентября 2022 г. .
  112. ^ Вирт, Кристиан; Акрур, Риад; Нойманн, Герхард; Фюрнкранц, Йоханнес (2017). «Обзор методов обучения с подкреплением на основе предпочтений». Журнал исследований машинного обучения . 18 (136): 1–46.
  113. ^ Кристиано, Пол Ф.; Лейке, Ян; Браун, Том Б.; Мартич, Мильян; Легг, Шейн; Амодеи, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений». Труды 31-й Международной конференции по системам обработки нейронной информации . NIPS'17. Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 4302–4310. ISBN 978-1-5108-6096-4.
  114. ^ Heaven, Will Douglas (2022-01-27). «Новая версия GPT-3 ведет себя гораздо лучше (и должна быть менее токсичной)». MIT Technology Review . Архивировано из оригинала 10 февраля 2023 г. Получено 2022-07-18 .
  115. ^ Мохсени, Сина; Ван, Хаотао; Ю, Чжидинг; Сяо, Чаовэй; Ван, Чжанъян; Ядава, Джей (07 марта 2022 г.). «Таксономия безопасности машинного обучения: обзор и учебник». arXiv : 2106.04823 [cs.LG].
  116. ^ Клифтон, Джесси (2020). «Сотрудничество, конфликт и преобразующий искусственный интеллект: исследовательская программа». Центр долгосрочного риска . Архивировано из оригинала 1 января 2023 г. Получено 18 июля 2022 г.
    • Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021-05-06). «Кооперативный ИИ: машины должны научиться находить общую почву». Nature . 593 (7857): 33–36. Bibcode :2021Natur.593...33D. doi :10.1038/d41586-021-01170-0. ISSN  0028-0836. PMID  33947992. S2CID  233740521. Архивировано из оригинала 18 декабря 2022 г. Получено 12 сентября 2022 г.
  117. ^ Prunkl, Carina; Whittlestone, Jess (2020-02-07). «За пределами краткосрочной и долгосрочной перспективы». Труды конференции AAAI/ACM по ИИ, этике и обществу . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 138–143. doi :10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID  210164673. Архивировано из оригинала 16 октября 2022 г. . Получено 12 сентября 2022 г. .
  118. ^ Ирвинг, Джеффри; Аскелл, Аманда (2019-02-19). «Безопасность ИИ нуждается в социальных ученых». Distill . 4 (2): 10.23915/distill.00014. doi : 10.23915/distill.00014 . ISSN  2476-0757. S2CID  159180422. Архивировано из оригинала 10 февраля 2023 г. . Получено 12 сентября 2022 г. .
  119. ^ abcd Zwetsloot, Remco; Dafoe, Allan (2019-02-11). «Размышления о рисках, связанных с ИИ: несчастные случаи, неправильное использование и структура». Lawfare . Архивировано из оригинала 2023-08-19 . Получено 2022-11-24 .
  120. ^ Чжан, Инюй; Дун, Чуньтун; Го, Вэйцюнь; Дай, Цзябао; Чжао, Цзымин (2022). «Системно-теоретическая модель и процесс аварии (STAMP): обзор литературы». Safety Science . 152 : 105596. doi : 10.1016/j.ssci.2021.105596. S2CID  244550153. Архивировано из оригинала 2023-03-15 . Получено 2022-11-28 .
  121. ^ Центр безопасности и новых технологий; Хоффман, Уайетт (2021). «ИИ и будущее киберконкуренции». Краткий обзор выпуска CSET . doi : 10.51593/2020ca007 . S2CID  234245812. Архивировано из оригинала 24.11.2022 . Получено 28.11.2022 .
  122. ^ Гафни, Рути; Леви, Яир (2024-01-01). «Роль искусственного интеллекта (ИИ) в повышении эффективности технических и управленческих задач кибербезопасности». Информация и компьютерная безопасность . ahead-of-print (ahead-of-print). doi :10.1108/ICS-04-2024-0102. ISSN  2056-4961.
  123. ^ Центр безопасности и новых технологий; Имбри, Эндрю; Каниа, Эльза (2019). «Безопасность и стабильность ИИ среди великих держав: варианты, проблемы и извлеченные уроки для прагматичного взаимодействия». doi : 10.51593/20190051 . S2CID  240957952. Архивировано из оригинала 24.11.2022 . Получено 28.11.2022 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  124. ^ ab Future of Life Institute (2019-03-27). Стратегия, политика и управление ИИ (Аллан Дефо). Событие происходит в 22:05. Архивировано из оригинала 2022-11-23 . Получено 2022-11-23 .
  125. ^ Цзоу, Энди; Сяо, Тристан; Цзя, Райан; Квон, Джо; Мазейка, Мантас; Ли, Ричард; Сонг, Дон; Стейнхардт, Джейкоб; Эванс, Оуайн; Хендрикс, Дэн (2022-10-09). «Прогнозирование будущих мировых событий с помощью нейронных сетей». NeurIPS . arXiv : 2206.15474 .
  126. ^ Гатани, Снеха; Хулсебос, Маделон; Гейл, Джеймс; Хаас, Питер Дж.; Демиралп, Чагатай (2022-02-08). «Расширение принятия решений с помощью интерактивного анализа «что если»». Конференция по исследованиям инновационных систем данных . arXiv : 2109.06160 .
  127. ^ Линделауф, Рой (2021), Осинга, Франс; Свейс, Тим (ред.), «Ядерное сдерживание в эпоху алгоритмов: пересмотр теории игр», NL ARMS Netherlands Annual Review of Military Studies 2020 , Nl Arms, Гаага: TMC Asser Press, стр. 421–436, doi : 10.1007/978-94-6265-419-8_22 , ISBN 978-94-6265-418-1, S2CID  229449677
  128. ^ ab Newkirk II, Vann R. (2016-04-21). «Изменение климата — дилемма заключенного или охота на оленя?». The Atlantic . Архивировано из оригинала 2022-11-24 . Получено 2022-11-24 .
  129. ^ ab Армстронг, Стюарт; Бостром, Ник; Шульман, Карл. Гонки к пропасти: модель развития искусственного интеллекта (отчет). Институт будущего человечества, Оксфордский университет.
  130. ^ ab Dafoe, Allan. Управление ИИ: исследовательская программа (отчет). Центр управления ИИ, Институт будущего человечества, Оксфордский университет.
  131. ^ Дефо, Аллан; Хьюз, Эдвард; Бахрах, Йорам; Коллинз, Тантум; Макки, Кевин Р.; Лейбо, Джоэл З.; Ларсон, Кейт; Грэпель, Тор (15.12.2020). «Открытые проблемы в кооперативном ИИ». NeurIPS . arXiv : 2012.08630 .
  132. ^ ab Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). «Кооперативный ИИ: машины должны научиться находить общую почву». Nature . 593 (7857): 33–36. Bibcode :2021Natur.593...33D. doi :10.1038/d41586-021-01170-0. PMID  33947992. S2CID  233740521. Архивировано из оригинала 22.11.2022 . Получено 24.11.2022 .
  133. ^ Бендер, Э. М., Гебру, Т., Макмиллан-Мэйджор, А. и Шмитчелл, С. (2021). Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? 🦜. FAccT '21: Труды конференции ACM 2021 года по справедливости, подотчетности и прозрачности, 610-623. https://doi.org/10.1145/3442188.3445922.
  134. ^ Strubell, E., Ganesh, A., & McCallum, A. (2019). Энергетические и политические соображения для глубокого обучения в NLP. Препринт arXiv arXiv:1906.02243.
  135. ^ Шварц, Р., Додж, Дж., Смит, Н. А. и Этциони, О. (2020). Зеленый ИИ. Сообщения ACM, 63(12), 54-63. https://doi.org/10.1145/3442188.3445922.
  136. ^ Сатариано, Адам; Специя, Меган (01.11.2023). «Мировые лидеры предупреждают, что ИИ может нанести «катастрофический» вред». The New York Times . ISSN  0362-4331 . Получено 20.04.2024 .
  137. ^ Крафтс, Николас (2021-09-23). ​​«Искусственный интеллект как технология общего назначения: историческая перспектива». Oxford Review of Economic Policy . 37 (3): 521–536. doi : 10.1093/oxrep/grab012 . ISSN  0266-903X. Архивировано из оригинала 24.11.2022 . Получено 28.11.2022 .
  138. ^ 葉俶禎; 黃子君; 張媁雯; 賴志樫 (01 декабря 2020 г.). «Замещение рабочей силы в эпоху искусственного интеллекта: систематический обзор литературы » . 17 (2). doi :10.6163/TJEAS.202012_17(2).0002. ISSN  1812-6243.
  139. ^ Джонсон, Джеймс (2019-04-03). «Искусственный интеллект и будущая война: последствия для международной безопасности». Defense & Security Analysis . 35 (2): 147–169. doi : 10.1080/14751798.2019.1600800. ISSN  1475-1798. S2CID  159321626. Архивировано из оригинала 24.11.2022 . Получено 28.11.2022 .
  140. ^ Кертысова, Катарина (2018-12-12). «Искусственный интеллект и дезинформация: как ИИ меняет способ производства, распространения и противодействия дезинформации». Безопасность и права человека . 29 (1–4): 55–81. doi : 10.1163/18750230-02901005 . ISSN  1874-7337. S2CID  216896677. Архивировано из оригинала 24.11.2022 . Получено 28.11.2022 .
  141. ^ Фельдштейн, Стивен (2019). Глобальное расширение наблюдения с помощью ИИ . Фонд Карнеги за международный мир.
  142. ^ Агравал, Аджай; Ганс, Джошуа; Голдфарб, Ави (2019). Экономика искусственного интеллекта: повестка дня. Чикаго, Иллинойс. ISBN 978-0-226-61347-5. OCLC  1099435014. Архивировано из оригинала 2023-03-15 . Получено 2022-11-28 .{{cite book}}: CS1 maint: location missing publisher (link)
  143. ^ Уиттлстоун, Джесс; Кларк, Джек (31 августа 2021 г.). «Почему и как правительства должны контролировать разработку ИИ». arXiv : 2108.12427 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  144. ^ ab Shevlane, Toby (2022). «Обмен мощными моделями ИИ | Блог GovAI». Центр управления ИИ . Архивировано из оригинала 24.11.2022 . Получено 24.11.2022 .
  145. ^ Аскелл, Аманда; Брандейдж, Майлз; Хэдфилд, Джиллиан (10 июля 2019 г.). «Роль сотрудничества в ответственной разработке ИИ». arXiv : 1907.04534 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  146. ^ Гурсой, Фуркан; Какадиарис, Иоаннис А. (2022-08-31), Системные карты для принятия решений на основе ИИ в государственной политике , arXiv : 2203.04754
  147. ^ Кобб, Дженнифер; Ли, Мишель Сенг А; Сингх, Джатиндер (2021-03-01). «Автоматизированное принятие решений с возможностью проверки: структура для подотчетных алгоритмических систем». Труды конференции ACM 2021 года по справедливости, подотчетности и прозрачности . FAccT '21. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 598–609. doi : 10.1145/3442188.3445921 . ISBN 978-1-4503-8309-7.
  148. ^ Раджи, Иниолува Дебора; Смарт, Эндрю; Уайт, Ребекка Н.; Митчелл, Маргарет; Гебру, Тимнит; Хатчинсон, Бен; Смит-Лауд, Джамила; Терон, Дэниел; Барнс, Паркер (2020-01-27). «Устранение разрыва в подотчетности ИИ: определение сквозной структуры для внутреннего алгоритмического аудита». Труды конференции 2020 года по справедливости, подотчетности и прозрачности . FAT* '20. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 33–44. doi : 10.1145/3351095.3372873 . ISBN 978-1-4503-6936-7.
  149. ^ Турчин, Алексей; Денч, Дэвид; Грин, Брайан Патрик (2019). «Глобальные решения против локальных решений проблемы безопасности ИИ». Большие данные и когнитивные вычисления . 3 (16): 1–25. doi : 10.3390/bdcc3010016 .
  150. ^ Циглер, Барт (8 апреля 2022 г.). «Пришло ли время регулировать ИИ?». Wall Street Journal .
  151. ^ Смит, Джон (15 мая 2022 г.). «Глобальное управление искусственным интеллектом: возможности и проблемы». The Guardian .
  152. ^ Циглер, Барт (8 апреля 2022 г.). «Пора ли регулировать ИИ?». Wall Street Journal . Архивировано из оригинала 24.11.2022 . Получено 24.11.2022 .
  153. ^ Рид, Крис (2018-09-13). «Как нам следует регулировать искусственный интеллект?». Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences . 376 (2128): 20170360. Bibcode : 2018RSPTA.37670360R. doi : 10.1098/rsta.2017.0360. ISSN  1364-503X. PMC 6107539. PMID 30082306  . 
  154. ^ Белтон, Кит Б. (2019-03-07). «Как следует регулировать ИИ?». IndustryWeek . Архивировано из оригинала 2022-01-29 . Получено 2022-11-24 .
  155. ^ Комиссия национальной безопасности по искусственному интеллекту (2021), Заключительный отчет
  156. ^ Национальный институт стандартов и технологий (2021-07-12). "Структура управления рисками ИИ". NIST . Архивировано из оригинала 2022-11-24 . Получено 2022-11-24 .
  157. ^ Ричардсон, Тим (2021). «Британия публикует 10-летнюю национальную стратегию искусственного интеллекта». Архивировано из оригинала 2023-02-10 . Получено 2022-11-24 .
  158. ^ ab "Guidance: National AI Strategy". GOV.UK. 2021. Архивировано из оригинала 2023-02-10 . Получено 2022-11-24 .
  159. ^ Хардкасл, Кимберли (2023-08-23). ​​«Мы сейчас много говорим об ИИ – и это не слишком рано». The Conversation . Получено 2023-10-31 .
  160. ^ "Знаменитый Блетчли-парк примет саммит по безопасности искусственного интеллекта в Великобритании в начале ноября". GOV.UK . Получено 31 октября 2023 г.
  161. Офис директора национальной разведки, деятельность по перспективным исследовательским проектам разведки. "IARPA – TrojAI". Архивировано из оригинала 24.11.2022 . Получено 24.11.2022 .
  162. ^ Турек, Мэтт. «Объяснимый искусственный интеллект». Архивировано из оригинала 2021-02-19 . Получено 2022-11-24 .
  163. ^ Дрейпер, Брюс. «Гарантирование устойчивости ИИ к обману». Агентство перспективных исследовательских проектов Министерства обороны . Архивировано из оригинала 09.01.2023 . Получено 24.11.2022 .
  164. ^ Национальный научный фонд (23 февраля 2023 г.). «Безопасные системы обучения». Архивировано из оригинала 2023-02-26 . Получено 2023-02-27 .
  165. ^ «Генеральная Ассамблея принимает знаковую резолюцию об искусственном интеллекте». Новости ООН . 21 марта 2024 г. Архивировано из оригинала 20 апреля 2024 г. Получено 21 апреля 2024 г.
  166. Say, Mark (23 мая 2024 г.). «DSIT объявляет о финансировании исследований безопасности ИИ». Архивировано из оригинала 24 мая 2024 г. Получено 11 июня 2024 г.
  167. ^ Мянтюмяки, Матти; Минккинен, Матти; Биркстедт, Теему; Вильянен, Мика (2022). «Определение организационного управления ИИ». ИИ и этика . 2 (4): 603–609. дои : 10.1007/s43681-022-00143-x . ISSN  2730-5953. S2CID  247119668.
  168. ^ abc Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen; Fong, Ruth; Maharaj, Tegan; Koh, Pang Wei; Hooker, Sara; Leung, Jade; Trask, Andrew (2020-04-20). «На пути к надежной разработке ИИ: механизмы поддержки проверяемых заявлений». arXiv : 2004.07213 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  169. ^ "Добро пожаловать в базу данных инцидентов с искусственным интеллектом". Архивировано из оригинала 2022-11-24 . Получено 2022-11-24 .
  170. ^ Виблин, Роберт; Харрис, Кейран (2022). «Nova DasSarma о том, почему информационная безопасность может иметь решающее значение для безопасной разработки систем ИИ». 80 000 часов . Архивировано из оригинала 24.11.2022 . Получено 24.11.2022 .
  171. ^ OpenAI (2022-06-02). "Лучшие практики развертывания языковых моделей". OpenAI . Архивировано из оригинала 2023-03-15 . Получено 2022-11-24 .
  172. ^ OpenAI. "OpenAI Charter". OpenAI . Архивировано из оригинала 2021-03-04 . Получено 2022-11-24 .
  173. ^ Future of Life Institute (2016). «Открытое письмо об автономном оружии: исследователи искусственного интеллекта и робототехники». Future of Life Institute . Архивировано из оригинала 22.09.2023 . Получено 24.11.2022 .

Внешние ссылки