Состязательное машинное обучение

Состязательное машинное обучение — это изучение атак на алгоритмы машинного обучения и защиты от таких атак. ^[1] Опрос, проведенный в мае 2020 года, выявил тот факт, что специалисты сообщают об острой необходимости в улучшении защиты систем машинного обучения в промышленных приложениях. ^[2]

Большинство методов машинного обучения в основном предназначены для работы с определенными наборами проблем, исходя из предположения, что данные обучения и тестирования генерируются из одного и того же статистического распределения ( IID ). Однако это предположение часто опасно нарушается в практических приложениях с высокими ставками, где пользователи могут намеренно предоставлять сфабрикованные данные, которые нарушают статистическое предположение.

Наиболее распространенные атаки в состязательном машинном обучении включают атаки уклонения , ^[3] атаки отравления данных , ^[4] византийские атаки ^[5] и извлечение модели. ^[6]

История

На конференции по спаму Массачусетского технологического института в январе 2004 года Джон Грэм-Камминг продемонстрировал, что спам-фильтр с машинным обучением может быть использован для обхода другого спам-фильтра с машинным обучением, автоматически изучая, какие слова следует добавлять в спам-письмо, чтобы оно было классифицировано как не спам. ^[7]

В 2004 году Нилеш Далви и другие отметили, что линейные классификаторы, используемые в спам-фильтрах, можно обойти простыми « атаками уклонения », когда спамеры вставляют «хорошие слова» в свои спам-письма. (Примерно в 2007 году некоторые спамеры добавляли случайный шум к нечетким словам в «спам-изображениях», чтобы обойти фильтры на основе OCR .) В 2006 году Марко Баррено и другие опубликовали статью «Может ли машинное обучение быть безопасным?», в которой изложили широкую таксономию атак. Еще в 2013 году многие исследователи продолжали надеяться, что нелинейные классификаторы (такие как машины опорных векторов и нейронные сети ) могут быть устойчивы к злоумышленникам, пока Баттиста Биджио и другие не продемонстрировали первые атаки на основе градиента на такие модели машинного обучения (2012 ^[8] –2013 ^[9] ). В 2012 году глубокие нейронные сети начали доминировать в задачах компьютерного зрения; Начиная с 2014 года, Кристиан Сегеди и другие продемонстрировали, что глубокие нейронные сети могут быть обмануты злоумышленниками, снова используя атаку на основе градиента для создания состязательных возмущений. ^[10]^[11]

Недавно было замечено, что состязательные атаки сложнее производить в практическом мире из-за различных ограничений окружающей среды, которые нейтрализуют эффект шума. ^[12]^[13] Например, любое небольшое вращение или слабое освещение на состязательном изображении может разрушить состязательность. Кроме того, такие исследователи, как Николас Фросст из Google Brain, отмечают, что гораздо проще заставить беспилотные автомобили ^[14] пропустить знаки «стоп», физически удалив сам знак, а не создавая состязательные примеры. ^[15] Фросст также считает, что сообщество состязательного машинного обучения ошибочно предполагает, что модели, обученные на определенном распределении данных, также будут хорошо работать на совершенно другом распределении данных. Он предлагает изучить новый подход к машинному обучению и в настоящее время работает над уникальной нейронной сетью, которая имеет характеристики, более похожие на человеческое восприятие, чем современные подходы. ^[15]

В то время как состязательное машинное обучение продолжает прочно укореняться в академической среде, крупные технологические компании, такие как Google, Microsoft и IBM, начали курировать документацию и базы открытого исходного кода, чтобы позволить другим конкретно оценить надежность моделей машинного обучения и минимизировать риск состязательных атак. ^[16]^[17]^[18]

Примеры

Примерами служат атаки на фильтрацию спама , когда спам-сообщения маскируются с помощью неправильного написания «плохих» слов или вставки «хороших» слов; ^[19]^[20] атаки на компьютерную безопасность , такие как сокрытие вредоносного кода в сетевых пакетах или изменение характеристик сетевого потока для введения в заблуждение системы обнаружения вторжений; ^[21]^[22] атаки на биометрическое распознавание, когда поддельные биометрические признаки могут использоваться для выдачи себя за законного пользователя; ^[23] или для компрометации галерей шаблонов пользователей, которые со временем адаптируются к обновленным признакам.

Исследователи показали, что, изменив всего один пиксель, можно обмануть алгоритмы глубокого обучения. ^[24] Другие напечатали на 3D-принтере игрушечную черепаху с текстурой, разработанной так, чтобы ИИ- обнаружитель объектов Google классифицировал ее как винтовку независимо от угла, под которым смотрели на черепаху. ^[25] Для создания черепахи потребовалась только недорогая коммерчески доступная технология 3D-печати. ^[26]

Было показано, что измененное машиной изображение собаки выглядит как кошка как для компьютеров, так и для людей. ^[27] Исследование 2019 года показало, что люди могут угадывать, как машины будут классифицировать враждебные изображения. ^[28] Исследователи обнаружили методы искажения внешнего вида знака «Стоп» таким образом, что автономное транспортное средство классифицировало его как знак слияния или ограничения скорости. ^[14]^[29]

Макафи атаковал бывшую систему Tesla Mobileye , обманув ее и заставив ехать на 50 миль в час с превышением скорости, просто добавив двухдюймовую полоску черной ленты к знаку ограничения скорости. ^[30]^[31]

Агрессивные узоры на очках или одежде, предназначенные для обмана систем распознавания лиц или считывателей номерных знаков, привели к появлению нишевой индустрии «скрытой уличной одежды». ^[32]

Состязательная атака на нейронную сеть может позволить злоумышленнику внедрить алгоритмы в целевую систему. ^[33] Исследователи также могут создавать состязательные аудиовходы, чтобы замаскировать команды интеллектуальным помощникам в безобидные на вид аудио; ^[34] параллельная литература исследует человеческое восприятие таких стимулов. ^[35]^[36]

Алгоритмы кластеризации используются в приложениях безопасности. Анализ вредоносных программ и компьютерных вирусов направлен на выявление семейств вредоносных программ и создание определенных сигнатур обнаружения. ^[37]^[38]

Методы атаки

Таксономия

Атаки на (контролируемые) алгоритмы машинного обучения были классифицированы по трем основным осям: ^[39] влияние на классификатор, нарушение безопасности и их специфика.

Влияние классификатора: атака может повлиять на классификатор, нарушив фазу классификации. Этому может предшествовать фаза исследования для выявления уязвимостей. Возможности атакующего могут быть ограничены наличием ограничений на манипуляцию данными. ^[40]
Нарушение безопасности: Атака может предоставить вредоносные данные, которые будут классифицированы как легитимные. Вредоносные данные, предоставленные во время обучения, могут привести к отклонению легитимных данных после обучения.
Специфичность: Направленная атака пытается разрешить конкретное вторжение/нарушение. В качестве альтернативы, неизбирательная атака создает общий хаос.

Эта таксономия была расширена до более комплексной модели угроз, которая позволяет делать явные предположения о цели противника, знаниях об атакованной системе, возможности манипулирования входными данными/компонентами системы и о стратегии атаки. ^[41]^[42] Эта таксономия была дополнительно расширена, чтобы включить измерения для стратегий защиты от атак противника. ^[43]

Стратегии

Ниже приведены некоторые из наиболее часто встречающихся сценариев атак.

Отравление данных

Отравление заключается в загрязнении обучающего набора данных данными, предназначенными для увеличения ошибок в выходных данных. Учитывая, что обучающие алгоритмы формируются их обучающими наборами данных, отравление может эффективно перепрограммировать алгоритмы с потенциально вредоносным намерением. Были высказаны опасения, особенно в отношении обучающих данных, созданных пользователями, например, для рекомендаций по контенту или моделей естественного языка. Вездесущность поддельных аккаунтов открывает много возможностей для отравления. Сообщается, что Facebook удаляет около 7 миллиардов поддельных аккаунтов в год. ^[44]^[45] Отравление было отмечено как главная проблема для промышленных приложений. ^[2]

В социальных сетях кампании по распространению дезинформации пытаются повлиять на алгоритмы рекомендаций и модерации, чтобы навязывать определенный контент в ущерб другому.

Частным случаем отравления данных является атака через бэкдор ^[46] , целью которой является обучение определенному поведению для входных данных с заданным триггером, например, небольшим дефектом на изображениях, звуках, видео или текстах.

Например, системы обнаружения вторжений часто обучаются с использованием собранных данных. Злоумышленник может отравить эти данные, внедрив вредоносные образцы во время работы, которые впоследствии нарушат переобучение. ^[41]^[42]^[39]^[47]^[48]

Методы отравления данных также могут применяться к моделям преобразования текста в изображение для изменения их выходных данных. ^[49]

Отравление данных может также произойти непреднамеренно из-за коллапса модели , когда модели обучаются на синтетических данных. ^[50]

Византийские атаки

Поскольку машинное обучение масштабируется, оно часто полагается на несколько вычислительных машин. Например, в федеративном обучении периферийные устройства взаимодействуют с центральным сервером, как правило, отправляя градиенты или параметры модели. Однако некоторые из этих устройств могут отклоняться от ожидаемого поведения, например, наносить вред модели центрального сервера ^[51] или смещать алгоритмы в сторону определенного поведения (например, усиливая рекомендацию дезинформационного контента). С другой стороны, если обучение выполняется на одной машине, то модель очень уязвима для сбоя машины или атаки на машину; машина является единой точкой отказа . ^[52] Фактически, владелец машины может сам вставлять доказуемо необнаруживаемые бэкдоры . ^[53]

Текущие ведущие решения, позволяющие сделать (распределенные) алгоритмы обучения доказуемо устойчивыми к меньшинству злонамеренных (т. е. византийских ) участников, основаны на надежных правилах агрегации градиента. ^[54]^[55]^[56]^[57]^[58]^[59] Надежные правила агрегации не всегда работают, особенно когда данные по участникам имеют не-iid распределение. Тем не менее, в контексте гетерогенных честных участников, таких как пользователи с разными привычками потребления для алгоритмов рекомендаций или стилями написания для языковых моделей, существуют доказуемые теоремы невозможности относительно того, что может гарантировать любой надежный алгоритм обучения. ^[5]^[60]

Уклонение

Атаки уклонения ^[9]^[41]^[42]^[61] состоят в использовании несовершенства обученной модели. Например, спамеры и хакеры часто пытаются избежать обнаружения, запутывая содержимое спам-писем и вредоносного ПО . Образцы модифицируются, чтобы избежать обнаружения; то есть, чтобы быть классифицированными как законные. Это не подразумевает влияния на данные обучения. Ярким примером уклонения является спам на основе изображений , в котором содержимое спама встроено во вложенное изображение, чтобы избежать текстового анализа антиспамовыми фильтрами. Другим примером уклонения являются атаки с подменой против систем биометрической верификации. ^[23]

Атаки уклонения можно разделить на две категории: атаки черного ящика и атаки белого ящика . ^[17]

Извлечение модели

Извлечение модели включает в себя зондирование злоумышленником системы машинного обучения «черный ящик» с целью извлечения данных, на которых она была обучена. ^[62]^[63] Это может вызвать проблемы, когда либо данные обучения, либо сама модель являются конфиденциальными. Например, извлечение модели может быть использовано для извлечения фирменной модели торговли акциями, которую злоумышленник затем может использовать для собственной финансовой выгоды.

В крайнем случае извлечение модели может привести к ее краже , что соответствует извлечению достаточного количества данных из модели для обеспечения возможности ее полной реконструкции.

С другой стороны, вывод членства — это целевая атака извлечения модели, которая выводит владельца точки данных, часто используя переобучение, возникающее в результате плохой практики машинного обучения. ^[64] Что касается этого, иногда это достижимо даже без знания или доступа к параметрам целевой модели, что вызывает опасения по поводу безопасности для моделей, обученных на конфиденциальных данных, включая, помимо прочего, медицинские записи и/или личную идентификационную информацию. С появлением трансферного обучения и общедоступности многих современных моделей машинного обучения технологические компании все чаще тянутся к созданию моделей на основе общедоступных, предоставляя злоумышленникам свободно доступную информацию о структуре и типе используемой модели. ^[64]

Категории

Состязательное глубокое обучение с подкреплением

Состязательное глубокое обучение с подкреплением является активной областью исследований в области обучения с подкреплением, фокусирующейся на уязвимостях изученных политик. В этой области исследований некоторые исследования изначально показали, что политики обучения с подкреплением подвержены незаметным состязательным манипуляциям. ^[65]^[66] Хотя были предложены некоторые методы для преодоления этих уязвимостей, в самых последних исследованиях было показано, что эти предлагаемые решения далеки от предоставления точного представления текущих уязвимостей политик глубокого обучения с подкреплением. ^[67]

Обработка состязательного естественного языка

Состязательные атаки на распознавание речи были введены для приложений преобразования речи в текст, в частности для реализации DeepSpeech от Mozilla. ^[68]

Атаки противников и обучение в линейных моделях

Растет количество литературы о состязательных атаках в линейных моделях. Действительно, с момента основополагающей работы Гудфеллоу и др. ^[69] изучение этих моделей в линейных моделях стало важным инструментом для понимания того, как состязательные атаки влияют на модели машинного обучения. Анализ этих моделей упрощается, поскольку вычисление состязательных атак может быть упрощено в задачах линейной регрессии и классификации. Более того, состязательное обучение в этом случае является выпуклым. ^[70]

Линейные модели позволяют проводить аналитический анализ, при этом воспроизводя явления, наблюдаемые в современных моделях. Одним из ярких примеров этого является то, как эта модель может быть использована для объяснения компромисса между надежностью и точностью. ^[71] Разнообразные работы действительно предоставляют анализ состязательных атак в линейных моделях, включая асимптотический анализ для классификации ^[72] и для линейной регрессии. ^[73]^[74] И анализ конечной выборки, основанный на сложности Радемахера. ^[75]

Конкретные типы атак

Существует большое разнообразие различных состязательных атак, которые могут быть использованы против систем машинного обучения. Многие из них работают как с системами глубокого обучения , так и с традиционными моделями машинного обучения, такими как SVM ^[8] и линейная регрессия . ^[76] Примеры этих типов атак высокого уровня включают:

Примеры состязательности ^[77]
Троянские атаки / атаки через бэкдор ^[78]
Инверсия модели ^[79]
Вывод о членстве ^[80]

Примеры состязательности

Пример состязательного типа относится к специально созданному вводу, который выглядит «нормальным» для людей, но вызывает неправильную классификацию для модели машинного обучения. Часто для выявления неправильных классификаций используется форма специально созданного «шума». Ниже приведены некоторые современные методы создания примеров состязательного типа в литературе (ни в коем случае не исчерпывающий список).

Атака уклонения на основе градиента ^[9]
Метод быстрого градиентного знака (FGSM) ^[81]
Проектируемый градиентный спуск (ПГС) ^[82]
Карлини и Вагнер (C&W) атакуют ^[83]
Атака с использованием состязательного патча ^[84]

Атаки с использованием черного ящика

Атаки черного ящика в состязательном машинном обучении предполагают, что противник может получить только выходные данные для предоставленных входных данных и не имеет никаких знаний о структуре или параметрах модели. ^[17]^[85] В этом случае состязательный пример генерируется либо с использованием модели, созданной с нуля, либо вообще без какой-либо модели (исключая возможность запроса исходной модели). В любом случае целью этих атак является создание состязательных примеров, которые могут быть переданы в рассматриваемую модель черного ящика. ^[86]

Простые состязательные атаки с использованием черного ящика

Простые состязательные атаки черного ящика — это эффективный способ атаковать классификаторы изображений черного ящика. ^[87]

Возьмем случайный ортонормированный базис в . Авторы предложили дискретное косинусное преобразование стандартного базиса (пикселей). $v_{1},v_{2},\dots ,v_{d}$ $\mathbb {R} ^{d}$
Для правильной классификации изображения попробуйте и сравните количество ошибок в классификаторе на . Выберите тот, который вызывает наибольшее количество ошибок. $x$ $x+\epsilon v_{1},x-\epsilon v_{1}$ $x+\epsilon v_{1},x,x-\epsilon v_{1}$
Повторяйте это до тех пор, пока не будет достигнут желаемый уровень погрешности классификатора. $v_{2},v_{3},\dots$

Это было обнаружено, когда авторы разработали простую базовую линию для сравнения с предыдущим алгоритмом состязательной атаки «черный ящик», основанным на гауссовых процессах , и были удивлены, что базовая линия работала даже лучше. ^[88]

Квадратная атака

Square Attack был представлен в 2020 году как состязательная атака уклонения от черного ящика, основанная на запросе оценок классификации без необходимости в информации о градиенте. ^[89] Как атака черного ящика на основе оценок, этот состязательный подход способен запрашивать распределения вероятностей по классам выходных данных модели, но не имеет другого доступа к самой модели. По словам авторов статьи, предлагаемая Square Attack требовала меньше запросов, чем по сравнению с современными атаками черного ящика на основе оценок того времени. ^[89]

Чтобы описать цель функции, атака определяет классификатор как , с представлением измерений входных данных и как общее количество выходных классов. возвращает оценку (или вероятность между 0 и 1) того, что входные данные принадлежат классу , что позволяет определить выходной класс классификатора для любых входных данных как . Цель этой атаки заключается в следующем: ^[89] ${\textstyle f:[0,1]^{d}\rightarrow \mathbb {R} ^{K}}$ ${\textstyle d}$ ${\textstyle K}$ ${\textstyle f_{k}(x)}$ ${\textstyle x}$ ${\textstyle k}$ ${\textstyle x}$ ${\textstyle {\text{argmax}}_{k=1,...,K}f_{k}(x)}$

${\text{argmax}}_{k=1,...,K}f_{k}({\hat {x}})\neq y,||{\hat {x}}-x||_{p}\leq \epsilon {\text{ and }}{\hat {x}}\in [0,1]^{d}$

Другими словами, нахождение некоторого возмущенного состязательного примера, такого, что классификатор неправильно классифицирует его в какой-то другой класс при ограничении, что и подобны. Затем статья определяет потерю как и предлагает решение для нахождения состязательного примера как решение следующей ограниченной задачи оптимизации : ^[89] ${\textstyle {\hat {x}}}$ ${\textstyle {\hat {x}}}$ ${\textstyle x}$ ${\textstyle L}$ ${\textstyle L(f({\hat {x}}),y)=f_{y}({\hat {x}})-\max _{k\neq y}f_{k}({\hat {x}})}$ ${\textstyle {\hat {x}}}$

$\min _{{\hat {x}}\in [0,1]^{d}}L(f({\hat {x}}),y),{\text{ s.t. }}||{\hat {x}}-x||_{p}\leq \epsilon$

Результатом в теории является состязательный пример, который очень уверен в неправильном классе, но также очень похож на исходное изображение. Чтобы найти такой пример, Square Attack использует итерационный метод случайного поиска , чтобы случайным образом возмущение изображения в надежде улучшить целевую функцию. На каждом шаге алгоритм возмущение только небольшой квадратной секции пикселей, отсюда и название Square Attack, которая завершается, как только состязательный пример найден, чтобы повысить эффективность запроса. Наконец, поскольку алгоритм атаки использует оценки, а не градиентную информацию, авторы статьи указывают, что этот подход не подвержен градиентному маскированию, распространенному методу, ранее использовавшемуся для предотвращения атак уклонения. ^[89]

Атака HopSkipJump

Эта атака черного ящика также была предложена как эффективная атака запроса, но та, которая полагается исключительно на доступ к прогнозируемому выходному классу любого входа. Другими словами, атака HopSkipJump не требует возможности вычисления градиентов или доступа к значениям оценок, как атака Square, и потребует только выходной прогноз класса модели (для любого заданного входа). Предлагаемая атака разделена на две разные настройки, целевую и нецелевую, но обе построены на общей идее добавления минимальных возмущений, которые приводят к различному выходному значению модели. В целевой настройке цель состоит в том, чтобы заставить модель неправильно классифицировать возмущенное изображение на определенную целевую метку (которая не является исходной меткой). В нецелевой настройке цель состоит в том, чтобы заставить модель неправильно классифицировать возмущенное изображение на любую метку, которая не является исходной меткой. Цели атаки для обеих следующие, где — исходное изображение, — состязательное изображение, — функция расстояния между изображениями, — целевая метка, — функция метки класса классификации модели: ^[90] ${\textstyle x}$ ${\textstyle x^{\prime }}$ ${\textstyle d}$ ${\textstyle c^{*}}$ ${\textstyle C}$

${\textbf {Targeted:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ subject to }}C(x^{\prime })=c^{*}$

${\textbf {Untargeted:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ subject to }}C(x^{\prime })\neq C(x)$

Для решения этой проблемы атака предлагает следующую граничную функцию как для нецелевой, так и для целевой настройки: ^[90] ${\textstyle S}$

$S(x^{\prime }):={\begin{cases}\max _{c\neq C(x)}{F(x^{\prime })_{c}}-F(x^{\prime })_{C(x)},&{\text{(Untargeted)}}\\F(x^{\prime })_{c^{*}}-\max _{c\neq c^{*}}{F(x^{\prime })_{c}},&{\text{(Targeted)}}\end{cases}}$

Это можно еще больше упростить, чтобы лучше визуализировать границу между различными потенциально враждебными примерами: ^[90]

$S(x^{\prime })>0\iff {\begin{cases}argmax_{c}F(x^{\prime })\neq C(x),&{\text{(Untargeted)}}\\argmax_{c}F(x^{\prime })=c^{*},&{\text{(Targeted)}}\end{cases}}$

Используя эту граничную функцию, атака затем следует итеративному алгоритму для поиска состязательных примеров для заданного изображения , которое удовлетворяет целям атаки. ${\textstyle x^{\prime }}$ ${\textstyle x}$

Инициализируйте до некоторой точки, где ${\textstyle x}$ ${\textstyle S(x)>0}$
Повторить ниже
1. Поиск границ
2. Обновление градиента
  - Вычислить градиент
  - Найдите размер шага

Граничный поиск использует модифицированный бинарный поиск для нахождения точки, в которой граница (как определено ) пересекается с линией между и . Следующий шаг включает вычисление градиента для и обновление оригинала с использованием этого градиента и предварительно выбранного размера шага. Авторы HopSkipJump доказывают, что этот итеративный алгоритм будет сходиться, приводя к точке прямо вдоль границы, которая очень близка по расстоянию к исходному изображению. ^[90] ${\textstyle S}$ ${\textstyle x}$ ${\textstyle x^{\prime }}$ ${\textstyle x}$ ${\textstyle x}$ ${\textstyle x}$

Однако, поскольку HopSkipJump — это предлагаемая атака черного ящика, а итеративный алгоритм, описанный выше, требует вычисления градиента на втором итеративном шаге (к которому атаки черного ящика не имеют доступа), авторы предлагают решение для вычисления градиента, которое требует только выходных предсказаний модели. ^[90] Генерируя множество случайных векторов во всех направлениях, обозначенных как , можно вычислить приближение градиента, используя среднее значение этих случайных векторов, взвешенных по знаку граничной функции на изображении , где — размер возмущения случайного вектора: ^[90] ${\textstyle u_{b}}$ ${\textstyle x^{\prime }+\delta _{u_{b}}}$ ${\textstyle \delta _{u_{b}}}$

$\nabla S(x^{\prime },\delta )\approx {\frac {1}{B}}\sum _{b=1}^{B}\phi (x^{\prime }+\delta _{u_{b}})u_{b}$

Результат уравнения выше дает близкое приближение градиента, требуемого на шаге 2 итеративного алгоритма, завершая HopSkipJump как атаку черного ящика. ^[91]^[92]^[90]

Атаки «белого ящика»

Атаки «белого ящика» предполагают, что у злоумышленника есть доступ к параметрам модели, помимо возможности получать метки для предоставленных входных данных. ^[86]

Метод быстрого градиентного знака

Одна из первых предложенных атак для генерации состязательных примеров была предложена исследователями Google Яном Дж. Гудфеллоу , Джонатаном Шленсом и Кристианом Сегеди. ^[93] Атака была названа методом быстрого градиентного знака (FGSM), и она заключается в добавлении линейного количества невоспринимаемого шума к изображению и в том, что модель неправильно его классифицирует. Этот шум вычисляется путем умножения знака градиента относительно изображения, которое мы хотим возмутить, на небольшую константу эпсилон. По мере увеличения эпсилон модель с большей вероятностью будет обманута, но возмущения также становятся легче идентифицировать. Ниже показано уравнение для генерации состязательного примера, где — исходное изображение, — очень малое число, — функция градиента, — функция потерь, — веса модели, а — истинная метка. ^[94] ${\textstyle x}$ ${\textstyle \epsilon }$ ${\textstyle \Delta _{x}}$ ${\textstyle J}$ ${\textstyle \theta }$ ${\textstyle y}$

$adv_{x}=x+\epsilon \cdot sign(\Delta _{x}J(\theta ,x,y))$

Одним из важных свойств этого уравнения является то, что градиент вычисляется относительно входного изображения, поскольку целью является создание изображения, которое максимизирует потери для исходного изображения истинной метки . В традиционном градиентном спуске (для обучения модели) градиент используется для обновления весов модели, поскольку целью является минимизация потерь для модели на истинном наборе данных. Метод быстрого градиентного знака был предложен как быстрый способ создания состязательных примеров для обхода модели, основанный на гипотезе о том, что нейронные сети не могут противостоять даже линейным количествам возмущений на входе. ^[95]^[94]^[93] FGSM показал свою эффективность в состязательных атаках для классификации изображений и распознавания скелетных действий. ^[96] ${\textstyle y}$

Карлини и Вагнер (C&W)

В попытке проанализировать существующие состязательные атаки и защиты исследователи из Калифорнийского университета в Беркли Николас Карлини и Дэвид Вагнер в 2016 году предложили более быстрый и надежный метод генерации состязательных примеров. ^[97]

Атака, предложенная Карлини и Вагнером, начинается с попытки решить сложное нелинейное уравнение оптимизации: ^[63]

$\min(||\delta ||_{p}){\text{ subject to }}C(x+\delta )=t,x+\delta \in [0,1]^{n}$

Здесь цель состоит в том, чтобы минимизировать шум ( ), добавленный к исходному входу , так что алгоритм машинного обучения ( ) предсказывает исходный вход с дельтой (или ) как некоторый другой класс . Однако вместо непосредственно приведенного выше уравнения Карлини и Вагнер предлагают использовать новую функцию, такую что: ^[63] ${\textstyle \delta }$ ${\textstyle x}$ ${\textstyle C}$ ${\textstyle x+\delta }$ ${\textstyle t}$ ${\textstyle f}$

$C(x+\delta )=t\iff f(x+\delta )\leq 0$

Это сводит первое уравнение к следующей задаче: ^[63]

$\min(||\delta ||_{p}){\text{ subject to }}f(x+\delta )\leq 0,x+\delta \in [0,1]^{n}$

и даже больше к уравнению ниже: ^[63]

$\min(||\delta ||_{p}+c\cdot f(x+\delta )),x+\delta \in [0,1]^{n}$

Затем Карлини и Вагнер предлагают использовать следующую функцию вместо использования , функции, которая определяет вероятности классов для заданных входных данных . При подстановке в это уравнение можно рассматривать как поиск целевого класса, который более уверен, чем следующий наиболее вероятный класс, на некоторую постоянную величину: ^[63] ${\textstyle f}$ ${\textstyle Z}$ ${\textstyle x}$

$f(x)=([\max _{i\neq t}Z(x)_{i}]-Z(x)_{t})^{+}$

При решении с использованием градиентного спуска это уравнение способно создавать более сильные состязательные примеры по сравнению с быстрым методом знаков градиента, который также способен обойти защитную дистилляцию — защиту, которая когда-то была предложена как эффективная против состязательных примеров. ^[98]^[99]^[97]^[63]

Обороны

Исследователи предложили многоэтапный подход к защите машинного обучения. ^[11]

Моделирование угроз. Формализуйте цели и возможности злоумышленников по отношению к целевой системе.
Моделирование атаки — формализуйте задачу оптимизации, которую злоумышленник пытается решить в соответствии с возможными стратегиями атаки.
Оценка воздействия атаки
Проектирование контрмер
Обнаружение шума (для атаки, основанной на уклонении) ^[100]
Отмывание информации – изменение информации, полученной злоумышленниками (для атак по краже моделей) ^[63]

Механизмы

Было предложено несколько механизмов защиты от уклонения, отравления и атак на конфиденциальность, в том числе:

Безопасные алгоритмы обучения ^[20]^[101]^[102]
Византийско-устойчивые алгоритмы ^[54]^[5]
Множественные системы классификаторов ^[19]^[103]
Алгоритмы, написанные с помощью искусственного интеллекта. ^[33]
Искусственный интеллект, который исследует среду обучения; например, при распознавании изображений активно перемещается по трехмерной среде, а не пассивно сканирует фиксированный набор двухмерных изображений. ^[33]
Обучение с сохранением конфиденциальности ^[42]^[104]
Алгоритм лестницы для соревнований в стиле Kaggle
Теоретико-игровые модели ^[105]^[106]^[107]
Очистка данных обучения
Противоборствующая подготовка ^[81]^[22]
Алгоритмы обнаружения бэкдора ^[108]
Методы маскировки/обфускации градиента: для предотвращения использования противником градиента в атаках «белого ящика». Это семейство защит считается ненадежным, поскольку эти модели все еще уязвимы для атак «черного ящика» или могут быть обойти другими способами. ^[109]
В литературе были предложены ансамбли моделей, но следует проявлять осторожность, полагаясь на них: обычно ансамблирование слабых классификаторов приводит к более точной модели, но, по-видимому, это не применимо в состязательном контексте. ^[110]

Смотрите также

Ссылки

^ Кианпур, Мазахер; Вэнь, Шао-Фан (2020). «Атаки с использованием времени на машинное обучение: современное состояние». Интеллектуальные системы и приложения . Достижения в области интеллектуальных систем и вычислений. Том 1037. С. 111–125. doi :10.1007/978-3-030-29516-5_10. ISBN 978-3-030-29515-8. S2CID 201705926.
^ ab Siva Kumar, Ram Shankar; Nyström, Magnus; Lambert, John; Marshall, Andrew; Goertzel, Mario; Comissoneru, Andi; Swann, Matt; Xia, Sharon (май 2020 г.). «Adversarial Machine Learning-Industry Perspectives». Семинары IEEE по безопасности и конфиденциальности (SPW) 2020 г. стр. 69–75. doi :10.1109/SPW50608.2020.00028. ISBN 978-1-7281-9346-5. S2CID 229357721.
^ Гудфеллоу, Иэн; Макдэниел, Патрик; Папернот, Николас (25 июня 2018 г.). «Делаем машинное обучение устойчивым к состязательным входам». Сообщения ACM . 61 (7): 56–66. doi : 10.1145/3134599 . ISSN 0001-0782.^{[ постоянная мертвая ссылка ]}
^ Гейпинг, Йонас; Фаул, Лиам Х.; Хуан, В. Ронни; Чая, Войцех; Тейлор, Гэвин; Мёллер, Майкл; Голдштейн, Том (28.09.2020). Ведьмино зелье: отравление данных в промышленных масштабах с помощью градиентного сопоставления. Международная конференция по представлениям обучения 2021 г. (постер).
^ abc El-Mhamdi, El Mahdi; Farhadkhani, Sadegh; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien (2021-12-06). "Совместное обучение в джунглях (децентрализованное, византийское, гетерогенное, асинхронное и невыпуклое обучение)". Достижения в области нейронных систем обработки информации . 34. arXiv : 2008.00742 .
^ Трамер, Флориан; Чжан, Фань; Жюльс, Ари; Рейтер, Майкл К.; Ристенпарт, Томас (2016). Кража моделей машинного обучения с помощью прогнозирования {API}. 25-й симпозиум по безопасности USENIX. С. 601–618. ISBN 978-1-931971-32-4.
^ "Как победить адаптивный/байесовский спам-фильтр (2004)" . Получено 2023-07-05 .
^ ab Biggio, Battista; Nelson, Blaine; Laskov, Pavel (2013-03-25). «Отравляющие атаки против опорных векторных машин». arXiv : 1206.6389 [cs.LG].
^ abc Biggio, Battista; Corona, Igino; Maiorca, Davide; Nelson, Blaine; Srndic, Nedim; Laskov, Pavel; Giacinto, Giorgio; Roli, Fabio (2013). "Атаки с обходом правил против машинного обучения во время тестирования". Advanced Information Systems Engineering . Lecture Notes in Computer Science. Vol. 7908. Springer. pp. 387–402. arXiv : 1708.06131 . doi :10.1007/978-3-642-40994-3_25. ISBN 978-3-642-38708-1. S2CID 18716873.
^ Сегеди, Кристиан; Заремба, Войцех; Суцкевер, Илья; Бруна, Джоан; Эрхан, Дмитрий; Гудфеллоу, Ян; Фергус, Роб (19 февраля 2014 г.). «Интригующие свойства нейронных сетей». arXiv : 1312.6199 [cs.CV].
^ ab Biggio, Battista; Roli, Fabio (декабрь 2018 г.). «Дикие узоры: десять лет после подъема состязательного машинного обучения». Pattern Recognition . 84 : 317–331. arXiv : 1712.03141 . Bibcode : 2018PatRe..84..317B. doi : 10.1016/j.patcog.2018.07.023. S2CID 207324435.
^ Куракин, Алексей; Гудфеллоу, Ян; Бенджио, Сами (2016). «Примеры противоборства в физическом мире». arXiv : 1607.02533 [cs.CV].
^ Гупта, Кишор Датта, Дипанкар Дасгупта и Захид Ахтар. «Проблемы применимости состязательных атак на основе уклонения и методов смягчения последствий». Серия симпозиумов IEEE 2020 года по вычислительному интеллекту (SSCI). 2020.
^ ab Lim, Hazel Si Min; Taeihagh, Araz (2019). «Алгоритмическое принятие решений в беспилотных автомобилях: понимание этических и технических проблем для умных городов». Устойчивость . 11 (20): 5791. arXiv : 1910.13122 . Bibcode : 2019arXiv191013122L. doi : 10.3390/su11205791 . S2CID 204951009.
^ ab "Николас Фросст из Google Brain о состязательных примерах и эмоциональных реакциях". Синхронизировано . 2019-11-21 . Получено 2021-10-23 .
^ "Ответственные практики ИИ". Google AI . Получено 2021-10-23 .
^ abc Adversarial Robustness Toolbox (ART) v1.8, Trusted-AI, 2021-10-23 , получено 2021-10-23
^ amarshal. "Режимы отказов в машинном обучении - Документация по безопасности". docs.microsoft.com . Получено 23.10.2021 .
^ ab Biggio, Battista; Fumera, Giorgio; Roli, Fabio (2010). «Multiple classifier systems for robust classifier design in adversarial environments». International Journal of Machine Learning and Cybernetics . 1 (1–4): 27–41. doi :10.1007/s13042-010-0007-7. hdl :11567/1087824. ISSN 1868-8071. S2CID 8729381. Архивировано из оригинала 2023-01-19 . Получено 2015-01-14 .
^ ab Брюкнер, Михаэль; Канцов, Кристиан; Шеффер, Тобиас (2012). «Статические игры предсказания для задач состязательного обучения» (PDF) . Журнал исследований машинного обучения . 13 (сентябрь): 2617–2654. ISSN 1533-7928.
^ Апруццезе, Джованни; Андреолини, Мауро; Ферретти, Лука; Маркетти, Мирко; Коладжанни, Микеле (2021-06-03). «Моделирование реалистичных состязательных атак против систем обнаружения сетевых вторжений». Цифровые угрозы: исследования и практика . 3 (3): 1–19. arXiv : 2106.09380 . doi : 10.1145/3469659. ISSN 2692-1626. S2CID 235458519.
^ аб Виторино, Жуан; Оливейра, Нуно; Праса, Изабель (март 2022 г.). «Адаптивные шаблоны возмущений: реалистичное состязательное обучение для надежного обнаружения вторжений». Будущий Интернет . 14 (4): 108. дои : 10.3390/fi14040108 . hdl : 10400.22/21851 . ISSN 1999-5903.
^ ab Rodrigues, Ricardo N.; Ling, Lee Luan; Govindaraju, Venu (1 июня 2009 г.). «Надежность методов мультимодального биометрического слияния против атак с подменой» (PDF) . Journal of Visual Languages & Computing . 20 (3): 169–179. doi :10.1016/j.jvlc.2009.01.010. ISSN 1045-926X.
^ Су, Цзявей; Варгас, Данило Васконселлос; Сакурай, Коичи (октябрь 2019 г.). «Атака одним пикселем для обмана глубоких нейронных сетей». Труды IEEE по эволюционным вычислениям . 23 (5): 828–841. arXiv : 1710.08864 . doi : 10.1109/TEVC.2019.2890858. ISSN 1941-0026. S2CID 2698863.
^ "Изменение одного пикселя обманывает программы ИИ". BBC News . 3 ноября 2017 г. Получено 12 февраля 2018 г.
^ Атали, Аниш; Энгстром, Логан; Ильяс, Эндрю; Квок, Кевин (2017). «Синтез надежных состязательных примеров». arXiv : 1707.07397 [cs.CV].
^ «У ИИ проблема с галлюцинациями, которую трудно исправить». WIRED . 2018 . Получено 10 марта 2018 .
^ Чжоу, Чжэнлун; Файрстоун, Чаз (2019). «Люди могут расшифровывать враждебные изображения». Nature Communications . 10 (1): 1334. arXiv : 1809.04120 . Bibcode : 2019NatCo..10.1334Z. doi : 10.1038/s41467-019-08931-6 . PMC 6430776. PMID 30902973 .
^ Акерман, Эван (2017-08-04). «Незначительные изменения уличных знаков могут полностью обмануть алгоритмы машинного обучения». IEEE Spectrum: Новости технологий, инженерии и науки . Получено 2019-07-15 .
^ «Крошечный кусочек ленты обманом разогнал Tesla до 50 миль в час». Wired . 2020 . Получено 11 марта 2020 .
^ "Model Hacking ADAS to Pave Safer Roads for Autonomous Vehicles". Блоги McAfee . 2020-02-19 . Получено 2020-03-11 .
^ Сибрук, Джон (2020). «Одеваемся в эпоху наблюдения». The New Yorker . Получено 5 апреля 2020 г.
^ abc Heaven, Дуглас (октябрь 2019 г.). «Почему ИИ глубокого обучения так легко обмануть». Nature . 574 (7777): 163–166. Bibcode :2019Natur.574..163H. doi :10.1038/d41586-019-03013-5. PMID 31597977. S2CID 203928744.
^ Хатсон, Мэтью (10 мая 2019 г.). «ИИ теперь может защищать себя от вредоносных сообщений, скрытых в речи». Nature . doi :10.1038/d41586-019-01510-1. PMID 32385365. S2CID 189666088.
^ Лепори, Майкл А.; Файрстоун, Чаз (27.03.2020). «Вы меня слышите? Чувствительные сравнения человеческого и машинного восприятия». arXiv : 2003.12362 [eess.AS].
^ Вадилло, Джон; Сантана, Роберто (2020-01-23). «О человеческой оценке аудиопротиворечивых примеров». arXiv : 2001.08444 [eess.AS].
^ DB Skillicorn. «Состязательное обнаружение знаний». IEEE Intelligent Systems, 24:54–61, 2009.
^ ab B. Biggio, G. Fumera и F. Roli. «Системы распознавания образов под атакой: проблемы проектирования и исследовательские задачи. Архивировано 20 мая 2022 г. в Wayback Machine ». Int'l J. Patt. Recogn. Artif. Intell., 28(7):1460002, 2014.
^ ab Баррено, Марко; Нельсон, Блейн; Джозеф, Энтони Д.; Тайгар, Дж. Д. (2010). «Безопасность машинного обучения» (PDF) . Машинное обучение . 81 (2): 121–148. doi : 10.1007/s10994-010-5188-5 . S2CID 2304759.
^ Sikos, Leslie F. (2019). ИИ в кибербезопасности . Справочная библиотека интеллектуальных систем. Том 151. Cham: Springer. стр. 50. doi : 10.1007/978-3-319-98842-9. ISBN 978-3-319-98841-2. S2CID 259216663.
^ abc B. Biggio, G. Fumera и F. Roli. «Оценка безопасности классификаторов шаблонов под атакой». Архивировано 18 мая 2018 г. в Wayback Machine . IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014.
^ abcde Biggio, Battista; Corona, Igino; Nelson, Blaine; Rubinstein, Benjamin IP; Maiorca, Davide; Fumera, Giorgio; Giacinto, Giorgio; Roli, Fabio (2014). "Оценка безопасности опорных векторных машин в состязательных средах". Приложения опорных векторных машин . Springer International Publishing. стр. 105–153. arXiv : 1401.7727 . doi :10.1007/978-3-319-02300-7_4. ISBN 978-3-319-02300-7. S2CID 18666561.
^ Генрих, Кай; Граф, Йоханнес; Чен, Цзи; Лауриш, Якоб; Цшех, Патрик (15.06.2020). «Обмани меня один раз, позор тебе, обмани меня дважды, позор мне: таксономия моделей атак и защиты для безопасности ИИ». Научные доклады ECIS 2020 .
^ «Facebook удаляет 15 миллиардов фейковых аккаунтов за два года». Tech Digest . 2021-09-27 . Получено 2022-06-08 .
^ «Facebook удалил 3 миллиарда фейковых аккаунтов всего за 6 месяцев». New York Post . Associated Press. 2019-05-23 . Получено 2022-06-08 .
^ Шварцшильд, Ави; Голдблюм, Мика; Гупта, Арджун; Дикерсон, Джон П.; Голдштейн, Том (2021-07-01). «Насколько токсично отравление данных? Унифицированный бенчмарк для атак с использованием бэкдоров и отравления данных». Международная конференция по машинному обучению . PMLR: 9389–9398.
^ B. Biggio, B. Nelson и P. Laskov. "Support vector machines under adversarial label noise Архивировано 2020-08-03 в Wayback Machine ". В Journal of Machine Learning Research – Proc. 3rd Asian Conf. Machine Learning, том 20, стр. 97–112, 2011.
^ М. Клофт и П. Ласков. «Анализ безопасности обнаружения аномалий онлайн-центроида». Журнал исследований машинного обучения, 13:3647–3690, 2012.
^ Эдвардс, Бендж (25.10.2023). «Исследователи Чикагского университета стремятся «отравить» генераторы искусств с помощью Nightshade». Ars Technica . Получено 27.10.2023 .
^ Рао, Рахул. «Данные, генерируемые ИИ, могут отравить будущие модели ИИ». Scientific American . Получено 22 июня 2024 г.
^ Барух, Гилад; Барух, Моран; Голдберг, Йоав (2019). «Достаточно немногого: обход защиты для распределенного обучения». Достижения в области нейронных систем обработки информации . 32. Curran Associates, Inc. arXiv : 1902.06156 .
^ Эль-Мхамди, Эль-Махди; Геррауи, Рашид; Гирги, Арсани; Хоанг, Ле-Нгуен; Руо, Себастьян (26 мая 2022 г.). «Истинно распределенное византийское машинное обучение». Распределенные вычисления . 35 (4): 305–331. arXiv : 1905.03853 . дои : 10.1007/s00446-022-00427-9 . ISSN 1432-0452. S2CID 249111966.
^ Голдвассер, С.; Ким, Майкл П.; Вайкунтанатан, В.; Замир, Ор (2022). «Внедрение необнаруживаемых бэкдоров в модели машинного обучения». arXiv : 2204.06974 [cs.LG].
^ ab Blanchard, Peva; El Mhamdi, El Mahdi; Guerraoui, Rachid; Stainer, Julien (2017). «Машинное обучение с противниками: византийский толерантный градиентный спуск». Достижения в области нейронных систем обработки информации . 30. Curran Associates, Inc.
^ Чэнь, Линцзяо; Ван, Хонги; Чарльз, Захари; Папаилиопулос, Димитрис (2018-07-03). «DRACO: византийско-устойчивое распределенное обучение с помощью избыточных градиентов». Международная конференция по машинному обучению . PMLR: 903–912. arXiv : 1803.09877 .
^ Мхамди, Эль Махди Эль; Геррауи, Рашид; Руо, Себастьен (2018-07-03). «Скрытая уязвимость распределенного обучения в Византии». Международная конференция по машинному обучению . PMLR: 3521–3530. arXiv : 1802.07927 .
^ Аллен-Чжу, Цзэюань; Эбрахимиангазани, Фаезе; Ли, Джерри; Алистарх, Дэн (28.09.2020). «Византийско-устойчивый невыпуклый стохастический градиентный спуск». arXiv : 2012.14368 [cs.LG].Обзор
^ Мхамди, Эль-Махди Эль; Геррауи, Рашид; Руо, Себастьен (28.09.2020). Распределенный импульс для византийско-устойчивого стохастического градиентного спуска. 9-я Международная конференция по представлениям обучения (ICLR), 4–8 мая 2021 г. (виртуальная конференция) . Получено 20.10.2022 .Обзор
^ Данные, Дипеш; Диггави, Сухас (2021-07-01). «Византийско-устойчивый высокоразмерный SGD с локальными итерациями на гетерогенных данных». Международная конференция по машинному обучению . PMLR: 2478–2488.
^ Каримиредди, Сай Пранит; Хе, Ли; Джагги, Мартин (29.09.2021). «Византийско-устойчивое обучение на гетерогенных наборах данных с помощью сегментирования». arXiv : 2006.09365 [cs.LG].Обзор
^ B. Nelson, BI Rubinstein, L. Huang, AD Joseph, SJ Lee, S. Rao и JD Tygar. «Стратегии запросов для избегания выпукло-индуцирующих классификаторов». J. Mach. Learn. Res., 13:1293–1332, 2012
^ «Как украсть современные системы НЛП с помощью тарабарщины?». cleverhans-blog . 2020-04-06 . Получено 2020-10-15 .
^ abcdefgh Ван, Синьрань; Сян, Юй; Гао, Цзюнь; Дин, Цзе (13.09.2020). «Отмывание информации для обеспечения конфиденциальности моделей». arXiv : 2009.06112 [cs.CR].
^ ab Dickson, Ben (2021-04-23). «Машинное обучение: что такое атаки вывода членства?». TechTalks . Получено 2021-11-07 .
^ Гудфеллоу, Ян; Шленс, Джонатан; Сзегеди, Кристиан (2015). «Объяснение и использование состязательных примеров». Международная конференция по представлениям обучения . arXiv : 1412.6572 .
^ Питер, Хуан; Папернот, Сэнди; Гудфеллоу, Николас; Дуань, Ян; Аббель, Ян (2017-02-07). Состязательные атаки на политики нейронных сетей . OCLC 1106256905.
^ Коркмаз, Эзги (2022). «Политики глубокого обучения с подкреплением изучают общие состязательные признаки в MDP». Тридцать шестая конференция AAAI по искусственному интеллекту (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . doi : 10.1609/aaai.v36i7.20684. S2CID 245219157.
^ Карлини, Николас; Вагнер, Дэвид (2018). «Примеры состязательности аудио: целевые атаки на преобразование речи в текст». Семинары IEEE по безопасности и конфиденциальности (SPW) 2018 г. . стр. 1–7. arXiv : 1801.01944 . doi :10.1109/SPW.2018.00009. ISBN 978-1-5386-8276-0. S2CID 4475201.
^ Гудфеллоу, Ян Дж.; Шленс, Джонатан; Сзегеди, Кристиан (2015). Объяснение и использование состязательных примеров . Международная конференция по представлениям обучения (ICLR).
^ Рибейро, Антонио Х.; Захария, Дэйв; Бах, Фрэнсис; Шён, Томас Б. (2023). Свойства регуляризации состязательно обученной линейной регрессии. Тридцать седьмая конференция по нейронным системам обработки информации.
^ Ципрас, Димитрис; Сантуркар, Шибани; Энгстром, Логан; Тернер, Александр; Ма, Александр (2019). Надежность может противоречить точности . Международная конференция по представлениям обучения.
^ Дэн, К.; Вэй, И.; Равикумар, П. (2020). Острые статистические гарантии для состязательно надежной гауссовой классификации. Международная конференция по машинному обучению.
^ Джаванмард, А.; Солтанолкотаби, М.; Хассани, Х. (2020). Точные компромиссы в состязательном обучении для линейной регрессии. Конференция по теории обучения.
^ Рибейро, AH; Шён, TB (2023). «Сверхпараметризованная линейная регрессия при состязательных атаках». Труды IEEE по обработке сигналов . 71 : 601–614. arXiv : 2204.06274 . Bibcode : 2023ITSP...71..601R. doi : 10.1109/TSP.2023.3246228.
^ Инь, Д.; Каннан, Р.; Бартлетт, П. (2019). Сложность Радемахера для состязательно надежного обобщения. Международная конференция по машинному обучению.
^ Ягельски, Мэтью; Опреа, Алина; Бигджио, Баттиста; Лю, Чанг; Нита-Ротару, Кристина; Ли, Бо (май 2018 г.). «Манипулирование машинным обучением: атаки отравления и контрмеры для регрессионного обучения». Симпозиум IEEE 2018 г. по безопасности и конфиденциальности (SP) . IEEE. стр. 19–35. arXiv : 1804.00308 . doi : 10.1109/sp.2018.00057. ISBN 978-1-5386-4353-2. S2CID 4551073.
^ «Атака машинного обучения с помощью состязательных примеров». OpenAI . 2017-02-24 . Получено 2020-10-15 .
^ Гу, Тяньюй; Долан-Гавитт, Брендан; Гарг, Сиддхарт (2019-03-11). «BadNets: Выявление уязвимостей в цепочке поставок модели машинного обучения». arXiv : 1708.06733 [cs.CR].
^ Вейл, Майкл; Биннс, Рубен; Эдвардс, Лилиан (28.11.2018). «Алгоритмы, которые помнят: атаки инверсии моделей и закон о защите данных». Philosophical Transactions. Серия A, Математические, физические и инженерные науки . 376 (2133). arXiv : 1807.04644 . Bibcode :2018RSPTA.37680083V. doi :10.1098/rsta.2018.0083. ISSN 1364-503X. PMC 6191664 . PMID 30322998.
^ Шокри, Реза; Стронати, Марко; Сонг, Цунчжэн; Шматиков, Виталий (31.03.2017). «Атаки на вывод членов против моделей машинного обучения». arXiv : 1610.05820 [cs.CR].
^ ab Гудфеллоу, Ян Дж.; Шленс, Джонатан; Сзегеди, Кристиан (2015-03-20). «Объяснение и использование состязательных примеров». arXiv : 1412.6572 [stat.ML].
^ Мадри, Александр; Макелов, Александр; Шмидт, Людвиг; Ципрас, Димитрис; Владу, Адриан (2019-09-04). «На пути к моделям глубокого обучения, устойчивым к состязательным атакам». arXiv : 1706.06083 [stat.ML].
^ Карлини, Николас; Вагнер, Дэвид (2017-03-22). «К оценке надежности нейронных сетей». arXiv : 1608.04644 [cs.CR].
^ Браун, Том Б.; Мане, Данделион; Рой, Аурко; Абади, Мартин; Гилмер, Джастин (16.05.2018). «Adversarial Patch». arXiv : 1712.09665 [cs.CV].
^ Го, Сенсен; Чжао, Цзиньсюн; Ли, Сяоюй; Дуань, Цзюньхун; Му, Дэцзюнь; Цзин, Сяо (24.04.2021). «Метод атаки черного ящика против моделей обнаружения сетевых потоков на основе машинного обучения». Сети безопасности и связи . 2021. e5578335. doi : 10.1155/2021/5578335 . ISSN 1939-0114.
^ ab Gomes, Joao (2018-01-17). "Adversarial Attacks and Defenses for Convolutional Neural Networks". Onfido Tech . Получено 2021-10-23 .
^ Го, Чуань; Гарднер, Джейкоб; Ю, Юронг; Уилсон, Эндрю Гордон; Вайнбергер, Килиан (2019-05-24). «Простые состязательные атаки с использованием черного ящика». Труды 36-й Международной конференции по машинному обучению . PMLR: 2484–2493. arXiv : 1905.07121 .
^ Килиан Вайнбергер. О важности деконструкции в исследованиях машинного обучения. ML-Retrospectives @ NeurIPS 2020, 2020.https://slideslive.com/38938218/the-importance-of-deconstruction
^ abcde Андрющенко, Максим; Кроче, Франческо; Фламмарион, Николас; Хайн, Маттиас (2020). «Атака квадрата: эффективная для запросов состязательная атака черного ящика с помощью случайного поиска». В Ведальди, Андреа; Бишоф, Хорст; Брокс, Томас; Фрам, Ян-Майкл (ред.). Компьютерное зрение – ECCV 2020. Конспект лекций по информатике. Том 12368. Cham: Springer International Publishing. стр. 484–501. arXiv : 1912.00049 . doi :10.1007/978-3-030-58592-1_29. ISBN 978-3-030-58592-1. S2CID 208527215.
^ abcdefg Чен, Цзяньбо; Джордан, Майкл И.; Уэйнрайт, Мартин Дж. (2019), HopSkipJumpAttack: атака на основе эффективных решений на основе запросов, arXiv : 1904.02144 , получено 25 октября 2021 г.
^ Андрющенко, Максим; Кроче, Франческо; Фламмарион, Николас; Хайн, Маттиас (2020-07-29). «Атака квадрата: эффективная для запросов атака черного ящика с использованием случайного поиска». arXiv : 1912.00049 [cs.LG].
^ "Атаки на изображения на основе принятия решений с использованием черного ящика". KejiTech . 2020-06-21 . Получено 2021-10-25 .
^ ab Гудфеллоу, Ян Дж.; Шленс, Джонатан; Сзегеди, Кристиан (2015-03-20). «Объяснение и использование состязательных примеров». arXiv : 1412.6572 [stat.ML].
^ ab "Пример состязательного использования FGSM | TensorFlow Core". TensorFlow . Получено 24.10.2021 .
^ Цуй, Кен (2018-08-22). «Возможно, самое простое введение состязательных примеров». Medium . Получено 2021-10-24 .
^ Корона-Фигероа, Абрил; Бонд-Тейлор, Сэм; Бхоумик, Ниланджан; Гаус, Йона Фалини А.; Брекон, Тоби П.; Шум, Хьюберт П.Х.; Уиллкокс, Крис Г. (2023). Невыровненная трансляция 2D в 3D с условной векторно-квантованной кодовой диффузией с использованием трансформаторов . IEEE/CVF. arXiv : 2308.14152 .
^ ab Карлини, Николас; Вагнер, Дэвид (2017-03-22). «К оценке надежности нейронных сетей». arXiv : 1608.04644 [cs.CR].
^ "атака карлини вагнера". richardjordan.com . Получено 2021-10-23 .
^ Плотц, Майк (2018-11-26). "Резюме статьи: Состязательные примеры нелегко обнаружить: обход десяти методов обнаружения". Medium . Получено 2021-10-23 .
^ Кишор Датта Гупта; Ахтар, Захид; Дасгупта, Дипанкар (2021). «Определение последовательности методов обработки изображений (IPT) для обнаружения состязательных атак». SN Computer Science . 2 (5): 383. arXiv : 2007.00337 . doi : 10.1007/s42979-021-00773-8. ISSN 2662-995X. S2CID 220281087.
^ О. Декель, О. Шамир и Л. Сяо. «Обучение классификации с отсутствующими и поврежденными признаками». Машинное обучение, 81:149–178, 2010.
^ Лю, Вэй; Чавла, Санджай (2010). «Майнинг состязательных шаблонов с помощью регуляризованной минимизации потерь» (PDF) . Машинное обучение . 81 : 69–83. doi : 10.1007/s10994-010-5199-2 . S2CID 17497168.
^ B. Biggio, G. Fumera и F. Roli. "Evade hard multiple classifier systems Архивировано 15 января 2015 г. в Wayback Machine ". В O. Okun и G. Valentini, редакторах, Контролируемые и неконтролируемые ансамблевые методы и их применение, том 245 исследований вычислительного интеллекта, страницы 15–38. Springer Berlin / Heidelberg, 2009.
^ BIP Rubinstein, PL Bartlett, L. Huang и N. Taft. «Обучение в большом функциональном пространстве: механизмы сохранения конфиденциальности для обучения svm». Журнал конфиденциальности и конфиденциальности, 4(1):65–100, 2012.
^ М. Кантарчиоглу, Б. Си, К. Клифтон. «Оценка классификатора и выбор атрибутов против активных противников». Data Min. Knowl. Discov., 22:291–335, январь 2011 г.
^ Чивукула, Аниш; Ян, Синхао; Лю, Вэй; Чжу, Тяньцин; Чжоу, Ваньлей (2020). «Игровое теоретико-состязательное глубокое обучение с вариационными противниками». Труды IEEE по инжинирингу знаний и данных . 33 (11): 3568–3581. doi : 10.1109/TKDE.2020.2972320. hdl : 10453/145751 . ISSN 1558-2191. S2CID 213845560.
^ Чивукула, Аниш Шриваллабх; Лю, Вэй (2019). «Состязательные модели глубокого обучения с несколькими противниками». Транзакции IEEE по знаниям и инженерии данных . 31 (6): 1066–1079. дои : 10.1109/TKDE.2018.2851247. hdl : 10453/136227 . ISSN 1558-2191. S2CID 67024195.
^ "TrojAI". www.iarpa.gov . Получено 2020-10-14 .
^ Аталье, Аниш; Карлини, Николас; Вагнер, Дэвид (01.02.2018). «Запутанные градиенты создают ложное чувство безопасности: обход защиты от состязательного примера». arXiv : 1802.00420v1 [cs.LG].
^ Хе, Уоррен; Вэй, Джеймс; Чэнь, Синьюнь; Карлини, Николас; Сонг, Дон (15.06.2017). «Состязательные примеры защиты: ансамбли слабых защит не являются сильными». arXiv : 1706.04701 [cs.LG].

Внешние ссылки

MITRE ATLAS: Ландшафт угроз для систем искусственного интеллекта
Проект NIST 8269: Таксономия и терминология состязательного машинного обучения
Семинар NIPS 2007 по машинному обучению в условиях враждебной среды для обеспечения компьютерной безопасности
AlfaSVMLib Архивировано 24.09.2020 на Wayback Machine – Атаки состязательного переворота меток против опорных векторных машин
Ласков, Павел; Липпманн, Ричард (2010). «Машинное обучение в состязательных средах». Machine Learning . 81 (2): 115–119. doi :10.1007/s10994-010-5207-6. S2CID 12567278.
Семинар Dagstuhl Perspectives на тему «Методы машинного обучения для обеспечения компьютерной безопасности»
Семинар по искусственному интеллекту и безопасности, серия (AISec)