k-анонимность

k -анонимность — это свойство, которым обладают определенные обезличенные данные . Термин k -анонимность был впервые введен Пьерангелой Самарати и Латанией Суини в статье, опубликованной в 1998 году^[1] , хотя эта концепция восходит к статье Торе Далениуса 1986 года.^[2]

k -анонимность — это попытка решить проблему «При наличии структурированных полевых данных, специфичных для человека, опубликовать данные с научными гарантиями того, что лица, являющиеся субъектами данных, не могут быть повторно идентифицированы, пока данные остаются практически полезными». ." ^[3]^[4]^[5] Говорят, что выпуск данных обладает свойством k -анонимности, если информацию о каждом человеке, содержащемся в выпуске, невозможно отличить по крайней мере от лиц, чья информация также фигурирует в выпуске. Гарантии, предоставляемые k -анонимностью, носят амбициозный, а не математический характер. $k-1$

Методы k -анонимизации

Чтобы использовать k -анонимность для обработки набора данных, чтобы его можно было опубликовать с защитой конфиденциальности, специалист по данным должен сначала изучить набор данных и решить, является ли каждый атрибут (столбец) идентификатором ( идентифицирующим), неидентифицирующим (неидентифицирующим) ), или квазиидентификатор (в некоторой степени идентифицирующий). Идентификаторы, такие как имена, подавляются, неидентифицирующие значения могут оставаться, а квазиидентификаторы необходимо обрабатывать так, чтобы каждая отдельная комбинация квазиидентификаторов обозначала как минимум k записей.

В приведенной ниже таблице в качестве примера представлена вымышленная неанонимизированная база данных, состоящая из записей пациентов вымышленной больницы. Столбец « Имя » является идентификатором, «Возраст» , «Пол» , «Штат проживания» и «Религия» — квазиидентификаторами, а «Болезнь» — неидентифицирующим конфиденциальным значением. А как насчет роста и веса ? Являются ли они также неидентифицирующими конфиденциальными значениями или являются квазиидентификаторами?

В этих данных содержится 6 атрибутов и 10 записей. Существует два распространенных метода достижения k -анонимности для некоторого значения k :

Подавление . В этом методе определенные значения атрибутов заменяются звездочкой «*». Все или некоторые значения столбца могут быть заменены на «*». В приведенной ниже анонимизированной таблице мы заменили все значения атрибута «Имя» и все значения атрибута «Религия» на «*».
Обобщение . В этом методе отдельные значения атрибутов заменяются более широкой категорией. Например, значение «19» атрибута « Возраст» можно заменить на «≤ 20», значение «23» на «20 < Возраст ≤ 30» и т. д.

В следующей таблице показана анонимизированная база данных.

Эти данные имеют 2-анонимность по отношению к атрибутам Возраст , Пол и Государство проживания , поскольку для любой комбинации этих атрибутов, найденной в любой строке таблицы, всегда есть как минимум 2 строки с этими точными атрибутами. Атрибуты, доступные злоумышленнику, называются квазиидентификаторами . Каждый кортеж квазиидентификатора встречается как минимум в k записях набора данных с k -анонимностью. ^[6]

Критика k -анонимности

Следующий пример демонстрирует недостаток k -анонимности: могут существовать другие записи данных, которые можно связать с переменными, которые предположительно неидентифицируют. Например, предположим, что злоумышленник может получить журнал от человека, который измерял показатели жизнедеятельности в рамках исследования, и узнает, что Кишор находился в больнице 30 апреля и его рост 180 см. Эту информацию можно использовать, чтобы связаться с «анонимной» базой данных (которая могла быть опубликована в Интернете) и узнать, что у Кишора есть сердечно-сосудистое заболевание. Злоумышленник, знающий, что Кишор посетил больницу 30 апреля, может сделать вывод об этом, просто зная, что рост Кишора 180 см, вес примерно 80–82 кг, и он родом из Карнатаки.

Корнем этой проблемы является основная проблема k -анонимности: не существует способа математически однозначно определить, является ли атрибут идентификатором, квазиидентификатором или неидентифицирующим конфиденциальным значением. Фактически все ценности являются потенциально идентифицирующими в зависимости от их распространенности в популяции и от вспомогательных данных, которыми может располагать злоумышленник. Другие механизмы конфиденциальности, такие как дифференциальная конфиденциальность, не сталкиваются с этой проблемой.

Хотя k-анонимность защищает от раскрытия личности, она не защищает от раскрытия конкретных атрибутов. Это становится проблематичным, когда злоумышленники обладают базовыми знаниями. Кроме того, отсутствие разнообразия в чувствительных областях может привести к раскрытию личной информации. В таких сценариях выбор ℓ-разнообразия может обеспечить более надежную защиту конфиденциальности.[1]

Мейерсон и Уильямс (2004) продемонстрировали, что оптимальная k -анонимность является NP-сложной проблемой, однако эвристические методы, такие как k -Optimize, предложенные Баярдо и Агравалом (2005), часто дают эффективные результаты. ^[7]^[8] Практический алгоритм аппроксимации, который позволяет решить проблему k -анонимизации с гарантией аппроксимации, был представлен Кенигом и Тассой. ^[9] $O(\log k)$

Атаки

Хотя k -анонимность является относительно простым в реализации подходом для деидентификации набора данных перед его публикацией, он подвержен множеству атак. Когда злоумышленнику доступны базовые знания, такие атаки становятся еще более эффективными. К таким атакам относятся:

Атака на однородность . Эта атака использует случай, когда все значения конфиденциального значения в наборе из k записей идентичны. В таких случаях, даже если данные были k -анонимизированы, чувствительное значение для набора из k записей может быть точно предсказано.
Атака с использованием фоновых знаний . Эта атака использует связь между одним или несколькими атрибутами квазиидентификатора с конфиденциальным атрибутом, чтобы уменьшить набор возможных значений для конфиденциального атрибута. Например, Мачанавайджхала, Кифер, Герке и Венкитасубраманиам (2007) показали, что знание того, что сердечные приступы происходят с меньшей частотой у японских пациентов, можно использовать для сужения диапазона значений чувствительного признака заболевания пациента.
Атака с понижением кодирования . Эта атака, представленная в 2022 году Алони Коэном, использует способ, которым алгоритмы анонимности объединяют атрибуты в отдельных записях. Поскольку агрегирование является детерминированным, можно провести реверс-инжиниринг исходного образа данных и во многих случаях выявить исходные данные, которые должны были быть защищены. Эта атака не требует базовых знаний, но усиливается ими. ^[10]

Поскольку k -анонимизация не включает в себя какую-либо рандомизацию, злоумышленники могут сделать надежные и недвусмысленные выводы о наборах данных, которые могут нанести вред отдельным людям. Например, если известно, что 19-летний Джон из Кералы есть в базе данных выше, то можно с уверенностью сказать, что у него либо рак, либо сердечно-сосудистое заболевание, либо вирусная инфекция.

K -анонимизация не является хорошим методом анонимизации многомерных наборов данных. ^[11]

Также было показано, что k -анонимность может исказить результаты набора данных, если она непропорционально подавляет и обобщает точки данных с нерепрезентативными характеристиками. ^[12] Однако алгоритмы подавления и обобщения, используемые для k -анонимизации наборов данных, могут быть изменены, чтобы они не оказывали такого искажения. ^[13]

k-анонимность

Методы k -анонимизации

Критика k -анонимности

Атаки

Смотрите также

Рекомендации