Деидентификация — это процесс, используемый для предотвращения раскрытия чьей-либо личности . Например, данные , полученные в ходе исследований на людях, могут быть обезличены, чтобы сохранить конфиденциальность участников исследования . Биологические данные могут быть обезличены в целях соблюдения правил HIPAA , которые определяют и предусматривают законы о конфиденциальности пациентов. [1]
Применительно к метаданным или общим данным об идентификации этот процесс также известен как анонимизация данных . Общие стратегии включают удаление или маскирование личных идентификаторов , таких как личное имя , а также подавление или обобщение квазиидентификаторов , таких как дата рождения. Обратный процесс использования обезличенных данных для идентификации людей известен как повторная идентификация данных . Успешные повторные идентификации [2] [3] [4] [5] ставят под сомнение эффективность деидентификации. Систематический обзор четырнадцати различных атак повторной идентификации выявил «высокий уровень повторной идентификации […], в котором преобладают небольшие исследования данных, которые не были обезличены в соответствии с существующими стандартами». [6]
Деидентификация принята в качестве одного из основных подходов к защите конфиденциальности данных . [7] Он широко используется в сферах связи, мультимедиа, биометрии, больших данных , облачных вычислений, интеллектуального анализа данных , Интернета, социальных сетей и аудио-видео наблюдения. [8]
Когда проводятся опросы, такие как перепись населения , они собирают информацию об определенной группе людей. Чтобы стимулировать участие и защитить конфиденциальность респондентов опроса, исследователи пытаются спланировать опрос таким образом, чтобы, когда люди участвуют в опросе, было невозможно сопоставить индивидуальные ответы какого-либо участника с какими-либо опубликованными данными. [9]
Когда веб-сайт онлайн-покупок хочет узнать предпочтения и покупательские привычки своих пользователей, он решает извлечь данные о клиентах из своей базы данных и провести их анализ. Информация о персональных данных включает личные идентификаторы , которые были собраны непосредственно при создании клиентами своих учетных записей. Веб-сайту необходимо предварительно обработать данные с помощью методов деидентификации, прежде чем анализировать записи данных, чтобы не нарушать конфиденциальность своих клиентов.
Анонимизация означает необратимое отделение набора данных от личности участника исследования, чтобы предотвратить любую повторную идентификацию в будущем, даже со стороны организаторов исследования при любых условиях. [10] [11] Деидентификация может также включать сохранение идентифицирующей информации, которая может быть повторно связана только доверенной стороной в определенных ситуациях. [10] [11] [12] В технологическом сообществе ведутся споры о том, следует ли когда-либо считать обезличенными данные, которые могут быть повторно связаны, даже доверенной стороной. [13]
Распространенными стратегиями деидентификации являются маскировка личных идентификаторов и обобщение квазиидентификаторов . Псевдонимизация является основным методом, используемым для маскировки личных идентификаторов из записей данных, а k-анонимизация обычно применяется для обобщения квазиидентификаторов .
Псевдонимизация осуществляется путем замены настоящих имен временным идентификатором. Он удаляет или маскирует личные идентификаторы, чтобы сделать людей неопознанными. Этот метод позволяет отслеживать запись человека с течением времени, даже если запись будет обновляться. Однако это не может помешать идентификации человека, если некоторые конкретные комбинации атрибутов в записи данных косвенно идентифицируют человека. [14]
k-анонимизация определяет атрибуты, которые косвенно указывают на личность человека, как квазиидентификаторы (QI) и обрабатывает данные, заставляя по крайней мере k людей иметь некоторую комбинацию значений QI. [14] Значения QI обрабатываются в соответствии с конкретными стандартами. Например, k-анонимизация заменяет некоторые исходные данные в записях новыми значениями диапазона и сохраняет некоторые значения неизменными. Новая комбинация значений QI предотвращает идентификацию человека, а также позволяет избежать уничтожения записей данных.
Исследования в области деидентификации проводятся главным образом с целью защиты медицинской информации . [15] Некоторые библиотеки переняли методы, используемые в сфере здравоохранения, для сохранения конфиденциальности своих читателей. [15]
В больших данных деидентификация широко применяется отдельными лицами и организациями. [8] С развитием социальных сетей, электронной коммерции и больших данных иногда требуется деидентификация, которая часто используется для обеспечения конфиденциальности данных , когда личные данные пользователей собираются компаниями или сторонними организациями, которые будут анализировать их для своих целей. личное использование.
В умных городах деидентификация может потребоваться для защиты конфиденциальности жителей, работников и посетителей. Без строгого регулирования деидентификация может быть затруднена, поскольку датчики все равно могут собирать информацию без согласия. [16]
Всякий раз, когда человек участвует в генетических исследованиях, донорство биологического образца часто приводит к созданию большого количества персонализированных данных. Такие данные однозначно сложно деидентифицировать. [17]
Анонимизация генетических данных особенно сложна из-за огромного количества генотипической информации в биообразцах, [17] связи, которую образцы часто имеют с историей болезни, [18] и появления современных инструментов биоинформатики для интеллектуального анализа данных . [18] Были демонстрации того, что данные об отдельных лицах в совокупных коллекциях наборов генотипических данных могут быть привязаны к личности доноров образцов. [19]
Некоторые исследователи полагают, что неразумно когда-либо обещать участникам генетических исследований сохранение анонимности, но вместо этого таких участников следует учить ограничениям использования закодированных идентификаторов в процессе деидентификации. [11]
В мае 2014 года Совет советников президента США по науке и технологиям счел деидентификацию «в некоторой степени полезной в качестве дополнительной защиты», но не «полезной основой для политики», поскольку «она не является устойчивой к повторной идентификации в ближайшем будущем». методы». [20]
Правило конфиденциальности HIPAA обеспечивает механизмы для ответственного использования и раскрытия медицинских данных без необходимости согласия пациента. Эти механизмы основаны на двух стандартах деидентификации HIPAA – Safe Harbor и методе экспертного определения. «Безопасная гавань» предполагает удаление конкретных идентификаторов пациентов (например, имени, номера телефона, адреса электронной почты и т. д.), в то время как метод экспертного определения требует знаний и опыта работы с общепринятыми статистическими и научными принципами и методами для предоставления информации, не поддающейся индивидуальной идентификации. [21]
Метод «безопасной гавани» использует списочный подход к деидентификации и предъявляет два требования:
Экспертное определение использует подход к деидентификации, основанный на оценке риска, который применяет текущие стандарты и передовой опыт исследований для определения вероятности того, что человека можно идентифицировать по его защищенной медицинской информации . Этот метод требует, чтобы человек, обладающий соответствующими знаниями и опытом работы с общепринятыми статистическими и научными принципами и методами, предоставил информацию, не поддающуюся индивидуальной идентификации. Это требует:
Ключевым законом об исследованиях электронных медицинских записей является Правило конфиденциальности HIPAA . Этот закон разрешает использовать электронные медицинские карты умерших субъектов для исследований (Правило конфиденциальности HIPAA (раздел 164.512(i)(1)(iii)))). [22]