Деидентификация

Деидентификация — это процесс, используемый для предотвращения раскрытия чьей-либо личности . Например, данные , полученные в ходе исследований на людях, могут быть обезличены, чтобы сохранить конфиденциальность участников исследования . Биологические данные могут быть обезличены в целях соблюдения правил HIPAA , которые определяют и предусматривают законы о конфиденциальности пациентов. ^[1]

Применительно к метаданным или общим данным об идентификации этот процесс также известен как анонимизация данных . Общие стратегии включают удаление или маскирование личных идентификаторов , таких как личное имя , а также подавление или обобщение квазиидентификаторов , таких как дата рождения. Обратный процесс использования обезличенных данных для идентификации людей известен как повторная идентификация данных . Успешные повторные идентификации ^[2]^[3]^[4]^[5] ставят под сомнение эффективность деидентификации. Систематический обзор четырнадцати различных атак повторной идентификации выявил «высокий уровень повторной идентификации […], в котором преобладают небольшие исследования данных, которые не были обезличены в соответствии с существующими стандартами». ^[6]

Деидентификация принята в качестве одного из основных подходов к защите конфиденциальности данных . ^[7] Он широко используется в сферах связи, мультимедиа, биометрии, больших данных , облачных вычислений, интеллектуального анализа данных , Интернета, социальных сетей и аудио-видео наблюдения. ^[8]

Примеры

При разработке опросов

Когда проводятся опросы, такие как перепись населения , они собирают информацию об определенной группе людей. Чтобы стимулировать участие и защитить конфиденциальность респондентов опроса, исследователи пытаются спланировать опрос таким образом, чтобы, когда люди участвуют в опросе, было невозможно сопоставить индивидуальные ответы какого-либо участника с какими-либо опубликованными данными. ^[9]

Прежде чем использовать информацию

Когда веб-сайт онлайн-покупок хочет узнать предпочтения и покупательские привычки своих пользователей, он решает извлечь данные о клиентах из своей базы данных и провести их анализ. Информация о персональных данных включает личные идентификаторы , которые были собраны непосредственно при создании клиентами своих учетных записей. Веб-сайту необходимо предварительно обработать данные с помощью методов деидентификации, прежде чем анализировать записи данных, чтобы не нарушать конфиденциальность своих клиентов.

Анонимизация

Анонимизация означает необратимое отделение набора данных от личности участника исследования, чтобы предотвратить любую повторную идентификацию в будущем, даже со стороны организаторов исследования при любых условиях. ^[10]^[11] Деидентификация может также включать сохранение идентифицирующей информации, которая может быть повторно связана только доверенной стороной в определенных ситуациях. ^[10]^[11]^[12] В технологическом сообществе ведутся споры о том, следует ли когда-либо считать обезличенными данные, которые могут быть повторно связаны, даже доверенной стороной. ^[13]

Техники

Распространенными стратегиями деидентификации являются маскировка личных идентификаторов и обобщение квазиидентификаторов . Псевдонимизация является основным методом, используемым для маскировки личных идентификаторов из записей данных, а k-анонимизация обычно применяется для обобщения квазиидентификаторов .

Псевдонимизация

Псевдонимизация осуществляется путем замены настоящих имен временным идентификатором. Он удаляет или маскирует личные идентификаторы, чтобы сделать людей неопознанными. Этот метод позволяет отслеживать запись человека с течением времени, даже если запись будет обновляться. Однако это не может помешать идентификации человека, если некоторые конкретные комбинации атрибутов в записи данных косвенно идентифицируют человека. ^[14]

k-анонимизация

k-анонимизация определяет атрибуты, которые косвенно указывают на личность человека, как квазиидентификаторы (QI) и обрабатывает данные, заставляя по крайней мере k людей иметь некоторую комбинацию значений QI. ^[14] Значения QI обрабатываются в соответствии с конкретными стандартами. Например, k-анонимизация заменяет некоторые исходные данные в записях новыми значениями диапазона и сохраняет некоторые значения неизменными. Новая комбинация значений QI предотвращает идентификацию человека, а также позволяет избежать уничтожения записей данных.

Приложения

Исследования в области деидентификации проводятся главным образом с целью защиты медицинской информации . ^[15] Некоторые библиотеки переняли методы, используемые в сфере здравоохранения, для сохранения конфиденциальности своих читателей. ^[15]

В больших данных деидентификация широко применяется отдельными лицами и организациями. ^[8] С развитием социальных сетей, электронной коммерции и больших данных иногда требуется деидентификация, которая часто используется для обеспечения конфиденциальности данных , когда личные данные пользователей собираются компаниями или сторонними организациями, которые будут анализировать их для своих целей. личное использование.

В умных городах деидентификация может потребоваться для защиты конфиденциальности жителей, работников и посетителей. Без строгого регулирования деидентификация может быть затруднена, поскольку датчики все равно могут собирать информацию без согласия. ^[16]

Пределы

Всякий раз, когда человек участвует в генетических исследованиях, донорство биологического образца часто приводит к созданию большого количества персонализированных данных. Такие данные однозначно сложно деидентифицировать. ^[17]

Анонимизация генетических данных особенно сложна из-за огромного количества генотипической информации в биообразцах, ^[17] связи, которую образцы часто имеют с историей болезни, ^[18] и появления современных инструментов биоинформатики для интеллектуального анализа данных . ^[18] Были демонстрации того, что данные об отдельных лицах в совокупных коллекциях наборов генотипических данных могут быть привязаны к личности доноров образцов. ^[19]

Некоторые исследователи полагают, что неразумно когда-либо обещать участникам генетических исследований сохранение анонимности, но вместо этого таких участников следует учить ограничениям использования закодированных идентификаторов в процессе деидентификации. ^[11]

Законы о деидентификации в Соединенных Штатах Америки

В мае 2014 года Совет советников президента США по науке и технологиям счел деидентификацию «в некоторой степени полезной в качестве дополнительной защиты», но не «полезной основой для политики», поскольку «она не является устойчивой к повторной идентификации в ближайшем будущем». методы». ^[20]

Правило конфиденциальности HIPAA обеспечивает механизмы для ответственного использования и раскрытия медицинских данных без необходимости согласия пациента. Эти механизмы основаны на двух стандартах деидентификации HIPAA – Safe Harbor и методе экспертного определения. «Безопасная гавань» предполагает удаление конкретных идентификаторов пациентов (например, имени, номера телефона, адреса электронной почты и т. д.), в то время как метод экспертного определения требует знаний и опыта работы с общепринятыми статистическими и научными принципами и методами для предоставления информации, не поддающейся индивидуальной идентификации. ^[21]

Безопасная гавань

Метод «безопасной гавани» использует списочный подход к деидентификации и предъявляет два требования:

Удаление или обобщение 18 элементов из данных.
Защищенное лицо или деловой партнер не имеют фактической информации о том, что остаточная информация в данных может использоваться отдельно или в сочетании с другой информацией для идентификации физического лица. «Безопасная гавань» — это строго предписывающий подход к деидентификации. В соответствии с этим методом все даты должны быть обобщены до года, а почтовые индексы сокращены до трех цифр. Тот же подход используется к данным независимо от контекста. Даже если информация должна быть передана доверенному исследователю, который хочет проанализировать данные на предмет сезонных колебаний случаев острых респираторных заболеваний и, следовательно, требует месяца госпитализации, эта информация не может быть предоставлена; будет сохранен только год поступления.

Экспертное определение

Экспертное определение использует подход к деидентификации, основанный на оценке риска, который применяет текущие стандарты и передовой опыт исследований для определения вероятности того, что человека можно идентифицировать по его защищенной медицинской информации . Этот метод требует, чтобы человек, обладающий соответствующими знаниями и опытом работы с общепринятыми статистическими и научными принципами и методами, предоставил информацию, не поддающуюся индивидуальной идентификации. Это требует:

Очень мал риск того, что информация может быть использована отдельно или в сочетании с другой разумно доступной информацией предполагаемым получателем для идентификации лица, являющегося субъектом информации;
Документирует методы и результаты анализа, которые оправдывают такое определение.

Исследования умерших

Ключевым законом об исследованиях электронных медицинских записей является Правило конфиденциальности HIPAA . Этот закон разрешает использовать электронные медицинские карты умерших субъектов для исследований (Правило конфиденциальности HIPAA (раздел 164.512(i)(1)(iii)))). ^[22]

Смотрите также

Внешние ссылки

Симсон Л. Гарфинкель (16 декабря 2015 г.). «NISTIR 8053, Деидентификация личной информации» (PDF) . НИСТ . Проверено 03 января 2016 г.
Серия тренингов по стандартам деидентификации правительства США. Архивировано 13 ноября 2015 г. в Wayback Machine.
Руководство по методам деидентификации защищенной медицинской информации, заархивировано 10 декабря 2015 г. в Wayback Machine.
Ом, Пол (2010). «Нарушенные обещания конфиденциальности: ответ на неожиданный провал анонимизации» (PDF) . Обзор права Калифорнийского университета в Лос-Анджелесе . 57 : 1701–77.
Падилья-Лопес, Хосе Рамон; Чаарауи, Александрос Андре; Флорес-Ревуэльта, Франциско (июнь 2015 г.). «Методы визуальной защиты конфиденциальности: опрос» (PDF) . Экспертные системы с приложениями . 42 (9): 4177–4195. дои : 10.1016/j.eswa.2015.01.041. hdl : 10045/44523 . S2CID 6794899.
Чаарауи, Александрос; Падилья-Лопес, Хосе; Феррандес-Пастор, Франциско; Ньето-Идальго, Марио; Флорес-Ревуэльта, Франциско (20 мая 2014 г.). «Система интеллектуального мониторинга на основе видения: анализ поведения человека и конфиденциальность в зависимости от контекста». Датчики . 14 (5): 8895–8925. Бибкод : 2014Senso..14.8895C. дои : 10.3390/s140508895 . ПМК 4063058 . ПМИД 24854209.