stringtranslate.com

Деидентификация

Хотя человека обычно можно легко идентифицировать по фотографии, сделанной непосредственно с ним, задача его идентификации на основе ограниченных данных сложнее, но иногда возможна.

Деидентификация — это процесс, используемый для предотвращения раскрытия чьей-либо личности . Например, данные , полученные в ходе исследований на людях, могут быть обезличены, чтобы сохранить конфиденциальность участников исследования . Биологические данные могут быть обезличены в целях соблюдения правил HIPAA , которые определяют и предусматривают законы о конфиденциальности пациентов. [1]

Применительно к метаданным или общим данным об идентификации этот процесс также известен как анонимизация данных . Общие стратегии включают удаление или маскирование личных идентификаторов , таких как личное имя , а также подавление или обобщение квазиидентификаторов , таких как дата рождения. Обратный процесс использования обезличенных данных для идентификации людей известен как повторная идентификация данных . Успешные повторные идентификации [2] [3] [4] [5] ставят под сомнение эффективность деидентификации. Систематический обзор четырнадцати различных атак повторной идентификации выявил «высокий уровень повторной идентификации […], в котором преобладают небольшие исследования данных, которые не были обезличены в соответствии с существующими стандартами». [6]

Деидентификация принята в качестве одного из основных подходов к защите конфиденциальности данных . [7] Он широко используется в сферах связи, мультимедиа, биометрии, больших данных , облачных вычислений, интеллектуального анализа данных , Интернета, социальных сетей и аудио-видео наблюдения. [8]

Примеры

При разработке опросов

Когда проводятся опросы, такие как перепись населения , они собирают информацию об определенной группе людей. Чтобы стимулировать участие и защитить конфиденциальность респондентов опроса, исследователи пытаются спланировать опрос таким образом, чтобы, когда люди участвуют в опросе, было невозможно сопоставить индивидуальные ответы какого-либо участника с какими-либо опубликованными данными. [9]

Прежде чем использовать информацию

Когда веб-сайт онлайн-покупок хочет узнать предпочтения и покупательские привычки своих пользователей, он решает извлечь данные о клиентах из своей базы данных и провести их анализ. Информация о персональных данных включает личные идентификаторы , которые были собраны непосредственно при создании клиентами своих учетных записей. Веб-сайту необходимо предварительно обработать данные с помощью методов деидентификации, прежде чем анализировать записи данных, чтобы не нарушать конфиденциальность своих клиентов.

Анонимизация

Анонимизация означает необратимое отделение набора данных от личности участника исследования, чтобы предотвратить любую повторную идентификацию в будущем, даже со стороны организаторов исследования при любых условиях. [10] [11] Деидентификация может также включать сохранение идентифицирующей информации, которая может быть повторно связана только доверенной стороной в определенных ситуациях. [10] [11] [12] В технологическом сообществе ведутся споры о том, следует ли когда-либо считать обезличенными данные, которые могут быть повторно связаны, даже доверенной стороной. [13]

Техники

Распространенными стратегиями деидентификации являются маскировка личных идентификаторов и обобщение квазиидентификаторов . Псевдонимизация является основным методом, используемым для маскировки личных идентификаторов из записей данных, а k-анонимизация обычно применяется для обобщения квазиидентификаторов .

Псевдонимизация

Псевдонимизация осуществляется путем замены настоящих имен временным идентификатором. Он удаляет или маскирует личные идентификаторы, чтобы сделать людей неопознанными. Этот метод позволяет отслеживать запись человека с течением времени, даже если запись будет обновляться. Однако это не может помешать идентификации человека, если некоторые конкретные комбинации атрибутов в записи данных косвенно идентифицируют человека. [14]

k-анонимизация

k-анонимизация определяет атрибуты, которые косвенно указывают на личность человека, как квазиидентификаторы (QI) и обрабатывает данные, заставляя по крайней мере k людей иметь некоторую комбинацию значений QI. [14] Значения QI обрабатываются в соответствии с конкретными стандартами. Например, k-анонимизация заменяет некоторые исходные данные в записях новыми значениями диапазона и сохраняет некоторые значения неизменными. Новая комбинация значений QI предотвращает идентификацию человека, а также позволяет избежать уничтожения записей данных.

Приложения

Исследования в области деидентификации проводятся главным образом с целью защиты медицинской информации . [15] Некоторые библиотеки переняли методы, используемые в сфере здравоохранения, для сохранения конфиденциальности своих читателей. [15]

В больших данных деидентификация широко применяется отдельными лицами и организациями. [8] С развитием социальных сетей, электронной коммерции и больших данных иногда требуется деидентификация, которая часто используется для обеспечения конфиденциальности данных , когда личные данные пользователей собираются компаниями или сторонними организациями, которые будут анализировать их для своих целей. личное использование.

В умных городах деидентификация может потребоваться для защиты конфиденциальности жителей, работников и посетителей. Без строгого регулирования деидентификация может быть затруднена, поскольку датчики все равно могут собирать информацию без согласия. [16]

Пределы

Всякий раз, когда человек участвует в генетических исследованиях, донорство биологического образца часто приводит к созданию большого количества персонализированных данных. Такие данные однозначно сложно деидентифицировать. [17]

Анонимизация генетических данных особенно сложна из-за огромного количества генотипической информации в биообразцах, [17] связи, которую образцы часто имеют с историей болезни, [18] и появления современных инструментов биоинформатики для интеллектуального анализа данных . [18] Были демонстрации того, что данные об отдельных лицах в совокупных коллекциях наборов генотипических данных могут быть привязаны к личности доноров образцов. [19]

Некоторые исследователи полагают, что неразумно когда-либо обещать участникам генетических исследований сохранение анонимности, но вместо этого таких участников следует учить ограничениям использования закодированных идентификаторов в процессе деидентификации. [11]

Законы о деидентификации в Соединенных Штатах Америки

В мае 2014 года Совет советников президента США по науке и технологиям счел деидентификацию «в некоторой степени полезной в качестве дополнительной защиты», но не «полезной основой для политики», поскольку «она не является устойчивой к повторной идентификации в ближайшем будущем». методы». [20]

Правило конфиденциальности HIPAA обеспечивает механизмы для ответственного использования и раскрытия медицинских данных без необходимости согласия пациента. Эти механизмы основаны на двух стандартах деидентификации HIPAA – Safe Harbor и методе экспертного определения. «Безопасная гавань» предполагает удаление конкретных идентификаторов пациентов (например, имени, номера телефона, адреса электронной почты и т. д.), в то время как метод экспертного определения требует знаний и опыта работы с общепринятыми статистическими и научными принципами и методами для предоставления информации, не поддающейся индивидуальной идентификации. [21]

Безопасная гавань

Метод «безопасной гавани» использует списочный подход к деидентификации и предъявляет два требования:

  1. Удаление или обобщение 18 элементов из данных.
  2. Защищенное лицо или деловой партнер не имеют фактической информации о том, что остаточная информация в данных может использоваться отдельно или в сочетании с другой информацией для идентификации физического лица. «Безопасная гавань» — это строго предписывающий подход к деидентификации. В соответствии с этим методом все даты должны быть обобщены до года, а почтовые индексы сокращены до трех цифр. Тот же подход используется к данным независимо от контекста. Даже если информация должна быть передана доверенному исследователю, который хочет проанализировать данные на предмет сезонных колебаний случаев острых респираторных заболеваний и, следовательно, требует месяца госпитализации, эта информация не может быть предоставлена; будет сохранен только год поступления.

Экспертное определение

Экспертное определение использует подход к деидентификации, основанный на оценке риска, который применяет текущие стандарты и передовой опыт исследований для определения вероятности того, что человека можно идентифицировать по его защищенной медицинской информации . Этот метод требует, чтобы человек, обладающий соответствующими знаниями и опытом работы с общепринятыми статистическими и научными принципами и методами, предоставил информацию, не поддающуюся индивидуальной идентификации. Это требует:

  1. Очень мал риск того, что информация может быть использована отдельно или в сочетании с другой разумно доступной информацией предполагаемым получателем для идентификации лица, являющегося субъектом информации;
  2. Документирует методы и результаты анализа, которые оправдывают такое определение.

Исследования умерших

Ключевым законом об исследованиях электронных медицинских записей является Правило конфиденциальности HIPAA . Этот закон разрешает использовать электронные медицинские карты умерших субъектов для исследований (Правило конфиденциальности HIPAA (раздел 164.512(i)(1)(iii)))). [22]

Смотрите также

Рекомендации

  1. ^ Права (OCR), Гражданское управление (07 сентября 2012 г.). «Методы деидентификации ЛМИ». HHS.gov . Проверено 8 ноября 2020 г.
  2. ^ Суини, Л. (2000). «Простые демографические данные часто однозначно идентифицируют людей». Рабочий документ по конфиденциальности данных . 3 .
  3. ^ де Монжуа, Ю.-А. (2013). «Уникальный в толпе: конфиденциальность человеческого передвижения». Научные отчеты . 3 : 1376. Бибкод : 2013NatSR...3E1376D. дои : 10.1038/srep01376. ПМК 3607247 . ПМИД  23524645. 
  4. ^ де Монджуа, Ю.-А.; Радаелли, Л.; Сингх, В.К.; Пентланд, AS (29 января 2015 г.). «Уникально в торговом центре: о переидентификации метаданных кредитных карт». Наука . 347 (6221): 536–539. Бибкод : 2015Sci...347..536D. дои : 10.1126/science.1256297 . hdl : 1721.1/96321 . ПМИД  25635097.
  5. ^ Нарайанан, А. (2006). «Как нарушить анонимность набора данных о призах Netflix». arXiv : cs/0610105 .
  6. ^ Эль Эмам, Халед (2011). «Систематический обзор атак повторной идентификации на данные о здоровье». ПЛОС ОДИН . 10 (4): e28071. Бибкод : 2011PLoSO...628071E. дои : 10.1371/journal.pone.0028071 . ПМК 3229505 . ПМИД  22164229. 
  7. ^ Симсон., Гарфинкель. Деидентификация личной информации: рекомендации по переходу на использование криптографических алгоритмов и длины ключей. ОКЛК  933741839.
  8. ^ аб Рибарич, Слободан; Арияииния, Аладдин; Павесич, Никола (сентябрь 2016 г.). «Деидентификация для защиты конфиденциальности в мультимедийном контенте: опрос». Обработка сигналов: передача изображений . 47 : 131–151. дои : 10.1016/j.image.2016.05.020. hdl : 2299/19652 .
  9. ^ Бхаскаран, Вивек (8 июня 2023 г.). «Обзорные исследования: определение, примеры и методы». ВопросПро . Проверено 17 декабря 2023 г.
  10. ^ аб Годар, бакалавр; Шмидтке-младший; Кассиман, Джей-Джей; Эме, SGN (2003). «Хранение данных и банкинг ДНК для биомедицинских исследований: информированное согласие, конфиденциальность, проблемы качества, право собственности, возврат выгод. Профессиональный взгляд». Европейский журнал генетики человека . 11 : С88–122. дои : 10.1038/sj.ejhg.5201114 . ПМИД  14718939.
  11. ^ abc Фуллертон, С.М.; Андерсон, Северная Каролина; Гузаускас Г.; Фриман, Д.; Фрайер-Эдвардс, К. (2010). «Решение проблем управления исследованиями биохранилищ следующего поколения». Наука трансляционной медицины . 2 (15): 15см3. doi : 10.1126/scitranslmed.3000361. ПМК 3038212 . ПМИД  20371468. 
  12. ^ Макмерри, AJ; Гилберт, Калифорния; Рейс, BY; Чуэ, ХК; Кохане, И.С.; Мандл, К.Д. (2007). «Самомасштабируемая распределенная информационная архитектура для общественного здравоохранения, исследований и клинической помощи». J Am Med Inform доц . 14 (4): 527–33. дои : 10.1197/jamia.M2371. ПМК 2244902 . ПМИД  17460129. 
  13. ^ «Деидентификация данных». Лаборатория по борьбе с бедностью Абдула Латифа Джамиля (J-PAL) . Проверено 17 декабря 2023 г.
  14. ^ аб Ито, Коичи; Когуре, Джун; Симояма, Такеши; Цуда, Хироши (2016). «Технологии деидентификации и шифрования для защиты личной информации» (PDF) . Научно-технический журнал Fujitsu . 52 (3): 28–36.
  15. ^ Аб Николсон, С.; Смит, Калифорния (2005). «Использование уроков здравоохранения для защиты конфиденциальности пользователей библиотеки: Рекомендации по деидентификации библиотечных данных на основе HIPAA» (PDF) . Труды Американского общества информатики и технологий . 42 : н/д. дои : 10.1002/meet.1450420106 .
  16. ^ Куп, Алекс. «Решение Sidewalk Labs передать трудные решения по вопросам конфиденциальности третьим лицам неверно, — говорит ее бывший консультант». Мир ИТ Канады . Проверено 27 июня 2019 г.
  17. ^ Аб МакГуайр, Алабама; Гиббс, РА (2006). «ГЕНЕТИКА: больше не деидентифицирована». Наука . 312 (5772): 370–371. дои : 10.1126/science.1125339 . ПМИД  16627725.
  18. ^ аб Ториссон, Джорджия; Муилу, Дж.; Брукс, Эй Джей (2009). «Базы данных генотип-фенотип: проблемы и решения постгеномной эпохи». Обзоры природы Генетика . 10 (1): 9–18. дои : 10.1038/nrg2483. hdl : 2381/4584 . PMID  19065136. S2CID  5964522.
  19. ^ Гомер, Н.; Селингер, С.; Редман, М.; Дагган, Д.; Тембе, В.; Мюлинг, Дж.; Пирсон, СП; Стефан, Д.А.; Нельсон, Сан-Франциско; Крейг, Д.В. (2008). Вишер, Питер М. (ред.). «Выявление лиц, вносящих следовые количества ДНК в очень сложные смеси, с использованием микрочипов для генотипирования SNP высокой плотности». ПЛОС Генетика . 4 (8): e1000167. дои : 10.1371/journal.pgen.1000167 . ПМК 2516199 . ПМИД  18769715. 
  20. ^ ПКАСТ. «Доклад президенту – Большие данные и конфиденциальность: технологическая перспектива» (PDF) . Управление научно-технической политики . Проверено 28 марта 2016 г. - из Национального архива .
  21. ^ «Деидентификация 201». Аналитика конфиденциальности . 2015.
  22. ^ 45 CFR 164.512)

Внешние ссылки