stringtranslate.com

Деидентификация

Хотя человека обычно можно легко опознать по его фотографии, сделанной непосредственно, задача его идентификации на основе ограниченных данных сложнее, но иногда выполнима.

Деидентификация — это процесс, используемый для предотвращения раскрытия чьей-либо личной личности . Например, данные, полученные в ходе исследований на людях, могут быть деидентифицированы для сохранения конфиденциальности участников исследования . Биологические данные могут быть деидентифицированы для соблюдения правил HIPAA , которые определяют и предусматривают законы о конфиденциальности пациентов. [1]

Применительно к метаданным или общим данным об идентификации этот процесс также известен как анонимизация данных . Обычные стратегии включают удаление или маскировку персональных идентификаторов , таких как личное имя , и подавление или обобщение квазиидентификаторов , таких как дата рождения. Обратный процесс использования деидентифицированных данных для идентификации лиц известен как повторная идентификация данных . Успешные повторные идентификации [2] [3] [4] [5] ставят под сомнение эффективность деидентификации. Систематический обзор четырнадцати различных атак повторной идентификации обнаружил «высокий уровень повторной идентификации […], в котором доминируют мелкомасштабные исследования данных, которые не были деидентифицированы в соответствии с существующими стандартами». [6]

Деидентификация принята как один из основных подходов к защите конфиденциальности данных . [7] Она широко используется в областях коммуникаций, мультимедиа, биометрии, больших данных , облачных вычислений, интеллектуального анализа данных , Интернета, социальных сетей и аудио- и видеонаблюдения. [8]

Примеры

При разработке опросов

Когда проводятся опросы, такие как перепись , они собирают информацию об определенной группе людей. Чтобы поощрять участие и защищать конфиденциальность респондентов опроса, исследователи пытаются разработать опрос таким образом, чтобы, когда люди участвуют в опросе, было невозможно сопоставить индивидуальные ответы любого участника с любыми опубликованными данными. [9]

Перед использованием информации

Когда сайт интернет-магазина хочет узнать предпочтения и привычки своих пользователей, он решает извлечь данные клиентов из своей базы данных и провести их анализ. Информация о персональных данных включает персональные идентификаторы , которые были собраны непосредственно при создании клиентами своих учетных записей. Сайт должен предварительно обработать данные с помощью методов деидентификации перед анализом записей данных, чтобы избежать нарушения конфиденциальности своих клиентов.

Анонимизация

Анонимизация означает необратимое отделение набора данных от личности участника исследования для предотвращения любой будущей повторной идентификации, даже организаторами исследования при любых условиях. [10] [11] Деидентификация может также включать сохранение идентифицирующей информации, которая может быть повторно связана только доверенной стороной в определенных ситуациях. [10] [11] [12] В технологическом сообществе ведутся дебаты о том, следует ли когда-либо считать данные, которые могут быть повторно связаны, даже доверенной стороной, деидентифицированными. [13]

Методы

Распространенными стратегиями деидентификации являются маскировка персональных идентификаторов и обобщение квазиидентификаторов . Псевдонимизация является основным методом, используемым для маскировки персональных идентификаторов из записей данных, а k-анонимизация обычно применяется для обобщения квазиидентификаторов .

Псевдонимизация

Псевдонимизация выполняется путем замены настоящих имен временным идентификатором. Он удаляет или маскирует личные идентификаторы, чтобы сделать людей неопознанными. Этот метод позволяет отслеживать запись человека с течением времени, даже если запись будет обновляться. Однако он не может предотвратить идентификацию человека, если некоторые конкретные комбинации атрибутов в записи данных косвенно идентифицируют человека. [14]

k-анонимизация

k-анонимизация определяет атрибуты, которые косвенно указывают на личность человека, как квазиидентификаторы (QI) и работают с данными, заставляя по крайней мере k человек иметь некоторую комбинацию значений QI. [14] Значения QI обрабатываются в соответствии с определенными стандартами. Например, k-анонимизация заменяет некоторые исходные данные в записях новыми значениями диапазона и сохраняет некоторые значения неизменными. Новая комбинация значений QI предотвращает идентификацию человека, а также позволяет избежать уничтожения записей данных.

Приложения

Исследования в области деидентификации проводятся в основном для защиты информации о здоровье . [15] Некоторые библиотеки переняли методы, используемые в сфере здравоохранения , чтобы сохранить конфиденциальность своих читателей. [15]

В больших данных деидентификация широко применяется отдельными лицами и организациями. [8] С развитием социальных сетей, электронной коммерции и больших данных деидентификация иногда требуется и часто используется для обеспечения конфиденциальности данных , когда персональные данные пользователей собираются компаниями или сторонними организациями, которые будут анализировать их для собственного личного использования.

В умных городах деидентификация может быть необходима для защиты конфиденциальности жителей, работников и посетителей. Без строгого регулирования деидентификация может быть затруднена, поскольку датчики все еще могут собирать информацию без согласия. [16]

Деидентификация данных

PHI может присутствовать в различных данных, и для каждого формата требуются особые методы и инструменты для ее деидентификации:

Пределы

Всякий раз, когда человек участвует в генетическом исследовании, пожертвование биологического образца часто приводит к созданию большого количества персонализированных данных. Такие данные уникально трудно деидентифицировать. [18]

Анонимизация генетических данных особенно затруднена из-за огромного количества генотипической информации в биологических образцах [18] , связей, которые образцы часто имеют с историей болезни [19] , и появления современных инструментов биоинформатики для интеллектуального анализа данных . [19] Были продемонстрированы, что данные для отдельных лиц в агрегированных коллекциях наборов генотипических данных могут быть связаны с личностями доноров образцов. [20]

Некоторые исследователи предположили, что неразумно когда-либо обещать участникам генетических исследований, что они смогут сохранить свою анонимность, но вместо этого таких участников следует научить ограничениям использования закодированных идентификаторов в процессе деидентификации. [11]

Законы о деидентификации в Соединенных Штатах Америки

В мае 2014 года Совет советников президента США по науке и технологиям счёл деидентификацию «в некоторой степени полезной в качестве дополнительной меры безопасности», но не «полезной основой для политики», поскольку «она не является надёжной против методов повторной идентификации в ближайшем будущем». [21]

Правило конфиденциальности HIPAA предоставляет механизмы для ответственного использования и раскрытия данных о состоянии здоровья без необходимости согласия пациента. Эти механизмы основаны на двух стандартах деидентификации HIPAA – Safe Harbor и Expert Determination Method. Safe Harbor полагается на удаление определенных идентификаторов пациента (например, имени, номера телефона, адреса электронной почты и т. д.), в то время как Expert Determination Method требует знаний и опыта в области общепринятых статистических и научных принципов и методов, чтобы сделать информацию не индивидуально идентифицируемой. [22]

Безопасная гавань

Метод « безопасной гавани» использует списочный подход к деидентификации и имеет два требования:

  1. Удаление или обобщение 18 элементов из данных.
  2. Что охватываемая организация или деловой партнер не имеют фактических знаний о том, что остаточная информация в данных может быть использована отдельно или в сочетании с другой информацией для идентификации лица. Safe Harbor — это крайне предписывающий подход к деидентификации. В рамках этого метода все даты должны быть обобщены до года, а почтовые индексы сокращены до трех цифр. Тот же подход используется для данных независимо от контекста. Даже если информация должна быть предоставлена ​​доверенному исследователю, который хочет проанализировать данные на предмет сезонных колебаний в острых респираторных случаях и, таким образом, требует месяц госпитализации, эта информация не может быть предоставлена; будет сохранен только год госпитализации.

Экспертное определение

Экспертное определение использует подход, основанный на оценке риска, для деидентификации, который применяет текущие стандарты и передовой опыт исследований для определения вероятности того, что человек может быть идентифицирован по его защищенной информации о здоровье . Этот метод требует, чтобы человек с соответствующими знаниями и опытом в области общепринятых статистических и научных принципов и методов сделал информацию не индивидуально идентифицируемой. Он требует:

  1. Что риск того, что информация может быть использована отдельно или в сочетании с другой разумно доступной информацией предполагаемым получателем для идентификации лица, являющегося субъектом информации, очень мал;
  2. Документирует методы и результаты анализа, обосновывающие такое определение.

Исследования по умершим

Ключевым законом об исследовании электронных медицинских данных является HIPAA Privacy Rule. Этот закон позволяет использовать электронные медицинские записи умерших субъектов для исследований (HIPAA Privacy Rule (раздел 164.512(i)(1)(iii))). [23]

Смотрите также

Ссылки

  1. ^ Права (OCR), Office for Civil (2012-09-07). "Методы деидентификации PHI". HHS.gov . Получено 2020-11-08 .
  2. ^ Суини, Л. (2000). «Простые демографические данные часто однозначно идентифицируют людей». Рабочий документ по защите данных . 3 .
  3. ^ де Монжуайе, И.-А. (2013). «Уникальный в толпе: границы конфиденциальности человеческой мобильности». Scientific Reports . 3 : 1376. Bibcode :2013NatSR...3E1376D. doi :10.1038/srep01376. PMC 3607247 . PMID  23524645. 
  4. ^ de Montjoye, Y.-A.; Radaelli, L.; Singh, VK; Pentland, AS (29 января 2015 г.). «Уникальное в торговом центре: о реидентификации метаданных кредитных карт». Science . 347 (6221): 536–539. Bibcode :2015Sci...347..536D. doi : 10.1126/science.1256297 . hdl : 1721.1/96321 . PMID  25635097.
  5. ^ Нараянан, А. (2006). «Как нарушить анонимность набора данных премии Netflix». arXiv : cs/0610105 .
  6. ^ Эль Эмам, Халед (2011). «Систематический обзор атак повторной идентификации на данные о здоровье». PLOS ONE . 10 (4): e28071. Bibcode : 2011PLoSO...628071E. doi : 10.1371/journal.pone.0028071 . PMC 3229505. PMID  22164229 . 
  7. ^ Симсон, Гарфинкель. Деидентификация персональной информации: рекомендации по переходу на использование криптографических алгоритмов и длин ключей. OCLC  933741839.
  8. ^ ab Ribaric, Slobodan; Ariyaeeinia, Aladdin; Pavesic, Nikola (сентябрь 2016 г.). «Деидентификация для защиты конфиденциальности в мультимедийном контенте: обзор». Обработка сигналов: передача изображений . 47 : 131–151. doi : 10.1016/j.image.2016.05.020. hdl : 2299/19652 .
  9. ^ Бхаскаран, Вивек (2023-06-08). "Исследовательское исследование: определение, примеры и методы". QuestionPro . Получено 2023-12-17 .
  10. ^ ab Godard, BA; Schmidtke, JR; Cassiman, JJ; Aymé, SGN (2003). «Хранение данных и банк ДНК для биомедицинских исследований: осознанное согласие, конфиденциальность, проблемы качества, право собственности, возврат выгод. Профессиональная перспектива». European Journal of Human Genetics . 11 : S88–122. doi : 10.1038/sj.ejhg.5201114 . PMID  14718939.
  11. ^ abc Fullerton, SM; Anderson, NR; Guzauskas, G.; Freeman, D.; Fryer-Edwards, K. (2010). «Решение проблем управления биорепозиторными исследованиями следующего поколения». Science Translational Medicine . 2 (15): 15cm3. doi :10.1126/scitranslmed.3000361. PMC 3038212. PMID  20371468 . 
  12. ^ Макмерри, А. Дж.; Гилберт, Калифорния; Рейс, Б. Б.; Чуэ, Х. К.; Кохане, И. С.; Мандл, К. Д. (2007). «Самомасштабируемая распределенная информационная архитектура для общественного здравоохранения, исследований и клинической помощи». J Am Med Inform Assoc . 14 (4): 527–33. doi :10.1197/jamia.M2371. PMC 2244902. PMID  17460129 . 
  13. ^ "Де-идентификация данных". Лаборатория борьбы с бедностью имени Абдула Латифа Джамиля (J-PAL) . Получено 17 декабря 2023 г.
  14. ^ ab Ito, Koichi; Kogure, Jun; Shimoyama, Takeshi; Tsuda, Hiroshi (2016). «Технологии деидентификации и шифрования для защиты личной информации» (PDF) . Fujitsu Scientific and Technical Journal . 52 (3): 28–36.
  15. ^ ab Николсон, С.; Смит, Калифорния (2005). «Использование уроков из сферы здравоохранения для защиты конфиденциальности пользователей библиотеки: Руководство по деидентификации библиотечных данных на основе HIPAA» (PDF) . Труды Американского общества информационной науки и технологий . 42 : n/a. doi : 10.1002/meet.1450420106 .
  16. ^ Куп, Алекс. «Решение Sidewalk Labs передать сложные решения по вопросам конфиденциальности третьей стороне неверно, считает ее бывший консультант». IT World Canada . Получено 27 июня 2019 г.
  17. ^ «Деперсонификация медицинских PDF-файлов: обеспечение конфиденциальности пациентов и соблюдения требований при управлении документами». 2024.
  18. ^ ab McGuire, AL; Gibbs, RA (2006). «ГЕНЕТИКА: больше не деидентифицирована». Science . 312 (5772): 370–371. doi : 10.1126/science.1125339 . PMID  16627725.
  19. ^ ab Thorisson, GA; Muilu, J.; Brookes, AJ (2009). «Базы данных генотипов–фенотипов: проблемы и решения для постгеномной эры». Nature Reviews Genetics . 10 (1): 9–18. doi :10.1038/nrg2483. hdl : 2381/4584 . PMID  19065136. S2CID  5964522.
  20. ^ Homer, N.; Szelinger, S.; Redman, M.; Duggan, D.; Tembe, W.; Muehling, J.; Pearson, JV; Stephan, DA; Nelson, SF; Craig, DW (2008). Visscher, Peter M. (ред.). "Выделение лиц, вносящих следовые количества ДНК в высокосложные смеси, с использованием высокоплотных микроматриц генотипирования SNP". PLOS Genetics . 4 (8): e1000167. doi : 10.1371/journal.pgen.1000167 . PMC 2516199. PMID  18769715 . 
  21. ^ PCAST. "Отчет президенту - Большие данные и конфиденциальность: технологическая перспектива" (PDF) . Управление по политике в области науки и технологий . Получено 28 марта 2016 г. – через Национальный архив .
  22. ^ «Де-Идентификация 201». Аналитика конфиденциальности . 2015.
  23. ^ 45 CFR 164.512)

Внешние ссылки