Анонимизация данных

Анонимизация данных — это тип очистки информации, целью которого является защита конфиденциальности . Это процесс удаления персонально идентифицируемой информации из наборов данных , так что люди, которых описывают данные, остаются анонимными .

Обзор

Анонимизация данных определяется как «процесс, посредством которого персональные данные изменяются таким образом, что субъект данных больше не может быть идентифицирован напрямую или косвенно, как контролером данных в одиночку, так и в сотрудничестве с любой другой стороной». ^[1] Анонимизация данных может позволить передавать информацию через границу, например, между двумя отделами в рамках агентства или между двумя агентствами, одновременно снижая риск непреднамеренного раскрытия, а в определенных средах — таким образом, который позволяет проводить оценку и аналитику после анонимизации.

В контексте медицинских данных анонимизированные данные относятся к данным, из которых пациент не может быть идентифицирован получателем информации. Имя, адрес и полный почтовый индекс должны быть удалены вместе с любой другой информацией, которая в сочетании с другими данными, хранящимися у получателя или раскрытыми ему, может идентифицировать пациента. ^[2]

Всегда будет существовать риск того, что анонимные данные могут не оставаться анонимными с течением времени. Сопряжение анонимного набора данных с другими данными, умные методы и грубая сила — вот некоторые из способов, с помощью которых ранее анонимные наборы данных стали деанонимными; Субъекты данных больше не анонимны.

Деанонимизация — это обратный процесс, в котором анонимные данные перекрестно ссылаются на другие источники данных для повторной идентификации анонимного источника данных. ^[3] Обобщение и возмущение — два популярных подхода к анонимизации реляционных данных. ^[4] Процесс сокрытия данных с возможностью их повторной идентификации позже также называется псевдонимизацией и является одним из способов, с помощью которых компании могут хранить данные в соответствии с требованиями HIPAA .

Однако, согласно СТАТЬЕ 29 РАБОЧЕЙ ГРУППЫ ПО ЗАЩИТЕ ДАННЫХ, Директива 95/46/EC ссылается на анонимизацию в Преамбуле 26, «означает, что для анонимизации любых данных данные должны быть лишены достаточного количества элементов, чтобы субъект данных больше не мог быть идентифицирован. Точнее, данные должны обрабатываться таким образом, чтобы их больше не могло использовать для идентификации физического лица с использованием «всех разумно возможных средств» как контролером, так и третьей стороной. Важным фактором является то, что обработка должна быть необратимой. Директива не разъясняет, как такой процесс деидентификации должен или может быть выполнен. Основное внимание уделяется результату: данные должны быть такими, чтобы не допускать идентификации субъекта данных с использованием «всех» «вероятных» и «разумных» средств. Ссылка делается на кодексы поведения как на инструмент для установления возможных механизмов анонимизации, а также на хранение в форме, в которой идентификация субъекта данных «больше невозможна». ^[5]

Существует пять типов операций по анонимизации данных: обобщение, подавление, анатомизация, перестановка и возмущение. ^[6]

Требования GDPR

Общий регламент по защите данных Европейского союза (GDPR) требует, чтобы хранимые данные о людях в ЕС подвергались либо анонимизации, либо псевдонимизации . ^[7] GDPR Recital (26) устанавливает очень высокую планку для того, что составляет анонимные данные, тем самым освобождая данные от требований GDPR, а именно «…информация, которая не относится к идентифицированному или идентифицируемому физическому лицу или к персональным данным, ставшим анонимными таким образом, что субъект данных не является или больше не может быть идентифицирован». Европейский инспектор по защите данных (EDPS) и испанское Агентство по защите данных (AEPD) выпустили совместное руководство, касающееся требований к анонимности и освобождения от требований GDPR. Согласно EDPS и AEPD, никто, включая контролера данных, не должен иметь возможности повторно идентифицировать субъектов данных в надлежащим образом анонимизированном наборе данных. ^[8] Исследования ученых, занимающихся данными в Имперском колледже Лондона и UCLouvain в Бельгии, ^[9], а также постановление судьи Михала Агмона-Гонена из окружного суда Тель-Авива, ^[10] подчеркивают недостатки «анонимизации» в современном мире больших данных . Анонимизация отражает устаревший подход к защите данных, который был разработан, когда обработка данных была ограничена изолированными (изолированными) приложениями, до популярности обработки больших данных, включающей широкое распространение и объединение данных. ^[11]

Анонимизация различных типов данных

Структурированные данные:

Базы данных

Неструктурированные данные:

PDF-файлы — Анонимизация текста, таблиц, изображений, отсканированных страниц.
DICOM - Анонимизация метаданных, пиксельные данные, данные наложения, инкапсулированные документы. ^[12]
Изображения

Удаление идентифицирующих метаданных из компьютерных файлов важно для их анонимизации. Инструменты удаления метаданных полезны для достижения этой цели.

Смотрите также

Ссылки

^ ISO 25237:2017 Информатика в здравоохранении — Псевдонимизация. ISO. 2017. С. 7.
^ "Анонимизация данных". Бесплатный медицинский словарь . Получено 17 января 2014 г.
^ "Деанонимизация". Whatis.com . Получено 17 января 2014 г. .
^ Бин Чжоу; Цзянь Пэй; ВоШун Лук (декабрь 2008 г.). «Краткий обзор методов анонимизации для сохранения конфиденциальности при публикации данных социальных сетей» (PDF) . Информационный бюллетень ACM SIGKDD Explorations Newsletter . 10 (2): 12–22. doi :10.1145/1540276.1540279. S2CID 609178.
^ "Мнение 05/2014 о методах анонимизации" (PDF) . Комиссия ЕС . 10 апреля 2014 г. Получено 31 декабря 2023 г.
^ Эюпоглу, Кан; Айдын, Мухаммед; Заим, Абдул; Сертбас, Ахмет (2018-05-17). «Эффективный алгоритм анонимизации больших данных на основе методов хаоса и возмущения». Энтропия . 20 (5): 373. Bibcode : 2018Entrp..20..373E. doi : 10.3390/e20050373 . ISSN 1099-4300. PMC 7512893. PMID 33265463 . Текст скопирован из этого источника, который доступен по лицензии Creative Commons Attribution 4.0 International.
^ Скиера, Бернд (2022). Влияние GDPR на рынок онлайн-рекламы. Клаус Миллер, Юси Джин, Леннарт Крафт, Рене Лауб, Джулия Шмитт. Франкфурт-на-Майне. ISBN 978-3-9824173-0-1. OCLC 1303894344.{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ «Введение в хэш-функцию как метод псевдонимизации персональных данных» (PDF) . Испанский орган по защите данных. Октябрь 2019 г. Получено 31 декабря 2023 г.
^ Колата, Джина (23 июля 2019 г.). «Ваши данные были «анонимизированы»? Эти ученые все еще могут вас идентифицировать». The New York Times .
^ "Attm (TA) 28857-06-17 Ассоциация медицинских компаний против Министерства обороны" (на идише). Pearl Cohen. 2019 . Получено 31 декабря 2023 .
^ Соломон, С. (31 января 2019 г.). «Данные доступны для захвата в соответствии с устаревшим израильским законом о конфиденциальности, заявляет аналитический центр». The Times of Israel . Получено 31 декабря 2023 г.
^ «DICOM-деидентификация/анонимизация: защита конфиденциальности пациентов при медицинской визуализации». 2024.

Дальнейшее чтение

Рагхунатхан, Баладжи (июнь 2013 г.). Полная книга по анонимизации данных: от планирования до внедрения . CRC Press. ISBN 9781482218565.
Халед Эль Эмам , Люк Арбакль (август 2014 г.). Анонимизация данных о здоровье: примеры и методы, с которых стоит начать . O'Reilly Media. ISBN 978-1-4493-6307-9.
Рольф Х. Вебер, Ульрике И. Генрих (2012). Анонимизация: SpringerBriefs в области кибербезопасности . Спрингер. ISBN 9781447140665.
Арис Гкулалас-Диванис, Григориос Лукидес (2012). Анонимизация электронных медицинских записей для поддержки клинического анализа (SpringerBriefs in Electrical and Computer Engineering) . Springer. ISBN 9781461456674.
Пит Уорден. «Почему вы не можете по-настоящему анонимизировать свои данные». O'Reilly Media, Inc. Архивировано из оригинала 9 января 2014 года . Получено 17 января 2014 года .

Внешние ссылки

Об анонимизации интернет-трафика: список литературы по обмену данными и анонимизации