Анонимизация данных — это тип очистки информации, целью которого является защита конфиденциальности . Это процесс удаления персонально идентифицируемой информации из наборов данных , так что люди, которых описывают данные, остаются анонимными .
Анонимизация данных определяется как «процесс, посредством которого персональные данные изменяются таким образом, что субъект данных больше не может быть идентифицирован напрямую или косвенно, как контролером данных в одиночку, так и в сотрудничестве с любой другой стороной». [1] Анонимизация данных может позволить передавать информацию через границу, например, между двумя отделами в рамках агентства или между двумя агентствами, одновременно снижая риск непреднамеренного раскрытия, а в определенных средах — таким образом, который позволяет проводить оценку и аналитику после анонимизации.
В контексте медицинских данных анонимизированные данные относятся к данным, из которых пациент не может быть идентифицирован получателем информации. Имя, адрес и полный почтовый индекс должны быть удалены вместе с любой другой информацией, которая в сочетании с другими данными, хранящимися у получателя или раскрытыми ему, может идентифицировать пациента. [2]
Всегда будет существовать риск того, что анонимные данные могут не оставаться анонимными с течением времени. Сопряжение анонимного набора данных с другими данными, умные методы и грубая сила — вот некоторые из способов, с помощью которых ранее анонимные наборы данных стали деанонимными; Субъекты данных больше не анонимны.
Деанонимизация — это обратный процесс, в котором анонимные данные перекрестно ссылаются на другие источники данных для повторной идентификации анонимного источника данных. [3] Обобщение и возмущение — два популярных подхода к анонимизации реляционных данных. [4] Процесс сокрытия данных с возможностью их повторной идентификации позже также называется псевдонимизацией и является одним из способов, с помощью которых компании могут хранить данные в соответствии с требованиями HIPAA .
Однако, согласно СТАТЬЕ 29 РАБОЧЕЙ ГРУППЫ ПО ЗАЩИТЕ ДАННЫХ, Директива 95/46/EC ссылается на анонимизацию в Преамбуле 26, «означает, что для анонимизации любых данных данные должны быть лишены достаточного количества элементов, чтобы субъект данных больше не мог быть идентифицирован. Точнее, данные должны обрабатываться таким образом, чтобы их больше не могло использовать для идентификации физического лица с использованием «всех разумно возможных средств» как контролером, так и третьей стороной. Важным фактором является то, что обработка должна быть необратимой. Директива не разъясняет, как такой процесс деидентификации должен или может быть выполнен. Основное внимание уделяется результату: данные должны быть такими, чтобы не допускать идентификации субъекта данных с использованием «всех» «вероятных» и «разумных» средств. Ссылка делается на кодексы поведения как на инструмент для установления возможных механизмов анонимизации, а также на хранение в форме, в которой идентификация субъекта данных «больше невозможна». [5]
Существует пять типов операций по анонимизации данных: обобщение, подавление, анатомизация, перестановка и возмущение. [6]
Общий регламент по защите данных Европейского союза (GDPR) требует, чтобы хранимые данные о людях в ЕС подвергались либо анонимизации, либо псевдонимизации . [7] GDPR Recital (26) устанавливает очень высокую планку для того, что составляет анонимные данные, тем самым освобождая данные от требований GDPR, а именно «…информация, которая не относится к идентифицированному или идентифицируемому физическому лицу или к персональным данным, ставшим анонимными таким образом, что субъект данных не является или больше не может быть идентифицирован». Европейский инспектор по защите данных (EDPS) и испанское Агентство по защите данных (AEPD) выпустили совместное руководство, касающееся требований к анонимности и освобождения от требований GDPR. Согласно EDPS и AEPD, никто, включая контролера данных, не должен иметь возможности повторно идентифицировать субъектов данных в надлежащим образом анонимизированном наборе данных. [8] Исследования ученых, занимающихся данными в Имперском колледже Лондона и UCLouvain в Бельгии, [9], а также постановление судьи Михала Агмона-Гонена из окружного суда Тель-Авива, [10] подчеркивают недостатки «анонимизации» в современном мире больших данных . Анонимизация отражает устаревший подход к защите данных, который был разработан, когда обработка данных была ограничена изолированными (изолированными) приложениями, до популярности обработки больших данных, включающей широкое распространение и объединение данных. [11]
Структурированные данные:
Неструктурированные данные:
Удаление идентифицирующих метаданных из компьютерных файлов важно для их анонимизации. Инструменты удаления метаданных полезны для достижения этой цели.
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка )