Связь с записью

Связывание записей (также известное как сопоставление данных , связывание данных , разрешение объектов и многие другие термины) — это задача поиска записей в наборе данных, которые относятся к одному и тому же объекту в разных источниках данных (например, файлах данных, книгах, веб-сайтах, и базы данных). Связь записей необходима при объединении различных наборов данных на основе объектов, которые могут иметь или не иметь общий идентификатор (например, ключ базы данных , URI , национальный идентификационный номер ), что может быть связано с различиями в форме записи, месте хранения или стиле куратора. или предпочтение. Набор данных, прошедший RL-ориентированную сверку, можно назвать перекрестно связанным .

Соглашения об именах

«Связь записей» — это термин, используемый, среди прочего, статистиками, эпидемиологами и историками для описания процесса объединения записей из одного источника данных с другим, описывающим один и тот же объект. Однако для этого процесса используется множество других терминов. К сожалению, такое обилие терминологии привело к небольшому количеству перекрестных ссылок между этими исследовательскими сообществами. ^[1]^[2]

Ученые-компьютерщики часто называют это «сопоставлением данных» или «проблемой идентификации объекта». Коммерческие почтовые приложения и приложения баз данных называют это «обработкой слияния/очистки» или «промывкой списка». Другие имена, используемые для описания той же концепции, включают: «ядерная ссылка/объект/идентификатор/имя/разрешение записей», «устранение неоднозначности объекта/связывание», «нечеткое сопоставление», «обнаружение дубликатов», «дедупликация», «сопоставление записей», « (ссылка) сверка», «идентификация объекта», «интеграция данных/информации» и «объединение». ^[3]

Несмотря на схожие названия, связывание записей и связанные данные представляют собой два разных подхода к обработке и структурированию данных. Хотя и то, и другое предполагает идентификацию совпадающих объектов в разных наборах данных, связывание записей стандартно приравнивает «сущности» к людям; Связанные данные, напротив, основаны на возможности связывания любого веб-ресурса с наборами данных с использованием соответственно более широкой концепции идентификатора, а именно URI .

История

Первоначальная идея связи записей восходит к Халберту Л. Данну в его статье 1946 года под названием «Связь записей», опубликованной в Американском журнале общественного здравоохранения . ^[4]

Затем Говард Борден Ньюкомб в статье 1959 года в журнале Science заложил вероятностные основы современной теории связи записей . ^[5] Они были формализованы в 1969 году Иваном Феллеги и Аланом Сантером в их новаторской работе «Теория связи записей», где они доказали, что описанное ими вероятностное правило принятия решений было оптимальным, когда атрибуты сравнения были условно независимыми. ^[6] В своей работе они признали растущий интерес к применению достижений в области вычислений и автоматизации к большим коллекциям административных данных , а теория Феллеги-Сунтера остается математической основой для многих приложений связывания записей.

С конца 1990-х годов были разработаны различные методы машинного обучения , которые при благоприятных условиях можно использовать для оценки условных вероятностей, требуемых теорией Феллеги-Сунтера. Некоторые исследователи сообщили, что предположение об условной независимости алгоритма Феллеги-Сантера часто нарушается на практике; однако опубликованные усилия по явному моделированию условных зависимостей между атрибутами сравнения не привели к улучшению качества связывания записей. ^{[ нужна цитация ]} С другой стороны, алгоритмы машинного обучения или нейронных сетей, которые не полагаются на эти предположения, часто обеспечивают гораздо более высокую точность, когда доступно достаточное количество размеченных обучающих данных. ^[7]

Увязку записей можно выполнить полностью без помощи компьютера, но основные причины, по которым компьютеры часто используются для увязки записей, заключаются в том, чтобы уменьшить или исключить проверку вручную и сделать результаты более легко воспроизводимыми. Компьютерное сопоставление имеет преимущества, заключающиеся в возможности централизованного контроля обработки, лучшего контроля качества, скорости, последовательности и лучшей воспроизводимости результатов. ^[8]

Методы

Предварительная обработка данных

Увязка записей очень чувствительна к качеству связываемых данных, поэтому все рассматриваемые наборы данных (особенно поля их ключевых идентификаторов) в идеале должны пройти оценку качества данных до увязки записей. Многие ключевые идентификаторы одного и того же объекта могут быть представлены совершенно по-разному в разных наборах данных (и даже внутри них), что может значительно усложнить связывание записей, если не будет выяснено заранее. Например, ключевые идентификаторы человека по имени Уильям Дж. Смит могут появиться в трех разных наборах данных следующим образом:

В этом примере разные стили форматирования приводят к тому, что записи выглядят по-разному, но на самом деле все они относятся к одному и тому же объекту с одинаковыми значениями логического идентификатора. Большинство, если не все, стратегии связывания записей привели бы к более точной связи, если бы эти значения были сначала нормализованы или стандартизированы в единый формат (например, все имена имеют вид «Фамилия, Имя», а все даты — «ГГГГ/ММ/ДД»). "). Стандартизация может быть достигнута посредством простых преобразований данных на основе правил или более сложных процедур, таких как токенизация на основе лексикона и вероятностные скрытые марковские модели. ^[9] Некоторые из пакетов, перечисленных в разделе «Реализация программного обеспечения» , предоставляют некоторые из этих функций, упрощающих процесс стандартизации данных.

Разрешение объекта

Разрешение сущностей — это процесс оперативной аналитики , обычно основанный на механизме разрешения сущностей или промежуточном программном обеспечении , посредством которого организации могут соединять разрозненные источники данных с целью понимания возможных совпадений сущностей и неочевидных связей между несколькими хранилищами данных . Он анализирует всю информацию , относящуюся к физическим и/или юридическим лицам, из нескольких источников данных, а затем применяет оценку правдоподобия и вероятности, чтобы определить, какие личности совпадают и какие неочевидные связи (если таковые имеются) существуют между этими личностями.

Механизмы разрешения сущностей обычно используются для выявления рисков , мошенничества и конфликтов интересов, но также являются полезными инструментами для использования в рамках требований интеграции данных клиентов (CDI) и управления основными данными (MDM). Типичное использование механизмов разрешения юридических лиц включает проверку террористов, выявление мошенничества в страховании, соблюдение Закона США о патриотизме , обнаружение организованной преступной группировки в розничной торговле и проверку кандидатов.

Например: В разных хранилищах данных — записях сотрудников, данных о поставщиках, списках наблюдения и т. д. — в организации может быть несколько вариантов сущности с именем ABC, которая может быть, а может и не быть одним и тем же лицом. Фактически эти записи могут отображаться как ABC1, ABC2 или ABC3 в этих источниках данных. Сравнивая сходство между базовыми атрибутами, такими как адрес , дата рождения или номер социального страхования , пользователь может исключить некоторые возможные совпадения и подтвердить, что другие совпадают как весьма вероятные.

Затем механизмы разрешения сущностей применяют правила, основанные на логике здравого смысла, для выявления скрытых взаимосвязей между данными. В приведенном выше примере, возможно, ABC1 и ABC2 — это не один и тот же человек, а скорее два разных человека, имеющих общие атрибуты, такие как адрес или номер телефона.

Сопоставление данных

Хотя решения по разрешению объектов включают технологию сопоставления данных, многие предложения по сопоставлению данных не соответствуют определению разрешения объектов. По словам Джона Талберта, директора Центра перспективных исследований в области разрешения сущностей и качества информации UALR , вот четыре фактора, которые отличают разрешение сущностей от сопоставления данных:

Работает как со структурированными, так и с неструктурированными записями и влечет за собой процесс извлечения ссылок, когда источники неструктурированы или полуструктурированы.
Использует сложные бизнес-правила и концептуальные модели для борьбы с отсутствующей, противоречивой и поврежденной информацией.
Использует несовпадающую, заявленную связывающую (ассоциированную) информацию в дополнение к прямому совпадению.
Раскрывает неочевидные отношения и сети ассоциаций (т. е. кто с кем связан)

В отличие от продуктов по обеспечению качества данных, более мощные механизмы разрешения идентификационных данных также включают в себя механизм правил и рабочий процесс, которые применяют бизнес-аналитику к разрешенным идентификационным данным и их связям. Эти передовые технологии принимают автоматизированные решения и влияют на бизнес-процессы в режиме реального времени, ограничивая необходимость вмешательства человека.

Детерминированная связь записей

Самый простой вид связывания записей, называемый детерминированным или основанным на правилах связыванием записей , создает связи на основе количества отдельных идентификаторов, совпадающих между доступными наборами данных. ^[10] Говорят, что две записи совпадают посредством детерминированной процедуры связывания записей, если все или некоторые идентификаторы (выше определенного порога) идентичны. Детерминированная связь записей является хорошим вариантом, когда объекты в наборах данных идентифицируются общим идентификатором или когда существует несколько репрезентативных идентификаторов (например, имя, дата рождения и пол при идентификации человека), качество данных которых относительно высокий.

В качестве примера рассмотрим два стандартизированных набора данных, набор A и набор B, которые содержат разные биты информации о пациентах в больничной системе. Два набора данных идентифицируют пациентов с использованием различных идентификаторов: номера социального страхования (SSN), имени, даты рождения (DOB), пола и почтового индекса (ZIP). Записи в двух наборах данных (обозначаются столбцом «#») показаны ниже:

Наиболее простой детерминированной стратегией связывания записей было бы выбрать один идентификатор, который, как предполагается, будет однозначно идентифицировать, например SSN, и объявить, что записи, имеющие одно и то же значение, идентифицируют одного и того же человека, в то время как записи, не имеющие одинакового значения, идентифицируют разных людей. В этом примере детерминированная связь на основе SSN создаст объекты на основе A1 и A2; А3 и В1; и А4. Хотя A1, A2 и B2 представляют собой один и тот же объект, B2 не будет включен в сопоставление, поскольку в нем отсутствует значение SSN.

Обработка исключений, таких как отсутствие идентификаторов, предполагает создание дополнительных правил связывания записей. Одним из таких правил в случае отсутствия SSN может быть сравнение имени, даты рождения, пола и почтового индекса с другими записями в надежде найти совпадение. В приведенном выше примере это правило по-прежнему не будет сопоставлять A1/A2 с B2, поскольку имена все еще немного отличаются: стандартизация привела имена к правильному формату (Фамилия, Имя), но не смогла распознать «Билл» как псевдоним для « Уильям». Проработка имен с помощью фонетического алгоритма , такого как Soundex , NYSIIS или метафон , или более продвинутых коммерческих аспектов, таких как оценка имен с помощью IBM Global Name Management ^[11] , может помочь решить проблемы такого типа. Однако они еще могут споткнуться о смене фамилии в результате брака или развода), но тогда В2 будет сопоставляться только с А1, так как почтовый индекс в А2 другой. Таким образом, необходимо будет создать еще одно правило, чтобы определить, приемлемы ли различия в конкретных идентификаторах (например, почтовый индекс), а какие нет (например, дата рождения).

Как показывает этот пример, даже небольшое снижение качества данных или небольшое увеличение сложности данных может привести к очень значительному увеличению количества правил, необходимых для правильного связывания записей. В конце концов, эти правила связи станут слишком многочисленными и взаимосвязанными, чтобы их можно было построить без помощи специализированных программных инструментов. Кроме того, правила связывания часто зависят от характера наборов данных, для связи которых они предназначены. В одном исследовании удалось связать « Основное досье о смерти» социального обеспечения с двумя реестрами больниц на Среднем Западе США, используя SSN, имя, месяц рождения и пол в кодировке NYSIIS, но эти правила могут не работать так же хорошо с наборами данных из других географических регионов. регионах или на основе данных, собранных о более молодом населении. ^[12] Таким образом, необходимо постоянное тестирование этих правил, чтобы гарантировать, что они продолжают функционировать должным образом, когда новые данные поступают в систему и должны быть связаны. Новые данные, характеристики которых отличаются от первоначально ожидаемых, могут потребовать полной перестройки набора правил связывания записей, что может оказаться очень трудоемким и дорогостоящим мероприятием.

Вероятностная связь записей

Вероятностное связывание записей , иногда называемое нечетким сопоставлением (также вероятностное слияние или нечеткое слияние в контексте слияния баз данных), использует другой подход к проблеме связывания записей, принимая во внимание более широкий диапазон потенциальных идентификаторов, вычисляя веса для каждого идентификатора на основе от его предполагаемой способности правильно идентифицировать совпадение или несовпадение и использования этих весов для расчета вероятности того, что две заданные записи относятся к одному и тому же объекту. Пары записей с вероятностями выше определенного порога считаются совпадающими, а пары с вероятностями ниже другого порога считаются несовпадающими; пары, попадающие между этими двумя пороговыми значениями, считаются «возможными совпадениями» и могут обрабатываться соответствующим образом (например, проверяться человеком, связываться или не связываться, в зависимости от требований). В то время как детерминированная связь записей требует предварительного программирования ряда потенциально сложных правил, вероятностные методы связи записей можно «обучить» для хорошей работы с гораздо меньшим вмешательством человека.

Многие алгоритмы вероятностного связывания записей присваивают идентификаторам веса совпадения/несовпадения с помощью двух вероятностей, называемых и . Вероятность — это вероятность того, что идентификаторы в двух несовпадающих записях совпадут чисто случайно. Например, вероятность месяца рождения (где есть двенадцать значений, которые примерно равномерно распределены) равна ; идентификаторы со значениями, которые распределены неравномерно, будут иметь разные вероятности для разных значений (возможно, включая пропущенные значения). Вероятность — это вероятность того, что идентификаторы в совпадающих парах совпадут (или будут достаточно похожи, например, строки с низким расстоянием Яро-Винклера или Левенштейна ). Это значение было бы в случае идеальных данных, но, учитывая, что это редко (если вообще когда-либо) соответствует действительности, вместо этого его можно оценить. Эту оценку можно выполнить на основе предварительного знания наборов данных, вручную идентифицируя большое количество совпадающих и несовпадающих пар для «обучения» алгоритма вероятностной связи записей, или путем итеративного запуска алгоритма для получения более точных оценок вероятности . . Если бы значение вероятности нужно было оценить , то веса совпадения/несовпадения для идентификатора месяца рождения были бы следующими: $и$ $м$ $и$ $и$ $1/12\около 0,083$ $и$ $м$ $1.0$ $м$ $0.95$ $м$

Те же вычисления будут выполнены для всех других рассматриваемых идентификаторов, чтобы определить их веса совпадения/несоответствия. Затем каждый идентификатор одной записи будет сравниваться с соответствующим идентификатором другой записи для вычисления общего веса пары: вес совпадения добавляется к текущему итогу всякий раз, когда пара идентификаторов согласуется, а вес несовпадения добавляется. (т.е. промежуточный итог уменьшается) всякий раз, когда пара идентификаторов не согласуется. Полученный общий вес затем сравнивается с вышеупомянутыми пороговыми значениями, чтобы определить, должна ли пара быть связанной, несвязанной или отложенной для специального рассмотрения (например, ручной проверки). ^[13]

Определение того, где установить пороговые значения совпадения/несовпадения, — это баланс между получением приемлемой чувствительности (или отзыва , доли действительно совпадающих записей, связанных алгоритмом) и положительной прогностической ценности (или точности , доли связанных записей). по алгоритму, который действительно соответствует). Для прогнозирования наилучших пороговых значений доступны различные ручные и автоматизированные методы, а некоторые пакеты программного обеспечения для связывания записей имеют встроенные инструменты, помогающие пользователю найти наиболее приемлемые значения. Поскольку это может быть очень ресурсоемкой задачей, особенно для больших наборов данных, для повышения эффективности часто используется метод, известный как блокировка . Блокировка пытается ограничить сравнения только теми записями, для которых совпадают один или несколько особенно различающих идентификаторов, что приводит к увеличению положительной прогностической ценности (точности) за счет чувствительности (напоминаемости). ^[13] Например, блокировка на основе фонетически закодированной фамилии и почтового индекса уменьшит общее количество требуемых сравнений и повысит вероятность того, что связанные записи будут правильными (поскольку два идентификатора уже совпадают), но потенциально могут привести к пропуску записей, относящихся к тот же человек, фамилия или почтовый индекс которого были разными (например, из-за брака или переезда). Блокировка на основе месяца рождения, более стабильного идентификатора, который, как ожидается, будет меняться только в случае ошибки данных, обеспечит более скромный прирост положительной прогностической ценности и потерю чувствительности, но создаст только двенадцать отдельных групп, которые, в крайнем случае, будут большие наборы данных могут не обеспечить существенного увеличения скорости вычислений. Таким образом, надежные системы связывания записей часто используют несколько проходов блокировки для группировки данных различными способами, чтобы получить группы записей, которые следует сравнивать друг с другом.

Машинное обучение

В последние годы для связывания записей использовались различные методы машинного обучения. Было признано ^[7] , что классический алгоритм Феллеги-Сунтера для вероятностного связывания записей, изложенный выше, эквивалентен алгоритму Наивного Байеса в области машинного обучения ^[14] и страдает от того же предположения о независимости его функций ( предположение, которое обычно неверно). ^[15]^[16] Более высокой точности часто можно достичь, используя различные другие методы машинного обучения, включая однослойный персептрон , ^[7] случайный лес и SVM . ^[17] В сочетании с распределенными технологиями ^[18] точность и масштаб увязки записей могут быть дополнительно улучшены.

Гибридная связь человека и машины

Высококачественная связь записей часто требует гибридной человеко-машинной системы для безопасного управления неопределенностью в постоянно меняющихся потоках хаотичных больших данных. ^[19]^[20] Признавая, что ошибки связывания распространяются на связанные данные и их анализ, были предложены интерактивные системы связывания записей. Интерактивное связывание записей определяется как люди, итеративно настраивающие результаты автоматизированных методов и управляющие неопределенностью и ее распространением на последующие анализы. ^[21] Основными задачами интерактивных систем увязки записей является ручное устранение неопределенных связей и проверка результатов до тех пор, пока они не достигнут приемлемого уровня для данного приложения. Также были предложены варианты интерактивной связи записей, которые повышают конфиденциальность на этапах взаимодействия с людьми. ^[22]^[23]

Связь записей с сохранением конфиденциальности

Увязка записей все чаще требуется между базами данных, хранящимися в различных организациях, где дополнительные данные, хранящиеся в этих организациях, могут, например, помочь идентифицировать пациентов, восприимчивых к определенным нежелательным реакциям на лекарства (связывание баз данных больниц, врачей и аптек). Однако во многих таких приложениях базы данных, которые необходимо связать, содержат конфиденциальную информацию о людях, которая не может быть передана между организациями. ^[24]

Методы связывания записей с сохранением конфиденциальности (PPRL) были разработаны с целью связать базы данных без необходимости совместного использования исходных конфиденциальных значений между организациями, которые участвуют в связывании. ^[25]^[26] В PPRL обычно значения атрибутов сравниваемых записей кодируются или шифруются в той или иной форме. Популярным методом такого кодирования является фильтр Блума ^[27] , который позволяет вычислять приблизительное сходство между закодированными значениями без необходимости совместного использования соответствующих чувствительных значений открытого текста. В конце процесса PPRL организациям, участвующим в процессе связывания, предоставляется лишь ограниченная информация о парах записей, классифицированных как совпадения. Методы, используемые в PPRL ^[25], должны гарантировать, что ни одна участвующая организация или какой-либо внешний злоумышленник не смогут поставить под угрозу конфиденциальность объектов, которые представлены записями в связанных базах данных. ^[28]

Математическая модель

В приложении с двумя файлами A и B обозначим строки ( записи ) в файле A и в файле B. Присвоим характеристики каждой записи. Набор записей, представляющих идентичные объекты, определяется $\альфа (а)$ ${\ displaystyle \ beta (б)}$ $K$

$M=\left\{(a,b);a=b;a\in A;b\in B\right\}$

и дополнение set , а именно набор, представляющий разные объекты, определяется как $M$ $U$

$U=\{(a,b);a\neq b;a\in A;b\in B\}$ .

Определяется вектор , содержащий закодированные совпадения и разногласия по каждому признаку: $\gamma$

$\gamma \left[\alpha (a),\beta (b)\right]=\{\gamma ^{1}\left[\alpha (a),\beta (b)\right],...,\gamma ^{K}\left[\alpha (a),\beta (b)\right]\}$

где – индекс характеристик (пол, возраст, семейное положение и т.п.) в файлах. Условные вероятности наблюдения конкретного заданного вектора определяются как $K$ $\gamma$ $(a,b)\in M$ $(a,b)\in U$

$m(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in M\right\}=\sum _{(a,b)\in M}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|M\right]$

$u(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in U\right\}=\sum _{(a,b)\in U}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|U\right],$ соответственно. ^[6]

Приложения

Управление основными данными

Большинство продуктов управления основными данными (MDM) используют процесс связывания записей для идентификации записей из разных источников, представляющих один и тот же реальный объект. Эта связь используется для создания «золотой основной записи», содержащей очищенные и согласованные данные об объекте. Методы, используемые в MDM, в целом такие же, как и для связывания записей. MDM расширяет это сопоставление не только для создания «золотой основной записи», но и для вывода взаимосвязей. (т. е. у человека одинаковая/похожая фамилия и одинаковый/похожий адрес, это может означать, что у него одинаковые семейные отношения).

Хранилища данных и бизнес-аналитика

Связь записей играет ключевую роль в хранении данных и бизнес-аналитике . Хранилища данных служат для объединения данных из множества различных операционных исходных систем в одну логическую модель данных , которую затем можно впоследствии передать в систему бизнес-аналитики для отчетности и аналитики. Каждая оперативная исходная система может иметь свой собственный метод идентификации одних и тех же объектов, используемых в логической модели данных, поэтому становится необходимым связывание записей между различными источниками, чтобы гарантировать, что информацию о конкретном объекте в одной исходной системе можно легко сравнить с информацией о тот же объект из другой исходной системы. Стандартизация данных и последующее связывание записей часто происходят на этапе «преобразования» процесса извлечения, преобразования, загрузки (ETL).

Исторические исследования

Увязка записей важна для исследований социальной истории, поскольку большинство наборов данных, таких как записи переписи населения и приходские книги, были записаны задолго до изобретения национальных идентификационных номеров . Когда старые источники оцифровываются, связывание наборов данных является необходимым условием для продольного исследования . Этот процесс часто осложняется отсутствием стандартного написания имен, фамилиями, которые меняются в зависимости от места проживания, изменением административных границ и проблемами сверки данных с другими источниками. Связь записей была одной из наиболее важных тем в области истории и вычислительной техники в 1980-х годах, но с тех пор в исследованиях ей уделялось меньше внимания. ^{[ нужна цитата ]}

Медицинская практика и исследования

Увязка записей является важным инструментом в создании данных, необходимых для изучения состояния здоровья населения и самой системы здравоохранения. Его можно использовать для улучшения хранения данных, сбора данных, оценки качества и распространения информации. Источники данных могут быть проверены для устранения дублирующих записей, выявления заниженных или отсутствующих случаев (например, переписи населения), для создания ориентированной на человека статистики здравоохранения, а также для создания реестров заболеваний и систем наблюдения за здоровьем. Некоторые онкологические регистры связывают различные источники данных (например, данные о госпитализации, патологоанатомические и клинические отчеты, а также регистрации случаев смерти) для создания своих реестров. Увязка записей также используется для создания показателей состояния здоровья. Например, внутриутробная и младенческая смертность является общим показателем социально-экономического развития страны, общественного здравоохранения, а также служб охраны материнства и детства. Если записи о младенческой смертности сопоставляются с записями о рождении, при анализе данных можно использовать переменные при рождении, такие как вес при рождении и гестационный возраст, а также данные о смертности, такие как причина смерти. Связи могут помочь в последующих исследованиях когорт или других групп для определения таких факторов, как жизненный статус, статус проживания или состояние здоровья. Отслеживание часто необходимо для наблюдения за промышленными когортами, клинических испытаний и продольных исследований с целью установления причины смерти и/или рака. Примером успешной и давно существующей системы увязки записей, позволяющей проводить медицинские исследования на уровне населения, является Рочестерский эпидемиологический проект, базирующийся в Рочестере, штат Миннесота . ^[29]

Критика существующих реализаций программного обеспечения

Основными причинами являются: ^{[ нужна ссылка ]}

Затраты на проект : обычно составляют сотни тысяч долларов.
Время : нехватка времени для работы с крупномасштабным программным обеспечением для очистки данных.
Безопасность : проблемы, связанные с обменом информацией, предоставлением приложению доступа между системами и влиянием на устаревшие системы.
Масштабируемость : из-за отсутствия уникальных идентификаторов в записях связывание записей требует больших вычислительных затрат и трудно масштабируется. ^[30]
Точность : изменение бизнес-данных и сбор всех правил связывания — сложная и трудоемкая задача.

Смотрите также

Примечания и ссылки

^ «Кристен, P&T: Фебрл - Свободно расширяемая связь с биомедицинскими записями (Руководство, версия 0.3), стр.9» . Архивировано из оригинала 11 марта 2016 г. Проверено 21 апреля 2006 г.
^ Эльмагармид, Ахмед; Панайотис Г. Ипейротис; Василиос Верикиос (январь 2007 г.). «Обнаружение повторяющихся записей: опрос» (PDF) . Транзакции IEEE по знаниям и инженерии данных . 19 (1): стр. 1–16. дои : 10.1109/tkde.2007.250581. S2CID 386036 . Проверено 30 марта 2009 г.
^ Сингла, Параг; Домингос, Педро (декабрь 2006 г.). «Разрешение сущностей с помощью марковской логики» (PDF) . Шестая международная конференция по интеллектуальному анализу данных (ICDM'06) . стр. 572–582. дои :10.1109/ICDM.2006.65. ISBN 9780769527024. S2CID 12211870 . Проверено 1 марта 2023 г.
^ Данн, Халберт Л. (декабрь 1946 г.). «Связка записей». Американский журнал общественного здравоохранения . 36 (12): стр. 1412–1416. дои : 10.2105/AJPH.36.12.1412. ПМК 1624512 . ПМИД 18016455.
^ Ньюкомб, HB; Дж. М. Кеннеди; С. Дж. Аксфорд; А. П. Джеймс (октябрь 1959 г.). «Автоматическое связывание важных записей». Наука . 130 (3381): 954–959. Бибкод : 1959Sci...130..954N. дои : 10.1126/science.130.3381.954. ПМИД 14426783.
^ аб Феллеги, Иван ; Сантер, Алан (декабрь 1969 г.). «Теория связи записей» (PDF) . Журнал Американской статистической ассоциации . 64 (328): стр. 1183–1210. дои : 10.2307/2286061. JSTOR 2286061.
^ abc Wilson, Д. Рэндалл, Д. Рэндалл (31 июля - 5 августа 2011 г.). За пределами вероятностной связи записей: использование нейронных сетей и сложных функций для улучшения связи генеалогических записей (PDF) . Материалы международной совместной конференции по нейронным сетям. Сан-Хосе, Калифорния, США.
^ Винклер, Уильям Э. «Сопоставление и привязка записей» (PDF) . Бюро переписи населения США . Проверено 12 ноября 2011 г.
^ Церкви, Тим; Питер Кристен; Ким Лим; Джастин Си Чжу (13 декабря 2002 г.). «Подготовка данных имени и адреса для привязки записей с использованием скрытых моделей Маркова». BMC Медицинская информатика и принятие решений . 2 :9. дои : 10.1186/1472-6947-2-9 . ПМК 140019 . ПМИД 12482326.
^ Роос, LL; Вайда А. (апрель 1991 г.). «Стратегии увязки записей. Часть I: Оценка информации и подходы к оценке». Методы информации в медицине . 30 (2): 117–123. дои : 10.1055/s-0038-1634828. PMID 1857246. S2CID 23501719.
^ https://www.ibm.com/docs/en/ignm/6.0.0?topic=overview-infSphere-global-name-management
^ Граннис, SJ; Overhage JM; Макдональд CJ (2002). «Анализ производительности идентификатора с использованием детерминированного алгоритма связи». Процедура AMIA Симп. : 305–9. ПМК 2244404 . ПМИД 12463836.
^ аб Блейкли, Тони; Салмонд, Клэр (декабрь 2002 г.). «Вероятностная связь записей и метод расчета положительной прогностической ценности». Международный журнал эпидемиологии . 31 (6): 1246–1252. дои : 10.1093/ije/31.6.1246 . ПМИД 12540730.
^ Куасс, Даллан и Старки, Пол. «Связывание записей для генеалогических баз данных», Семинар ACM SIGKDD '03 по очистке данных, связыванию записей и консолидации объектов, 24–27 августа 2003 г., Вашингтон, округ Колумбия.
^ Лэнгли, Пэт, Уэйн Иба и Кевин Томпсон. «Анализ байесовских классификаторов», в материалах 10-й Национальной конференции по искусственному интеллекту (AAAI-92), AAAI Press/MIT Press, Кембридж, Массачусетс, стр. 223-228, 1992.
^ Мичи, Д.; Шпигельхальтер, Д.; Тейлор, К. (1994). Машинное обучение, нейронная и статистическая классификация . Хартфордшир, Англия: Эллис Хорвуд. ISBN 0-13-106360-Х.
^ Рамезани, М.; Илангован, Г.; Кум, ХК. (2021). Оценка алгоритмов машинного обучения в гибридной системе связи человек-компьютер (PDF) . Том. 2846. Протоколы семинара CEUR.
^ «Нечеткое совпадение с Искрой» . Искра Саммит.
^ Бронштейн, Джанет М.; Ломач, Чарльз Т.; Флетчер, Дэвид; Вутен, Терри; Линь, Цай Мэй; Ньюджент, Ричард; Лоури, Кертис Л. (1 мая 2008 г.). «Проблемы и отклонения в сопоставлении эпизодов беременности по программе Medicaid с данными записей актов гражданского состояния: опыт Арканзаса». Журнал «Здоровье матери и ребенка» . 13 (2): 250–259. doi : 10.1007/s10995-008-0347-z. ISSN 1092-7875. PMID 18449631. S2CID 22259447.
^ Боско, Фрэнсис П.; Шраг, Дебора; Чен, Кун; Рухан, Патрик Дж.; Шимура, Мария Дж. (15 декабря 2010 г.). «Наращивание потенциала для оценки онкологической помощи среди населения Medicaid в штате Нью-Йорк». Исследования служб здравоохранения . 46 (3): 805–820. дои : 10.1111/j.1475-6773.2010.01221.x. ISSN 0017-9124. ПМК 3087842 . ПМИД 21158856.
^ Кум, Хе-Чунг; Кришнамурти, Ашок; Мачанавайджхала, Ашвин; Райтер, Майкл К.; Ахальт, Стэнли (март 2014 г.). «Интерактивная связь записей с сохранением конфиденциальности (PPIRL)». Журнал Американской ассоциации медицинской информатики . 21 (2): 212–220. дои : 10.1136/amiajnl-2013-002165. ISSN 1067-5027. ПМЦ 3932473 . ПМИД 24201028.
^ Кум, ХК; Рэган, Э.; Илангован, Г.; Рамезани, М.; Ли, К.; Шмит, К. (2019). Повышение конфиденциальности с помощью интерактивного интерфейса дополнительного раскрытия информации по требованию: применение проектной конфиденциальности к привязке записей (PDF) . Пятнадцатый симпозиум по полезной конфиденциальности и безопасности (SOUPS). стр. 175–189. ISBN 978-1-939133-05-2.
^ Рэган, Эрик Д.; Кум, Хе-Чунг; Илангован, Гурудев; Ван, Хан (21 апреля 2018 г.). «Баланс между конфиденциальностью и раскрытием информации при интерактивной связи записей с визуальной маскировкой». Материалы конференции CHI 2018 года по человеческому фактору в вычислительных системах . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 1–12. дои : 10.1145/3173574.3173900. ISBN 9781450356206. S2CID 5051254.
^ Вацалан, Д; Сехили, З; Кристен, П; Рам, Э (2017). «Связывание записей для сохранения конфиденциальности для больших данных: современные подходы и проблемы исследований». Справочник по технологиям больших данных . стр. 851–895. дои : 10.1007/978-3-319-49340-4_25. hdl : 1885/247396. ISBN 978-3-319-49339-8.
^ аб Кристен, П; Ранбадуге, Т; Шнелл, Р. (2020). Связывание конфиденциальных данных: методы и методы практического обмена информацией с сохранением конфиденциальности. Гейдельберг: Спрингер. дои : 10.1007/978-3-030-59706-1. ISBN 978-3-030-59706-1. S2CID 222821833.
^ Гкулалас-Диванис, А; Вацалан, Д; Карапиперис, Д; Кантарчиоглу, М (2021). «Современные методы связывания записей, обеспечивающие конфиденциальность: обзор». Транзакции IEEE по информационной криминалистике и безопасности . 16 : 4966–4987. дои : 10.1109/TIFS.2021.3114026. S2CID 239088979.
^ Шнелл, Р; Бахтелер, Т; Рейхер, Дж (2009). «Связывание записей с сохранением конфиденциальности с использованием фильтров Блума». BMC Медицинская информатика и принятие решений . 9:41 . дои : 10.1186/1472-6947-9-41 . ПМЦ 2753305 . ПМИД 19706187.
^ Виданаге, А (2022). Эффективные методы криптоанализа для связывания записей с сохранением конфиденциальности (Диссертация). Канберра: Австралийский национальный университет. doi : 10.25911/VSBZ-A727. hdl : 1885/254502.
^ Сент-Совер JL; Гроссардт БР; Зевать БП; Мелтон LJ 3-й; Панкрац Дж. Дж.; Брю СМ; Рокка, Вашингтон (2012). «Профиль ресурса данных: система связи медицинских записей Рочестерского эпидемиологического проекта (REP)». Int J Epidemiol . 41 (6): 1614–24. дои : 10.1093/ije/dys195. ПМЦ 3535751 . ПМИД 23159830. {{cite journal}}: CS1 maint: numeric names: authors list (link)
^ «Разрешение объекта в масштабе» . 14 февраля 2020 г.

Внешние ссылки

Проект связи данных в штате Пенсильвания, США
Стэнфордская структура разрешения сущностей
Dedoop — Дедупликация с помощью Hadoop
Интерактивная связь записей с улучшенной конфиденциальностью в Техасском университете A&M
Обзор сопоставления данных