Связывание записей (также известное как сопоставление данных , связывание данных , разрешение сущностей и многие другие термины) — это задача поиска записей в наборе данных, которые ссылаются на одну и ту же сущность в разных источниках данных (например, файлы данных, книги, веб-сайты и базы данных). Связывание записей необходимо при объединении разных наборов данных на основе сущностей, которые могут или не могут иметь общий идентификатор (например, ключ базы данных , URI , национальный идентификационный номер ), что может быть связано с различиями в форме записи, месте хранения или стиле или предпочтениях куратора. Набор данных, прошедший согласование, ориентированное на RL, может называться перекрестно связанным .
«Связывание записей» — это термин, используемый статистиками, эпидемиологами и историками, среди прочих, для описания процесса объединения записей из одного источника данных с другим, описывающим одну и ту же сущность. Однако для этого процесса используется много других терминов. К сожалению, это обилие терминологии привело к небольшому количеству перекрестных ссылок между этими исследовательскими сообществами. [1] [2]
Ученые-компьютерщики часто называют это «сопоставлением данных» или «проблемой идентичности объекта». Коммерческие почтовые и базовые приложения называют это «обработкой слияния/очистки» или «промыванием списков». Другие названия, используемые для описания той же концепции, включают: «разрешение кореференции/сущности/идентичности/имени/записи», «устранение неоднозначности/связывание сущностей», «нечеткое соответствие», «обнаружение дубликатов», «дедупликация», «сопоставление записей», «согласование (ссылок)», «идентификация объекта», «интеграция данных/информации» и «конфляция». [3]
Хотя они имеют схожие названия, связывание записей и связанные данные представляют собой два отдельных подхода к обработке и структурированию данных. Хотя оба подхода предполагают идентификацию соответствующих сущностей в разных наборах данных, связывание записей стандартно приравнивает «сущности» к человеческим индивидуумам; в отличие от этого, связанные данные основаны на возможности связывания любых веб-ресурсов в наборах данных, используя соответственно более широкую концепцию идентификатора, а именно URI .
Первоначальная идея связи записей восходит к Хэлберту Л. Данну в его статье 1946 года под названием «Связь записей», опубликованной в Американском журнале общественного здравоохранения . [4]
Затем Говард Борден Ньюкомб заложил вероятностные основы современной теории связи записей в статье 1959 года в журнале Science . [5] Они были формализованы в 1969 году Иваном Феллеги и Аланом Сантером в их пионерской работе «Теория связи записей», где они доказали, что описанное ими вероятностное правило принятия решений было оптимальным, когда атрибуты сравнения были условно независимыми. [6] В своей работе они признали растущий интерес к применению достижений в области вычислений и автоматизации к большим наборам административных данных , и теория Феллеги-Сантера остается математической основой для многих приложений связи записей.
С конца 1990-х годов были разработаны различные методы машинного обучения , которые при благоприятных условиях могут использоваться для оценки условных вероятностей, требуемых теорией Феллеги-Сантера. Несколько исследователей сообщили, что предположение об условной независимости алгоритма Феллеги-Сантера часто нарушается на практике; однако опубликованные попытки явно смоделировать условные зависимости среди атрибутов сравнения не привели к улучшению качества связи записей. [ необходима цитата ] С другой стороны, алгоритмы машинного обучения или нейронных сетей, которые не полагаются на эти предположения, часто обеспечивают гораздо более высокую точность, когда доступно достаточно размеченных обучающих данных. [7]
Связывание записей может быть выполнено полностью без помощи компьютера, но основные причины, по которым компьютеры часто используются для завершения связывания записей, заключаются в том, чтобы сократить или исключить ручной просмотр и сделать результаты более легко воспроизводимыми. Компьютерное сопоставление имеет преимущества, позволяя централизованно контролировать обработку, лучший контроль качества, скорость, последовательность и лучшую воспроизводимость результатов. [8]
Связывание записей очень чувствительно к качеству связываемых данных, поэтому все рассматриваемые наборы данных (особенно их ключевые поля идентификаторов) в идеале должны пройти оценку качества данных до связывания записей. Многие ключевые идентификаторы для одной и той же сущности могут быть представлены совершенно по-разному между (и даже внутри) наборами данных, что может значительно усложнить связывание записей, если не будет понято заранее. Например, ключевые идентификаторы для человека по имени Уильям Дж. Смит могут появляться в трех разных наборах данных следующим образом:
В этом примере разные стили форматирования приводят к записям, которые выглядят по-разному, но на самом деле все ссылаются на одну и ту же сущность с одинаковыми значениями логического идентификатора. Большинство, если не все, стратегий связывания записей привели бы к более точной связи, если бы эти значения были сначала нормализованы или стандартизированы в единообразный формат (например, все имена - "Фамилия, Имя", а все даты - "ГГГГ/ММ/ДД"). Стандартизация может быть достигнута с помощью простых преобразований данных на основе правил или более сложных процедур, таких как токенизация на основе лексикона и вероятностные скрытые модели Маркова. [9] Несколько пакетов, перечисленных в разделе "Реализации программного обеспечения" , предоставляют некоторые из этих функций для упрощения процесса стандартизации данных.
Разрешение сущностей — это операционный процесс разведки , обычно поддерживаемый механизмом разрешения сущностей или промежуточным программным обеспечением , посредством которого организации могут связывать разрозненные источники данных с целью понимания возможных совпадений сущностей и неочевидных связей в нескольких хранилищах данных . Он анализирует всю информацию , касающуюся лиц и/или сущностей из нескольких источников данных, а затем применяет оценку вероятности и вероятности, чтобы определить, какие личности являются совпадениями и какие, если таковые имеются, неочевидные связи существуют между этими личностями.
Механизмы разрешения сущностей обычно используются для обнаружения риска , мошенничества и конфликтов интересов, но также являются полезными инструментами для использования в рамках требований интеграции данных клиентов (CDI) и управления основными данными (MDM). Типичные области применения механизмов разрешения сущностей включают проверку террористов, обнаружение страхового мошенничества, соответствие Закону США о патриотизме , обнаружение организованных преступных группировок в розничной торговле и проверку кандидатов.
Например: в разных хранилищах данных — записях о сотрудниках, данных о поставщиках, списках наблюдения и т. д. — организация может иметь несколько вариаций сущности с именем ABC, которые могут быть или не быть одним и тем же лицом. Эти записи могут, по сути, отображаться как ABC1, ABC2 или ABC3 в этих источниках данных. Сравнивая сходства между базовыми атрибутами, такими как адрес , дата рождения или номер социального страхования , пользователь может исключить некоторые возможные совпадения и подтвердить другие как весьма вероятные совпадения.
Затем механизмы разрешения сущностей применяют правила, основанные на логике здравого смысла, для выявления скрытых связей в данных. В приведенном выше примере, возможно, ABC1 и ABC2 — это не одно и то же лицо, а два разных человека, которые имеют общие атрибуты, такие как адрес или номер телефона.
Хотя решения по разрешению сущностей включают технологию сопоставления данных, многие предложения по сопоставлению данных не соответствуют определению разрешения сущностей. Вот четыре фактора, которые отличают разрешение сущностей от сопоставления данных, по словам Джона Талберта, директора Центра передовых исследований в области разрешения сущностей и качества информации UALR :
В отличие от продуктов качества данных, более мощные механизмы разрешения идентификаций также включают в себя механизм правил и процесс рабочего процесса, которые применяют бизнес-аналитику к разрешенным идентификациям и их связям. Эти передовые технологии принимают автоматизированные решения и влияют на бизнес-процессы в режиме реального времени, ограничивая необходимость человеческого вмешательства.
Самый простой вид связывания записей, называемый детерминированным или основанным на правилах связыванием записей , генерирует связи на основе количества индивидуальных идентификаторов, которые совпадают среди доступных наборов данных. [10] Говорят, что две записи совпадают посредством процедуры детерминированного связывания записей, если все или некоторые идентификаторы (выше определенного порога) идентичны. Детерминированное связывание записей является хорошим вариантом, когда сущности в наборах данных идентифицируются общим идентификатором или когда есть несколько репрезентативных идентификаторов (например, имя, дата рождения и пол при идентификации человека), качество данных которых относительно высокое.
В качестве примера рассмотрим два стандартизированных набора данных, Set A и Set B, которые содержат различные биты информации о пациентах в больничной системе. Два набора данных идентифицируют пациентов с помощью различных идентификаторов: номер социального страхования (SSN), имя, дата рождения (DOB), пол и почтовый индекс (ZIP). Записи в двух наборах данных (идентифицированных столбцом "#") показаны ниже:
Самая простая стратегия детерминированной связи записей будет заключаться в выборе одного идентификатора, который, как предполагается, является уникально идентифицирующим, скажем, SSN, и объявлении, что записи, имеющие одинаковое значение, идентифицируют одного и того же человека, в то время как записи, не имеющие одинакового значения, идентифицируют разных людей. В этом примере детерминированная связь на основе SSN создаст сущности на основе A1 и A2; A3 и B1; и A4. Хотя A1, A2 и B2, по-видимому, представляют одну и ту же сущность, B2 не будет включен в сопоставление, поскольку в нем отсутствует значение для SSN.
Обработка исключений, таких как отсутствующие идентификаторы, подразумевает создание дополнительных правил связывания записей. Одним из таких правил в случае отсутствующего SSN может быть сравнение имени, даты рождения, пола и почтового индекса с другими записями в надежде найти совпадение. В приведенном выше примере это правило все равно не сопоставило бы A1/A2 с B2, поскольку имена все еще немного отличаются: стандартизация поместила имена в правильный формат (фамилия, имя), но не смогла распознать «Билл» как прозвище для «Уильяма». Прогон имен через фонетический алгоритм , такой как Soundex , NYSIIS или metaphone , может помочь решить эти типы проблем. Однако они все еще могут споткнуться об изменениях фамилии в результате брака или развода, но тогда B2 будет сопоставлен только с A1, поскольку почтовый индекс в A2 отличается. Таким образом, необходимо создать еще одно правило, чтобы определить, приемлемы ли различия в конкретных идентификаторах (например, почтовый индекс), а какие нет (например, дата рождения).
Как показывает этот пример, даже небольшое снижение качества данных или небольшое увеличение сложности данных может привести к очень большому увеличению количества правил, необходимых для правильной связи записей. В конечном итоге эти правила связи станут слишком многочисленными и взаимосвязанными, чтобы их можно было построить без помощи специализированных программных инструментов. Кроме того, правила связи часто специфичны для характера наборов данных, которые они призваны связывать вместе. Одно исследование смогло связать файл Social Security Death Master File с двумя больничными реестрами со Среднего Запада США, используя SSN, закодированное в NYSIIS имя, месяц рождения и пол, но эти правила могут не работать так же хорошо с наборами данных из других географических регионов или с данными, собранными о более молодом населении. [11] Таким образом, необходимо постоянное тестирование этих правил, чтобы гарантировать, что они продолжают функционировать так, как ожидается, по мере того, как новые данные поступают в систему и должны быть связаны. Новые данные, которые демонстрируют характеристики, отличные от первоначально ожидаемых, могут потребовать полной перестройки набора правил связи записей, что может быть очень трудоемким и дорогостоящим мероприятием.
Вероятностное связывание записей , иногда называемое нечетким соответствием (также вероятностным слиянием или нечетким слиянием в контексте слияния баз данных), использует другой подход к проблеме связывания записей, принимая во внимание более широкий диапазон потенциальных идентификаторов, вычисляя веса для каждого идентификатора на основе его предполагаемой способности правильно идентифицировать совпадение или несовпадение, и используя эти веса для вычисления вероятности того, что две заданные записи относятся к одной и той же сущности. Пары записей с вероятностями выше определенного порога считаются совпадениями, в то время как пары с вероятностями ниже другого порога считаются несовпадениями; пары, которые попадают между этими двумя порогами, считаются «возможными совпадениями» и могут быть обработаны соответствующим образом (например, просмотрены человеком, связаны или не связаны, в зависимости от требований). В то время как детерминированное связывание записей требует предварительного программирования ряда потенциально сложных правил, вероятностные методы связывания записей можно «обучить» для хорошей работы с гораздо меньшим вмешательством человека.
Многие вероятностные алгоритмы связывания записей назначают идентификаторам веса совпадений/несовпадений с помощью двух вероятностей, называемых и . Вероятность — это вероятность того, что идентификатор в двух несовпадающих записях совпадет чисто случайно. Например, вероятность для месяца рождения (где есть двенадцать значений, которые приблизительно равномерно распределены) равна ; идентификаторы со значениями, которые неравномерно распределены, будут иметь разные вероятности для разных значений (возможно, включая пропущенные значения). Вероятность — это вероятность того, что идентификатор в совпадающих парах совпадет (или будет достаточно похожим, например, строки с низким расстоянием Джаро-Винклера или Левенштейна ). Это значение будет в случае идеальных данных, но, учитывая, что это редко (если вообще когда-либо) верно, его можно оценить. Эта оценка может быть сделана на основе предварительного знания наборов данных, путем ручного определения большого количества совпадающих и несовпадающих пар для «обучения» вероятностного алгоритма связывания записей или путем итеративного запуска алгоритма для получения более точных оценок вероятности . Если бы для вероятности оценивалось значение , то веса совпадения/несовпадения для идентификатора месяца рождения были бы следующими:
Те же вычисления будут выполнены для всех других рассматриваемых идентификаторов, чтобы найти их веса совпадений/несовпадений. Затем каждый идентификатор одной записи будет сравнен с соответствующим идентификатором другой записи, чтобы вычислить общий вес пары: вес совпадения добавляется к текущему итогу всякий раз, когда пара идентификаторов согласуется, в то время как вес несовпадения добавляется (т. е. текущий итог уменьшается) всякий раз, когда пара идентификаторов не согласуется. Затем полученный общий вес сравнивается с вышеупомянутыми пороговыми значениями, чтобы определить, следует ли связывать пару, не связывать ее или отложить для особого рассмотрения (например, ручной проверки). [12]
Определение того, где установить пороги совпадения/несовпадения, является балансирующим действием между получением приемлемой чувствительности (или отзыва , доли действительно совпадающих записей, которые связаны алгоритмом) и положительной предсказательной ценности (или точности , доли записей, связанных алгоритмом, которые действительно совпадают). Существуют различные ручные и автоматизированные методы для прогнозирования наилучших пороговых значений, а некоторые программные пакеты для связывания записей имеют встроенные инструменты, помогающие пользователю находить наиболее приемлемые значения. Поскольку это может быть очень вычислительно требовательной задачей, особенно для больших наборов данных, для повышения эффективности часто используется метод, известный как блокировка . Блокировка пытается ограничить сравнения только теми записями, для которых один или несколько особенно дискриминирующих идентификаторов совпадают, что приводит к увеличению положительной предсказательной ценности (точности) за счет чувствительности (отзыва). [12] Например, блокировка на основе фонетически закодированной фамилии и почтового индекса сократит общее количество требуемых сравнений и повысит вероятность того, что связанные записи будут правильными (поскольку два идентификатора уже совпадают), но потенциально пропустит записи, относящиеся к одному и тому же человеку, чья фамилия или почтовый индекс были разными (например, из-за брака или переезда). Блокировка на основе месяца рождения, более стабильного идентификатора, который, как ожидается, изменится только в случае ошибки данных, обеспечит более скромный выигрыш в положительной прогностической ценности и потерю чувствительности, но создаст только двенадцать отдельных групп, которые для чрезвычайно больших наборов данных могут не обеспечить значительного чистого улучшения скорости вычислений. Таким образом, надежные системы связывания записей часто используют несколько проходов блокировки для группировки данных различными способами, чтобы составить группы записей, которые следует сравнить друг с другом.
В последние годы для связывания записей использовались различные методы машинного обучения. Было признано [7] , что классический алгоритм Феллеги-Сантера для вероятностного связывания записей, описанный выше, эквивалентен наивному байесовскому алгоритму в области машинного обучения [13] и страдает от того же предположения о независимости его признаков (предположение, которое обычно неверно). [14] [15] Более высокой точности часто можно достичь, используя различные другие методы машинного обучения, включая однослойный персептрон , [7] случайный лес и SVM . [16] В сочетании с распределенными технологиями [17] точность и масштаб для связывания записей могут быть улучшены еще больше.
Высококачественная связь записей часто требует гибридной системы человек-машина для безопасного управления неопределенностью в постоянно меняющихся потоках хаотичных больших данных. [18] [19] Признавая, что ошибки связи распространяются на связанные данные и их анализ, были предложены интерактивные системы связи записей. Интерактивная связь записей определяется как итеративно тонкая настройка результатов автоматизированных методов и управление неопределенностью и ее распространением на последующие анализы. [20] Главные цели интерактивных систем связи записей — вручную разрешать неопределенные связи и проверять результаты до тех пор, пока они не будут на приемлемом уровне для данного приложения. Также были предложены вариации интерактивной связи записей, которые повышают конфиденциальность на этапах человеческого взаимодействия. [21] [22]
Связывание записей все чаще требуется между базами данных, которые ведутся различными организациями, где дополнительные данные, хранящиеся в этих организациях, могут, например, помочь идентифицировать пациентов, которые подвержены определенным неблагоприятным реакциям на лекарства (связывание больничных, врачебных, аптекарских баз данных). Однако во многих таких приложениях базы данных, которые должны быть связаны, содержат конфиденциальную информацию о людях, которой нельзя делиться между организациями. [23]
Методы связывания записей с сохранением конфиденциальности (PPRL) были разработаны с целью связывания баз данных без необходимости совместного использования исходных конфиденциальных значений между организациями, участвующими в связывании. [24] [25] В PPRL, как правило, значения атрибутов сравниваемых записей кодируются или шифруются в какой-либо форме. Популярным таким методом кодирования является фильтр Блума , [26] который позволяет вычислять приблизительное сходство между кодированными значениями без необходимости совместного использования соответствующих конфиденциальных значений открытого текста. В конце процесса PPRL только ограниченная информация о парах записей, классифицированных как совпадения, раскрывается организациям, участвующим в процессе связывания. Методы, используемые в PPRL [24], должны гарантировать, что ни одна участвующая организация, ни какой-либо внешний противник не сможет поставить под угрозу конфиденциальность сущностей, которые представлены записями в связываемых базах данных. [27]
В приложении с двумя файлами, A и B, обозначьте строки ( записи ) в файле A и в файле B. Назначьте характеристики каждой записи. Набор записей, представляющих идентичные сущности, определяется как
и дополнение множества , а именно множество, представляющее различные сущности, определяется как
.
Определен вектор , содержащий закодированные совпадения и несовпадения по каждой характеристике:
где — индекс для характеристик (пол, возраст, семейное положение и т. д.) в файлах. Условные вероятности наблюдения определенного вектора , заданного , определяются как
и
соответственно. [6]
Большинство продуктов управления основными данными (MDM) используют процесс связывания записей для идентификации записей из разных источников, представляющих одну и ту же реальную сущность. Эта связь используется для создания «золотой основной записи», содержащей очищенные, согласованные данные о сущности. Методы, используемые в MDM, те же, что и для связывания записей в целом. MDM расширяет это сопоставление не только для создания «золотой основной записи», но и для выведения связей. (т. е. у человека такая же/похожая фамилия и такой же/похожий адрес, это может означать, что они разделяют бытовые отношения).
Связывание записей играет ключевую роль в хранении данных и бизнес-аналитике . Хранилища данных служат для объединения данных из множества различных операционных исходных систем в одну логическую модель данных , которая затем может быть впоследствии введена в систему бизнес-аналитики для отчетности и аналитики. Каждая операционная исходная система может иметь свой собственный метод идентификации тех же сущностей, используемых в логической модели данных, поэтому связывание записей между различными источниками становится необходимым для обеспечения того, чтобы информация о конкретной сущности в одной исходной системе могла быть легко сопоставлена с информацией о той же сущности из другой исходной системы. Стандартизация данных и последующее связывание записей часто происходят в части «преобразования» процесса извлечения, преобразования, загрузки (ETL).
Связывание записей важно для исследований социальной истории, поскольку большинство наборов данных, таких как записи переписи и приходские книги, были зарегистрированы задолго до изобретения национальных идентификационных номеров . Когда старые источники оцифровываются, связывание наборов данных является предпосылкой для продольного исследования . Этот процесс часто еще больше осложняется отсутствием стандартного написания имен, фамилиями, которые меняются в зависимости от места проживания, изменением административных границ и проблемами проверки данных по другим источникам. Связывание записей было одной из самых важных тем в области истории и вычислений в 1980-х годах, но с тех пор стало предметом меньшего внимания в исследованиях. [ необходима цитата ]
Связывание записей является важным инструментом в создании данных, необходимых для изучения здоровья населения и самой системы здравоохранения. Его можно использовать для улучшения хранения данных, сбора данных, оценки качества и распространения информации. Источники данных можно изучать для устранения дубликатов записей, выявления недоучтенных и пропущенных случаев (например, подсчетов населения переписи), создания ориентированной на человека статистики здравоохранения и создания реестров заболеваний и систем надзора за здоровьем. Некоторые реестры онкологических заболеваний связывают различные источники данных (например, госпитализации, патологоанатомические и клинические отчеты, а также регистрации смертей) для создания своих реестров. Связывание записей также используется для создания показателей здоровья. Например, фетальная и младенческая смертность является общим показателем социально-экономического развития страны, общественного здравоохранения и услуг по охране здоровья матери и ребенка. Если записи о младенческой смерти сопоставляются с записями о рождении, можно использовать переменные рождения, такие как вес при рождении и гестационный возраст, вместе с данными о смертности, такими как причина смерти, при анализе данных. Связи могут помочь в последующих исследованиях когорт или других групп для определения таких факторов, как жизненный статус, жилищный статус или результаты в отношении здоровья. Отслеживание часто необходимо для последующих исследований промышленных когорт, клинических испытаний и продольных обследований для получения причины смерти и/или рака. Примером успешной и давней системы связи записей, позволяющей проводить медицинские исследования на основе населения, является Rochester Epidemiology Project, базирующийся в Рочестере, штат Миннесота . [28]
Основные причины: [ необходима ссылка ]
{{cite journal}}
: CS1 maint: numeric names: authors list (link)