Сопоставление данных

В вычислениях и управлении данными сопоставление данных — это процесс создания сопоставлений элементов данных между двумя различными моделями данных . Сопоставление данных используется в качестве первого шага для решения широкого спектра задач интеграции данных , включая: ^[1]

Преобразование данных или посредничество данных между источником данных и местом назначения.
Идентификация взаимосвязей данных как часть анализа происхождения данных
Обнаружение скрытых конфиденциальных данных, таких как последние четыре цифры номера социального страхования, скрытых в другом идентификаторе пользователя, в рамках проекта маскировки или деидентификации данных.
Объединение нескольких баз данных в одну и определение избыточных столбцов данных для консолидации или исключения.

Например, компания, которая хотела бы передавать и получать покупки и счета-фактуры от других компаний, может использовать сопоставление данных для создания сопоставлений данных компании со стандартизированными сообщениями ANSI ASC X12 для таких элементов, как заказы на поставку и счета-фактуры.

Стандарты

Стандарты X12 — это общие стандарты электронного обмена данными (EDI), разработанные для того, чтобы позволить компании обмениваться данными с любой другой компанией, независимо от отрасли. Стандарты поддерживаются Аккредитованным комитетом по стандартам X12 (ASC X12), а Американский национальный институт стандартов (ANSI) аккредитован для установления стандартов для EDI. Стандарты X12 часто называют стандартами ANSI ASC X12 .

W3C представил R2RML в качестве стандарта для сопоставления данных в реляционной базе данных с данными, выраженными в терминах структуры описания ресурсов (RDF).

В будущем инструменты, основанные на семантических веб- языках, таких как RDF, язык веб-онтологии (OWL) и стандартизированный реестр метаданных , сделают отображение данных более автоматическим процессом. Этот процесс ускорится, если каждое приложение будет выполнять публикацию метаданных . Полное автоматическое сопоставление данных — очень сложная задача (см. семантический перевод ).

Графическое руководство с ручным кодированием

Сопоставление данных может выполняться различными способами с использованием процедурного кода, создания преобразований XSLT или с помощью инструментов графического сопоставления, которые автоматически генерируют исполняемые программы преобразования. Это графические инструменты, которые позволяют пользователю «рисовать» линии от полей одного набора данных к полям другого. Некоторые инструменты графического отображения данных позволяют пользователям «автоматически соединять» источник и пункт назначения. Эта функция зависит от того, совпадают ли имена элементов данных источника и назначения. Программы преобразования автоматически создаются на SQL, XSLT, Java или C++ . Подобные графические инструменты встречаются в большинстве инструментов ETL (извлечение, преобразование и загрузка) в качестве основного средства ввода карт данных для поддержки перемещения данных. Примеры включают SAP BODS и Informatica PowerCenter.

Картирование на основе данных

Это новейший подход к сопоставлению данных, который предполагает одновременную оценку фактических значений данных в двух источниках данных с использованием эвристики и статистики для автоматического обнаружения сложных сопоставлений между двумя наборами данных. Этот подход используется для поиска преобразований между двумя наборами данных, обнаружения подстрок, конкатенаций, арифметики , операторов регистра, а также других видов логики преобразования. Этот подход также обнаруживает исключения данных, которые не соответствуют обнаруженной логике преобразования.

Семантическое картографирование

Семантическое сопоставление аналогично функции автоматического подключения преобразователей данных, за исключением того, что для поиска синонимов элементов данных можно обратиться к реестру метаданных . Например, если в исходной системе указан FirstName, а в целевой — PersonGivenName , сопоставления все равно будут выполняться, если эти элементы данных указаны как синонимы в реестре метаданных. Семантическое сопоставление способно обнаруживать только точные совпадения между столбцами данных и не обнаруживает никакой логики преобразования или исключений между столбцами.

Происхождение данных — это отслеживание жизненного цикла каждого фрагмента данных во время его приема, обработки и вывода аналитической системой. Это обеспечивает видимость конвейера аналитики и упрощает отслеживание ошибок до их источников. Это также позволяет воспроизводить определенные части или входные данные потока данных для поэтапной отладки или восстановления потерянных выходных данных. Фактически, системы баз данных уже использовали такую информацию, называемую источником данных, для решения аналогичных задач проверки и отладки. ^[2]

Смотрите также