Картографирование данных

В вычислительной технике и управлении данными отображение данных — это процесс создания отображений элементов данных между двумя различными моделями данных . Отображение данных используется в качестве первого шага для широкого спектра задач интеграции данных , включая: ^[1]

Преобразование данных или посредничество между источником данных и местом назначения
Выявление взаимосвязей данных как часть анализа происхождения данных
Обнаружение скрытых конфиденциальных данных, таких как последние четыре цифры номера социального страхования, скрытые в другом идентификаторе пользователя, в рамках проекта по маскировке данных или деидентификации
Объединение нескольких баз данных в одну и выявление избыточных столбцов данных для объединения или исключения

Например, компания, которая хотела бы передавать и получать покупки и счета-фактуры от других компаний, может использовать сопоставление данных для создания карт данных из данных компании в стандартизированные сообщения ANSI ASC X12 для таких элементов, как заказы на покупку и счета-фактуры.

Стандарты

Стандарты X12 — это общие стандарты электронного обмена данными (EDI), разработанные для того, чтобы позволить компании обмениваться данными с любой другой компанией, независимо от отрасли. Стандарты поддерживаются Аккредитованным комитетом по стандартам X12 (ASC X12), при этом Американский национальный институт стандартов (ANSI) аккредитован для установления стандартов для EDI. Стандарты X12 часто называют стандартами ANSI ASC X12 .

W3C представил R2RML в качестве стандарта для сопоставления данных в реляционной базе данных с данными , выраженными в терминах Resource Description Framework (RDF).

В будущем инструменты, основанные на языках семантической паутины , таких как RDF, Web Ontology Language (OWL) и стандартизированный реестр метаданных, сделают отображение данных более автоматизированным процессом. Этот процесс будет ускорен, если каждое приложение будет выполнять публикацию метаданных . Полностью автоматизированное отображение данных является очень сложной проблемой (см. семантический перевод ).

Графическое руководство, написанное вручную

Сопоставление данных может быть выполнено различными способами с использованием процедурного кода, создания преобразований XSLT или с использованием графических инструментов сопоставления, которые автоматически генерируют исполняемые программы преобразования. Это графические инструменты, которые позволяют пользователю «рисовать» линии из полей в одном наборе данных в поля в другом. Некоторые графические инструменты сопоставления данных позволяют пользователям «автоматически соединять» источник и место назначения. Эта функция зависит от того, совпадают ли имена элементов данных источника и места назначения . Программы преобразования автоматически создаются в SQL, XSLT, Java или C++ . Эти виды графических инструментов встречаются в большинстве инструментов ETL (извлечение, преобразование и загрузка) в качестве основных средств ввода карт данных для поддержки перемещения данных. Примерами являются SAP BODS и Informatica PowerCenter.

Картографирование на основе данных

Это новейший подход в отображении данных, который включает одновременную оценку фактических значений данных в двух источниках данных с использованием эвристики и статистики для автоматического обнаружения сложных отображений между двумя наборами данных. Этот подход используется для поиска преобразований между двумя наборами данных, обнаружения подстрок, конкатенаций, арифметики , операторов case, а также других видов логики преобразования. Этот подход также обнаруживает исключения данных, которые не следуют обнаруженной логике преобразования.

Семантическое отображение

Семантическое отображение похоже на функцию автоматического подключения картографов данных, за исключением того, что реестр метаданных может быть проконсультирован для поиска синонимов элементов данных. Например, если исходная система перечисляет FirstName , а целевая перечисляет PersonGivenName , сопоставления все равно будут сделаны, если эти элементы данных перечислены как синонимы в реестре метаданных. Семантическое отображение способно обнаружить только точные совпадения между столбцами данных и не обнаружит никакой логики преобразования или исключений между столбцами.

Линия данных — это отслеживание жизненного цикла каждого фрагмента данных, когда он принимается, обрабатывается и выводится аналитической системой. Это обеспечивает видимость аналитического конвейера и упрощает отслеживание ошибок до их источников. Это также позволяет воспроизводить определенные части или входы потока данных для пошаговой отладки или восстановления потерянного вывода. Фактически, системы баз данных уже использовали такую информацию, называемую происхождением данных, для решения аналогичных задач проверки и отладки. ^[2]

Смотрите также

Интеграция данных
Обработка данных
Трансформация идентичности
ISO/IEC 11179 — стандарт реестра метаданных ISO/IEC
Метаданные
Публикация метаданных
Соответствие схемы
Семантическая неоднородность
Семантический картограф
Семантический перевод
Семантическая паутина
Семантика
XSLT — язык преобразования XML

Ссылки

^ Шахбаз, К. (2015). Картографирование данных для проектирования хранилищ данных. Elsevier. стр. 180. ISBN 9780128053355. Получено 29 мая 2018 г.
^ Де, Соумьярупа. (2012). Newt: архитектура для воспроизведения и отладки на основе родословной в системах DISC. Калифорнийский университет в Сан-Диего: b7355202. Получено с: https://escholarship.org/uc/item/3170p7zn