stringtranslate.com

Очистка данных

Очистка данных или очистка данных — это процесс обнаружения и исправления (или удаления) поврежденных или неточных записей из набора записей, таблицы или базы данных , который относится к выявлению неполных, неправильных, неточных или нерелевантных частей данных, а затем к замене, изменению, или удаление грязных или грубых данных. [1] Очистка данных может выполняться в интерактивном режиме с помощью инструментов обработки данных или в виде пакетной обработки с помощью сценариев или брандмауэра качества данных .

После очистки набор данных должен соответствовать другим аналогичным наборам данных в системе. Обнаруженные или устраненные несоответствия могли быть первоначально вызваны ошибками ввода данных пользователем, повреждением при передаче или хранении или различными определениями словаря данных аналогичных объектов в разных хранилищах. Очистка данных отличается от проверки данных тем, что проверка почти всегда означает, что данные отклоняются из системы при вводе и выполняются во время ввода, а не для пакетов данных.

Фактический процесс очистки данных может включать в себя удаление типографских ошибок или проверку и исправление значений по известному списку объектов. Проверка может быть строгой (например, отклонение любого адреса, не имеющего действительного почтового индекса ) или с нечетким или приблизительным соответствием строк (например, исправление записей, которые частично соответствуют существующим, известным записям). Некоторые решения для очистки данных очищают данные путем перекрестной проверки с проверенным набором данных. Распространенной практикой очистки данных является улучшение данных, при котором данные становятся более полными за счет добавления связанной информации. Например, добавление адресов к любым телефонным номерам, связанным с этим адресом. Очистка данных может также включать гармонизацию (или нормализацию) данных, которая представляет собой процесс объединения данных «разных форматов файлов, соглашений об именах и столбцов» [2] и преобразования их в один связный набор данных; простой пример — расширение сокращений («ул, р-д и т. д.» до «улица, дорога и т. д.»).

Мотивация

Административно неправильные и противоречивые данные могут привести к ложным выводам и неправильному направлению инвестиций как в государственном, так и в частном масштабе. Например, правительство может захотеть проанализировать данные переписи населения, чтобы решить, какие регионы требуют дальнейших расходов и инвестиций в инфраструктуру и услуги. В этом случае будет важно иметь доступ к достоверным данным, чтобы избежать ошибочных бюджетных решений. В деловом мире неправильные данные могут стоить дорого. Многие компании используют базы данных с информацией о клиентах , в которые записываются такие данные, как контактная информация, адреса и предпочтения. Например, если адреса не совпадают, компания понесет расходы на повторную отправку почты или даже потеряет клиентов.

Качество данных

Высококачественные данные должны соответствовать ряду критериев качества. К ним относятся:

Термин целостность включает в себя точность, последовательность и некоторые аспекты проверки (см. также целостность данных ), но редко используется сам по себе в контексте очистки данных, поскольку он недостаточно конкретен. (Например, « ссылочная целостность » — это термин, используемый для обозначения соблюдения ограничений внешнего ключа, описанных выше.)

Процесс

Исходные данные хорошего качества связаны с «культурой качества данных» и должны быть инициированы на высшем уровне организации. Речь идет не только о реализации строгих проверок на экранах ввода, потому что почти независимо от того, насколько сильны эти проверки, пользователи часто все равно могут их обойти. Существует руководство из девяти шагов для организаций, желающих улучшить качество данных: [3] [4]

Другие включают:

Система

Основная задача этой системы — найти подходящий баланс между исправлением грязных данных и поддержанием данных как можно ближе к исходным данным из исходной производственной системы. Это задача для архитектора «Извлечение, преобразование, загрузка» . Система должна предлагать архитектуру, которая может очищать данные, записывать события, связанные с качеством, и измерять/контролировать качество данных в хранилище данных . Хорошим началом является проведение тщательного анализа профилирования данных , который поможет определить требуемую сложность системы очистки данных, а также даст представление о текущем качестве данных в исходной системе(ах).

Качественные экраны

Частью системы очистки данных является набор диагностических фильтров, известных как экраны качества. Каждый из них реализует тест в потоке данных, который в случае неудачи записывает ошибку в схему событий ошибок. Экраны качества делятся на три категории:

Когда экран качества фиксирует ошибку, он может либо остановить процесс потока данных, отправить ошибочные данные куда-то еще, кроме целевой системы, либо пометить данные. Последний вариант считается лучшим решением, поскольку первый вариант требует, чтобы кто-то вручную решал проблему каждый раз, когда она возникает, а второй подразумевает, что данные отсутствуют в целевой системе ( целостность ), и часто неясно, что должно произойти. этим данным.

Критика существующих инструментов и процессов

Большинство инструментов очистки данных имеют ограничения в удобстве использования:

Схема событий ошибок

Схема событий ошибок содержит записи обо всех событиях ошибок, выдаваемых экранами качества. Он состоит из таблицы фактов об ошибках с внешними ключами к трем таблицам измерений, которые представляют дату (когда), пакетное задание (где) и экран (кто произвел ошибку). Он также содержит информацию о том, когда именно произошла ошибка и о серьезности ошибки. Кроме того, существует таблица фактов с подробными сведениями о событии ошибки с внешним ключом к основной таблице, которая содержит подробную информацию о том, в какой таблице, записи и поле произошла ошибка, а также об условиях ошибки.

Смотрите также

Рекомендации

  1. ^ Ву, С. (2013), «Обзор грубых гарантийных данных и анализа» (PDF) , Reliability Engineering and System , 114 : 1–11, doi : 10.1016/j.ress.2012.12.021
  2. ^ «Данные 101: Что такое гармонизация данных?». Даторама . 14 апреля 2017 г. Архивировано из оригинала 24 октября 2021 г. Проверено 14 августа 2019 г.
  3. ^ Кимбалл, Р., Росс, М., Торнтуэйт, В., Манди, Дж., Беккер, Б. Набор инструментов для жизненного цикла хранилища данных , Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5 
  4. ^ Олсон, JE Качество данных: измерение точности», Morgan Kaufmann , 2002. ISBN 1-55860-891-5 

дальнейшее чтение

Внешние ссылки