stringtranslate.com

Очистка данных

Очистка данных или очистка данных — это процесс выявления и исправления (или удаления) поврежденных, неточных или нерелевантных записей из набора данных, таблицы или базы данных . Он включает в себя обнаружение неполных, неправильных или неточных частей данных и последующую замену, изменение или удаление затронутых данных. [1] Очистка данных может выполняться интерактивно с использованием инструментов обработки данных или посредством пакетной обработки, часто с помощью скриптов или брандмауэра качества данных .

После очистки набор данных должен быть согласован с другими аналогичными наборами данных в системе. Обнаруженные или удаленные несоответствия могли быть изначально вызваны ошибками ввода данных пользователем, повреждением при передаче или хранении или различными определениями словаря данных для аналогичных сущностей в разных хранилищах. Очистка данных отличается от проверки данных тем, что проверка почти всегда означает, что данные отклоняются из системы при вводе и выполняются во время ввода, а не для пакетов данных.

Фактический процесс очистки данных может включать удаление типографских ошибок или проверку и исправление значений по известному списку сущностей. Проверка может быть строгой (например, отклонение любого адреса, который не имеет допустимого почтового индекса ), или с нечетким или приблизительным соответствием строк (например, исправление записей, которые частично соответствуют существующим известным записям). Некоторые решения по очистке данных очищают данные путем перекрестной проверки с проверенным набором данных. Распространенной практикой очистки данных является улучшение данных, когда данные становятся более полными за счет добавления связанной информации. Например, добавление адресов с любыми телефонными номерами, связанными с этим адресом. Очистка данных может также включать гармонизацию (или нормализацию) данных, что является процессом объединения данных «различных форматов файлов, соглашений об именовании и столбцов» [2] и преобразования их в один связный набор данных; простым примером является расширение сокращений («улица, дом и т. д.» до «улица, дорога и т. д.»).

Мотивация

Административно неверные, непоследовательные данные могут привести к ложным выводам и неправильному направлению инвестиций как в государственном, так и в частном масштабе. Например, правительство может захотеть проанализировать данные переписи населения, чтобы решить, какие регионы требуют дополнительных расходов и инвестиций в инфраструктуру и услуги. В этом случае будет важно иметь доступ к надежным данным, чтобы избежать ошибочных фискальных решений. В деловом мире неверные данные могут быть дорогостоящими. Многие компании используют базы данных с информацией о клиентах , в которых регистрируются такие данные, как контактная информация, адреса и предпочтения. Например, если адреса не совпадают, компания понесет расходы на повторную отправку почты или даже потеряет клиентов.

Качество данных

Высококачественные данные должны соответствовать ряду критериев качества. К ним относятся:

Термин «целостность» охватывает точность, согласованность и некоторые аспекты проверки (см. также « целостность данных »), но сам по себе редко используется в контексте очистки данных, поскольку он недостаточно конкретен. (Например, « ссылочная целостность » — это термин, используемый для обозначения соблюдения ограничений внешнего ключа выше.)

Процесс

Высококачественные исходные данные связаны с «культурой качества данных» и должны быть инициированы наверху организации. Это не просто вопрос внедрения строгих проверок на экранах ввода, потому что почти независимо от того, насколько строги эти проверки, пользователи часто все равно могут их обойти. Существует руководство из девяти шагов для организаций, желающих улучшить качество данных: [3] [4]

Другие включают в себя:

Система

Основная задача этой системы — найти подходящий баланс между исправлением грязных данных и поддержанием данных как можно ближе к исходным данным из исходной производственной системы. Это вызов для архитектора извлечения, преобразования, загрузки . Система должна предлагать архитектуру, которая может очищать данные, регистрировать события качества и измерять/контролировать качество данных в хранилище данных . Хорошим началом является выполнение тщательного анализа профилирования данных , который поможет определить требуемую сложность системы очистки данных, а также даст представление о текущем качестве данных в исходной системе(ах).

Качественные экраны

Частью системы очистки данных является набор диагностических фильтров, известных как экраны качества. Каждый из них реализует тест в потоке данных, который в случае неудачи регистрирует ошибку в схеме событий ошибок. Экраны качества делятся на три категории:

Когда экран качества регистрирует ошибку, он может либо остановить процесс потока данных, отправить неисправные данные куда-то еще, кроме целевой системы, либо пометить данные. Последний вариант считается лучшим решением, поскольку первый вариант требует, чтобы кто-то вручную разбирался с проблемой каждый раз, когда она возникает, а второй подразумевает, что данные отсутствуют в целевой системе ( целостность ), и часто неясно, что должно произойти с этими данными.

Критика существующих инструментов и процессов

Большинство инструментов очистки данных имеют ограничения в использовании:

Схема событий ошибки

Схема событий ошибок содержит записи всех событий ошибок, выданных экранами качества. Она состоит из таблицы фактов событий ошибок с внешними ключами к трехмерным таблицам, которые представляют дату (когда), пакетное задание (где) и экран (кто создал ошибку). Она также содержит информацию о том, когда именно произошла ошибка и насколько серьезна ошибка. Также есть таблица фактов подробностей событий ошибок с внешним ключом к основной таблице, которая содержит подробную информацию о том, в какой таблице, записи и поле произошла ошибка, а также состояние ошибки.

Смотрите также

Ссылки

  1. ^ Wu, S. (2013), «Обзор грубых гарантийных данных и анализ» (PDF) , Надежность техники и систем , 114 : 1–11, doi :10.1016/j.ress.2012.12.021
  2. ^ «Data 101: What is Data Harmonization?». Datorama . 14 апреля 2017 г. Архивировано из оригинала 24 октября 2021 г. Получено 14 августа 2019 г.
  3. ^ Кимбалл, Р., Росс, М., Торнтвейт, У., Манди, Дж., Беккер, Б. Набор инструментов жизненного цикла хранилища данных , Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5 
  4. ^ Олсон, Дж. Э. Качество данных: измерение точности", Морган Кауфманн , 2002. ISBN 1-55860-891-5 

Дальнейшее чтение

Внешние ссылки