Подготовка данных — это процесс манипулирования (или предварительной обработки) необработанными данными (которые могут поступать из разрозненных источников данных) в форме, которую можно легко и точно проанализировать, например, в деловых целях. [1]
Подготовка данных является первым шагом в проектах по анализу данных и может включать в себя множество отдельных задач, таких как загрузка или прием данных, слияние данных , очистка данных , дополнение данных и доставка данных. [2]
Вопросы, которые предстоит решить, делятся на две основные категории:
Первый шаг — установить полную и подробную спецификацию формата каждого поля данных и того, что означают записи. Это должно тщательно учитывать:
См. также спецификацию определения данных .
Предположим, что есть двухсимвольное алфавитное поле, которое указывает географическое местоположение. Возможно, что в одном источнике данных код "EE" означает "Европа", а в другом источнике данных тот же код означает "Эстония". Потребуется разработать однозначный набор кодов и соответствующим образом изменить код в одном наборе записей.
Кроме того, «географическая область» может относиться к любому из следующих: например, адрес доставки, адрес выставления счета, адрес, с которого поставляются товары, валюта выставления счета или применимые национальные правила. Все эти вопросы должны быть охвачены в спецификации.
В этом поле могут быть записи с "X" или "555". Очевидно, что это недействительные данные, поскольку они не соответствуют спецификации. Если таких записей мало, их можно либо исправить вручную, либо, если точность не важна, просто удалить эти записи из файла. Другой возможностью было бы создать категорию "неизвестно".
Там, где это возможно и экономически выгодно, данные следует проверять по авторитетному источнику (например, бизнес-информация должна сверяться с базой данных D&B для обеспечения точности). [3] [4]
Учитывая разнообразие источников данных (например, базы данных , бизнес-приложения ), которые предоставляют данные, и форматы , в которых могут поступать данные, подготовка данных может быть довольно сложной и запутанной. Существует множество инструментов и технологий [5] , которые используются для подготовки данных. Стоимость очистки данных всегда должна быть сбалансирована с ценностью улучшенной точности.
Традиционные инструменты и технологии, такие как языки сценариев или инструменты извлечения, преобразования, загрузки (ETL) и качества данных, не предназначены для бизнес-пользователей. Обычно они требуют навыков программирования или ИТ, которых нет у большинства бизнес-пользователей. [ необходима цитата ]
Несколько компаний, таких как Paxata , Trifacta , Alteryx , Talend и Ataccama, предоставляют визуальные интерфейсы, которые отображают данные и позволяют пользователю напрямую исследовать, структурировать, очищать, дополнять и обновлять образцы данных, предоставленные пользователем.
После завершения подготовительных работ базовые шаги можно запускать на других наборах данных для выполнения тех же операций. Такое повторное использование обеспечивает значительный прирост производительности по сравнению с более традиционными ручными и ручными методами кодирования для подготовки данных.