Обработка данных , иногда называемая обработкой данных , — это процесс преобразования и сопоставления данных из одной « сырой » формы данных в другой формат с целью сделать их более подходящими и ценными для различных последующих целей, таких как аналитика. Целью обработки данных является обеспечение качества и полезности данных. Аналитики данных обычно тратят большую часть своего времени на обработку данных, а не на фактический анализ данных.
Процесс обработки данных может включать в себя дальнейшую обработку , визуализацию данных , агрегацию данных, обучение статистической модели , а также многие другие потенциальные применения. Обработка данных обычно следует за набором общих шагов, которые начинаются с извлечения данных в необработанной форме из источника данных, «обработки» необработанных данных (например, сортировки) или анализа данных в предопределенные структуры данных и, наконец, помещения полученного содержимого в приемник данных для хранения и использования в будущем. [1] Он тесно связан с процессом ETL .
Часто говорят, что нетехнический термин «спорщик» возник в результате работы, проделанной Национальной программой инфраструктуры и сохранения цифровой информации (NDIIPP) Библиотеки Конгресса США и ее партнером по программе MetaArchive Partnership, базирующимся в библиотеках Университета Эмори . Термин «мунг» имеет корни в « маше» , как описано в «Жаргонном файле» . [2] Термин «обработчик данных» также был предложен как лучшая аналогия для описания человека, работающего с данными. [3]
Одно из первых упоминаний об обработке данных в научном контексте было сделано Дональдом Клайном во время эксперимента НАСА/НОАА по процессам в холодных землях. [4] Клайн заявил, что специалисты по обработке данных «координируют сбор всей коллекции данных эксперимента». Клайн также определяет обязанности, которые обычно выполняет администратор хранилища при работе с большими объемами данных . Это может произойти в таких областях, как крупные исследовательские проекты и создание фильмов с большим количеством сложных компьютерных изображений . В исследованиях это включает в себя как передачу данных из исследовательского инструмента в сеть хранения или хранилище, так и манипулирование данными для повторного анализа с помощью высокопроизводительных вычислительных инструментов или доступа через цифровые библиотеки на основе киберинфраструктуры .
С появлением искусственного интеллекта в науке о данных становится все более важным для автоматизации обработки данных иметь очень строгие сдержки и противовесы, поэтому процесс обработки данных не был автоматизирован с помощью машинного обучения . Для обработки данных требуется нечто большее, чем просто автоматизированное решение, оно требует знания того, какую информацию следует удалить, а искусственный интеллект не способен понять такие вещи. [5]
Обработка данных — это разновидность интеллектуального анализа данных , требующая процессов, которые используются в некоторых случаях интеллектуального анализа данных, но не всегда. Процесс интеллектуального анализа данных заключается в поиске закономерностей в больших наборах данных, при этом обработка данных преобразует данные, чтобы получить представление об этих данных. Несмотря на то, что обработка данных является надмножеством интеллектуального анализа данных, это не означает, что при интеллектуальном анализе данных он не используется, существует множество вариантов использования обработки данных при интеллектуальном анализе данных. Обработка данных может принести пользу интеллектуальному анализу данных за счет удаления данных, которые не приносят пользы общему набору или не отформатированы должным образом, что даст лучшие результаты для всего процесса интеллектуального анализа данных.
Примером интеллектуального анализа данных, который тесно связан с обработкой данных, является игнорирование данных из набора, который не связан с целью: скажем, есть набор данных, относящийся к штату Техас, и цель состоит в том, чтобы получить статистику о жителях Хьюстона. , данные в наборе, относящиеся к жителям Далласа, бесполезны для общего набора и могут быть удалены перед обработкой, чтобы повысить эффективность процесса интеллектуального анализа данных.
С увеличением количества необработанных данных увеличивается и объем данных, которые по своей сути бесполезны. Это увеличивает время, затрачиваемое на очистку и организацию данных перед их анализом, и именно здесь в игру вступает обработка данных. Результат обработки данных может предоставить важную статистику метаданных для дальнейшего понимания данных. Важно обеспечить согласованность метаданных, иначе это может вызвать препятствия. Обработка данных позволяет аналитикам быстрее анализировать более сложные данные, достигать более точных результатов и благодаря этому принимать более правильные решения. Многие предприятия перешли на обработку данных из-за успеха, который она принесла.
Основные этапы обработки данных следующие:
Этот всеобъемлющий термин описывает, как понимать ваши данные. Это первый шаг к ознакомлению с вашими данными.
Эти шаги представляют собой итеративный процесс, который должен дать чистый и пригодный для использования набор данных, который затем можно будет использовать для анализа. Этот процесс утомительный, но полезный, поскольку позволяет аналитикам получить необходимую информацию из большого набора данных, которые в противном случае были бы нечитаемы.
Результат использования процесса обработки данных для этого небольшого набора данных показывает, что набор данных значительно легче читать. Все имена теперь имеют одинаковый формат: {имя фамилия}, номера телефонов также форматируются одинаково {код города-XXX-XXXX}, даты имеют числовой формат {ГГГГ-мм-дд}, а штаты больше не форматируются. сокращенно. Запись о Джейкобе Алане не содержала полностью сформированных данных (код города в номере телефона отсутствует, а в дате рождения не указан год), поэтому она была исключена из набора данных. Теперь, когда результирующий набор данных очищен и доступен для чтения, он готов к развертыванию или оценке.
Преобразования данных обычно применяются к отдельным объектам (например, полям, строкам, столбцам, значениям данных и т. д.) в наборе данных и могут включать в себя такие действия, как извлечение, синтаксический анализ, объединение, стандартизация, дополнение, очистка, консолидация и фильтрация. для создания желаемых результатов спора, которые можно использовать в дальнейшем.
Получателями могут быть отдельные лица, например архитекторы данных или специалисты по обработке данных , которые будут дополнительно исследовать данные, бизнес-пользователи, которые будут использовать данные непосредственно в отчетах, или системы, которые будут далее обрабатывать данные и записывать их в такие целевые объекты, как хранилища данных , хранилища данных. озера или приложения ниже по течению.
В зависимости от объема и формата входящих данных обработка данных традиционно выполнялась вручную (например, с помощью электронных таблиц, таких как Excel), таких инструментов, как KNIME , или с помощью сценариев на таких языках, как Python или SQL . R , язык, часто используемый при интеллектуальном анализе и статистическом анализе данных, теперь также иногда используется для обработки данных. [6] Специалисты по обработке данных обычно обладают набором навыков в области: R или Python, SQL, PHP, Scala и других языков, обычно используемых для анализа данных.
Системы визуальной обработки данных были разработаны, чтобы сделать обработку данных доступной для непрограммистов и проще для программистов. Некоторые из них также включают встроенные рекомендации ИИ и средства программирования на примерах для оказания помощи пользователю, а также методы синтеза программ для автоматической генерации масштабируемого кода потока данных. Ранние прототипы инструментов обработки визуальных данных включают OpenRefine и исследовательскую систему Stanford/Berkeley Wrangler; [7] последний развился в Trifacta .
Другие термины для этих процессов включают франчайзинг данных, [8] подготовку данных и обработку данных.
Учитывая набор данных, содержащий информацию о медицинских пациентах, ваша цель — найти корреляцию для заболевания. Прежде чем вы сможете начать перебирать данные, убедитесь, что вы понимаете результат: ищете ли вы пациентов, у которых есть это заболевание? Есть ли другие заболевания, которые могут быть причиной? Как только будет достигнуто понимание результата, можно начинать процесс обработки данных.
Начните с определения структуры исхода, что важно для понимания диагноза заболевания.
После определения окончательной структуры очистите данные, удалив все точки данных, которые бесполезны или имеют неправильную форму; сюда могут относиться пациенты, у которых не было диагностировано какое-либо заболевание.
После очистки еще раз просмотрите данные: есть ли что-нибудь, что можно добавить к уже известному набору данных, что принесет ему пользу? Примером могут служить наиболее распространенные заболевания в этом регионе: Америка и Индия сильно отличаются друг от друга, когда дело касается наиболее распространенных заболеваний.
Теперь следует этап проверки: определить правила проверки, достоверность которых необходимо проверить, это может включать дату рождения или проверку на наличие конкретных заболеваний.
После этапа проверки данные должны быть организованы и подготовлены либо к развертыванию, либо к оценке. Этот процесс может быть полезен для определения корреляций для диагностики заболеваний, поскольку он сократит огромный объем данных до уровня, который можно будет легко проанализировать для получения точного результата.