stringtranslate.com

Обсуждение данных

Обработка данных , иногда называемая обработкой данных , — это процесс преобразования и сопоставления данных из одной « сырой » формы данных в другой формат с целью сделать их более подходящими и ценными для различных последующих целей, таких как аналитика. Целью обработки данных является обеспечение качества и полезности данных. Аналитики данных обычно тратят большую часть своего времени на обработку данных, а не на фактический анализ данных.

Процесс обработки данных может включать в себя дальнейшую обработку , визуализацию данных , агрегацию данных, обучение статистической модели , а также многие другие потенциальные применения. Обработка данных обычно следует за набором общих шагов, которые начинаются с извлечения данных в необработанной форме из источника данных, «обработки» необработанных данных (например, сортировки) или анализа данных в предопределенные структуры данных и, наконец, помещения полученного содержимого в приемник данных для хранения и использования в будущем. [1] Он тесно связан с процессом ETL .

Фон

Часто говорят, что нетехнический термин «спорщик» возник в результате работы, проделанной Национальной программой инфраструктуры и сохранения цифровой информации (NDIIPP) Библиотеки Конгресса США и ее партнером по программе MetaArchive Partnership, базирующимся в библиотеках Университета Эмори . Термин «мунг» имеет корни в « маше» , как описано в «Жаргонном файле» . [2] Термин «обработчик данных» также был предложен как лучшая аналогия для описания человека, работающего с данными. [3]

Одно из первых упоминаний об обработке данных в научном контексте было сделано Дональдом Клайном во время эксперимента НАСА/НОАА по процессам в холодных землях. [4] Клайн заявил, что специалисты по обработке данных «координируют сбор всей коллекции данных эксперимента». Клайн также определяет обязанности, которые обычно выполняет администратор хранилища при работе с большими объемами данных . Это может произойти в таких областях, как крупные исследовательские проекты и создание фильмов с большим количеством сложных компьютерных изображений . В исследованиях это включает в себя как передачу данных из исследовательского инструмента в сеть хранения или хранилище, так и манипулирование данными для повторного анализа с помощью высокопроизводительных вычислительных инструментов или доступа через цифровые библиотеки на основе киберинфраструктуры .

С появлением искусственного интеллекта в науке о данных становится все более важным для автоматизации обработки данных иметь очень строгие сдержки и противовесы, поэтому процесс обработки данных не был автоматизирован с помощью машинного обучения . Для обработки данных требуется нечто большее, чем просто автоматизированное решение, оно требует знания того, какую информацию следует удалить, а искусственный интеллект не способен понять такие вещи. [5]

Подключение к интеллектуальному анализу данных

Обработка данных — это разновидность интеллектуального анализа данных , требующая процессов, которые используются в некоторых случаях интеллектуального анализа данных, но не всегда. Процесс интеллектуального анализа данных заключается в поиске закономерностей в больших наборах данных, при этом обработка данных преобразует данные, чтобы получить представление об этих данных. Несмотря на то, что обработка данных является надмножеством интеллектуального анализа данных, это не означает, что при интеллектуальном анализе данных он не используется, существует множество вариантов использования обработки данных при интеллектуальном анализе данных. Обработка данных может принести пользу интеллектуальному анализу данных за счет удаления данных, которые не приносят пользы общему набору или не отформатированы должным образом, что даст лучшие результаты для всего процесса интеллектуального анализа данных.

Примером интеллектуального анализа данных, который тесно связан с обработкой данных, является игнорирование данных из набора, который не связан с целью: скажем, есть набор данных, относящийся к штату Техас, и цель состоит в том, чтобы получить статистику о жителях Хьюстона. , данные в наборе, относящиеся к жителям Далласа, бесполезны для общего набора и могут быть удалены перед обработкой, чтобы повысить эффективность процесса интеллектуального анализа данных.

Преимущества

С увеличением количества необработанных данных увеличивается и объем данных, которые по своей сути бесполезны. Это увеличивает время, затрачиваемое на очистку и организацию данных перед их анализом, и именно здесь в игру вступает обработка данных. Результат обработки данных может предоставить важную статистику метаданных для дальнейшего понимания данных. Важно обеспечить согласованность метаданных, иначе это может вызвать препятствия. Обработка данных позволяет аналитикам быстрее анализировать более сложные данные, достигать более точных результатов и благодаря этому принимать более правильные решения. Многие предприятия перешли на обработку данных из-за успеха, который она принесла.

Основные идеи

Превращаем беспорядочные данные в полезную статистику

Основные этапы обработки данных следующие:

  1. Обнаружение данных

    Этот всеобъемлющий термин описывает, как понимать ваши данные. Это первый шаг к ознакомлению с вашими данными.

  2. Структурирование
    Следующий шаг — систематизация данных. Необработанные данные обычно неорганизованы, и большая их часть может оказаться бесполезной для конечного продукта. Этот шаг важен для облегчения вычислений и анализа на последующих этапах.
  3. Очистка
    Существует множество различных форм очистки данных, например, одна форма очистки данных — это сбор дат, отформатированных по-другому, а другая форма — удаление выбросов, которые искажают результаты, а также форматирование нулевых значений. Этот шаг важен для обеспечения общего качества данных.
  4. Обогащение
    На этом этапе определите, принесут ли дополнительные данные пользу набору данных, который можно легко добавить.
  5. Проверка
    Этот шаг аналогичен структурированию и очистке. Используйте повторяющиеся последовательности правил проверки , чтобы обеспечить согласованность данных , а также качество и безопасность. Примером правила проверки является подтверждение точности полей посредством перекрестной проверки данных.
  6. Издательский
    Подготовьте набор данных для последующего использования, которое может включать использование пользователями или программным обеспечением. Обязательно документируйте все шаги и логику во время споров.

Эти шаги представляют собой итеративный процесс, который должен дать чистый и пригодный для использования набор данных, который затем можно будет использовать для анализа. Этот процесс утомительный, но полезный, поскольку позволяет аналитикам получить необходимую информацию из большого набора данных, которые в противном случае были бы нечитаемы.

Результат использования процесса обработки данных для этого небольшого набора данных показывает, что набор данных значительно легче читать. Все имена теперь имеют одинаковый формат: {имя фамилия}, номера телефонов также форматируются одинаково {код города-XXX-XXXX}, даты имеют числовой формат {ГГГГ-мм-дд}, а штаты больше не форматируются. сокращенно. Запись о Джейкобе Алане не содержала полностью сформированных данных (код города в номере телефона отсутствует, а в дате рождения не указан год), поэтому она была исключена из набора данных. Теперь, когда результирующий набор данных очищен и доступен для чтения, он готов к развертыванию или оценке.

Типичное использование

Преобразования данных обычно применяются к отдельным объектам (например, полям, строкам, столбцам, значениям данных и т. д.) в наборе данных и могут включать в себя такие действия, как извлечение, синтаксический анализ, объединение, стандартизация, дополнение, очистка, консолидация и фильтрация. для создания желаемых результатов спора, которые можно использовать в дальнейшем.

Получателями могут быть отдельные лица, например архитекторы данных или специалисты по обработке данных , которые будут дополнительно исследовать данные, бизнес-пользователи, которые будут использовать данные непосредственно в отчетах, или системы, которые будут далее обрабатывать данные и записывать их в такие целевые объекты, как хранилища данных , хранилища данных. озера или приложения ниже по течению.

Метод работы

В зависимости от объема и формата входящих данных обработка данных традиционно выполнялась вручную (например, с помощью электронных таблиц, таких как Excel), таких инструментов, как KNIME , или с помощью сценариев на таких языках, как Python или SQL . R , язык, часто используемый при интеллектуальном анализе и статистическом анализе данных, теперь также иногда используется для обработки данных. [6] Специалисты по обработке данных обычно обладают набором навыков в области: R или Python, SQL, PHP, Scala и других языков, обычно используемых для анализа данных.

Системы визуальной обработки данных были разработаны, чтобы сделать обработку данных доступной для непрограммистов и проще для программистов. Некоторые из них также включают встроенные рекомендации ИИ и средства программирования на примерах для оказания помощи пользователю, а также методы синтеза программ для автоматической генерации масштабируемого кода потока данных. Ранние прототипы инструментов обработки визуальных данных включают OpenRefine и исследовательскую систему Stanford/Berkeley Wrangler; [7] последний развился в Trifacta .

Другие термины для этих процессов включают франчайзинг данных, [8] подготовку данных и обработку данных.

Пример

Учитывая набор данных, содержащий информацию о медицинских пациентах, ваша цель — найти корреляцию для заболевания. Прежде чем вы сможете начать перебирать данные, убедитесь, что вы понимаете результат: ищете ли вы пациентов, у которых есть это заболевание? Есть ли другие заболевания, которые могут быть причиной? Как только будет достигнуто понимание результата, можно начинать процесс обработки данных.

Начните с определения структуры исхода, что важно для понимания диагноза заболевания.

После определения окончательной структуры очистите данные, удалив все точки данных, которые бесполезны или имеют неправильную форму; сюда могут относиться пациенты, у которых не было диагностировано какое-либо заболевание.

После очистки еще раз просмотрите данные: есть ли что-нибудь, что можно добавить к уже известному набору данных, что принесет ему пользу? Примером могут служить наиболее распространенные заболевания в этом регионе: Америка и Индия сильно отличаются друг от друга, когда дело касается наиболее распространенных заболеваний.

Теперь следует этап проверки: определить правила проверки, достоверность которых необходимо проверить, это может включать дату рождения или проверку на наличие конкретных заболеваний.

После этапа проверки данные должны быть организованы и подготовлены либо к развертыванию, либо к оценке. Этот процесс может быть полезен для определения корреляций для диагностики заболеваний, поскольку он сократит огромный объем данных до уровня, который можно будет легко проанализировать для получения точного результата.

Смотрите также

Рекомендации

  1. ^ «Что такое манипуляция данными?». Архивировано из оригинала 18 августа 2013 г. Проверено 21 января 2022 г.
  2. ^ "Мунг". Мунг. Файл жаргона . Архивировано из оригинала 18 сентября 2012 г. Проверено 10 октября 2012 г.
  3. ^ Поскольку кодер предназначен для кода, X предназначен для данных. Архивировано 15 апреля 2021 г. в Wayback Machine , сообщение в блоге Open Knowledge Foundation.
  4. ^ Парсонс, Массачусетс; Бродзик, МЮ; Раттер, Нью-Джерси (2004). «Управление данными для эксперимента по процессам на холодных землях: улучшение гидрологической науки». Гидрологические процессы . 18 (18): 3637–3653. Бибкод : 2004HyPr...18.3637P. дои : 10.1002/hyp.5801 . S2CID  129774847.
  5. ^ «Что такое обработка данных? Каковы этапы обработки данных?» Экспресс-аналитика . 22 апреля 2020 г. Архивировано из оригинала 01.11.2020 . Проверено 6 декабря 2020 г.
  6. ^ Уикхэм, Хэдли; Гролемунд, Гаррет (2016). «Глава 9: Введение в обработку данных». R для науки о данных: импорт, приведение в порядок, преобразование, визуализация и моделирование данных (первое издание). Севастополь, Калифорния: О'Рейли. ISBN 978-1491910399. Архивировано из оригинала 11 октября 2021 г. Проверено 12 января 2022 г.
  7. ^ Кандел, Шон; Паепке, Андреас (май 2011 г.). «Wrangler: интерактивная визуальная спецификация сценариев преобразования данных». СИГЧИ . дои : 10.1145/1978942.1979444. S2CID  11133756.
  8. ^ Что такое франчайзинг данных? ( IRI 2003 и 2017 гг. ). Архивировано 15 апреля 2021 г. в Wayback Machine.

Внешние ссылки