Необработанные данные , также известные как первичные данные , представляют собой данные (например, числа, показания приборов, цифры и т. д.), собранные из источника. В контексте экзаменов необработанные данные можно описать как необработанный балл (после тестовых баллов ).
Если ученый устанавливает компьютерный термометр , который каждую минуту регистрирует температуру химической смеси в пробирке, то список показаний температуры за каждую минуту, распечатанный в электронной таблице или просмотренный на экране компьютера, представляет собой «сырые данные». Сырые данные не подвергались обработке, «очистке» исследователями для удаления выбросов , очевидных ошибок показаний приборов или ошибок ввода данных, или какому-либо анализу (например, определению аспектов центральной тенденции, таких как средний или медианный результат). Кроме того, сырые данные не подвергались никаким другим манипуляциям со стороны программного обеспечения или исследователя-человека, аналитика или техника. Их также называют первичными данными. Сырые данные — это относительный термин (см. данные ), потому что даже после того, как сырые данные были «очищены» и обработаны одной группой исследователей, другая группа может считать эти обработанные данные «сырыми данными» для другого этапа исследования. Сырые данные могут быть введены в компьютерную программу или использованы в ручных процедурах, таких как анализ статистики из опроса . Термин «необработанные данные» может относиться к двоичным данным на электронных устройствах хранения данных, таких как жесткие диски (также называемые «данными низкого уровня»).
Данные могут быть созданы или сделаны двумя способами. Первый — это то, что называется «захваченными данными» [1] , и находится в результате целенаправленного исследования или анализа. Второй — называется «исчерпывающими данными» [1] , и обычно собирается машинами или терминалами в качестве вторичной функции. Например, кассовые аппараты, смартфоны и спидометры выполняют основную функцию, но могут собирать данные в качестве вторичной задачи. Исчерпывающие данные обычно слишком велики или малополезны для обработки и становятся «временными» или выбрасываются. [1]
В вычислительной технике необработанные данные могут иметь следующие атрибуты: они могут содержать человеческие, машинные или инструментальные ошибки, они могут не быть проверены; они могут быть в разных форматах области ( разговорном ); некодированные или неотформатированные; или некоторые записи могут быть «подозрительными» (например, выбросы ), требующие подтверждения или цитирования . Например, лист ввода данных может содержать даты в качестве необработанных данных во многих формах: «31 января 1999 г.», «31/01/1999», «31/1/99», «31 января» или «сегодня». После сбора эти необработанные данные могут быть обработаны и сохранены в нормализованном формате, возможно, в виде юлианской даты , чтобы компьютерам и людям было легче интерпретировать их во время последующей обработки. Необработанные данные (иногда в разговорной речи называемые данными «источников» или «яйцевидными» данными, последнее относится к данным, которые являются «неприготовленными», то есть «необработанными», как сырое яйцо ) являются входными данными для обработки. Проводится различие между данными и информацией , поскольку информация является конечным продуктом обработки данных . Необработанные данные, прошедшие обработку, иногда в разговорной речи называют «приготовленными» данными. [ сомнительный – обсудить ] Хотя необработанные данные могут быть преобразованы в « информацию », для преобразования необработанных данных в полезную информацию необходимы извлечение, организация, анализ и форматирование для представления.
Например, терминал POS (POS-терминал, компьютеризированный кассовый аппарат ) в загруженном супермаркете ежедневно собирает огромные объемы необработанных данных о покупках клиентов. Однако этот список продуктов питания и их цен, а также времени и даты покупки не дает много информации, пока он не обработан. После обработки и анализа с помощью программного обеспечения или даже исследователя с помощью ручки, бумаги и калькулятора эти необработанные данные могут указывать на конкретные товары, которые покупает каждый клиент, когда он их покупает и по какой цене; также аналитик или менеджер может рассчитать средний общий объем продаж на одного клиента или средние расходы за день недели по часам. Эти обработанные и проанализированные данные предоставляют информацию для менеджера, которую менеджер затем может использовать, чтобы помочь ему определить, например, сколько кассиров нанять и в какое время. Такая информация затем может стать данными для дальнейшей обработки, например, как часть предиктивной маркетинговой кампании. В результате обработки необработанные данные иногда помещаются в базу данных , что позволяет необработанным данным стать доступными для дальнейшей обработки и анализа любым количеством различных способов.
Тим Бернерс-Ли (изобретатель Всемирной паутины ) утверждает, что обмен необработанными данными важен для общества. Вдохновленный постом Руфуса Поллока из Open Knowledge Foundation, его призыв к действию — «Необработанные данные сейчас», что означает, что каждый должен требовать, чтобы правительства и предприятия делились данными, которые они собирают, как необработанные данные. Он указывает, что «данные управляют огромной частью того, что происходит в нашей жизни… потому что кто-то берет данные и что-то с ними делает». По мнению Бернерса-Ли, именно из этого обмена необработанными данными и возникнут достижения в науке. Сторонники открытых данных утверждают, что как только граждане и организации гражданского общества получат доступ к данным от предприятий и правительств, это позволит гражданам и НПО проводить собственный анализ данных, что может расширить возможности людей и гражданского общества. Например, правительство может утверждать, что его политика снижает уровень безработицы , но группа по защите прав бедных может иметь возможность заставить своих сотрудников -эконометристов проводить собственный анализ необработанных данных, что может привести эту группу к иным выводам о наборе данных.