Сбор данных или сбор данных — это процесс сбора и измерения информации о целевых переменных в установленной системе, что затем позволяет отвечать на соответствующие вопросы и оценивать результаты. Сбор данных является компонентом исследования во всех областях обучения, включая физические и социальные науки , гуманитарные науки , [2] и бизнес . Хотя методы различаются в зависимости от дисциплины, акцент на обеспечение точного и честного сбора остается неизменным. Целью любого сбора данных является сбор доказательств, которые позволяют анализу данных привести к формулированию достоверных ответов на поставленные вопросы.
Независимо от области или предпочтения определения данных ( количественных или качественных ), точный сбор данных имеет важное значение для поддержания целостности исследования. Выбор соответствующих инструментов сбора данных (существующих, модифицированных или недавно разработанных) и изложенные инструкции по их правильному использованию снижают вероятность ошибок .
Сбор и проверка данных состоят из четырех этапов, если речь идет о проведении переписи , и из семи этапов, если речь идет о выборке . [3]
Формальный процесс сбора данных необходим, поскольку он гарантирует, что собранные данные являются как определенными, так и точными. Таким образом, последующие решения, основанные на аргументах, воплощенных в выводах, принимаются с использованием действительных данных. [4] Процесс обеспечивает как исходную точку для измерения, так и в некоторых случаях указание на то, что следует улучшить.
Платформы управления данными (DMP) представляют собой централизованные системы хранения и анализа данных, в основном используемые в маркетинге . DMP существуют для компиляции и преобразования больших объемов данных о спросе и предложении в различимую информацию. Маркетологи могут захотеть получать и использовать данные первой, второй и третьей стороны. DMP позволяют это сделать, поскольку они являются совокупной системой DSP (платформа спроса) и SSP (платформа предложения). DMP являются неотъемлемой частью оптимизации и будущих рекламных кампаний.
Основная причина поддержания целостности данных — поддержка наблюдения за ошибками в процессе сбора данных. Эти ошибки могут быть сделаны намеренно (преднамеренная фальсификация ) или непреднамеренно ( случайные или систематические ошибки ). [5]
Существует два подхода, которые могут защитить целостность данных и обеспечить научную обоснованность результатов исследования: [6]
QA фокусируется на профилактике, которая в первую очередь является экономически эффективной деятельностью по защите целостности сбора данных. Стандартизация протокола с всеобъемлющими и подробными описаниями процедур сбора данных является центральной для профилактики. Риск неспособности определить проблемы и ошибки в процессе исследования часто вызван плохо написанными инструкциями. Перечислены несколько примеров таких неудач:
Существуют серьезные опасения относительно целостности индивидуальных пользовательских данных, собранных с помощью облачных вычислений , поскольку эти данные передаются между странами, в которых действуют разные стандарты защиты индивидуальных пользовательских данных. [7] Обработка информации достигла такого уровня, что пользовательские данные теперь можно использовать для прогнозирования того, что скажет человек, еще до того, как он заговорит. [8]
Поскольку действия по контролю качества происходят во время или после сбора данных, все детали могут быть тщательно задокументированы. Существует необходимость в четко определенной структуре коммуникации как предварительном условии для создания систем мониторинга. Неопределенность относительно потока информации не рекомендуется, поскольку плохо организованная структура коммуникации приводит к неэффективному мониторингу и может также ограничивать возможности обнаружения ошибок. Контроль качества также отвечает за определение действий, необходимых для исправления ошибочных практик сбора данных, а также минимизации таких случаев в будущем. Команда, скорее всего, не осознает необходимость выполнения этих действий, если ее процедуры написаны нечетко и не основаны на обратной связи или обучении.
Проблемы со сбором данных, требующие срочных действий: