Наука о данных — это междисциплинарная академическая область [1] , которая использует статистику , научные вычисления , научные методы , процессы, алгоритмы и системы для извлечения или экстраполяции знаний и идей из потенциально зашумленных, структурированных или неструктурированных данных . [2]
Наука о данных также интегрирует предметные знания из базовой области приложения (например, естественные науки, информационные технологии и медицина). [3] Наука о данных многогранна и может быть описана как наука, исследовательская парадигма, метод исследования, дисциплина, рабочий процесс и профессия. [4]
Наука о данных – это «концепция объединения статистики , анализа данных , информатики и связанных с ними методов » для «понимания и анализа реальных явлений » с данными . [5] Он использует методы и теории, взятые из многих областей в контексте математики , статистики, информатики , информатики и предметных знаний . [6] Однако наука о данных отличается от информатики и информатики. Лауреат премии Тьюринга Джим Грей представлял науку о данных как «четвертую парадигму» науки ( эмпирическую , теоретическую , вычислительную и теперь управляемую данными) и утверждал, что «все в науке меняется из-за воздействия информационных технологий » и потока данных. . [7] [8]
Специалист по данным — это профессионал, который создает программный код и объединяет его со статистическими знаниями для получения ценной информации на основе данных. [9]
Наука о данных — это междисциплинарная область [10] , ориентированная на извлечение знаний из обычно больших наборов данных и применение знаний и идей из этих данных для решения проблем в широком спектре областей приложений. Эта область включает в себя подготовку данных для анализа, формулирование задач в области науки о данных, анализ данных, разработку решений на основе данных и представление результатов для принятия решений на высоком уровне в широком спектре областей применения. Таким образом, он включает в себя навыки в области информатики, статистики, информатики, математики, визуализации данных , визуализации информации , озвучивания данных , интеграции данных , графического дизайна , сложных систем , коммуникации и бизнеса . [11] [12] Статистик Натан Яу , опираясь на Бена Фрая , также связывает науку о данных с взаимодействием человека и компьютера : пользователи должны иметь возможность интуитивно контролировать и исследовать данные. [13] [14] В 2015 году Американская статистическая ассоциация определила управление базами данных , статистику и машинное обучение , а также распределенные и параллельные системы в качестве трех новых основополагающих профессиональных сообществ. [15]
Многие статистики, в том числе Нейт Сильвер , утверждают, что наука о данных — это не новая область, а, скорее, другое название статистики. [16] Другие утверждают, что наука о данных отличается от статистики, поскольку она фокусируется на проблемах и методах, уникальных для цифровых данных. [17] Васант Дхар пишет, что статистика делает упор на количественные данные и описания. Напротив, наука о данных имеет дело с количественными и качественными данными (например, из изображений, текста, датчиков, транзакций, информации о клиентах и т. д.) и делает упор на прогнозирование и действие. [18] Эндрю Гельман из Колумбийского университета назвал статистику несущественной частью науки о данных. [19]
Профессор Стэнфорда Дэвид Донохо пишет, что наука о данных не отличается от статистики по размеру наборов данных или использованию вычислений и что многие аспирантуры ошибочно рекламируют свою подготовку по аналитике и статистике как суть программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики. [20]
В 1962 году Джон Тьюки описал область, которую он назвал «анализом данных», которая напоминает современную науку о данных. [20] В 1985 году в лекции, прочитанной в Китайской академии наук в Пекине, Джефф Ву впервые использовал термин «наука о данных» в качестве альтернативного названия статистики. [21] Позже участники статистического симпозиума 1992 года в Университете Монпелье II признали появление новой дисциплины, ориентированной на данные различного происхождения и формы, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями. [22] [23]
Термин «наука о данных» возник в 1974 году, когда Питер Наур предложил его в качестве альтернативного названия информатике. [6] В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой в качестве темы была конкретно рассмотрена наука о данных. [6] Однако определение все еще менялось. После лекции 1985 года в Китайской академии наук в Пекине в 1997 году Джефф Ву снова предложил переименовать статистику в науку о данных. Он полагал, что новое название поможет статистике избавиться от неверных стереотипов, таких как синоним бухгалтерского учета или ограничение описания данных. [24] В 1998 году Хаяси Чикио выступал за науку о данных как новую междисциплинарную концепцию, имеющую три аспекта: проектирование данных, сбор и анализ. [23]
В 1990-е годы популярные термины, обозначающие процесс поиска закономерностей в наборах данных (которые становились все более большими), включали «открытие знаний» и «интеллектуальный анализ данных ». [6] [25]
В 2012 году технологи Томас Х. Дэвенпорт и DJ Патил объявили «Исследователь данных: самая сексуальная работа 21-го века» [26] . Эту фразу подхватили даже такие крупные городские газеты, как New York Times [27] и Бостон Глобус . [28] Десять лет спустя они подтвердили это, заявив, что «эта работа более востребована у работодателей, чем когда-либо». [29]
Современную концепцию науки о данных как независимой дисциплины иногда приписывают Уильяму С. Кливленду . [30] В статье 2001 года он выступал за расширение статистики за пределы теории в технические области; поскольку это существенно изменило бы сферу деятельности, это потребовало нового названия. [25] «Наука о данных» стала более широко использоваться в следующие несколько лет: в 2002 году Комитет по данным для науки и технологий запустил журнал Data Science Journal . В 2003 году Колумбийский университет запустил «Журнал науки о данных» . [25] В 2014 году секция статистического обучения и интеллектуального анализа данных Американской статистической ассоциации сменила название на секцию статистического обучения и науки о данных, что отражает растущую популярность науки о данных. [31]
Профессиональное звание «ученый по данным» было присвоено DJ Патилу и Джеффу Хаммербахеру в 2008 году . 21 век» в широком смысле относится к любой ключевой роли в управлении сбором цифровых данных . [33]
До сих пор нет единого мнения по поводу определения науки о данных, и некоторые считают его модным словечком . [34] Большие данные – это родственный маркетинговый термин. [35] Ученые, работающие с данными, отвечают за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции. [36]
Наука о данных и анализ данных являются важными дисциплинами в области управления и анализа данных, но они различаются по нескольким ключевым аспектам. Хотя обе области предполагают работу с данными, наука о данных — это скорее междисциплинарная область , которая включает в себя применение статистических, вычислительных методов и методов машинного обучения для извлечения информации из данных и составления прогнозов, тогда как анализ данных больше ориентирован на изучение и интерпретацию данных. данные для выявления закономерностей и тенденций. [37] [38]
Анализ данных обычно предполагает работу с небольшими структурированными наборами данных для ответа на конкретные вопросы или решения конкретных проблем. Это может включать в себя такие задачи, как очистка данных , визуализация данных и исследовательский анализ данных, чтобы получить представление о данных и разработать гипотезы о взаимосвязях между переменными . Аналитики данных обычно используют статистические методы для проверки этих гипотез и получения выводов на основе данных. Например, аналитик данных может анализировать данные о продажах, чтобы выявить тенденции в поведении клиентов и дать рекомендации по маркетинговым стратегиям. [37]
Наука о данных, с другой стороны, представляет собой более сложный и итеративный процесс, который включает в себя работу с более крупными и сложными наборами данных, для анализа которых часто требуются передовые вычислительные и статистические методы. Ученые, работающие с данными, часто работают с неструктурированными данными , такими как текст или изображения, и используют алгоритмы машинного обучения для построения прогнозных моделей и принятия решений на основе данных. Помимо статистического анализа , наука о данных часто включает в себя такие задачи, как предварительная обработка данных , разработка функций и выбор модели. Например, специалист по данным может разработать систему рекомендаций для платформы электронной коммерции, анализируя модели поведения пользователей и используя алгоритмы машинного обучения для прогнозирования предпочтений пользователей. [38] [39]
В то время как анализ данных фокусируется на извлечении информации из существующих данных, наука о данных выходит за рамки этого, включая разработку и внедрение прогнозных моделей для принятия обоснованных решений. Ученые, работающие с данными, часто отвечают за сбор и очистку данных, выбор подходящих аналитических методов и развертывание моделей в реальных сценариях. Они работают на стыке математики, информатики и предметной экспертизы , чтобы решать сложные проблемы и раскрывать скрытые закономерности в больших наборах данных. [38]
Несмотря на эти различия, наука о данных и анализ данных являются тесно связанными областями и часто требуют схожих навыков. Обе области требуют прочной основы в области статистики, программирования и визуализации данных , а также способности эффективно сообщать результаты как технической, так и нетехнической аудитории. Более того, обе области выигрывают от критического мышления и знания предметной области , поскольку понимание контекста и нюансов данных имеет важное значение для точного анализа и моделирования. [37] [38]
Таким образом, анализ данных и наука о данных — это отдельные, но взаимосвязанные дисциплины в более широкой области управления и анализа данных . Анализ данных фокусируется на извлечении информации и выводах из структурированных данных , в то время как наука о данных предполагает более комплексный подход, который сочетает в себе статистический анализ , вычислительные методы и машинное обучение для извлечения информации, построения прогнозных моделей и принятия решений на основе данных . Обе области играют жизненно важную роль в использовании возможностей данных для понимания закономерностей, принятия обоснованных решений и решения сложных проблем в различных областях.
{{cite book}}
: |website=
игнорируется ( помощь )