Наука о данных — это междисциплинарная академическая область [1] , которая использует статистику , научные вычисления , научные методы , обработку, научную визуализацию , алгоритмы и системы для извлечения или экстраполяции знаний и идей из потенциально зашумленных, структурированных или неструктурированных данных . [2]
Наука о данных также интегрирует знания предметной области из базовой прикладной области (например, естественные науки, информационные технологии и медицина). [3] Наука о данных многогранна и может быть описана как наука, исследовательская парадигма, исследовательский метод, дисциплина, рабочий процесс и профессия. [4]
Наука о данных — это «концепция объединения статистики , анализа данных , информатики и связанных с ними методов » для «понимания и анализа реальных явлений » с помощью данных . [5] Она использует методы и теории, взятые из многих областей в контексте математики , статистики, компьютерных наук , информационных наук и предметных знаний . [6] Однако наука о данных отличается от компьютерных наук и информационной науки. Лауреат премии Тьюринга Джим Грей представлял науку о данных как «четвертую парадигму» науки ( эмпирическую , теоретическую , вычислительную и теперь основанную на данных) и утверждал, что «все в науке меняется из-за воздействия информационных технологий » и потока данных . [7] [8]
Специалист по данным — это профессионал, который создает программный код и объединяет его со статистическими знаниями для создания аналитических заключений на основе данных. [9]
Наука о данных — это междисциплинарная область [10], сосредоточенная на извлечении знаний из обычно больших наборов данных и применении знаний и идей из этих данных для решения проблем в широком спектре областей применения. Область охватывает подготовку данных для анализа, формулирование проблем науки о данных, анализ данных, разработку решений на основе данных и представление результатов для информирования о решениях высокого уровня в широком спектре областей применения. Таким образом, она включает в себя навыки из компьютерной науки, статистики, информатики, математики, визуализации данных , визуализации информации , сонификации данных , интеграции данных , графического дизайна , сложных систем , коммуникации и бизнеса . [11] [12] Статистик Натан Яу , опираясь на Бена Фрая , также связывает науку о данных с взаимодействием человека и компьютера : пользователи должны иметь возможность интуитивно контролировать и исследовать данные. [13] [14] В 2015 году Американская статистическая ассоциация определила управление базами данных , статистику и машинное обучение , а также распределенные и параллельные системы как три новых основополагающих профессиональных сообщества. [15]
Многие статистики, включая Нейта Сильвера , утверждали, что наука о данных — это не новая область, а скорее другое название статистики. [16] Другие утверждают, что наука о данных отличается от статистики, поскольку фокусируется на проблемах и методах, уникальных для цифровых данных. [17] Васант Дхар пишет, что статистика делает акцент на количественных данных и описании. Напротив, наука о данных имеет дело с количественными и качественными данными (например, с изображений, текста, датчиков, транзакций, информации о клиентах и т. д.) и делает акцент на прогнозировании и действии. [18] Эндрю Гельман из Колумбийского университета описал статистику как несущественную часть науки о данных. [19]
Профессор Стэнфорда Дэвид Донохо пишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений, и что многие программы аспирантуры ошибочно рекламируют свою аналитику и статистическую подготовку как суть программы по науке о данных. Он описывает науку о данных как прикладную область, вырастающую из традиционной статистики. [20]
В 1962 году Джон Тьюки описал область, которую он назвал « анализ данных », которая напоминает современную науку о данных. [20] В 1985 году в лекции, прочитанной в Китайской академии наук в Пекине, К. Ф. Джефф Ву впервые использовал термин «наука о данных» как альтернативное название для статистики. [21] Позже участники симпозиума по статистике 1992 года в Университете Монпелье II признали появление новой дисциплины, сосредоточенной на данных различного происхождения и форм, объединяющей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями. [22] [23]
Термин «наука о данных» появился в 1974 году, когда Питер Наур предложил его в качестве альтернативного названия компьютерной науке. [6] В 1996 году Международная федерация классификационных обществ стала первой конференцией, специально выделившей науку о данных в качестве темы. [6] Однако определение все еще находилось в стадии разработки. После лекции 1985 года в Китайской академии наук в Пекине, в 1997 году К. Ф. Джефф Ву снова предложил переименовать статистику в науку о данных. Он рассуждал о том, что новое название поможет статистике избавиться от неточных стереотипов, таких как синонимичность бухгалтерского учета или ограничение описания данных. [24] В 1998 году Хаяси Чикио выступил за науку о данных как за новую междисциплинарную концепцию с тремя аспектами: проектирование данных, сбор и анализ. [23]
В 1990-х годах популярными терминами для процесса поиска закономерностей в наборах данных (которые становились все больше) были «обнаружение знаний» и « извлечение данных ». [6] [25]
В 2012 году технологи Томас Х. Дэвенпорт и ДиДжей Патил объявили «Специалист по обработке данных: самая сексуальная профессия 21 века» [26] крылатой фразой, которую подхватили даже такие крупные городские газеты, как New York Times [27] и Boston Globe . [28] Десять лет спустя они подтвердили это, заявив, что «эта работа востребована работодателями как никогда». [29]
Современную концепцию науки о данных как независимой дисциплины иногда приписывают Уильяму С. Кливленду . [30] В статье 2001 года он отстаивал расширение статистики за пределы теории в технические области; поскольку это значительно изменило бы область, это заслуживало нового названия. [25] «Наука о данных» стала более широко использоваться в последующие несколько лет: в 2002 году Комитет по данным для науки и технологий запустил журнал Data Science Journal . В 2003 году Колумбийский университет запустил журнал The Journal of Data Science . [25] В 2014 году секция Американской статистической ассоциации по статистическому обучению и интеллектуальному анализу данных изменила свое название на секцию по статистическому обучению и науке о данных, отражая растущую популярность науки о данных. [31]
Профессиональное звание «специалист по данным» было присвоено ДиДжею Патилу и Джеффу Хаммербахеру в 2008 году. [32] Хотя оно было использовано Национальным научным советом в их отчете 2005 года «Долгосрочные коллекции цифровых данных: обеспечение научных исследований и образования в 21 веке», оно в широком смысле относилось к любой ключевой роли в управлении сбором цифровых данных . [33]
До сих пор нет единого мнения относительно определения науки о данных, и некоторые считают это модным словом . [34] Большие данные — это связанный маркетинговый термин. [35] Специалисты по данным отвечают за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции. [36]
Наука о данных и анализ данных являются важными дисциплинами в области управления данными и анализа, но они различаются в нескольких ключевых аспектах. Хотя обе области подразумевают работу с данными, наука о данных является скорее междисциплинарной областью , которая включает применение статистических, вычислительных и машинных методов обучения для извлечения информации из данных и составления прогнозов, в то время как анализ данных больше сосредоточен на изучении и интерпретации данных для выявления закономерностей и тенденций. [37] [38]
Анализ данных обычно включает в себя работу с меньшими, структурированными наборами данных для ответа на конкретные вопросы или решения конкретных проблем. Это может включать такие задачи, как очистка данных , визуализация данных и исследовательский анализ данных для получения информации о данных и разработки гипотез о связях между переменными . Аналитики данных обычно используют статистические методы для проверки этих гипотез и делают выводы из данных. Например, аналитик данных может анализировать данные о продажах, чтобы определить тенденции в поведении клиентов и дать рекомендации по маркетинговым стратегиям. [37]
С другой стороны, наука о данных — это более сложный и итеративный процесс, который включает работу с более крупными, более сложными наборами данных, для анализа которых часто требуются передовые вычислительные и статистические методы. Специалисты по данным часто работают с неструктурированными данными , такими как текст или изображения, и используют алгоритмы машинного обучения для построения прогностических моделей и принятия решений на основе данных. Помимо статистического анализа , наука о данных часто включает такие задачи, как предварительная обработка данных , проектирование признаков и выбор модели. Например, специалист по данным может разработать систему рекомендаций для платформы электронной коммерции, анализируя модели поведения пользователей и используя алгоритмы машинного обучения для прогнозирования предпочтений пользователей. [38] [39]
В то время как анализ данных фокусируется на извлечении идей из существующих данных, наука о данных выходит за рамки этого, включая разработку и внедрение прогностических моделей для принятия обоснованных решений. Ученые по данным часто отвечают за сбор и очистку данных, выбор соответствующих аналитических методов и развертывание моделей в реальных сценариях. Они работают на стыке математики, компьютерных наук и предметной области для решения сложных проблем и выявления скрытых закономерностей в больших наборах данных. [38]
Несмотря на эти различия, наука о данных и анализ данных являются тесно связанными областями и часто требуют схожих наборов навыков. Обе области требуют прочной основы в статистике, программировании и визуализации данных , а также способности эффективно доносить результаты как до технической, так и нетехнической аудитории. Обе области извлекают пользу из критического мышления и знания предметной области , поскольку понимание контекста и нюансов данных необходимо для точного анализа и моделирования. [37] [38]
Подводя итог, можно сказать, что анализ данных и наука о данных — это отдельные, но взаимосвязанные дисциплины в более широкой области управления данными и анализа. Анализ данных фокусируется на извлечении идей и выводе выводов из структурированных данных , в то время как наука о данных включает в себя более комплексный подход, который объединяет статистический анализ , вычислительные методы и машинное обучение для извлечения идей, построения прогностических моделей и принятия решений на основе данных . Обе области используют данные для понимания закономерностей, принятия обоснованных решений и решения сложных проблем в различных областях.
Облачные вычисления могут предложить доступ к большим объемам вычислительной мощности и хранилища . [40] В больших данных , где объемы информации постоянно генерируются и обрабатываются, эти платформы могут использоваться для решения сложных и ресурсоемких аналитических задач. [41]
Некоторые распределенные вычислительные фреймворки разработаны для обработки больших объемов данных. Эти фреймворки могут позволить специалистам по данным обрабатывать и анализировать большие наборы данных параллельно, что может сократить время обработки. [42]
Наука о данных включает сбор, обработку и анализ данных, которые часто включают личную и конфиденциальную информацию. Этические проблемы включают потенциальные нарушения конфиденциальности, сохранение предвзятости и негативные социальные последствия [43] [44]
Модели машинного обучения могут усиливать существующие предубеждения, присутствующие в обучающих данных, что приводит к дискриминационным или несправедливым результатам. [45] [46]