stringtranslate.com

Наука о данных

Существование кометы NEOWISE (здесь изображенной в виде ряда красных точек) было обнаружено путем анализа данных астрономического обзора , полученных космическим телескопом Wide-field Infrared Survey Explorer .

Наука о данных — это междисциплинарная академическая область [1] , которая использует статистику , научные вычисления , научные методы , обработку, научную визуализацию , алгоритмы и системы для извлечения или экстраполяции знаний и идей из потенциально зашумленных, структурированных или неструктурированных данных . [2]

Наука о данных также интегрирует знания предметной области из базовой прикладной области (например, естественные науки, информационные технологии и медицина). [3] Наука о данных многогранна и может быть описана как наука, исследовательская парадигма, исследовательский метод, дисциплина, рабочий процесс и профессия. [4]

Наука о данных — это «концепция объединения статистики , анализа данных , информатики и связанных с ними методов » для «понимания и анализа реальных явлений » с помощью данных . [5] Она использует методы и теории, взятые из многих областей в контексте математики , статистики, компьютерных наук , информационных наук и предметных знаний . [6] Однако наука о данных отличается от компьютерных наук и информационной науки. Лауреат премии Тьюринга Джим Грей представлял науку о данных как «четвертую парадигму» науки ( эмпирическую , теоретическую , вычислительную и теперь основанную на данных) и утверждал, что «все в науке меняется из-за воздействия информационных технологий » и потока данных . [7] [8]

Специалист по данным — это профессионал, который создает программный код и объединяет его со статистическими знаниями для создания аналитических заключений на основе данных. [9]

Фонды

Наука о данных — это междисциплинарная область [10], сосредоточенная на извлечении знаний из обычно больших наборов данных и применении знаний и идей из этих данных для решения проблем в широком спектре областей применения. Область охватывает подготовку данных для анализа, формулирование проблем науки о данных, анализ данных, разработку решений на основе данных и представление результатов для информирования о решениях высокого уровня в широком спектре областей применения. Таким образом, она включает в себя навыки из компьютерной науки, статистики, информатики, математики, визуализации данных , визуализации информации , сонификации данных , интеграции данных , графического дизайна , сложных систем , коммуникации и бизнеса . [11] [12] Статистик Натан Яу , опираясь на Бена Фрая , также связывает науку о данных с взаимодействием человека и компьютера : пользователи должны иметь возможность интуитивно контролировать и исследовать данные. [13] [14] В 2015 году Американская статистическая ассоциация определила управление базами данных , статистику и машинное обучение , а также распределенные и параллельные системы как три новых основополагающих профессиональных сообщества. [15]

Связь со статистикой

Многие статистики, включая Нейта Сильвера , утверждали, что наука о данных — это не новая область, а скорее другое название статистики. [16] Другие утверждают, что наука о данных отличается от статистики, поскольку фокусируется на проблемах и методах, уникальных для цифровых данных. [17] Васант Дхар пишет, что статистика делает акцент на количественных данных и описании. Напротив, наука о данных имеет дело с количественными и качественными данными (например, с изображений, текста, датчиков, транзакций, информации о клиентах и ​​т. д.) и делает акцент на прогнозировании и действии. [18] Эндрю Гельман из Колумбийского университета описал статистику как несущественную часть науки о данных. [19]

Профессор Стэнфорда Дэвид Донохо пишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений, и что многие программы аспирантуры ошибочно рекламируют свою аналитику и статистическую подготовку как суть программы по науке о данных. Он описывает науку о данных как прикладную область, вырастающую из традиционной статистики. [20]

Этимология

Раннее использование

В 1962 году Джон Тьюки описал область, которую он назвал « анализ данных », которая напоминает современную науку о данных. [20] В 1985 году в лекции, прочитанной в Китайской академии наук в Пекине, К. Ф. Джефф Ву впервые использовал термин «наука о данных» как альтернативное название для статистики. [21] Позже участники симпозиума по статистике 1992 года в Университете Монпелье II признали появление новой дисциплины, сосредоточенной на данных различного происхождения и форм, объединяющей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями. [22] [23]

Термин «наука о данных» появился в 1974 году, когда Питер Наур предложил его в качестве альтернативного названия компьютерной науке. [6] В 1996 году Международная федерация классификационных обществ стала первой конференцией, специально выделившей науку о данных в качестве темы. [6] Однако определение все еще находилось в стадии разработки. После лекции 1985 года в Китайской академии наук в Пекине, в 1997 году К. Ф. Джефф Ву снова предложил переименовать статистику в науку о данных. Он рассуждал о том, что новое название поможет статистике избавиться от неточных стереотипов, таких как синонимичность бухгалтерского учета или ограничение описания данных. [24] В 1998 году Хаяси Чикио выступил за науку о данных как за новую междисциплинарную концепцию с тремя аспектами: проектирование данных, сбор и анализ. [23]

В 1990-х годах популярными терминами для процесса поиска закономерностей в наборах данных (которые становились все больше) были «обнаружение знаний» и « извлечение данных ». [6] [25]

Современное использование

В 2012 году технологи Томас Х. Дэвенпорт и ДиДжей Патил объявили «Специалист по обработке данных: самая сексуальная профессия 21 века» [26] крылатой фразой, которую подхватили даже такие крупные городские газеты, как New York Times [27] и Boston Globe . [28] Десять лет спустя они подтвердили это, заявив, что «эта работа востребована работодателями как никогда». [29]

Современную концепцию науки о данных как независимой дисциплины иногда приписывают Уильяму С. Кливленду . [30] В статье 2001 года он отстаивал расширение статистики за пределы теории в технические области; поскольку это значительно изменило бы область, это заслуживало нового названия. [25] «Наука о данных» стала более широко использоваться в последующие несколько лет: в 2002 году Комитет по данным для науки и технологий запустил журнал Data Science Journal . В 2003 году Колумбийский университет запустил журнал The Journal of Data Science . [25] В 2014 году секция Американской статистической ассоциации по статистическому обучению и интеллектуальному анализу данных изменила свое название на секцию по статистическому обучению и науке о данных, отражая растущую популярность науки о данных. [31]

Профессиональное звание «специалист по данным» было присвоено ДиДжею Патилу и Джеффу Хаммербахеру в 2008 году. [32] Хотя оно было использовано Национальным научным советом в их отчете 2005 года «Долгосрочные коллекции цифровых данных: обеспечение научных исследований и образования в 21 веке», оно в широком смысле относилось к любой ключевой роли в управлении сбором цифровых данных . [33]

До сих пор нет единого мнения относительно определения науки о данных, и некоторые считают это модным словом . [34] Большие данные — это связанный маркетинговый термин. [35] Специалисты по данным отвечают за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции. [36]

Наука о данных и анализ данных

сводные статистические данные и диаграммы рассеяния, показывающие набор данных Datasaurus дюжины
Пример полезности разведочного анализа данных , продемонстрированный с использованием набора данных Datasaurus дюжины

Наука о данных и анализ данных являются важными дисциплинами в области управления данными и анализа, но они различаются в нескольких ключевых аспектах. Хотя обе области подразумевают работу с данными, наука о данных является скорее междисциплинарной областью , которая включает применение статистических, вычислительных и машинных методов обучения для извлечения информации из данных и составления прогнозов, в то время как анализ данных больше сосредоточен на изучении и интерпретации данных для выявления закономерностей и тенденций. [37] [38]

Анализ данных обычно включает в себя работу с меньшими, структурированными наборами данных для ответа на конкретные вопросы или решения конкретных проблем. Это может включать такие задачи, как очистка данных , визуализация данных и исследовательский анализ данных для получения информации о данных и разработки гипотез о связях между переменными . Аналитики данных обычно используют статистические методы для проверки этих гипотез и делают выводы из данных. Например, аналитик данных может анализировать данные о продажах, чтобы определить тенденции в поведении клиентов и дать рекомендации по маркетинговым стратегиям. [37]

С другой стороны, наука о данных — это более сложный и итеративный процесс, который включает работу с более крупными, более сложными наборами данных, для анализа которых часто требуются передовые вычислительные и статистические методы. Специалисты по данным часто работают с неструктурированными данными , такими как текст или изображения, и используют алгоритмы машинного обучения для построения прогностических моделей и принятия решений на основе данных. Помимо статистического анализа , наука о данных часто включает такие задачи, как предварительная обработка данных , проектирование признаков и выбор модели. Например, специалист по данным может разработать систему рекомендаций для платформы электронной коммерции, анализируя модели поведения пользователей и используя алгоритмы машинного обучения для прогнозирования предпочтений пользователей. [38] [39]

В то время как анализ данных фокусируется на извлечении идей из существующих данных, наука о данных выходит за рамки этого, включая разработку и внедрение прогностических моделей для принятия обоснованных решений. Ученые по данным часто отвечают за сбор и очистку данных, выбор соответствующих аналитических методов и развертывание моделей в реальных сценариях. Они работают на стыке математики, компьютерных наук и предметной области для решения сложных проблем и выявления скрытых закономерностей в больших наборах данных. [38]

Несмотря на эти различия, наука о данных и анализ данных являются тесно связанными областями и часто требуют схожих наборов навыков. Обе области требуют прочной основы в статистике, программировании и визуализации данных , а также способности эффективно доносить результаты как до технической, так и нетехнической аудитории. Обе области извлекают пользу из критического мышления и знания предметной области , поскольку понимание контекста и нюансов данных необходимо для точного анализа и моделирования. [37] [38]

Подводя итог, можно сказать, что анализ данных и наука о данных — это отдельные, но взаимосвязанные дисциплины в более широкой области управления данными и их анализа. Анализ данных фокусируется на извлечении идей и выводе выводов из структурированных данных , в то время как наука о данных включает в себя более комплексный подход, который объединяет статистический анализ , вычислительные методы и машинное обучение для извлечения идей, построения прогностических моделей и принятия решений на основе данных . Обе области используют данные для понимания закономерностей, принятия обоснованных решений и решения сложных проблем в различных областях.

Облачные вычисления для науки о данных

Облачная архитектура для обеспечения аналитики больших данных. Данные из различных источников, таких как персональные компьютеры , ноутбуки и смартфоны , передаются через облачные сервисы для обработки и анализа, что в конечном итоге приводит к различным приложениям для больших данных .

Облачные вычисления могут предложить доступ к большим объемам вычислительной мощности и хранилища . [40] В больших данных , где объемы информации постоянно генерируются и обрабатываются, эти платформы могут использоваться для решения сложных и ресурсоемких аналитических задач. [41]

Некоторые распределенные вычислительные фреймворки разработаны для обработки больших объемов данных. Эти фреймворки могут позволить специалистам по данным обрабатывать и анализировать большие наборы данных параллельно, что может сократить время обработки. [42]

Этические аспекты науки о данных

Наука о данных включает сбор, обработку и анализ данных, которые часто включают личную и конфиденциальную информацию. Этические проблемы включают потенциальные нарушения конфиденциальности, сохранение предвзятости и негативные социальные последствия [43] [44]

Модели машинного обучения могут усиливать существующие предубеждения, присутствующие в обучающих данных, что приводит к дискриминационным или несправедливым результатам. [45] [46]

Смотрите также

Ссылки

  1. ^ Донохо, Дэвид (2017). «50 лет науки о данных». Журнал вычислительной и графической статистики . 26 (4): 745–766. doi : 10.1080/10618600.2017.1384734 . S2CID  114558008.
  2. ^ Dhar, V. (2013). «Data science and predicting». Communications of the ACM . 56 (12): 64–73. doi :10.1145/2500499. S2CID  6107147. Архивировано из оригинала 9 ноября 2014 года . Получено 2 сентября 2015 года .
  3. ^ Данилюк, А.; Лейдиг, П. (2021). Вычислительные компетенции для учебных программ бакалавриата по науке о данных (PDF) . Заключительный отчет целевой группы по науке о данных ACM (Отчет).
  4. ^ Майк, Коби; Хаззан, Орит (20 января 2023 г.). «Что такое наука о данных?». Коммуникации АКМ . 66 (2): 12–13. дои : 10.1145/3575663 . ISSN  0001-0782.
  5. ^ Хаяси, Чикио (1 января 1998 г.). «Что такое наука о данных? Основные концепции и эвристический пример». В Хаяси, Чикио; Яджима, Кейджи; Бок, Ганс-Германн; Осуми, Нобору; Танака, Ютака; Баба, Ясумаса (ред.). Наука о данных, классификация и связанные с ними методы . Исследования по классификации, анализу данных и организации знаний. Springer Japan. стр. 40–51. doi :10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
  6. ^ abcd Cao, Longbing (29 июня 2017 г.). «Data Science: A Comprehensive Overview». ACM Computing Surveys . 50 (3): 43:1–43:42. arXiv : 2007.03606 . doi : 10.1145/3076253 . ISSN  0360-0300. S2CID  207595944.
  7. ^ Тони Хей; Стюарт Тэнсли; Кристин Мишель Толле (2009). Четвертая парадигма: Научное открытие с интенсивным использованием данных. Microsoft Research. ISBN 978-0-9825442-0-4. Архивировано из оригинала 20 марта 2017 года.
  8. ^ Белл, Г.; Хей, Т.; Салэй, А. (2009). «Компьютерная наука: за пределами потока данных». Science . 323 (5919): 1297–1298. doi :10.1126/science.1170411. ISSN  0036-8075. PMID  19265007. S2CID  9743327.
  9. ^ Дэвенпорт, Томас Х.; Патил, DJ (октябрь 2012 г.). «Data Scientist: The Sexyiest Job of the 21st Century». Harvard Business Review . 90 (10): 70–76, 128. PMID  23074866. Получено 18 января 2016 г.
  10. ^ Эммерт-Штрайб, Франк; Демер, Маттиас (2018). «Определение науки о данных с помощью количественной оценки сообщества на основе данных». Машинное обучение и извлечение знаний . 1 : 235–251. doi : 10.3390/make1010015 .
  11. ^ "1. Введение: Что такое наука о данных?". Doing Data Science [Книга] . O'Reilly . Получено 3 апреля 2020 г. .
  12. ^ "три сексуальных навыка гиков данных". medriscoll: data utopian . 27 мая 2009 г. Получено 3 апреля 2020 г.
  13. ^ Яу, Натан (4 июня 2009 г.). «Восход специалиста по данным». FlowingData . Получено 3 апреля 2020 г. .
  14. ^ "Базовый пример". benfry.com . Получено 3 апреля 2020 г. .
  15. ^ «Заявление ASA о роли статистики в науке о данных». AmStatNews . Американская статистическая ассоциация . 1 октября 2015 г. Архивировано из оригинала 20 июня 2019 г. Получено 29 мая 2019 г.
  16. ^ "Нейт Сильвер: Что мне нужно от статистиков". Просмотры статистики . 23 августа 2013 г. Получено 3 апреля 2020 г.
  17. ^ «В чем разница между наукой о данных и статистикой?». Priceonomics . 13 октября 2015 г. Получено 3 апреля 2020 г.
  18. ^ Васант Дхар (1 декабря 2013 г.). «Наука о данных и прогнозирование». Сообщения ACM . 56 (12): 64–73. doi :10.1145/2500499. S2CID  6107147.
  19. ^ "Статистика - наименее важная часть науки о данных «Статистическое моделирование, причинно-следственные связи и социальные науки». statmodeling.stat.columbia.edu . Получено 3 апреля 2020 г. .
  20. ^ ab Donoho, David (18 сентября 2015 г.). "50 лет науки о данных" (PDF) . Получено 2 апреля 2020 г.
  21. ^ Wu, CF Jeff (1986). «Будущие направления статистических исследований в Китае: историческая перспектива» (PDF) . Application of Statistics and Management . 1 : 1–7 . Получено 29 ноября 2020 г. .
  22. ^ Эскуфье, Ив; Хаяси, Чикио; Фише, Бернар, ред. (1995). Наука о данных и ее приложения . Токио: Academic Press/Harcourt Brace. ISBN 0-12-241770-4. OCLC  489990740.
  23. ^ ab Murtagh, Fionn; Devlin, Keith (2018). «Развитие науки о данных: последствия для образования, занятости, исследований и революции данных для устойчивого развития». Большие данные и когнитивные вычисления . 2 (2): 14. doi : 10.3390/bdcc2020014 .
  24. ^ Wu, C. F. Jeff. «Статистика=наука о данных?» (PDF) . Получено 2 апреля 2020 г.
  25. ^ abc Press, Gil. "A Very Short History of Data Science". Forbes . Получено 3 апреля 2020 г.
  26. ^ Дэвенпорт, Томас (1 октября 2012 г.). «Data Scientist: The Sexyiest Job of the 21st Century». Harvard Business Review . Получено 10 октября 2022 г.
  27. ^ Миллер, Клэр (4 апреля 2013 г.). «Наука о данных: цифры наших жизней». New York Times . Нью-Йорк . Получено 10 октября 2022 г. .
  28. ^ Борчерс, Каллум (11 ноября 2015 г.). «За кулисами „самой сексуальной работы 21 века“». Boston Globe . Бостон . Получено 10 октября 2022 г. .
  29. ^ Дэвенпорт, Томас (15 июля 2022 г.). «Является ли специалист по данным по-прежнему самой сексуальной работой 21 века?». Harvard Business Review . Получено 10 октября 2022 г.
  30. ^ Гупта, Шанти (11 декабря 2015 г.). "Уильям С. Кливленд" . Получено 2 апреля 2020 г.
  31. ^ Талли, Джилл (1 июня 2016 г.). «ASA расширяет сферу деятельности, расширяет возможности для содействия росту и сотрудничеству в области науки о данных». Новости Amstat . Американская статистическая ассоциация .В 2013 году в Люксембурге началась первая Европейская конференция по анализу данных (ECDA2013), в результате которой в 2015 году в Люксембурге была основана Европейская ассоциация по науке о данных (EuADS) www.euads.org.
  32. ^ Дэвенпорт, Томас Х.; Патил, DJ (1 октября 2012 г.). «Специалист по обработке данных: самая сексуальная работа 21-го века». Harvard Business Review . № октябрь 2012 г. ISSN  0017-8012 . Получено 3 апреля 2020 г.
  33. ^ "US NSF – NSB-05-40, Долгосрочные коллекции цифровых данных, обеспечивающие проведение исследований и образование в 21 веке". www.nsf.gov . Получено 3 апреля 2020 г. .
  34. ^ Пресс, Джил. «Наука о данных: каков период полураспада модного словечка?». Forbes . Получено 3 апреля 2020 г.
  35. ^ Фам, Питер. «Влияние больших данных, о котором вы, возможно, не слышали». Forbes . Получено 3 апреля 2020 г.
  36. ^ Мартин, София (20 сентября 2019 г.). «Как наука о данных повлияет на будущее бизнеса?» (PDF) . Medium . Получено 3 апреля 2020 г. .
  37. ^ abc Джеймс, Гарет ; Виттен, Даниэла ; Хасти, Тревор ; Тибширани, Роберт (29 сентября 2017 г.). Введение в статистическое обучение: с приложениями в R. Springer.
  38. ^ abcd Провост, Фостер; Том Фосетт (1 августа 2013 г.). «Наука о данных для бизнеса: что вам нужно знать о добыче данных и аналитическом мышлении». O'Reilly Media, Inc.
  39. ^ Хан, Камбер; Пей (2011). Data Mining: Concepts and Techniques. ISBN 9780123814791.
  40. ^ Хашем, Ибрагим Абакер Таргио; Якуб, Ибрар; Ануар, Нор Бадрул; Мохтар, Салима; Гани, Абдулла; Улла Хан, Сами (2015). «Рост «больших данных» в облачных вычислениях: обзор и открытые вопросы исследования». Информационные системы . 47 : 98–115. дои : 10.1016/j.is.2014.07.006.
  41. ^ Цю, Цзюньфэй; Ву, Цихуэй; Дин, Гуору; Сюй, Юйхуа; Фэн, Шуо (2016). «Обзор машинного обучения для обработки больших данных». Журнал EURASIP о достижениях в области обработки сигналов . 2016 (1). дои : 10.1186/s13634-016-0355-x . ISSN  1687-6180.
  42. ^ Armbrust, Michael; Xin, Reynold S.; Lian, Cheng; Huai, Yin; Liu, Davies; Bradley, Joseph K.; Meng, Xiangrui; Kaftan, Tomer; Franklin, Michael J.; Ghodsi, Ali; Zaharia, Matei (27 мая 2015 г.). "Spark SQL: реляционная обработка данных в Spark". Труды Международной конференции ACM SIGMOD по управлению данными 2015 г. ACM. стр. 1383–1394. doi :10.1145/2723372.2742797. ISBN 978-1-4503-2758-9.
  43. ^ Флориди, Лучано ; Таддео, Мариаросария (28 декабря 2016 г.). «Что такое этика данных?». Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences . 374 (2083): 20160360. Bibcode : 2016RSPTA.37460360F. doi : 10.1098/rsta.2016.0360. ISSN  1364-503X. PMC 5124072. PMID 28336805  . 
  44. ^ Миттельштадт, Брент Дэниел; Флориди, Лучано (2016). «Этика больших данных: текущие и прогнозируемые проблемы в биомедицинском контексте». Научная и инженерная этика . 22 (2): 303–341. doi :10.1007/s11948-015-9652-2. ISSN  1353-3452. PMID  26002496.
  45. ^ Барокас, Солон; Селбст, Эндрю Д. (2016). «Неоднозначное влияние больших данных». California Law Review . doi : 10.15779/Z38BG31 – через каталог юридической библиотеки Беркли.
  46. ^ Caliskan, Aylin; Bryson, Joanna J .; Narayanan, Arvind (14 апреля 2017 г.). «Семантика, автоматически выведенная из языковых корпусов, содержит человеческие предубеждения». Science . 356 (6334): 183–186. arXiv : 1608.07187 . Bibcode :2017Sci...356..183C. doi :10.1126/science.aal4230. ISSN  0036-8075.