stringtranslate.com

Наука о данных

Существование кометы NEOWISE (здесь она изображена в виде серии красных точек) было обнаружено путем анализа данных астрономических исследований , полученных космическим телескопом Wide -field Infrared Survey Explorer .

Наука о данных — это междисциплинарная академическая область [1] , которая использует статистику , научные вычисления , научные методы , процессы, алгоритмы и системы для извлечения или экстраполяции знаний и идей из потенциально зашумленных, структурированных или неструктурированных данных . [2]

Наука о данных также интегрирует предметные знания из базовой области приложения (например, естественные науки, информационные технологии и медицина). [3] Наука о данных многогранна и может быть описана как наука, исследовательская парадигма, метод исследования, дисциплина, рабочий процесс и профессия. [4]

Наука о данных – это «концепция объединения статистики , анализа данных , информатики и связанных с ними методов » для «понимания и анализа реальных явлений » с данными . [5] Он использует методы и теории, взятые из многих областей в контексте математики , статистики, информатики , информатики и предметных знаний . [6] Однако наука о данных отличается от информатики и информатики. Лауреат премии Тьюринга Джим Грей представлял науку о данных как «четвертую парадигму» науки ( эмпирическую , теоретическую , вычислительную и теперь управляемую данными) и утверждал, что «все в науке меняется из-за воздействия информационных технологий » и потока данных. . [7] [8]

Специалист по данным — это профессионал, который создает программный код и объединяет его со статистическими знаниями для получения ценной информации на основе данных. [9]

Фонды

Наука о данных — это междисциплинарная область [10] , ориентированная на извлечение знаний из обычно больших наборов данных и применение знаний и идей из этих данных для решения проблем в широком спектре областей приложений. Эта область включает в себя подготовку данных для анализа, формулирование задач в области науки о данных, анализ данных, разработку решений на основе данных и представление результатов для принятия решений на высоком уровне в широком спектре областей применения. Таким образом, он включает в себя навыки в области информатики, статистики, информатики, математики, визуализации данных , визуализации информации , озвучивания данных , интеграции данных , графического дизайна , сложных систем , коммуникации и бизнеса . [11] [12] Статистик Натан Яу , опираясь на Бена Фрая , также связывает науку о данных с взаимодействием человека и компьютера : пользователи должны иметь возможность интуитивно контролировать и исследовать данные. [13] [14] В 2015 году Американская статистическая ассоциация определила управление базами данных , статистику и машинное обучение , а также распределенные и параллельные системы в качестве трех новых основополагающих профессиональных сообществ. [15]

Связь со статистикой

Многие статистики, в том числе Нейт Сильвер , утверждают, что наука о данных — это не новая область, а, скорее, другое название статистики. [16] Другие утверждают, что наука о данных отличается от статистики, поскольку она фокусируется на проблемах и методах, уникальных для цифровых данных. [17] Васант Дхар пишет, что статистика делает упор на количественные данные и описания. Напротив, наука о данных имеет дело с количественными и качественными данными (например, из изображений, текста, датчиков, транзакций, информации о клиентах и ​​т. д.) и делает упор на прогнозирование и действие. [18] Эндрю Гельман из Колумбийского университета назвал статистику несущественной частью науки о данных. [19]

Профессор Стэнфорда Дэвид Донохо пишет, что наука о данных не отличается от статистики по размеру наборов данных или использованию вычислений и что многие аспирантуры ошибочно рекламируют свою подготовку по аналитике и статистике как суть программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики. [20]

Этимология

Раннее использование

В 1962 году Джон Тьюки описал область, которую он назвал «анализом данных», которая напоминает современную науку о данных. [20] В 1985 году в лекции, прочитанной в Китайской академии наук в Пекине, Джефф Ву впервые использовал термин «наука о данных» в качестве альтернативного названия статистики. [21] Позже участники статистического симпозиума 1992 года в Университете Монпелье II признали появление новой дисциплины, ориентированной на данные различного происхождения и формы, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями. [22] [23]

Термин «наука о данных» возник в 1974 году, когда Питер Наур предложил его в качестве альтернативного названия информатике. [6] В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой в качестве темы была конкретно рассмотрена наука о данных. [6] Однако определение все еще менялось. После лекции 1985 года в Китайской академии наук в Пекине в 1997 году Джефф Ву снова предложил переименовать статистику в науку о данных. Он полагал, что новое название поможет статистике избавиться от неверных стереотипов, таких как синоним бухгалтерского учета или ограничение описания данных. [24] В 1998 году Хаяси Чикио выступал за науку о данных как новую междисциплинарную концепцию, имеющую три аспекта: проектирование данных, сбор и анализ. [23]

В 1990-е годы популярные термины, обозначающие процесс поиска закономерностей в наборах данных (которые становились все более большими), включали «открытие знаний» и «интеллектуальный анализ данных ». [6] [25]

Современное использование

В 2012 году технологи Томас Х. Дэвенпорт и DJ Патил объявили «Исследователь данных: самая сексуальная работа 21-го века» [26] . Эту фразу подхватили даже такие крупные городские газеты, как New York Times [27] и Бостон Глобус . [28] Десять лет спустя они подтвердили это, заявив, что «эта работа более востребована у работодателей, чем когда-либо». [29]

Современную концепцию науки о данных как независимой дисциплины иногда приписывают Уильяму С. Кливленду . [30] В статье 2001 года он выступал за расширение статистики за пределы теории в технические области; поскольку это существенно изменило бы сферу деятельности, это потребовало нового названия. [25] «Наука о данных» стала более широко использоваться в следующие несколько лет: в 2002 году Комитет по данным для науки и технологий запустил журнал Data Science Journal . В 2003 году Колумбийский университет запустил «Журнал науки о данных» . [25] В 2014 году секция статистического обучения и интеллектуального анализа данных Американской статистической ассоциации сменила название на секцию статистического обучения и науки о данных, что отражает растущую популярность науки о данных. [31]

Профессиональное звание «ученый по данным» было присвоено DJ Патилу и Джеффу Хаммербахеру в 2008 году . 21 век» в широком смысле относится к любой ключевой роли в управлении сбором цифровых данных . [33]

До сих пор нет единого мнения по поводу определения науки о данных, и некоторые считают его модным словечком . [34] Большие данные – это родственный маркетинговый термин. [35] Ученые, работающие с данными, отвечают за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции. [36]

Наука о данных и анализ данных

Наука о данных и анализ данных являются важными дисциплинами в области управления и анализа данных, но они различаются по нескольким ключевым аспектам. Хотя обе области предполагают работу с данными, наука о данных — это скорее междисциплинарная область , которая включает в себя применение статистических, вычислительных методов и методов машинного обучения для извлечения информации из данных и составления прогнозов, тогда как анализ данных больше ориентирован на изучение и интерпретацию данных. данные для выявления закономерностей и тенденций. [37] [38]

Анализ данных обычно предполагает работу с небольшими структурированными наборами данных для ответа на конкретные вопросы или решения конкретных проблем. Это может включать в себя такие задачи, как очистка данных , визуализация данных и исследовательский анализ данных, чтобы получить представление о данных и разработать гипотезы о взаимосвязях между переменными . Аналитики данных обычно используют статистические методы для проверки этих гипотез и получения выводов на основе данных. Например, аналитик данных может анализировать данные о продажах, чтобы выявить тенденции в поведении клиентов и дать рекомендации по маркетинговым стратегиям. [37]

Наука о данных, с другой стороны, представляет собой более сложный и итеративный процесс, который включает в себя работу с более крупными и сложными наборами данных, для анализа которых часто требуются передовые вычислительные и статистические методы. Ученые, работающие с данными, часто работают с неструктурированными данными , такими как текст или изображения, и используют алгоритмы машинного обучения для построения прогнозных моделей и принятия решений на основе данных. Помимо статистического анализа , наука о данных часто включает в себя такие задачи, как предварительная обработка данных , разработка функций и выбор модели. Например, специалист по данным может разработать систему рекомендаций для платформы электронной коммерции, анализируя модели поведения пользователей и используя алгоритмы машинного обучения для прогнозирования предпочтений пользователей. [38] [39]

В то время как анализ данных фокусируется на извлечении информации из существующих данных, наука о данных выходит за рамки этого, включая разработку и внедрение прогнозных моделей для принятия обоснованных решений. Ученые, работающие с данными, часто отвечают за сбор и очистку данных, выбор подходящих аналитических методов и развертывание моделей в реальных сценариях. Они работают на стыке математики, информатики и предметной экспертизы , чтобы решать сложные проблемы и раскрывать скрытые закономерности в больших наборах данных. [38]

Несмотря на эти различия, наука о данных и анализ данных являются тесно связанными областями и часто требуют схожих навыков. Обе области требуют прочной основы в области статистики, программирования и визуализации данных , а также способности эффективно сообщать результаты как технической, так и нетехнической аудитории. Более того, обе области выигрывают от критического мышления и знания предметной области , поскольку понимание контекста и нюансов данных имеет важное значение для точного анализа и моделирования. [37] [38]

Таким образом, анализ данных и наука о данных — это отдельные, но взаимосвязанные дисциплины в более широкой области управления и анализа данных . Анализ данных фокусируется на извлечении информации и выводах из структурированных данных , в то время как наука о данных предполагает более комплексный подход, который сочетает в себе статистический анализ , вычислительные методы и машинное обучение для извлечения информации, построения прогнозных моделей и принятия решений на основе данных . Обе области играют жизненно важную роль в использовании возможностей данных для понимания закономерностей, принятия обоснованных решений и решения сложных проблем в различных областях.

История

Смотрите также

Рекомендации

  1. ^ Донохо, Дэвид (2017). «50 лет науки о данных». Журнал вычислительной и графической статистики . 26 (4): 745–766. дои : 10.1080/10618600.2017.1384734 . S2CID  114558008.
  2. ^ Дхар, В. (2013). «Наука о данных и прогнозирование». Коммуникации АКМ . 56 (12): 64–73. дои : 10.1145/2500499. S2CID  6107147. Архивировано из оригинала 9 ноября 2014 года . Проверено 2 сентября 2015 г.
  3. ^ Данилюк, А.; Лейдиг, П. (2021). Вычислительные компетенции для учебной программы бакалавриата по науке о данных (PDF) . Итоговый отчет рабочей группы по науке о данных ACM (отчет).
  4. ^ Майк, Коби; Хаззан, Орит (20 января 2023 г.). «Что такое наука о данных?». Коммуникации АКМ . 66 (2): 12–13. дои : 10.1145/3575663 . ISSN  0001-0782.
  5. Хаяси, Чикио (1 января 1998 г.). «Что такое наука о данных? Фундаментальные концепции и эвристический пример». В Хаяси, Чикио; Ядзима, Кейджи; Бок, Ганс-Германн; Осуми, Нобору; Танака, Ютака; Баба, Ясумаса (ред.). Наука о данных, классификация и родственные методы . Исследования в области классификации, анализа данных и организации знаний. Спрингер Япония. стр. 40–51. дои : 10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
  6. ^ abcd Цао, Лунбин (29 июня 2017 г.). «Наука о данных: всеобъемлющий обзор». Обзоры вычислительной техники ACM . 50 (3): 43:1–43:42. arXiv : 2007.03606 . дои : 10.1145/3076253 . ISSN  0360-0300. S2CID  207595944.
  7. ^ Тони Эй; Стюарт Тэнсли; Кристин Мишель Толле (2009). Четвертая парадигма: научные открытия, требующие больших объемов данных. Исследования Майкрософт. ISBN 978-0-9825442-0-4. Архивировано из оригинала 20 марта 2017 года.
  8. ^ Белл, Г.; Привет, Т.; Салай, А. (2009). «Информатика: за пределами потока данных». Наука . 323 (5919): 1297–1298. дои : 10.1126/science.1170411. ISSN  0036-8075. PMID  19265007. S2CID  9743327.
  9. ^ Давенпорт, Томас Х.; Патил, диджей (октябрь 2012 г.). «Аналитик данных: самая сексуальная работа 21 века». Гарвардское деловое обозрение . 90 (10): 70–76, 128. PMID  23074866 . Проверено 18 января 2016 г.
  10. ^ Эммерт-Штрайб, Франк; Демер, Матиас (2018). «Определение науки о данных путем количественной оценки сообщества на основе данных». Машинное обучение и извлечение знаний . 1 : 235–251. дои : 10.3390/make1010015 .
  11. ^ «1. Введение: Что такое наука о данных?» Занимаемся наукой о данных [Книга] . О'Рейли . Проверено 3 апреля 2020 г. .
  12. ^ «Три сексуальных навыка компьютерных фанатов» . Медрисколл: данные утопичны . 27 мая 2009 года . Проверено 3 апреля 2020 г. .
  13. Яу, Натан (4 июня 2009 г.). «Восстание специалиста по данным». Текущие данные . Проверено 3 апреля 2020 г. .
  14. ^ «Базовый пример». benfry.com . Проверено 3 апреля 2020 г. .
  15. ^ «Заявление ASA о роли статистики в науке о данных» . Новости Амстата . Американская статистическая ассоциация . 1 октября 2015 года. Архивировано из оригинала 20 июня 2019 года . Проверено 29 мая 2019 г.
  16. ^ «Нейт Сильвер: Что мне нужно от статистиков» . Статистика просмотров . Проверено 3 апреля 2020 г. .
  17. ^ «В чем разница между наукой о данных и статистикой?». Ценаономика . 13 октября 2015 г. Проверено 3 апреля 2020 г. .
  18. ^ Васант Дхар (1 декабря 2013 г.). «Наука о данных и прогнозирование». Коммуникации АКМ . 56 (12): 64–73. дои : 10.1145/2500499. S2CID  6107147.
  19. ^ «Статистика - наименее важная часть науки о данных « Статистическое моделирование, причинно-следственные связи и социальные науки» . statmodeling.stat.columbia.edu . Проверено 3 апреля 2020 г. .
  20. ↑ Аб Донохо, Дэвид (18 сентября 2015 г.). «50 лет науки о данных» (PDF) . Проверено 2 апреля 2020 г.
  21. ^ Ву, CF Джефф (1986). «Будущие направления статистических исследований в Китае: историческая перспектива» (PDF) . Применение статистики и управления . 1 :1–7 . Проверено 29 ноября 2020 г. .
  22. ^ Эскуфье, Ив; Хаяси, Чикио; Фише, Бернар, ред. (1995). Наука о данных и ее приложения . Токио: Academic Press/Harcourt Brace. ISBN 0-12-241770-4. ОСЛК  489990740.
  23. ^ аб Мурта, Фионн; Девлин, Кейт (2018). «Развитие науки о данных: последствия для образования, занятости, исследований и революция данных для устойчивого развития». Большие данные и когнитивные вычисления . 2 (2): 14. дои : 10.3390/bdcc2020014 .
  24. ^ Ву, CF Джефф. «Статистика = Наука о данных?» (PDF) . Проверено 2 апреля 2020 г.
  25. ^ abc Press, Гил. «Очень краткая история науки о данных». Форбс . Проверено 3 апреля 2020 г. .
  26. Давенпорт, Томас (1 октября 2012 г.). «Аналитик данных: самая сексуальная работа 21 века». Гарвардское деловое обозрение . Проверено 10 октября 2022 г.
  27. Миллер, Клэр (4 апреля 2013 г.). «Наука о данных: цифры нашей жизни». Газета "Нью-Йорк Таймс . Нью-Йорк . Проверено 10 октября 2022 г.
  28. Борчерс, Каллум (11 ноября 2015 г.). «За кулисами «самой сексуальной работы 21 века»». Бостон Глобус . Бостон . Проверено 10 октября 2022 г.
  29. Давенпорт, Томас (15 июля 2022 г.). «Является ли специалист по данным по-прежнему самой сексуальной профессией 21 века?». Гарвардское деловое обозрение . Проверено 10 октября 2022 г.
  30. Гупта, Шанти (11 декабря 2015 г.). «Уильям С. Кливленд» . Проверено 2 апреля 2020 г.
  31. Тэлли, Джилл (1 июня 2016 г.). «ASA расширяет сферу применения, охват для содействия росту и сотрудничеству в области науки о данных». Новости Амстата . Американская статистическая ассоциация .. В 2013 году первая Европейская конференция по анализу данных (ECDA2013) начала в Люксембурге процесс, в результате которого в 2015 году в Люксембурге была основана Европейская ассоциация по науке о данных (EuADS) www.euads.org.
  32. ^ Давенпорт, Томас Х.; Патил, диджей (1 октября 2012 г.). «Аналитик данных: самая сексуальная работа 21 века». Гарвардское деловое обозрение . № октябрь 2012 г. ISSN  0017-8012 . Проверено 3 апреля 2020 г. .
  33. ^ «НФ США - NSB-05-40, Долговечные коллекции цифровых данных, способствующие исследованиям и образованию в 21 веке» . www.nsf.gov . Проверено 3 апреля 2020 г. .
  34. ^ Пресс, Гил. «Наука о данных: каков период полураспада модного слова?». Форбс . Проверено 3 апреля 2020 г. .
  35. ^ Фам, Питер. «Влияние больших данных, о которых вы, возможно, не слышали». Форбс . Проверено 3 апреля 2020 г. .
  36. Мартин, София (20 сентября 2019 г.). «Как наука о данных повлияет на будущее бизнеса?» (PDF) . Середина . Проверено 3 апреля 2020 г. .
  37. ^ abc Гарет, Хасти; Виттен, Тибшира (29 сентября 2017 г.). «Введение в статистическое обучение: с приложениями на R». Спрингер .
  38. ^ abcd Провост, Фостер; Том Фосетт (1 августа 2013 г.). «Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении». О'Рейли Медиа, Инк .
  39. ^ Хан, Камбер; Пей (2011). Интеллектуальный анализ данных: концепции и методы. ISBN 9780123814791. {{cite book}}: |website=игнорируется ( помощь )