stringtranslate.com

Данные

Вот некоторые из различных типов данных: географические, культурные, научные, финансовые, статистические, метеорологические, природные, транспортные.

В общем использовании данные ( / ˈ d t ə / , также США : / ˈ d æ t ə / ) представляют собой набор дискретных или непрерывных значений , которые передают информацию , описывая количество , качество , факт , статистику , другие основные единицы значения или просто последовательности символов , которые могут быть дополнительно формально интерпретированы . Датум — это индивидуальное значение в наборе данных. Данные обычно организованы в структуры, такие как таблицы , которые предоставляют дополнительный контекст и значение, и сами могут использоваться как данные в более крупных структурах. Данные могут использоваться как переменные в вычислительном процессе . [1] [2] Данные могут представлять абстрактные идеи или конкретные измерения. [3] Данные обычно используются в научных исследованиях , экономике и практически в любой другой форме человеческой организационной деятельности. Примерами наборов данных являются ценовые индексы (например, индекс потребительских цен ), уровень безработицы , уровень грамотности и данные переписи населения . В этом контексте данные представляют собой необработанные факты и цифры, из которых можно извлечь полезную информацию.

Данные собираются с использованием таких методов, как измерение , наблюдение , запрос или анализ , и обычно представляются в виде чисел или символов , которые могут быть дополнительно обработаны . Полевые данные — это данные, которые собираются в неконтролируемой среде на месте . Экспериментальные данные — это данные, которые генерируются в ходе контролируемого научного эксперимента. Данные анализируются с использованием таких методов, как расчет , рассуждение , обсуждение, презентация , визуализация или другие формы пост-анализа. Перед анализом необработанные данные (или необработанные данные) обычно очищаются: удаляются выбросы и исправляются очевидные ошибки прибора или ввода данных.

Данные можно рассматривать как наименьшие единицы фактической информации, которые можно использовать в качестве основы для расчетов, рассуждений или обсуждений. Данные могут варьироваться от абстрактных идей до конкретных измерений, включая, помимо прочего, статистику . Тематически связанные данные, представленные в некотором соответствующем контексте, можно рассматривать как информацию . Контекстно связанные фрагменты информации затем можно описать как понимание данных или интеллект . Запас понимания и интеллекта, которые накапливаются с течением времени в результате синтеза данных в информацию, затем можно описать как знания . Данные были описаны как «новая нефть цифровой экономики ». [4] [5] Данные, как общее понятие , относятся к тому факту, что некоторая существующая информация или знания представлены или закодированы в некоторой форме, подходящей для лучшего использования или обработки .

Достижения в области вычислительных технологий привели к появлению больших данных , которые обычно относятся к очень большим объемам данных, как правило, в масштабах петабайт. Используя традиционные методы анализа данных и вычисления, работа с такими большими (и растущими) наборами данных затруднена, даже невозможна. (Теоретически говоря, бесконечные данные дали бы бесконечную информацию, что сделало бы извлечение идей или интеллекта невозможным.) В ответ на это относительно новая область науки о данных использует методы машинного обучения (и другие методы искусственного интеллекта (ИИ)), которые позволяют эффективно применять аналитические методы к большим данным.

Этимология и терминология

Латинское слово data — это множественное число от datum , «данная вещь», и причастие прошедшего времени среднего рода от dare , «давать». [6] Первое использование слова «data» в английском языке относится к 1640-м годам. Слово «data» впервые было использовано в значении «передаваемая и сохраняемая компьютерная информация» в 1946 году. Выражение «обработка данных» впервые было использовано в 1954 году. [6]

Когда «данные» используются в более общем смысле как синоним «информации», они рассматриваются как неисчисляемое существительное в единственном числе. Такое использование распространено в повседневном языке , а также в технических и научных областях, таких как разработка программного обеспечения и компьютерные науки . Одним из примеров такого использования является термин « большие данные ». При более конкретном использовании для обозначения обработки и анализа наборов данных термин сохраняет свою форму множественного числа. Такое использование распространено в естественных науках, науках о жизни, социальных науках, разработке программного обеспечения и компьютерных науках и стало популярным в 20-м и 21-м веках. Некоторые руководства по стилю не признают различные значения термина и просто рекомендуют форму, которая лучше всего подходит целевой аудитории руководства. Например, стиль APA с 7-го издания требует, чтобы «данные» рассматривались как форма множественного числа. [7]

Значение

«ТАБЛИЦА АПЕРТУР ОБЪЕКТИВНЫХ СТЕКЛ» Адриена Озу из статьи 1665 года в Philosophical Transactions

Данные, информация , знания и мудрость — тесно связанные понятия, но каждое из них играет свою роль по отношению к другому, и каждый термин имеет свое значение. Согласно общепринятому мнению, данные собираются и анализируются; данные становятся информацией, пригодной для принятия решений, только после того, как они были проанализированы каким-либо образом. [8] Можно сказать, что степень, в которой набор данных является информативным для кого-то, зависит от степени, в которой он является неожиданным для этого человека. Количество информации, содержащейся в потоке данных, можно охарактеризовать с помощью его энтропии Шеннона .

Знание — это осознание своего окружения, которым обладает некая сущность, тогда как данные просто передают это знание. Например, запись в базе данных, указывающая высоту горы Эверест, является данным, который передает точно измеренное значение. Это измерение может быть включено в книгу вместе с другими данными о горе Эверест, чтобы описать гору таким образом, чтобы это было полезно для тех, кто хочет выбрать наилучший способ восхождения на нее. Осознание характеристик, представленных этими данными, — это знание.

Данные часто считаются наименее абстрактным понятием, информация — следующим по значению, а знание — наиболее абстрактным. [9] С этой точки зрения данные становятся информацией посредством интерпретации; например, высота горы Эверест обычно считается «данными», книга о геологических характеристиках горы Эверест может считаться «информацией», а путеводитель для альпиниста, содержащий практическую информацию о наилучшем способе достижения вершины горы Эверест, может считаться «знанием». «Информация» имеет множество значений, которые варьируются от повседневного использования до технического использования. Однако эта точка зрения также утверждается как противоположная тому, как данные возникают из информации, а информация — из знания. [10] В целом, понятие информации тесно связано с понятиями ограничения, коммуникации, контроля, данных, формы, инструкции, знания, значения, умственного стимула, шаблона , восприятия и представления. Бейнон-Дэвис использует понятие знака для различения данных и информации; данные — это ряд символов, в то время как информация возникает, когда символы используются для обозначения чего-либо. [11] [12]

До развития вычислительных устройств и машин людям приходилось вручную собирать данные и накладывать на них шаблоны. С развитием вычислительных устройств и машин эти устройства также могут собирать данные. В 2010-х годах компьютеры широко использовались во многих областях для сбора данных и их сортировки или обработки, в дисциплинах от маркетинга , анализа использования социальных услуг гражданами до научных исследований. Эти шаблоны в данных рассматриваются как информация, которая может быть использована для расширения знаний. Эти шаблоны могут быть интерпретированы как « истина » (хотя «истина» может быть субъективным понятием) и могут быть разрешены как эстетические и этические критерии в некоторых дисциплинах или культурах. События, которые оставляют после себя воспринимаемые физические или виртуальные останки, можно проследить с помощью данных. Следы больше не считаются данными, как только связь между следом и наблюдением разорвана. [13]

Механические вычислительные устройства классифицируются в соответствии с тем, как они представляют данные. Аналоговый компьютер представляет данные как напряжение, расстояние, положение или другую физическую величину. Цифровой компьютер представляет часть данных как последовательность символов, взятых из фиксированного алфавита . Наиболее распространенные цифровые компьютеры используют двоичный алфавит, то есть алфавит из двух символов, обычно обозначаемых как «0» и «1». Более привычные представления, такие как числа или буквы, затем строятся из двоичного алфавита. Различаются некоторые специальные формы данных. Компьютерная программа представляет собой набор данных, которые можно интерпретировать как инструкции. Большинство компьютерных языков проводят различие между программами и другими данными, с которыми работают программы, но в некоторых языках, особенно в Lisp и подобных языках, программы по сути неотличимы от других данных. Также полезно различать метаданные , то есть описание других данных. Похожий, но более ранний термин для метаданных — «вспомогательные данные». Прототипическим примером метаданных является библиотечный каталог, который представляет собой описание содержания книг.

Документы данных

Всякий раз, когда данные необходимо зарегистрировать, они существуют в форме документа данных . Виды документов данных включают:

Некоторые из этих документов с данными (хранилища данных, исследования данных, наборы данных и программное обеспечение) индексируются в индексах цитирования данных, в то время как документы с данными индексируются в традиционных библиографических базах данных, например, в индексе научного цитирования .

Сбор данных

Сбор данных может осуществляться через первичный источник (исследователь является первым лицом, получившим данные) или вторичный источник (исследователь получает данные, которые уже были собраны другими источниками, такими как данные, распространенные в научном журнале). Методологии анализа данных различаются и включают триангуляцию данных и просачивание данных. [14] Последний предлагает четко сформулированный метод сбора, классификации и анализа данных с использованием пяти возможных углов анализа (по крайней мере трех) для максимизации объективности исследования и обеспечения максимально полного понимания изучаемых явлений: качественные и количественные методы, обзоры литературы (включая научные статьи), интервью с экспертами и компьютерное моделирование. После этого данные «просачиваются» с использованием серии заранее определенных шагов, чтобы извлечь наиболее релевантную информацию.

Долговечность и доступность данных

Важной областью в компьютерных науках , технологиях и библиотечном деле является долговечность данных. Научные исследования генерируют огромные объемы данных, особенно в геномике и астрономии , а также в медицинских науках , например, в медицинской визуализации . В прошлом научные данные публиковались в статьях и книгах, хранились в библиотеках, но в последнее время практически все данные хранятся на жестких дисках или оптических дисках . Однако, в отличие от бумаги, эти устройства хранения могут стать нечитаемыми через несколько десятилетий. Научные издательства и библиотеки борются с этой проблемой уже несколько десятилетий, и до сих пор не найдено удовлетворительного решения для долгосрочного хранения данных на протяжении столетий или даже вечности.

Доступность данных . Другая проблема заключается в том, что многие научные данные никогда не публикуются и не хранятся в хранилищах данных, таких как базы данных . В недавнем опросе были запрошены данные из 516 исследований, которые были опубликованы от 2 до 22 лет назад, но менее одного из пяти этих исследований смогли или захотели предоставить запрошенные данные. В целом, вероятность извлечения данных снижалась на 17% каждый год после публикации. [15] Аналогичным образом, опрос 100 наборов данных в Dryad показал, что более чем в половине из них не хватало деталей для воспроизведения результатов исследований из этих исследований. [16] Это показывает плачевную ситуацию с доступом к научным данным, которые не опубликованы или не имеют достаточно подробностей для воспроизведения.

Решение проблемы воспроизводимости заключается в попытке требовать FAIR-данных , то есть данных, которые являются Findable, Accessible, Interoperable и Reusable. Данные, которые соответствуют этим требованиям, могут быть использованы в последующих исследованиях и, таким образом, продвигают науку и технологию. [17]

В других областях

Хотя данные также все чаще используются в других областях, было высказано предположение, что их высоко интерпретативная природа может противоречить этике данных как «данных». Питер Чекленд ввел термин capta (от латинского capere , «брать»), чтобы различать огромное количество возможных данных и их подмножество, на которое ориентировано внимание. [18] Джоанна Друкер утверждала, что, поскольку гуманитарные науки утверждают производство знаний как «ситуативное, частичное и конститутивное», использование данных может вводить предположения, которые являются контрпродуктивными, например, что явления дискретны или независимы от наблюдателя. [19] Термин capta , который подчеркивает акт наблюдения как конститутивный, предлагается в качестве альтернативы данным для визуальных представлений в гуманитарных науках.

Термин «управляемый данными» — это неологизм, применяемый к деятельности, которая в первую очередь обусловлена ​​данными по сравнению со всеми другими факторами. [ необходима ссылка ] Приложения, управляемые данными, включают в себя управляемое данными программирование и управляемую данными журналистику .

Смотрите также


Ссылки

  1. ^ Глоссарий статистических терминов ОЭСР . ОЭСР. 2008. стр. 119. ISBN 978-92-64-025561.
  2. ^ "Статистический язык - Что такое данные?". Австралийское бюро статистики . 2013-07-13. Архивировано из оригинала 2019-04-19 . Получено 2020-03-09 .
  3. ^ "Данные против информации - разница и сравнение | Diffen". www.diffen.com . Получено 11.12.2018 .
  4. ^ Йонего, Йорис Тундерс (23 июля 2014 г.). «Данные — это новая нефть цифровой экономики». Wired — через www.wired.com.
  5. ^ «Данные — это новая нефть». 16 июля 2018 г. Архивировано из оригинала 16 июля 2018 г.
  6. ^ ab "data | Происхождение и значение data по данным онлайн-этимологического словаря". www.etymonline.com .
  7. ^ Американская психологическая ассоциация (2020). "6.11". Руководство по публикации Американской психологической ассоциации: официальное руководство по стилю APA . Американская психологическая ассоциация. ISBN 9781433832161.
  8. ^ "Joint Publication 2-0, Joint Intelligence" (PDF) . Объединенный комитет начальников штабов, Joint Doctrine Publications . Министерство обороны. 23 октября 2013 г. стр. I-1. Архивировано из оригинала (PDF) 18 июля 2018 г. . Получено 17 июля 2018 г. .
  9. ^ Акаш Митра (2011). «Классификация данных для успешного моделирования». Архивировано из оригинала 2017-11-07 . Получено 2017-11-05 .
  10. ^ Туоми, Илкка (2000). «Данные — это больше, чем знания». Журнал систем управленческой информации . 6 (3): 103–117. doi :10.1080/07421222.1999.11518258.
  11. ^ P. Beynon-Davies (2002). Информационные системы: Введение в информатику в организациях . Basingstoke, UK: Palgrave Macmillan . ISBN 0-333-96390-3.
  12. ^ P. Beynon-Davies (2009). Бизнес-информационные системы . Basingstoke, UK: Palgrave. ISBN 978-0-230-20368-6.
  13. ^ Шэрон Дэниел. База данных: Эстетика достоинства .
  14. ^ Месли, Оливье (2015), Создание моделей в психологических исследованиях , Springer Psychology: 126 страниц. ISBN 978-3-319-15752-8 
  15. ^ Vines, Timothy H.; Albert, Arianne YK; Andrew, Rose L.; Débarre, Florence; Bock, Dan G.; Franklin, Michelle T.; Gilbert, Kimberly J.; Moore, Jean-Sébastien; Renaut, Sébastien; Rennison, Diana J. (2014-01-06). «Доступность исследовательских данных быстро снижается с возрастом статьи». Current Biology . 24 (1): 94–97. arXiv : 1312.5670 . doi : 10.1016/j.cub.2013.11.014 . ISSN  1879-0445. PMID  24361065. S2CID  7799662.
  16. ^ Рош, Доминик Г.; Круук, Лёске Э.Б.; Ланфир, Роберт; Биннинг, Сандра А. (2015). «Архивирование публичных данных в области экологии и эволюции: насколько хорошо мы справляемся?». PLOS Biology . 13 (11): e1002295. doi : 10.1371/journal.pbio.1002295 . ISSN  1545-7885. PMC 4640582. PMID  26556502 . 
  17. ^ Эйзенштейн, Майкл (апрель 2022 г.). «В погоне за бессмертием данных». Nature . 604 (7904): 207–208. Bibcode :2022Natur.604..207E. doi : 10.1038/d41586-022-00929-3 . ISSN  1476-4687. PMID  35379989. S2CID  247954952.
  18. ^ P. Checkland и S. Holwell (1998). Информация, системы и информационные системы: осмысление поля . Чичестер, Западный Сассекс: John Wiley & Sons. стр. 86–89. ISBN 0-471-95820-4.
  19. ^ Джоанна Друкер (2011). «Гуманитарные подходы к графическому отображению». Digital Humanities Quarterly . 005 (1).

Внешние ссылки