stringtranslate.com

Данные

Это некоторые из различных типов данных.

В обычном использовании данные ( США : / ˈ d æ t ə / ; Великобритания : / ˈ d t ə / ) представляют собой набор дискретных или непрерывных значений , которые передают информацию , описывающую количество , качество , факт , статистику , другие основные единицы. значения или просто последовательности символов , которые в дальнейшем могут быть формально интерпретированы . Данные — это отдельное значение в наборе данных. Данные обычно организуются в структуры , такие как таблицы , которые обеспечивают дополнительный контекст и значение и которые сами могут использоваться в качестве данных в более крупных структурах. Данные могут использоваться в качестве переменных в вычислительном процессе . [1] [2] Данные могут представлять собой абстрактные идеи или конкретные измерения. [3] Данные обычно используются в научных исследованиях , экономике и практически во всех других формах человеческой организационной деятельности. Примеры наборов данных включают индексы цен (например, индекс потребительских цен ), уровень безработицы , уровень грамотности и данные переписи населения . В этом контексте данные представляют собой необработанные факты и цифры, из которых можно извлечь полезную информацию.

Данные собираются с использованием таких методов, как измерение , наблюдение , запрос или анализ , и обычно представляются в виде чисел или символов , которые могут быть дополнительно обработаны . Полевые данные — это данные, которые собираются в неконтролируемой среде на месте . Экспериментальные данные – это данные, которые формируются в ходе контролируемого научного эксперимента. Данные анализируются с использованием таких методов, как расчет , рассуждение , обсуждение, презентация , визуализация или другие формы постанализа. Перед анализом необработанные данные (или необработанные данные) обычно очищаются : удаляются выбросы и исправляются очевидные ошибки прибора или ввода данных.

Данные можно рассматривать как мельчайшие единицы фактической информации, которые можно использовать в качестве основы для расчетов, рассуждений или обсуждений. Данные могут варьироваться от абстрактных идей до конкретных измерений, включая, помимо прочего, статистику . Тематически связанные данные, представленные в некотором соответствующем контексте, можно рассматривать как информацию . Контекстуально связанные фрагменты информации могут быть описаны как аналитические данные или разведка . Запас идей и интеллекта, который накапливается с течением времени в результате синтеза данных в информацию, может быть тогда описан как знание . Данные называют «новой нефтью цифровой экономики ». [4] [5] Данные, как общая концепция , относятся к тому факту, что некоторая существующая информация или знания представлены или закодированы в некоторой форме , подходящей для лучшего использования или обработки .

Достижения в области компьютерных технологий привели к появлению больших данных , которые обычно относятся к очень большим объемам данных, обычно в петабайтном масштабе. Используя традиционные методы анализа данных и вычисления, работать с такими большими (и растущими) наборами данных сложно или даже невозможно. (Теоретически, бесконечные данные дадут бесконечную информацию, что сделает невозможным извлечение информации или разведки.) В ответ на это относительно новая область науки о данных использует методы машинного обучения (и других искусственных интеллектов (ИИ)), которые позволяют эффективно применять аналитические методы для больших данных.

Этимология и терминология

Латинское слово data — это множественное число от datum , «(вещь) данное», причастие среднего прошедшего времени от Dare , «давать». [6] Первое использование слова «данные» в английском языке относится к 1640-м годам. Слово «данные» впервые было использовано для обозначения «передаваемой и сохраняемой компьютерной информации» в 1946 году. Выражение «обработка данных» впервые было использовано в 1954 году. [6]

Когда слово «данные» используется в более широком смысле как синоним слова «информация», оно рассматривается как массовое существительное в единственном числе. Такое использование распространено в повседневной речи , а также в технических и научных областях, таких как разработка программного обеспечения и информатика . Одним из примеров такого использования является термин « большие данные ». При более конкретном использовании для обозначения обработки и анализа наборов данных этот термин сохраняет форму множественного числа. Это использование распространено в естественных науках, науках о жизни, социальных науках, разработке программного обеспечения и информатике, и его популярность выросла в 20 и 21 веках. Некоторые руководства по стилю не признают различных значений этого термина и просто рекомендуют форму, которая лучше всего подходит целевой аудитории руководства. Например, стиль APA 7-го издания требует, чтобы слово «данные» рассматривалось как форма множественного числа. [7]

Значение

«ТАБЛИЦА апертур объективов» Адриана Озу из статьи 1665 года в журнале Philosophical Transactions.

Данные, информация , знания и мудрость — тесно связанные понятия, но каждое из них имеет свою роль относительно другого, и каждый термин имеет свое значение. Согласно распространенному мнению, данные собираются и анализируются; данные становятся информацией, пригодной для принятия решений, только после того, как они каким-либо образом проанализированы. [8] Можно сказать, что степень информативности набора данных для кого-то зависит от того, насколько он неожидан для этого человека. Количество информации, содержащейся в потоке данных, можно охарактеризовать его энтропией Шеннона .

Знания — это осведомленность об окружающей среде, которой обладает некий объект, тогда как данные просто передают эти знания. Например, запись в базе данных, определяющая высоту Эвереста, представляет собой датум, который передает точно измеренное значение. Это измерение можно включить в книгу вместе с другими данными об Эвересте, чтобы описать гору таким образом, чтобы это было полезно тем, кто хочет выбрать лучший метод восхождения на нее. Осознание характеристик, представленных этими данными, является знанием.

Часто считается, что данные являются наименее абстрактным понятием, информация – следующим наименее абстрактным, а знание – самым абстрактным. [9] С этой точки зрения данные становятся информацией благодаря интерпретации; например, высота Эвереста обычно считается «данными», книга о геологических характеристиках Эвереста может считаться «информацией», а путеводитель альпиниста, содержащий практическую информацию о том, как лучше всего достичь вершины Эвереста, можно считать «знаниями». . «Информация» имеет множество значений, от повседневного использования до технического использования. Однако утверждается, что эта точка зрения также опровергает то, как данные возникают из информации, а информация — из знаний. [10] Вообще говоря, концепция информации тесно связана с понятиями ограничения, коммуникации, контроля, данных, формы, инструкции, знания, значения, умственного стимула, шаблона , восприятия и представления. Бейнон-Дэвис использует концепцию знака , чтобы различать данные и информацию; данные представляют собой серию символов, а информация возникает, когда символы используются для обозначения чего-либо. [11] [12]

До разработки вычислительных устройств и машин людям приходилось вручную собирать данные и накладывать на них шаблоны. С развитием вычислительных устройств и машин эти устройства также могут собирать данные. В 2010-х годах компьютеры широко используются во многих областях для сбора данных, их сортировки или обработки: от маркетинга , анализа использования гражданами социальных услуг до научных исследований. Эти закономерности в данных рассматриваются как информация, которую можно использовать для расширения знаний. Эти модели могут интерпретироваться как « истина » (хотя «истина» может быть субъективным понятием) и могут быть признаны эстетическими и этическими критериями в некоторых дисциплинах или культурах. События, которые оставляют после себя ощутимые физические или виртуальные останки, можно проследить с помощью данных. Отметки больше не считаются данными, если связь между отметкой и наблюдением нарушена. [13]

Механические вычислительные устройства классифицируются в зависимости от того, как они представляют данные. Аналоговый компьютер представляет данные как напряжение, расстояние, положение или другую физическую величину. Цифровой компьютер представляет фрагмент данных как последовательность символов, взятых из фиксированного алфавита . Наиболее распространенные цифровые компьютеры используют двоичный алфавит, то есть алфавит из двух символов, обычно обозначаемых «0» и «1». Более привычные представления, такие как числа или буквы, затем создаются из двоичного алфавита. Выделяют некоторые специальные формы данных. Компьютерная программа — это набор данных, которые можно интерпретировать как инструкции. Большинство компьютерных языков проводят различие между программами и другими данными, с которыми работают программы, но в некоторых языках, особенно в Лиспе и подобных языках, программы по существу неотличимы от других данных. Также полезно различать метаданные , то есть описание других данных. Аналогичный, но более ранний термин для метаданных — «вспомогательные данные». Прототипическим примером метаданных является библиотечный каталог, который представляет собой описание содержания книг.

Документы данных

Всякий раз, когда данные необходимо зарегистрировать, они существуют в форме документа данных . К видам информационных документов относятся:

Некоторые из этих документов с данными (хранилища данных, исследования данных, наборы данных и программное обеспечение) индексируются в индексах цитирования данных, тогда как документы с данными индексируются в традиционных библиографических базах данных, например, в индексе научного цитирования .

Сбор данных

Сбор данных может осуществляться через первичный источник (исследователь — это первый человек, получивший данные) или вторичный источник (исследователь получает данные, которые уже были собраны из других источников, например, данные, распространенные в научном журнале). Методологии анализа данных различаются и включают триангуляцию данных и просачивание данных. [14] Последний предлагает четкий метод сбора, классификации и анализа данных с использованием пяти возможных углов анализа (не менее трех), чтобы максимизировать объективность исследования и позволить как можно более полное понимание исследуемых явлений: качественный и количественный. методы, обзоры литературы (включая научные статьи), интервью с экспертами и компьютерное моделирование. После этого данные «просачиваются» с использованием ряда заранее определенных шагов, чтобы извлечь наиболее релевантную информацию.

Долговечность и доступность данных

Важной областью информатики , технологий и библиотечного дела является долговечность данных. Научные исследования генерируют огромные объемы данных, особенно в области геномики и астрономии , а также в медицинских науках , например, в области медицинской визуализации . В прошлом научные данные публиковались в статьях и книгах, хранились в библиотеках, но в последнее время практически все данные хранятся на жестких дисках или оптических дисках . Однако, в отличие от бумаги, эти носители информации могут стать нечитаемыми через несколько десятилетий. Научные издательства и библиотеки бьются над этой проблемой уже несколько десятилетий, и до сих пор не существует удовлетворительного решения для долгосрочного хранения данных на протяжении столетий или даже вечности.

Доступность данных . Другая проблема заключается в том, что большая часть научных данных никогда не публикуется и не хранится в хранилищах данных, таких как базы данных . В недавнем опросе были запрошены данные из 516 исследований, которые были опубликованы между 2 и 22 годами ранее, но менее одного из пяти этих исследований смогли или захотели предоставить запрошенные данные. В целом вероятность получения данных падала на 17% каждый год после публикации. [15] Аналогичным образом, исследование 100 наборов данных в Dryad показало, что более чем половине из них не хватало деталей для воспроизведения результатов этих исследований. [16] Это показывает тяжелую ситуацию с доступом к научным данным, которые не публикуются или не содержат достаточно деталей для воспроизведения.

Решением проблемы воспроизводимости является попытка потребовать данные FAIR , то есть данные, которые можно найти, доступны, совместимы и повторно использованы. Данные, отвечающие этим требованиям, могут быть использованы в последующих исследованиях и, таким образом, способствуют развитию науки и техники. [17]

В других областях

Хотя данные все чаще используются и в других областях, было высказано предположение, что их в высшей степени интерпретационный характер может противоречить духу данных как «данности». Питер Чеклэнд ввел термин capta (от латинского capere — «брать»), чтобы различать огромное количество возможных данных и их подмножество, на которое направлено внимание. [18] Джоанна Друкер утверждала, что, поскольку гуманитарные науки утверждают, что производство знаний является «ситуативным, частичным и конститутивным», использование данных может привести к контрпродуктивным предположениям, например, о том, что явления дискретны или независимы от наблюдателя. [19] Термин capta , который подчеркивает конститутивность акта наблюдения, предлагается в качестве альтернативы данным для визуальных представлений в гуманитарных науках.

Действия, основанные на данных

Прилагательное « управляемый данными» — это неологизм, применяемый к деятельности, обусловленной данными, а не интуицией или личным опытом. Примеры включают в себя:

Смотрите также

Рекомендации

  1. ^ Глоссарий статистических терминов ОЭСР . ОЭСР. 2008. с. 119. ИСБН 978-92-64-025561.
  2. ^ «Статистический язык — что такое данные?». Австралийское статистическое бюро . 13 июля 2013 г. Архивировано из оригинала 19 апреля 2019 г. Проверено 9 марта 2020 г.
  3. ^ «Данные против информации - Разница и сравнение | Разница» . www.diffen.com . Проверено 11 декабря 2018 г.
  4. Йонего, Джорис Тундерс (23 июля 2014 г.). «Данные — новая нефть цифровой экономики». Проводной – через www.wired.com.
  5. ^ «Данные - новая нефть» . 16 июля 2018 г. Архивировано из оригинала 16 июля 2018 г.
  6. ^ ab «данные | Происхождение и значение данных из онлайн-словаря этимологии». www.etymonline.com .
  7. ^ Американская психологическая ассоциация (2020). «6.11». Руководство по публикации Американской психологической ассоциации: официальное руководство по стилю APA . Американская психологическая ассоциация. ISBN 9781433832161.
  8. ^ «Совместная публикация 2-0, Объединенная разведка» (PDF) . Объединенный комитет начальников штабов, Объединенные доктринальные публикации . Министерство обороны. 23 октября 2013 г. стр. I-1. Архивировано из оригинала (PDF) 18 июля 2018 года . Проверено 17 июля 2018 г.
  9. ^ Акаш Митра (2011). «Классификация данных для успешного моделирования». Архивировано из оригинала 07.11.2017 . Проверено 5 ноября 2017 г.
  10. ^ Туоми, Илкка (2000). «Данные — это больше, чем знания». Журнал информационных систем управления . 6 (3): 103–117. дои : 10.1080/07421222.1999.11518258.
  11. ^ П. Бейнон-Дэвис (2002). Информационные системы: введение в информатику в организациях . Бейзингсток, Великобритания: Пэлгрейв Макмиллан . ISBN 0-333-96390-3.
  12. ^ П. Бейнон-Дэвис (2009). Информационные системы бизнеса . Бейзингсток, Великобритания: Пэлгрейв. ISBN 978-0-230-20368-6.
  13. ^ Шэрон Дэниел. База данных: эстетика достоинства .
  14. ^ Месли, Оливье (2015). Создание моделей в психологических исследованиях. États-Unis: Springer Psychology: 126 страниц. ISBN 978-3-319-15752-8 
  15. ^ Вайнс, Тимоти Х.; Альберт, Арианна Ю.К.; Эндрю, Роуз Л.; Дебарр, Флоренция; Бок, Дэн Г.; Франклин, Мишель Т.; Гилберт, Кимберли Дж.; Мур, Жан-Себастьян; Рено, Себастьен; Реннисон, Диана Дж. (6 января 2014 г.). «Доступность исследовательских данных быстро снижается с возрастом статьи». Современная биология . 24 (1): 94–97. arXiv : 1312.5670 . дои : 10.1016/j.cub.2013.11.014 . ISSN  1879-0445. PMID  24361065. S2CID  7799662.
  16. ^ Рош, Доминик Г.; Круук, Леске Е.Б.; Ланфир, Роберт; Биннинг, Сандра А. (2015). «Общественное архивирование данных в области экологии и эволюции: насколько хорошо мы справляемся?». ПЛОС Биология . 13 (11): e1002295. дои : 10.1371/journal.pbio.1002295 . ISSN  1545-7885. ПМК 4640582 . ПМИД  26556502. 
  17. ^ Эйзенштейн, Майкл (апрель 2022 г.). «В поисках бессмертия данных». Природа . 604 (7904): 207–208. Бибкод : 2022Natur.604..207E. дои : 10.1038/d41586-022-00929-3 . ISSN  1476-4687. PMID  35379989. S2CID  247954952.
  18. ^ П. Чекленд и С. Холвелл (1998). Информация, системы и информационные системы: осмысление поля . Чичестер, Западный Суссекс: Джон Вили и сыновья. стр. 86–89. ISBN 0-471-95820-4.
  19. ^ Джоанна Друкер (2011). «Гуманитарные подходы к графическому отображению». Ежеквартальный журнал цифровых гуманитарных наук . 005 (1).

Внешние ссылки