Метаданные (или метаинформация ) — это « данные , которые предоставляют информацию о других данных» [1], но не содержимое самих данных, например, текст сообщения или само изображение. [2] Существует много различных типов метаданных, включая:
Метаданные не привязаны строго к одной из этих категорий, поскольку они могут описывать фрагмент данных многими другими способами.
Метаданные имеют различные цели. Они могут помочь пользователям найти соответствующую информацию и обнаружить ресурсы . Они также могут помочь организовать электронные ресурсы, обеспечить цифровую идентификацию, а также архивировать и сохранять ресурсы. Метаданные позволяют пользователям получать доступ к ресурсам, «позволяя находить ресурсы по соответствующим критериям, идентифицируя ресурсы, объединяя похожие ресурсы, различая разнородные ресурсы и предоставляя информацию о местоположении». [8] Метаданные телекоммуникационной деятельности, включая интернет -трафик, очень широко собираются различными национальными правительственными организациями. Эти данные используются для анализа трафика и могут использоваться для массового наблюдения . [9]
Метаданные традиционно использовались в карточных каталогах библиотек до 1980-х годов, когда библиотеки преобразовали свои каталожные данные в цифровые базы данных . [10] В 2000-х годах, поскольку данные и информация все чаще хранились в цифровом виде, эти цифровые данные были описаны с использованием стандартов метаданных . [11]
Первое описание «метаданных» для компьютерных систем предположительно было отмечено экспертами Центра международных исследований Массачусетского технологического института Дэвидом Гриффелом и Стюартом Макинтошом в 1967 году: «Подводя итог, у нас есть утверждения на объектном языке о предметных описаниях данных и токен-кодах для данных. У нас также есть утверждения на метаязыке, описывающие отношения и преобразования данных, а также отношения должного/является между нормой и данными». [12]
Существуют уникальные стандарты метаданных для различных дисциплин (например, музейные коллекции, цифровые аудиофайлы , веб-сайты и т. д.). Описание содержания и контекста данных или файлов данных повышает их полезность. Например, веб-страница может включать метаданные, указывающие, на каком языке программного обеспечения написана страница (например, HTML), какие инструменты использовались для ее создания, каким темам посвящена страница и где можно найти дополнительную информацию о теме. Эти метаданные могут автоматически улучшить опыт читателя и облегчить пользователям поиск веб-страницы в Интернете. [13] Компакт -диск может включать метаданные, предоставляющие информацию о музыкантах, певцах и авторах песен, чьи работы появляются на диске.
Во многих странах государственные организации регулярно хранят метаданные об электронных письмах, телефонных звонках, веб-страницах, видеотрафике, IP-подключениях и местоположении мобильных телефонов. [14]
Метаданные означают «данные о данных». Метаданные определяются как данные, предоставляющие информацию об одном или нескольких аспектах данных; они используются для обобщения базовой информации о данных, которая может облегчить отслеживание и работу с определенными данными. [15] Вот некоторые примеры:
Например, цифровое изображение может включать метаданные, которые описывают размер изображения, его глубину цвета, разрешение, время создания, выдержку и другие данные. [16] Метаданные текстового документа могут содержать информацию о длине документа, об авторе, о времени написания документа и краткое описание документа. Метаданные на веб-страницах также могут содержать описания содержимого страницы, а также ключевые слова, связанные с содержимым. [17] Эти ссылки часто называют «метатегами», которые использовались в качестве основного фактора при определении порядка веб-поиска до конца 1990-х годов. [17] Зависимость от метатегов в веб-поиске снизилась в конце 1990-х годов из-за «наполнения ключевыми словами», [17] когда метатеги в значительной степени использовались неправильно, чтобы обмануть поисковые системы, заставив их думать, что некоторые веб-сайты имеют большую релевантность в поиске, чем они есть на самом деле. [17]
Метаданные могут храниться и управляться в базе данных , часто называемой реестром метаданных или репозиторием метаданных . [18] Однако без контекста и точки отсчета может быть невозможно идентифицировать метаданные, просто взглянув на них. [19] Например: сама по себе база данных, содержащая несколько чисел, все из 13 цифр, может быть результатами вычислений или списком чисел для подстановки в уравнение — без какого-либо другого контекста сами числа могут восприниматься как данные. Но если учесть контекст, что эта база данных является журналом коллекции книг, эти 13-значные числа теперь могут быть идентифицированы как ISBN — информация, которая относится к книге, но сама по себе не является информацией внутри книги. Термин «метаданные» был придуман в 1968 году Филиппом Бэгли в его книге «Расширение концепций языка программирования», где ясно, что он использует термин в «традиционном» смысле ISO 11179, который является «структурными метаданными», т. е. «данными о контейнерах данных»; вместо альтернативного смысла «контент об отдельных экземплярах контента данных» или метаконтент, тип данных, обычно встречающийся в библиотечных каталогах. [20] [21] С тех пор области управления информацией, информатики, информационных технологий, библиотечного дела и ГИС широко приняли этот термин. В этих областях слово метаданные определяется как «данные о данных». [22] Хотя это общепринятое определение, различные дисциплины приняли свои собственные более конкретные объяснения и использования термина.
В 2013 году издание Slate сообщило, что правительство США может толковать «метаданные» в широком смысле и включать в себя содержание сообщений, например, темы электронных писем. [23]
Хотя применение метаданных многообразно и охватывает широкий спектр областей, существуют специализированные и общепринятые модели для указания типов метаданных. Бретертон и Сингли (1994) различают два отдельных класса: структурные/контрольные метаданные и направляющие метаданные. [24] Структурные метаданные описывают структуру объектов базы данных, таких как таблицы, столбцы, ключи и индексы. Направляющие метаданные помогают людям находить определенные элементы и обычно выражаются в виде набора ключевых слов на естественном языке. По словам Ральфа Кимбалла , метаданные можно разделить на три категории: технические метаданные (или внутренние метаданные), бизнес-метаданные (или внешние метаданные) и метаданные процессов .
NISO различает три типа метаданных: описательные, структурные и административные. [22] Описательные метаданные обычно используются для обнаружения и идентификации, как информация для поиска и определения местоположения объекта, например, название, авторы, темы, ключевые слова и издатель. Структурные метаданные описывают, как организованы компоненты объекта. Примером структурных метаданных может быть то, как страницы упорядочены для формирования глав книги. Наконец, административные метаданные предоставляют информацию, помогающую управлять источником. Административные метаданные относятся к технической информации, такой как тип файла или когда и как был создан файл. Два подтипа административных метаданных — это метаданные управления правами и метаданные сохранения. Метаданные управления правами объясняют права интеллектуальной собственности , в то время как метаданные сохранения содержат информацию для сохранения и сохранения ресурса. [8]
Статистические хранилища данных имеют свои собственные требования к метаданным, чтобы описать не только источник и качество данных [6], но и то, какие статистические процессы использовались для создания данных, что имеет особое значение для статистического сообщества с целью как проверки, так и улучшения процесса производства статистических данных. [7]
Дополнительным типом метаданных, который начинает развиваться, являются метаданные доступности . Метаданные доступности не являются новой концепцией для библиотек; однако достижения в области универсального дизайна повысили их значимость. [25] : 213–214 Такие проекты, как Cloud4All и GPII, выявили отсутствие общей терминологии и моделей для описания потребностей и предпочтений пользователей, а также информации, которая соответствует этим потребностям, как основной пробел в предоставлении решений универсального доступа. [25] : 210–211 Эти типы информации являются метаданными доступности. [25] : 214 Schema.org включил несколько свойств доступности на основе спецификации элементов данных информационной модели IMS Global Access for All. [25] : 214 На странице Wiki WebSchemas/Accessibility перечислены несколько свойств и их значения. Хотя усилия по описанию и стандартизации различных потребностей в доступности для ищущих информацию начинают становиться более надежными, их принятие в устоявшиеся схемы метаданных не было столь развито. Например, в то время как «аудитория» Dublin Core (DC) и «уровень чтения» MARC 21 могут быть использованы для определения ресурсов, подходящих для пользователей с дислексией, а «формат» DC может быть использован для определения ресурсов, доступных в форматах Брайля, аудио или крупного шрифта, предстоит еще много работы. [25] : 214
Метаданные (метаконтент) или, точнее, словари, используемые для сборки утверждений метаданных (метаконтента), обычно структурируются в соответствии со стандартизированной концепцией с использованием четко определенной схемы метаданных, включая стандарты метаданных и модели метаданных . Такие инструменты, как контролируемые словари , таксономии , тезаурусы , словари данных и реестры метаданных , могут использоваться для применения дальнейшей стандартизации к метаданным. Структурная общность метаданных также имеет первостепенное значение при разработке моделей данных и проектировании баз данных .
Синтаксис метаданных (метаконтента) относится к правилам, созданным для структурирования полей или элементов метаданных (метаконтента). [26] Одна схема метаданных может быть выражена в нескольких различных языках разметки или программирования, каждый из которых требует разного синтаксиса. Например, Dublin Core может быть выражен в виде простого текста, HTML , XML и RDF . [27]
Типичным примером (руководящего) метаконтента является библиографическая классификация, предмет, десятичный номер класса Дьюи . В любой «классификации» некоторого объекта всегда есть подразумеваемое утверждение. Чтобы классифицировать объект, например, как номер класса Дьюи 514 (Топология) (т. е. книги, имеющие номер 514 на корешке), подразумеваемое утверждение будет: «<книга><заголовок предмета><514>». Это тройка субъект-предикат-объект или, что еще важнее, тройка класс-атрибут-значение. Первые 2 элемента тройки (класс, атрибут) являются частями некоторых структурных метаданных, имеющих определенную семантику. Третий элемент — это значение, предпочтительно из некоторого контролируемого словаря, некоторых справочных (основных) данных. Сочетание элементов метаданных и основных данных приводит к утверждению, которое является утверждением метаконтента, т. е. «метаконтент = метаданные + основные данные». Все эти элементы можно рассматривать как «словарь». И метаданные, и основные данные являются словарями, которые могут быть собраны в утверждения метаконтента. Существует много источников этих словарей, как метаданных, так и основных данных: UML, EDIFACT, XSD, Dewey/UDC/LoC, SKOS, ISO-25964, Pantone, Linnaean Binomial Nomenclature и т. д. Использование контролируемых словарей для компонентов утверждений метаконтента, будь то для индексации или поиска, одобрено ISO 25964 : «Если и индексатор, и искатель руководствуются выбором одного и того же термина для одного и того же понятия, то будут извлечены соответствующие документы». [28] Это особенно актуально при рассмотрении поисковых систем Интернета, таких как Google. Процесс индексирует страницы, а затем сопоставляет текстовые строки, используя свой сложный алгоритм; не происходит никакого интеллекта или «вывода», только их иллюзия.
Схемы метаданных могут быть иерархическими по своей природе, где существуют связи между элементами метаданных, а элементы вложены так, что между элементами существуют связи родитель-потомок. Примером иерархической схемы метаданных является схема IEEE LOM , в которой элементы метаданных могут принадлежать родительскому элементу метаданных. Схемы метаданных также могут быть одномерными или линейными, где каждый элемент полностью отделен от других элементов и классифицирован только по одному измерению. Примером линейной схемы метаданных является схема Dublin Core , которая является одномерной. Схемы метаданных часто являются двумерными или планарными, где каждый элемент полностью отделен от других элементов, но классифицирован по двум ортогональным измерениям. [29]
Степень структурированности данных или метаданных называется «зернистостью» . «Зернистость» относится к тому, насколько подробно предоставляется информация. Метаданные с высокой степенью зернистости позволяют получать более глубокую, подробную и структурированную информацию и обеспечивают более высокий уровень технических манипуляций. Более низкий уровень зернистости означает, что метаданные могут быть созданы со значительно меньшими затратами, но не будут предоставлять столь же подробную информацию. Основное влияние зернистости оказывается не только на создание и сбор, но и на расходы на обслуживание. Как только структуры метаданных устаревают, устаревает и доступ к указанным данным. Следовательно, зернистость должна учитывать усилия по созданию метаданных, а также усилия по их поддержанию.
Во всех случаях, когда схемы метаданных превышают плоскостное изображение, требуется некоторый тип гиперкартографирования, чтобы обеспечить отображение и просмотр метаданных в соответствии с выбранным аспектом и обслуживать специальные представления. Гиперкартографирование часто применяется к наложению слоев географической и геологической информации. [30]
Международные стандарты применяются к метаданным. Большая работа проводится в национальных и международных сообществах по стандартизации, особенно ANSI (Американский национальный институт стандартов) и ISO (Международная организация по стандартизации), для достижения консенсуса по стандартизации метаданных и реестров. Основным стандартом реестра метаданных является ISO / IEC 11179 Metadata Registries (MDR), структура стандарта описана в ISO/IEC 11179-1:2004. [31] Новое издание Части 1 находится на завершающей стадии для публикации в 2015 или начале 2016 года. Оно было пересмотрено для соответствия текущему изданию Части 3, ISO/IEC 11179-3:2013 [32] , которое расширяет MDR для поддержки регистрации Концептуальных систем. (см. ISO/IEC 11179 ). Этот стандарт определяет схему для записи как значения, так и технической структуры данных для однозначного использования людьми и компьютерами. Стандарт ISO/IEC 11179 называет метаданные информационными объектами о данных или «данными о данных». В части 3 стандарта ISO/IEC 11179 информационными объектами являются данные об элементах данных, доменах значений и другие повторно используемые семантические и репрезентативные информационные объекты, которые описывают значение и технические детали элемента данных. Этот стандарт также предписывает детали для реестра метаданных, а также для регистрации и администрирования информационных объектов в реестре метаданных. Часть 3 стандарта ISO/IEC 11179 также содержит положения для описания составных структур, которые являются производными от других элементов данных, например, посредством вычислений, коллекций одного или нескольких элементов данных или других форм производных данных. Хотя этот стандарт изначально описывает себя как реестр «элементов данных», его цель заключается в поддержке описания и регистрации содержимого метаданных независимо от какого-либо конкретного приложения, предоставляя описания для обнаружения и повторного использования людьми или компьютерами при разработке новых приложений, баз данных или для анализа данных, собранных в соответствии с зарегистрированным содержимым метаданных. Этот стандарт стал общей основой для других видов реестров метаданных, повторно используя и расширяя регистрационную и административную часть стандарта.
Сообщество Geospatial имеет традицию специализированных стандартов геопространственных метаданных , в частности, основанных на традициях библиотек и каталогов карт и изображений. Формальные метаданные обычно необходимы для геопространственных данных, поскольку общие подходы к обработке текста неприменимы.
Термины метаданных Dublin Core представляют собой набор словарных терминов, которые могут использоваться для описания ресурсов в целях обнаружения. Исходный набор из 15 классических [33] терминов метаданных, известный как Dublin Core Metadata Element Set [34], одобрен в следующих документах стандартов:
Словарь каталога данных W3C (DCAT) [38] — это словарь RDF, который дополняет Dublin Core классами для Dataset, Data Service, Catalog и Catalog Record. DCAT также использует элементы из FOAF, PROV-O и OWL-Time. DCAT предоставляет модель RDF для поддержки типичной структуры каталога, содержащего записи, каждая из которых описывает набор данных или службу.
Хотя это и не стандарт, микроформат (также упомянутый в разделе метаданных в Интернете ниже) представляет собой веб-подход к семантической разметке, который стремится повторно использовать существующие теги HTML/XHTML для передачи метаданных. Микроформат следует стандартам XHTML и HTML, но сам по себе не является стандартом. Один из сторонников микроформатов, Тантек Челик , охарактеризовал проблему с альтернативными подходами:
Вот новый язык, который мы хотим, чтобы вы выучили, и теперь вам нужно вывести эти дополнительные файлы на ваш сервер. Это хлопотно. (Микроформаты) снижают барьер для входа. [39]
Метаданные могут быть встроены в большинство распространенных типов компьютерных файлов , включая документы (например, файлы Microsoft Office , файлы OpenDocument , PDF ), изображения (например, JPEG , PNG ), видеофайлы (например, AVI , MP4 ) и аудиофайлы (например, WAV , MP3 ) .
Пользователи могут добавлять метаданные в файлы, но некоторые метаданные часто автоматически добавляются в файлы приложениями-разработчиками или устройствами, используемыми для создания файлов, без вмешательства пользователя.
Хотя метаданные в файлах полезны для их поиска, они могут представлять угрозу конфиденциальности , когда файлы передаются другим лицам. Использование инструментов удаления метаданных для очистки файлов перед их передачей может снизить этот риск.
Метаданные могут быть записаны в цифровой фотофайл , который будет идентифицировать владельца, авторские права и контактную информацию, марку или модель камеры, создавшей файл, а также информацию об экспозиции (выдержка, диафрагма и т. д.) и описательную информацию, такую как ключевые слова о фотографии, что делает файл или изображение доступным для поиска на компьютере и/или в Интернете. Некоторые метаданные создаются камерой, такие как цветовое пространство, цветовые каналы, время экспозиции и диафрагма (EXIF), в то время как некоторые вводятся фотографом и/или программным обеспечением после загрузки на компьютер. [40] Большинство цифровых камер записывают метаданные о номере модели, выдержке и т. д., а некоторые позволяют вам редактировать их; [41] эта функция доступна на большинстве цифровых зеркальных фотокамер Nikon, начиная с Nikon D3 , на большинстве новых камер Canon, начиная с Canon EOS 7D , и на большинстве цифровых зеркальных фотокамер Pentax, начиная с Pentax K-3. Метаданные можно использовать для упрощения организации при постобработке с помощью ключевых слов. Фильтры можно использовать для анализа определенного набора фотографий и создания выборок по таким критериям, как рейтинг или время съемки. На устройствах с возможностями геолокации, такими как GPS (в частности, смартфоны), также может быть включено место, где была сделана фотография.
Стандарты фотографических метаданных регулируются организациями, которые разрабатывают следующие стандарты. Они включают, но не ограничиваются:
Метаданные особенно полезны в видео, где информация о его содержании (например, стенограммы разговоров и текстовые описания его сцен) напрямую не понятна компьютеру, но где желателен эффективный поиск контента. Это особенно полезно в видеоприложениях, таких как программное обеспечение для автоматического распознавания номерных знаков и идентификации транспортных средств, в котором данные о номерных знаках сохраняются и используются для создания отчетов и оповещений. [43] Существует 2 источника, из которых извлекаются метаданные видео: (1) оперативно собранные метаданные, то есть информация о произведенном контенте, такая как тип оборудования, программное обеспечение, дата и местоположение; (2) метаданные, созданные человеком, для улучшения видимости в поисковых системах, обнаруживаемости, вовлеченности аудитории и предоставления рекламных возможностей издателям видео. [44] MetaSync от Avid и Bridge от Adobe являются примерами профессионального программного обеспечения для редактирования видео с доступом к метаданным. [45]
Информация о времени, источниках и пунктах назначения телефонных звонков, электронных сообщений, мгновенных сообщений и других видов телекоммуникаций, в отличие от содержания сообщений, является еще одной формой метаданных. Массовый сбор этих метаданных записей о вызовах разведывательными агентствами оказался спорным после раскрытия Эдвардом Сноуденом того факта, что некоторые разведывательные агентства, такие как АНБ, хранили (и, возможно, все еще хранят) онлайн-метаданные о миллионах интернет-пользователей в течение года, независимо от того, были ли они [когда-либо] лицами, представляющими интерес для агентства.
Геопространственные метаданные относятся к файлам географических информационных систем (ГИС), картам, изображениям и другим данным, которые основаны на местоположении. Метаданные используются в ГИС для документирования характеристик и атрибутов географических данных, таких как файлы баз данных и данные, которые разрабатываются в ГИС. Они включают в себя такие сведения, как кто разработал данные, когда они были собраны, как они были обработаны и в каких форматах они доступны, а затем предоставляют контекст для эффективного использования данных. [46]
Метаданные могут быть созданы либо путем автоматизированной обработки информации, либо вручную. Элементарные метаданные, собранные компьютерами, могут включать информацию о том, когда был создан объект, кто его создал, когда он был последний раз обновлен, размер файла и расширение файла. В этом контексте объект относится к любому из следующих:
Механизм метаданных собирает, хранит и анализирует информацию о данных и метаданных, используемых в домене. [47]
Виртуализация данных появилась в 2000-х годах как новая программная технология для завершения «стека» виртуализации на предприятии. Метаданные используются на серверах виртуализации данных, которые являются компонентами инфраструктуры предприятия, наряду с серверами баз данных и приложений. Метаданные на этих серверах сохраняются как постоянный репозиторий и описывают бизнес-объекты в различных корпоративных системах и приложениях. Структурная общность метаданных также важна для поддержки виртуализации данных.
Работа по стандартизации и гармонизации принесла преимущества усилиям отрасли по созданию систем метаданных в статистическом сообществе. [48] [49] Несколько руководств и стандартов метаданных, таких как Европейский кодекс практики статистики [50] и ISO 17369:2013 ( обмен статистическими данными и метаданными или SDMX) [48], содержат ключевые принципы того, как предприятия, государственные органы и другие субъекты должны управлять статистическими данными и метаданными. Такие субъекты, как Евростат , [51] Европейская система центральных банков , [51] и Агентство по охране окружающей среды США [52] внедрили эти и другие подобные стандарты и руководства с целью повышения «эффективности при управлении статистическими бизнес-процессами». [51]
Метаданные использовались различными способами в качестве средства каталогизации элементов в библиотеках как в цифровом, так и в аналоговом формате. Такие данные помогают классифицировать, объединять, идентифицировать и находить определенную книгу, DVD, журнал или любой другой объект, который может храниться в библиотеке. [53] До 1980-х годов многие библиотечные каталоги использовали карточки размером 3x5 дюймов в ящиках для картотек для отображения названия книги, автора, предмета и сокращенной буквенно-цифровой строки ( кодовый номер ), которая указывала физическое местоположение книги на полках библиотеки. Десятичная система Дьюи , используемая библиотеками для классификации библиотечных материалов по предмету, является ранним примером использования метаданных. Ранний бумажный каталог содержал информацию о том, какой элемент был описан на этой карточке: название, автор, предмет и номер, по которому можно найти этот элемент. [54] Начиная с 1980-х и 1990-х годов многие библиотеки заменили эти бумажные карточки компьютерными базами данных. Эти компьютерные базы данных значительно упрощают и ускоряют для пользователей поиск по ключевым словам. Другой формой сбора старых метаданных является использование Бюро переписи населения США так называемой «Длинной формы». Длинная форма задает вопросы, которые используются для создания демографических данных с целью поиска закономерностей распределения. [55] Библиотеки используют метаданные в библиотечных каталогах , чаще всего как часть Интегрированной системы управления библиотекой . Метаданные получаются путем каталогизации ресурсов, таких как книги, периодические издания, DVD, веб-страницы или цифровые изображения. Эти данные хранятся в интегрированной системе управления библиотекой, ILMS , с использованием стандарта метаданных MARC . Цель состоит в том, чтобы направить посетителей к физическому или электронному местоположению предметов или областей, которые они ищут, а также предоставить описание рассматриваемого предмета/ов.
Более поздние и специализированные примеры метаданных библиотеки включают создание цифровых библиотек , включая репозитории электронной печати и библиотеки цифровых изображений. Хотя они часто основаны на библиотечных принципах, акцент на небиблиотечном использовании, особенно при предоставлении метаданных, означает, что они не следуют традиционным или общим подходам к каталогизации. Учитывая пользовательский характер включенных материалов, поля метаданных часто создаются специально, например, поля таксономической классификации, поля местоположения, ключевые слова или заявление об авторских правах. Стандартная информация о файле, такая как размер и формат файла, обычно включается автоматически. [56] Эксплуатация библиотеки на протяжении десятилетий была ключевой темой в усилиях по международной стандартизации . Стандарты для метаданных в цифровых библиотеках включают Dublin Core , METS , MODS , DDI , DOI , URN , схему PREMIS , EML и OAI-PMH . Ведущие библиотеки мира дают подсказки о своих стратегиях стандартов метаданных. [57] [58] Использование и создание метаданных в библиотечной и информационной науке также включают научные публикации:
Метаданные для научных публикаций часто создаются издателями журналов и базами данных цитирования, такими как PubMed и Web of Science . Данные, содержащиеся в рукописях или сопровождающие их в качестве дополнительного материала, реже подлежат созданию метаданных, [59] [60] хотя они могут быть отправлены, например, в биомедицинские базы данных после публикации. Первоначальные авторы и кураторы баз данных затем становятся ответственными за создание метаданных с помощью автоматизированных процессов. Всеобъемлющие метаданные для всех экспериментальных данных являются основой Руководящих принципов FAIR или стандартов для обеспечения того, чтобы исследовательские данные были находимыми , доступными , совместимыми и многоразовыми . [61]
Такие метаданные затем могут быть использованы, дополнены и сделаны доступными полезными способами. OpenAlex — это бесплатный онлайн-индекс более 200 миллионов научных документов, который объединяет и предоставляет метаданные, такие как источники, цитаты , информацию об авторах , научные области и темы исследований. Его API и веб-сайт с открытым исходным кодом могут использоваться для метанауки, наукометрии и новых инструментов, которые запрашивают эту семантическую паутину статей . [62] [63] [64] Другой проект, находящийся в стадии разработки, Scholia , использует метаданные научных публикаций для различных функций визуализации и агрегации, таких как предоставление простого пользовательского интерфейса, обобщающего литературу об определенной особенности вируса SARS-CoV-2, используя свойство «главного субъекта» Wikidata . [65]
В исследовательской работе были предложены прозрачные метаданные о вкладе авторов в работу, например, роль, сыгранная в создании статьи, уровень вклада и обязанности. [66] [67]
Более того, могут быть созданы или дополнены различные метаданные о научных результатах — например, scite.ai пытается отслеживать и связывать цитирования статей как «Поддерживающие», «Упоминающие» или «Противоположные» исследованию. [68] Другие примеры включают разработку альтернативных метрик [69] , которые, помимо предоставления помощи для оценки и находимости, также объединяют многие публичные обсуждения научной статьи в социальных сетях, таких как Reddit , цитирования в Wikipedia и сообщения об исследовании в новостных СМИ [70], — и призыв показать, подтверждены ли исходные результаты или могут быть воспроизведены . [71] [72]
Метаданные в музейном контексте — это информация, которую создают обученные специалисты по культурной документации, такие как архивисты , библиотекари , музейные регистраторы и кураторы , для индексации, структурирования, описания, идентификации или иного указания произведений искусства, архитектуры, культурных объектов и их изображений. [73] [74] [75] Описательные метаданные чаще всего используются в музейном контексте для идентификации объектов и восстановления ресурсов. [74]
Метаданные разрабатываются и применяются в учреждениях по коллекционированию и музеях в целях:
Многие музеи и центры культурного наследия признают, что, учитывая разнообразие произведений искусства и культурных объектов, для описания и каталогизации культурных произведений недостаточно единой модели или стандарта. [73] [74] [75] Например, скульптурный артефакт коренных народов может быть классифицирован как произведение искусства, археологический артефакт или предмет наследия коренных народов. Ранние этапы стандартизации в архивировании, описании и каталогизации в музейном сообществе начались в конце 1990-х годов с разработкой таких стандартов, как Категории для описания произведений искусства (CDWA), Spectrum, Концептуальная справочная модель CIDOC (CRM), Каталогизация культурных объектов (CCO) и схема CDWA Lite XML. [74] Эти стандарты используют языки разметки HTML и XML для машинной обработки, публикации и внедрения. [74] Англо -американские правила каталогизации (AACR), изначально разработанные для характеристики книг, также применялись к культурным объектам, произведениям искусства и архитектуре. [75] Стандарты, такие как CCO, интегрированы в Систему управления коллекциями музея (CMS), базу данных, с помощью которой музеи могут управлять своими коллекциями, приобретениями, займами и сохранением. [75] Ученые и специалисты в этой области отмечают, что «быстро развивающийся ландшафт стандартов и технологий» создает проблемы для документалистов культуры, особенно для профессионалов без технической подготовки. [76] [ нужна страница ] Большинство учреждений, занимающихся коллекционированием, и музеев используют реляционную базу данных для категоризации культурных произведений и их изображений. [75] Реляционные базы данных и метаданные работают для документирования и описания сложных отношений между культурными объектами и многогранными произведениями искусства, а также между объектами и местами, людьми и художественными движениями. [74] [75] Структуры реляционных баз данных также полезны для учреждений, занимающихся коллекционированием, и музеев, поскольку они позволяют архивистам проводить четкое различие между культурными объектами и их изображениями; нечеткое различие может привести к запутанным и неточным поискам. [75]
Материальность объекта, его функция и назначение, а также размер (например, измерения, такие как высота, ширина, вес), требования к хранению (например, климат-контролируемая среда) и фокус музея и коллекции влияют на описательную глубину данных, приписываемых объекту документалистами по культуре. [75] Установленные институциональные практики каталогизации, цели и опыт документалистов по культуре и структура базы данных также влияют на информацию, приписываемую культурным объектам, и способы, которыми культурные объекты классифицируются. [73] [75] Кроме того, музеи часто используют стандартизированное коммерческое программное обеспечение для управления коллекциями, которое предписывает и ограничивает способы, с помощью которых архивисты могут описывать произведения искусства и культурные объекты. [76] Кроме того, учреждения, занимающиеся коллекционированием, и музеи используют контролируемые словари для описания культурных объектов и произведений искусства в своих коллекциях. [74] [75] Словари Getty и контролируемые словари Библиотеки Конгресса пользуются авторитетом в музейном сообществе и рекомендуются стандартами CCO. [75] Музеи поощряются использовать контролируемые словари, которые являются контекстуальными и релевантными для их коллекций и повышают функциональность их цифровых информационных систем. [74] [75] Контролируемые словари полезны в базах данных, поскольку они обеспечивают высокий уровень согласованности, улучшая поиск ресурсов. [74] [75] Структуры метаданных, включая контролируемые словари, отражают онтологии систем, из которых они были созданы. Часто процессы, посредством которых культурные объекты описываются и классифицируются через метаданные в музеях, не отражают перспективы сообществ создателей. [73] [77]
Метаданные сыграли важную роль в создании цифровых информационных систем и архивов в музеях и упростили для музеев публикацию цифрового контента в Интернете. Это позволило аудиториям, которые могли не иметь доступа к культурным объектам из-за географических или экономических барьеров, получить к ним доступ. [74] В 2000-х годах, когда все больше музеев приняли архивные стандарты и создали сложные базы данных, в музейных, архивных и библиотечных научных сообществах возникли дискуссии о связанных данных между музейными базами данных. [76] Системы управления коллекциями (CMS) и инструменты управления цифровыми активами могут быть локальными или общими системами. [75] Ученые в области цифровых гуманитарных наук отмечают множество преимуществ взаимодействия между музейными базами данных и коллекциями, а также признают трудности достижения такого взаимодействия. [76]
Проблемы, связанные с метаданными в судебных разбирательствах в Соединенных Штатах, становятся широко распространенными. [ когда? ] Суды рассматривали различные вопросы, связанные с метаданными, включая возможность обнаружения метаданных сторонами. Федеральные правила гражданского судопроизводства содержат конкретные правила для обнаружения информации, хранящейся в электронном виде, и последующее прецедентное право, применяющее эти правила, разъяснило обязанность истца предоставлять метаданные при ведении судебного разбирательства в федеральном суде. [78] В октябре 2009 года Верховный суд Аризоны постановил, что записи метаданных являются публичными записями . [79] Метаданные документов оказались особенно важными в юридических средах, в которых судебные разбирательства запрашивали метаданные, которые могут включать конфиденциальную информацию, наносящую ущерб определенной стороне в суде. Использование инструментов удаления метаданных для «очистки» или редактирования документов может снизить риски непреднамеренной отправки конфиденциальных данных. Этот процесс частично (см. остаточность данных ) защищает юридические фирмы от потенциально опасной утечки конфиденциальных данных посредством электронного раскрытия .
Опросы общественного мнения показали, что 45% американцев «вообще не уверены» в способности сайтов социальных сетей гарантировать безопасность их персональных данных, а 40% говорят, что сайты социальных сетей не должны иметь возможности хранить какую-либо информацию о людях. 76% американцев говорят, что они не уверены в безопасности информации, которую рекламные агентства собирают о них, а 50% говорят, что агентствам онлайн-рекламы вообще не должно быть разрешено записывать какую-либо их информацию. [80]
В Австралии необходимость укрепления национальной безопасности привела к введению нового закона о хранении метаданных. [81] Этот новый закон означает, что как органы безопасности, так и правоохранительные органы получат доступ к метаданным человека за период до 2 лет с целью облегчить предотвращение любых террористических атак и серьезных преступлений.
Законодательные метаданные были предметом некоторых обсуждений на форумах law.gov, таких как семинары, проведенные Институтом юридической информации в Юридической школе Корнелла 22 и 23 марта 2010 года. Документация для этих форумов озаглавлена «Предлагаемые практики метаданных для законодательства и нормативных актов». [82]
В ходе этих обсуждений было выделено несколько ключевых моментов, заголовки разделов которых приведены ниже:
Австралийские медицинские исследования стали пионерами в определении метаданных для приложений в здравоохранении. Этот подход предлагает первую признанную попытку придерживаться международных стандартов в медицинских науках вместо определения фирменного стандарта под эгидой Всемирной организации здравоохранения (ВОЗ). Медицинское сообщество все еще не одобрило необходимость следовать стандартам метаданных, несмотря на исследования, которые поддерживали эти стандарты. [83]
Исследования в области биомедицины и молекулярной биологии часто дают большие объемы данных, включая результаты секвенирования генома или метагенома , данные протеомики и даже заметки или планы, созданные в ходе самого исследования. [84] Каждый тип данных включает в себя свой собственный набор метаданных и процессов, необходимых для создания этих метаданных. Общие стандарты метаданных, такие как ISA-Tab, [85] позволяют исследователям создавать и обмениваться экспериментальными метаданными в согласованных форматах. Конкретные экспериментальные подходы часто имеют свои собственные стандарты метаданных и системы: стандарты метаданных для масс-спектрометрии включают mzML [86] и SPLASH, [87], в то время как основанные на XML стандарты, такие как PDBML [88] и SRA XML [89], служат стандартами для макромолекулярной структуры и данных секвенирования соответственно.
Результаты биомедицинских исследований обычно реализуются в виде рецензируемых рукописей, и эти публикации являются еще одним источником данных
.Хранилище данных (DW) — это репозиторий электронных данных организации. Хранилища данных предназначены для управления и хранения данных. Хранилища данных отличаются от систем бизнес-аналитики (BI), поскольку системы BI предназначены для использования данных для создания отчетов и анализа информации, для предоставления стратегических рекомендаций руководству. [90] Метаданные являются важным инструментом в том, как данные хранятся в хранилищах данных. Цель хранилища данных — разместить стандартизированные, структурированные, последовательные, интегрированные, правильные, «очищенные» и своевременные данные, извлеченные из различных операционных систем в организации. Извлеченные данные интегрируются в среду хранилища данных для обеспечения общекорпоративной перспективы. Данные структурированы таким образом, чтобы соответствовать требованиям отчетности и аналитики. Проектирование структурной общности метаданных с использованием метода моделирования данных , такого как диаграммирование модели «сущность-связь» , важно в любых усилиях по разработке хранилища данных. Они детализируют метаданные по каждому фрагменту данных в хранилище данных. Важным компонентом хранилища данных / системы бизнес-аналитики являются метаданные и инструменты для управления и извлечения метаданных. Ральф Кимбалл [91] описывает метаданные как ДНК хранилища данных, поскольку метаданные определяют элементы хранилища данных и то, как они работают вместе.
Кимбалл и др. [92] ссылаются на 3 основные категории метаданных: технические метаданные, бизнес-метаданные и метаданные процессов. Технические метаданные в первую очередь являются дефиниционными , в то время как бизнес-метаданные и метаданные процессов в первую очередь являются описательными . Категории иногда пересекаются.
Формат HTML , используемый для определения веб-страниц, позволяет включать различные типы метаданных, от базового описательного текста, дат и ключевых слов до более сложных схем метаданных, таких как стандарты Dublin Core , e-GMS и AGLS [93] . Страницы и файлы также могут быть геотегированы с координатами , категоризированы или помечены, в том числе совместно, например, с помощью фолксономии .
Когда у медиа установлены идентификаторы или когда таковые могут быть сгенерированы, информация, такая как теги файлов и описания, может быть извлечена или извлечена из Интернета - например, о фильмах. [94] Различные онлайн-базы данных агрегируются и предоставляют метаданные для различных данных. Совместно созданные Викиданные имеют идентификаторы не только для медиа, но и для абстрактных концепций, различных объектов и других сущностей, которые могут быть просмотрены людьми и машинами для извлечения полезной информации и связывания знаний в других базах знаний и базах данных. [65]
Метаданные могут быть включены в заголовок страницы или в отдельный файл. Микроформаты позволяют добавлять метаданные к данным на странице таким образом, что обычные пользователи сети не видят их, но компьютеры, веб-сканеры и поисковые системы могут легко получить к ним доступ. Многие поисковые системы с осторожностью относятся к использованию метаданных в своих алгоритмах ранжирования из-за эксплуатации метаданных и практики поисковой оптимизации, SEO , для улучшения рейтингов. См. статью об элементе Meta для дальнейшего обсуждения. Такое осторожное отношение может быть оправдано, поскольку люди, по словам Доктороу, [95] не проявляют осторожности и усердия при создании собственных метаданных, и что метаданные являются частью конкурентной среды, где метаданные используются для продвижения собственных целей создателей метаданных. Исследования показывают, что поисковые системы реагируют на веб-страницы с помощью реализаций метаданных, [96] и Google размещает на своем сайте объявление, показывающее метатеги, которые понимает его поисковая система. [97] Стартап корпоративного поиска Swiftype распознает метаданные как сигнал релевантности, который веб-мастера могут внедрить в свою поисковую систему, ориентированную на определенный веб-сайт, и даже выпустить собственное расширение, известное как Meta Tags 2. [98]
В вещательной отрасли метаданные связаны с аудио- и видеотрансляциями для :
Эти метаданные могут быть связаны с видеоносителями благодаря видеосерверам . Большинство крупных трансляций спортивных мероприятий, таких как чемпионат мира по футболу FIFA или Олимпийские игры, используют эти метаданные для распространения своего видеоконтента на телевизионных станциях с помощью ключевых слов . Часто именно хост-вещатель [99] отвечает за организацию метаданных через свой Международный вещательный центр и свои видеосерверы. Эти метаданные записываются вместе с изображениями и вводятся операторами метаданных ( регистраторами ), которые связываются с метаданными в реальном времени, доступными в сетках метаданных с помощью программного обеспечения (например, Multicam(LSM) или IPDirector, используемого во время чемпионата мира по футболу FIFA или Олимпийских игр). [100] [101]
Метаданные, описывающие географические объекты в электронном хранилище или формате (например, наборы данных, карты, объекты или документы с геопространственным компонентом), имеют историю, восходящую как минимум к 1994 году. Этот класс метаданных более подробно описан в статье о геопространственных метаданных .
Экологические и природоохранные метаданные предназначены для документирования "кто, что, когда, где, почему и как" сбора данных для конкретного исследования. Обычно это означает, какая организация или учреждение собрали данные, какой тип данных, в какую дату(ы) были собраны данные, обоснование сбора данных и методология, использованная для сбора данных. Метаданные должны быть созданы в формате, обычно используемом наиболее релевантным научным сообществом, например, Darwin Core , Ecological Metadata Language , [102] или Dublin Core . Существуют инструменты редактирования метаданных для облегчения создания метаданных (например, Metavist, [103] Mercury , Morpho [104] ). Метаданные должны описывать происхождение данных (где они возникли, а также любые преобразования, которым подверглись данные) и как отдать должное (ссылаться) на продукты данных.
Впервые выпущенные в 1982 году компакт-диски содержали только таблицу содержания (TOC) с количеством дорожек на диске и их длиной в сэмплах. [105] [106] Четырнадцать лет спустя, в 1996 году, пересмотр стандарта CD Red Book добавил CD-Text для переноса дополнительных метаданных. [107] Но CD-Text не получил широкого распространения. Вскоре после этого персональные компьютеры стали обычным делом извлекать метаданные из внешних источников (например, CDDB , Gracenote ) на основе TOC.
Цифровые аудиоформаты , такие как цифровые аудиофайлы, вытеснили музыкальные форматы, такие как кассеты и компакт-диски, в 2000-х годах. Цифровые аудиофайлы могли быть помечены большим количеством информации, чем могло бы содержаться только в имени файла. Эта описательная информация называется аудиотегом или аудиометаданными в целом. Компьютерные программы, специализирующиеся на добавлении или изменении этой информации, называются редакторами тегов . Метаданные могут использоваться для наименования, описания, каталогизации и указания права собственности или авторских прав на цифровой аудиофайл, и их наличие значительно упрощает поиск определенного аудиофайла в группе, как правило, с помощью поисковой системы, которая получает доступ к метаданным. По мере разработки различных цифровых аудиоформатов были предприняты попытки стандартизировать определенное место в цифровых файлах, где эта информация могла бы храниться.
В результате почти все цифровые аудиоформаты, включая файлы mp3 , broadcast wav и AIFF , имеют схожие стандартизированные расположения, которые могут быть заполнены метаданными. Метаданные для сжатой и несжатой цифровой музыки часто кодируются в теге ID3 . Распространенные редакторы, такие как TagLib , поддерживают форматы файлов MP3, Ogg Vorbis, FLAC, MPC, Speex, WavPack TrueAudio, WAV, AIFF, MP4 и ASF.
Благодаря наличию облачных приложений, в том числе приложений для добавления метаданных к контенту, метаданные становятся все более доступными через Интернет.
Метаданные могут храниться либо внутри [ 108] в том же файле или структуре, что и данные (это также называется встроенными метаданными ), либо снаружи в отдельном файле или поле от описанных данных. Репозиторий данных обычно хранит метаданные отдельно от данных, но может быть разработан для поддержки подходов встроенных метаданных. Каждый вариант имеет свои преимущества и недостатки:
Метаданные могут храниться как в удобной для восприятия человеком, так и в двоичной форме. Хранение метаданных в удобном для восприятия человеком формате, таком как XML, может быть полезным, поскольку пользователи могут понимать и редактировать их без специализированных инструментов. [109] Однако текстовые форматы редко оптимизируются по емкости хранилища, времени связи или скорости обработки. Двоичный формат метаданных обеспечивает эффективность во всех этих отношениях, но требует специального программного обеспечения для преобразования двоичной информации в удобный для восприятия человеком контент.
Каждая система реляционной базы данных имеет свои собственные механизмы для хранения метаданных. Примеры метаданных реляционной базы данных включают:
В терминологии баз данных этот набор метаданных называется каталогом . Стандарт SQL определяет единообразные средства доступа к каталогу, называемые информационной схемой , но не все базы данных реализуют ее, даже если они реализуют другие аспекты стандарта SQL. Пример методов доступа к метаданным, специфичных для базы данных, см. в разделе Oracle metadata . Программный доступ к метаданным возможен с использованием API, таких как JDBC или SchemaCrawler. [110]
Одним из первых сатирических исследований концепции метаданных, как мы понимаем ее сегодня, является рассказ американского писателя-фантаста Хэла Дрейпера « MS Fnd in a Lbry » (1961). Здесь знания всего человечества сжаты в объект размером с ящик стола, однако величина метаданных (например, каталог каталогов..., а также индексы и истории) в конечном итоге приводит к ужасным, но юмористическим последствиям для человеческой расы. Рассказ предвосхищает современные последствия, когда метаданные становятся важнее реальных данных, с которыми они связаны, и риски, присущие этой возможности, как предостерегающую историю.
{{cite news}}
: CS1 maint: numeric names: authors list (link)