PREservation Metadata: Implementation Strategies ( PREMIS ) — это фактический стандарт метаданных цифрового сохранения . [1]
Метаданные цифрового сохранения определяют информацию, которая необходима для обеспечения долгосрочной пригодности цифровых объектов для сохранения их доступности в какой-либо форме в будущем. Метаданные цифрового сохранения особенно важны для репозиториев, мест, где информационные объекты хранятся и управляются в течение длительного времени. Простого хранения цифровых объектов на носителе данных недостаточно для сохранения их пригодности к использованию. Ими необходимо управлять в репозитории, чтобы они были защищены от случайного или преднамеренного повреждения и чтобы можно было создать полную вычислительную среду, в которой к ним можно будет получить доступ и понять их, когда они понадобятся. [2]
Информационные объекты имеют описательные метаданные, информацию об объекте, которая может быть использована для обнаружения, доступа и идентификации цифрового объекта. Однако этих метаданных недостаточно для сохранения цифровых объектов в долгосрочной перспективе. Например, формат файла цифрового объекта может устареть и стать непригодным для использования будущими программными приложениями. Это потребует либо преобразования старого формата в новый (миграция), либо воспроизведения исходного опыта с использованием новой технологии (эмуляция). Обе стратегии потребуют дополнительной информации, такой как технические метаданные об исходных файлах, информация о старом оборудовании и программном обеспечении, на котором они работали, и информация о действиях, которые преобразовали цифровой объект с течением времени. Все это типы метаданных сохранения. Таким образом, метаданные сохранения поддерживают действия, направленные на обеспечение долгосрочной пригодности цифрового ресурса. [3]
В начале 2000-х годов стало ясно, что необходим общий стандарт метаданных сообщества для обеспечения долгосрочного сохранения постоянно растущих цифровых ресурсов. Эксперты из ключевых учреждений памяти и разработчики репозиториев объединились, чтобы определить его, что привело к созданию Словаря данных PREMIS для метаданных сохранения, который стал фактическим стандартом, определяющим основные метаданные, необходимые большинству репозиториев сохранения.
Использование стандартов важно, поскольку оно поддерживает развитие сообщества передовой практики; оно помогает специалистам-практикам учиться на опыте других, чтобы они непреднамеренно не упускали из виду ключевые метаданные в своей собственной практике; оно позволяет разрабатывать инструменты, упрощающие создание и управление метаданными; и оно позволяет организациям легче обмениваться информацией друг с другом.
Рабочая группа PREMIS была создана для продолжения работы более ранней инициативы, спонсируемой Online Computer Library Center OCLC и Research Libraries Group RLG: рабочей группы Preservation Metadata Framework (PMF). В 2001–2002 годах рабочая группа PMF определила типы информации, которые должны быть связаны с архивированным цифровым объектом. В их отчете, A Metadata Framework to Support the Preservation of Digital Objects ( Framework ), был предложен список прототипных элементов метаданных. На данном этапе эти предложенные элементы не могли быть реализованы, и требовалась дополнительная работа. В 2003 году рабочей группе PREMIS было предложено развить выводы группы PMF и разработать словарь данных основных метаданных для архивированных цифровых объектов, а также дать рекомендации и предложить наилучшую практику для управления : создание, управление и использование метаданных в системах сохранения. PREMIS было «поручено определить набор семантических единиц, которые не зависят от реализации, ориентированы на практику и, вероятно, потребуются большинству хранилищ для сохранения». [4]
Рабочая группа состояла из многонационального списка из более чем тридцати представителей культурного, государственного и частного секторов. [5] Она стремилась понять, как хранилища сохранения фактически внедряют метаданные сохранения. Было проведено обследование 70 организаций, которые, как считалось, были активны или заинтересованы в цифровом сохранении. В декабре 2004 года рабочая группа PREMIS опубликовала свой отчет « Внедрение хранилищ сохранения для цифровых материалов: текущая практика и возникающие тенденции в сообществе культурного наследия» .
Более ранние Framework и PREMIS Data Dictionary построены на эталонной модели Open Archival Information System (OAIS). Информационная модель OAIS обеспечивает концептуальную основу в виде таксономии информационных объектов и пакетов для архивированных объектов, а также структуры связанных с ними метаданных. Framework , благодаря его глубокому детальному отображению метаданных сохранения в эту концептуальную структуру, можно рассматривать как разработку OAIS. PREMIS Data Dictionary, с другой стороны, можно рассматривать как перевод Framework в набор реализуемых семантических единиц. Data Dictionary и OAIS иногда различаются в использовании терминологии, и это отмечено в Глоссарии. Различия обычно отражают тот факт, что семантические единицы PREMIS требуют большей конкретики, чем определения OAIS, что и следует ожидать при переходе от концептуальной структуры к реализации. [6]
В мае 2005 года PREMIS выпустила Data Dictionary for Preservation Metadata: Final Report of the PREMIS Working Group . Этот 237-страничный отчет включает: PREMIS Data Dictionary 1.0: всеобъемлющий, практический ресурс для внедрения метаданных сохранения в цифровых системах архивации; сопроводительный отчет (предоставляющий контекст, модель данных, предположения); специальные темы, глоссарий, примеры использования; набор XML-схем , который был разработан для поддержки использования Data Dictionary. [7]
Текущая версия PREMIS 3.0 была выпущена в июне 2015 года. [8]
Модель данных PREMIS состоит из четырех взаимосвязанных сущностей:
Каждая семантическая единица в словаре данных отнесена к одной из этих областей. [11]
Сущность интеллектуального объекта — это тип объекта. Это набор контента, который составляет дискретную, связную интеллектуальную единицу, такую как книга или база данных. Это могут быть составные объекты, содержащие другие интеллектуальные сущности, и могут иметь несколько цифровых представлений. [12] Описательные метаданные обычно применяются на этом уровне; учитывая распространение конкурирующих схем, рабочая группа не определила никаких дополнительных описательных семантических единиц [13] и допустила взаимодействие через «контейнеры расширения» (контейнеры содержат связанную группу семантических единиц), которые могут использоваться для внешних схем. [12]
Большинство семантических единиц, перечисленных в словаре данных, относятся к сущностям Объект и Событие , причем первая из них далее делится на три подтипа: файл , битовый поток и представление . Файл — это уровень, на котором большинство конечных пользователей привыкли работать, «именованная и упорядоченная последовательность байтов, известная операционной системе». Он включает в себя множество атрибутов файловой системы, что делает его понятным для операционной системы, охватывая битовые потоки , которые являются «непрерывными или ненепрерывными данными в файле, имеющими значимые общие свойства для целей сохранения». Представление , в некотором смысле, является «высшим уровнем» этой модели, поскольку оно может охватывать несколько файлов для надлежащего отображения структуры и содержания интеллектуальной сущности. Не все репозитории будут заниматься сохранением представлений, [14] в зависимости от их цели и потребности кураторского органа в сохранении того, что можно считать цифровой «внутренней ценностью» сущности. Кроме того, интеллектуальные сущности могут иметь несколько представлений в репозитории. События взаимодействуют с объектами, поскольку они включают действия, которые оказывают влияние на них или агентов («человека, организацию или программное обеспечение... связанные с Событиями... или с Правами, закрепленными за объектом»), связанных с объектом. [12]
Наконец, включение сущностей прав отвечает возросшей осведомленности и обеспокоенности правовыми требованиями авторского права и лицензирования. Оно также включает информацию о конкретных разрешенных действиях; например, семантическая единица 4.1.6.1, действие, «действие, которое разрешено предпринимать репозиторию сохранения», включает такие предлагаемые значения, как репликация, миграция и удаление. [15]
Записи словаря данных PREMIS включают двенадцать полей атрибутов, не все из которых применяются к каждой семантической единице (аналогично «элементу» в других схемах метаданных). В дополнение к имени и определению единицы, поля записывают такие вещи, как обоснование включения единицы, примечания по использованию и примеры того, как значение может быть заполнено. Четыре атрибута — категория объекта, применимость, повторяемость и обязательство — связаны, поскольку последние три определены для каждого из уровней сущности объекта файла, потока битов и представления. Словарь является иерархическим; некоторые семантические единицы содержатся в других. Например, 1.3 conservationLevel включает четыре семантических компонента, такие как 1.3.1 conservationLevelValue и 1.3.2 conservationLevelRole. [16]