Сохранение данных — это процесс сохранения и поддержания безопасности и целостности данных . Сохранение осуществляется посредством формальных действий, которые регулируются политикой, правилами и стратегиями, направленными на защиту и продление существования и аутентичности данных и их метаданных . [1] Данные можно описать как элементы или единицы, в которых создаются знания и информация, [2] а метаданные представляют собой суммирующие подмножества элементов данных; или данные о данных. [3] Основная цель сохранения данных — защитить данные от потери или уничтожения, а также способствовать повторному использованию и развитию данных.
Большинство исторических данных, собранных с течением времени, были утеряны или уничтожены. Причиной этого стали войны и стихийные бедствия в сочетании с нехваткой материалов и необходимых методов сохранения и защиты данных. Обычно сохранялись только самые важные наборы данных, такие как правительственные записи и статистика, юридические контракты и экономические операции. Данные научных исследований и докторских диссертаций в основном были уничтожены из-за неправильного хранения и недостаточной осведомленности о сохранении и исполнении данных. [4] Со временем сохранение данных изменилось и приобрело важность и осведомленность. Теперь у нас есть много разных способов сохранения данных и множество различных важных организаций, участвующих в этом.
Первые решения для хранения цифровых данных появились в 1950-х годах и обычно были плоскими или иерархически структурированными. [5] Несмотря на то, что с этими решениями все еще оставались проблемы, они сделали хранение данных намного дешевле и более доступным. В 1970-е годы появились реляционные базы данных и электронные таблицы. Реляционные базы данных структурируют данные в таблицы с использованием языков структурированных запросов , что делает их более эффективными, чем предыдущие решения для хранения, а электронные таблицы содержат большие объемы числовых данных, которые можно применять к этим реляционным базам данных для создания производных данных. Совсем недавно нереляционные базы данных (неструктурированный язык запросов ) появились как дополнение к реляционным базам данных, которые содержат большие объемы неструктурированных или полуструктурированных данных . [4]
Объем сохранения данных огромен. Все, от правительственных документов до деловых документов и произведений искусства, по сути, может быть представлено в виде данных и может быть потеряно. Это приводит к потере человеческой истории навечно.
Данные могут быть потеряны в небольшом или независимом масштабе, будь то потеря личных данных или потеря данных внутри предприятий и организаций, а также в более крупном, национальном или глобальном масштабе, что может негативно и потенциально навсегда повлиять на такие вещи, как защита окружающей среды, медицинские исследования. , национальная безопасность, общественное здравоохранение и безопасность, экономическое развитие [6] и культура. Механизмы потери данных столь же многочисленны, сколь и разнообразны: от стихийных бедствий, войн, утечек данных, халатности до простого забывания и естественного распада.
Способы использования коллекций данных при их правильном сохранении и хранении можно увидеть в Геологической службе США, которая хранит коллекции данных о стихийных бедствиях, природных ресурсах и ландшафтах. Данные, собранные в ходе исследования, используются федеральными и государственными агентствами по землеустройству для планирования и управления землепользованием, и им постоянно необходим доступ к историческим справочным данным. [6]
Напротив, хранилища данных представляют собой коллекции собранных данных, которые хранятся неформально и не обязательно подготовлены для долгосрочного хранения. Например, сбор или резервное копирование личных файлов. Хранилища данных обычно представляют собой методы хранения, которые использовались в прошлом, когда данные были потеряны из-за экологических и других исторических катастроф. [4]
Кроме того, сохранение данных отличается от сохранения данных в том смысле, что по определению сохранение объекта (данных) означает владение или сохранение владения или использования объекта. [7] Сохранить объект — значит защитить, поддерживать и поддерживать его для будущего использования. [8] Политика хранения часто касается случаев, когда данные также должны быть удалены намеренно и скрыты от публичного доступа, в то время как сохранение отдает приоритет постоянству и более широкому доступу.
Таким образом, сохранение данных выходит за рамки концепции наличия или владения данными или резервными копиями данных. Сохранение данных обеспечивает надежный доступ к данным за счет включения механизмов резервного копирования и восстановления, которые предшествуют событиям катастрофы или технологических изменений. [9]
Цифровое сохранение похоже на сохранение данных, но в основном касается технологических угроз и исключительно цифровых данных. По сути, цифровые данные — это набор формальных действий, обеспечивающих постоянное или постоянное использование и доступ к цифровым данным, исключая возникновение технологических сбоев или изменений. [10] Цифровое сохранение осознает неизбежные изменения в технологиях и протоколах и готовится к тому, что данные должны быть доступны через новые типы технологий и платформ, сохраняя при этом целостность сохраняемых данных и метаданных. [4]
Технологии, хотя и обеспечивают отличный процесс сохранения данных, который, возможно, был невозможен в прошлом, также меняются такими быстрыми темпами, что цифровые данные могут стать недоступными из-за несовместимости формата с новым программным обеспечением. Без использования средств сохранения данных большая часть существующих цифровых данных окажется под угрозой. [9]
Большинство методов, используемых сегодня для сохранения данных, являются цифровыми методами, которые на сегодняшний день являются наиболее эффективными из существующих методов.
Архивы – это совокупность исторических документов и записей. Архивы способствуют сохранению данных, собирая хорошо организованные данные и предоставляя соответствующие метаданные для их подтверждения. [11]
Примером важного архива данных является Архив данных изображений LONI, который представляет собой архив, в котором собираются данные о клинических испытаниях и клинических исследованиях. [12]
Каталоги, каталоги и порталы представляют собой консолидированные ресурсы, которые хранятся отдельными учреждениями и связаны с архивами и фондами данных. [4] Другими словами, данные не представлены на сайте, а вместо этого могут выступать в качестве метаданных и агрегаторов, а также могут проводить тщательные инвентаризации. [13]
Репозитории — это места, где можно получить доступ к архивам и хранилищам данных и хранить их. Цель репозиториев — убедиться, что все требования и протоколы архивов и фондов соблюдаются, а данные сертифицируются для обеспечения целостности данных и доверия пользователей. [4]
Односайтовые репозитории
Репозиторий, в котором хранятся все наборы данных на одном сайте. [4]
Пример крупного хранилища с одним сайтом - Службы архивирования данных и сетевых технологий, которое представляет собой хранилище, которое обеспечивает постоянный доступ к цифровым исследовательским ресурсам для Нидерландов. [14]
Многосайтовые репозитории
Репозиторий, в котором хранятся наборы данных на нескольких институциональных сайтах. [4]
Примером хорошо известного многосайтового репозитория является OpenAIRE, который представляет собой репозиторий, в котором хранятся данные исследований и публикации, сотрудничающие со всеми странами ЕС и другими странами. OpenAIRE продвигает открытые исследования и стремится улучшить возможности обнаружения и повторного использования данных. [15]
Надежный цифровой репозиторий
Репозиторий, который стремится обеспечить надежный и доверительный доступ в течение длительного периода времени. Репозиторий может быть одно- или многосайтовым, но он должен взаимодействовать с эталонной моделью открытой архивной информационной системы [16], а также придерживаться набора правил или атрибутов, которые способствуют его доверию, таких как постоянная финансовая ответственность, организационная плавучесть, административная ответственность, охрана и безопасность. [4]
Примером надежного цифрового хранилища является Цифровое хранилище Ирландии (DRI), которое представляет собой многосайтовое хранилище, в котором хранятся наборы данных Ирландии по гуманитарным и социальным наукам. [17]
Киберинфраструктуры, состоящие из архивных коллекций, которые доступны через систему аппаратного обеспечения, технологий, программного обеспечения, политик, услуг и инструментов. Киберинфраструктуры ориентированы на обмен данными, поддерживая одноранговое сотрудничество и культурное сообщество. [3]
Примером крупной киберинфраструктуры является Канадская инфраструктура геопространственных данных, которая обеспечивает доступ к пространственным данным в Канаде. [18]
{{cite journal}}
: Требуется цитировать журнал |journal=
( помощь ){{cite journal}}
: Требуется цитировать журнал |journal=
( помощь )