Веб-архивирование — это процесс сбора частей Всемирной паутины для обеспечения сохранения информации в архиве для будущих исследователей, историков и общественности. Веб-архивисты обычно используют веб-сканеры для автоматического сбора данных из-за огромного размера и количества информации в Интернете. Крупнейшей организацией веб-архивирования, основанной на массовом сканировании, является Wayback Machine , которая стремится поддерживать архив всей сети.
Растущая часть человеческой культуры, созданная и записанная в сети, делает неизбежным то, что все больше и больше библиотек и архивов будут сталкиваться с проблемами веб-архивирования. [1] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно значимого веб-контента.
Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать собственный веб-контент для целей корпоративного наследия, нормативных или юридических целей.
Хотя курирование и организация Интернета преобладали с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Интернет- архив , некоммерческая организация, созданная Брюстером Кале в 1996 году . Интернет-архив выпустил собственную поисковую систему для просмотра архивного веб-контента Wayback Machine в 2001 году. [2] По состоянию на 2018 год в Интернет-архиве хранилось 40 петабайт данных. [3] Интернет-архив также разработал множество собственных инструментов для сбора и хранения своих данных, в том числе PetaBox для эффективного и безопасного хранения больших объемов данных, а также Heritrix , веб-сканер, разработанный совместно с национальными библиотеками Северных стран. [2] Другие проекты, запущенные примерно в то же время, включали проект веб-архивирования Национальной библиотеки Канады , австралийской Pandora , веб-архивов Тасмании и шведского Kulturarw3. [4] [5]
С 2001 по 2010 год [ не удалось проверить ] Международный семинар по веб-архивированию (IWAW) предоставлял платформу для обмена опытом и идеями. [6] [7] Международный консорциум по сохранению Интернета (IIPC), созданный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов. [8]
Ныне несуществующий Фонд Интернет-памяти был основан в 2004 году Европейской комиссией для архивирования Интернета в Европе. [2] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «сбор мультимедийных материалов, анализ временной согласованности, оценка спама и обнаружение эволюции терминологии». [2] Данные фонда сейчас хранятся в Интернет-архиве, но в настоящее время недоступны для публичного доступа. [9]
Несмотря на то, что не существует централизованной ответственности за его сохранение, веб-контент быстро становится официальной записью. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. [10]
Веб-архивисты обычно архивируют различные типы веб-контента, включая веб-страницы HTML , таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина контента. Эти метаданные полезны для установления подлинности и происхождения архивной коллекции.
Самый распространенный метод веб-архивирования использует веб-сканеры для автоматизации процесса сбора веб-страниц . [5] Веб-сканеры обычно получают доступ к веб-страницам так же, как пользователи браузера видят Интернет, и, следовательно, предоставляют сравнительно простой метод удаленного сбора веб-контента. Примеры веб-сканеров, используемых для веб-архивирования, включают:
Существуют различные бесплатные сервисы, которые можно использовать для архивирования веб-ресурсов «по требованию» с использованием методов веб-сканирования. Эти сервисы включают Wayback Machine и WebCite .
Архивирование базы данных относится к методам архивирования основного содержимого веб-сайтов, управляемых базой данных. Обычно требуется извлечение содержимого базы данных в стандартную схему , часто с использованием XML . После сохранения в этом стандартном формате архивное содержимое нескольких баз данных может быть доступно с использованием единой системы доступа. Примером такого подхода являются инструменты DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии соответственно. DeepArc позволяет сопоставить структуру реляционной базы данных со схемой XML , а содержимое экспортировать в XML-документ. Затем Xinq позволяет доставлять этот контент онлайн. Хотя исходный макет и поведение веб-сайта не могут быть точно сохранены, Xinq позволяет воспроизвести базовые функции запросов и поиска.
Транзакционное архивирование — это подход, управляемый событиями, который собирает фактические транзакции, происходящие между веб-сервером и веб-браузером . В первую очередь он используется как средство сохранения свидетельств содержания, которое фактически было просмотрено на определенном веб-сайте в определенную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования по раскрытию и хранению информации. [11]
Система транзакционного архивирования обычно работает путем перехвата каждого HTTP- запроса и ответа от веб-сервера, фильтрации каждого ответа для устранения дублированного контента и постоянного сохранения ответов в виде битовых потоков.
Веб-архивы, для которых сканирование веб-страниц является основным средством сбора информации в Интернете, испытывают на себе трудности, связанные с сканированием веб-страниц:
Однако важно отметить, что веб-архив собственного формата, то есть полностью доступный для просмотра веб-архив с рабочими ссылками, мультимедиа и т. д., действительно возможен только с использованием технологии сканирования.
Сеть настолько велика, что для сканирования значительной ее части требуется большое количество технических ресурсов. Кроме того, Интернет меняется настолько быстро, что некоторые части веб-сайта могут подвергнуться изменениям еще до того, как сканер завершит его сканирование.
Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора другие страницы, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы и заставить их направлять больше пользовательского трафика на веб-сайт, а также во избежание ответственности или для предоставления расширенного контента только тем браузерам, которые могут его отображать.
Веб-архивисты должны не только решать технические проблемы веб-архивирования, но и бороться с законами об интеллектуальной собственности. Питер Лайман [12] утверждает, что «хотя Сеть широко рассматривается как ресурс, являющийся общественным достоянием , она защищена авторским правом ; таким образом, архивариусы не имеют законного права копировать Сеть». Однако национальные библиотеки в некоторых странах [13] имеют законное право копировать части Интернета в рамках продления обязательного экземпляра .
Некоторые частные некоммерческие веб-архивы, которые стали общедоступными, например WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам контента скрывать или удалять заархивированный контент, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или их использование регулируется. WebCite ссылается на недавний иск против кэширования Google, который Google выиграл. [14]
В 2017 году Управление по регулированию финансовой индустрии, Inc. (FINRA), финансовая регулирующая организация США, опубликовало уведомление, в котором говорится, что все предприятия, занимающиеся цифровыми коммуникациями, обязаны вести учет. Сюда входят данные веб-сайтов, публикации в социальных сетях и сообщения. [15] Некоторые законы об авторском праве могут запрещать веб-архивирование. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к научным работам, в том числе к тем, которые не имеют лицензии открытого доступа , и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны. [16] [17]