Веб-архивирование

Веб-архивирование — это процесс сбора частей Всемирной паутины для обеспечения сохранения информации в архиве для будущих исследователей, историков и общественности. Веб-архивисты обычно используют веб-сканеры для автоматического сбора данных из-за огромного размера и количества информации в Интернете. Крупнейшей организацией веб-архивирования, основанной на массовом сканировании, является Wayback Machine , которая стремится поддерживать архив всей сети.

Растущая часть человеческой культуры, созданная и записанная в сети, делает неизбежным то, что все больше и больше библиотек и архивов будут сталкиваться с проблемами веб-архивирования. ^[1] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно значимого веб-контента.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать собственный веб-контент для целей корпоративного наследия, нормативных или юридических целей.

История и развитие

Хотя курирование и организация Интернета преобладали с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Интернет- архив , некоммерческая организация, созданная Брюстером Кале в 1996 году ^. Интернет-архив выпустил собственную поисковую систему для просмотра архивного веб-контента Wayback Machine в 2001 году. ^[2] По состоянию на 2018 год в Интернет-архиве хранилось 40 петабайт данных. ^[3] Интернет-архив также разработал множество собственных инструментов для сбора и хранения своих данных, в том числе PetaBox для эффективного и безопасного хранения больших объемов данных, а также Heritrix , веб-сканер, разработанный совместно с национальными библиотеками Северных стран. ^[2] Другие проекты, запущенные примерно в то же время, включали проект веб-архивирования Национальной библиотеки Канады , австралийской Pandora , веб-архивов Тасмании и шведского Kulturarw3. ^[4]^[5]

С 2001 по 2010 год ^{[ не удалось проверить ]} Международный семинар по веб-архивированию (IWAW) предоставлял платформу для обмена опытом и идеями. ^[6]^[7] Международный консорциум по сохранению Интернета (IIPC), созданный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов. ^[8]

Ныне несуществующий Фонд Интернет-памяти был основан в 2004 году Европейской комиссией для архивирования Интернета в Европе. ^[2] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «сбор мультимедийных материалов, анализ временной согласованности, оценка спама и обнаружение эволюции терминологии». ^[2] Данные фонда сейчас хранятся в Интернет-архиве, но в настоящее время недоступны для публичного доступа. ^[9]

Несмотря на то, что не существует централизованной ответственности за его сохранение, веб-контент быстро становится официальной записью. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. ^[10]

Методы сбора

Веб-архивисты обычно архивируют различные типы веб-контента, включая веб-страницы HTML , таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина контента. Эти метаданные полезны для установления подлинности и происхождения архивной коллекции.

Удаленный сбор урожая

Самый распространенный метод веб-архивирования использует веб-сканеры для автоматизации процесса сбора веб-страниц . ^[5] Веб-сканеры обычно получают доступ к веб-страницам так же, как пользователи браузера видят Интернет, и, следовательно, предоставляют сравнительно простой метод удаленного сбора веб-контента. Примеры веб-сканеров, используемых для веб-архивирования, включают:

Херитрикс и ВЕЙЛ
HTTrack
Wget

Существуют различные бесплатные сервисы, которые можно использовать для архивирования веб-ресурсов «по требованию» с использованием методов веб-сканирования. Эти сервисы включают Wayback Machine и WebCite .

Архивирование базы данных

Архивирование базы данных относится к методам архивирования основного содержимого веб-сайтов, управляемых базой данных. Обычно требуется извлечение содержимого базы данных в стандартную схему , часто с использованием XML . После сохранения в этом стандартном формате архивное содержимое нескольких баз данных может быть доступно с использованием единой системы доступа. Примером такого подхода являются инструменты DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии соответственно. DeepArc позволяет сопоставить структуру реляционной базы данных со схемой XML , а содержимое экспортировать в XML-документ. Затем Xinq позволяет доставлять этот контент онлайн. Хотя исходный макет и поведение веб-сайта не могут быть точно сохранены, Xinq позволяет воспроизвести базовые функции запросов и поиска.

Транзакционное архивирование

Транзакционное архивирование — это подход, управляемый событиями, который собирает фактические транзакции, происходящие между веб-сервером и веб-браузером . В первую очередь он используется как средство сохранения свидетельств содержания, которое фактически было просмотрено на определенном веб-сайте в определенную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования по раскрытию и хранению информации. ^[11]

Система транзакционного архивирования обычно работает путем перехвата каждого HTTP- запроса и ответа от веб-сервера, фильтрации каждого ответа для устранения дублированного контента и постоянного сохранения ответов в виде битовых потоков.

Трудности и ограничения

Краулеры

Веб-архивы, для которых сканирование веб-страниц является основным средством сбора информации в Интернете, испытывают на себе трудности, связанные с сканированием веб-страниц:

Протокол исключения роботов может запрещать сканерам доступ к частям веб-сайта. Некоторые веб-архивисты могут проигнорировать запрос и все равно просканировать эти части.
Большие части веб-сайта могут быть скрыты в глубокой паутине . Например, страница результатов за веб-формой может находиться в глубокой сети, если сканеры не могут перейти по ссылке на страницу результатов.
Ловушки для сканеров (например, календари) могут привести к тому, что сканер загрузит бесконечное количество страниц, поэтому сканеры обычно настраиваются так, чтобы ограничивать количество динамических страниц, которые они сканируют.
Большинство инструментов архивирования не сохраняют страницу в том виде, в каком она есть. Замечено, что рекламные баннеры и изображения часто теряются при архивировании.

Однако важно отметить, что веб-архив собственного формата, то есть полностью доступный для просмотра веб-архив с рабочими ссылками, мультимедиа и т. д., действительно возможен только с использованием технологии сканирования.

Сеть настолько велика, что для сканирования значительной ее части требуется большое количество технических ресурсов. Кроме того, Интернет меняется настолько быстро, что некоторые части веб-сайта могут подвергнуться изменениям еще до того, как сканер завершит его сканирование.

Общие ограничения

Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора другие страницы, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы и заставить их направлять больше пользовательского трафика на веб-сайт, а также во избежание ответственности или для предоставления расширенного контента только тем браузерам, которые могут его отображать.

Веб-архивисты должны не только решать технические проблемы веб-архивирования, но и бороться с законами об интеллектуальной собственности. Питер Лайман ^[12] утверждает, что «хотя Сеть широко рассматривается как ресурс, являющийся общественным достоянием , она защищена авторским правом ; таким образом, архивариусы не имеют законного права копировать Сеть». Однако национальные библиотеки в некоторых странах ^[13] имеют законное право копировать части Интернета в рамках продления обязательного экземпляра .

Некоторые частные некоммерческие веб-архивы, которые стали общедоступными, например WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам контента скрывать или удалять заархивированный контент, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или их использование регулируется. WebCite ссылается на недавний иск против кэширования Google, который Google выиграл. ^[14]

Законы

В 2017 году Управление по регулированию финансовой индустрии, Inc. (FINRA), финансовая регулирующая организация США, опубликовало уведомление, в котором говорится, что все предприятия, занимающиеся цифровыми коммуникациями, обязаны вести учет. Сюда входят данные веб-сайтов, публикации в социальных сетях и сообщения. ^[15] Некоторые законы об авторском праве могут запрещать веб-архивирование. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к научным работам, в том числе к тем, которые не имеют лицензии открытого доступа , и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны. ^[16]^[17]

Смотрите также

Внешние ссылки

Международный консорциум по сохранению Интернета (IIPC) — международный консорциум, миссия которого состоит в том, чтобы приобретать, сохранять и делать доступными знания и информацию из Интернета для будущих поколений.
Национальная библиотека Австралии, сохранение доступа к цифровой информации (PADI)
Библиотека Конгресса — Веб-архивирование