Архивирование веб-данных — это процесс сбора, сохранения и предоставления доступа к материалам из Всемирной паутины . Целью является обеспечение сохранности информации в архивном формате для исследований и общественности. [1]
Веб-архивисты обычно используют автоматизированные веб-краулеры для сбора огромного количества информации в Интернете. Широко известная служба веб-архивов — Wayback Machine , управляемая Internet Archive .
Растущая доля человеческой культуры, созданной и записанной в Интернете, неизбежно приводит к тому, что все большему числу библиотек и архивов придется сталкиваться с проблемами веб-архивирования. [2] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании веб-контента, чтобы предотвратить его потерю.
Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать собственный веб-контент для корпоративных целей, а также в нормативных или юридических целях.
Хотя кураторство и организация Интернета были распространены с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Internet Archive , некоммерческая организация, созданная Брюстером Кале в 1996 году. [3] Internet Archive выпустил собственную поисковую систему для просмотра архивированного веб-контента, Wayback Machine , в 2001 году. [3] По состоянию на 2018 год в Internet Archive хранилось 40 петабайт данных. [4] Internet Archive также разработал множество собственных инструментов для сбора и хранения своих данных, включая PetaBox для эффективного и безопасного хранения больших объемов данных и Heritrix , веб-сканер, разработанный совместно с национальными библиотеками стран Северной Европы. [3] Другие проекты, запущенные примерно в то же время, включали проект веб-архивирования Национальной библиотеки Канады , австралийской Pandora , тасманийских веб-архивов и шведской Kulturarw3. [5] [6]
С 2001 по 2010 год [ не удалось проверить ] Международный семинар по веб-архивированию (IWAW) предоставлял платформу для обмена опытом и идеями. [7] [8] Международный консорциум по сохранению информации в Интернете (IIPC), созданный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов. [9]
Ныне несуществующий Фонд памяти Интернета был основан в 2004 году Европейской комиссией с целью архивирования Интернета в Европе. [3] Этот проект разработал и выпустил множество инструментов с открытым исходным кодом, таких как «захват богатых медиаданных, анализ временной когерентности, оценка спама и обнаружение эволюции терминологии». [3] Данные фонда теперь хранятся в Архиве Интернета, но в настоящее время не являются общедоступными. [10]
Несмотря на то, что централизованной ответственности за его сохранение нет, веб-контент быстро становится официальным документом. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. [11]
Веб-архивисты обычно архивируют различные типы веб-контента, включая HTML -страницы, таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина контента. Эти метаданные полезны для установления подлинности и происхождения архивированной коллекции.
Архивирование транзакций — это событийно-ориентированный подход, который собирает фактические транзакции, происходящие между веб-сервером и веб-браузером . Он в первую очередь используется как средство сохранения доказательств того, что контент был фактически просмотрен на определенном веб-сайте в определенную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать юридические или нормативные требования по раскрытию и хранению информации. [12]
Система архивирования транзакций обычно работает путем перехвата каждого HTTP- запроса к веб-серверу и ответа от него, фильтрации каждого ответа для устранения дублирования контента и постоянного хранения ответов в виде битовых потоков.
Веб-архивы, которые полагаются на веб-сканирование как на основной способ сбора данных из Интернета, сталкиваются с трудностями веб-сканирования:
Однако важно отметить, что создание веб-архива в собственном формате, т. е. полностью просматриваемого веб-архива с рабочими ссылками, медиафайлами и т. д., возможно только при использовании технологии краулеров.
Интернет настолько велик, что сканирование его значительной части требует большого количества технических ресурсов. Кроме того, Интернет меняется так быстро, что части веб-сайта могут претерпеть изменения еще до того, как сканер закончит его сканирование.
Некоторые веб-серверы настроены на возврат других страниц в ответ на запросы веб-архиватора, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы и направить больше трафика пользователей на веб-сайт, и часто делается для того, чтобы избежать ответственности или предоставить расширенный контент только тем браузерам, которые могут его отобразить.
Веб-архивариусам приходится иметь дело не только с техническими проблемами веб-архивирования, но и с законами об интеллектуальной собственности. Питер Лайман [13] утверждает, что «хотя Интернет обычно рассматривается как ресурс общественного достояния , он защищен авторским правом ; таким образом, архивисты не имеют законного права копировать Интернет». Однако национальные библиотеки в некоторых странах [14] имеют законное право копировать части Интернета в рамках расширения обязательного экземпляра .
Некоторые частные некоммерческие веб-архивы, которые сделаны общедоступными, такие как WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам контента скрывать или удалять архивный контент, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или имеют регулируемое использование. WebCite ссылается на недавний судебный процесс против кэширования Google, который Google выиграл. [15]
В 2017 году Financial Industry Regulatory Authority, Inc. (FINRA), финансовая регулирующая организация США, выпустила уведомление, в котором говорится, что все компании, занимающиеся цифровыми коммуникациями, обязаны вести учет. Это включает в себя данные веб-сайтов, сообщения в социальных сетях и сообщения. [16] Некоторые законы об авторском праве могут препятствовать веб-архивированию. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт предоставляет постоянный доступ к академическим работам, включая те, которые не имеют лицензии открытого доступа , и тем самым способствует архивированию научных исследований, которые в противном случае могут быть утеряны. [17] [18]