Веб-архивирование

Архивирование веб-данных — это процесс сбора, сохранения и предоставления доступа к материалам из Всемирной паутины . Целью является обеспечение сохранности информации в архивном формате для исследований и общественности. ^[1]

Веб-архивисты обычно используют автоматизированные веб-краулеры для сбора огромного количества информации в Интернете. Широко известная служба веб-архивов — Wayback Machine , управляемая Internet Archive .

Растущая доля человеческой культуры, созданной и записанной в Интернете, неизбежно приводит к тому, что все большему числу библиотек и архивов придется сталкиваться с проблемами веб-архивирования. ^[2] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании веб-контента, чтобы предотвратить его потерю.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать собственный веб-контент для корпоративных целей, а также в нормативных или юридических целях.

История и развитие

Хотя кураторство и организация Интернета были распространены с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Internet Archive , некоммерческая организация, созданная Брюстером Кале в 1996 году. ^[3] Internet Archive выпустил собственную поисковую систему для просмотра архивированного веб-контента, Wayback Machine , в 2001 году. ^[3] По состоянию на 2018 год в Internet Archive хранилось 40 петабайт данных. ^[4] Internet Archive также разработал множество собственных инструментов для сбора и хранения своих данных, включая PetaBox для эффективного и безопасного хранения больших объемов данных и Heritrix , веб-сканер, разработанный совместно с национальными библиотеками стран Северной Европы. ^[3] Другие проекты, запущенные примерно в то же время, включали проект веб-архивирования Национальной библиотеки Канады , австралийской Pandora , тасманийских веб-архивов и шведской Kulturarw3. ^[5]^[6]

С 2001 по 2010 год ^{[ не удалось проверить ]} Международный семинар по веб-архивированию (IWAW) предоставлял платформу для обмена опытом и идеями. ^[7]^[8] Международный консорциум по сохранению информации в Интернете (IIPC), созданный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов. ^[9]

Ныне несуществующий Фонд памяти Интернета был основан в 2004 году Европейской комиссией с целью архивирования Интернета в Европе. ^[3] Этот проект разработал и выпустил множество инструментов с открытым исходным кодом, таких как «захват богатых медиаданных, анализ временной когерентности, оценка спама и обнаружение эволюции терминологии». ^[3] Данные фонда теперь хранятся в Архиве Интернета, но в настоящее время не являются общедоступными. ^[10]

Несмотря на то, что централизованной ответственности за его сохранение нет, веб-контент быстро становится официальным документом. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. ^[11]

Методы сбора

Веб-архивисты обычно архивируют различные типы веб-контента, включая HTML -страницы, таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина контента. Эти метаданные полезны для установления подлинности и происхождения архивированной коллекции.

Архивирование транзакций

Архивирование транзакций — это событийно-ориентированный подход, который собирает фактические транзакции, происходящие между веб-сервером и веб-браузером . Он в первую очередь используется как средство сохранения доказательств того, что контент был фактически просмотрен на определенном веб-сайте в определенную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать юридические или нормативные требования по раскрытию и хранению информации. ^[12]

Система архивирования транзакций обычно работает путем перехвата каждого HTTP- запроса к веб-серверу и ответа от него, фильтрации каждого ответа для устранения дублирования контента и постоянного хранения ответов в виде битовых потоков.

Трудности и ограничения

Гусеничные роботы

Веб-архивы, которые полагаются на веб-сканирование как на основной способ сбора данных из Интернета, сталкиваются с трудностями веб-сканирования:

Протокол исключения роботов может потребовать от краулеров не получать доступ к частям веб-сайта. Некоторые веб-архивисты могут игнорировать запрос и сканировать эти части в любом случае.
Большие части веб-сайта могут быть скрыты в Deep Web . Например, страница результатов за веб-формой может находиться в Deep Web, если сканеры не могут перейти по ссылке на страницу результатов.
Ловушки сканера (например, календари) могут привести к загрузке сканером бесконечного количества страниц, поэтому сканеры обычно настраиваются на ограничение количества динамических страниц, которые они сканируют.
Большинство инструментов архивации не захватывают страницу как есть. Замечено, что рекламные баннеры и изображения часто пропускаются при архивации.

Однако важно отметить, что создание веб-архива в собственном формате, т. е. полностью просматриваемого веб-архива с рабочими ссылками, медиафайлами и т. д., возможно только при использовании технологии краулеров.

Интернет настолько велик, что сканирование его значительной части требует большого количества технических ресурсов. Кроме того, Интернет меняется так быстро, что части веб-сайта могут претерпеть изменения еще до того, как сканер закончит его сканирование.

Общие ограничения

Некоторые веб-серверы настроены на возврат других страниц в ответ на запросы веб-архиватора, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы и направить больше трафика пользователей на веб-сайт, и часто делается для того, чтобы избежать ответственности или предоставить расширенный контент только тем браузерам, которые могут его отобразить.

Веб-архивариусам приходится иметь дело не только с техническими проблемами веб-архивирования, но и с законами об интеллектуальной собственности. Питер Лайман ^[13] утверждает, что «хотя Интернет обычно рассматривается как ресурс общественного достояния , он защищен авторским правом ; таким образом, архивисты не имеют законного права копировать Интернет». Однако национальные библиотеки в некоторых странах ^[14] имеют законное право копировать части Интернета в рамках расширения обязательного экземпляра .

Некоторые частные некоммерческие веб-архивы, которые сделаны общедоступными, такие как WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам контента скрывать или удалять архивный контент, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или имеют регулируемое использование. WebCite ссылается на недавний судебный процесс против кэширования Google, который Google выиграл. ^[15]

Законы

В 2017 году Financial Industry Regulatory Authority, Inc. (FINRA), финансовая регулирующая организация США, выпустила уведомление, в котором говорится, что все компании, занимающиеся цифровыми коммуникациями, обязаны вести учет. Это включает в себя данные веб-сайтов, сообщения в социальных сетях и сообщения. ^[16] Некоторые законы об авторском праве могут препятствовать веб-архивированию. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт предоставляет постоянный доступ к академическим работам, включая те, которые не имеют лицензии открытого доступа , и тем самым способствует архивированию научных исследований, которые в противном случае могут быть утеряны. ^[17]^[18]

Смотрите также

Общая библиография

Браун, А. (2006). Архивирование веб-сайтов: практическое руководство для специалистов по управлению информацией . Лондон: Facet Publishing. ISBN 978-1-85604-553-7.
Брюггер, Н. (2005). Архивирование веб-сайтов. Общие соображения и стратегии. Орхус: Центр исследований Интернета. ISBN 978-87-990507-0-3. Архивировано из оригинала 29 января 2009 года.
Дэй, М. (2003). «Сохранение структуры нашей жизни: обзор инициатив по сохранению веб-информатики» (PDF) . Исследования и передовые технологии для цифровых библиотек . Конспект лекций по информатике. Том 2769. С. 461–472. doi :10.1007/978-3-540-45175-4_42. ISBN 978-3-540-40726-3.
Айзенбах, Г. и Трудель, М. (2005). «Идем, идем, все еще там: использование сервиса WebCite для постоянного архивирования цитируемых веб-страниц». Журнал медицинских интернет-исследований . 7 (5): e60. doi : 10.2196/jmir.7.5.e60 . PMC 1550686. PMID 16403724 .
Fitch, Kent (2003). «Архивирование веб-сайтов — подход к регистрации каждого существенно отличающегося ответа, полученного веб-сайтом». Ausweb 03 . Архивировано из оригинала 20 июля 2003 г. . Получено 27 сентября 2006 г. .
Jacoby, Robert (19 августа 2010 г.). "Архивирование веб-страницы". Архивировано из оригинала 3 января 2011 г. Получено 23 октября 2010 г.
Лайман, П. (2002). «Архивирование Всемирной паутины». Создание национальной стратегии сохранения: проблемы архивирования цифровых медиа .
Masanès, J.), ред. (2006). Веб-архивирование . Берлин: Springer-Verlag . ISBN 978-3-540-23338-1.
Пеннок, Морин (2013). Веб-архивирование . Отчеты DPC Technology Watch. Великобритания: Коалиция по цифровому сохранению . doi : 10.7207/twr13-01. ISSN 2048-7916.
Тоёда, М.; Кицурегава, М. (2012). «История веб-архивирования». Труды IEEE . 100 (специальный выпуск к столетию): 1441–1443. doi : 10.1109/JPROC.2012.2189920 .

Ссылки

^ "Веб-архивирование". Netpreserve - Международный консорциум по сохранению информации в Интернете . 14 августа 2024 г. Архивировано из оригинала 12 июля 2024 г.
^ Трумэн, Гейл (2016). «Сканирование окружающей среды веб-архивирования». Гарвардская библиотека .
^ abcde Тоёда, М.; Кицурегава, М. (май 2012 г.). «История веб-архивирования». Труды IEEE . 100 (специальный выпуск к столетию): 1441–1443. doi : 10.1109/JPROC.2012.2189920 . ISSN 0018-9219.
^ "Внутри Wayback Machine, капсулы времени интернета". The Hustle . 28 сентября 2018 г. сек. Wayyyy назад . Получено 21 июля 2020 г.
^ Коста, Мигель; Гомес, Дэниел; Сильва, Марио Х. (сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал цифровых библиотек . 18 (3): 191–205. дои : 10.1007/s00799-016-0171-9. S2CID 24303455.
^ Консальво, Миа; Эсс, Чарльз, ред. (апрель 2011 г.). «Веб-архивирование – между прошлым, настоящим и будущим». Справочник по интернет-исследованиям (1-е изд.). Wiley. стр. 24–42. doi :10.1002/9781444314861. ISBN 978-1-4051-8588-2.
^ "IWAW 2010: 10-й международный семинар по веб-архивированию". www.wikicfp.com . Получено 19 августа 2019 г. .
^ "IWAW - Международные семинары по веб-архивированию". bibnum.bnf.fr . Архивировано из оригинала 20 ноября 2012 г. Получено 19 августа 2019 г.
^ "О IIPC". IIPC . Получено 17 апреля 2022 г. .
^ "Internet Memory Foundation: Free Web: Free Download, Borrow and Streaming". archive.org . Архив Интернета . Получено 21 июля 2020 г.
^ Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз». History Associates . Получено 14 июля 2019 г.
^ Браун, Адриан (10 января 2016 г.). Архивирование веб-сайтов: практическое руководство для специалистов по управлению информацией . Facet. ISBN 978-1-78330-053-2. OCLC 1064574312.
^ Лайман (2002)
^ "Юридический депозит | IIPC". netpreserve.org . Архивировано из оригинала 16 марта 2017 г. Получено 31 января 2017 г.
^ "WebCite FAQ". Webcitation.org . Получено 20 сентября 2018 г. .
^ «Социальные сети и цифровые коммуникации» (PDF) . finra.org . FINRA.
^ Клэберн, Томас (10 сентября 2020 г.). «Журналы открытого доступа исчезают из сети, Internet Archive готов заполнить пробелы». The Register .
^ Лааксо, Микаэль; Маттиас, Лиза; Ян, Найко (2021). «Открытость не навсегда: исследование исчезнувших журналов открытого доступа». Журнал Ассоциации информационной науки и технологий . 72 (9): 1099–1112. arXiv : 2008.11933 . doi : 10.1002/ASI.24460. S2CID 221340749.

Внешние ссылки

Библиотечные ресурсы о
веб-архивировании

Онлайн книги
Ресурсы в вашей библиотеке
Ресурсы в других библиотеках

Международный консорциум по сохранению информации в Интернете (IIPC) — международный консорциум, миссия которого заключается в приобретении, сохранении и предоставлении доступа к знаниям и информации из Интернета для будущих поколений.
Национальная библиотека Австралии, сохранение доступа к цифровой информации (PADI)
Библиотека Конгресса — Веб-архивирование