stringtranslate.com

Веб-архивирование

Архивирование веб-данных — это процесс сбора, сохранения и предоставления доступа к материалам из Всемирной паутины . Целью является обеспечение сохранности информации в архивном формате для исследований и общественности. [1]

Веб-архивисты обычно используют автоматизированные веб-краулеры для сбора огромного количества информации в Интернете. Широко известная служба веб-архивов — Wayback Machine , управляемая Internet Archive .

Растущая доля человеческой культуры, созданной и записанной в Интернете, неизбежно приводит к тому, что все большему числу библиотек и архивов придется сталкиваться с проблемами веб-архивирования. [2] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании веб-контента, чтобы предотвратить его потерю.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать собственный веб-контент для корпоративных целей, а также в нормативных или юридических целях.

История и развитие

Хотя кураторство и организация Интернета были распространены с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Internet Archive , некоммерческая организация, созданная Брюстером Кале в 1996 году. [3] Internet Archive выпустил собственную поисковую систему для просмотра архивированного веб-контента, Wayback Machine , в 2001 году. [3] По состоянию на 2018 год в Internet Archive хранилось 40 петабайт данных. [4] Internet Archive также разработал множество собственных инструментов для сбора и хранения своих данных, включая PetaBox для эффективного и безопасного хранения больших объемов данных и Heritrix , веб-сканер, разработанный совместно с национальными библиотеками стран Северной Европы. [3] Другие проекты, запущенные примерно в то же время, включали проект веб-архивирования Национальной библиотеки Канады , австралийской Pandora , тасманийских веб-архивов и шведской Kulturarw3. [5] [6]

С 2001 по 2010 год [ не удалось проверить ] Международный семинар по веб-архивированию (IWAW) предоставлял платформу для обмена опытом и идеями. [7] [8] Международный консорциум по сохранению информации в Интернете (IIPC), созданный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов. [9]

Ныне несуществующий Фонд памяти Интернета был основан в 2004 году Европейской комиссией с целью архивирования Интернета в Европе. [3] Этот проект разработал и выпустил множество инструментов с открытым исходным кодом, таких как «захват богатых медиаданных, анализ временной когерентности, оценка спама и обнаружение эволюции терминологии». [3] Данные фонда теперь хранятся в Архиве Интернета, но в настоящее время не являются общедоступными. [10]

Несмотря на то, что централизованной ответственности за его сохранение нет, веб-контент быстро становится официальным документом. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. [11]

Методы сбора

Веб-архивисты обычно архивируют различные типы веб-контента, включая HTML -страницы, таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина контента. Эти метаданные полезны для установления подлинности и происхождения архивированной коллекции.

Архивирование транзакций

Архивирование транзакций — это событийно-ориентированный подход, который собирает фактические транзакции, происходящие между веб-сервером и веб-браузером . Он в первую очередь используется как средство сохранения доказательств того, что контент был фактически просмотрен на определенном веб-сайте в определенную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать юридические или нормативные требования по раскрытию и хранению информации. [12]

Система архивирования транзакций обычно работает путем перехвата каждого HTTP- запроса к веб-серверу и ответа от него, фильтрации каждого ответа для устранения дублирования контента и постоянного хранения ответов в виде битовых потоков.

Трудности и ограничения

Гусеничные роботы

Веб-архивы, которые полагаются на веб-сканирование как на основной способ сбора данных из Интернета, сталкиваются с трудностями веб-сканирования:

Однако важно отметить, что создание веб-архива в собственном формате, т. е. полностью просматриваемого веб-архива с рабочими ссылками, медиафайлами и т. д., возможно только при использовании технологии краулеров.

Интернет настолько велик, что сканирование его значительной части требует большого количества технических ресурсов. Кроме того, Интернет меняется так быстро, что части веб-сайта могут претерпеть изменения еще до того, как сканер закончит его сканирование.

Общие ограничения

Некоторые веб-серверы настроены на возврат других страниц в ответ на запросы веб-архиватора, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы и направить больше трафика пользователей на веб-сайт, и часто делается для того, чтобы избежать ответственности или предоставить расширенный контент только тем браузерам, которые могут его отобразить.

Веб-архивариусам приходится иметь дело не только с техническими проблемами веб-архивирования, но и с законами об интеллектуальной собственности. Питер Лайман [13] утверждает, что «хотя Интернет обычно рассматривается как ресурс общественного достояния , он защищен авторским правом ; таким образом, архивисты не имеют законного права копировать Интернет». Однако национальные библиотеки в некоторых странах [14] имеют законное право копировать части Интернета в рамках расширения обязательного экземпляра .

Некоторые частные некоммерческие веб-архивы, которые сделаны общедоступными, такие как WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам контента скрывать или удалять архивный контент, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или имеют регулируемое использование. WebCite ссылается на недавний судебный процесс против кэширования Google, который Google выиграл. [15]

Законы

В 2017 году Financial Industry Regulatory Authority, Inc. (FINRA), финансовая регулирующая организация США, выпустила уведомление, в котором говорится, что все компании, занимающиеся цифровыми коммуникациями, обязаны вести учет. Это включает в себя данные веб-сайтов, сообщения в социальных сетях и сообщения. [16] Некоторые законы об авторском праве могут препятствовать веб-архивированию. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт предоставляет постоянный доступ к академическим работам, включая те, которые не имеют лицензии открытого доступа , и тем самым способствует архивированию научных исследований, которые в противном случае могут быть утеряны. [17] [18]

Смотрите также

Общая библиография

Ссылки

  1. ^ "Веб-архивирование". Netpreserve - Международный консорциум по сохранению информации в Интернете . 14 августа 2024 г. Архивировано из оригинала 12 июля 2024 г.
  2. ^ Трумэн, Гейл (2016). «Сканирование окружающей среды веб-архивирования». Гарвардская библиотека .
  3. ^ abcde Тоёда, М.; Кицурегава, М. (май 2012 г.). «История веб-архивирования». Труды IEEE . 100 (специальный выпуск к столетию): 1441–1443. doi : 10.1109/JPROC.2012.2189920 . ISSN  0018-9219.
  4. ^ "Внутри Wayback Machine, капсулы времени интернета". The Hustle . 28 сентября 2018 г. сек. Wayyyy назад . Получено 21 июля 2020 г.
  5. ^ Коста, Мигель; Гомес, Дэниел; Сильва, Марио Х. (сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал цифровых библиотек . 18 (3): 191–205. дои : 10.1007/s00799-016-0171-9. S2CID  24303455.
  6. ^ Консальво, Миа; Эсс, Чарльз, ред. (апрель 2011 г.). «Веб-архивирование – между прошлым, настоящим и будущим». Справочник по интернет-исследованиям (1-е изд.). Wiley. стр. 24–42. doi :10.1002/9781444314861. ISBN 978-1-4051-8588-2.
  7. ^ "IWAW 2010: 10-й международный семинар по веб-архивированию". www.wikicfp.com . Получено 19 августа 2019 г. .
  8. ^ "IWAW - Международные семинары по веб-архивированию". bibnum.bnf.fr . Архивировано из оригинала 20 ноября 2012 г. Получено 19 августа 2019 г.
  9. ^ "О IIPC". IIPC . Получено 17 апреля 2022 г. .
  10. ^ "Internet Memory Foundation: Free Web: Free Download, Borrow and Streaming". archive.org . Архив Интернета . Получено 21 июля 2020 г.
  11. ^ Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз». History Associates . Получено 14 июля 2019 г.
  12. ^ Браун, Адриан (10 января 2016 г.). Архивирование веб-сайтов: практическое руководство для специалистов по управлению информацией . Facet. ISBN 978-1-78330-053-2. OCLC  1064574312.
  13. ^ Лайман (2002)
  14. ^ "Юридический депозит | IIPC". netpreserve.org . Архивировано из оригинала 16 марта 2017 г. Получено 31 января 2017 г.
  15. ^ "WebCite FAQ". Webcitation.org . Получено 20 сентября 2018 г. .
  16. ^ «Социальные сети и цифровые коммуникации» (PDF) . finra.org . FINRA.
  17. ^ Клэберн, Томас (10 сентября 2020 г.). «Журналы открытого доступа исчезают из сети, Internet Archive готов заполнить пробелы». The Register .
  18. ^ Лааксо, Микаэль; Маттиас, Лиза; Ян, Найко (2021). «Открытость не навсегда: исследование исчезнувших журналов открытого доступа». Журнал Ассоциации информационной науки и технологий . 72 (9): 1099–1112. arXiv : 2008.11933 . doi : 10.1002/ASI.24460. S2CID  221340749.

Внешние ссылки