stringtranslate.com

Веб-архивирование

Веб-архивирование — это процесс сбора частей Всемирной паутины для обеспечения сохранения информации в архиве для будущих исследователей, историков и общественности. Веб-архивисты обычно используют веб-сканеры для автоматического сбора данных из-за огромного размера и количества информации в Интернете. Крупнейшей организацией веб-архивирования, основанной на массовом сканировании, является Wayback Machine , которая стремится поддерживать архив всей сети.

Растущая часть человеческой культуры, созданная и записанная в сети, делает неизбежным то, что все больше и больше библиотек и архивов будут сталкиваться с проблемами веб-архивирования. [1] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно значимого веб-контента.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать собственный веб-контент для целей корпоративного наследия, нормативных или юридических целей.

История и развитие

Хотя курирование и организация Интернета преобладали с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Интернет- архив , некоммерческая организация, созданная Брюстером Кале в 1996 году . Интернет-архив выпустил собственную поисковую систему для просмотра архивного веб-контента Wayback Machine в 2001 году. [2] По состоянию на 2018 год в Интернет-архиве хранилось 40 петабайт данных. [3] Интернет-архив также разработал множество собственных инструментов для сбора и хранения своих данных, в том числе PetaBox для эффективного и безопасного хранения больших объемов данных, а также Heritrix , веб-сканер, разработанный совместно с национальными библиотеками Северных стран. [2] Другие проекты, запущенные примерно в то же время, включали проект веб-архивирования Национальной библиотеки Канады , австралийской Pandora , веб-архивов Тасмании и шведского Kulturarw3. [4] [5]

С 2001 по 2010 год [ не удалось проверить ] Международный семинар по веб-архивированию (IWAW) предоставлял платформу для обмена опытом и идеями. [6] [7] Международный консорциум по сохранению Интернета (IIPC), созданный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов. [8]

Ныне несуществующий Фонд Интернет-памяти был основан в 2004 году Европейской комиссией для архивирования Интернета в Европе. [2] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «сбор мультимедийных материалов, анализ временной согласованности, оценка спама и обнаружение эволюции терминологии». [2] Данные фонда сейчас хранятся в Интернет-архиве, но в настоящее время недоступны для публичного доступа. [9]

Несмотря на то, что не существует централизованной ответственности за его сохранение, веб-контент быстро становится официальной записью. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. [10]

Методы сбора

Веб-архивисты обычно архивируют различные типы веб-контента, включая веб-страницы HTML , таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина контента. Эти метаданные полезны для установления подлинности и происхождения архивной коллекции.

Удаленный сбор урожая

Самый распространенный метод веб-архивирования использует веб-сканеры для автоматизации процесса сбора веб-страниц . [5] Веб-сканеры обычно получают доступ к веб-страницам так же, как пользователи браузера видят Интернет, и, следовательно, предоставляют сравнительно простой метод удаленного сбора веб-контента. Примеры веб-сканеров, используемых для веб-архивирования, включают:

Существуют различные бесплатные сервисы, которые можно использовать для архивирования веб-ресурсов «по требованию» с использованием методов веб-сканирования. Эти сервисы включают Wayback Machine и WebCite .

Архивирование базы данных

Архивирование базы данных относится к методам архивирования основного содержимого веб-сайтов, управляемых базой данных. Обычно требуется извлечение содержимого базы данных в стандартную схему , часто с использованием XML . После сохранения в этом стандартном формате архивное содержимое нескольких баз данных может быть доступно с использованием единой системы доступа. Примером такого подхода являются инструменты DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии соответственно. DeepArc позволяет сопоставить структуру реляционной базы данных со схемой XML , а содержимое экспортировать в XML-документ. Затем Xinq позволяет доставлять этот контент онлайн. Хотя исходный макет и поведение веб-сайта не могут быть точно сохранены, Xinq позволяет воспроизвести базовые функции запросов и поиска.

Транзакционное архивирование

Транзакционное архивирование — это подход, управляемый событиями, который собирает фактические транзакции, происходящие между веб-сервером и веб-браузером . В первую очередь он используется как средство сохранения свидетельств содержания, которое фактически было просмотрено на определенном веб-сайте в определенную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования по раскрытию и хранению информации. [11]

Система транзакционного архивирования обычно работает путем перехвата каждого HTTP- запроса и ответа от веб-сервера, фильтрации каждого ответа для устранения дублированного контента и постоянного сохранения ответов в виде битовых потоков.

Трудности и ограничения

Краулеры

Веб-архивы, для которых сканирование веб-страниц является основным средством сбора информации в Интернете, испытывают на себе трудности, связанные с сканированием веб-страниц:

Однако важно отметить, что веб-архив собственного формата, то есть полностью доступный для просмотра веб-архив с рабочими ссылками, мультимедиа и т. д., действительно возможен только с использованием технологии сканирования.

Сеть настолько велика, что для сканирования значительной ее части требуется большое количество технических ресурсов. Кроме того, Интернет меняется настолько быстро, что некоторые части веб-сайта могут подвергнуться изменениям еще до того, как сканер завершит его сканирование.

Общие ограничения

Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора другие страницы, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы и заставить их направлять больше пользовательского трафика на веб-сайт, а также во избежание ответственности или для предоставления расширенного контента только тем браузерам, которые могут его отображать.

Веб-архивисты должны не только решать технические проблемы веб-архивирования, но и бороться с законами об интеллектуальной собственности. Питер Лайман [12] утверждает, что «хотя Сеть широко рассматривается как ресурс, являющийся общественным достоянием , она защищена авторским правом ; таким образом, архивариусы не имеют законного права копировать Сеть». Однако национальные библиотеки в некоторых странах [13] имеют законное право копировать части Интернета в рамках продления обязательного экземпляра .

Некоторые частные некоммерческие веб-архивы, которые стали общедоступными, например WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам контента скрывать или удалять заархивированный контент, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или их использование регулируется. WebCite ссылается на недавний иск против кэширования Google, который Google выиграл. [14]

Законы

В 2017 году Управление по регулированию финансовой индустрии, Inc. (FINRA), финансовая регулирующая организация США, опубликовало уведомление, в котором говорится, что все предприятия, занимающиеся цифровыми коммуникациями, обязаны вести учет. Сюда входят данные веб-сайтов, публикации в социальных сетях и сообщения. [15] Некоторые законы об авторском праве могут запрещать веб-архивирование. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к научным работам, в том числе к тем, которые не имеют лицензии открытого доступа , и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны. [16] [17]

Смотрите также

Рекомендации

Цитаты

  1. ^ Трумэн, Гейл (2016). «Сканирование среды веб-архивирования». Гарвардская библиотека .
  2. ^ abcde Тойода, М.; Кицурегава, М. (май 2012 г.). «История веб-архивирования». Труды IEEE . 100 (Специальный столетний выпуск): 1441–1443. дои : 10.1109/JPROC.2012.2189920 . ISSN  0018-9219.
  3. ^ «Внутри Wayback Machine, капсулы времени Интернета» . Суета . 28 сентября 2018 г. сек. Путь назад . Проверено 21 июля 2020 г.
  4. ^ Коста, Мигель; Гомес, Дэниел; Сильва, Марио Х. (сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал цифровых библиотек . 18 (3): 191–205. дои : 10.1007/s00799-016-0171-9. S2CID  24303455.
  5. ^ аб Консальво, Миа; Эсс, Чарльз, ред. (апрель 2011 г.). «Веб-архивирование - между прошлым, настоящим и будущим». Справочник по интернет-исследованиям (1-е изд.). Уайли. стр. 24–42. дои : 10.1002/9781444314861. ISBN 978-1-4051-8588-2.
  6. ^ «IWAW 2010: 10-й международный семинар по веб-архивированию» . www.wikicfp.com . Проверено 19 августа 2019 г.
  7. ^ «IWAW - Международные семинары по веб-архивированию» . bibnum.bnf.fr . Архивировано из оригинала 20 ноября 2012 года . Проверено 19 августа 2019 г.
  8. ^ «О IIPC». ИИПК . Проверено 17 апреля 2022 г.
  9. ^ «Фонд Интернет-памяти: Бесплатная сеть: бесплатная загрузка, заимствование и потоковая передача» . archive.org . Интернет-архив . Проверено 21 июля 2020 г.
  10. Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз». Исторические партнеры . Проверено 14 июля 2019 г.
  11. Браун, Адриан (10 января 2016 г.). Архивирование веб-сайтов: практическое руководство для специалистов по управлению информацией . Фасет. ISBN 978-1-78330-053-2. ОСЛК  1064574312.
  12. ^ Лайман (2002)
  13. ^ "Обязательный депозит | IIPC" . netpreserve.org . Архивировано из оригинала 16 марта 2017 года . Проверено 31 января 2017 г.
  14. ^ «Часто задаваемые вопросы по WebCite» . Вебцитация.org . Проверено 20 сентября 2018 г.
  15. ^ «Социальные сети и цифровые коммуникации» (PDF) . finra.org . ФИНРА.
  16. Клэберн, Томас (10 сентября 2020 г.). «Журналы открытого доступа исчезают из сети, Интернет-архив готов заполнить пробелы». Регистр .
  17. ^ Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (2021). «Открытость не навсегда: исследование исчезнувших журналов открытого доступа». Журнал Ассоциации информационных наук и технологий . 72 (9): 1099–1112. arXiv : 2008.11933 . дои : 10.1002/ASI.24460. S2CID  221340749.

Общая библиография

Внешние ссылки