stringtranslate.com

Наследница

Heritrix — это веб-сканер, разработанный для веб-архивирования . Он был написан Internet Archive . Он доступен по лицензии свободного программного обеспечения и написан на Java . Основной интерфейс доступен с помощью веб-браузера , а также есть инструмент командной строки , который может быть использован для запуска сканирования.

Система Heretrix была разработана совместно Архивом Интернета и национальными библиотеками Северных стран на основе спецификаций, написанных в начале 2003 года. Первый официальный релиз состоялся в январе 2004 года, и она постоянно совершенствовалась сотрудниками Архива Интернета и другими заинтересованными сторонами.

В течение многих лет Heritrix не был основным сканером, используемым для сканирования контента веб-коллекции Архива Интернета. [2] Крупнейшим участником коллекции по состоянию на 2011 год является Alexa Internet . [2] Alexa сканирует Интернет для своих собственных целей, [2] используя сканер с именем ia_archiver . Затем Alexa передает материал Архиву Интернета. [2] Сам Архив Интернета выполнил часть своего сканирования с помощью Heritrix, но только в меньших масштабах. [2]

Начиная с 2008 года, Архив Интернета начал улучшать производительность, чтобы проводить собственное широкомасштабное сканирование, и теперь собирает большую часть своего контента. [3] [ проверка не пройдена ]

Проекты с использованием Heretrix

Ряд организаций и национальных библиотек используют Heretrix, среди них: [ необходима ссылка ]

Файлы Arc

Более старые версии Heritrix по умолчанию сохраняли веб-ресурсы, которые он сканировал, в файле Arc. Этот формат файла совершенно не связан с ARC (формат файла) . Этот формат использовался Internet Archive с 1996 года для хранения своих веб-архивов. В последнее время он по умолчанию сохраняет в формате файла WARC , который похож на ARC, но более точно определен и более гибок. Heritrix также можно настроить для хранения файлов в формате каталога, похожем на формат краулера Wget , который использует URL для наименования каталога и имени файла каждого ресурса.

Файл Arc хранит несколько архивированных ресурсов в одном файле, чтобы избежать управления большим количеством мелких файлов. Файл состоит из последовательности записей URL, каждая из которых имеет заголовок, содержащий метаданные о том, как был запрошен ресурс, за которым следует заголовок HTTP и ответ. Размер файлов Arc варьируется от 100 до 600 МБ. [ необходима цитата ]

Пример:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 URL-адрес InternetArchive IP-адрес Дата-архива Тип-контента Длина-архиваhttp://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP / 1.1  200  OK Дата :  Чт, 22 июня 2006 г. 19:01:15 GMT Сервер :  Apache Последнее изменение :  Сб, 10 июня 2006 г. 22:33:11 GMT Длина содержимого :  30 Тип содержимого :  text/html< html >Привет, мир!!!</html>

Инструменты для обработки файлов Arc

Heritrix включает в себя инструмент командной строки, называемый arcreader , который может быть использован для извлечения содержимого файла Arc. Следующая команда выводит список всех URL-адресов и метаданных, хранящихся в указанном файле Arc (в формате CDX):

arcreader IA-2006062.arc

Следующая команда извлекает hello.html из приведенного выше примера, предполагая, что запись начинается со смещения 140:

arcreader -o 140 -f дамп IA-2006062.arc

Другие инструменты:

Инструменты командной строки

Heretrix поставляется с несколькими инструментами командной строки:

Дополнительные инструменты доступны как часть проекта warctools Интернет-архива. [6]

Смотрите также

Ссылки

На момент редактирования в статье используется контент из статьи "Re: Control over the Internet Archive beside just “Disallow /”?" , которая лицензирована таким образом, что позволяет повторное использование в соответствии с лицензией Creative Commons Attribution-ShareAlike 3.0 Unported License , но не в соответствии с GFDL . Необходимо соблюдать все соответствующие условия.

  1. ^ "Release 3.4.0-20240909". 9 сентября 2024 г. Получено 22 сентября 2024 г.
  2. ^ abcde Kris (6 сентября 2011 г.). "Re: Контроль над интернет-архивом помимо простого 'Disallow /'?". Pro Webmasters Stack Exchange . Stack Exchange, Inc . Получено 7 января 2013 г. .
  3. ^ "Wayback Machine: теперь с 240 000 000 000 URL-адресов - блоги Internet Archive". blog.archive.org . Получено 11 сентября 2017 г. .
  4. ^ "О - Веб-архивирование (Библиотека Конгресса)". www.loc.gov . Получено 29.10.2017 .
  5. ^ "Технические аспекты веб-архивирования - Koninklijke Bibliotheek" . www.kb.nl. ​Проверено 11 сентября 2017 г.
  6. ^ "warctools". 25 августа 2017 г. Получено 11 сентября 2017 г. – через GitHub.
  1. Бёрнер, М. (1997). «Ползком к вечности – создание архива Всемирной паутины». Web Techniques . 2 (5). Архивировано из оригинала 1 января 2008 г.
  2. Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Введение в Heritrix, веб-краулер архивного качества" (PDF) . Труды 4-го Международного семинара по веб-архивированию (IWAW'04) . Архивировано из оригинала (PDF) 2011-06-12 . Получено 2007-03-09 .{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  3. Sigurðsson, K. (2005). "Incremental crawling with Heretrix" (PDF) . Труды 5-го Международного семинара по веб-архивированию (IWAW'05) . Архивировано из оригинала (PDF) 2011-06-12 . Получено 2006-06-23 .

Внешние ссылки

Инструменты от Internet Archive:

Ссылки на соответствующие инструменты: