Наследница

Heritrix — это веб-сканер, разработанный для веб-архивирования . Он был написан Internet Archive . Он доступен по лицензии свободного программного обеспечения и написан на Java . Основной интерфейс доступен с помощью веб-браузера , а также есть инструмент командной строки , который может быть использован для запуска сканирования.

Система Heretrix была разработана совместно Архивом Интернета и национальными библиотеками Северных стран на основе спецификаций, написанных в начале 2003 года. Первый официальный релиз состоялся в январе 2004 года, и она постоянно совершенствовалась сотрудниками Архива Интернета и другими заинтересованными сторонами.

В течение многих лет Heritrix не был основным сканером, используемым для сканирования контента веб-коллекции Архива Интернета. ^[2] Крупнейшим участником коллекции по состоянию на 2011 год является Alexa Internet . ^[2] Alexa сканирует Интернет для своих собственных целей, ^[2] используя сканер с именем ia_archiver . Затем Alexa передает материал Архиву Интернета. ^[2] Сам Архив Интернета выполнил часть своего сканирования с помощью Heritrix, но только в меньших масштабах. ^[2]

Начиная с 2008 года, Архив Интернета начал улучшать производительность, чтобы проводить собственное широкомасштабное сканирование, и теперь собирает большую часть своего контента. ^[3]^{[ проверка не пройдена ]}

Проекты с использованием Heretrix

Ряд организаций и национальных библиотек используют Heretrix, среди них: ^{[ необходима ссылка ]}

Австрийская национальная библиотека , веб-архивирование
Интернет-архив Александрийской библиотеки
Национальная библиотека Франции
Британская библиотека
Служба веб-архивирования Калифорнийской цифровой библиотеки
CiteSeerX
Документирование Интернета2
Фонд памяти Интернета
Библиотека и архивы Канады
Библиотека Конгресса ^[4]
Национальная и университетская библиотека Исландии
Национальная библиотека Финляндии
Национальная библиотека Новой Зеландии
Королевская библиотека Нидерландов (Koninklijke Bibliotheek) ^[5]
Netarkivet.dk
Национальная библиотека Израиля

Файлы Arc

Более старые версии Heritrix по умолчанию сохраняли веб-ресурсы, которые он сканировал, в файле Arc. Этот формат файла совершенно не связан с ARC (формат файла) . Этот формат использовался Internet Archive с 1996 года для хранения своих веб-архивов. В последнее время он по умолчанию сохраняет в формате файла WARC , который похож на ARC, но более точно определен и более гибок. Heritrix также можно настроить для хранения файлов в формате каталога, похожем на формат краулера Wget , который использует URL для наименования каталога и имени файла каждого ресурса.

Файл Arc хранит несколько архивированных ресурсов в одном файле, чтобы избежать управления большим количеством мелких файлов. Файл состоит из последовательности записей URL, каждая из которых имеет заголовок, содержащий метаданные о том, как был запрошен ресурс, за которым следует заголовок HTTP и ответ. Размер файлов Arc варьируется от 100 до 600 МБ. ^{[ необходима цитата ]}

Пример:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 URL-адрес InternetArchive IP-адрес Дата-архива Тип-контента Длина-архиваhttp://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP / 1.1  200  OK Дата :  Чт, 22 июня 2006 г. 19:01:15 GMT Сервер :  Apache Последнее изменение :  Сб, 10 июня 2006 г. 22:33:11 GMT Длина содержимого :  30 Тип содержимого :  text/html< html >Привет, мир!!!</html>

Инструменты для обработки файлов Arc

Heritrix включает в себя инструмент командной строки, называемый arcreader , который может быть использован для извлечения содержимого файла Arc. Следующая команда выводит список всех URL-адресов и метаданных, хранящихся в указанном файле Arc (в формате CDX):

arcreader IA-2006062.arc

Следующая команда извлекает hello.html из приведенного выше примера, предполагая, что запись начинается со смещения 140:

arcreader -o 140 -f дамп IA-2006062.arc

Другие инструменты:

Инструменты для обработки дуги
WERA (доступ к веб-архиву) Архивировано 2011-03-07 на Wayback Machine

Инструменты командной строки

Heretrix поставляется с несколькими инструментами командной строки:

htmlextractor – отображает ссылки, которые Heretrix извлечет для заданного URL
hoppath.pl – воссоздает путь перехода (путь ссылок) к указанному URL из завершенного сканирования
manifest_bundle.pl – объединяет все ресурсы, на которые ссылается файл манифеста сканирования, в несжатый или сжатый tar-архив
cmdline-jmxclient – включает управление Heretrix из командной строки
arcreader – извлекает содержимое файлов ARC (см. выше)

Дополнительные инструменты доступны как часть проекта warctools Интернет-архива. ^[6]

Смотрите также

Ссылки

На момент редактирования в статье используется контент из статьи "Re: Control over the Internet Archive beside just “Disallow /”?" , которая лицензирована таким образом, что позволяет повторное использование в соответствии с лицензией Creative Commons Attribution-ShareAlike 3.0 Unported License , но не в соответствии с GFDL . Необходимо соблюдать все соответствующие условия.

^ "Release 3.4.0-20240909". 9 сентября 2024 г. Получено 22 сентября 2024 г.
^ abcde Kris (6 сентября 2011 г.). "Re: Контроль над интернет-архивом помимо простого 'Disallow /'?". Pro Webmasters Stack Exchange . Stack Exchange, Inc . Получено 7 января 2013 г. .
^ "Wayback Machine: теперь с 240 000 000 000 URL-адресов - блоги Internet Archive". blog.archive.org . Получено 11 сентября 2017 г. .
^ "О - Веб-архивирование (Библиотека Конгресса)". www.loc.gov . Получено 29.10.2017 .
^ "Технические аспекты веб-архивирования - Koninklijke Bibliotheek" . www.kb.nl. Проверено 11 сентября 2017 г.
^ "warctools". 25 августа 2017 г. Получено 11 сентября 2017 г. – через GitHub.

Бёрнер, М. (1997). «Ползком к вечности – создание архива Всемирной паутины». Web Techniques . 2 (5). Архивировано из оригинала 1 января 2008 г.
Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Введение в Heritrix, веб-краулер архивного качества" (PDF) . Труды 4-го Международного семинара по веб-архивированию (IWAW'04) . Архивировано из оригинала (PDF) 2011-06-12 . Получено 2007-03-09 .{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
Sigurðsson, K. (2005). "Incremental crawling with Heretrix" (PDF) . Труды 5-го Международного семинара по веб-архивированию (IWAW'05) . Архивировано из оригинала (PDF) 2011-06-12 . Получено 2006-06-23 .

Внешние ссылки

Инструменты от Internet Archive:

Heritrix - официальная вики
NutchWAX Архивировано 28.09.2011 в Wayback Machine — поиск в коллекциях веб-архивов
Wayback (Wayback Machine с открытым исходным кодом) Архивировано 16.09.2011 на Wayback Machine — поиск и навигация по коллекциям веб-архивов с помощью NutchWax

Ссылки на соответствующие инструменты:

Формат файла Arc
Как запустить Heretrix в Windows
WERA (доступ к веб-архиву) Архивировано 07.03.2011 на Wayback Machine — поиск и навигация по коллекциям веб-архивов с помощью NutchWAX