Heritrix — это веб-сканер, разработанный для веб-архивирования . Он был написан Internet Archive . Он доступен по лицензии свободного программного обеспечения и написан на Java . Основной интерфейс доступен с помощью веб-браузера , а также есть инструмент командной строки , который может быть использован для запуска сканирования.
Система Heretrix была разработана совместно Архивом Интернета и национальными библиотеками Северных стран на основе спецификаций, написанных в начале 2003 года. Первый официальный релиз состоялся в январе 2004 года, и она постоянно совершенствовалась сотрудниками Архива Интернета и другими заинтересованными сторонами.
В течение многих лет Heritrix не был основным сканером, используемым для сканирования контента веб-коллекции Архива Интернета. [2] Крупнейшим участником коллекции по состоянию на 2011 год является Alexa Internet . [2] Alexa сканирует Интернет для своих собственных целей, [2] используя сканер с именем ia_archiver . Затем Alexa передает материал Архиву Интернета. [2] Сам Архив Интернета выполнил часть своего сканирования с помощью Heritrix, но только в меньших масштабах. [2]
Начиная с 2008 года, Архив Интернета начал улучшать производительность, чтобы проводить собственное широкомасштабное сканирование, и теперь собирает большую часть своего контента. [3] [ проверка не пройдена ]
Ряд организаций и национальных библиотек используют Heretrix, среди них: [ необходима ссылка ]
Более старые версии Heritrix по умолчанию сохраняли веб-ресурсы, которые он сканировал, в файле Arc. Этот формат файла совершенно не связан с ARC (формат файла) . Этот формат использовался Internet Archive с 1996 года для хранения своих веб-архивов. В последнее время он по умолчанию сохраняет в формате файла WARC , который похож на ARC, но более точно определен и более гибок. Heritrix также можно настроить для хранения файлов в формате каталога, похожем на формат краулера Wget , который использует URL для наименования каталога и имени файла каждого ресурса.
Файл Arc хранит несколько архивированных ресурсов в одном файле, чтобы избежать управления большим количеством мелких файлов. Файл состоит из последовательности записей URL, каждая из которых имеет заголовок, содержащий метаданные о том, как был запрошен ресурс, за которым следует заголовок HTTP и ответ. Размер файлов Arc варьируется от 100 до 600 МБ. [ необходима цитата ]
Пример:
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 URL-адрес InternetArchive IP-адрес Дата-архива Тип-контента Длина-архиваhttp://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP / 1.1 200 OK Дата : Чт, 22 июня 2006 г. 19:01:15 GMT Сервер : Apache Последнее изменение : Сб, 10 июня 2006 г. 22:33:11 GMT Длина содержимого : 30 Тип содержимого : text/html< html >Привет, мир!!!</html>
Heritrix включает в себя инструмент командной строки, называемый arcreader , который может быть использован для извлечения содержимого файла Arc. Следующая команда выводит список всех URL-адресов и метаданных, хранящихся в указанном файле Arc (в формате CDX):
arcreader IA-2006062.arc
Следующая команда извлекает hello.html из приведенного выше примера, предполагая, что запись начинается со смещения 140:
arcreader -o 140 -f дамп IA-2006062.arc
Другие инструменты:
Heretrix поставляется с несколькими инструментами командной строки:
Дополнительные инструменты доступны как часть проекта warctools Интернет-архива. [6]
На момент редактирования в статье используется контент из статьи "Re: Control over the Internet Archive beside just “Disallow /”?" , которая лицензирована таким образом, что позволяет повторное использование в соответствии с лицензией Creative Commons Attribution-ShareAlike 3.0 Unported License , но не в соответствии с GFDL . Необходимо соблюдать все соответствующие условия.
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка )Инструменты от Internet Archive:
Ссылки на соответствующие инструменты: