Формат архива WARC (Web ARChive) определяет метод объединения нескольких цифровых ресурсов в совокупный архивный файл вместе с соответствующей информацией. Эти объединенные ресурсы сохраняются как файл WARC , который может быть воспроизведен на соответствующем программном обеспечении или использован веб-сайтами архивов, такими как Wayback Machine .
Формат WARC представляет собой пересмотренный вариант формата файла ARC_IA Архива Интернета [4] , который традиционно использовался для хранения « веб-сканеров » как последовательностей блоков контента, собранных из Всемирной паутины . Формат WARC обобщает старый формат для лучшей поддержки сбора, доступа и обмена потребностями архивных организаций. Помимо основного контента, записанного в настоящее время, пересмотренный вариант вмещает связанный вторичный контент, такой как назначенные метаданные , сокращенные события обнаружения дубликатов (см. §7.6 «повторный просмотр») и более поздние преобразования. [5] Формат WARC вдохновлен потоками HTTP/1.0 с похожим заголовком и использованием CRLF в качестве разделителей, что делает его очень подходящим для реализаций сканеров.
Впервые указанный в 2008 году [6] , WARC в настоящее время признан большинством национальных библиотечных систем в качестве стандарта, которому необходимо следовать при веб-архивировании. [7]