DjVu ( / ˌ d eɪ ʒ ɑː ˈ v uː / DAY -zhah- VOO , как и французское « déjà vu » [2] ) — компьютерный формат файлов , предназначенный в первую очередь для хранения отсканированных документов , особенно содержащих комбинацию текста, штриховых рисунков , индексированные цветные изображения и фотографии. Он использует такие технологии, как разделение слоев изображения текста и фона/изображений, прогрессивную загрузку , арифметическое кодирование и сжатие с потерями для битональных ( монохромных ) изображений. Это позволяет хранить высококачественные, читаемые изображения в минимальном пространстве и размещать их в Интернете .
DjVu рекламируется как обеспечивающий файлы меньшего размера, чем PDF, для большинства сканированных документов. [3] Разработчики DjVu сообщают, что страницы цветных журналов сжимаются до 40–70 КБ, черно-белые технические статьи сжимаются до 15–40 КБ, а древние рукописи сжимаются примерно до 100 КБ; удовлетворительное изображение JPEG обычно требует 500 КБ. [4] Как и PDF, DjVu может содержать текстовый слой OCR , что упрощает выполнение операций копирования и вставки , а также поиска текста.
Доступны бесплатные создатели, манипуляторы, конвертеры, плагины веб-браузера и программы просмотра для настольных компьютеров. [2] DjVu поддерживается рядом многоформатных программ для просмотра документов и программ для чтения электронных книг в Linux ( Okular , Evince , Zathura ), Windows ( Okular , SumatraPDF ) и Android (Document Viewer, [5] FBReader, EBookDroid). , Карманная книга).
Технология DjVu была первоначально разработана Яном Лекуном , Леоном Ботту , Патриком Хаффнером, Полом Г. Ховардом, Патрисом Симардом и Йошуа Бенджио в AT&T Labs с 1996 по 2001 год. [4]
До стандартизации PDF в 2008 году [6] [7] DjVu считался лучшим, поскольку это был открытый формат файлов , в отличие от проприетарного характера PDF в то время. Заявленная более высокая степень сжатия (и, следовательно, меньший размер файла) и заявленная простота преобразования больших объемов текста в формат DjVu были другими аргументами в пользу превосходства DjVu над PDF в технологическом ландшафте 2004 года. Независимый технолог Брюстер Кале в выступлении 2004 года на IT Conversations обсудили преимущества облегчения доступа к файлам DjVu. [8] [9]
Библиотека DjVu, распространяемая как часть пакета с открытым исходным кодом DjVuLibre, стала эталонной реализацией формата DjVu. DjVuLibre поддерживается и обновляется первоначальными разработчиками DjVu с 2002 года. [10]
Спецификация формата файла DjVu претерпела ряд изменений, последняя из которых была выпущена в 2005 году.
Формат DjVu в основном использовался для электронного распространения документов, качество которых сравнимо с качеством печатных документов. Поскольку эта ниша также является основным применением PDF, было неизбежно, что эти два формата станут конкурентами. Однако следует отметить, что эти два формата по-разному подходят к проблеме доставки документов с высоким разрешением: PDF преимущественно кодирует графику и текст как векторизованные данные, тогда как DjVu преимущественно кодирует их как растровые изображения. Это означает, что PDF возлагает бремя рендеринга документа на читателя, тогда как DjVu возлагает это бремя на создателя.
В течение ряда лет, во многом совпадающих с периодом разработки DjVu, не существовало средств просмотра PDF-файлов для бесплатных операционных систем — особым камнем преткновения была рендеринг векторизованных шрифтов, которые необходимы для сочетания небольшого размера файла с высоким разрешением в PDF. Поскольку отображение DjVu было более простой задачей, для решения которой было доступно свободное программное обеспечение, были предложения, что движение за свободное программное обеспечение должно использовать DjVu вместо PDF для распространения документации; рендеринг для создания DjVu в принципе мало чем отличается от рендеринга для драйвера принтера для конкретного устройства, и в крайнем случае DjVu можно сгенерировать из сканированных бумажных носителей. Однако, когда в 2000 году FreeType 2.0 начал обеспечивать рендеринг всех основных форматов векторизованных шрифтов, это специфическое преимущество DjVu начало исчезать.
В 2000-х годах, с развитием Всемирной паутины и до широкого распространения широкополосной связи , цифровые библиотеки часто использовали DjVu в качестве предпочтительного формата благодаря его интеграции с таким программным обеспечением, как Greenstone [11] и Internet Archive , [12] ] плагины для браузера, которые обеспечивали расширенные возможности онлайн-просмотра, меньший размер файла для сопоставимого качества сканирований книг и других документов с большим количеством изображений [13], а также поддержку встраивания и поиска полного текста из OCR . [14] [15] Некоторые функции, такие как предварительный просмотр миниатюр, позже были интегрированы в BookReader Интернет-архива [16] , а просмотр DjVu был признан устаревшим в его пользу, поскольку примерно в 2015 году некоторые основные браузеры перестали поддерживать с ними плагины NPAPI и DjVu. [17]
DjVu.js Viewer пытается заменить отсутствующие плагины.
Формат файла DjVu основан на формате файла Interchange и состоит из иерархически организованных фрагментов. Структуре IFF предшествует 4-байтовое AT&T
магическое число . Ниже приведен один FORM
фрагмент со вторичным идентификатором либо DJVU
для DJVM
одностраничного, либо для многостраничного документа соответственно.
Все фрагменты могут содержаться в одном файле в случае так называемых связанных документов или могут содержаться в нескольких файлах: по одному файлу для каждой страницы плюс несколько файлов с общими фрагментами.
DjVu делит одно изображение на множество разных изображений, а затем сжимает их по отдельности. Чтобы создать файл DjVu, исходное изображение сначала разделяется на три изображения: фоновое изображение, изображение переднего плана и изображение маски. Изображения фона и переднего плана обычно представляют собой цветные изображения с более низким разрешением (например, 100 точек на дюйм); изображение маски представляет собой двухуровневое изображение высокого разрешения (например, 300 точек на дюйм), и обычно там хранится текст. Затем изображения фона и переднего плана сжимаются с использованием алгоритма сжатия на основе вейвлетов под названием IW44. [4] Изображение маски сжимается с помощью метода JB2 (аналогично JBIG2 ). Метод кодирования JB2 идентифицирует практически идентичные фигуры на странице, например, несколько вхождений определенного символа в заданном шрифте, стиле и размере. Он сжимает растровое изображение каждой уникальной фигуры отдельно, а затем кодирует места, где каждая фигура появляется на странице. Таким образом, вместо многократного сжатия буквы «е» в данном шрифте он сжимает букву «е» один раз (как сжатое битовое изображение), а затем записывает каждое место на странице, где она встречается.
При желании эти фигуры можно сопоставить с кодами UTF-8 (вручную или, возможно, с помощью системы распознавания текста ) и сохранить в файле DjVu. Если такое сопоставление существует, можно выделить и скопировать текст.
Поскольку JB2 (также называемый DjVuBitonal) является разновидностью JBIG2, работающей по тем же принципам, [18] оба метода сжатия имеют одинаковые проблемы при выполнении сжатия с потерями. В 2013 году выяснилось, что копировальные аппараты и сканеры Xerox заменяли цифры на похожие по внешнему виду цифры, например, заменяя 6 на 8. [ 19] В дикой природе был замечен документ DjVu с заменами символов, например буквой n с кровоточащими засечками. превращается в au и о с точкой внутри, превращающейся в е. [20] В файле не сохраняется информация о том, произошло ли сжатие с потерями. [1] Таким образом, приложение просмотра DjView не может предупредить пользователя о возможной замене глифов ни при открытии файла, сжатого с потерями, ни в диалоговых окнах «Информация» или «Метаданные». [21]
DjVu — открытый формат файлов , запатентованный. [3] Опубликована спецификация формата файла, а также исходный код справочной библиотеки. [3] Оригинальные авторы распространяют реализацию с открытым исходным кодом под названием « DjVuLibre » под лицензией GNU General Public License . Права на коммерческую разработку программного обеспечения для кодирования на протяжении многих лет передавались различным компаниям, включая AT&T Corporation , LizardTech , [22] Celartem [23] и Cuminas . [24]
Celartem приобрела LizardTech и Extensis. [25] [26] [23] [27] [28]
Выбор загружаемых программ просмотра DjVu в дистрибутивах Linux шире , чем в Windows или Mac OS. Кроме того, этот формат редко поддерживается проприетарным программным обеспечением для сканирования.
В 2002 году формат файла DjVu был выбран Интернет -архивом в качестве формата, в котором его проект «Миллион книг» предоставляет онлайн -сканированные общедоступные книги (наряду с TIFF и PDF). [29] В феврале 2016 года Интернет-архив объявил, что DjVu больше не будет использоваться для новых загрузок, среди других причин, сославшись на снижение использования формата и сложность поддержки программы просмотра этого формата на основе Java-апплетов . [17]
Wikimedia Commons , медиа-репозиторий, используемый, среди прочего, Википедией , условно разрешает медиафайлы в формате PDF и DjVu. [30]