stringtranslate.com

DjVu

DjVu ( / ˌ d ʒ ɑː ˈ v / DAY -zhah- VOO , как и французское « déjà vu » [2] ) — компьютерный формат файлов , предназначенный в первую очередь для хранения отсканированных документов , особенно содержащих комбинацию текста, штриховых рисунков , индексированные цветные изображения и фотографии. Он использует такие технологии, как разделение слоев изображения текста и фона/изображений, прогрессивную загрузку , арифметическое кодирование и сжатие с потерями для битональных ( монохромных ) изображений. Это позволяет хранить высококачественные, читаемые изображения в минимальном пространстве и размещать их в Интернете .

DjVu рекламируется как обеспечивающий файлы меньшего размера, чем PDF, для большинства сканированных документов. [3] Разработчики DjVu сообщают, что страницы цветных журналов сжимаются до 40–70 КБ, черно-белые технические статьи сжимаются до 15–40 КБ, а древние рукописи сжимаются примерно до 100 КБ; удовлетворительное изображение JPEG обычно требует 500 КБ. [4] Как и PDF, DjVu может содержать текстовый слой OCR , что упрощает выполнение операций копирования и вставки , а также поиска текста.

Доступны бесплатные создатели, манипуляторы, конвертеры, плагины веб-браузера и программы просмотра для настольных компьютеров. [2] DjVu поддерживается рядом многоформатных программ для просмотра документов и программ для чтения электронных книг в Linux ( Okular , Evince , Zathura ), Windows ( Okular , SumatraPDF ) и Android (Document Viewer, [5] FBReader, EBookDroid). , Карманная книга).

История

Технология DjVu была первоначально разработана Яном Лекуном , Леоном Ботту , Патриком Хаффнером, Полом Г. Ховардом, Патрисом Симардом и Йошуа Бенджио в AT&T Labs с 1996 по 2001 год. [4]

До стандартизации PDF в 2008 году [6] [7] DjVu считался лучшим, поскольку это был открытый формат файлов , в отличие от проприетарного характера PDF в то время. Заявленная более высокая степень сжатия (и, следовательно, меньший размер файла) и заявленная простота преобразования больших объемов текста в формат DjVu были другими аргументами в пользу превосходства DjVu над PDF в технологическом ландшафте 2004 года. Независимый технолог Брюстер Кале в выступлении 2004 года на IT Conversations обсудили преимущества облегчения доступа к файлам DjVu. [8] [9]

Библиотека DjVu, распространяемая как часть пакета с открытым исходным кодом DjVuLibre, стала эталонной реализацией формата DjVu. DjVuLibre поддерживается и обновляется первоначальными разработчиками DjVu с 2002 года. [10]

Спецификация формата файла DjVu претерпела ряд изменений, последняя из которых была выпущена в 2005 году.

Роль в экосистеме программного обеспечения

Формат DjVu в основном использовался для электронного распространения документов, качество которых сравнимо с качеством печатных документов. Поскольку эта ниша также является основным применением PDF, было неизбежно, что эти два формата станут конкурентами. Однако следует отметить, что эти два формата по-разному подходят к проблеме доставки документов с высоким разрешением: PDF преимущественно кодирует графику и текст как векторизованные данные, тогда как DjVu преимущественно кодирует их как растровые изображения. Это означает, что PDF возлагает бремя рендеринга документа на читателя, тогда как DjVu возлагает это бремя на создателя.

В течение ряда лет, во многом совпадающих с периодом разработки DjVu, не существовало средств просмотра PDF-файлов для бесплатных операционных систем — особым камнем преткновения была рендеринг векторизованных шрифтов, которые необходимы для сочетания небольшого размера файла с высоким разрешением в PDF. Поскольку отображение DjVu было более простой задачей, для решения которой было доступно свободное программное обеспечение, были предложения, что движение за свободное программное обеспечение должно использовать DjVu вместо PDF для распространения документации; рендеринг для создания DjVu в принципе мало чем отличается от рендеринга для драйвера принтера для конкретного устройства, и в крайнем случае DjVu можно сгенерировать из сканированных бумажных носителей. Однако, когда в 2000 году FreeType 2.0 начал обеспечивать рендеринг всех основных форматов векторизованных шрифтов, это специфическое преимущество DjVu начало исчезать.

В 2000-х годах, с развитием Всемирной паутины и до широкого распространения широкополосной связи , цифровые библиотеки часто использовали DjVu в качестве предпочтительного формата благодаря его интеграции с таким программным обеспечением, как Greenstone [11] и Internet Archive , [12] ] плагины для браузера, которые обеспечивали расширенные возможности онлайн-просмотра, меньший размер файла для сопоставимого качества сканирований книг и других документов с большим количеством изображений [13], а также поддержку встраивания и поиска полного текста из OCR . [14] [15] Некоторые функции, такие как предварительный просмотр миниатюр, позже были интегрированы в BookReader Интернет-архива [16] , а просмотр DjVu был признан устаревшим в его пользу, поскольку примерно в 2015 году некоторые основные браузеры перестали поддерживать с ними плагины NPAPI и DjVu. [17]

DjVu.js Viewer пытается заменить отсутствующие плагины.

Технический обзор

Структура файла

Формат файла DjVu основан на формате файла Interchange и состоит из иерархически организованных фрагментов. Структуре IFF предшествует 4-байтовое AT&T магическое число . Ниже приведен один FORMфрагмент со вторичным идентификатором либо DJVUдля DJVMодностраничного, либо для многостраничного документа соответственно.

Все фрагменты могут содержаться в одном файле в случае так называемых связанных документов или могут содержаться в нескольких файлах: по одному файлу для каждой страницы плюс несколько файлов с общими фрагментами.

Типы чанков

Сжатие

DjVu делит одно изображение на множество разных изображений, а затем сжимает их по отдельности. Чтобы создать файл DjVu, исходное изображение сначала разделяется на три изображения: фоновое изображение, изображение переднего плана и изображение маски. Изображения фона и переднего плана обычно представляют собой цветные изображения с более низким разрешением (например, 100 точек на дюйм); изображение маски представляет собой двухуровневое изображение высокого разрешения (например, 300 точек на дюйм), и обычно там хранится текст. Затем изображения фона и переднего плана сжимаются с использованием алгоритма сжатия на основе вейвлетов под названием IW44. [4] Изображение маски сжимается с помощью метода JB2 (аналогично JBIG2 ). Метод кодирования JB2 идентифицирует практически идентичные фигуры на странице, например, несколько вхождений определенного символа в заданном шрифте, стиле и размере. Он сжимает растровое изображение каждой уникальной фигуры отдельно, а затем кодирует места, где каждая фигура появляется на странице. Таким образом, вместо многократного сжатия буквы «е» в данном шрифте он сжимает букву «е» один раз (как сжатое битовое изображение), а затем записывает каждое место на странице, где она встречается.

При желании эти фигуры можно сопоставить с кодами UTF-8 (вручную или, возможно, с помощью системы распознавания текста ) и сохранить в файле DjVu. Если такое сопоставление существует, можно выделить и скопировать текст.

Поскольку JB2 (также называемый DjVuBitonal) является разновидностью JBIG2, работающей по тем же принципам, [18] оба метода сжатия имеют одинаковые проблемы при выполнении сжатия с потерями. В 2013 году выяснилось, что копировальные аппараты и сканеры Xerox заменяли цифры на похожие по внешнему виду цифры, например, заменяя 6 на 8. [ 19] В дикой природе был замечен документ DjVu с заменами символов, например буквой n с кровоточащими засечками. превращается в au и о с точкой внутри, превращающейся в е. [20] В файле не сохраняется информация о том, произошло ли сжатие с потерями. [1] Таким образом, приложение просмотра DjView не может предупредить пользователя о возможной замене глифов ни при открытии файла, сжатого с потерями, ни в диалоговых окнах «Информация» или «Метаданные». [21]

Лицензирование формата

DjVu — открытый формат файлов , запатентованный. [3] Опубликована спецификация формата файла, а также исходный код справочной библиотеки. [3] Оригинальные авторы распространяют реализацию с открытым исходным кодом под названием « DjVuLibre » под лицензией GNU General Public License . Права на коммерческую разработку программного обеспечения для кодирования на протяжении многих лет передавались различным компаниям, включая AT&T Corporation , LizardTech , [22] Celartem [23] и Cuminas . [24]

Celartem приобрела LizardTech и Extensis. [25] [26] [23] [27] [28]

Поддерживать

Выбор загружаемых программ просмотра DjVu в дистрибутивах Linux шире , чем в Windows или Mac OS. Кроме того, этот формат редко поддерживается проприетарным программным обеспечением для сканирования.

В 2002 году формат файла DjVu был выбран Интернет -архивом в качестве формата, в котором его проект «Миллион книг» предоставляет онлайн -сканированные общедоступные книги (наряду с TIFF и PDF). [29] В феврале 2016 года Интернет-архив объявил, что DjVu больше не будет использоваться для новых загрузок, среди других причин, сославшись на снижение использования формата и сложность поддержки программы просмотра этого формата на основе Java-апплетов . [17]

Wikimedia Commons , медиа-репозиторий, используемый, среди прочего, Википедией , условно разрешает медиафайлы в формате PDF и DjVu. [30]

Смотрите также

Рекомендации

  1. ^ abcdefghi «Справочник Lizardtech DjVu» (PDF) . Cuminas.jp . п. 25 . Проверено 7 декабря 2021 г.
  2. ^ ab «DjVu.org - главное меню ресурсов djvu». djvu.org . Проверено 2 июля 2017 г.
  3. ^ abc «Что такое DjVu - DjVu.org». DjVu.org. Архивировано из оригинала 21 января 2019 г. Проверено 5 марта 2009 г.
  4. ^ abc Леон Ботту; Патрик Хаффнер; Пол Г. Ховард; Патрис Симар; Йошуа Бенджио; Янн Ле Кун (1998). «Высококачественное сжатие изображений документов с помощью DjVu, 7 (3): 410–425» (PDF) . Журнал электронных изображений .
  5. ^ Средство просмотра документов, достаточно безопасно, 4 апреля 2022 г. , получено 9 апреля 2022 г.
  6. ^ «ISO 32000-1:2008. Управление документами. Портативный формат документов. Часть 1: PDF 1.7». Исо.орг . 01 июля 2008 г. Проверено 21 февраля 2010 г.
  7. ^ Орион, Иган (5 декабря 2007 г.). «PDF 1.7 одобрен как ISO 32000». Спрашивающий . Острые СМИ . Архивировано из оригинала 13 декабря 2007 года . Проверено 5 декабря 2007 г.
  8. Брюстер Кале (16 декабря 2004 г.). «Универсальный доступ ко всем знаниям» (Аудио; Выступление в 1:31:20) . Разговорная сеть.
  9. ^ «LizardTech откроет исходный код средства просмотра Java DjVu» . Подключение ЕСМ . 7 декабря 2004 г. Проверено 18 августа 2017 г.
  10. ^ «DjVuLibre: библиотека и программа просмотра DjVu с открытым исходным кодом» . djvu.sourceforge.net .
  11. ^ "nzdl:проекты - Гринстоун" . Wiki.greenstone.org . Проверено 7 декабря 2021 г.
  12. ^ Эрик Рамси (05 сентября 2018 г.). «Google Книги против DjVu в Интернет-архиве». Блог.libuiowa.edu . Архивировано из оригинала 22 августа 2018 г. Проверено 21 августа 2018 г.
  13. ^ Эрик Рамси (10 сентября 2018 г.). «Опять DjVu». Блог.libuiowa.edu .
  14. ^ Джефф Каплан (9 декабря 2004 г.). "Новая коллекция книг: цветные сканы, djvu, немного pdf" (PDF) . Блог.archive.org .
  15. ^ Януш С. Бень (12 сентября 2011 г.). «Эффективный поиск по скрытому тексту больших документов DjVu». Передовые языковые технологии для электронных библиотек (PDF) . Конспекты лекций по информатике. Том. 6699. стр. 1–14. дои : 10.1007/978-3-642-23160-5_1. ISBN 978-3-642-23159-9. S2CID  3095526.
  16. ^ Эрик Рамси (10 сентября 2010 г.). «Просмотр миниатюр BookReader Интернет-архива» . Блог.libuiowa.edu .
  17. ^ аб Брюстер Кале ; Джефф Каплан (26 февраля 2016 г.). «Файлы DjVu для новых загрузок». Архив.орг .
  18. ^ Артем Михеев, Люк Винсент, Майк Гаврилич и Леон Ботту: Публикация электронных документов с использованием DjVu
  19. ^ Более подробную информацию и ссылки см. в статье JBIG2 .
  20. ^ «Этот документ вызвал у меня изрядное смятение при его расшифровке на сайте... | Hacker News» . News.ycombinator.com . Проверено 7 декабря 2021 г.
  21. ^ "DjVuLibre". SourceForge.net . Проверено 7 декабря 2021 г.
  22. ^ Расширение. «Компания – О компании – LizardTech». Lizardtech.com .
  23. ^ ab «Celartem, Inc.: Информация о частной компании – Bloomberg». Bloomberg.com .
  24. ^ "会社情報 - Корпорация Cuminas" . Cuminas.jp . Архивировано из оригинала 15 января 2018 г. Проверено 14 января 2018 г.
  25. ^ «Обзор компании – Celartem Technology, Inc» . Celartem.com . Архивировано из оригинала 27 мая 2019 года . Проверено 7 декабря 2021 г.
  26. ^ «Celartem Technology объявляет о слиянии холдингов США - Extensis.com» . Архивировано из оригинала 15 января 2018 г. Проверено 14 января 2018 г.
  27. ^ «Celartem Technology Inc.: Информация о частной компании - Bloomberg» . Bloomberg.com .
  28. ^ «Celartem продает плагины и расширения Extensis и LizardTech для программного обеспечения onOne - Большая картина - Широкоформатная печать» . bigpicture.net .
  29. ^ «Форматы файлов изображений - OLPC» . Wiki.laptop.org . Проверено 9 сентября 2008 г.
  30. ^ Викисклад. Объем проекта: PDF и DjVu.

Внешние ссылки