Сканирование книг или оцифровка книг (также: сканирование журналов или оцифровка журналов ) — это процесс преобразования физических книг и журналов в цифровые носители, такие как изображения , электронный текст или электронные книги (e-books), с помощью сканера изображений . [1] Крупномасштабные проекты по сканированию книг сделали многие книги доступными в Интернете. [2]
Цифровые книги можно легко распространять, воспроизводить и читать на экране . Распространенные форматы файлов: DjVu , Portable Document Format (PDF) и Tag Image File Format (TIFF). Для преобразования необработанных изображений используется оптическое распознавание символов (OCR) [1], которое преобразует страницы книги в цифровой текстовый формат, такой как ASCII или другой подобный формат, что уменьшает размер файла и позволяет переформатировать текст, искать его или обрабатывать другими приложениями. [1]
Сканеры изображений могут быть ручными или автоматизированными. В обычном коммерческом сканере изображений книга помещается на плоскую стеклянную пластину (или стол), а свет и оптическая матрица перемещаются по книге под стеклом. В ручных сканерах книг стеклянная пластина доходит до края сканера, что облегчает выравнивание корешка книги. [1] [2]
Проблема со сканированием переплетенных книг заключается в том, что когда не очень тонкая книга кладется на ровную поверхность, часть страницы, близкая к корешку (переплет), значительно искривляется, искажая текст в этой части сканирования. Одним из решений является разделение книги на отдельные страницы путем разрезания или расплетания. Неразрушающий метод заключается в том, чтобы держать книгу в V-образном держателе и фотографировать ее, а не класть ее на ровную поверхность и сканировать. Таким образом, кривизна в переплете гораздо менее выражена. [3] Страницы можно переворачивать вручную или с помощью автоматизированных устройств для транспортировки бумаги. Прозрачные пластиковые или стеклянные листы обычно прижимают к странице, чтобы сделать ее плоской.
После сканирования программное обеспечение корректирует изображения документа, выравнивая их, обрезая, редактируя изображения и преобразуя их в текст и окончательную форму электронной книги. Корректоры-люди обычно проверяют вывод на наличие ошибок.
Сканирование с разрешением 118 точек/сантиметр ( 300 точек на дюйм ) достаточно для преобразования в цифровой текстовый вывод, но для архивного воспроизведения редких, сложных или иллюстрированных книг используется гораздо более высокое разрешение. [ требуется ссылка ] Высококлассные сканеры, способные сканировать тысячи страниц в час, могут стоить тысячи долларов, но самодельные ручные сканеры книг, способные сканировать 1200 страниц в час, были созданы за 300 долларов США. [4]
Коммерческие сканеры книг не похожи на обычные сканеры ; эти сканеры книг обычно представляют собой высококачественную цифровую камеру с источниками света по обе стороны камеры, установленную на какой-то раме, чтобы обеспечить легкий доступ для человека или машины для перелистывания страниц книги. Некоторые модели включают V-образные книжные колыбели, которые обеспечивают поддержку корешков книг, а также автоматически центрируют положение книги.
Преимущество этого типа сканера в том, что он очень быстрый по сравнению с производительностью подвесных сканеров.
Такие проекты, как Project Gutenberg (основан в 1971 г.), [5] Million Book Project (основан около 2001 г.), Google Books (основан в 2004 г.) и Open Content Alliance (основан в 2005 г.) сканируют книги в больших масштабах. [6] [7]
Одной из главных проблем является огромный объем книг, которые необходимо отсканировать. В 2010 году общее количество работ, представленных в виде книг в истории человечества, оценивалось примерно в 130 миллионов. [8] Все они должны быть отсканированы, а затем сделаны доступными для поиска в Интернете для использования общественностью в качестве универсальной библиотеки . В настоящее время существуют три основных способа, на которые полагаются крупные организации: аутсорсинг, сканирование внутри компании с использованием коммерческих сканеров книг и сканирование внутри компании с использованием роботизированных сканирующих решений.
Что касается аутсорсинга, книги часто отправляются для сканирования недорогими источниками в Индию или Китай . В качестве альтернативы, из-за удобства, безопасности и улучшения технологий, многие организации предпочитают сканировать внутри компании, используя либо проекционные сканеры, которые требуют много времени, либо сканирующие машины на базе цифровой камеры, которые работают значительно быстрее и являются методом, используемым Internet Archive, а также Google. [7] [9] Традиционные методы включают отрезание корешка книги и сканирование страниц в сканере с возможностью автоматической подачи страниц, с последующим переплетом оторванных страниц.
После сканирования страницы данные вводятся вручную или с помощью OCR, что является еще одной значительной статьей расходов при сканировании книг. [ по чьему мнению? ]
Из-за проблем с авторскими правами большинство отсканированных книг — это книги, не защищенные авторскими правами; однако известно, что Google Books сканирует книги, все еще защищенные авторскими правами, если только издатель специально не запрещает это. [6] [7] [9] [10]
Существует множество совместных проектов по оцифровке по всей территории Соединенных Штатов. Два самых ранних проекта были Collaborative Digitization Project в Колорадо и NC ECHO – North Carolina Exploring Cultural Heritage Online, [11] базирующийся в Государственной библиотеке Северной Каролины .
Эти проекты устанавливают и публикуют лучшие практики для оцифровки и работы с региональными партнерами для оцифровки материалов культурного наследия. Дополнительные критерии для лучших практик были недавно установлены в Великобритании, Австралии и Европейском союзе. [12] Wisconsin Heritage Online [13] — это совместный проект оцифровки, смоделированный по образцу Колорадского проекта по совместной оцифровке. Висконсин использует вики [14] для создания и распространения совместной документации. Совместная программа оцифровки Джорджии, Цифровая библиотека Джорджии [15], представляет собой бесшовную виртуальную библиотеку по истории и жизни штата, включающую более сотни цифровых коллекций из 60 учреждений и 100 правительственных агентств. Цифровая библиотека Джорджии — это инициатива GALILEO [16], базирующаяся в библиотеках Университета Джорджии.
В двадцатом веке Музей Хилла и Библиотека рукописей сфотографировали книги в Эфиопии, которые впоследствии были уничтожены в результате политического насилия в 1975 году. С тех пор библиотека работала над фотографированием рукописей в странах Ближнего Востока. [17]
В Южной Азии фонд «Нанакшахи» занимается оцифровкой рукописей письменности гурмукхи .
В Австралии было реализовано множество совместных проектов между Национальной библиотекой Австралии и университетами по улучшению инфраструктуры репозитория, в котором будет храниться оцифрованная информация. [18] Некоторые из этих проектов включают проект ARROW (Австралийские исследовательские репозитории онлайн для всего мира) и проект APSR (Австралийское партнерство по устойчивому репозиторию).
Для сканирования книг с низким бюджетом наименее затратный способ сканирования книги или журнала — это обрезать переплет. Это превращает книгу или журнал в пачку отдельных листов, которые можно загрузить в стандартный автоподатчик документов (АПД) и отсканировать с помощью недорогой и распространенной технологии сканирования. Этот метод не подходит для редких или ценных книг. С этим процессом связаны две технические трудности: первая связана с обрезкой, вторая — со сканированием.
Более точным и менее разрушительным, чем разрезание страниц, является расплетание вручную с использованием подходящих инструментов. Этот метод был успешно применен для десятков тысяч страниц архивной оригинальной бумаги, отсканированной для проекта цифрового архива библиотеки Рязанова из газет, журналов и брошюр, возраст которых варьируется от 50 до 100 лет и более, и часто состоящих из хрупкой, ломкой бумаги. Хотя денежная ценность для некоторых коллекционеров (и для большинства продавцов такого рода материалов) уничтожается расплетанием, во многих случаях это на самом деле значительно способствует сохранению страниц, делая их более доступными для исследователей [1] и менее подверженными повреждению при последующем изучении. Недостатком является то, что несвязанные стопки страниц «распушаются» и, следовательно, больше подвергаются воздействию кислорода в воздухе, что в некоторых случаях может ускорить ухудшение. Эту проблему можно решить, положив на страницы груз после расплетания и поместив их в соответствующие контейнеры. [1]
Ручное расплетание сохранит текст, который попадает в желоба переплета, и, что самое важное, позволяет делать более простые и полные высококачественные сканирования двухстраничного материала, такого как карикатуры в центре, графическое искусство и фотографии в журналах. Цифровой архив The Liberator 1918-1924 на Marxists Internet Archive демонстрирует качество двухстраничных графических сканов, которые стали возможны благодаря аккуратному ручному расплетанию и последующему сканированию.
Методы раскрепления различаются в зависимости от технологии переплета: от простого удаления нескольких скоб до разгибания и удаления гвоздей, а также тщательного сошлифовывания слоев клея на корешке книги до нужной точки с последующим трудоемким удалением веревки, скрепляющей книги.
В некоторых газетах (например, Labor Action 1950-1952) есть колонки в центре разворотных страниц, которые идут поперек страниц. Отрезание части корешка переплетенного тома таких бумаг приведет к потере части этого текста. Даже переиздание Greenwood Reprint этой публикации не смогло сохранить текстовое содержимое этих центральных колонок, отрезав там значительные объемы текста. Только когда переплетенные тома оригинальной газеты были тщательно развязаны, и открытые пары центральных страниц были отсканированы как одна страница на планшетном сканере, содержимое центральной колонки стало доступным в цифровом виде. В качестве альтернативы можно представить две разворотные центральные страницы в виде трех сканов: один для каждой отдельной страницы и один для области размером со страницу, расположенной по центру двух страниц.
Один из способов разрезать стопку из 500–1000 страниц за один проход — использовать гильотинный резак для бумаги , большой стальной стол с бумажными тисками , которые привинчиваются к стопке и надежно фиксируют ее перед резкой. [2] Большое заостренное стальное лезвие, которое движется прямо вниз, разрезает всю длину каждого листа за одну операцию. Рычаг на лезвии позволяет прикладывать к лезвию несколько сотен фунтов силы для быстрой резки за один проход.
Чистый разрез толстой стопки бумаги не может быть сделан традиционным недорогим серповидным шарнирным резаком для бумаги . Эти резаки предназначены только для нескольких листов, при этом до десяти листов являются практическим пределом резки. Большая стопка бумаги создает крутящие силы на шарнире, оттягивая лезвие от режущей кромки на столе. Рез становится менее точным по мере удаления от шарнира, а сила, необходимая для удержания лезвия на режущей кромке, увеличивается по мере удаления от шарнира.
Процесс резки гильотиной со временем затупляет лезвие, требуя его повторной заточки. Бумага с покрытием, такая как гладкая журнальная бумага, затупляет лезвие быстрее, чем обычная книжная бумага, из-за покрытия из каолинитовой глины . Кроме того, удаление переплета всей книги в твердом переплете вызывает чрезмерный износ из-за прорезания жесткого материала подложки обложки. Вместо этого можно снять внешнюю обложку и разрезать только внутренние страницы.
Альтернативный метод расплетания книг — использование настольной пилы. Хотя этот метод потенциально опасен и не оставляет такой же гладкой кромки, как метод гильотинного резака для бумаги, он более доступен для обычного человека. Идеальный метод — зажать книгу между двумя толстыми досками с помощью тяжелых винтов для обеспечения силы зажима. Вся упаковка древесины и книг подается через настольную пилу с использованием направляющей планки в качестве направляющей. Острое мелкозубое лезвие из твердого сплава идеально подходит для получения приемлемого реза. Качество реза зависит от лезвия, скорости подачи, типа бумаги, покрытия бумаги и переплетного материала.
После того как бумага освобождена от корешка, ее можно сканировать по одному листу с помощью планшетного сканера или устройства автоматической подачи документов (АПД).
Страницы с декоративной рифленой кромкой или изогнутые дугой из-за неплоского переплета могут быть затруднительны для сканирования с помощью АПД, поскольку они предназначены для сканирования страниц одинаковой формы и размера, а страницы разного размера или формы могут привести к неправильному сканированию. Рифленые края или изогнутый край можно обрезать гильотинным резцом, чтобы сделать внешние края плоскими и гладкими перед обрезкой переплета.
Мелованная бумага журналов и переплетенных учебников может затруднить захват и направление роликами в АПД по пути прохождения бумаги. АПД, который использует ряд роликов и каналов для переворачивания листов, может застревать или неправильно подавать бумагу при подаче мелованной бумаги. Обычно проблем меньше, если использовать максимально прямой путь прохождения бумаги с небольшим количеством изгибов и кривых. Глина также может со временем стирать бумагу и покрывать липкие ролики захвата, заставляя их неплотно захватывать бумагу. Ролики АПД могут нуждаться в периодической очистке, чтобы предотвратить это проскальзывание.
Журналы могут представлять собой проблему массового сканирования из-за небольших неравномерных листов бумаги в стопке, таких как подписные карточки журналов и развороты. Их необходимо удалить до начала массового сканирования, и они либо сканируются отдельно, если содержат ценный контент, либо просто исключаются из процесса сканирования.
Разработаны программно-управляемые машины и роботы для сканирования книг без необходимости их расплетания, чтобы сохранить как содержимое документа, так и создать цифровой архив изображений его текущего состояния. Эта недавняя тенденция отчасти обусловлена постоянно совершенствующимися технологиями обработки изображений, которые позволяют захватывать высококачественное цифровое архивное изображение с небольшим или нулевым повреждением редкой или хрупкой книги за достаточно короткий промежуток времени.
Первым полностью автоматизированным сканером книг был сканер DL (Digitizing Line), произведенный 4DigitalBooks в Швейцарии. Первая известная установка была в Стэнфордском университете в 2001 году. [19] [20] Сканер получил награду Dow Jones Second-Up в категории Business Applications в 2001 году. [21]
В 2007 году компания TREVENTUS представила автоматизированный книжный сканер с углом раскрытия книги для сканирования 60°. Что является улучшением в области сохранения книг во время сканирования. Компания была награждена премией Европейского Союза "ICT Grand Prize 2007", [22] [23] за разработку ScanRobot. Эта технология также использовалась в проекте массовой оцифровки Баварской государственной библиотеки [24] , где 8900 книг XVI века были оцифрованы за 18 месяцев с использованием трех таких сканеров V-образной формы.
Компания Indus International, Inc, базирующаяся в Уэст-Сейлеме, штат Висконсин , производит сканеры, которые были куплены некоторыми организациями США для таких услуг, как межбиблиотечный абонемент . [25]
Большинство высококлассных коммерческих роботизированных сканеров используют технологию воздуха и всасывания , в то время как некоторые используют более новые подходы, такие как бионические пальцы для перелистывания страниц. Некоторые сканеры используют ультразвуковые или фотоэлектрические датчики для обнаружения двойных страниц и предотвращения пропуска страниц. [1] [2] С сообщениями о машинах, способных сканировать до 2900 страниц в час, [26] роботизированные книжные сканеры специально разработаны для крупномасштабных проектов по оцифровке. [1]
Патент Google 7508978 демонстрирует технологию инфракрасной камеры, которая позволяет обнаруживать и автоматически корректировать трехмерную форму страницы. [27] [28] Исследователи из Токийского университета разработали экспериментальный неразрушающий сканер книг [29] , который включает в себя 3D-сканер поверхности, позволяющий программно выпрямлять изображения изогнутой страницы. Таким образом, книгу или журнал можно сканировать так же быстро, как оператор может перелистывать страницы, около 200 страниц в минуту .
Существуют методы минимизации и исправления искажений в области переплета страниц. [30]