stringtranslate.com

Оцифровка газет

Оцифровка газет — это процесс преобразования старых газет из аналоговой формы в цифровые изображения. Наиболее распространенными аналогами старых газет являются бумага и микрофильм. Оцифрованные изображения газетных страниц обычно (хотя и не всегда) анализируются с помощью программного обеспечения OCR для создания текстовых файлов с содержанием газеты. Оцифровка газет представляет собой частный случай оцифровки вообще.

Газеты хранят богатую историю прошлого, и с появлением цифровых медиа многие учреждения по всему миру начали оцифровывать их и делать цифровые файлы общедоступными. Однако в 2015 году более 90% газет остались несканированными. [1] Оцифрованные газеты могут предоставляться бесплатно или за плату. Несколько списков (указанных ниже) пытаются каталогизировать оцифрованные газеты по всему миру.

Успешное сканирование газет — сложная задача. Хотя сканирование с бумаги возможно, сканирование микрофильмов обходится дешевле, а хороший микрофильм называют «единственным наиболее важным фактором успеха оцифровки газет». [2] OCR-анализ отсканированных страниц представляет собой ряд технических проблем, а текст старых газет часто трудно читать, что приводит к ошибкам и усложняет поиск. Еще одним важным шагом является добавление метаданных к изображениям, чтобы их было легче найти. Наконец, необходимо разработать поисковые интерфейсы. Ряд компаний специализируются на сканировании газет, а некоторые производят программное обеспечение, специально разработанное для этого процесса.

Стоимость хранения печатных газет и относительно низкий спрос на оригиналы после микрофильмирования и сканирования означают, что печатные газеты после микрофильмирования или сканирования часто выбрасываются. Некоторые люди считают, что это потеря для исследователей или просто ощущение остроты, когда исчезает опыт чтения статей. Автор Николсон Бейкер зашел так далеко, что создал архив бумажных газет, который он назвал Хранилищем американских газет , чтобы сохранить бумажные газеты, которые в противном случае были бы выброшены.

Более поздние газеты, возможно, были «рождены цифровыми», то есть печатались из компьютерных файлов, а не методом высокой печати или фотонабора. [ нужна цитация ] Их можно заархивировать, сохраняя цифровые файлы издателя с изображением каждой страницы, а не сканируя страницы.

Средства поиска и метапоисковые системы

Смотрите также

Рекомендации

  1. ^ «Состояние искусства»: сравнительный анализ оцифровки газет на сегодняшний день» (PDF) . Центр исследовательских библиотек . 10 апреля 2015 года . Проверено 22 апреля 2024 г.
  2. ^ «Лучшие практики оцифровки газет, глава 4 в книге «Лучшие практики создания цифровых коллекций»». Университет Иллинойса в Урбана-Шампейн . 2010. Архивировано из оригинала 23 мая 2013 года.

Внешние ссылки