Оптическое распознавание символов

Видео процесса сканирования и оптического распознавания символов (OCR) в реальном времени портативным сканером

Оптическое распознавание символов или оптическое считывание символов ( OCR ) — это электронное или механическое преобразование изображений напечатанного, рукописного или печатного текста в текст, закодированный машиной, будь то из отсканированного документа, фотографии документа, фотографии сцены (например, текст на вывесках и рекламных щитах на пейзажной фотографии) или из текста субтитров, наложенного на изображение (например: из телевизионной передачи). ^[1]

Широко используемый в качестве формы ввода данных из печатных бумажных записей данных – будь то паспортные документы, счета-фактуры, банковские выписки , компьютерные квитанции, визитные карточки, почта, распечатанные данные или любая подходящая документация – это распространенный метод оцифровки печатных текстов, чтобы их можно редактировать в электронном виде, искать, хранить в более компактном виде, отображать в Интернете и использовать в машинных процессах, таких как когнитивные вычисления , машинный перевод , (извлечение) преобразования текста в речь , ключевые данные и интеллектуальный анализ текста . OCR — это область исследований в области распознавания образов , искусственного интеллекта и компьютерного зрения .

Ранние версии нужно было обучать изображениям каждого символа и работать над одним шрифтом за раз. Усовершенствованные системы, способные обеспечить высокую степень точности для большинства шрифтов, теперь стали обычным явлением и поддерживают различные входные форматы файлов изображений . ^[2] Некоторые системы способны воспроизводить форматированный вывод, который очень похож на исходную страницу, включая изображения, столбцы и другие нетекстовые компоненты.

История

Раннее оптическое распознавание символов можно отнести к технологиям телеграфии и созданию устройств чтения для слепых. ^[3] В 1914 году Эмануэль Гольдберг разработал машину, которая считывала символы и преобразовывала их в стандартный телеграфный код. ^[4] Одновременно Эдмунд Фурнье д'Альб разработал « Оптофон» — портативный сканер, который при перемещении по печатной странице воспроизводил звуки, соответствующие определенным буквам или символам. ^[5]

В конце 1920-х и начале 1930-х годов Эмануэль Гольдберг разработал то, что он назвал «статистической машиной» для поиска в архивах микрофильмов с использованием системы распознавания оптического кода. В 1931 году ему был выдан патент США № 1838389 на изобретение. Патент был приобретен IBM .

Пользователи с нарушениями зрения

В 1974 году Рэй Курцвейл основал компанию Kurzweil Computer Products, Inc. и продолжил разработку системы оптического распознавания символов омнишрифтов , которая могла распознавать текст, напечатанный практически любым шрифтом. (Курцвейлу часто приписывают изобретение универсального оптического распознавания шрифтов, но оно использовалось такими компаниями, как CompuScan, в конце 1960-х и 1970-х годах. ^[3]^[6] ). Курцвейл использовал эту технологию для создания читающей машины для слепых людей, попросите компьютер прочитать им текст вслух. Устройство включало в себя планшетный сканер CCD -типа и синтезатор речи. 13 января 1976 года готовый продукт был представлен во время широко освещаемой пресс-конференции, возглавляемой Курцвейлом и лидерами Национальной федерации слепых . ^[^{нужна цитата}^] В 1978 году компания Kurzweil Computer Products начала продавать коммерческую версию компьютерной программы оптического распознавания символов. LexisNexis была одним из первых клиентов и купила программу для загрузки юридических документов и новостных документов в свои зарождающиеся онлайн-базы данных. Два года спустя Курцвейл продал свою компанию компании Xerox , которая в конечном итоге выделила ее в Scansoft , которая объединилась с Nuance Communications .

В 2000-х годах OCR стало доступно онлайн как услуга (WebOCR), в среде облачных вычислений и в мобильных приложениях, таких как перевод знаков на иностранный язык в реальном времени на смартфоне . С появлением смартфонов и умных очков OCR можно использовать в приложениях для мобильных устройств, подключенных к Интернету, которые извлекают текст, записанный с помощью камеры устройства. Эти устройства, не имеющие встроенной функции OCR, обычно используют API OCR для извлечения текста из файла изображения, захваченного устройством. ^[7]^[8] API OCR возвращает извлеченный текст вместе с информацией о местонахождении обнаруженного текста в исходном изображении обратно в приложение устройства для дальнейшей обработки (например, преобразования текста в речь) или отображения.

Различные коммерческие системы оптического распознавания символов и системы оптического распознавания символов с открытым исходным кодом доступны для наиболее распространенных систем письма , включая латинские, кириллические, арабские, ивритские, индийские, бенгальские (бангла), деванагари, тамильские, китайские, японские и корейские символы.

Приложения

Механизмы оптического распознавания символов были преобразованы в программные приложения, специализирующиеся на различных предметах, таких как квитанции, счета-фактуры, чеки и юридические платежные документы.

Программное обеспечение можно использовать для:

Ввод данных для деловых документов, например , чеков , паспортов, счетов-фактур, банковских выписок и квитанций.
Автоматическое распознавание номерного знака
Распознавание паспортов и извлечение информации в аэропортах
^{Автоматическое} извлечение ключевой информации из ^{страховых}^{документов}
Распознавание дорожных знаков ^[9]
Извлечение информации визитной карточки в список контактов ^[10]
Создание текстовых версий печатных документов, например сканирование книг для Project Gutenberg.
Создание электронных изображений печатных документов с возможностью поиска, например Google Книги.
Преобразование рукописного ввода в режиме реального времени для управления компьютером ( перьевые вычисления )
Победа или проверка надежности систем защиты от ботов CAPTCHA , хотя они специально разработаны для предотвращения распознавания текста. ^[11]^[12]^[13]
Вспомогательные технологии для слепых и слабовидящих пользователей
Написание инструкций для транспортных средств путем идентификации изображений САПР в базе данных, соответствующих конструкции транспортного средства по мере ее изменения в реальном времени.
Обеспечение возможности поиска по отсканированным документам путем преобразования их в PDF-файлы.

Типы

Оптическое распознавание символов (OCR) – предназначено для машинописного текста, по одному глифу или символу за раз.
Оптическое распознавание слов – нацелено на машинописный текст, по одному слову (для языков, в которых в качестве разделителя слов используется пробел ). Обычно называется просто «OCR».
Интеллектуальное распознавание символов (ICR) – также предназначено для рукописного текста или рукописного текста по одному глифу или символу за раз, обычно с использованием машинного обучения .
Интеллектуальное распознавание слов (IWR) – также предназначено для рукописного текста или рукописного текста, по одному слову за раз. Это особенно полезно для языков, в которых глифы не разделены курсивом.

OCR обычно представляет собой автономный процесс, который анализирует статический документ. Существуют облачные сервисы, которые предоставляют онлайн-сервис API OCR. Анализ движений рукописного текста можно использовать в качестве входных данных для распознавания рукописного текста . ^[14] Вместо простого использования форм глифов и слов этот метод способен фиксировать движение, например, порядок рисования сегментов , направление и схему опускания и поднятия пера. Эта дополнительная информация может сделать процесс более точным. Эта технология также известна как «онлайн-распознавание символов», «динамическое распознавание символов», «распознавание символов в реальном времени» и «интеллектуальное распознавание символов».

Техники

Предварительная обработка

Программное обеспечение OCR часто предварительно обрабатывает изображения, чтобы повысить шансы на успешное распознавание. Методы включают: ^[15]

Исправление перекоса – если документ не был выровнен должным образом при сканировании, возможно, его придется наклонить на несколько градусов по часовой стрелке или против часовой стрелки, чтобы строки текста были идеально горизонтальными или вертикальными.
Деспекллинг – удаление положительных и отрицательных пятен, сглаживание краев.
Бинаризация – преобразование изображения из цветного или оттенка серого в черно-белое (называемое бинарным изображением , поскольку имеется два цвета). Задача выполняется простым способом отделения текста (или любого другого желаемого компонента изображения) от фона. ^[16] Задача бинаризации необходима, поскольку большинство коммерческих алгоритмов распознавания работают только с двоичными изображениями, поскольку это проще сделать. ^[17] Кроме того, эффективность бинаризации в значительной степени влияет на качество распознавания символов, поэтому при выборе бинаризации, используемой для данного типа входного изображения, принимаются осторожные решения; поскольку качество метода, используемого для получения двоичного результата, зависит от типа изображения (сканированный документ, изображение текста сцены , испорченный исторический документ и т. д.). ^[18]^[19]
Удаление линий – очистка прямоугольников и линий, не содержащих глифов.
Анализ макета или зонирование. Идентификация столбцов, абзацев, заголовков и т. д. как отдельных блоков. Особенно важно в макетах и таблицах с несколькими столбцами .
Обнаружение линий и слов — определение базовой линии для форм слов и символов, при необходимости разделение слов.
Распознавание сценария. В многоязычных документах сценарий может меняться на уровне слов, и, следовательно, необходима идентификация сценария, прежде чем можно будет вызвать правильное распознавание текста для обработки конкретного сценария. ^[20]
Изоляция или сегментация символов. Для посимвольного распознавания символов необходимо разделить несколько символов, связанных из-за артефактов изображения; отдельные символы, разбитые на несколько частей из-за артефактов, должны быть соединены между собой.
Нормализация соотношения сторон и масштаба ^[21]

Сегментация шрифтов с фиксированным шагом выполняется относительно просто путем выравнивания изображения по однородной сетке на основе того, где вертикальные линии сетки реже всего пересекают черные области. Для пропорциональных шрифтов необходимы более сложные методы, поскольку пробелы между буквами иногда могут быть больше, чем между словами, а вертикальные линии могут пересекать более одного символа. ^[22]

Распознавание текста

Существует два основных типа основного алгоритма оптического распознавания символов, которые могут создавать ранжированный список символов-кандидатов. ^[23]

Сопоставление матриц включает в себя сравнение изображения с сохраненным глифом попиксельно; это также известно как сопоставление образов , распознавание образов или корреляция изображений . Это зависит от того, что входной глиф правильно изолирован от остальной части изображения, а сохраненный глиф имеет аналогичный шрифт и тот же масштаб. Этот метод лучше всего работает с машинописным текстом и не работает, когда встречаются новые шрифты. Это метод раннего оптического распознавания символов на основе физических фотоэлементов, реализованный довольно напрямую.
Извлечение признаков разлагает глифы на «объекты», такие как линии, замкнутые контуры, направление линий и пересечения линий. Функции извлечения уменьшают размерность представления и делают процесс распознавания вычислительно эффективным. Эти функции сравниваются с абстрактным векторным представлением символа, которое можно свести к одному или нескольким прототипам глифа. Общие методы обнаружения функций в компьютерном зрении применимы к этому типу оптического распознавания символов, который обычно используется в «интеллектуальном» распознавании рукописного текста и в большинстве современных программ оптического распознавания символов. ^[24] Классификаторы ближайших соседей , такие как алгоритм k-ближайших соседей, используются для сравнения функций изображения с сохраненными функциями глифа и выбора ближайшего совпадения. ^[25]

Такое программное обеспечение, как Cuneiform и Tesseract, использует двухпроходной подход к распознаванию символов. Второй проход известен как адаптивное распознавание и использует формы букв, распознанные с высокой степенью достоверности при первом проходе, чтобы лучше распознавать оставшиеся буквы на втором проходе. Это полезно для необычных шрифтов или сканов низкого качества, где шрифт искажен (например, размыт или выцветший). ^[22]

По состоянию на декабрь 2016 года ^{[обновлять]}современное программное обеспечение для оптического распознавания символов включает Google Docs OCR, ABBYY FineReader и Transym. ^[26]^{[ нужно обновить ]} Другие, такие как OCRopus и Tesseract, используют нейронные сети , которые обучены распознавать целые строки текста, а не концентрироваться на отдельных символах.

Метод, известный как итеративное распознавание текста, автоматически разрезает документ на разделы в зависимости от макета страницы. OCR выполняется для разделов индивидуально с использованием переменных пороговых значений уровня достоверности символов, чтобы максимизировать точность OCR на уровне страницы. На этот метод выдан патент Патентного ведомства США. ^[27]

Результат оптического распознавания символов может быть сохранен в стандартизированном формате ALTO — специальной схеме XML, поддерживаемой Библиотекой Конгресса США . Другие распространенные форматы включают hOCR и PAGE XML.

Список программного обеспечения для оптического распознавания символов см. в разделе Сравнение программного обеспечения для оптического распознавания символов .

Постобработка

Точность оптического распознавания символов можно повысить, если вывод ограничен словарем — списком слов, которые разрешено встречать в документе. ^[15] Это могут быть, например, все слова английского языка или более технический словарь для конкретной области. Этот метод может оказаться проблематичным, если документ содержит слова, отсутствующие в словаре, например имена собственные . Tesseract использует свой словарь, чтобы влиять на этап сегментации символов для повышения точности. ^[22]

Выходной поток может представлять собой простой текстовый поток или файл символов, но более сложные системы оптического распознавания символов могут сохранять исходный макет страницы и создавать, например, аннотированный PDF-файл , который включает в себя как исходное изображение страницы, так и текстовое представление с возможностью поиска. .

Анализ ближайших соседей может использовать частоты совместного появления для исправления ошибок, отмечая, что определенные слова часто встречаются вместе. ^[28] Например, «Вашингтон, округ Колумбия», как правило, гораздо чаще встречается в английском языке, чем «Вашингтон DOC».

Знание грамматики сканируемого языка также может помочь определить, является ли слово глаголом или существительным, например, что обеспечивает большую точность.

Алгоритм расстояния Левенштейна также использовался при постобработке OCR для дальнейшей оптимизации результатов API OCR. ^[29]

Оптимизация для конкретных приложений

В последние годы ^{[ когда? ]} Крупнейшие поставщики технологий оптического распознавания начали настраивать системы оптического распознавания символов для более эффективной работы с конкретными типами входных данных. Помимо лексикона, специфичного для приложения, более высокая производительность может быть достигнута за счет учета бизнес-правил, стандартных выражений, ^{[ необходимо пояснение ]} или богатой информации, содержащейся в цветных изображениях. Эта стратегия называется «Прикладно-ориентированное распознавание текста» или «Настраиваемое распознавание текста» и применяется к распознаванию номерных знаков , счетов-фактур , снимков экрана , удостоверений личности , водительских прав и производства автомобилей .

The New York Times адаптировала технологию оптического распознавания символов в собственный инструмент, который они назвали Document Helper , который позволяет их команде интерактивных новостей ускорить обработку документов, которые необходимо просмотреть. Они отмечают, что это позволяет им обрабатывать до 5400 страниц в час, готовясь к просмотру содержания журналистами. ^[30]

Обходные пути

Существует несколько способов решения проблемы распознавания символов средствами, отличными от усовершенствованных алгоритмов OCR.

Принудительное улучшение ввода

Специальные шрифты, такие как шрифты OCR-A , OCR-B или MICR , с точно заданным размером, интервалом и отличительной формой символов, обеспечивают более высокую точность во время транскрипции при обработке банковских чеков. Несколько известных механизмов оптического распознавания символов были разработаны для захвата текста популярными шрифтами, такими как Arial или Times New Roman, и не способны захватывать текст этими шрифтами, которые являются специализированными и сильно отличаются от широко используемых шрифтов. Поскольку Google Tesseract можно обучить распознаванию новых шрифтов, он может распознавать шрифты OCR-A, OCR-B и MICR. ^[31]

Гребенчатые поля — это предварительно напечатанные поля, которые побуждают людей писать более разборчиво — по одному глифу на поле. ^[28] Они часто печатаются в выпадающих цветах , которые можно легко удалить с помощью системы оптического распознавания символов. ^[28]

В Palm OS использовался специальный набор глифов, известный как Graffiti , которые похожи на печатные английские символы, но упрощены или модифицированы для более легкого распознавания на аппаратном обеспечении платформы с ограниченными вычислительными возможностями. Пользователям придется научиться писать эти специальные символы.

OCR на основе зон ограничивает изображение определенной частью документа. Это часто называют шаблонным распознаванием символов .

Краудсорсинг

Краудсорсинг людей для распознавания символов может быстро обрабатывать изображения, как компьютерное распознавание символов, но с более высокой точностью распознавания изображений, чем то, которое получается с помощью компьютеров. Практические системы включают Amazon Mechanical Turk и reCAPTCHA . Национальная библиотека Финляндии разработала онлайн-интерфейс, позволяющий пользователям корректировать тексты, распознанные OCR, в стандартизированном формате ALTO. ^[32] Краудсорсинг также использовался не для непосредственного распознавания символов, а для приглашения разработчиков программного обеспечения для разработки алгоритмов обработки изображений, например, с помощью турниров по рангу . ^[33]

Точность

По заказу Министерства энергетики США (DOE) Научно-исследовательский институт информатики (ISRI) поставил перед собой задачу способствовать совершенствованию автоматизированных технологий для понимания машинно-печатных документов и с 1992 года провел самый авторитетный ежегодный тест точности оптического распознавания символов. по 1996 год. ^[35]

Распознавание машинописного текста, написанного латиницей , по-прежнему не является на 100% точным, даже если доступно четкое изображение. Одно исследование, основанное на распознавании газетных страниц 19-го и начала 20-го века, пришло к выводу, что точность посимвольного распознавания символов для коммерческого программного обеспечения OCR варьируется от 81% до 99%; ^[36] Полная точность может быть достигнута путем проверки человеком или аутентификации по словарю данных. Другие области, включая распознавание рукописной печати, рукописного письма и печатного текста в других алфавитах (особенно в тех символах восточноазиатских языков, которые содержат много штрихов для одного символа), все еще являются предметом активных исследований. База данных MNIST обычно используется для тестирования способности систем распознавать рукописные цифры.

Уровень точности можно измерить несколькими способами, и то, как они измеряются, может сильно повлиять на сообщаемый уровень точности. Например, если контекст слова (лексикон слов) не используется для исправления программного обеспечения, находящего несуществующие слова, частота ошибок в символах 1% (точность 99%) может привести к частоте ошибок 5% или хуже, если измерение основан на том, было ли распознано каждое целое слово без неправильных букв. ^[37] Использование достаточно большого набора данных важно в решениях для распознавания рукописного текста на основе нейронных сетей. С другой стороны, создание естественных наборов данных очень сложно и требует много времени. ^[38]

Примером трудностей, присущих оцифровке старого текста, является неспособность оптического распознавания символов различать символы « длинный s » и «f». ^[39]^[34]

Веб-системы оптического распознавания символов для распознавания рукописного текста на лету стали широко известны как коммерческие продукты в последние годы ^{[ когда? ]} (см. историю планшетного ПК ). С помощью программного обеспечения для перьевых вычислений можно достичь точности от 80% до 90% на аккуратных, чисто напечатанных от руки символах , но этот уровень точности по-прежнему приводит к десяткам ошибок на странице, что делает эту технологию полезной только в очень ограниченных приложениях. ^{[ нужна цитата ]}

Распознавание рукописного текста является активной областью исследований, причем уровень распознавания даже ниже, чем у рукописного текста . Более высокие показатели распознавания общего рукописного письма, скорее всего, будут невозможны без использования контекстной или грамматической информации. Например, распознавать целые слова из словаря проще, чем пытаться проанализировать отдельные символы из сценария. Чтение строки суммы чека (которая всегда представляет собой записанное число) является примером того, как использование словаря меньшего размера может значительно повысить скорость распознавания. Формы отдельных рукописных символов сами по себе просто не содержат достаточно информации для точного (более 98%) распознавания всей рукописной рукописи. ^{[ нужна цитата ]}

Большинство программ позволяют пользователям устанавливать «уровни доверия». Это означает, что если программное обеспечение не достигает желаемого уровня точности, пользователь может быть уведомлен о необходимости проверки вручную.

Ошибку, возникшую при сканировании OCR, иногда называют сканированием ( по аналогии с термином «опечатка »). ^[40]^[41]

Юникод

Символы для поддержки OCR были добавлены в стандарт Unicode в июне 1993 года с выпуском версии 1.1.

Некоторые из этих символов отображаются из шрифтов, специфичных для MICR , OCR-A или OCR-B .

Смотрите также

Внешние ссылки

На Wikimedia Commons есть средства массовой информации, связанные с оптическим распознаванием символов .

Unicode OCR — шестнадцатеричный диапазон: 2440–245F. Оптическое распознавание символов в Юникоде.
Аннотированная библиография ссылок на распознавание рукописных символов и перьевые вычисления.