Обработка форм — это процесс, с помощью которого можно захватить информацию, введенную в поля данных, и преобразовать ее в электронный формат. Это можно сделать вручную или автоматически, но общий процесс заключается в том, что данные на бумажном носителе заполняются людьми, а затем «захватываются» из соответствующих полей и вводятся в базу данных или другой электронный формат.
В самом широком смысле системы обработки форм могут варьироваться от обработки небольших форм заявлений до крупномасштабных форм опросов с несколькими страницами. Существует несколько распространенных проблем, связанных с обработкой форм вручную. Это множество утомительных человеческих усилий, вводимые пользователем данные могут привести к опечаткам, и многие часы труда являются результатом этого длительного процесса. Если формы обрабатываются с помощью приложений, управляемых компьютерным программным обеспечением, эти распространенные проблемы могут быть решены и в значительной степени минимизированы. Большинство методов обработки форм затрагивают следующие области.
Этот метод обработки данных предполагает ввод данных, найденных в форме, оператором-человеком. Ручной процесс ввода данных имеет много недостатков в скорости, точности и стоимости. Основываясь на средней скорости профессиональной машинистки от 50 до 80 слов в минуту, [1] можно было бы щедро оценить около двухсот страниц в час для форм с пятнадцатью полями из одного слова (не считая времени на чтение и сортировку страниц). Напротив, современные коммерческие сканеры могут сканировать и оцифровывать до 200 страниц в минуту . [2] Вторым основным недостатком ручного ввода данных является вероятность опечаток . Если учесть стоимость рабочей силы и рабочего пространства, ручной ввод данных является очень неэффективным процессом.
Этот метод может автоматизировать обработку данных с помощью предопределенных шаблонов и конфигураций. Шаблон в этом случае будет картой документа, подробно описывающей, где находятся поля данных в форме или документе. По сравнению с ручным процессом ввода данных, системы автоматического ввода форм предпочтительнее, поскольку они помогают уменьшить проблемы, возникающие при ручной обработке данных.
Системы автоматического ввода форм используют различные типы методов распознавания, такие как оптическое распознавание символов (OCR) для машинной печати, оптическое считывание меток (OMR) для полей маркировки/отметки, распознавание штрихкодов (BCR) для штрихкодов и интеллектуальное распознавание символов (ICR) для рукописной печати.
Благодаря технологии автоматизированной системы обработки форм пользователи могут преобразовывать документы из отсканированных изображений в формат, удобный для чтения компьютером, такой как ANSI, XML, CSV, PDF, или вводить их непосредственно в базу данных.
Обработка форм вышла за рамки простого сбора данных. Обработка форм не только охватывает процесс распознавания, но и помогает управлять полным жизненным циклом документов, который начинается со сканирования документа и заканчивается извлечением данных, а часто и доставкой в бэкэнд-систему. В некоторых случаях она может также включать обработку или генерацию хорошо отформатированных результатов посредством вычислений и анализа. Автоматизированная система обработки форм может быть ценной, если необходимо обрабатывать сотни или тысячи изображений каждый день.
Первым шагом в понимании автоматизированной обработки форм является анализ типа формы, из которой требуется извлечение данных. Формы можно классифицировать как одну из двух категорий высокого уровня с целью извлечения данных. Было предложено четыре категории [3] , однако отрасль захвата документов остановилась на этих двух:
Хотя компоненты (описанные ниже), используемые для извлечения данных из форм любого типа, одни и те же, способ их применения существенно различается в зависимости от типа документа.
Различные компоненты, входящие в обработку данных с использованием системы автоматического ввода форм, включают:
OCR распознает машинно напечатанные заглавные и строчные буквы, цифры, символы с диакритическими знаками, многие символы валют , цифры, арифметические символы, расширенные знаки пунктуации и многое другое.
ICR распознает рукописные символы американского и европейского английского языка, используя предопределенные наборы символов: заглавные, строчные, смешанные буквенные символы, цифры, символы валюты (включая $ (доллар), ¢ (цент), € (евро), £ (фунт), ¥ (йена)), арифметические и пунктуационные символы (включая точку, запятую, одинарные кавычки , двойные кавычки, ! & ( ) ? @ { } \ # % * + – / : ; < = >)
MICR — это технология распознавания, облегчающая обработку шрифтов MICR чеков. Это сводит к минимуму вероятность ошибок при клиринге чеков. Она также полезна для более легкого и быстрого перевода средств. MICR обеспечивает безопасный, высокоскоростной метод сканирования и обработки информации.
Оптическое распознавание меток (OMR) идентифицирует заполненные вручную пузырьки или флажки на печатных формах. Обычно OMR поддерживает распознавание одиночных и множественных меток. Поля для распознавания могут быть указаны как сетки (строки по столбцам) или отдельные пузырьки.
Barcode Recognition может считывать более 20 промышленных 1D и 2D штрихкодов, включая Code39, CODABAR, Interleaved 2 of 5 , Code93 и другие. Он автоматически обнаруживает все штрихкоды на изображении или в указанной области внутри изображения.
Процесс автоматизированной обработки форм обычно включает следующие этапы:
Хотя автоматизированная обработка форм имеет много больших преимуществ по сравнению с ручным вводом данных, она все еще имеет некоторые ограничения. Для достижения максимальной точности следует соблюдать некоторые предварительные условия.
Одним из очень важных соображений является индексация, определяющая метаданные , которые будут использоваться для описания данных, содержащихся в документах. Этот атрибут, возможно, больше, чем любой другой, движет решением по обработке форм.