Обработка форм

Обработка форм — это процесс, с помощью которого можно захватить информацию, введенную в поля данных, и преобразовать ее в электронный формат. Это можно сделать вручную или автоматически, но общий процесс заключается в том, что данные на бумажном носителе заполняются людьми, а затем «захватываются» из соответствующих полей и вводятся в базу данных или другой электронный формат.

Обзор

В самом широком смысле системы обработки форм могут варьироваться от обработки небольших форм заявлений до крупномасштабных форм опросов с несколькими страницами. Существует несколько распространенных проблем, связанных с обработкой форм вручную. Это множество утомительных человеческих усилий, вводимые пользователем данные могут привести к опечаткам, и многие часы труда являются результатом этого длительного процесса. Если формы обрабатываются с помощью приложений, управляемых компьютерным программным обеспечением, эти распространенные проблемы могут быть решены и в значительной степени минимизированы. Большинство методов обработки форм затрагивают следующие области.

Ручной ввод данных

Этот метод обработки данных предполагает ввод данных, найденных в форме, оператором-человеком. Ручной процесс ввода данных имеет много недостатков в скорости, точности и стоимости. Основываясь на средней скорости профессиональной машинистки от 50 до 80 слов в минуту, ^[1] можно было бы щедро оценить около двухсот страниц в час для форм с пятнадцатью полями из одного слова (не считая времени на чтение и сортировку страниц). Напротив, современные коммерческие сканеры могут сканировать и оцифровывать до 200 страниц в минуту . ^[2] Вторым основным недостатком ручного ввода данных является вероятность опечаток . Если учесть стоимость рабочей силы и рабочего пространства, ручной ввод данных является очень неэффективным процессом.

Автоматизированная обработка форм

Этот метод может автоматизировать обработку данных с помощью предопределенных шаблонов и конфигураций. Шаблон в этом случае будет картой документа, подробно описывающей, где находятся поля данных в форме или документе. По сравнению с ручным процессом ввода данных, системы автоматического ввода форм предпочтительнее, поскольку они помогают уменьшить проблемы, возникающие при ручной обработке данных.

Системы автоматического ввода форм используют различные типы методов распознавания, такие как оптическое распознавание символов (OCR) для машинной печати, оптическое считывание меток (OMR) для полей маркировки/отметки, распознавание штрихкодов (BCR) для штрихкодов и интеллектуальное распознавание символов (ICR) для рукописной печати.

Благодаря технологии автоматизированной системы обработки форм пользователи могут преобразовывать документы из отсканированных изображений в формат, удобный для чтения компьютером, такой как ANSI, XML, CSV, PDF, или вводить их непосредственно в базу данных.

Обработка форм вышла за рамки простого сбора данных. Обработка форм не только охватывает процесс распознавания, но и помогает управлять полным жизненным циклом документов, который начинается со сканирования документа и заканчивается извлечением данных, а часто и доставкой в бэкэнд-систему. В некоторых случаях она может также включать обработку или генерацию хорошо отформатированных результатов посредством вычислений и анализа. Автоматизированная система обработки форм может быть ценной, если необходимо обрабатывать сотни или тысячи изображений каждый день.

Первый шаг: Оценка структуры формы

Первым шагом в понимании автоматизированной обработки форм является анализ типа формы, из которой требуется извлечение данных. Формы можно классифицировать как одну из двух категорий высокого уровня с целью извлечения данных. Было предложено четыре категории ^[3] , однако отрасль захвата документов остановилась на этих двух:

Фиксированные формы. Этот тип формы определяется как тот, в котором данные, которые необходимо извлечь, всегда находятся в одной и той же абсолютной позиции на странице. Это позволяет применять тип сетки линз к документу и каждому последующему появлению этого документа для извлечения данных. Примером фиксированной формы является типичная форма заявки на кредит. ^[4]
Полуструктурированная (или неструктурированная) форма. Это форма, в которой расположение данных и полей, содержащих данные, варьируется от документа к документу. Этот тип документа, пожалуй, проще всего определить по тому факту, что это не фиксированная форма. В индустрии ввода документов полуструктурированная форма также называется неструктурированной формой. Примерами таких типов форм являются письма, контракты и счета-фактуры. Согласно исследованию AIIM, около 80% документов в организации подпадают под полуструктурированное определение. ^[5]

Хотя компоненты (описанные ниже), используемые для извлечения данных из форм любого типа, одни и те же, способ их применения существенно различается в зависимости от типа документа.

Компоненты

Различные компоненты, входящие в обработку данных с использованием системы автоматического ввода форм, включают:

OCR – Оптическое распознавание символов
OMR – Оптическое распознавание меток
ICR – Интеллектуальное распознавание символов
BCR – Распознавание штрих-кода
MICR – Распознавание символов с помощью магнитных чернил

OCR распознает машинно напечатанные заглавные и строчные буквы, цифры, символы с диакритическими знаками, многие символы валют , цифры, арифметические символы, расширенные знаки пунктуации и многое другое.

ICR распознает рукописные символы американского и европейского английского языка, используя предопределенные наборы символов: заглавные, строчные, смешанные буквенные символы, цифры, символы валюты (включая $ (доллар), ¢ (цент), € (евро), £ (фунт), ¥ (йена)), арифметические и пунктуационные символы (включая точку, запятую, одинарные кавычки , двойные кавычки, ! & ( ) ? @ { } \ # % * + – / : ; < = >)

MICR — это технология распознавания, облегчающая обработку шрифтов MICR чеков. Это сводит к минимуму вероятность ошибок при клиринге чеков. Она также полезна для более легкого и быстрого перевода средств. MICR обеспечивает безопасный, высокоскоростной метод сканирования и обработки информации.

Оптическое распознавание меток (OMR) идентифицирует заполненные вручную пузырьки или флажки на печатных формах. Обычно OMR поддерживает распознавание одиночных и множественных меток. Поля для распознавания могут быть указаны как сетки (строки по столбцам) или отдельные пузырьки.

Barcode Recognition может считывать более 20 промышленных 1D и 2D штрихкодов, включая Code39, CODABAR, Interleaved 2 of 5 , Code93 и другие. Он автоматически обнаруживает все штрихкоды на изображении или в указанной области внутри изображения.

Процесс

Процесс автоматизированной обработки форм обычно включает следующие этапы:

Партия заполненных форм сканируется с помощью высокоскоростного сканера.
Изображения очищаются с помощью алгоритмов обработки изображений документов для повышения точности.
Формы классифицируются на основе исходных шаблонов форм, а поля извлекаются с использованием соответствующих компонентов распознавания.
Поля, которые система пометила как имеющие низкую достоверность, ставятся в очередь на проверку оператором-человеком.
Проверенные данные сохраняются в базе данных или экспортируются в текстовый формат с возможностью поиска, такой как CSV, XML или PDF.

Предпосылки

Хотя автоматизированная обработка форм имеет много больших преимуществ по сравнению с ручным вводом данных, она все еще имеет некоторые ограничения. Для достижения максимальной точности следует соблюдать некоторые предварительные условия.

Формат сканирования: включает формат отсканированного файла, разрешение и DPI, цветовой режим.
Конфигурация: Для этой автоматизации необходимо настроить макет отсканированного изображения.
Распознавание: предопределенные форматы вывода
Результат/анализ: любой конкретный формат представления результата сбора данных.

Одним из очень важных соображений является индексация, определяющая метаданные , которые будут использоваться для описания данных, содержащихся в документах. Этот атрибут, возможно, больше, чем любой другой, движет решением по обработке форм.

Внешние ссылки

В Викицитатнике есть цитаты, связанные с обработкой форм .

Отчеты AIIM по исследованию рынка

Ссылки

^ Терезия Р. Острах (1997), Скорость печати: насколько быстрой является средняя скорость (PDF) , архивировано из оригинала (PDF) 2012-05-02
^ "Kodak представляет коммерческий сканер i1860 со скоростью сканирования 200 страниц в минуту". Engadget . Получено 04.11.2011 .
^ Кузнецов, Сергей О.; Мандал, Деба П.; Кунду, Малай К.; Пал, Санкар Кумар (2011-06-25). Распознавание образов и машинный интеллект: 4-я международная конференция, PReMI 2011, Москва, Россия, 27 июня - 1 июля 2011 г., Труды. Springer. ISBN 9783642217869.
^ Васильев, Артур (10 июня 2008 г.). "ЗАХВАТ ПОЛУСТРУКТУРИРОВАННЫХ ФОРМ И ДОКУМЕНТОВ: ПРОБЛЕМЫ И ДОСТУПНЫЕ ТЕХНОЛОГИИ" (PDF) . Архивировано из оригинала (PDF) 2017-04-28 . Получено 4 апреля 2017 г.
^ "Обработка форм — пользовательский опыт распознавания текста и рукописного ввода (OCR/ICR)" (PDF) . Архивировано из оригинала (PDF) 28 апреля 2017 г. . Получено 4 апреля 2017 г. .