Обработка документов — это область исследований и набор производственных процессов, направленных на то, чтобы сделать аналоговый документ цифровым. Обработка документов направлена не только на фотографирование или сканирование документа для получения цифрового изображения , но и на то, чтобы сделать его цифрово понятным. Это включает в себя извлечение структуры документа или макета , а затем содержимого, которое может иметь форму текста или изображений. Процесс может включать традиционные алгоритмы компьютерного зрения , сверточные нейронные сети или ручной труд. Рассматриваемые проблемы связаны с семантической сегментацией , обнаружением объектов , оптическим распознаванием символов (OCR) , распознаванием рукописного текста (HTR) и, в более широком смысле, транскрипцией , как автоматической , так и нет. [1] Термин может также включать фазу оцифровки документа с помощью сканера и фазу интерпретации документа, например, с использованием технологий обработки естественного языка (NLP) или классификации изображений . Он применяется во многих промышленных и научных областях для оптимизации административных процессов, обработки почты и оцифровки аналоговых архивов и исторических документов.
Обработка документов изначально была, как и до сих пор в некоторой степени, своего рода работой производственной линии, связанной с обработкой документов , таких как письма и посылки, с целью сортировки, извлечения или массового извлечения данных. Эта работа может выполняться внутри компании или посредством аутсорсинга бизнес-процессов . [2] [3] Обработка документов действительно может включать в себя некоторый вид внешнего ручного труда, например, механический турок .
В качестве примера ручной обработки документов можно привести сравнительно недавний случай, произошедший в 2007 году [4] , когда обработка документов для «миллионов заявлений на получение виз и гражданства» осуществлялась «примерно 1000 контрактных работников», которые «управляли почтой и вводом данных ».
Хотя обработка документов включала ввод данных с клавиатуры задолго до использования компьютерной мыши или компьютерного сканера , в статье 1990 года в The New York Times относительно того, что называлось « безбумажным офисом », говорилось, что «обработка документов начинается со сканера». [5] В этом контексте бывший вице-президент Xerox Пол Страссман высказал критическое мнение, заявив, что компьютеры добавляют, а не уменьшают объем бумаги в офисе. [5] Было сказано, что инженерная и эксплуатационная документация для самолета весит «больше, чем сам самолет» [ необходима ссылка ] .
По мере развития технологий обработка документов перешла к обработке «компонентов документа... как сущностей базы данных». [6]
Технология, называемая автоматической обработкой документов или иногда интеллектуальной обработкой документов (IDP), возникла как особая форма интеллектуальной автоматизации процессов (IPA), объединяющая искусственный интеллект, такой как машинное обучение (ML), обработку естественного языка (NLP) или интеллектуальное распознавание символов (ICE), для извлечения данных из документов нескольких типов. [7] [8] Достижения в области автоматической обработки документов, также называемые интеллектуальной обработкой документов, улучшают способность обрабатывать неструктурированные данные с меньшим количеством исключений и большей скоростью. [9]
Автоматическая обработка документов применяется к целому ряду документов, как структурированных, так и неструктурированных. Например, в мире бизнеса и финансов технологии могут использоваться для обработки бумажных счетов-фактур, форм, заказов на закупку, контрактов и валютных счетов. [10] Финансовые учреждения используют интеллектуальную обработку документов для обработки больших объемов форм, таких как нормативные формы или кредитные документы. ID использует ИИ для извлечения и классификации данных из документов, заменяя ручной ввод данных. [11]
В медицине методы обработки документов были разработаны для облегчения наблюдения за пациентами и упрощения административных процедур, в частности, путем оцифровки медицинских или лабораторных отчетов по анализу. Целью также является стандартизация медицинских баз данных. [12] Алгоритмы также напрямую используются для оказания помощи врачам в медицинской диагностике, например, путем анализа магнитно-резонансных изображений , [13] [14] или микроскопических изображений. [15]
Обработка документов также широко используется в гуманитарных и цифровых гуманитарных науках для извлечения исторических больших данных из архивов или коллекций наследия. Были разработаны специальные подходы для различных источников, включая текстовые документы, такие как газетные архивы, [16] , а также изображения, [17] или карты. [18] [19]
Если с 1980-х годов традиционные алгоритмы компьютерного зрения широко применялись для решения задач обработки документов, [20] [21] то в 2010-х годах их постепенно заменили технологии нейронных сетей. [22] Однако в некоторых секторах традиционные технологии компьютерного зрения все еще используются, иногда в сочетании с нейронными сетями.
Многие технологии поддерживают развитие обработки документов, в частности оптическое распознавание символов (OCR) и распознавание рукописного текста (HTR), которые позволяют автоматически транскрибировать текст. Текстовые сегменты как таковые идентифицируются с помощью алгоритмов обнаружения экземпляров или объектов , которые иногда могут также использоваться для определения структуры документа. Разрешение последней проблемы иногда также использует алгоритмы семантической сегментации .
Эти технологии часто формируют ядро обработки документов. Однако другие алгоритмы могут вмешиваться до или после этих процессов. Действительно, технологии оцифровки документов также задействованы, будь то в форме классического или трехмерного сканирования. [23] Оцифровка 3D-документов может, в частности, прибегать к производным фотограмметрии . Иногда также должны быть разработаны специальные 2D-сканеры для адаптации к размеру документов или по причинам эргономики сканирования. [17] Обработка документов также зависит от цифрового кодирования документов в подходящем формате файла . Кроме того, обработка гетерогенных баз данных может полагаться на технологии классификации изображений .
На другом конце цепи находятся различные алгоритмы завершения изображения, экстраполяции или очистки данных. Для текстовых документов интерпретация может использовать технологии обработки естественного языка (NLP).
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка )