Парадокс Сейра

Парадокс Сейра — дилемма, с которой сталкиваются при проектировании автоматизированных систем распознавания рукописного текста . Стандартное утверждение парадокса заключается в том, что написанное курсивом слово не может быть распознано без сегментации и не может быть сегментировано без распознавания. ^[1]^[2] Парадокс был впервые сформулирован в публикации 1973 года Кеннетом М. Сейром , в честь которого он и был назван. ^[3]

Характер проблемы

Относительно легко разработать автоматизированные системы, способные распознавать слова, написанные в печатном формате. Такие слова сегментируются на буквы самим процессом их написания на странице. При наличии шаблонов, соответствующих типичным формам букв в данном языке, отдельные буквы могут быть идентифицированы с высокой степенью вероятности. В случаях неоднозначности вероятные последовательности букв можно сравнить с выбором правильно написанных слов в этом языке (называемым лексиконом ) . ^[4] При необходимости синтаксические особенности языка могут быть применены для предоставления в целом точной идентификации рассматриваемых слов. ^[5] Системы распознавания печатных символов такого рода обычно используются при обработке стандартизированных правительственных форм, при сортировке почты по почтовому индексу и т. д.

Однако в рукописном письме буквы, составляющие данное слово, обычно идут последовательно без пробелов между ними. В отличие от последовательности печатных букв, рукописные соединенные буквы не сегментируются заранее. Вот где вступает в игру парадокс Сейра. Если слово уже не сегментировано на буквы, методы сопоставления с шаблоном, подобные описанным выше, не могут быть применены. То есть сегментация является предпосылкой для распознавания слов. Но нет надежных методов сегментации слова на буквы, если само слово не было идентифицировано. Распознавание слов требует сегментации букв, а сегментация букв требует распознавания слов. Не существует способа, которым система распознавания рукописного письма, использующая стандартные методы сопоставления с шаблоном, могла бы делать и то, и другое одновременно.

Преимущества, которые можно получить при использовании автоматизированных систем распознавания рукописного письма, включают маршрутизацию почты с рукописными адресами, чтение рукописных банковских чеков и автоматическую оцифровку рукописных документов. ^[1] Это практические стимулы для поиска способов обойти парадокс Сейра.

Избегая парадокса

Один из способов смягчения неблагоприятных последствий парадокса — нормализация надписей слов, которые необходимо распознать. Нормализация заключается в устранении особенностей почерка пишущего, таких как необычный наклон букв и необычный наклон курсивной линии. ^[4] Эта процедура может увеличить вероятность правильного совпадения с шаблоном буквы, что приводит к постепенному улучшению успешности системы. Однако, поскольку улучшение такого рода все еще зависит от точной сегментации, оно остается под влиянием ограничений парадокса Сейра. Исследователи пришли к выводу, что единственный способ обойти парадокс — использовать процедуры, которые не полагаются на точную сегментацию. ^[1]

Направления текущих исследований

Сегментация точна в той степени, в которой она соответствует различиям между буквами в фактических надписях, представленных системе для распознавания (входные данные). Иногда это называют «явной сегментацией». ^[4] «Неявная сегментация», напротив, представляет собой разделение курсивной строки на большее количество частей, чем количество фактических букв в самой курсивной строке. Обработка этих «неявных частей» для достижения окончательной идентификации слова требует определенных статистических процедур, включающих скрытые марковские модели (HMM).

Марковская модель — это статистическое представление случайного процесса, то есть процесса, в котором будущие состояния независимы от состояний, происходящих до настоящего. В таком процессе данное состояние зависит только от условной вероятности его следования за состоянием, непосредственно предшествующим ему. Примером может служить ряд результатов последовательных бросков игральной кости. HMM — это марковская модель, отдельные состояния которой полностью не известны. Условные вероятности между состояниями по-прежнему определены, но идентичности отдельных состояний полностью не раскрыты.

Распознавание происходит путем сопоставления HMM слов, которые должны быть распознаны, с ранее подготовленными HMM слов в лексиконе. Наилучшее совпадение в данном случае принимается для указания идентичности рукописного слова в вопросе. Как и в случае с системами, основанными на явной сегментации, автоматизированные системы распознавания, основанные на неявной сегментации, оцениваются более или менее успешными в соответствии с процентом правильных идентификаций, которые они выполняют.

Вместо явных методов сегментации большинство автоматизированных систем распознавания рукописного текста сегодня используют неявную сегментацию в сочетании с процедурами сопоставления на основе HMM. ^[1] Ограничения, выраженные парадоксом Сэйра, в значительной степени ответственны за этот сдвиг в подходе.

Ссылки

^ abcd Винчиарелли, Алессандро (апрель 2003 г.). Офлайн-курсивный почерк: от слова к распознаванию текста (PhD). IDIAP.
^ Фишер, Андреас; Фринкен, Фолькмар; Бунке, Хорст (2013). «Глава 17 — Скрытые марковские модели для распознавания рукописного текста в автономном режиме». В Рао, ЧР ; Говиндараджу, Вену (ред.). Справочник по статистике . Elsevier. стр. 421–442. doi :10.1016/B978-0-444-53859-8.00017-5. ISBN 9780444538598. ISSN 0169-7161.
^ Sayre, Kenneth M. (1973). «Машинное распознавание рукописных слов: отчет о проекте». Pattern Recognition . 5 (3). Pergamon Press: 213–228. Bibcode : 1973PatRe...5..213S. doi : 10.1016/0031-3203(73)90044-7. ISSN 0031-3203.
^ abc Vinciarelli, Alessandro (июль 2002 г.). «Обзор распознавания курсивных слов в автономном режиме». Pattern Recognition . 35 (7): 1433–1446. Bibcode : 2002PatRe..35.1433V. doi : 10.1016/S0031-3203(01)00129-7. ISSN 0031-3203.
^ Маронезе, Андре О.; Куаснон, Бертран; Леметр, Орели (24 января 2011 г.). Агам, Гади; Виар-Годэн, Кристиан (ред.). Введение статистической информации в синтаксический анализатор для распознавания изображений документов. Распознавание и поиск документов XVIII. Том. 7874. ШПИОН. стр. 28–38. дои : 10.1117/12.873393.

Внешние ссылки

Кеннет М. Сейр и Философский институт.