Распознавание почерка

Распознавание рукописного ввода ( HWR ), также известное как распознавание рукописного текста ( HTR ), — это способность компьютера получать и интерпретировать понятный рукописный ввод из таких источников, как бумажные документы, фотографии , сенсорные экраны и другие устройства. ^[1]^[2] Изображение написанного текста может быть считано «офлайн» с листа бумаги с помощью оптического сканирования ( оптическое распознавание символов ) или интеллектуального распознавания слов . В качестве альтернативы движения кончика пера могут быть считаны «онлайн», например, с помощью поверхности экрана компьютера с пером, что, как правило, является более простой задачей, поскольку доступно больше подсказок. Система распознавания рукописного ввода обрабатывает форматирование, выполняет правильную сегментацию на символы и находит наиболее возможные слова.

Оффлайн распознавание

Распознавание рукописного текста в автономном режиме включает автоматическое преобразование текста на изображении в коды букв, которые можно использовать в компьютерах и текстовых редакторах. Данные, полученные с помощью этой формы, рассматриваются как статическое представление рукописного текста. Распознавание рукописного текста в автономном режиме сравнительно сложно, поскольку у разных людей разные стили почерка. И на сегодняшний день механизмы OCR в основном ориентированы на машинный печатный текст, а ICR — на рукописный «печатный» (написанный заглавными буквами) текст.

Традиционные методы

Извлечение символов

Распознавание символов в автономном режиме часто включает сканирование формы или документа. Это означает, что отдельные символы, содержащиеся в отсканированном изображении, должны быть извлечены. Существуют инструменты, которые способны выполнить этот шаг. ^[3] Однако на этом шаге есть несколько распространенных недостатков. Наиболее распространенным является то, что связанные символы возвращаются как единое подизображение, содержащее оба символа. Это вызывает серьезную проблему на этапе распознавания. Тем не менее, доступно много алгоритмов, которые снижают риск связанных символов.

Распознавание символов

После извлечения отдельных символов используется механизм распознавания для идентификации соответствующего компьютерного символа. В настоящее время доступно несколько различных методов распознавания.

Извлечение признаков

Извлечение признаков работает аналогично распознавателям нейронных сетей. Однако программисты должны вручную определять свойства, которые они считают важными. Этот подход дает распознавателю больше контроля над свойствами, используемыми при идентификации. Тем не менее, любая система, использующая этот подход, требует значительно больше времени на разработку, чем нейронная сеть, поскольку свойства не изучаются автоматически.

Современные технологии

В то время как традиционные методы фокусируются на сегментации отдельных символов для распознавания, современные методы фокусируются на распознавании всех символов в сегментированной строке текста. В частности, они фокусируются на методах машинного обучения , которые способны изучать визуальные признаки, избегая ограничивающей инженерии признаков, которая использовалась ранее. Современные методы используют сверточные сети для извлечения визуальных признаков из нескольких перекрывающихся окон изображения текстовой строки, которые рекуррентная нейронная сеть использует для создания вероятностей символов. ^[4]

Онлайн-распознавание

Онлайн-распознавание рукописного ввода включает автоматическое преобразование текста, написанного на специальном дигитайзере или КПК , где датчик улавливает движения кончика пера, а также переключение пера вверх/вниз. Этот тип данных известен как цифровые чернила и может рассматриваться как цифровое представление рукописного ввода. Полученный сигнал преобразуется в коды букв, которые можно использовать в компьютерах и текстовых редакторах.

Элементы интерфейса распознавания рукописного ввода онлайн обычно включают в себя:

ручка или стилус, с помощью которых пользователь может писать
сенсорная поверхность, которая может быть интегрирована с выходным дисплеем или располагаться рядом с ним.
программное приложение, которое интерпретирует движения стилуса по поверхности письма, преобразуя полученные штрихи в цифровой текст.

Процесс распознавания рукописного текста онлайн можно разбить на несколько основных этапов:

предварительная обработка,
извлечение признаков и
классификация

Целью предварительной обработки является отбрасывание нерелевантной информации во входных данных, которая может негативно повлиять на распознавание. ^[5] Это касается скорости и точности. Предварительная обработка обычно состоит из бинаризации, нормализации, выборки, сглаживания и шумоподавления. ^[6] Второй шаг — извлечение признаков. Из двух- или более размерного векторного поля, полученного от алгоритмов предварительной обработки, извлекаются более многомерные данные. Целью этого шага является выделение важной информации для модели распознавания. Эти данные могут включать такую информацию, как давление пера, скорость или изменение направления письма. Последний большой шаг — классификация. На этом шаге различные модели используются для сопоставления извлеченных признаков с различными классами и, таким образом, идентификации символов или слов, которые представляют признаки.

Аппаратное обеспечение

Коммерческие продукты, включающие распознавание рукописного ввода в качестве замены ввода с клавиатуры, были представлены в начале 1980-х годов. Примерами служат терминалы для рукописного ввода, такие как Pencept Penpad ^[7] и терминал Inforite point-of-sale. ^[8] С появлением большого потребительского рынка персональных компьютеров было представлено несколько коммерческих продуктов для замены клавиатуры и мыши на персональном компьютере с единой системой указания/рукописного ввода, например, от Pencept, ^[9] CIC ^[10] и других. Первым коммерчески доступным портативным компьютером планшетного типа был GRiDPad от GRiD Systems , выпущенный в сентябре 1989 года. Его операционная система была основана на MS-DOS .

В начале 1990-х годов производители оборудования, включая NCR , IBM и EO, выпустили планшетные компьютеры под управлением операционной системы PenPoint , разработанной GO Corp. PenPoint использовала распознавание рукописного ввода и жестов и предоставляла возможности стороннему программному обеспечению. Планшетный компьютер IBM был первым, использовавшим название ThinkPad и использовавшим распознавание рукописного ввода IBM. Эта система распознавания была позже перенесена в Microsoft Windows для Pen Computing и IBM Pen для OS/2. Ни один из них не имел коммерческого успеха.

Достижения в области электроники позволили вычислительной мощности, необходимой для распознавания рукописного ввода, уместиться в меньшем форм-факторе, чем планшетные компьютеры, и распознавание рукописного ввода часто используется в качестве метода ввода для карманных КПК . Первым КПК, обеспечивающим письменный ввод, был Apple Newton , который представил общественности преимущества оптимизированного пользовательского интерфейса. Однако устройство не имело коммерческого успеха из-за ненадежности программного обеспечения, которое пыталось изучить почерк пользователя. К моменту выпуска Newton OS 2.0, в которой распознавание рукописного ввода было значительно улучшено, включая уникальные функции, до сих пор не встречающиеся в современных системах распознавания, такие как немодальное исправление ошибок, первое впечатление было в основном негативным. После прекращения поддержки Apple Newton эта функция была включена в Mac OS X 10.2 и позже как Inkwell .

Palm позже выпустила успешную серию КПК на основе системы распознавания Graffiti . Graffiti улучшила удобство использования, определив набор «unistrokes» или одноштриховых форм для каждого символа. Это сузило возможность ошибочного ввода, хотя запоминание шаблонов штрихов увеличило кривую обучения для пользователя. Распознавание рукописного ввода Graffiti было признано нарушающим патент, принадлежащий Xerox, и Palm заменила Graffiti лицензированной версией распознавания рукописного ввода CIC, которая, хотя и поддерживала одноштриховые формы, предшествовала патенту Xerox. Решение суда о нарушении было отменено по апелляции, а затем снова отменено по более поздней апелляции. Впоследствии вовлеченные стороны договорились об урегулировании этого и других патентов.

Планшетный ПК — это ноутбук с планшетом для оцифровки и стилусом, который позволяет пользователю писать текст от руки на экране устройства. Операционная система распознает почерк и преобразует его в текст. Windows Vista и Windows 7 включают функции персонализации, которые изучают образцы письма пользователя или словарный запас для английского, японского, китайского традиционного, китайского упрощенного и корейского языков. Функции включают «мастер персонализации», который запрашивает образцы почерка пользователя и использует их для переобучения системы для более точного распознавания. Эта система отличается от менее продвинутой системы распознавания рукописного ввода, используемой в ОС Windows Mobile для КПК.

Хотя распознавание рукописного ввода является формой ввода, к которой общественность привыкла, оно не получило широкого распространения ни на настольных компьютерах, ни на ноутбуках. По-прежнему общепризнанно, что ввод с клавиатуры и быстрее, и надежнее. По состоянию на 2006 год ^{[обновлять]}многие КПК предлагают рукописный ввод, иногда даже принимая естественный курсивный почерк, но точность все еще остается проблемой, и некоторые люди по-прежнему считают даже простую экранную клавиатуру более эффективной.

Программное обеспечение

Раннее программное обеспечение могло понимать печатный почерк, где символы были разделены; однако, курсивный почерк со связанными символами представлял собой парадокс Сейра , трудность, связанную с сегментацией символов. В 1962 году Шелия Губерман , тогда жившая в Москве, написала первую прикладную программу распознавания образов. ^[11] Коммерческие примеры были получены от таких компаний, как Communications Intelligence Corporation и IBM.

В начале 1990-х годов две компании — ParaGraph International и Lexicus — разработали системы, которые могли понимать распознавание рукописного ввода. ParaGraph базировалась в России и была основана ученым-компьютерщиком Степаном Пачиковым, в то время как Lexicus была основана Ронжоном Нагом и Крисом Кортге, которые были студентами Стэнфордского университета. Система ParaGraph CalliGrapher была развернута в системах Apple Newton, а система Lexicus Longhand стала доступна на коммерческой основе для операционных систем PenPoint и Windows. Lexicus была приобретена Motorola в 1993 году и продолжила разработку систем распознавания китайского рукописного ввода и предиктивного ввода текста для Motorola. ParaGraph была приобретена SGI в 1997 году, а ее команда по распознаванию рукописного ввода сформировала подразделение P&I, позже приобретенное у SGI компанией Vadem . Microsoft приобрела технологию распознавания рукописного ввода CalliGrapher и другие технологии цифровых чернил, разработанные P&I у Vadem в 1999 году.

Wolfram Mathematica (8.0 или более поздняя версия) также предоставляет функцию распознавания рукописного текста или текста TextRecognize.

Исследовать

Распознавание рукописного текста имеет активное сообщество ученых, изучающих его. Крупнейшие конференции по распознаванию рукописного текста — это Международная конференция по рубежам в распознавании рукописного текста (ICFHR), которая проводится в четные годы, и Международная конференция по анализу и распознаванию документов (ICDAR), которая проводится в нечетные годы. Обе эти конференции одобрены IEEE и IAPR . В 2021 году труды ICDAR будут опубликованы LNCS , Springer.

Активные направления исследований включают:

Онлайн-распознавание
Оффлайн распознавание
Проверка подписи
Интерпретация почтового адреса
Обработка банковских чеков
Признание писателя

Результаты с 2009 года

Начиная с 2009 года рекуррентные нейронные сети и глубокие нейронные сети прямого распространения, разработанные исследовательской группой Юргена Шмидхубера в Swiss AI Lab IDSIA, выиграли несколько международных конкурсов по почерку. ^[13] В частности, двунаправленная и многомерная длинная кратковременная память (LSTM) ^[14]^[15] Алекса Грейвса и др. выиграла три конкурса по связанному распознаванию почерка на Международной конференции по анализу и распознаванию документов (ICDAR) 2009 года, без каких-либо предварительных знаний о трех различных языках (французский, арабский, персидский ), которые нужно было изучить. Недавние методы глубокого обучения на основе графических процессоров для сетей прямого распространения, разработанные Дэном Сиресаном и коллегами в IDSIA, выиграли конкурс по распознаванию почерка на китайском языке ICDAR 2011 года в автономном режиме; Их нейронные сети также стали первыми искусственными распознавателями образов, достигшими производительности, сопоставимой с производительностью человека ^[16] в знаменитой задаче MNIST о рукописных цифрах ^[17]Яна Лекуна и его коллег из Нью -Йоркского университета .

Бенджамин Грэм из Уорикского университета выиграл конкурс по распознаванию китайского рукописного текста в 2013 году, допустив всего 2,61% ошибок, используя подход к сверточным нейронным сетям , который к 2017 году превратился в «разреженные сверточные нейронные сети». ^[18]^[19]

Смотрите также

Списки

Ссылки

^ Фёрстнер, Вольфганг (1999). Mustererkennung 1999: 21. Симпозиум DAGM в Бонне, 15–17. Сентябрь 1999 г. Иоахим М. Буманн, Аннетт Фабер, Петко Фабер. Берлин, Гейдельберг: Springer Berlin Heidelberg. ISBN 978-3-642-60243-6. OCLC 913706869.
^ Шенк, Иоахим (2010). Mensch-maschine-kommunikation: grundlagen von sprach- und bildbasierten benutzerschnittstellen. Герхард Риголль. Гейдельберг: Спрингер. ISBN 978-3-642-05457-0. OCLC 609418875.
↑ Java OCR, 5 июня 2010 г. Получено 5 июня 2010 г.
^ Пуигсервер, Джоан. «Действительно ли многомерные рекуррентные слои необходимы для распознавания рукописного текста?». Анализ и распознавание документов (ICDAR), 2017 14-я Международная конференция IAPR. Том 1. IEEE, 2017.
^ Хуан, Б.; Чжан, И. и Кечади, М.; Методы предварительной обработки для распознавания рукописного текста в Интернете. Интеллектуальная категоризация и кластеризация текста , Springer Berlin Heidelberg, 2009, том 164, «Исследования в области вычислительного интеллекта», стр. 25–45.
^ Хольцингер, А.; Стокер, К.; Пайшль, Б. и Симоник, К.-М.; Об использовании энтропии для улучшения предварительной обработки рукописного текста , Entropy 2012, 14, стр. 2324–2350.
^ Pencept Penpad (TM) 200 Литература о продукте, Pencept, Inc., 15 августа 1982 г.
↑ Терминал распознавания рукописных символов Inforite, Cadre Systems Limited, Англия, 15 августа 1982 г.
↑ Руководство пользователя Penpad 320, Pencept, Inc., 15 июня 1984 г.
↑ Handwriter (R) GrafText (TM) System Model GT-5000, Communication Intelligence Corporation, 15 января 1985 г.
^ Губерман — изобретатель технологии распознавания рукописного ввода, используемой сегодня Microsoft в Windows CE. Источник: In-Q-Tel communication, 3 июня 2003 г.
^ SN Srihari и EJ Keubert, «Интеграция технологии интерпретации рукописных адресов в систему удаленного компьютерного считывания почтовой службы США» Труды Международной конференции по анализу и распознаванию документов (ICDAR) 1997, IEEE-CS Press, стр. 892–896
^ Интервью 2012 Kurzweil AI, архивировано 31 августа 2018 г. на Wayback Machine с Юргеном Шмидхубером о восьми соревнованиях, выигранных его командой Deep Learning в 2009–2012 гг.
^ Грейвс, Алекс; и Шмидхубер, Юрген; Распознавание рукописного ввода в автономном режиме с помощью многомерных рекуррентных нейронных сетей , в Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris KI; и Culotta, Aron (ред.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия , Neural Information Processing Systems (NIPS) Foundation, 2009, стр. 545–552
^ A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber . Новая система коннекционизма для улучшенного неограниченного распознавания рукописного текста. Труды IEEE по анализу образов и машинному интеллекту, т. 31, № 5, 2009.
^ DC Ciresan, U. Meier, J. Schmidhuber . Многоколоночные глубокие нейронные сети для классификации изображений. Конференция IEEE по компьютерному зрению и распознаванию образов CVPR 2012.
^ LeCun, Y. , Bottou, L., Bengio, Y., & Haffner, P. (1998). Градиентное обучение, применяемое для распознавания документов. Proc. IEEE, 86, стр. 2278–2324.
^ «Разреженные сети приходят на помощь большой физике». Журнал Quanta . Июнь 2023 г. Получено 17 июня 2023 г.
^ Грэм, Бенджамин. «Пространственно-разреженные сверточные нейронные сети». Препринт arXiv arXiv:1409.6070 (2014).

Внешние ссылки

Аннотированная библиография ссылок на жесты и перьевые вычисления
Заметки об истории перьевых вычислений – видео на YouTube