Распознавание рукописного ввода ( HWR ), также известное как распознавание рукописного текста ( HTR ), — это способность компьютера получать и интерпретировать понятный рукописный ввод из таких источников, как бумажные документы, фотографии , сенсорные экраны и другие устройства. [1] [2] Изображение написанного текста может быть считано «офлайн» с листа бумаги с помощью оптического сканирования ( оптическое распознавание символов ) или интеллектуального распознавания слов . В качестве альтернативы движения кончика пера могут быть считаны «онлайн», например, с помощью поверхности экрана компьютера с пером, что, как правило, является более простой задачей, поскольку доступно больше подсказок. Система распознавания рукописного ввода обрабатывает форматирование, выполняет правильную сегментацию на символы и находит максимально возможные слова.
Распознавание рукописного текста в автономном режиме включает автоматическое преобразование текста на изображении в коды букв, которые можно использовать в компьютерах и текстовых редакторах. Данные, полученные с помощью этой формы, рассматриваются как статическое представление рукописного текста. Распознавание рукописного текста в автономном режиме сравнительно сложно, поскольку у разных людей разные стили почерка. И на сегодняшний день механизмы OCR в основном ориентированы на машинный печатный текст, а ICR — на рукописный «печатный» (написанный заглавными буквами) текст.
Распознавание символов в автономном режиме часто включает сканирование формы или документа. Это означает, что отдельные символы, содержащиеся в отсканированном изображении, должны быть извлечены. Существуют инструменты, которые способны выполнить этот шаг. [3] Однако на этом шаге есть несколько распространенных недостатков. Наиболее распространенным является то, что связанные символы возвращаются как единое подизображение, содержащее оба символа. Это вызывает серьезную проблему на этапе распознавания. Тем не менее, доступно много алгоритмов, которые снижают риск связанных символов.
После извлечения отдельных символов используется механизм распознавания для идентификации соответствующего компьютерного символа. В настоящее время доступно несколько различных методов распознавания.
Извлечение признаков работает аналогично распознавателям нейронных сетей. Однако программисты должны вручную определять свойства, которые они считают важными. Этот подход дает распознавателю больше контроля над свойствами, используемыми при идентификации. Тем не менее, любая система, использующая этот подход, требует значительно больше времени на разработку, чем нейронная сеть, поскольку свойства не изучаются автоматически.
В то время как традиционные методы фокусируются на сегментации отдельных символов для распознавания, современные методы фокусируются на распознавании всех символов в сегментированной строке текста. В частности, они фокусируются на методах машинного обучения , которые способны изучать визуальные признаки, избегая ограничивающей инженерии признаков, которая использовалась ранее. Современные методы используют сверточные сети для извлечения визуальных признаков из нескольких перекрывающихся окон изображения текстовой строки, которые рекуррентная нейронная сеть использует для создания вероятностей символов. [4]
Онлайн-распознавание рукописного ввода включает автоматическое преобразование текста, написанного на специальном дигитайзере или КПК , где датчик улавливает движения кончика пера, а также переключение пера вверх/вниз. Этот тип данных известен как цифровые чернила и может рассматриваться как цифровое представление рукописного ввода. Полученный сигнал преобразуется в коды букв, которые можно использовать в компьютерах и текстовых редакторах.
Элементы интерфейса распознавания рукописного ввода в Интернете обычно включают в себя:
Процесс распознавания рукописного текста онлайн можно разбить на несколько основных этапов:
Целью предварительной обработки является отбрасывание нерелевантной информации во входных данных, которая может негативно повлиять на распознавание. [5] Это касается скорости и точности. Предварительная обработка обычно состоит из бинаризации, нормализации, выборки, сглаживания и шумоподавления. [6] Второй шаг — извлечение признаков. Из двух- или более размерного векторного поля, полученного от алгоритмов предварительной обработки, извлекаются более многомерные данные. Целью этого шага является выделение важной информации для модели распознавания. Эти данные могут включать такую информацию, как давление пера, скорость или изменение направления письма. Последний большой шаг — классификация. На этом шаге различные модели используются для сопоставления извлеченных признаков с различными классами и, таким образом, идентификации символов или слов, которые представляют признаки.
Коммерческие продукты, включающие распознавание рукописного ввода в качестве замены ввода с клавиатуры, были представлены в начале 1980-х годов. Примерами служат терминалы для рукописного ввода, такие как Pencept Penpad [7] и терминал Inforite point-of-sale. [8] С появлением большого потребительского рынка персональных компьютеров было представлено несколько коммерческих продуктов для замены клавиатуры и мыши на персональном компьютере с единой системой указания/рукописного ввода, например, от Pencept, [9] CIC [10] и других. Первым коммерчески доступным портативным компьютером планшетного типа был GRiDPad от GRiD Systems , выпущенный в сентябре 1989 года. Его операционная система была основана на MS-DOS .
В начале 1990-х годов производители оборудования, включая NCR , IBM и EO, выпустили планшетные компьютеры под управлением операционной системы PenPoint , разработанной GO Corp. PenPoint использовала распознавание рукописного ввода и жестов и предоставляла возможности стороннему программному обеспечению. Планшетный компьютер IBM был первым, использовавшим название ThinkPad и использовавшим распознавание рукописного ввода IBM. Эта система распознавания была позже перенесена в Microsoft Windows для Pen Computing и IBM Pen для OS/2. Ни один из них не имел коммерческого успеха.
Достижения в области электроники позволили вычислительной мощности, необходимой для распознавания рукописного ввода, уместиться в меньший форм-фактор, чем планшетные компьютеры, и распознавание рукописного ввода часто используется в качестве метода ввода для карманных КПК . Первым КПК, обеспечивающим письменный ввод, был Apple Newton , который представил общественности преимущества оптимизированного пользовательского интерфейса. Однако устройство не имело коммерческого успеха из-за ненадежности программного обеспечения, которое пыталось изучить почерк пользователя. К моменту выпуска Newton OS 2.0, в которой распознавание рукописного ввода было значительно улучшено, включая уникальные функции, до сих пор не встречающиеся в современных системах распознавания, такие как немодальное исправление ошибок, первое впечатление было в основном негативным. После прекращения поддержки Apple Newton эта функция была включена в Mac OS X 10.2 и позже как Inkwell .
Palm позже выпустила успешную серию КПК на основе системы распознавания Graffiti . Graffiti улучшила удобство использования, определив набор «unistrokes» или одноштриховых форм для каждого символа. Это сузило возможность ошибочного ввода, хотя запоминание шаблонов штрихов увеличило кривую обучения для пользователя. Распознавание рукописного ввода Graffiti было признано нарушающим патент, принадлежащий Xerox, и Palm заменила Graffiti лицензированной версией распознавания рукописного ввода CIC, которая, хотя и поддерживала одноштриховые формы, предшествовала патенту Xerox. Решение суда о нарушении было отменено по апелляции, а затем снова отменено по более поздней апелляции. Впоследствии вовлеченные стороны договорились об урегулировании этого и других патентов.
Планшетный ПК — это ноутбук с планшетом для оцифровки и стилусом, который позволяет пользователю писать текст от руки на экране устройства. Операционная система распознает почерк и преобразует его в текст. Windows Vista и Windows 7 включают функции персонализации, которые изучают образцы письма пользователя или словарный запас для английского, японского, китайского традиционного, китайского упрощенного и корейского языков. Функции включают «мастер персонализации», который запрашивает образцы почерка пользователя и использует их для переобучения системы для более точного распознавания. Эта система отличается от менее продвинутой системы распознавания рукописного ввода, используемой в ее ОС Windows Mobile для КПК.
Хотя распознавание рукописного ввода является формой ввода, к которой общественность уже привыкла, оно не получило широкого распространения ни на настольных компьютерах, ни на ноутбуках. По-прежнему общепризнанно, что ввод с клавиатуры и быстрее, и надежнее. По состоянию на 2006 год [обновлять]многие КПК предлагают рукописный ввод, иногда даже принимая естественный курсивный почерк, но точность все еще остается проблемой, и некоторые люди по-прежнему считают даже простую экранную клавиатуру более эффективной.
Раннее программное обеспечение могло понимать печатный почерк, где символы были разделены; однако, курсивный почерк со связанными символами представлял собой парадокс Сейра , трудность, связанную с сегментацией символов. В 1962 году Шелия Губерман , тогда жившая в Москве, написала первую прикладную программу распознавания образов. [11] Коммерческие примеры были получены от таких компаний, как Communications Intelligence Corporation и IBM.
В начале 1990-х годов две компании — ParaGraph International и Lexicus — разработали системы, которые могли понимать распознавание рукописного ввода. ParaGraph базировалась в России и была основана ученым-компьютерщиком Степаном Пачиковым, в то время как Lexicus была основана Ронжоном Нагом и Крисом Кортге, которые были студентами Стэнфордского университета. Система ParaGraph CalliGrapher была развернута в системах Apple Newton, а система Lexicus Longhand стала доступна на коммерческой основе для операционных систем PenPoint и Windows. Lexicus была приобретена Motorola в 1993 году и продолжила разработку систем распознавания китайского рукописного ввода и предиктивного ввода текста для Motorola. ParaGraph была приобретена SGI в 1997 году, а ее команда по распознаванию рукописного ввода сформировала подразделение P&I, позже приобретенное у SGI компанией Vadem . Microsoft приобрела технологию распознавания рукописного ввода CalliGrapher и другие технологии цифровых чернил, разработанные P&I, у Vadem в 1999 году.
Wolfram Mathematica (8.0 или более поздняя версия) также предоставляет функцию распознавания рукописного текста или текста TextRecognize.
Распознавание рукописного текста имеет активное сообщество ученых, изучающих его. Крупнейшие конференции по распознаванию рукописного текста — это Международная конференция по рубежам в распознавании рукописного текста (ICFHR), которая проводится в четные годы, и Международная конференция по анализу и распознаванию документов (ICDAR), которая проводится в нечетные годы. Обе эти конференции одобрены IEEE и IAPR . В 2021 году труды ICDAR будут опубликованы LNCS , Springer.
Активные направления исследований включают:
Начиная с 2009 года рекуррентные нейронные сети и глубокие нейронные сети прямого распространения, разработанные исследовательской группой Юргена Шмидхубера в Swiss AI Lab IDSIA, выиграли несколько международных конкурсов по почерку. [13] В частности, двунаправленная и многомерная длинная кратковременная память (LSTM) [14] [15] Алекса Грейвса и др. выиграла три конкурса по связанному распознаванию почерка на Международной конференции по анализу и распознаванию документов (ICDAR) 2009 года, без каких-либо предварительных знаний о трех различных языках (французский, арабский, персидский ), которые нужно было изучить. Недавние методы глубокого обучения на основе графических процессоров для сетей прямого распространения, разработанные Дэном Сиресаном и коллегами в IDSIA, выиграли конкурс по распознаванию почерка на китайском языке ICDAR 2011 года в автономном режиме; Их нейронные сети также стали первыми искусственными распознавателями образов, достигшими производительности, сопоставимой с производительностью человека [16] в знаменитой задаче MNIST о рукописных цифрах [17] Яна Лекуна и его коллег из Нью -Йоркского университета .
Бенджамин Грэм из Уорикского университета выиграл конкурс по распознаванию китайского рукописного текста в 2013 году, допустив всего 2,61% ошибок, используя подход к сверточным нейронным сетям , который к 2017 году превратился в «разреженные сверточные нейронные сети». [18] [19]