Распознавание речи — междисциплинарная подобласть компьютерной науки и вычислительной лингвистики , которая разрабатывает методологии и технологии, позволяющие распознавать и переводить устную речь в текст с помощью компьютеров. Она также известна как автоматическое распознавание речи ( ASR ), компьютерное распознавание речи или преобразование речи в текст ( STT ). Она объединяет знания и исследования в области компьютерной науки , лингвистики и компьютерной инженерии . Обратный процесс — синтез речи .
Некоторые системы распознавания речи требуют «обучения» (также называемого «регистрацией»), когда отдельный говорящий читает текст или изолированный словарь в систему. Система анализирует конкретный голос человека и использует его для тонкой настройки распознавания речи этого человека, что приводит к повышению точности. Системы, которые не используют обучение, называются «независимыми от говорящего» [1] . Системы, которые используют обучение, называются «зависимыми от говорящего».
Приложения распознавания речи включают голосовые пользовательские интерфейсы , такие как голосовой набор (например, «позвонить домой»), маршрутизация вызовов (например, «Я хотел бы сделать звонок за счет вызываемого абонента»), управление домашней техникой, поиск ключевых слов (например, найти подкаст, где были произнесены определенные слова), простой ввод данных (например, ввод номера кредитной карты), подготовка структурированных документов (например, рентгенологический отчет), определение характеристик говорящего, [2] обработка речи в текст (например, текстовые процессоры или электронные письма ) и самолет (обычно называемый прямым голосовым вводом ). Автоматическая оценка произношения используется в образовании, например, для изучения разговорного языка.
Термин «распознавание голоса» [3] [4] [5] или «идентификация говорящего» [6] [7] [8] относится к идентификации говорящего, а не того, что он говорит. Распознавание говорящего может упростить задачу перевода речи в системах, которые были обучены на голос конкретного человека, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса обеспечения безопасности.
С точки зрения технологий, распознавание речи имеет долгую историю с несколькими волнами крупных инноваций. Совсем недавно эта область выиграла от достижений в области глубокого обучения и больших данных . Достижения подтверждаются не только всплеском научных работ, опубликованных в этой области, но, что более важно, принятием промышленностью по всему миру различных методов глубокого обучения при проектировании и развертывании систем распознавания речи.
Ключевыми областями роста стали: размер словарного запаса, независимость говорящего и скорость обработки информации.
Радж Редди был первым человеком, который занялся непрерывным распознаванием речи, будучи аспирантом Стэнфордского университета в конце 1960-х годов. Предыдущие системы требовали от пользователей делать паузу после каждого слова. Система Редди выдавала голосовые команды для игры в шахматы .
Примерно в это же время советские исследователи изобрели алгоритм динамической временной деформации (DTW) и использовали его для создания распознавателя, способного работать со словарным запасом в 200 слов. [15] DTW обрабатывал речь, разделяя ее на короткие кадры, например, сегменты по 10 мс, и обрабатывая каждый кадр как единое целое. Хотя DTW был заменен более поздними алгоритмами, техника продолжила свое существование. Достижение независимости говорящего оставалось нерешенной задачей в этот период времени.
В конце 1960-х годов Леонард Баум разработал математику цепей Маркова в Институте анализа обороны . Десять лет спустя в CMU студенты Раджа Редди Джеймс Бейкер и Джанет М. Бейкер начали использовать скрытую модель Маркова (СММ) для распознавания речи. [20] Джеймс Бейкер узнал о СММ во время летней работы в Институте анализа обороны во время своего обучения в бакалавриате. [21] Использование СММ позволило исследователям объединить различные источники знаний, такие как акустика, язык и синтаксис, в единую вероятностную модель.
В 1980-х годах также появилась языковая модель n-грамм .
Большая часть прогресса в этой области обязана быстро растущим возможностям компьютеров. В конце программы DARPA в 1976 году лучшим компьютером, доступным исследователям, был PDP-10 с 4 МБ оперативной памяти. [28] На декодирование всего 30 секунд речи могло уйти до 100 минут. [29]
Два практических продукта:
К этому моменту словарный запас типичной коммерческой системы распознавания речи был больше, чем средний человеческий словарный запас. [28] Бывший студент Раджа Редди, Сюэдун Хуан , разработал систему Sphinx-II в CMU. Система Sphinx-II была первой, которая распознавала слитную речь с большим словарным запасом, не зависящую от говорящего, и показала наилучшие результаты в оценке DARPA в 1992 году. Обработка слитной речи с большим словарным запасом стала важной вехой в истории распознавания речи. Хуан продолжил основать группу распознавания речи в Microsoft в 1993 году. Студент Раджа Редди Кай-Фу Ли присоединился к Apple, где в 1992 году он помог разработать прототип речевого интерфейса для компьютера Apple, известного как Casper.
Lernout & Hauspie , бельгийская компания по распознаванию речи, приобрела несколько других компаний, включая Kurzweil Applied Intelligence в 1997 году и Dragon Systems в 2000 году. Речевая технология L&H использовалась в операционной системе Windows XP . L&H была лидером отрасли, пока бухгалтерский скандал не положил конец компании в 2001 году. Речевая технология L&H была куплена ScanSoft, которая стала Nuance в 2005 году. Apple изначально лицензировала программное обеспечение Nuance для предоставления возможности распознавания речи своему цифровому помощнику Siri . [34]
В 2000-х годах DARPA спонсировала две программы распознавания речи: Effective Affordable Reusable Speech-to-Text (EARS) в 2002 году и Global Autonomous Language Exploitation (GALE). В программе EARS участвовали четыре команды: IBM , команда под руководством BBN с LIMSI и Univ. of Pittsburgh , Cambridge University и команда, состоящая из ICSI , SRI и University of Washington . EARS финансировала коллекцию корпуса телефонной речи Switchboard , содержащего 260 часов записанных разговоров более 500 ораторов. [35] Программа GALE была сосредоточена на арабской и мандаринской новостной речи. Первая попытка Google в распознавании речи была предпринята в 2007 году после найма нескольких исследователей из Nuance. [36] Первым продуктом был GOOG-411 , телефонная служба каталогов. Записи GOOG-411 предоставили ценные данные, которые помогли Google улучшить свои системы распознавания. Голосовой поиск Google теперь поддерживается более чем на 30 языках.
В Соединенных Штатах Агентство национальной безопасности использовало тип распознавания речи для обнаружения ключевых слов по крайней мере с 2006 года. [37] Эта технология позволяет аналитикам искать в больших объемах записанных разговоров и изолировать упоминания ключевых слов. Записи могут быть проиндексированы, и аналитики могут выполнять запросы по базе данных, чтобы найти интересующие разговоры. Некоторые правительственные исследовательские программы были сосредоточены на разведывательных приложениях распознавания речи, например, программа EARS DARPA и программа Babel IARPA .
В начале 2000-х годов в распознавании речи все еще доминировали традиционные подходы, такие как скрытые марковские модели в сочетании с искусственными нейронными сетями прямого распространения . [38] Однако сегодня многие аспекты распознавания речи были взяты на себя методом глубокого обучения , называемым Long short-term memory (LSTM), рекуррентной нейронной сетью, опубликованной Зеппом Хохрайтером и Юргеном Шмидхубером в 1997 году. [39] LSTM RNN избегают проблемы исчезающего градиента и могут обучаться задачам «очень глубокого обучения» [40] , которые требуют воспоминаний о событиях, которые произошли тысячи дискретных временных шагов назад, что важно для речи. Около 2007 года LSTM, обученная с помощью Connectionist Temporal Classification (CTC) [41], начала превосходить традиционное распознавание речи в некоторых приложениях. [42] Сообщается, что в 2015 году распознавание речи Google испытало резкий скачок производительности на 49% благодаря обученной с помощью CTC LSTM, которая теперь доступна через Google Voice для всех пользователей смартфонов. [43] Трансформеры , тип нейронной сети, основанный исключительно на «внимании», широко применяются в компьютерном зрении [44] [45] и языковом моделировании, [46] [47] вызвав интерес к адаптации таких моделей к новым областям, включая распознавание речи. [48] [49] [50] В некоторых недавних работах сообщалось о превосходных уровнях производительности при использовании моделей трансформаторов для распознавания речи, но эти модели обычно требуют больших наборов обучающих данных для достижения высоких уровней производительности.
Использование глубоких сетей прямого распространения (нерекуррентных) для акустического моделирования было введено во второй половине 2009 года Джеффри Хинтоном и его студентами из Университета Торонто, а также Ли Дэном [51] и коллегами из Microsoft Research, первоначально в совместной работе Microsoft и Университета Торонто, которая впоследствии была расширена за счет включения IBM и Google (отсюда подзаголовок «Общие взгляды четырех исследовательских групп» в их обзорной статье 2012 года). [52] [53] [54] Руководитель исследовательского отдела Microsoft назвал это нововведение «самым резким изменением точности с 1979 года». [55] В отличие от устойчивых постепенных улучшений последних нескольких десятилетий, применение глубокого обучения снизило частоту ошибок в словах на 30%. [55] Это нововведение было быстро принято во всей области. Исследователи начали использовать методы глубокого обучения также для моделирования языка.
В долгой истории распознавания речи как поверхностная, так и глубокая форма (например, рекуррентные сети) искусственных нейронных сетей исследовались в течение многих лет в 1980-х, 1990-х и несколько лет в 2000-х годах. [56] [57] [58] Но эти методы так и не победили технологию неоднородной внутренней ручной модели смеси Гаусса / скрытой модели Маркова (GMM-HMM), основанную на генеративных моделях речи, обученных дискриминативно. [59] Ряд ключевых трудностей были методологически проанализированы в 1990-х годах, включая уменьшение градиента [60] и слабую временную корреляционную структуру в нейронных предсказательных моделях. [61] [62] Все эти трудности были в дополнение к отсутствию больших обучающих данных и большой вычислительной мощности в эти ранние дни. Большинство исследователей распознавания речи, которые понимали такие барьеры, впоследствии отошли от нейронных сетей, чтобы заняться генеративными подходами моделирования, пока не началось недавнее возрождение глубокого обучения, начавшееся примерно в 2009–2010 годах и преодолевшее все эти трудности. Хинтон и др. и Дэн и др. рассмотрели часть этой недавней истории о том, как их сотрудничество друг с другом, а затем с коллегами из четырех групп (Университет Торонто, Microsoft, Google и IBM) инициировало возрождение приложений глубоких нейронных сетей прямого распространения для распознавания речи. [53] [54] [63] [64]
К началу 2010-х годов распознавание речи , также называемое распознаванием голоса [65] [66] [67], было четко отделено от распознавания говорящего , и независимость говорящего считалась крупным прорывом. До этого системам требовался период «обучения». Рекламный слоган куклы 1987 года гласил: «Наконец-то кукла, которая вас понимает». – несмотря на то, что ее описывали как «которую дети могли бы научить реагировать на свой голос». [12]
В 2017 году исследователи Microsoft достигли исторического человеческого паритета в транскрибировании разговорной телефонной речи в широко используемой задаче Switchboard. Для оптимизации точности распознавания речи использовались несколько моделей глубокого обучения. Сообщалось, что частота ошибок в словах распознавания речи была такой же низкой, как у 4 профессиональных транскрибаторов, работающих вместе над одним и тем же бенчмарком, который финансировался командой IBM Watson speech на той же задаче. [68]
Как акустическое моделирование , так и языковое моделирование являются важными частями современных статистических алгоритмов распознавания речи. Скрытые марковские модели (HMM) широко используются во многих системах. Языковое моделирование также используется во многих других приложениях обработки естественного языка, таких как классификация документов или статистический машинный перевод .
Современные системы распознавания речи общего назначения основаны на скрытых марковских моделях. Это статистические модели, которые выводят последовательность символов или величин. HMM используются в распознавании речи, поскольку речевой сигнал можно рассматривать как кусочно-стационарный сигнал или кратковременный стационарный сигнал. В коротком временном масштабе (например, 10 миллисекунд) речь можно аппроксимировать как стационарный процесс . Речь можно рассматривать как марковскую модель для многих стохастических целей.
Другая причина, по которой HMM популярны, заключается в том, что их можно обучать автоматически, и они просты и вычислительно осуществимы в использовании. В распознавании речи скрытая марковская модель выводит последовательность n -мерных вещественных векторов (где n - небольшое целое число, например, 10), выводя один из них каждые 10 миллисекунд. Векторы будут состоять из кепстральных коэффициентов, которые получаются путем выполнения преобразования Фурье короткого временного окна речи и декорреляции спектра с помощью косинусного преобразования , а затем взятия первых (наиболее значимых) коэффициентов. Скрытая марковская модель будет иметь тенденцию иметь в каждом состоянии статистическое распределение, которое является смесью диагональных ковариационных гауссианов, что даст вероятность для каждого наблюдаемого вектора. Каждое слово или (для более общих систем распознавания речи), каждая фонема , будет иметь различное выходное распределение; скрытая марковская модель для последовательности слов или фонем создается путем конкатенации отдельных обученных скрытых марковских моделей для отдельных слов и фонем.
Выше описаны основные элементы наиболее распространенного подхода к распознаванию речи на основе HMM. Современные системы распознавания речи используют различные комбинации ряда стандартных методов для улучшения результатов по сравнению с базовым подходом, описанным выше. Типичная система с большим словарным запасом потребует зависимости от контекста для фонем ( чтобы фонемы с разным левым и правым контекстом имели разные реализации в качестве состояний HMM); она будет использовать кепстральную нормализацию для нормализации для разных говорящих и условий записи; для дальнейшей нормализации говорящих она может использовать нормализацию длины речевого тракта (VTLN) для нормализации мужчин и женщин и линейную регрессию максимального правдоподобия (MLLR) для более общей адаптации говорящих. Признаки будут иметь так называемые коэффициенты дельта и дельта-дельта для захвата динамики речи и, кроме того, могут использовать гетероскедастический линейный дискриминантный анализ (HLDA); или может пропустить коэффициенты дельта и дельта-дельта и использовать сплайсинг и проекцию на основе LDA, за которой, возможно, последует гетероскедастический линейный дискриминантный анализ или глобальное полусвязанное ковариационное преобразование (также известное как линейное преобразование максимального правдоподобия, или MLLT). Многие системы используют так называемые дискриминационные методы обучения, которые обходятся без чисто статистического подхода к оценке параметров HMM и вместо этого оптимизируют некоторую связанную с классификацией меру обучающих данных. Примерами являются максимальная взаимная информация (MMI), минимальная ошибка классификации (MCE) и минимальная телефонная ошибка (MPE).
Декодирование речи (термин, обозначающий то, что происходит, когда системе предъявляется новое высказывание и она должна вычислить наиболее вероятное исходное предложение), вероятно, будет использовать алгоритм Витерби для поиска наилучшего пути, и здесь есть выбор между динамическим созданием комбинированной скрытой марковской модели, которая включает как акустическую, так и языковую информацию модели, и ее предварительным статическим объединением ( подход конечного состояния преобразователя , или FST).
Возможным улучшением декодирования является сохранение набора хороших кандидатов вместо сохранения только лучшего кандидата и использование лучшей функции оценки (переоценки) для оценки этих хороших кандидатов, чтобы мы могли выбрать лучшего в соответствии с этой уточненной оценкой. Набор кандидатов может храниться либо как список (подход N-лучших списков), либо как подмножество моделей (решетка ) . Переоценка обычно выполняется путем попытки минимизировать риск Байеса [69] (или его приближение). Вместо того, чтобы брать исходное предложение с максимальной вероятностью, мы пытаемся взять предложение, которое минимизирует ожидание заданной функции потерь относительно всех возможных транскрипций (т. е. мы берем предложение, которое минимизирует среднее расстояние до других возможных предложений, взвешенное по их оценочной вероятности). Функция потерь обычно является расстоянием Левенштейна , хотя это могут быть разные расстояния для конкретных задач; набор возможных транскрипций, конечно, обрезается для поддержания управляемости. Эффективные алгоритмы были разработаны для переоценки решеток, представленных в виде взвешенных конечных преобразователей с расстояниями редактирования, представленными в виде конечного преобразователя, проверяющего определенные предположения. [70]
Динамическое искажение времени — это подход, который исторически использовался для распознавания речи, но в настоящее время в значительной степени вытеснен более успешным подходом на основе HMM.
Динамическое временное искажение — это алгоритм для измерения сходства между двумя последовательностями, которые могут различаться по времени или скорости. Например, сходство в моделях ходьбы будет обнаружено, даже если в одном видео человек шел медленно, а в другом — быстрее, или даже если в ходе одного наблюдения наблюдались ускорения и замедления. DTW применялся к видео, аудио и графике — действительно, любые данные, которые можно преобразовать в линейное представление, можно анализировать с помощью DTW.
Хорошо известным применением было автоматическое распознавание речи, чтобы справиться с разной скоростью речи. В общем, это метод, который позволяет компьютеру находить оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями. То есть последовательности «искажаются» нелинейно, чтобы соответствовать друг другу. Этот метод выравнивания последовательностей часто используется в контексте скрытых марковских моделей.
Нейронные сети появились как привлекательный подход к акустическому моделированию в ASR в конце 1980-х годов. С тех пор нейронные сети использовались во многих аспектах распознавания речи, таких как классификация фонем, [71] классификация фонем с помощью многоцелевых эволюционных алгоритмов, [72] распознавание изолированных слов, [73] аудиовизуальное распознавание речи , аудиовизуальное распознавание говорящего и адаптация говорящего.
Нейронные сети делают меньше явных предположений о статистических свойствах признаков, чем HMM, и обладают несколькими качествами, делающими их более привлекательными моделями распознавания для распознавания речи. При использовании для оценки вероятностей сегмента речевого признака нейронные сети допускают дискриминационное обучение естественным и эффективным образом. Однако, несмотря на их эффективность в классификации кратковременных единиц, таких как отдельные фонемы и изолированные слова, [74] ранние нейронные сети редко были успешными для задач непрерывного распознавания из-за их ограниченной способности моделировать временные зависимости.
Одним из подходов к этому ограничению было использование нейронных сетей в качестве предварительной обработки, преобразования признаков или снижения размерности, [75] шага перед распознаванием на основе HMM. Однако совсем недавно LSTM и связанные с ними рекуррентные нейронные сети (RNN), [39] [43] [76] [77] нейронные сети с задержкой по времени (TDNN), [78] и трансформаторы [48] [49] [50] продемонстрировали улучшенную производительность в этой области.
Глубокие нейронные сети и шумоподавляющие автокодировщики [79] также находятся в стадии исследования. Глубокая нейронная сеть прямого распространения (DNN) представляет собой искусственную нейронную сеть с несколькими скрытыми слоями единиц между входными и выходными слоями. [53] Подобно неглубоким нейронным сетям, DNN могут моделировать сложные нелинейные отношения. Архитектуры DNN генерируют композиционные модели, где дополнительные слои позволяют компоновать признаки из нижних слоев, давая огромную способность к обучению и, таким образом, потенциал моделирования сложных шаблонов речевых данных. [80]
Успех DNN в распознавании речи с большим словарным запасом произошел в 2010 году благодаря промышленным исследователям в сотрудничестве с академическими исследователями, где были приняты большие выходные слои DNN на основе зависимых от контекста состояний HMM, построенных с помощью деревьев решений. [81] [82] [83] См. всесторонние обзоры этой разработки и состояния дел по состоянию на октябрь 2014 года в недавней книге Springer от Microsoft Research. [84] См. также связанную с этим предысторию автоматического распознавания речи и влияние различных парадигм машинного обучения, в частности, включая глубокое обучение , в недавних обзорных статьях. [85] [86]
Один из основных принципов глубокого обучения — отказаться от ручной разработки признаков и использовать необработанные признаки. Этот принцип был впервые успешно исследован в архитектуре глубокого автокодировщика на «сырых» спектрограммах или линейных признаках банка фильтров, [87] показав его превосходство над признаками Mel-Cepstral, которые содержат несколько стадий фиксированного преобразования из спектрограмм. Недавно было показано, что истинные «сырые» признаки речи, формы волн, дают превосходные результаты распознавания речи в более крупном масштабе. [88]
С 2014 года наблюдается большой исследовательский интерес к «сквозному» ASR. Традиционные фонетические (т. е. все основанные на HMM модели) подходы требуют отдельных компонентов и обучения для произношения, акустики и языковой модели . Сквозные модели совместно изучают все компоненты распознавателя речи. Это ценно, поскольку упрощает процесс обучения и процесс развертывания. Например, для всех систем на основе HMM требуется языковая модель n-грамм , а типичная языковая модель n-грамм часто занимает несколько гигабайт памяти, что делает их непрактичными для развертывания на мобильных устройствах. [89] Следовательно, современные коммерческие системы ASR от Google и Apple (по состоянию на 2017 год [обновлять]) развертываются в облаке и требуют сетевого подключения, а не локального устройства.
Первая попытка сквозного ASR была сделана с использованием систем на основе Connectionist Temporal Classification (CTC), представленных Алексом Грейвсом из Google DeepMind и Навдипом Джейтли из Университета Торонто в 2014 году. [90] Модель состояла из рекуррентных нейронных сетей и слоя CTC. Совместно модель RNN-CTC изучает произношение и акустическую модель вместе, однако она не способна изучать язык из-за условных независимых предположений, подобных HMM. Следовательно, модели CTC могут напрямую учиться сопоставлять акустику речи с английскими символами, но модели допускают много распространенных ошибок в правописании и должны полагаться на отдельную языковую модель для очистки транскриптов. Позже Baidu расширила работу с чрезвычайно большими наборами данных и продемонстрировала некоторый коммерческий успех в китайском мандаринском и английском языках. [91] В 2016 году Оксфордский университет представил LipNet , [92] первую сквозную модель чтения по губам на уровне предложений, использующую пространственно-временные свертки в сочетании с архитектурой RNN-CTC, превосходящую производительность человеческого уровня в ограниченном наборе грамматических данных. [93] Крупномасштабная архитектура CNN-RNN-CTC была представлена в 2018 году Google DeepMind, достигнув производительности в 6 раз лучше, чем у экспертов-людей. [94] В 2019 году Nvidia запустила две модели CNN-CTC ASR, Jasper и QuarzNet, с общей производительностью WER 3%. [95] [96] Подобно другим приложениям глубокого обучения, трансферное обучение и адаптация домена являются важными стратегиями для повторного использования и расширения возможностей моделей глубокого обучения, особенно из-за высоких затрат на обучение моделей с нуля и небольшого размера доступного корпуса во многих языках и/или определенных доменах. [97] [98] [99]
Альтернативным подходом к моделям на основе CTC являются модели на основе внимания. Модели ASR на основе внимания были одновременно представлены Чаном и др. из Университета Карнеги-Меллона и Google Brain и Багданау и др. из Монреальского университета в 2016 году. [100] [101] Модель под названием «Listen, Attend and Spell» (LAS) буквально «слушает» акустический сигнал, уделяет «внимание» различным частям сигнала и «произносит» транскрипт по одному символу за раз. В отличие от моделей на основе CTC, модели на основе внимания не имеют предположений об условной независимости и могут изучать все компоненты распознавателя речи, включая произношение, акустическую и языковую модель напрямую. Это означает, что во время развертывания нет необходимости носить с собой языковую модель, что делает ее очень практичной для приложений с ограниченной памятью. К концу 2016 года модели на основе внимания добились значительного успеха, включая превосходство над моделями CTC (с внешней языковой моделью или без нее). [102] Различные расширения были предложены после первоначальной модели LAS. Латентные разложения последовательности (LSD) были предложены Университетом Карнеги-Меллона , Массачусетским технологическим институтом и Google Brain для прямого выделения подсловных единиц, которые более естественны, чем английские символы; [103] Оксфордский университет и Google DeepMind расширили LAS до «Watch, Listen, Attend and Spell» (WLAS) для обработки чтения по губам, превосходящего производительность человеческого уровня. [104]
Обычно ручной ввод управления, например, с помощью управления пальцем на рулевом колесе, включает систему распознавания речи, и это сигнализируется водителю с помощью звуковой подсказки. После звуковой подсказки система имеет «окно прослушивания», в течение которого она может принять речевой ввод для распознавания. [ необходима цитата ]
Простые голосовые команды могут использоваться для совершения телефонных звонков, выбора радиостанций или воспроизведения музыки с совместимого смартфона, MP3-плеера или флеш-накопителя с музыкой. Возможности распознавания голоса различаются в зависимости от марки и модели автомобиля. Некоторые из последних [ когда? ] моделей автомобилей предлагают распознавание естественной речи вместо фиксированного набора команд, что позволяет водителю использовать полные предложения и общие фразы. Таким образом, с такими системами пользователю нет необходимости запоминать набор фиксированных командных слов. [ необходима цитата ]
Автоматическая оценка произношения — это использование распознавания речи для проверки правильности произнесенной речи, [105] в отличие от ручной оценки инструктором или наблюдателем. [106] Также называемая проверкой речи, оценкой произношения и оценкой произношения, эта технология в основном применяется в компьютерном обучении произношению (CAPT) в сочетании с компьютерным обучением для компьютерного обучения языку (CALL), исправлением речи или уменьшением акцента . Оценка произношения не определяет неизвестную речь (как при диктовке или автоматической транскрипции ), но вместо этого, зная заранее ожидаемые слова, она пытается проверить правильность произношения учащегося и, в идеале, их понятность слушателям, [107] [108] иногда вместе с часто несущественными просодическими характеристиками, такими как интонация , высота тона , темп , ритм и ударение . [109] Оценка произношения также используется при обучении чтению , например, в таких продуктах, как Microsoft Teams [110] и Amira Learning. [111] Автоматическая оценка произношения также может использоваться для диагностики и лечения нарушений речи, таких как апраксия . [112]
Оценка подлинной разборчивости слушателя имеет важное значение для избежания неточностей из- за смещения акцента , особенно при оценке с высокими ставками; [113] [114] [115] из-за слов с несколькими правильными произношениями; [116] и из-за ошибок кодирования фонем в машиночитаемых словарях произношения. [117] В 2022 году исследователи обнаружили, что некоторые новые системы преобразования речи в текст, основанные на сквозном обучении с подкреплением для преобразования аудиосигналов непосредственно в слова, выдают оценки уверенности слов и фраз, очень тесно коррелирующие с подлинной разборчивостью слушателя. [118] В критериях оценки «общего фонологического контроля» Общеевропейских компетенций владения иностранным языком (CEFR) разборчивость перевешивает формально правильное произношение на всех уровнях. [119]
В секторе здравоохранения распознавание речи может быть реализовано на front-end или back-end процесса медицинской документации. Front-end распознавание речи — это когда поставщик диктует в механизм распознавания речи, распознанные слова отображаются по мере их произнесения, а диктатор отвечает за редактирование и подписание документа. Back-end или отложенное распознавание речи — это когда поставщик диктует в цифровую систему диктовки , голос направляется через машину распознавания речи, а распознанный черновик документа направляется вместе с исходным голосовым файлом в редактор, где черновик редактируется и отчет завершается. Отложенное распознавание речи широко используется в отрасли в настоящее время.
Одной из основных проблем, связанных с использованием распознавания речи в здравоохранении, является то, что Американский закон о восстановлении и реинвестировании 2009 года ( ARRA ) предусматривает существенные финансовые выгоды для врачей, которые используют EMR в соответствии со стандартами «Значимого использования». Эти стандарты требуют, чтобы EMR (теперь чаще называемая Электронной медицинской картой или EHR) поддерживала значительный объем данных. Использование распознавания речи более естественно подходит для создания повествовательного текста в рамках интерпретации рентгенологии/патологии, промежуточных записей или выписных заключений: эргономические преимущества использования распознавания речи для ввода структурированных дискретных данных (например, числовых значений или кодов из списка или контролируемого словаря ) относительно минимальны для зрячих людей, которые могут работать с клавиатурой и мышью.
Более существенной проблемой является то, что большинство EHR не были специально адаптированы для использования возможностей распознавания голоса. Значительная часть взаимодействия врача с EHR включает навигацию по пользовательскому интерфейсу с использованием меню и нажатия клавиш/кнопок и в значительной степени зависит от клавиатуры и мыши: голосовая навигация обеспечивает лишь скромные эргономические преимущества. Напротив, многие высоконастраиваемые системы для рентгенологии или патологической диктовки реализуют голосовые «макросы», где использование определенных фраз — например, «нормальный отчет» — автоматически заполняет большое количество значений по умолчанию и/или генерирует шаблон, который будет меняться в зависимости от типа исследования — например, рентген грудной клетки или желудочно-кишечная контрастная серия для рентгенологической системы.
Длительное использование программного обеспечения для распознавания речи в сочетании с текстовыми процессорами показало преимущества для кратковременного восстановления памяти у пациентов с АВМ мозга , прошедших лечение с помощью резекции . Необходимо провести дополнительные исследования для определения когнитивных преимуществ для лиц, АВМ которых были пролечены с использованием радиологических методов. [ необходима цитата ]
Значительные усилия были направлены в последнее десятилетие на тестирование и оценку распознавания речи в истребителях . Особо следует отметить программу США по распознаванию речи для Advanced Fighter Technology Integration (AFTI) / F-16 ( F-16 VISTA ), программу во Франции для самолетов Mirage и другие программы в Великобритании, имеющие дело с различными платформами самолетов. В этих программах распознаватели речи успешно эксплуатировались в истребителях, с приложениями, включая установку радиочастот, управление системой автопилота, установку координат точки управления и параметров сброса оружия, а также управление дисплеем полета.
Работая со шведскими пилотами, летавшими в кабине JAS-39 Gripen, Энглунд (2004) обнаружил, что распознавание ухудшалось с увеличением перегрузок . В отчете также сделан вывод о том, что адаптация значительно улучшила результаты во всех случаях, и что введение моделей для дыхания, как было показано, значительно улучшило оценки распознавания. Вопреки тому, что можно было ожидать, никаких эффектов ломаного английского языка говорящих обнаружено не было. Было очевидно, что спонтанная речь вызывала проблемы для распознавателя, как и можно было ожидать. Таким образом, можно было ожидать, что ограниченный словарный запас и, прежде всего, правильный синтаксис существенно улучшат точность распознавания. [120]
Eurofighter Typhoon , в настоящее время находящийся на вооружении ВВС Великобритании , использует систему, зависящую от голоса, требующую от каждого пилота создания шаблона. Система не используется для каких-либо критически важных для безопасности или оружия задач, таких как сброс оружия или опускание шасси, но используется для широкого спектра других функций кабины. Голосовые команды подтверждаются визуальной и/или звуковой обратной связью. Система рассматривается как основная конструктивная особенность в снижении нагрузки на пилота , [121] и даже позволяет пилоту назначать цели своему самолету двумя простыми голосовыми командами или любому из своих ведомых всего пятью командами. [122]
Системы, независимые от говорящего, также разрабатываются и проходят испытания для F-35 Lightning II (JSF) и учебного истребителя Alenia Aermacchi M-346 Master lead-in. Эти системы показали точность слов более 98%. [123]
Проблемы достижения высокой точности распознавания в условиях стресса и шума особенно актуальны в среде вертолетов , а также в среде реактивных истребителей. Проблема акустического шума на самом деле более серьезна в среде вертолетов не только из-за высокого уровня шума, но и потому, что пилот вертолета, как правило, не носит маску для лица , которая уменьшила бы акустический шум в микрофоне . Значительные программы испытаний и оценки были проведены в последнее десятилетие в приложениях систем распознавания речи в вертолетах, в частности, в US Army Avionics Research and Development Activity (AVRADA) и в Королевском аэрокосмическом учреждении ( RAE ) в Великобритании. Работа во Франции включала распознавание речи в вертолете Puma . Было также много полезной работы в Канаде . Результаты были обнадеживающими, и голосовые приложения включали: управление радиосвязью, настройку навигационных систем и управление автоматизированной системой передачи цели.
Как и в случае с истребителями, важнейшей проблемой для голоса в вертолетах является влияние на эффективность пилота. Обнадеживающие результаты сообщаются для тестов AVRADA, хотя они представляют собой лишь демонстрацию осуществимости в тестовой среде. Многое еще предстоит сделать как в области распознавания речи, так и в общей речевой технологии , чтобы последовательно добиваться улучшения производительности в эксплуатационных условиях.
Обучение авиадиспетчеров (УВД) представляет собой прекрасное приложение для систем распознавания речи. Многие системы обучения УВД в настоящее время требуют, чтобы человек действовал как «псевдопилот», участвуя в голосовом диалоге с обучаемым диспетчером, который имитирует диалог, который диспетчер должен был бы вести с пилотами в реальной ситуации УВД. Методы распознавания и синтеза речи предлагают потенциал для устранения необходимости в том, чтобы человек действовал как псевдопилот, тем самым сокращая обучение и вспомогательный персонал. Теоретически задачи авиадиспетчера также характеризуются высокоструктурированной речью в качестве основного вывода диспетчера, поэтому снижение сложности задачи распознавания речи должно быть возможным. На практике это редко случается. Документ FAA 7110.65 подробно описывает фразы, которые должны использоваться авиадиспетчерами. Хотя в этом документе приводится менее 150 примеров таких фраз, количество фраз, поддерживаемых одной из систем распознавания речи поставщиков симуляций, превышает 500 000.
ВВС США, Корпус морской пехоты США, армия США, флот США и Федеральное управление гражданской авиации США, а также ряд международных организаций по обучению диспетчеров воздушного движения, таких как Королевские военно-воздушные силы Австралии и Управление гражданской авиации в Италии, Бразилии и Канаде, в настоящее время используют симуляторы диспетчеров воздушного движения с функцией распознавания речи от ряда различных поставщиков. [ необходима ссылка ]
ASR теперь является обычным явлением в области телефонии и становится все более распространенным в области компьютерных игр и моделирования. В телефонных системах ASR теперь в основном используется в контакт-центрах путем интеграции с системами IVR . Несмотря на высокий уровень интеграции с обработкой текста в общих персональных вычислениях, в области производства документов ASR не увидел ожидаемого роста использования.
Улучшение скорости мобильных процессоров сделало распознавание речи практичным в смартфонах . Речь используется в основном как часть пользовательского интерфейса для создания предопределенных или пользовательских речевых команд.
Люди с ограниченными возможностями могут воспользоваться программами распознавания речи. Для глухих или слабослышащих людей программное обеспечение распознавания речи используется для автоматического создания субтитров разговоров, таких как обсуждения в конференц-залах, лекции в классах и/или религиозные службы. [124]
Учащиеся, которые не видят (см. Слепота и образование ) или имеют очень слабое зрение, могут воспользоваться технологией для передачи слов, а затем услышать, как компьютер их произносит, а также использовать компьютер, отдавая команды голосом, вместо того, чтобы смотреть на экран и клавиатуру. [125]
Студенты с ограниченными физическими возможностями, имеющие повторяющиеся травмы от перенапряжения /другие травмы верхних конечностей, могут быть освобождены от необходимости беспокоиться о рукописном вводе, наборе текста или работе с писарем в школьных заданиях, используя программы преобразования речи в текст. Они также могут использовать технологию распознавания речи, чтобы наслаждаться поиском в Интернете или использовать компьютер дома без необходимости физически управлять мышью и клавиатурой. [125]
Распознавание речи может позволить ученикам с трудностями в обучении стать лучшими писателями. Произнося слова вслух, они могут повысить текучесть своего письма и избавиться от беспокойства относительно орфографии, пунктуации и других механик письма. [126] Также см. Трудности в обучении .
Использование программного обеспечения для распознавания голоса в сочетании с цифровым диктофоном и персональным компьютером с программным обеспечением для обработки текстов доказало свою эффективность в восстановлении нарушенного объема кратковременной памяти у людей, перенесших инсульт и краниотомию.
Распознавание речи также очень полезно для людей, которые испытывают трудности с использованием рук, начиная от легких повторяющихся стрессовых травм до связанных с инвалидностью, которая исключает использование обычных компьютерных устройств ввода. Фактически, люди, которые много использовали клавиатуру и развили RSI, стали неотложным ранним рынком для распознавания речи. [127] [128] Распознавание речи используется в телефонии для глухих , такой как голосовая почта в текст, ретрансляционные службы и телефон с субтитрами . Люди с трудностями в обучении, у которых есть проблемы с передачей мыслей на бумагу (по сути, они думают об идее, но она обрабатывается неправильно, в результате чего она оказывается на бумаге по-другому), возможно, могут извлечь пользу из программного обеспечения, но эта технология не защищена от ошибок. [129] Кроме того, вся идея «говорения в текст» может быть сложной для людей с ограниченными интеллектуальными возможностями из-за того, что редко кто-то пытается изучить технологию, чтобы научить человека с ограниченными возможностями. [130]
Этот тип технологии может помочь людям с дислексией, но другие нарушения все еще под вопросом. Эффективность продукта — это проблема, которая мешает ему быть эффективным. Хотя ребенок может сказать слово в зависимости от того, насколько четко он его произносит, технология может подумать, что он говорит другое слово, и ввести неправильное. Давая им больше работы по исправлению, заставляя их тратить больше времени на исправление неправильного слова. [131]
Производительность систем распознавания речи обычно оценивается с точки зрения точности и скорости. [136] [137] Точность обычно оценивается с помощью коэффициента ошибок в словах (WER), тогда как скорость измеряется с помощью фактора реального времени. Другие меры точности включают коэффициент ошибок в отдельных словах (SWER) и коэффициент успешных команд (CSR).
Однако распознавание речи машиной — очень сложная проблема. Вокализации различаются по акценту, произношению, артикуляции, грубости, назальности, тону, громкости и скорости. Речь искажается фоновым шумом и эхом, электрическими характеристиками. Точность распознавания речи может варьироваться в зависимости от следующих факторов: [138] [ необходима цитата ]
Как упоминалось ранее в этой статье, точность распознавания речи может варьироваться в зависимости от следующих факторов:
При прерывистой речи используются полные предложения, разделенные тишиной, поэтому речь становится легче распознавать, как и изолированную речь.
При слитной речи используются естественно произнесенные предложения, поэтому речь становится сложнее распознавать, в отличие как от изолированной, так и от прерывистой речи.
Ограничения часто представлены грамматикой.
Распознавание речи — это многоуровневая задача распознавания образов.
например, известные произношения слов или допустимые последовательности слов, которые могут компенсировать ошибки или неопределенности на более низком уровне;
Для телефонной речи частота дискретизации составляет 8000 отсчетов в секунду;
вычисляется каждые 10 мс, при этом один 10-миллисекундный раздел называется кадром;
Анализ четырехшаговых подходов нейронной сети может быть объяснен дополнительной информацией. Звук производится вибрацией воздуха (или какой-либо другой среды), которую мы регистрируем ушами, а машины — приемниками. Базовый звук создает волну, которая имеет два описания: амплитуду (насколько она сильна) и частоту (как часто она вибрирует в секунду). Точность можно вычислить с помощью коэффициента ошибок в словах (WER). Коэффициент ошибок в словах можно вычислить, выровняв распознанное слово и указанное слово с помощью динамического выравнивания строк. Проблема может возникнуть при вычислении коэффициента ошибок в словах из-за разницы между длинами последовательностей распознанного слова и указанного слова.
Формула для вычисления коэффициента ошибок в словах (WER) следующая:
где s — количество замен, d — количество удалений, i — количество вставок, а n — количество ссылок на слова.
При расчете используется показатель распознавания слов (WRR). Формула:
где h — количество правильно распознанных слов:
Распознавание речи может стать средством атаки, кражи или случайного срабатывания. Например, слова активации, такие как «Алекса», произнесенные в аудио- или видеотрансляции, могут привести к тому, что устройства в домах и офисах начнут ненадлежащим образом прослушивать ввод или, возможно, предпримут нежелательное действие. [140] Устройства с голосовым управлением также доступны посетителям здания или даже тем, кто находится снаружи здания, если их можно услышать внутри. Злоумышленники могут получить доступ к личной информации, такой как календарь, содержимое адресной книги, личные сообщения и документы. Они также могут выдавать себя за пользователя, чтобы отправлять сообщения или совершать покупки в Интернете.
Были продемонстрированы две атаки, использующие искусственные звуки. Одна передает ультразвук и пытается посылать команды так, чтобы находящиеся поблизости люди не заметили. [141] Другая добавляет небольшие неслышимые искажения к другой речи или музыке, которые специально созданы, чтобы сбить с толку конкретную систему распознавания речи и заставить ее распознавать музыку как речь или заставить то, что звучит как одна команда для человека, звучать как другая команда для системы. [142]
Популярные конференции по распознаванию речи, проводимые раз в год или два, включают SpeechTEK и SpeechTEK Europe, ICASSP , Interspeech/Eurospeech и IEEE ASRU. Конференции в области обработки естественного языка , такие как ACL , NAACL , EMNLP и HLT, начинают включать статьи по обработке речи . Важные журналы включают IEEE Transactions on Speech and Audio Processing (позже переименованный в IEEE Transactions on Audio, Speech and Language Processing и с сентября 2014 года переименованный в IEEE /ACM Transactions on Audio, Speech and Language Processing — после слияния с публикацией ACM), Computer Speech and Language и Speech Communication.
Такие книги, как «Основы распознавания речи» Лоуренса Рабинера, могут быть полезны для получения базовых знаний, но могут быть не совсем актуальными (1993). Другим хорошим источником может быть «Статистические методы распознавания речи» Фредерика Елинека и «Обработка устной речи (2001)» Сюэдуна Хуана и т. д., «Компьютерная речь» Манфреда Р. Шредера , второе издание, опубликованное в 2004 году, и «Обработка речи: динамический и ориентированный на оптимизацию подход», опубликованная в 2003 году Ли Дэнгом и Дугом О'Шонесси. Обновленный учебник « Обработка речи и языка » (2008) Джурафски и Мартина представляет основы и современное состояние ASR. Распознавание говорящего также использует те же функции, большую часть той же обработки на входе и методы классификации, что и при распознавании речи. Всеобъемлющий учебник «Основы распознавания говорящих» является глубоким источником новейших сведений по теории и практике. [143] Хорошее представление о методах, используемых в лучших современных системах, можно получить, обратив внимание на спонсируемые правительством оценки, такие как те, которые организованы DARPA (крупнейшим проектом, связанным с распознаванием речи, действующим по состоянию на 2007 год, является проект GALE, который включает как компоненты распознавания речи, так и компоненты перевода).
Хорошее и доступное введение в технологию распознавания речи и ее историю содержится в книге для широкой аудитории «Голос в машине. Создание компьютеров, понимающих речь» Роберто Пьераччини (2012).
Самая последняя книга по распознаванию речи — «Автоматическое распознавание речи: подход к глубокому обучению» (издательство Springer), написанная исследователями Microsoft Д. Ю и Л. Дэном и опубликованная ближе к концу 2014 года, с техническими подробностями, ориентированными на математику, о том, как методы глубокого обучения выводятся и внедряются в современные системы распознавания речи на основе DNN и связанных с ними методов глубокого обучения. [84] Связанная с этим книга, опубликованная ранее в 2014 году, «Глубокое обучение: методы и приложения» Л. Дэна и Д. Ю, содержит менее технический, но более методологически ориентированный обзор распознавания речи на основе DNN в 2009–2014 годах, помещенный в более общий контекст приложений глубокого обучения, включая не только распознавание речи, но и распознавание изображений, обработку естественного языка, поиск информации, мультимодальную обработку и многозадачное обучение. [80]
Что касается свободно доступных ресурсов, то набор инструментов Sphinx Университета Карнеги-Меллона — это одно из мест, с которых можно начать как изучать распознавание речи, так и начинать экспериментировать. Еще один ресурс (бесплатный, но защищенный авторским правом) — книга HTK (и прилагаемый набор инструментов HTK). Для более современных и современных методов можно использовать набор инструментов Kaldi . [144] В 2017 году Mozilla запустила проект с открытым исходным кодом под названием Common Voice [145] для сбора большой базы данных голосов, которая поможет создать проект по распознаванию речи DeepSpeech (доступен бесплатно на GitHub ), [146] используя платформу с открытым исходным кодом TensorFlow от Google . [147] Когда Mozilla перенаправила финансирование из проекта в 2020 году, он был разделен его первоначальными разработчиками на Coqui STT [148] с использованием той же лицензии с открытым исходным кодом. [149] [150]
Google Gboard поддерживает распознавание речи во всех приложениях Android . Его можно активировать через значок микрофона . [151]
Коммерческие облачные API распознавания речи широко доступны.
Дополнительные программные ресурсы см. в разделе Список программного обеспечения для распознавания речи .
вы говорите с кем-то, они не просто узнают, что вы говорите: они узнают, кто вы. WhisperID позволит компьютерам делать это, определяя, кто вы, по тому, как вы звучите.
Манерс сказал, что IBM работала над усовершенствованием распознавания речи ... или на полу шумной торговой выставки.
Самыми ранними приложениями программного обеспечения для распознавания речи были диктовка ... Четыре месяца назад IBM представила «продукт для непрерывной диктовки», предназначенный для ... дебютировал на торговой выставке Национальной ассоциации деловых поездок в 1994 г.
Всего несколько лет назад распознавание речи было ограничено ...
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )только 16% изменчивости разборчивости на уровне слов можно объяснить наличием очевидных ошибок произношения.
Исследователи произношения в первую очередь заинтересованы в улучшении разборчивости и понятности учащихся второго языка, но они еще не собрали достаточного количества репрезентативных и надежных данных (записей речи с соответствующими аннотациями и суждениями), указывающих, какие ошибки влияют на эти речевые измерения, а какие нет. Эти данные необходимы для обучения алгоритмов ASR для оценки разборчивости учащихся второго языка.