Распознавание речи

Распознавание речи — междисциплинарная подобласть компьютерной науки и вычислительной лингвистики , которая разрабатывает методологии и технологии, позволяющие распознавать и переводить устную речь в текст с помощью компьютеров. Она также известна как автоматическое распознавание речи ( ASR ), компьютерное распознавание речи или преобразование речи в текст ( STT ). Она объединяет знания и исследования в области компьютерной науки , лингвистики и компьютерной инженерии . Обратный процесс — синтез речи .

Некоторые системы распознавания речи требуют «обучения» (также называемого «регистрацией»), когда отдельный говорящий читает текст или изолированный словарь в систему. Система анализирует конкретный голос человека и использует его для тонкой настройки распознавания речи этого человека, что приводит к повышению точности. Системы, которые не используют обучение, называются «независимыми от говорящего» ^[1] . Системы, которые используют обучение, называются «зависимыми от говорящего».

Приложения распознавания речи включают голосовые пользовательские интерфейсы , такие как голосовой набор (например, «позвонить домой»), маршрутизация вызовов (например, «Я хотел бы сделать звонок за счет вызываемого абонента»), управление домашней техникой, поиск ключевых слов (например, найти подкаст, где были произнесены определенные слова), простой ввод данных (например, ввод номера кредитной карты), подготовка структурированных документов (например, рентгенологический отчет), определение характеристик говорящего, ^[2] обработка речи в текст (например, текстовые процессоры или электронные письма ) и самолет (обычно называемый прямым голосовым вводом ). Автоматическая оценка произношения используется в образовании, например, для изучения разговорного языка.

Термин «распознавание голоса» ^[3]^[4]^[5] или «идентификация говорящего»^[6]^[7]^[8] относится к идентификации говорящего, а не того, что он говорит. Распознавание говорящего может упростить задачу перевода речи в системах, которые были обучены на голос конкретного человека, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса обеспечения безопасности.

С точки зрения технологий, распознавание речи имеет долгую историю с несколькими волнами крупных инноваций. Совсем недавно эта область выиграла от достижений в области глубокого обучения и больших данных . Достижения подтверждаются не только всплеском научных работ, опубликованных в этой области, но, что более важно, принятием промышленностью по всему миру различных методов глубокого обучения при проектировании и развертывании систем распознавания речи.

История

Ключевыми областями роста стали: размер словарного запаса, независимость говорящего и скорость обработки информации.

До 1970 г.

1952 – Три исследователя Bell Labs, Стивен Балашек ^[9], Р. Биддулф и К. Х. Дэвис построили систему под названием «Одри» ^[10] для распознавания цифр одного говорящего. Их система нашла форманты в спектре мощности каждого высказывания. ^[11]
1960 – Гуннар Фант разработал и опубликовал модель источника-фильтра для воспроизведения речи .
1962 – IBM продемонстрировала способность своей машины «Shoebox» распознавать речь из 16 слов на Всемирной выставке 1962 года . ^[12]
1966 – Линейное предсказательное кодирование (LPC), метод кодирования речи , впервые было предложено Фумитадой Итакурой из Нагойского университета и Шузо Сайто из Nippon Telegraph and Telephone (NTT) во время работы над распознаванием речи. ^[13]
1969 – Финансирование Bell Labs прекратилось на несколько лет, когда в 1969 году влиятельный Джон Пирс написал открытое письмо, в котором критиковал и лишал финансирования исследования распознавания речи. ^[14] Это прекращение финансирования продолжалось до тех пор, пока Пирс не ушел на пенсию, а Джеймс Л. Фланаган не занял его место.

Радж Редди был первым человеком, который занялся непрерывным распознаванием речи, будучи аспирантом Стэнфордского университета в конце 1960-х годов. Предыдущие системы требовали от пользователей делать паузу после каждого слова. Система Редди выдавала голосовые команды для игры в шахматы .

Примерно в это же время советские исследователи изобрели алгоритм динамической временной деформации (DTW) и использовали его для создания распознавателя, способного работать со словарным запасом в 200 слов. ^[15] DTW обрабатывал речь, разделяя ее на короткие кадры, например, сегменты по 10 мс, и обрабатывая каждый кадр как единое целое. Хотя DTW был заменен более поздними алгоритмами, техника продолжила свое существование. Достижение независимости говорящего оставалось нерешенной задачей в этот период времени.

1970–1990

1971 – DARPA профинансировало пять лет исследований в области понимания речи , исследований распознавания речи, направленных на достижение минимального словарного запаса в 1000 слов. Они считали, что понимание речи будет ключом к достижению прогресса в распознавании речи , но позже это оказалось не так. ^[16] BBN , IBM , Carnegie Mellon и Stanford Research Institute участвовали в программе. ^[17]^[18] Это возродило исследования распознавания речи после письма Джона Пирса.
1972 – Группа IEEE по акустике, речи и обработке сигналов провела конференцию в Ньютоне, штат Массачусетс.
1976 – Первая конференция ICASSP прошла в Филадельфии , которая с тех пор стала основным местом публикации исследований по распознаванию речи. ^[19]

В конце 1960-х годов Леонард Баум разработал математику цепей Маркова в Институте анализа обороны . Десять лет спустя в CMU студенты Раджа Редди Джеймс Бейкер и Джанет М. Бейкер начали использовать скрытую модель Маркова (СММ) для распознавания речи. ^[20] Джеймс Бейкер узнал о СММ во время летней работы в Институте анализа обороны во время своего обучения в бакалавриате. ^[21] Использование СММ позволило исследователям объединить различные источники знаний, такие как акустика, язык и синтаксис, в единую вероятностную модель.

К середине 1980-х годов команда Фреда Елинека из IBM создала голосовую пишущую машинку под названием Tangora, которая могла обрабатывать словарь из 20 000 слов ^[22]. Статистический подход Елинека в меньшей степени акцентировался на имитации того, как человеческий мозг обрабатывает и понимает речь, в пользу использования методов статистического моделирования, таких как HMM. (Группа Елинека независимо открыла применение HMM к речи. ^[21] ) Это вызвало споры у лингвистов, поскольку HMM слишком упрощены, чтобы учитывать многие общие черты человеческих языков. ^[23] Однако HMM оказался весьма полезным способом моделирования речи и заменил динамическую временную деформацию, став доминирующим алгоритмом распознавания речи в 1980-х годах. ^[24]^[25]
1982 – Компания Dragon Systems, основанная Джеймсом и Джанет М. Бейкер ^[26] , была одним из немногих конкурентов IBM.

Практическое распознавание речи

В 1980-х годах также появилась языковая модель n-грамм .

1987 – Модель отсрочки позволила языковым моделям использовать n-граммы различной длины, а CSELT ^[27] использовал HMM для распознавания языков (как в программном обеспечении, так и в аппаратных специализированных процессорах, например RIPAC ).

Большая часть прогресса в этой области обязана быстро растущим возможностям компьютеров. В конце программы DARPA в 1976 году лучшим компьютером, доступным исследователям, был PDP-10 с 4 МБ оперативной памяти. ^[28] На декодирование всего 30 секунд речи могло уйти до 100 минут. ^[29]

Два практических продукта:

1984 – выпущен Apricot Portable с поддержкой до 4096 слов, из которых только 64 могли храниться в оперативной памяти одновременно. ^[30]
1987 – распознаватель от Kurzweil Applied Intelligence
1990 – Dragon Dictate, потребительский продукт, выпущенный в 1990 году ^[31]^{[32] В 1992 году} AT&T развернула службу обработки вызовов с распознаванием голоса для маршрутизации телефонных вызовов без участия человека-оператора. ^[33] Технология была разработана Лоуренсом Рабинером и другими в Bell Labs.

К этому моменту словарный запас типичной коммерческой системы распознавания речи был больше, чем средний человеческий словарный запас. ^[28] Бывший студент Раджа Редди, Сюэдун Хуан , разработал систему Sphinx-II в CMU. Система Sphinx-II была первой, которая распознавала слитную речь с большим словарным запасом, не зависящую от говорящего, и показала наилучшие результаты в оценке DARPA в 1992 году. Обработка слитной речи с большим словарным запасом стала важной вехой в истории распознавания речи. Хуан продолжил основать группу распознавания речи в Microsoft в 1993 году. Студент Раджа Редди Кай-Фу Ли присоединился к Apple, где в 1992 году он помог разработать прототип речевого интерфейса для компьютера Apple, известного как Casper.

Lernout & Hauspie , бельгийская компания по распознаванию речи, приобрела несколько других компаний, включая Kurzweil Applied Intelligence в 1997 году и Dragon Systems в 2000 году. Речевая технология L&H использовалась в операционной системе Windows XP . L&H была лидером отрасли, пока бухгалтерский скандал не положил конец компании в 2001 году. Речевая технология L&H была куплена ScanSoft, которая стала Nuance в 2005 году. Apple изначально лицензировала программное обеспечение Nuance для предоставления возможности распознавания речи своему цифровому помощнику Siri . ^[34]

2000-е

В 2000-х годах DARPA спонсировала две программы распознавания речи: Effective Affordable Reusable Speech-to-Text (EARS) в 2002 году и Global Autonomous Language Exploitation (GALE). В программе EARS участвовали четыре команды: IBM , команда под руководством BBN с LIMSI и Univ. of Pittsburgh , Cambridge University и команда, состоящая из ICSI , SRI и University of Washington . EARS финансировала коллекцию корпуса телефонной речи Switchboard , содержащего 260 часов записанных разговоров более 500 ораторов. ^[35] Программа GALE была сосредоточена на арабской и мандаринской новостной речи. Первая попытка Google в распознавании речи была предпринята в 2007 году после найма нескольких исследователей из Nuance. ^[36] Первым продуктом был GOOG-411 , телефонная служба каталогов. Записи GOOG-411 предоставили ценные данные, которые помогли Google улучшить свои системы распознавания. Голосовой поиск Google теперь поддерживается более чем на 30 языках.

В Соединенных Штатах Агентство национальной безопасности использовало тип распознавания речи для обнаружения ключевых слов по крайней мере с 2006 года. ^[37] Эта технология позволяет аналитикам искать в больших объемах записанных разговоров и изолировать упоминания ключевых слов. Записи могут быть проиндексированы, и аналитики могут выполнять запросы по базе данных, чтобы найти интересующие разговоры. Некоторые правительственные исследовательские программы были сосредоточены на разведывательных приложениях распознавания речи, например, программа EARS DARPA и программа Babel IARPA .

В начале 2000-х годов в распознавании речи все еще доминировали традиционные подходы, такие как скрытые марковские модели в сочетании с искусственными нейронными сетями прямого распространения . ^[38] Однако сегодня многие аспекты распознавания речи были взяты на себя методом глубокого обучения , называемым Long short-term memory (LSTM), рекуррентной нейронной сетью, опубликованной Зеппом Хохрайтером и Юргеном Шмидхубером в 1997 году. ^[39] LSTM RNN избегают проблемы исчезающего градиента и могут обучаться задачам «очень глубокого обучения» ^[40] , которые требуют воспоминаний о событиях, которые произошли тысячи дискретных временных шагов назад, что важно для речи. Около 2007 года LSTM, обученная с помощью Connectionist Temporal Classification (CTC) ^[41], начала превосходить традиционное распознавание речи в некоторых приложениях. ^[42] Сообщается, что в 2015 году распознавание речи Google испытало резкий скачок производительности на 49% благодаря обученной с помощью CTC LSTM, которая теперь доступна через Google Voice для всех пользователей смартфонов. ^[43] Трансформеры , тип нейронной сети, основанный исключительно на «внимании», широко применяются в компьютерном зрении ^[44]^[45] и языковом моделировании, ^[46]^[47] вызвав интерес к адаптации таких моделей к новым областям, включая распознавание речи. ^[48]^[49]^[50] В некоторых недавних работах сообщалось о превосходных уровнях производительности при использовании моделей трансформаторов для распознавания речи, но эти модели обычно требуют больших наборов обучающих данных для достижения высоких уровней производительности.

Использование глубоких сетей прямого распространения (нерекуррентных) для акустического моделирования было введено во второй половине 2009 года Джеффри Хинтоном и его студентами из Университета Торонто, а также Ли Дэном ^[51] и коллегами из Microsoft Research, первоначально в совместной работе Microsoft и Университета Торонто, которая впоследствии была расширена за счет включения IBM и Google (отсюда подзаголовок «Общие взгляды четырех исследовательских групп» в их обзорной статье 2012 года). ^[52]^[53]^[54] Руководитель исследовательского отдела Microsoft назвал это нововведение «самым резким изменением точности с 1979 года». ^[55] В отличие от устойчивых постепенных улучшений последних нескольких десятилетий, применение глубокого обучения снизило частоту ошибок в словах на 30%. ^[55] Это нововведение было быстро принято во всей области. Исследователи начали использовать методы глубокого обучения также для моделирования языка.

В долгой истории распознавания речи как поверхностная, так и глубокая форма (например, рекуррентные сети) искусственных нейронных сетей исследовались в течение многих лет в 1980-х, 1990-х и несколько лет в 2000-х годах. ^[56]^[57]^[58] Но эти методы так и не победили технологию неоднородной внутренней ручной модели смеси Гаусса / скрытой модели Маркова (GMM-HMM), основанную на генеративных моделях речи, обученных дискриминативно. ^[59] Ряд ключевых трудностей были методологически проанализированы в 1990-х годах, включая уменьшение градиента ^[60] и слабую временную корреляционную структуру в нейронных предсказательных моделях. ^[61]^[62] Все эти трудности были в дополнение к отсутствию больших обучающих данных и большой вычислительной мощности в эти ранние дни. Большинство исследователей распознавания речи, которые понимали такие барьеры, впоследствии отошли от нейронных сетей, чтобы заняться генеративными подходами моделирования, пока не началось недавнее возрождение глубокого обучения, начавшееся примерно в 2009–2010 годах и преодолевшее все эти трудности. Хинтон и др. и Дэн и др. рассмотрели часть этой недавней истории о том, как их сотрудничество друг с другом, а затем с коллегами из четырех групп (Университет Торонто, Microsoft, Google и IBM) инициировало возрождение приложений глубоких нейронных сетей прямого распространения для распознавания речи. ^[53]^[54]^[63]^[64]

2010-е

К началу 2010-х годов распознавание речи , также называемое распознаванием голоса ^[65]^[66]^[67], было четко отделено от распознавания говорящего , и независимость говорящего считалась крупным прорывом. До этого системам требовался период «обучения». Рекламный слоган куклы 1987 года гласил: «Наконец-то кукла, которая вас понимает». – несмотря на то, что ее описывали как «которую дети могли бы научить реагировать на свой голос». ^[12]

В 2017 году исследователи Microsoft достигли исторического человеческого паритета в транскрибировании разговорной телефонной речи в широко используемой задаче Switchboard. Для оптимизации точности распознавания речи использовались несколько моделей глубокого обучения. Сообщалось, что частота ошибок в словах распознавания речи была такой же низкой, как у 4 профессиональных транскрибаторов, работающих вместе над одним и тем же бенчмарком, который финансировался командой IBM Watson speech на той же задаче. ^[68]

Модели, методы и алгоритмы

Как акустическое моделирование , так и языковое моделирование являются важными частями современных статистических алгоритмов распознавания речи. Скрытые марковские модели (HMM) широко используются во многих системах. Языковое моделирование также используется во многих других приложениях обработки естественного языка, таких как классификация документов или статистический машинный перевод .

Скрытые марковские модели

Современные системы распознавания речи общего назначения основаны на скрытых марковских моделях. Это статистические модели, которые выводят последовательность символов или величин. HMM используются в распознавании речи, поскольку речевой сигнал можно рассматривать как кусочно-стационарный сигнал или кратковременный стационарный сигнал. В коротком временном масштабе (например, 10 миллисекунд) речь можно аппроксимировать как стационарный процесс . Речь можно рассматривать как марковскую модель для многих стохастических целей.

Другая причина, по которой HMM популярны, заключается в том, что их можно обучать автоматически, и они просты и вычислительно осуществимы в использовании. В распознавании речи скрытая марковская модель выводит последовательность n -мерных вещественных векторов (где n - небольшое целое число, например, 10), выводя один из них каждые 10 миллисекунд. Векторы будут состоять из кепстральных коэффициентов, которые получаются путем выполнения преобразования Фурье короткого временного окна речи и декорреляции спектра с помощью косинусного преобразования , а затем взятия первых (наиболее значимых) коэффициентов. Скрытая марковская модель будет иметь тенденцию иметь в каждом состоянии статистическое распределение, которое является смесью диагональных ковариационных гауссианов, что даст вероятность для каждого наблюдаемого вектора. Каждое слово или (для более общих систем распознавания речи), каждая фонема , будет иметь различное выходное распределение; скрытая марковская модель для последовательности слов или фонем создается путем конкатенации отдельных обученных скрытых марковских моделей для отдельных слов и фонем.

Выше описаны основные элементы наиболее распространенного подхода к распознаванию речи на основе HMM. Современные системы распознавания речи используют различные комбинации ряда стандартных методов для улучшения результатов по сравнению с базовым подходом, описанным выше. Типичная система с большим словарным запасом потребует зависимости от контекста для фонем ( чтобы фонемы с разным левым и правым контекстом имели разные реализации в качестве состояний HMM); она будет использовать кепстральную нормализацию для нормализации для разных говорящих и условий записи; для дальнейшей нормализации говорящих она может использовать нормализацию длины речевого тракта (VTLN) для нормализации мужчин и женщин и линейную регрессию максимального правдоподобия (MLLR) для более общей адаптации говорящих. Признаки будут иметь так называемые коэффициенты дельта и дельта-дельта для захвата динамики речи и, кроме того, могут использовать гетероскедастический линейный дискриминантный анализ (HLDA); или может пропустить коэффициенты дельта и дельта-дельта и использовать сплайсинг и проекцию на основе LDA, за которой, возможно, последует гетероскедастический линейный дискриминантный анализ или глобальное полусвязанное ковариационное преобразование (также известное как линейное преобразование максимального правдоподобия, или MLLT). Многие системы используют так называемые дискриминационные методы обучения, которые обходятся без чисто статистического подхода к оценке параметров HMM и вместо этого оптимизируют некоторую связанную с классификацией меру обучающих данных. Примерами являются максимальная взаимная информация (MMI), минимальная ошибка классификации (MCE) и минимальная телефонная ошибка (MPE).

Декодирование речи (термин, обозначающий то, что происходит, когда системе предъявляется новое высказывание и она должна вычислить наиболее вероятное исходное предложение), вероятно, будет использовать алгоритм Витерби для поиска наилучшего пути, и здесь есть выбор между динамическим созданием комбинированной скрытой марковской модели, которая включает как акустическую, так и языковую информацию модели, и ее предварительным статическим объединением ( подход конечного состояния преобразователя , или FST).

Возможным улучшением декодирования является сохранение набора хороших кандидатов вместо сохранения только лучшего кандидата и использование лучшей функции оценки (переоценки) для оценки этих хороших кандидатов, чтобы мы могли выбрать лучшего в соответствии с этой уточненной оценкой. Набор кандидатов может храниться либо как список (подход N-лучших списков), либо как подмножество моделей (решетка ) . Переоценка обычно выполняется путем попытки минимизировать риск Байеса ^[69] (или его приближение). Вместо того, чтобы брать исходное предложение с максимальной вероятностью, мы пытаемся взять предложение, которое минимизирует ожидание заданной функции потерь относительно всех возможных транскрипций (т. е. мы берем предложение, которое минимизирует среднее расстояние до других возможных предложений, взвешенное по их оценочной вероятности). Функция потерь обычно является расстоянием Левенштейна , хотя это могут быть разные расстояния для конкретных задач; набор возможных транскрипций, конечно, обрезается для поддержания управляемости. Эффективные алгоритмы были разработаны для переоценки решеток, представленных в виде взвешенных конечных преобразователей с расстояниями редактирования, представленными в виде конечного преобразователя, проверяющего определенные предположения. ^[70]

Распознавание речи на основе динамической временной деформации (DTW)

Динамическое искажение времени — это подход, который исторически использовался для распознавания речи, но в настоящее время в значительной степени вытеснен более успешным подходом на основе HMM.

Динамическое временное искажение — это алгоритм для измерения сходства между двумя последовательностями, которые могут различаться по времени или скорости. Например, сходство в моделях ходьбы будет обнаружено, даже если в одном видео человек шел медленно, а в другом — быстрее, или даже если в ходе одного наблюдения наблюдались ускорения и замедления. DTW применялся к видео, аудио и графике — действительно, любые данные, которые можно преобразовать в линейное представление, можно анализировать с помощью DTW.

Хорошо известным применением было автоматическое распознавание речи, чтобы справиться с разной скоростью речи. В общем, это метод, который позволяет компьютеру находить оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями. То есть последовательности «искажаются» нелинейно, чтобы соответствовать друг другу. Этот метод выравнивания последовательностей часто используется в контексте скрытых марковских моделей.

Нейронные сети

Нейронные сети появились как привлекательный подход к акустическому моделированию в ASR в конце 1980-х годов. С тех пор нейронные сети использовались во многих аспектах распознавания речи, таких как классификация фонем, ^[71] классификация фонем с помощью многоцелевых эволюционных алгоритмов, ^[72] распознавание изолированных слов, ^[73] аудиовизуальное распознавание речи , аудиовизуальное распознавание говорящего и адаптация говорящего.

Нейронные сети делают меньше явных предположений о статистических свойствах признаков, чем HMM, и обладают несколькими качествами, делающими их более привлекательными моделями распознавания для распознавания речи. При использовании для оценки вероятностей сегмента речевого признака нейронные сети допускают дискриминационное обучение естественным и эффективным образом. Однако, несмотря на их эффективность в классификации кратковременных единиц, таких как отдельные фонемы и изолированные слова, ^[74] ранние нейронные сети редко были успешными для задач непрерывного распознавания из-за их ограниченной способности моделировать временные зависимости.

Одним из подходов к этому ограничению было использование нейронных сетей в качестве предварительной обработки, преобразования признаков или снижения размерности, ^[75] шага перед распознаванием на основе HMM. Однако совсем недавно LSTM и связанные с ними рекуррентные нейронные сети (RNN), ^[39]^[43]^[76]^[77] нейронные сети с задержкой по времени (TDNN), ^[78] и трансформаторы ^[48]^[49]^[50] продемонстрировали улучшенную производительность в этой области.

Глубокие нейронные сети прямого распространения и рекуррентные нейронные сети

Глубокие нейронные сети и шумоподавляющие автокодировщики ^[79] также находятся в стадии исследования. Глубокая нейронная сеть прямого распространения (DNN) представляет собой искусственную нейронную сеть с несколькими скрытыми слоями единиц между входными и выходными слоями. ^[53] Подобно неглубоким нейронным сетям, DNN могут моделировать сложные нелинейные отношения. Архитектуры DNN генерируют композиционные модели, где дополнительные слои позволяют компоновать признаки из нижних слоев, давая огромную способность к обучению и, таким образом, потенциал моделирования сложных шаблонов речевых данных. ^[80]

Успех DNN в распознавании речи с большим словарным запасом произошел в 2010 году благодаря промышленным исследователям в сотрудничестве с академическими исследователями, где были приняты большие выходные слои DNN на основе зависимых от контекста состояний HMM, построенных с помощью деревьев решений. ^[81]^[82]^[83] См. всесторонние обзоры этой разработки и состояния дел по состоянию на октябрь 2014 года в недавней книге Springer от Microsoft Research. ^[84] См. также связанную с этим предысторию автоматического распознавания речи и влияние различных парадигм машинного обучения, в частности, включая глубокое обучение , в недавних обзорных статьях. ^[85]^[86]

Один из основных принципов глубокого обучения — отказаться от ручной разработки признаков и использовать необработанные признаки. Этот принцип был впервые успешно исследован в архитектуре глубокого автокодировщика на «сырых» спектрограммах или линейных признаках банка фильтров, ^[87] показав его превосходство над признаками Mel-Cepstral, которые содержат несколько стадий фиксированного преобразования из спектрограмм. Недавно было показано, что истинные «сырые» признаки речи, формы волн, дают превосходные результаты распознавания речи в более крупном масштабе. ^[88]

Сквозное автоматическое распознавание речи

С 2014 года наблюдается большой исследовательский интерес к «сквозному» ASR. Традиционные фонетические (т. е. все основанные на HMM модели) подходы требуют отдельных компонентов и обучения для произношения, акустики и языковой модели . Сквозные модели совместно изучают все компоненты распознавателя речи. Это ценно, поскольку упрощает процесс обучения и процесс развертывания. Например, для всех систем на основе HMM требуется языковая модель n-грамм , а типичная языковая модель n-грамм часто занимает несколько гигабайт памяти, что делает их непрактичными для развертывания на мобильных устройствах. ^[89] Следовательно, современные коммерческие системы ASR от Google и Apple (по состоянию на 2017 год ^{[обновлять]}) развертываются в облаке и требуют сетевого подключения, а не локального устройства.

Первая попытка сквозного ASR была сделана с использованием систем на основе Connectionist Temporal Classification (CTC), представленных Алексом Грейвсом из Google DeepMind и Навдипом Джейтли из Университета Торонто в 2014 году. ^[90] Модель состояла из рекуррентных нейронных сетей и слоя CTC. Совместно модель RNN-CTC изучает произношение и акустическую модель вместе, однако она не способна изучать язык из-за условных независимых предположений, подобных HMM. Следовательно, модели CTC могут напрямую учиться сопоставлять акустику речи с английскими символами, но модели допускают много распространенных ошибок в правописании и должны полагаться на отдельную языковую модель для очистки транскриптов. Позже Baidu расширила работу с чрезвычайно большими наборами данных и продемонстрировала некоторый коммерческий успех в китайском мандаринском и английском языках. ^[91] В 2016 году Оксфордский университет представил LipNet , ^[92] первую сквозную модель чтения по губам на уровне предложений, использующую пространственно-временные свертки в сочетании с архитектурой RNN-CTC, превосходящую производительность человеческого уровня в ограниченном наборе грамматических данных. ^[93] Крупномасштабная архитектура CNN-RNN-CTC была представлена в 2018 году Google DeepMind, достигнув производительности в 6 раз лучше, чем у экспертов-людей. ^[94] В 2019 году Nvidia запустила две модели CNN-CTC ASR, Jasper и QuarzNet, с общей производительностью WER 3%. ^[95]^[96] Подобно другим приложениям глубокого обучения, трансферное обучение и адаптация домена являются важными стратегиями для повторного использования и расширения возможностей моделей глубокого обучения, особенно из-за высоких затрат на обучение моделей с нуля и небольшого размера доступного корпуса во многих языках и/или определенных доменах. ^[97]^[98]^[99]

Альтернативным подходом к моделям на основе CTC являются модели на основе внимания. Модели ASR на основе внимания были одновременно представлены Чаном и др. из Университета Карнеги-Меллона и Google Brain и Багданау и др. из Монреальского университета в 2016 году. ^[100]^[101] Модель под названием «Listen, Attend and Spell» (LAS) буквально «слушает» акустический сигнал, уделяет «внимание» различным частям сигнала и «произносит» транскрипт по одному символу за раз. В отличие от моделей на основе CTC, модели на основе внимания не имеют предположений об условной независимости и могут изучать все компоненты распознавателя речи, включая произношение, акустическую и языковую модель напрямую. Это означает, что во время развертывания нет необходимости носить с собой языковую модель, что делает ее очень практичной для приложений с ограниченной памятью. К концу 2016 года модели на основе внимания добились значительного успеха, включая превосходство над моделями CTC (с внешней языковой моделью или без нее). ^[102] Различные расширения были предложены после первоначальной модели LAS. Латентные разложения последовательности (LSD) были предложены Университетом Карнеги-Меллона , Массачусетским технологическим институтом и Google Brain для прямого выделения подсловных единиц, которые более естественны, чем английские символы; ^[103] Оксфордский университет и Google DeepMind расширили LAS до «Watch, Listen, Attend and Spell» (WLAS) для обработки чтения по губам, превосходящего производительность человеческого уровня. ^[104]

Приложения

Автомобильные системы

Обычно ручной ввод управления, например, с помощью управления пальцем на рулевом колесе, включает систему распознавания речи, и это сигнализируется водителю с помощью звуковой подсказки. После звуковой подсказки система имеет «окно прослушивания», в течение которого она может принять речевой ввод для распознавания. ^{[ необходима цитата ]}

Простые голосовые команды могут использоваться для совершения телефонных звонков, выбора радиостанций или воспроизведения музыки с совместимого смартфона, MP3-плеера или флеш-накопителя с музыкой. Возможности распознавания голоса различаются в зависимости от марки и модели автомобиля. Некоторые из последних ^{[ когда? ]} моделей автомобилей предлагают распознавание естественной речи вместо фиксированного набора команд, что позволяет водителю использовать полные предложения и общие фразы. Таким образом, с такими системами пользователю нет необходимости запоминать набор фиксированных командных слов. ^{[ необходима цитата ]}

Образование

Автоматическая оценка произношения — это использование распознавания речи для проверки правильности произнесенной речи, ^[105] в отличие от ручной оценки инструктором или наблюдателем. ^[106] Также называемая проверкой речи, оценкой произношения и оценкой произношения, эта технология в основном применяется в компьютерном обучении произношению (CAPT) в сочетании с компьютерным обучением для компьютерного обучения языку (CALL), исправлением речи или уменьшением акцента . Оценка произношения не определяет неизвестную речь (как при диктовке или автоматической транскрипции ), но вместо этого, зная заранее ожидаемые слова, она пытается проверить правильность произношения учащегося и, в идеале, их понятность слушателям, ^[107]^[108] иногда вместе с часто несущественными просодическими характеристиками, такими как интонация , высота тона , темп , ритм и ударение . ^[109] Оценка произношения также используется при обучении чтению , например, в таких продуктах, как Microsoft Teams ^[110] и Amira Learning. ^[111] Автоматическая оценка произношения также может использоваться для диагностики и лечения нарушений речи, таких как апраксия . ^[112]

Оценка подлинной разборчивости слушателя имеет важное значение для избежания неточностей из- за смещения акцента , особенно при оценке с высокими ставками; ^[113]^[114]^[115] из-за слов с несколькими правильными произношениями; ^[116] и из-за ошибок кодирования фонем в машиночитаемых словарях произношения. ^[117] В 2022 году исследователи обнаружили, что некоторые новые системы преобразования речи в текст, основанные на сквозном обучении с подкреплением для преобразования аудиосигналов непосредственно в слова, выдают оценки уверенности слов и фраз, очень тесно коррелирующие с подлинной разборчивостью слушателя. ^[118] В критериях оценки «общего фонологического контроля» Общеевропейских компетенций владения иностранным языком (CEFR) разборчивость перевешивает формально правильное произношение на всех уровнях. ^[119]

Здравоохранение

Медицинская документация

В секторе здравоохранения распознавание речи может быть реализовано на front-end или back-end процесса медицинской документации. Front-end распознавание речи — это когда поставщик диктует в механизм распознавания речи, распознанные слова отображаются по мере их произнесения, а диктатор отвечает за редактирование и подписание документа. Back-end или отложенное распознавание речи — это когда поставщик диктует в цифровую систему диктовки , голос направляется через машину распознавания речи, а распознанный черновик документа направляется вместе с исходным голосовым файлом в редактор, где черновик редактируется и отчет завершается. Отложенное распознавание речи широко используется в отрасли в настоящее время.

Одной из основных проблем, связанных с использованием распознавания речи в здравоохранении, является то, что Американский закон о восстановлении и реинвестировании 2009 года ( ARRA ) предусматривает существенные финансовые выгоды для врачей, которые используют EMR в соответствии со стандартами «Значимого использования». Эти стандарты требуют, чтобы EMR (теперь чаще называемая Электронной медицинской картой или EHR) поддерживала значительный объем данных. Использование распознавания речи более естественно подходит для создания повествовательного текста в рамках интерпретации рентгенологии/патологии, промежуточных записей или выписных заключений: эргономические преимущества использования распознавания речи для ввода структурированных дискретных данных (например, числовых значений или кодов из списка или контролируемого словаря ) относительно минимальны для зрячих людей, которые могут работать с клавиатурой и мышью.

Более существенной проблемой является то, что большинство EHR не были специально адаптированы для использования возможностей распознавания голоса. Значительная часть взаимодействия врача с EHR включает навигацию по пользовательскому интерфейсу с использованием меню и нажатия клавиш/кнопок и в значительной степени зависит от клавиатуры и мыши: голосовая навигация обеспечивает лишь скромные эргономические преимущества. Напротив, многие высоконастраиваемые системы для рентгенологии или патологической диктовки реализуют голосовые «макросы», где использование определенных фраз — например, «нормальный отчет» — автоматически заполняет большое количество значений по умолчанию и/или генерирует шаблон, который будет меняться в зависимости от типа исследования — например, рентген грудной клетки или желудочно-кишечная контрастная серия для рентгенологической системы.

Терапевтическое использование

Длительное использование программного обеспечения для распознавания речи в сочетании с текстовыми процессорами показало преимущества для кратковременного восстановления памяти у пациентов с АВМ мозга , прошедших лечение с помощью резекции . Необходимо провести дополнительные исследования для определения когнитивных преимуществ для лиц, АВМ которых были пролечены с использованием радиологических методов. ^{[ необходима цитата ]}

Военный

Высокоэффективный истребитель

Значительные усилия были направлены в последнее десятилетие на тестирование и оценку распознавания речи в истребителях . Особо следует отметить программу США по распознаванию речи для Advanced Fighter Technology Integration (AFTI) / F-16 ( F-16 VISTA ), программу во Франции для самолетов Mirage и другие программы в Великобритании, имеющие дело с различными платформами самолетов. В этих программах распознаватели речи успешно эксплуатировались в истребителях, с приложениями, включая установку радиочастот, управление системой автопилота, установку координат точки управления и параметров сброса оружия, а также управление дисплеем полета.

Работая со шведскими пилотами, летавшими в кабине JAS-39 Gripen, Энглунд (2004) обнаружил, что распознавание ухудшалось с увеличением перегрузок . В отчете также сделан вывод о том, что адаптация значительно улучшила результаты во всех случаях, и что введение моделей для дыхания, как было показано, значительно улучшило оценки распознавания. Вопреки тому, что можно было ожидать, никаких эффектов ломаного английского языка говорящих обнаружено не было. Было очевидно, что спонтанная речь вызывала проблемы для распознавателя, как и можно было ожидать. Таким образом, можно было ожидать, что ограниченный словарный запас и, прежде всего, правильный синтаксис существенно улучшат точность распознавания. ^[120]

Eurofighter Typhoon , в настоящее время находящийся на вооружении ВВС Великобритании , использует систему, зависящую от голоса, требующую от каждого пилота создания шаблона. Система не используется для каких-либо критически важных для безопасности или оружия задач, таких как сброс оружия или опускание шасси, но используется для широкого спектра других функций кабины. Голосовые команды подтверждаются визуальной и/или звуковой обратной связью. Система рассматривается как основная конструктивная особенность в снижении нагрузки на пилота , ^[121] и даже позволяет пилоту назначать цели своему самолету двумя простыми голосовыми командами или любому из своих ведомых всего пятью командами. ^[122]

Системы, независимые от говорящего, также разрабатываются и проходят испытания для F-35 Lightning II (JSF) и учебного истребителя Alenia Aermacchi M-346 Master lead-in. Эти системы показали точность слов более 98%. ^[123]

Вертолеты

Проблемы достижения высокой точности распознавания в условиях стресса и шума особенно актуальны в среде вертолетов , а также в среде реактивных истребителей. Проблема акустического шума на самом деле более серьезна в среде вертолетов не только из-за высокого уровня шума, но и потому, что пилот вертолета, как правило, не носит маску для лица , которая уменьшила бы акустический шум в микрофоне . Значительные программы испытаний и оценки были проведены в последнее десятилетие в приложениях систем распознавания речи в вертолетах, в частности, в US Army Avionics Research and Development Activity (AVRADA) и в Королевском аэрокосмическом учреждении ( RAE ) в Великобритании. Работа во Франции включала распознавание речи в вертолете Puma . Было также много полезной работы в Канаде . Результаты были обнадеживающими, и голосовые приложения включали: управление радиосвязью, настройку навигационных систем и управление автоматизированной системой передачи цели.

Как и в случае с истребителями, важнейшей проблемой для голоса в вертолетах является влияние на эффективность пилота. Обнадеживающие результаты сообщаются для тестов AVRADA, хотя они представляют собой лишь демонстрацию осуществимости в тестовой среде. Многое еще предстоит сделать как в области распознавания речи, так и в общей речевой технологии , чтобы последовательно добиваться улучшения производительности в эксплуатационных условиях.

Подготовка авиадиспетчеров

Обучение авиадиспетчеров (УВД) представляет собой прекрасное приложение для систем распознавания речи. Многие системы обучения УВД в настоящее время требуют, чтобы человек действовал как «псевдопилот», участвуя в голосовом диалоге с обучаемым диспетчером, который имитирует диалог, который диспетчер должен был бы вести с пилотами в реальной ситуации УВД. Методы распознавания и синтеза речи предлагают потенциал для устранения необходимости в том, чтобы человек действовал как псевдопилот, тем самым сокращая обучение и вспомогательный персонал. Теоретически задачи авиадиспетчера также характеризуются высокоструктурированной речью в качестве основного вывода диспетчера, поэтому снижение сложности задачи распознавания речи должно быть возможным. На практике это редко случается. Документ FAA 7110.65 подробно описывает фразы, которые должны использоваться авиадиспетчерами. Хотя в этом документе приводится менее 150 примеров таких фраз, количество фраз, поддерживаемых одной из систем распознавания речи поставщиков симуляций, превышает 500 000.

ВВС США, Корпус морской пехоты США, армия США, флот США и Федеральное управление гражданской авиации США, а также ряд международных организаций по обучению диспетчеров воздушного движения, таких как Королевские военно-воздушные силы Австралии и Управление гражданской авиации в Италии, Бразилии и Канаде, в настоящее время используют симуляторы диспетчеров воздушного движения с функцией распознавания речи от ряда различных поставщиков. ^{[ необходима ссылка ]}

Телефония и другие домены

ASR теперь является обычным явлением в области телефонии и становится все более распространенным в области компьютерных игр и моделирования. В телефонных системах ASR теперь в основном используется в контакт-центрах путем интеграции с системами IVR . Несмотря на высокий уровень интеграции с обработкой текста в общих персональных вычислениях, в области производства документов ASR не увидел ожидаемого роста использования.

Улучшение скорости мобильных процессоров сделало распознавание речи практичным в смартфонах . Речь используется в основном как часть пользовательского интерфейса для создания предопределенных или пользовательских речевых команд.

Люди с ограниченными возможностями

Люди с ограниченными возможностями могут воспользоваться программами распознавания речи. Для глухих или слабослышащих людей программное обеспечение распознавания речи используется для автоматического создания субтитров разговоров, таких как обсуждения в конференц-залах, лекции в классах и/или религиозные службы. ^[124]

Учащиеся, которые не видят (см. Слепота и образование ) или имеют очень слабое зрение, могут воспользоваться технологией для передачи слов, а затем услышать, как компьютер их произносит, а также использовать компьютер, отдавая команды голосом, вместо того, чтобы смотреть на экран и клавиатуру. ^[125]

Студенты с ограниченными физическими возможностями, имеющие повторяющиеся травмы от перенапряжения /другие травмы верхних конечностей, могут быть освобождены от необходимости беспокоиться о рукописном вводе, наборе текста или работе с писарем в школьных заданиях, используя программы преобразования речи в текст. Они также могут использовать технологию распознавания речи, чтобы наслаждаться поиском в Интернете или использовать компьютер дома без необходимости физически управлять мышью и клавиатурой. ^[125]

Распознавание речи может позволить ученикам с трудностями в обучении стать лучшими писателями. Произнося слова вслух, они могут повысить текучесть своего письма и избавиться от беспокойства относительно орфографии, пунктуации и других механик письма. ^[126] Также см. Трудности в обучении .

Использование программного обеспечения для распознавания голоса в сочетании с цифровым диктофоном и персональным компьютером с программным обеспечением для обработки текстов доказало свою эффективность в восстановлении нарушенного объема кратковременной памяти у людей, перенесших инсульт и краниотомию.

Распознавание речи также очень полезно для людей, которые испытывают трудности с использованием рук, начиная от легких повторяющихся стрессовых травм до связанных с инвалидностью, которая исключает использование обычных компьютерных устройств ввода. Фактически, люди, которые много использовали клавиатуру и развили RSI, стали неотложным ранним рынком для распознавания речи. ^[127]^[128] Распознавание речи используется в телефонии для глухих , такой как голосовая почта в текст, ретрансляционные службы и телефон с субтитрами . Люди с трудностями в обучении, у которых есть проблемы с передачей мыслей на бумагу (по сути, они думают об идее, но она обрабатывается неправильно, в результате чего она оказывается на бумаге по-другому), возможно, могут извлечь пользу из программного обеспечения, но эта технология не защищена от ошибок. ^[129] Кроме того, вся идея «говорения в текст» может быть сложной для людей с ограниченными интеллектуальными возможностями из-за того, что редко кто-то пытается изучить технологию, чтобы научить человека с ограниченными возможностями. ^[130]

Этот тип технологии может помочь людям с дислексией, но другие нарушения все еще под вопросом. Эффективность продукта — это проблема, которая мешает ему быть эффективным. Хотя ребенок может сказать слово в зависимости от того, насколько четко он его произносит, технология может подумать, что он говорит другое слово, и ввести неправильное. Давая им больше работы по исправлению, заставляя их тратить больше времени на исправление неправильного слова. ^[131]

Дальнейшие приложения

Аэрокосмическая промышленность (например , исследование космоса , космические корабли и т. д.) Марсианский полярный посадочный модуль НАСА использовал технологию распознавания речи от Sensory, Inc. в марсианском микрофоне на посадочном модуле ^[132]
Автоматическое создание субтитров с распознаванием речи
Автоматическое распознавание эмоций ^[133]
Автоматическое составление раскадровок в аудиовизуальном производстве
Автоматический перевод
eDiscovery (юридическое раскрытие информации)
Компьютер без помощи рук : пользовательский интерфейс компьютера с функцией распознавания речи
Домашняя автоматизация
Интерактивный голосовой ответ
Мобильная телефония , включая мобильную электронную почту
Мультимодальное взаимодействие ^[64]
Субтитры в реальном времени ^[134]
Робототехника
Безопасность, включая использование с другими биометрическими сканерами для многофакторной аутентификации ^[135]
Перевод речи в текст (транскрипция речи в текст, субтитры к видео в реальном времени , судебные отчеты)
Телематика (например, навигационные системы транспортных средств)
Транскрипция (цифровое преобразование речи в текст)
Видеоигры , в качестве рабочих примеров можно привести EndWar и Lifeline от Tom Clancy .
Виртуальный помощник (например, Siri от Apple )

Производительность

Производительность систем распознавания речи обычно оценивается с точки зрения точности и скорости. ^[136]^[137] Точность обычно оценивается с помощью коэффициента ошибок в словах (WER), тогда как скорость измеряется с помощью фактора реального времени. Другие меры точности включают коэффициент ошибок в отдельных словах (SWER) и коэффициент успешных команд (CSR).

Однако распознавание речи машиной — очень сложная проблема. Вокализации различаются по акценту, произношению, артикуляции, грубости, назальности, тону, громкости и скорости. Речь искажается фоновым шумом и эхом, электрическими характеристиками. Точность распознавания речи может варьироваться в зависимости от следующих факторов: ^[138]^{[ необходима цитата ]}

Размер словарного запаса и запутанность
Зависимость от говорящего против независимости
Изолированная, прерывистая или непрерывная речь
Ограничения по задачам и языку
Чтение против спонтанной речи
Неблагоприятные условия

Точность

Как упоминалось ранее в этой статье, точность распознавания речи может варьироваться в зависимости от следующих факторов:

Уровень ошибок увеличивается по мере увеличения словарного запаса:

Например, 10 цифр от «нуля» до «девяти» могут быть распознаны практически идеально, но словарный запас размером 200, 5000 или 100000 может иметь уровень ошибок 3%, 7% или 45% соответственно.

Словарный запас трудно распознать, если он содержит непонятные буквы:

Например, 26 букв английского алфавита трудно различить, поскольку они представляют собой запутанные слова (наиболее известный набор E: «B, C, D, E, G, P, T, V, Z — когда «Z» произносится как «зи», а не «зед» в зависимости от региона Англии); для этого словаря хорошим считается уровень ошибок в 8%. ^[139]

Зависимость от говорящего против независимости:

Система, зависящая от говорящего, предназначена для использования одним говорящим.

Система, не зависящая от говорящего, предназначена для использования любым говорящим (более сложная).

Изолированная, прерывистая или непрерывная речь

При изолированной речи используются отдельные слова, поэтому речь становится легче распознать.

При прерывистой речи используются полные предложения, разделенные тишиной, поэтому речь становится легче распознавать, как и изолированную речь.
При слитной речи используются естественно произнесенные предложения, поэтому речь становится сложнее распознавать, в отличие как от изолированной, так и от прерывистой речи.

Ограничения по задачам и языку
- Например, запрашивающее приложение может отклонить гипотезу «Яблоко красное».
- например, ограничения могут быть семантическими; отклонение фразы «Яблоко злится».
- например, синтаксический; отвергающий «Красный — это яблоко».

Ограничения часто представлены грамматикой.

Чтение и спонтанная речь. Когда человек читает, он обычно находится в заранее подготовленном контексте, но когда человек использует спонтанную речь, его трудно распознать из-за нечеткости речи (например, «э-э» и «гм», фальстартов, неполных предложений, заикания, кашля и смеха) и ограниченного словарного запаса.
Неблагоприятные условия – Шум окружающей среды (например, шум в машине или на заводе). Акустические искажения (например, эхо, акустика помещения)

Распознавание речи — это многоуровневая задача распознавания образов.

Акустические сигналы структурированы в иерархию единиц, например , фонемы , слова, фразы и предложения;
Каждый уровень накладывает дополнительные ограничения;

например, известные произношения слов или допустимые последовательности слов, которые могут компенсировать ошибки или неопределенности на более низком уровне;

Эта иерархия ограничений используется. Объединяя решения вероятностно на всех нижних уровнях и принимая более детерминированные решения только на самом высоком уровне, распознавание речи машиной представляет собой процесс, разбитый на несколько фаз. С вычислительной точки зрения, это проблема, в которой звуковой шаблон должен быть распознан или классифицирован в категорию, которая представляет значение для человека. Каждый акустический сигнал может быть разбит на более мелкие более базовые подсигналы. По мере того, как более сложный звуковой сигнал разбивается на более мелкие подзвуки, создаются различные уровни, где на верхнем уровне у нас есть сложные звуки, которые состоят из более простых звуков на нижнем уровне, и, переходя на более низкие уровни, мы создаем более базовые и более короткие и простые звуки. На самом низком уровне, где звуки являются наиболее фундаментальными, машина будет проверять простые и более вероятностные правила того, что должен представлять звук. Как только эти звуки объединяются в более сложные звуки на верхнем уровне, новый набор более детерминированных правил должен предсказать, что должен представлять новый сложный звук. Самый верхний уровень детерминированного правила должен выяснить значение сложных выражений. Чтобы расширить наши знания о распознавании речи, нам нужно принять во внимание нейронные сети. Существует четыре шага нейронных сетевых подходов:
Оцифровать речь, которую мы хотим распознать

Для телефонной речи частота дискретизации составляет 8000 отсчетов в секунду;

Вычислить характеристики спектральной области речи (с преобразованием Фурье);

вычисляется каждые 10 мс, при этом один 10-миллисекундный раздел называется кадром;

Анализ четырехшаговых подходов нейронной сети может быть объяснен дополнительной информацией. Звук производится вибрацией воздуха (или какой-либо другой среды), которую мы регистрируем ушами, а машины — приемниками. Базовый звук создает волну, которая имеет два описания: амплитуду (насколько она сильна) и частоту (как часто она вибрирует в секунду). Точность можно вычислить с помощью коэффициента ошибок в словах (WER). Коэффициент ошибок в словах можно вычислить, выровняв распознанное слово и указанное слово с помощью динамического выравнивания строк. Проблема может возникнуть при вычислении коэффициента ошибок в словах из-за разницы между длинами последовательностей распознанного слова и указанного слова.

Формула для вычисления коэффициента ошибок в словах (WER) следующая:

$WER={(s+d+i) \over n}$

где s — количество замен, d — количество удалений, i — количество вставок, а n — количество ссылок на слова.

При расчете используется показатель распознавания слов (WRR). Формула:

WRR=1-WER={(nsdi) \over n}={привет \over n}

где h — количество правильно распознанных слов:

h=n-(s+d).

Проблемы безопасности

Распознавание речи может стать средством атаки, кражи или случайного срабатывания. Например, слова активации, такие как «Алекса», произнесенные в аудио- или видеотрансляции, могут привести к тому, что устройства в домах и офисах начнут ненадлежащим образом прослушивать ввод или, возможно, предпримут нежелательное действие. ^[140] Устройства с голосовым управлением также доступны посетителям здания или даже тем, кто находится снаружи здания, если их можно услышать внутри. Злоумышленники могут получить доступ к личной информации, такой как календарь, содержимое адресной книги, личные сообщения и документы. Они также могут выдавать себя за пользователя, чтобы отправлять сообщения или совершать покупки в Интернете.

Были продемонстрированы две атаки, использующие искусственные звуки. Одна передает ультразвук и пытается посылать команды так, чтобы находящиеся поблизости люди не заметили. ^[141] Другая добавляет небольшие неслышимые искажения к другой речи или музыке, которые специально созданы, чтобы сбить с толку конкретную систему распознавания речи и заставить ее распознавать музыку как речь или заставить то, что звучит как одна команда для человека, звучать как другая команда для системы. ^[142]

Дополнительная информация

Конференции и журналы

Популярные конференции по распознаванию речи, проводимые раз в год или два, включают SpeechTEK и SpeechTEK Europe, ICASSP , Interspeech/Eurospeech и IEEE ASRU. Конференции в области обработки естественного языка , такие как ACL , NAACL , EMNLP и HLT, начинают включать статьи по обработке речи . Важные журналы включают IEEE Transactions on Speech and Audio Processing (позже переименованный в IEEE Transactions on Audio, Speech and Language Processing и с сентября 2014 года переименованный в IEEE /ACM Transactions on Audio, Speech and Language Processing — после слияния с публикацией ACM), Computer Speech and Language и Speech Communication.

Книги

Такие книги, как «Основы распознавания речи» Лоуренса Рабинера, могут быть полезны для получения базовых знаний, но могут быть не совсем актуальными (1993). Другим хорошим источником может быть «Статистические методы распознавания речи» Фредерика Елинека и «Обработка устной речи (2001)» Сюэдуна Хуана и т. д., «Компьютерная речь» Манфреда Р. Шредера , второе издание, опубликованное в 2004 году, и «Обработка речи: динамический и ориентированный на оптимизацию подход», опубликованная в 2003 году Ли Дэнгом и Дугом О'Шонесси. Обновленный учебник « Обработка речи и языка » (2008) Джурафски и Мартина представляет основы и современное состояние ASR. Распознавание говорящего также использует те же функции, большую часть той же обработки на входе и методы классификации, что и при распознавании речи. Всеобъемлющий учебник «Основы распознавания говорящих» является глубоким источником новейших сведений по теории и практике. ^[143] Хорошее представление о методах, используемых в лучших современных системах, можно получить, обратив внимание на спонсируемые правительством оценки, такие как те, которые организованы DARPA (крупнейшим проектом, связанным с распознаванием речи, действующим по состоянию на 2007 год, является проект GALE, который включает как компоненты распознавания речи, так и компоненты перевода).

Хорошее и доступное введение в технологию распознавания речи и ее историю содержится в книге для широкой аудитории «Голос в машине. Создание компьютеров, понимающих речь» Роберто Пьераччини (2012).

Самая последняя книга по распознаванию речи — «Автоматическое распознавание речи: подход к глубокому обучению» (издательство Springer), написанная исследователями Microsoft Д. Ю и Л. Дэном и опубликованная ближе к концу 2014 года, с техническими подробностями, ориентированными на математику, о том, как методы глубокого обучения выводятся и внедряются в современные системы распознавания речи на основе DNN и связанных с ними методов глубокого обучения. ^[84] Связанная с этим книга, опубликованная ранее в 2014 году, «Глубокое обучение: методы и приложения» Л. Дэна и Д. Ю, содержит менее технический, но более методологически ориентированный обзор распознавания речи на основе DNN в 2009–2014 годах, помещенный в более общий контекст приложений глубокого обучения, включая не только распознавание речи, но и распознавание изображений, обработку естественного языка, поиск информации, мультимодальную обработку и многозадачное обучение. ^[80]

Программное обеспечение

Что касается свободно доступных ресурсов, то набор инструментов Sphinx Университета Карнеги-Меллона — это одно из мест, с которых можно начать как изучать распознавание речи, так и начинать экспериментировать. Еще один ресурс (бесплатный, но защищенный авторским правом) — книга HTK (и прилагаемый набор инструментов HTK). Для более современных и современных методов можно использовать набор инструментов Kaldi . ^[144] В 2017 году Mozilla запустила проект с открытым исходным кодом под названием Common Voice ^[145] для сбора большой базы данных голосов, которая поможет создать проект по распознаванию речи DeepSpeech (доступен бесплатно на GitHub ), ^[146] используя платформу с открытым исходным кодом TensorFlow от Google . ^[147] Когда Mozilla перенаправила финансирование из проекта в 2020 году, он был разделен его первоначальными разработчиками на Coqui STT ^[148] с использованием той же лицензии с открытым исходным кодом. ^[149]^[150]

Google Gboard поддерживает распознавание речи во всех приложениях Android . Его можно активировать через значок микрофона . ^[151]

Коммерческие облачные API распознавания речи широко доступны.

Дополнительные программные ресурсы см. в разделе Список программного обеспечения для распознавания речи .

Смотрите также

Списки

Ссылки

^ "Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation". Fifthgen.com. Архивировано из оригинала 11 ноября 2013 года . Получено 15 июня 2013 года .
^ P. Nguyen (2010). «Автоматическая классификация характеристик диктора». Международная конференция по коммуникациям и электронике 2010. С. 147–152. doi :10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.
^ "Определение распознавания голоса на британском английском". Macmillan Publishers Limited. Архивировано из оригинала 16 сентября 2011 г. Получено 21 февраля 2012 г.
^ "распознавание голоса, определение". WebFinance, Inc. Архивировано из оригинала 3 декабря 2011 г. Получено 21 февраля 2012 г.
^ "The Mailbag LG #114". Linuxgazette.net. Архивировано из оригинала 19 февраля 2013 года . Получено 15 июня 2013 года .
^ Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гаутам (сентябрь 2020 г.). «Оптимизация банка фильтров на основе данных для автоматической проверки говорящего». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . Bibcode : 2020DSP...10402795S. doi : 10.1016/j.dsp.2020.102795. S2CID 220665533.
^ Рейнольдс, Дуглас; Роуз, Ричард (январь 1995 г.). «Надежная текстонезависимая идентификация говорящего с использованием моделей гауссовой смеси говорящих» (PDF) . IEEE Transactions on Speech and Audio Processing . 3 (1): 72–83. doi :10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. S2CID 7319345. Архивировано (PDF) из оригинала 8 марта 2014 г. . Получено 21 февраля 2014 г. .
^ "Идентификация говорящего (WhisperID)". Microsoft Research . Microsoft. Архивировано из оригинала 25 февраля 2014 г. . Получено 21 февраля 2014 г. Когда вы говорите с кем-то, они не просто узнают, что вы говорите: они узнают, кто вы. WhisperID позволит компьютерам делать это, определяя, кто вы, по тому, как вы звучите.
^ "Некрологи: Стивен Балашек". The Star-Ledger . 22 июля 2012 г. Архивировано из оригинала 4 апреля 2019 г. Получено 9 сентября 2024 г.
^ "IBM-Shoebox-front.jpg". androidauthority.net. Архивировано из оригинала 9 августа 2018 г. Получено 4 апреля 2019 г.
^ Juang, BH; Rabiner, Lawrence R. «Автоматическое распознавание речи – краткая история развития технологии» (PDF) . стр. 6. Архивировано (PDF) из оригинала 17 августа 2014 г. Получено 17 января 2015 г.
^ ab Melanie Pinola (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы пришли к Siri». PC World . Архивировано из оригинала 3 ноября 2018 г. Получено 22 октября 2018 г.
^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного предиктивного кодирования и интернет-протокола» (PDF) . Найдено. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346. Архивировано (PDF) из оригинала 9 октября 2022 г. . Получено 9 сентября 2024 г. .
^ Джон Р. Пирс (1969). «Куда идет распознавание речи?». Журнал Акустического общества Америки . 46 (48): 1049–1051. Bibcode : 1969ASAJ...46.1049P. doi : 10.1121/1.1911801.
^ Бенести, Якоб; Сонди, ММ; Хуан, Йитэн (2008). Springer Handbook of Speech Processing . Springer Science & Business Media. ISBN 978-3540491255.
^ Джон Макхул. «Медальер ISCA: За лидерство и обширный вклад в обработку речи и языка». Архивировано из оригинала 24 января 2018 года . Получено 23 января 2018 года .
^ Blechman, RO; Blechman, Nicholas (23 июня 2008 г.). "Hello, Hal". The New Yorker . Архивировано из оригинала 20 января 2015 г. Получено 17 января 2015 г.
^ Klatt, Dennis H. (1977). «Обзор проекта понимания речи ARPA». Журнал Акустического общества Америки . 62 (6): 1345–1366. Bibcode : 1977ASAJ...62.1345K. doi : 10.1121/1.381666.
^ Рабинер (1984). «Общество акустики, речи и обработки сигналов. Историческая перспектива» (PDF) . Архивировано (PDF) из оригинала 9 августа 2017 г. . Получено 23 января 2018 г. .
^ "First-Hand:The Hidden Markov Model – Engineering and Technology History Wiki". ethw.org . 12 января 2015 г. Архивировано из оригинала 3 апреля 2018 г. Получено 1 мая 2018 г.
^ ab "James Baker interview". Архивировано из оригинала 28 августа 2017 года . Получено 9 февраля 2017 года .
^ "Pioneering Speech Recognition". 7 марта 2012 г. Архивировано из оригинала 19 февраля 2015 г. Получено 18 января 2015 г.
^ Хуан, Сюэдун; Бейкер, Джеймс; Редди, Радж (январь 2014 г.). «Историческая перспектива распознавания речи». Communications of the ACM . 57 (1): 94–103. doi :10.1145/2500887. ISSN 0001-0782. S2CID 6175701. Архивировано из оригинала 8 декабря 2023 г.
^ Juang, BH; Rabiner, Lawrence R. Автоматическое распознавание речи — краткая история развития технологии (PDF) (Отчет). стр. 10. Архивировано (PDF) из оригинала 17 августа 2014 г. Получено 17 января 2015 г.
^ Ли, Сяочан (1 июля 2023 г.). «Нет данных лучше, чем больше данных»: автоматическое распознавание речи и создание алгоритмической культуры. Osiris . 38 : 165–182. doi : 10.1086/725132. ISSN 0369-7827. S2CID 259502346.
^ "История распознавания речи". Dragon Medical Transcription . Архивировано из оригинала 13 августа 2015 года . Получено 17 января 2015 года .
^ Билли, Роберто; Канавесио, Франко; Чарамелла, Альберто; Неббия, Лучано (1 ноября 1995 г.). «Интерактивная голосовая технология в действии: опыт CSELT». Речевое общение . 17 (3): 263–271. дои : 10.1016/0167-6393(95)00030-R.
^ ab Xuedong Huang; James Baker; Raj Reddy (январь 2014 г.). "Историческая перспектива распознавания речи". Сообщения ACM. Архивировано из оригинала 20 января 2015 г. Получено 20 января 2015 г.
↑ Кевин МакКин (8 апреля 1980 г.). «Когда Коул говорит, компьютеры слушают». Sarasota Journal. AP . Получено 23 ноября 2015 г.
^ "ACT/Apricot - История абрикоса". actapricot.org . Архивировано из оригинала 21 декабря 2016 года . Получено 2 февраля 2016 года .
↑ Мелани Пинола (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы пришли к Siri». PC World . Архивировано из оригинала 13 января 2017 г. Получено 28 июля 2017 г.
^ "Биография Рэя Курцвейла". KurzweilAINetwork. Архивировано из оригинала 5 февраля 2014 года . Получено 25 сентября 2014 года .
^ Juang, BH; Rabiner, Lawrence. Автоматическое распознавание речи – Краткая история развития технологии (PDF) (Отчет). Архивировано (PDF) из оригинала 9 августа 2017 г. Получено 28 июля 2017 г.
^ "Nuance Exec об iPhone 4S, Siri и будущем речи". Tech.pinions. 10 октября 2011 г. Архивировано из оригинала 19 ноября 2011 г. Получено 23 ноября 2011 г.
^ "Switchboard-1 Release 2". Архивировано из оригинала 11 июля 2017 г. Получено 26 июля 2017 г.
^ Джейсон Кинкейд (13 февраля 2011 г.). «Сила голоса: беседа с главой Google’s Speech Technology». Tech Crunch . Архивировано из оригинала 21 июля 2015 г. Получено 21 июля 2015 г.
^ Фрумкин, Дэн (5 мая 2015 г.). «КОМПЬЮТЕРЫ СЛУШАЮТ». The Intercept . Архивировано из оригинала 27 июня 2015 г. Получено 20 июня 2015 г.
↑ Эрве Бурлард и Нельсон Морган , Коннекционистское распознавание речи: гибридный подход, Международная серия Kluwer по инжинирингу и информатике; т. 247, Бостон: Kluwer Academic Publishers, 1994.
^ ab Sepp Hochreiter ; J. Schmidhuber (1997). «Долгая кратковременная память». Neural Computation . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
^ Шмидхубер, Юрген (2015). «Глубокое обучение в нейронных сетях: обзор». Neural Networks . 61 : 85–117. arXiv : 1404.7828 . doi : 10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ Алекс Грейвс, Сантьяго Фернандес, Фаустино Гомес и Юрген Шмидхубер (2006). Коннекционистская временная классификация: маркировка несегментированных данных последовательностей с помощью рекуррентных нейронных сетей Архивировано 9 сентября 2024 г. в Wayback Machine . Труды ICML'06, стр. 369–376.
^ Сантьяго Фернандес, Алекс Грейвс и Юрген Шмидхубер (2007). Применение рекуррентных нейронных сетей для дискриминационного обнаружения ключевых слов ^{[ постоянная мертвая ссылка ]} . Труды ICANN (2), стр. 220–229.
^ ab Хашим Сак, Эндрю Сениор, Канишка Рао, Франсуаза Бофе и Йохан Шалквик (сентябрь 2015 г.): " "Голосовой поиск Google: быстрее и точнее". Архивировано из оригинала 9 марта 2016 г. Получено 5 апреля 2016 г.."
^ Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Миндерер, Матиас; Хейгольд, Георг; Гелли, Сильвен; Ушкорейт, Якоб; Хоулсби, Нил (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [cs.CV].
^ Ву, Хайпин; Сяо, Бин; Коделла, Ноэль; Лю, Мэнчен; Дай, Сиянг; Юань, Лу; Чжан, Лэй (29 марта 2021 г.). «CvT: введение сверток в преобразователи зрения». arXiv : 2103.15808 [cs.CV].
^ Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание – это все, что вам нужно». Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс. Архивировано из оригинала 9 сентября 2024 года . Проверено 9 сентября 2024 г.
^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (24 мая 2019 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805 [cs.CL].
^ ab Gong, Yuan; Chung, Yu-An; Glass, James (8 июля 2021 г.). «AST: Audio Spectrogram Transformer». arXiv : 2104.01778 [cs.SD].
^ аб Ристеа, Николае-Каталин; Ионеску, Раду Тудор; Хан, Фахад Шахбаз (20 июня 2022 г.). «SepTr: раздельный трансформатор для обработки аудиоспектрограмм». arXiv : 2203.09581 [cs.CV].
^ ab Лоренц, Тимо; Ли, Чжэнъян; Фингшейдт, Тим (14 июля 2021 г.). «Обучение с использованием нескольких кодировщиков и слияние потоков для сквозного автоматического распознавания речи на основе трансформатора». arXiv : 2104.00120 [eess.AS].
^ "Li Deng". Сайт Li Deng. Архивировано из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
^ Семинар NIPS: Глубокое обучение для распознавания речи и связанных приложений, Уистлер, Британская Колумбия, Канада, декабрь 2009 г. (Организаторы: Ли Дэн, Джефф Хинтон, Д. Ю).
^ abc Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara ; Kingsbury, Brian (2012). «Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырех исследовательских групп». IEEE Signal Processing Magazine . 29 (6): 82–97. Bibcode : 2012ISPM...29...82H. doi : 10.1109/MSP.2012.2205597. S2CID 206485943.
^ ab Deng, L.; Hinton, G.; Kingsbury, B. (2013). "Новые типы глубокого обучения нейронных сетей для распознавания речи и связанных приложений: обзор". Международная конференция IEEE по акустике, речи и обработке сигналов 2013 года: Новые типы глубокого обучения нейронных сетей для распознавания речи и связанных приложений: обзор . стр. 8599. doi :10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. S2CID 13953660.
^ ab Markoff, John (23 ноября 2012 г.). «Ученые видят перспективы в программах глубокого обучения». New York Times . Архивировано из оригинала 30 ноября 2012 г. Получено 20 января 2015 г.
^ Морган, Бурлард, Реналс, Коэн, Франко (1993) «Гибридные нейронные сети/скрытые марковские модели для распознавания непрерывной речи. ICASSP/IJPRAI»
^ T. Robinson (1992). "Система распознавания слов на основе сети распространения повторяющихся ошибок в реальном времени". [Труды] ICASSP-92: 1992 IEEE Международная конференция по акустике, речи и обработке сигналов . стр. 617–620 том 1. doi :10.1109/ICASSP.1992.225833. ISBN 0-7803-0532-9. S2CID 62446313.
^ Вайбель , Ханадзава, Хинтон, Шикано, Лэнг. (1989) «Распознавание фонем с использованием нейронных сетей с задержкой по времени. Архивировано 25 февраля 2021 г. на Wayback Machine . Труды IEEE по акустике, речи и обработке сигналов».
^ Бейкер, Дж.; Ли Дэн; Гласс, Дж.; Худанпур, С.; Чин-Хуэй Ли ; Морган, Н.; О'Шонесси, Д. (2009). «Развитие и направления в распознавании и понимании речи, часть 1». Журнал обработки сигналов IEEE . 26 (3): 75–80. Bibcode : 2009ISPM...26...75B. doi : 10.1109/MSP.2009.932166. hdl : 1721.1/51891 . S2CID 357467.
^ Зепп Хохрайтер (1991), Untersuruchungen zu dynamischen Neuronalen Netzen. Архивировано 6 марта 2015 г. в Wayback Machine , Дипломная работа. Институт ф. Информатика, Технический университет. Мюнхен. Советник: Й. Шмидхубер.
^ Бенгио, И. (1991). Искусственные нейронные сети и их применение для распознавания речи/последовательности (диссертация доктора философии). Университет Макгилла.
^ Дэн, Л.; Хассанейн, К.; Элмасри, М. (1994). «Анализ структуры корреляции для нейронной предсказательной модели с применением к распознаванию речи». Нейронные сети . 7 (2): 331–339. doi :10.1016/0893-6080(94)90027-2.
↑ Основной доклад: Последние разработки в области глубоких нейронных сетей. ICASSP, 2013 (Джефф Хинтон).
^ ab Основной доклад: «Достижения и проблемы глубокого обучения: от анализа и распознавания речи до языка и мультимодальной обработки», архивировано 5 марта 2021 г. на Wayback Machine , Interspeech, сентябрь 2014 г. (автор Ли Дэн).
^ "Улучшения в программном обеспечении для распознавания голоса увеличиваются". TechRepublic.com . 27 августа 2002 г. Архивировано из оригинала 23 октября 2018 г. Получено 22 октября 2018 г. Манерс сказал, что IBM работала над усовершенствованием распознавания речи ... или на полу шумной торговой выставки.
^ "Распознавание голоса для облегчения бронирования поездок: новости о деловых поездках". BusinessTravelNews.com . 3 марта 1997 г. Архивировано из оригинала 9 сентября 2024 г. Получено 9 сентября 2024 г. Самыми ранними приложениями программного обеспечения для распознавания речи были диктовка ... Четыре месяца назад IBM представила «продукт для непрерывной диктовки», предназначенный для ... дебютировал на торговой выставке Национальной ассоциации деловых поездок в 1994 г.
↑ Эллис Букер (14 марта 1994 г.). «Распознавание голоса становится мейнстримом». Computerworld . стр. 45. Всего несколько лет назад распознавание речи было ограничено ...
^ «Исследователи Microsoft достигли нового этапа в распознавании разговорной речи». Microsoft . 21 августа 2017 г. Архивировано из оригинала 9 сентября 2024 г. Получено 9 сентября 2024 г.
^ Goel, Vaibhava; Byrne, William J. (2000). «Автоматическое распознавание речи с минимальным байесовским риском». Computer Speech & Language . 14 (2): 115–135. doi : 10.1006/csla.2000.0138 . S2CID 206561058. Архивировано из оригинала 25 июля 2011 г. Получено 28 марта 2011 г.
^ Mohri, M. (2002). "Edit-Distance of Weighted Automata: General Definitions and Algorithms" (PDF) . International Journal of Foundations of Computer Science . 14 (6): 957–982. doi :10.1142/S0129054103002114. Архивировано (PDF) из оригинала 18 марта 2012 г. . Получено 28 марта 2011 г. .
^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, KJ (1989). «Распознавание фонем с использованием нейронных сетей с задержкой по времени». IEEE Transactions on Acoustics, Speech, and Signal Processing . 37 (3): 328–339. doi :10.1109/29.21701. hdl : 10338.dmlcz/135496 . S2CID 9563026.
^ Bird, Jordan J.; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Optimisation of phonetic aware speech recognition through multi-objective evolutionary algorithms" (PDF) . Expert Systems with Applications . 153 . Elsevier BV: 113402. doi :10.1016/j.eswa.2020.113402. ISSN 0957-4174. S2CID 216472225. Архивировано (PDF) из оригинала 9 сентября 2024 г. . Получено 9 сентября 2024 г. .
^ Wu, J.; Chan, C. (1993). «Распознавание изолированных слов с помощью моделей нейронных сетей с коэффициентами кросс-корреляции для динамики речи». Труды IEEE по анализу образов и машинному интеллекту . 15 (11): 1174–1185. doi :10.1109/34.244678.
^ SA Zahorian, AM Zimmer и F. Meng, (2002) «Классификация гласных для компьютерной визуальной обратной связи для обучения речи людей с нарушениями слуха», в ICSLP 2002
^ Ху, Хунбинг; Захориан, Стивен А. (2010). «Методы снижения размерности для фонетического распознавания HMM» (PDF) . ICASSP 2010. Архивировано (PDF) из оригинала 6 июля 2012 г.
^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Маркировка последовательностей в структурированных доменах с иерархическими рекуррентными нейронными сетями» (PDF) . Труды IJCAI . Архивировано (PDF) из оригинала 15 августа 2017 г.
^ Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (2013). «Распознавание речи с помощью глубоких рекуррентных нейронных сетей». arXiv : 1303.5778 [cs.NE].ИКАССП 2013.
^ Вайбель, Алекс (1989). «Модульная конструкция нейронных сетей с задержкой по времени для распознавания речи» (PDF) . Neural Computation . 1 (1): 39–46. doi :10.1162/neco.1989.1.1.39. S2CID 236321. Архивировано (PDF) из оригинала 29 июня 2016 г.
^ Маас, Эндрю Л.; Ле, Куок В.; О'Нил, Тайлер М.; Виньялс, Ориол; Нгуен, Патрик; Нг, Эндрю Й. (2012). «Рекуррентные нейронные сети для шумоподавления в надежном ASR». Труды Interspeech 2012 .
^ ab Deng, Li; Yu, Dong (2014). "Глубокое обучение: методы и приложения" (PDF) . Основы и тенденции в обработке сигналов . 7 (3–4): 197–387. CiteSeerX 10.1.1.691.3679 . doi :10.1561/2000000039. Архивировано (PDF) из оригинала 22 октября 2014 г.
^ Ю, Д.; Дэн, Л.; Даль, Г. (2010). «Роль предварительной подготовки и тонкой настройки в контекстно-зависимых DBN-HMM для распознавания речи в реальном мире» (PDF) . Семинар NIPS по глубокому обучению и неконтролируемому обучению признаков .
^ Даль, Джордж Э.; Ю, Донг; Дэн, Ли; Асеро, Алекс (2012). «Контекстно-зависимые предварительно обученные глубокие нейронные сети для распознавания речи с большим словарным запасом». Труды IEEE по обработке звука, речи и языка . 20 (1): 30–42. doi :10.1109/TASL.2011.2134090. S2CID 14862572.
^ Дэн Л., Ли, Дж., Хуан, Дж., Яо, К., Ю, Д., Сейде, Ф. и др. Последние достижения в области глубокого обучения для исследования речи в Microsoft Архивировано 9 сентября 2024 г. в Wayback Machine . ICASSP, 2013.
^ ab Yu, D.; Deng, L. (2014). «Автоматическое распознавание речи: подход глубокого обучения (Издательство: Springer)». {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Дэн, Л.; Ли, Сяо (2013). «Парадигмы машинного обучения для распознавания речи: обзор» (PDF) . IEEE Transactions on Audio, Speech, and Language Processing . 21 (5): 1060–1089. doi :10.1109/TASL.2013.2244083. S2CID 16585863. Архивировано (PDF) из оригинала 9 сентября 2024 г. . Получено 9 сентября 2024 г. .
^ Шмидхубер, Юрген (2015). «Глубокое обучение». Scholarpedia . 10 (11): 32832. Bibcode : 2015SchpJ..1032832S. doi : 10.4249/scholarpedia.32832 .
^ Л. Дэн, М. Сельцер, Д. Ю, А. Асеро, А. Мохамед и Г. Хинтон (2010) Двоичное кодирование речевых спектрограмм с использованием глубокого автокодировщика. Interspeech.
^ Тюске, Золтан; Голик, Павел; Шлютер, Ральф; Ней, Герман (2014). «Акустическое моделирование с помощью глубоких нейронных сетей с использованием необработанного временного сигнала для LVCSR» (PDF) . Interspeech 2014. Архивировано (PDF) из оригинала 21 декабря 2016 г.
^ Джурафски, Дэниел (2016). Обработка речи и языка .
^ Грейвс, Алекс (2014). «К сквозному распознаванию речи с помощью рекуррентных нейронных сетей» (PDF) . ICML . Архивировано из оригинала (PDF) 10 января 2017 г. . Получено 22 июля 2019 г. .
^ Амодеи, Дарио (2016). «Глубокая речь 2: сквозное распознавание речи на английском и китайском языках». arXiv : 1512.02595 [cs.CL].
^ "LipNet: Насколько легко, по-вашему, читать по губам?". YouTube . 4 ноября 2016 г. Архивировано из оригинала 27 апреля 2017 г. Получено 5 мая 2017 г.
^ Ассаэль, Яннис; Шиллингфорд, Брендан; Уайтсон, Шимон; де Фрейтас, Нандо (5 ноября 2016 г.). «LipNet: сквозное чтение по губам на уровне предложений». arXiv : 1611.01599 [cs.CV].
^ Шиллингфорд, Брендан; Ассаэль, Яннис; Хоффман, Мэтью В.; Пейн, Томас; Хьюз, Циан; Прабху, Утсав; Ляо, Хэнк; Сак, Хасим; Рао, Канишка (13 июля 2018 г.). «Крупномасштабное визуальное распознавание речи». arXiv : 1807.05162 [cs.CV].
^ Ли, Джейсон; Лаврухин, Виталий; Гинзбург, Борис; Лири, Райан; Кучаев, Алексей; Коэн, Джонатан М.; Нгуен, Хуен; Гадде, Рави Теджа (2019). «Джаспер: сквозная сверточная нейронная акустическая модель». Interspeech 2019. С. 71–75. arXiv : 1904.03288 . doi : 10.21437/Interspeech.2019-1819.
^ Криман, Сэмюэл; Беляев, Станислав; Гинзбург, Борис; Хуан, Джоселин; Кучаев, Алексей; Лаврухин, Виталий; Лири, Райан; Ли, Джейсон; Чжан, Ян (22 октября 2019 г.), QuartzNet: Глубокое автоматическое распознавание речи с помощью одномерных разделяемых сверток с временным каналом , arXiv : 1910.10261
^ Медейрос, Эдуардо; Корадо, Леонель; Рато, Луис; Куарежма, Пауло; Салгейро, Педро (май 2023 г.). «Адаптация речи к тексту для малоресурсного европейского португальского языка с использованием глубокого обучения». Будущий Интернет . 15 (5): 159. дои : 10.3390/fi15050159 . ISSN 1999-5903.
^ Джоши, Равирадж; Сингх, Анупам (май 2022 г.). Малмаси, Шервин; Рохленко, Олег; Уэффинг, Никола; Гай, Идо; Агихтейн, Юджин; Каллумади, Сурья (ред.). «Простая базовая линия для адаптации домена в сквозных системах ASR с использованием синтетических данных». Труды Пятого семинара по электронной коммерции и обработке естественного языка (ECNLP 5) . Дублин, Ирландия: Ассоциация компьютерной лингвистики: 244–249. arXiv : 2206.13240 . doi :10.18653/v1/2022.ecnlp-1.28.
^ Sukhadia, Vrunda N.; Umesh, S. (9 января 2023 г.). «Адаптация домена моделей целевых доменов с низкими ресурсами с использованием хорошо обученных моделей ASR-конформеров». Семинар IEEE по технологиям разговорного языка (SLT) 2022 г. IEEE. стр. 295–301. arXiv : 2202.09167 . doi :10.1109/SLT54892.2023.10023233. ISBN 979-8-3503-9690-4.
^ Чан, Уильям; Джейтли, Навдип; Ле, Куок; Виньялс, Ориол (2016). «Слушай, внимай и произноси: нейронная сеть для распознавания разговорной речи с большим словарным запасом» (PDF) . ICASSP . Архивировано (PDF) из оригинала 9 сентября 2024 г. . Получено 9 сентября 2024 г. .
^ Богданов, Дмитрий (2016). «Сквозное распознавание речи с большим словарным запасом на основе внимания». arXiv : 1508.04395 [cs.CL].
^ Chorowski, Jan; Jaitly, Navdeep (8 декабря 2016 г.). «К лучшему декодированию и интеграции языковых моделей в моделях последовательности». arXiv : 1612.02695 [cs.NE].
^ Чан, Уильям; Чжан, Ю; Ле, Куок; Джейтли, Навдип (10 октября 2016 г.). «Разложение скрытых последовательностей». arXiv : 1610.03035 [stat.ML].
^ Чунг, Джун Сон; Сениор, Эндрю; Виньялс, Ориол; Зиссерман, Эндрю (16 ноября 2016 г.). «Чтение предложений по губам в дикой природе». Конференция IEEE 2017 г. по компьютерному зрению и распознаванию образов (CVPR) . стр. 3444–3453. arXiv : 1611.05358 . doi :10.1109/CVPR.2017.367. ISBN 978-1-5386-0457-1. S2CID 1662180.
^ Эль-Хейр, Яссин и др. (21 октября 2023 г.), Автоматическая оценка произношения — обзор , Конференция по эмпирическим методам обработки естественного языка, arXiv : 2310.13974 , S2CID 264426545
^ Айзекс, Талия; Хардинг, Люк (июль 2017 г.). «Оценка произношения». Language Teaching . 50 (3): 347–366. doi : 10.1017/S0261444817000118 . ISSN 0261-4448. S2CID 209353525.
^ Лукина, Анастасия и др. (6 сентября 2015 г.), «Точность произношения и разборчивость неродной речи» (PDF) , INTERSPEECH 2015 , Дрезден, Германия: Международная ассоциация речевой коммуникации , стр. 1917–1921, заархивировано (PDF) из оригинала 9 сентября 2024 г. , извлечено 9 сентября 2024 г. , только 16% изменчивости разборчивости на уровне слов можно объяснить наличием очевидных ошибок произношения.
^ О'Брайен, Мэри Грэнтэм и др. (31 декабря 2018 г.). «Направления будущего технологий в исследовании и преподавании произношения». Журнал произношения второго языка . 4 (2): 182–207. doi : 10.1075/jslp.17001.obr . hdl : 2066/199273 . ISSN 2215-1931. S2CID 86440885. Исследователи произношения в первую очередь заинтересованы в улучшении разборчивости и понятности учащихся второго языка, но они еще не собрали достаточного количества репрезентативных и надежных данных (записей речи с соответствующими аннотациями и суждениями), указывающих, какие ошибки влияют на эти речевые измерения, а какие нет. Эти данные необходимы для обучения алгоритмов ASR для оценки разборчивости учащихся второго языка.
^ Эскенази, Максин (январь 1999 г.). «Использование автоматической обработки речи для обучения произношению на иностранном языке: некоторые проблемы и прототип». Language Learning & Technology . 2 (2): 62–76. Архивировано из оригинала 9 сентября 2024 г. Получено 11 февраля 2023 г.
^ Tholfsen, Mike (9 февраля 2023 г.). «Reading Coach in Immersive Reader plus new features coming to Reading Progress in Microsoft Teams». Образовательный блог Techcommunity . Microsoft. Архивировано из оригинала 9 сентября 2024 г. Получено 12 февраля 2023 г.
^ Банерджи, Олина (7 марта 2023 г.). «Школы используют голосовые технологии для обучения чтению. Помогает ли это?». EdSurge News . Архивировано из оригинала 9 сентября 2024 г. Получено 7 марта 2023 г.
^ Хэир, Адам и др. (19 июня 2018 г.). «Мир апраксии: логопедическая игра для детей с нарушениями речевого звука». Труды 17-й конференции ACM по дизайну взаимодействия и детям (PDF) . стр. 119–131. doi :10.1145/3202185.3202733. ISBN 9781450351522. S2CID 13790002. Архивировано (PDF) из оригинала 9 сентября 2024 г. . Получено 9 сентября 2024 г. .
^ «Компьютер говорит нет: ирландский ветеринар провалил устный тест по английскому языку, необходимый для пребывания в Австралии». The Guardian . Australian Associated Press. 8 августа 2017 г. Архивировано из оригинала 9 сентября 2024 г. Получено 12 февраля 2023 г.
↑ Ферриер, Трейси (9 августа 2017 г.). «Австралийский бывший читатель новостей со степенью по английскому языку провалил тест робота по английскому языку». The Sydney Morning Herald . Архивировано из оригинала 9 сентября 2024 г. Получено 12 февраля 2023 г.
↑ Мэйн, Эд; Уотсон, Ричард (9 февраля 2022 г.). «Тест по английскому языку, который разрушил тысячи жизней». BBC News . Архивировано из оригинала 9 сентября 2024 г. Получено 12 февраля 2023 г.
^ Джойс, Кэти Спратт (24 января 2023 г.). «13 слов, которые можно произнести двумя способами». Reader's Digest. Архивировано из оригинала 9 сентября 2024 г. Получено 23 февраля 2023 г.
^ Например, CMUDICT , "The CMU Pronouncing Dictionary". www.speech.cs.cmu.edu . Архивировано из оригинала 15 августа 2010 года . Получено 15 февраля 2023 года .Сравните «four», представленное как «F AO R» с гласной AO, как в слове «caught», и «row», представленное как «R OW» с гласной OW, как в слове «oat».
^ Ту, Зехай; Ма, Нинг; Баркер, Джон (2022). «Неконтролируемые меры неопределенности автоматического распознавания речи для ненавязчивого прогнозирования разборчивости речи» (PDF) . Proc. Interspeech 2022 . INTERSPEECH 2022. ISCA. стр. 3493–3497. doi :10.21437/Interspeech.2022-10408. Архивировано (PDF) из оригинала 9 сентября 2024 г. . Получено 17 декабря 2023 г. .
^ Общеевропейские рамки референции по изучению, преподаванию и оценке языков: Сопроводительный том с новыми дескрипторами. Программа языковой политики, Отдел образовательной политики, Департамент образования, Совет Европы . Февраль 2018 г. С. 136. OCLC 1090351600. Архивировано из оригинала 9 сентября 2024 г. Получено 9 сентября 2024 г.
^ Энглунд, Кристин (2004). Распознавание речи в самолете JAS 39 Gripen: адаптация к речи при различных перегрузках (PDF) (Магистерская диссертация). Стокгольмский королевский технологический институт . Архивировано (PDF) из оригинала 2 октября 2008 г.
^ "The Cockpit". Eurofighter Typhoon . Архивировано из оригинала 1 марта 2017 года.
^ "Eurofighter Typhoon – Самый передовой истребитель в мире". www.eurofighter.com . Архивировано из оригинала 11 мая 2013 года . Получено 1 мая 2018 года .
^ Шутте, Джон (15 октября 2007 г.). «Исследователи настраивают систему связи пилота самолета F-35». ВВС США. Архивировано из оригинала 20 октября 2007 г.
^ "Преодоление коммуникативных барьеров в классе". MassMATCH. 18 марта 2010 г. Архивировано из оригинала 25 июля 2013 г. Получено 15 июня 2013 г.
^ ab "Распознавание речи для обучения". Национальный центр технологических инноваций. 2010. Архивировано из оригинала 13 апреля 2014 года . Получено 26 марта 2014 года .
^ Фолленсби, Боб; Макклоски-Дейл, Сьюзен (2000). «Распознавание речи в школах: обновление с места событий». Конференция «Технологии и люди с ограниченными возможностями» 2000 г. Архивировано из оригинала 21 августа 2006 г. Получено 26 марта 2014 г.
^ "Распознавание речи для людей с ограниченными возможностями". Архивировано из оригинала 4 апреля 2008 года.
^ Международная группа поддержки друзей
^ Гарретт, Дженнифер Тамлин и др. (2011). «Использование программного обеспечения для распознавания речи для повышения беглости письма у лиц с физическими нарушениями». Журнал специальных образовательных технологий . 26 (1): 25–41. doi :10.1177/016264341102600104. S2CID 142730664. Архивировано из оригинала 9 сентября 2024 г. Получено 9 сентября 2024 г.
^ Форгрейв, Карен Э. «Вспомогательные технологии: расширение прав и возможностей учащихся с ограниченными возможностями». Clearing House 75.3 (2002): 122–6. Web.
^ Тан, К. У.; Камуа, Ридха; Сутан, Виктор (2004). «Технология распознавания речи для образования лиц с ограниченными возможностями». Журнал систем образовательных технологий . 33 (2): 173–84. CiteSeerX 10.1.1.631.3736 . doi :10.2190/K6K8-78K2-59Y7-R9R2. S2CID 143159997.
^ "Проекты: Планетарные микрофоны". Планетарное общество. Архивировано из оригинала 27 января 2012 года.
^ Каридакис, Джордж; Кастеллано, Джиневра; Кессоус, Лоик; Раузайу, Амариллис; Малатеста, Лори; Астериадис, Стелиос; Карпузис, Костас (19 сентября 2007 г.). «Мультимодальное распознавание эмоций по выразительным лицам, жестам тела и речи». Искусственный интеллект и инновации 2007: от теории к приложениям . IFIP Международная федерация по обработке информации. Том 247. Springer US. стр. 375–388. doi :10.1007/978-0-387-74161-1_41. ISBN 978-0-387-74160-4.
^ "Что такое субтитры в реальном времени? | DO-IT". www.washington.edu . Архивировано из оригинала 9 сентября 2024 г. . Получено 11 апреля 2021 г. .
^ Чжэн, Томас Фанг; Ли, Ланьтянь (2017). Вопросы, связанные с надежностью распознавания говорящего. SpringerBriefs in Electrical and Computer Engineering. Сингапур: Springer Singapore. doi : 10.1007/978-981-10-3238-7. ISBN 978-981-10-3237-0. Архивировано из оригинала 9 сентября 2024 г. . Получено 9 сентября 2024 г. .
^ Чиарамелла, Альберто. «Отчет об оценке производительности прототипа». Рабочий пакет Sundial 8000 (1993).
^ Gerbino, E.; Baggia, P.; Ciaramella, A.; Rullent, C. (1993). "Тестирование и оценка системы разговорного диалога". IEEE Международная конференция по акустике, речи и обработке сигналов . стр. 135–138 том 2. doi :10.1109/ICASSP.1993.319250. ISBN 0-7803-0946-4. S2CID 57374050.
^ Национальный институт стандартов и технологий. «История оценки автоматического распознавания речи в NIST. Архивировано 8 октября 2013 г. в Wayback Machine ».
^ «Названия букв могут вызывать путаницу и другие вещи, которые нужно знать о связях букв и звуков». NAEYC . Архивировано из оригинала 9 сентября 2024 г. Получено 27 октября 2023 г.
^ «Послушайте: ваш помощник на базе искусственного интеллекта тоже сходит с ума по NPR». NPR . 6 марта 2016 г. Архивировано из оригинала 23 июля 2017 г.
^ Claburn, Thomas (25 августа 2017 г.). «Возможно ли управлять Amazon Alexa, Google Now с помощью неслышимых команд? Конечно». The Register . Архивировано из оригинала 2 сентября 2017 г.
^ "Атака направлена на системы автоматического распознавания речи". vice.com . 31 января 2018 г. Архивировано из оригинала 3 марта 2018 г. Получено 1 мая 2018 г.
^ Бейджи, Хомаюн (2011). Основы распознавания говорящего. Нью-Йорк: Springer. ISBN 978-0-387-77591-3. Архивировано из оригинала 31 января 2018 года.
^ Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... и Vesely, K. (2011). Набор инструментов для распознавания речи Kaldi. На семинаре IEEE 2011 по автоматическому распознаванию и пониманию речи (№ CONF). IEEE Signal Processing Society.
^ "Common Voice by Mozilla". voice.mozilla.org . Архивировано из оригинала 27 февраля 2020 г. Получено 9 ноября 2019 г.
^ «Реализация архитектуры DeepSpeech от Baidu на TensorFlow: mozilla/DeepSpeech». 9 ноября 2019 г. Архивировано из оригинала 9 сентября 2024 г. Получено 9 сентября 2024 г. через GitHub.
^ "GitHub - tensorflow/docs: Документация TensorFlow". 9 ноября 2019 г. Архивировано из оригинала 9 сентября 2024 г. Получено 9 сентября 2024 г. – через GitHub.
^ "Coqui, стартап, предоставляющий технологию открытого выступления для всех". GitHub . Архивировано из оригинала 9 сентября 2024 г. Получено 7 марта 2022 г.
^ Коффи, Донавин (28 апреля 2021 г.). «Маори пытаются спасти свой язык от Big Tech». Wired UK . ISSN 1357-0978. Архивировано из оригинала 9 сентября 2024 г. Получено 16 октября 2021 г.
^ "Почему вам следует перейти с DeepSpeech на coqui.ai". Mozilla Discourse . 7 июля 2021 г. Получено 16 октября 2021 г.
^ "Печатайте голосом". Архивировано из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .

Дальнейшее чтение

Коул, Рональд; Мариани, Джозеф ; Ушкорейт, Ганс; Вариле, Джованни Баттиста; Заенен, Энни; Замполли; Зуэ, Виктор, ред. (1997). Обзор современного состояния технологии человеческого языка . Кембриджские исследования по обработке естественного языка. Том. XII–XIII. Издательство Кембриджского университета. ISBN 978-0-521-59277-2.
Junqua, J.-C.; Haton, J.-P. (1995). Надежность автоматического распознавания речи: основы и приложения . Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). «Технологии разговорного интерфейса». В Sears, Andrew ; Jacko, Julie A. (ред.). Справочник по взаимодействию человека с компьютером: основы, развивающиеся технологии и новые приложения (человеческий фактор и эргономика) . Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
Пьераччини, Роберто (2012). Голос в машине. Создание компьютеров, которые понимают речь . MIT Press. ISBN 978-0262016858.
Пирани, Джанкарло, ред. (2013). Продвинутые алгоритмы и архитектуры для понимания речи . Springer Science & Business Media. ISBN 978-3-642-84341-9.
Signer, Beat; Hoste, Lode (декабрь 2013 г.). «SpeeG2: интерфейс на основе речи и жестов для эффективного ввода текста без контроллера». Труды ICMI 2013 г. 15-я международная конференция по мультимодальному взаимодействию. Сидней, Австралия.
Woelfel, Matthias; McDonough, John (26 мая 2009 г.). Распознавание речи на расстоянии . Wiley. ISBN 978-0470517048.