Обработка речи — это изучение речевых сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработку речи можно рассматривать как частный случай цифровой обработки сигналов , применяемой к речевым сигналам . Аспекты обработки речи включают получение, обработку, хранение, передачу и вывод речевых сигналов. Различные задачи обработки речи включают распознавание речи , синтез речи , диаризацию говорящего , улучшение речи , распознавание говорящего и т. д. [1]
Ранние попытки обработки и распознавания речи были в основном сосредоточены на понимании нескольких простых фонетических элементов, таких как гласные. В 1952 году три исследователя из Bell Labs, Стивен Балашек, Р. Биддулф и К. Х. Дэвис, разработали систему, которая могла распознавать цифры, произносимые одним говорящим. [2] Пионерские работы в области распознавания речи с использованием анализа ее спектра были опубликованы в 1940-х годах. [3]
Линейное предсказательное кодирование (LPC), алгоритм обработки речи, был впервые предложен Фумитадой Итакурой из Университета Нагои и Шузо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. [4] Дальнейшие разработки в области технологии LPC были сделаны Бишну С. Аталом и Манфредом Р. Шредером в Bell Labs в 1970-х годах. [4] LPC был основой для технологии передачи голоса по IP (VoIP), [4] а также для микросхем синтезатора речи , таких как речевые микросхемы LPC компании Texas Instruments, используемые в игрушках Speak & Spell с 1978 года. [5]
Одним из первых коммерчески доступных продуктов распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другими в Bell Labs, была использована AT&T в их службе обработки вызовов распознавания голоса для маршрутизации вызовов без участия человека-оператора. К этому моменту словарный запас этих систем был больше, чем средний словарный запас человека. [6]
К началу 2000-х годов доминирующая стратегия обработки речи начала смещаться от скрытых марковских моделей к более современным нейронным сетям и глубокому обучению . [ необходима ссылка ]
В 2012 году Джеффри Хинтон и его команда в Университете Торонто продемонстрировали, что глубокие нейронные сети могут значительно превзойти традиционные системы на основе HMM в задачах распознавания непрерывной речи с большим словарным запасом. Этот прорыв привел к широкому внедрению методов глубокого обучения в отрасли. [7] [8]
К середине 2010-х годов такие компании, как Google , Microsoft , Amazon и Apple, интегрировали передовые системы распознавания речи в своих виртуальных помощников, таких как Google Assistant , Cortana , Alexa и Siri . [9] Эти системы использовали модели глубокого обучения для обеспечения более естественного и точного голосового взаимодействия.
Разработка моделей на основе Transformer, таких как BERT (Bidirectional Encoder Representations from Transformers) от Google и GPT (Generative Pre-trained Transformer) от OpenAI, еще больше раздвинула границы обработки естественного языка и распознавания речи. Эти модели позволили более контекстно-зависимое и семантически богатое понимание речи. [10] [7] В последние годы обрели популярность сквозные модели распознавания речи. Эти модели упрощают конвейер распознавания речи, напрямую преобразуя аудиовход в текстовый вывод, минуя промежуточные этапы, такие как извлечение признаков и акустическое моделирование. Такой подход упростил процесс разработки и повысил производительность. [11]
Динамическое изменение времени (DTW) — это алгоритм измерения сходства между двумя временными последовательностями , которые могут различаться по скорости. В общем, DTW — это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное соответствие обозначается соответствием, которое удовлетворяет всем ограничениям и правилам и имеет минимальную стоимость, где стоимость вычисляется как сумма абсолютных разностей для каждой сопоставленной пары индексов между их значениями. [ необходима цитата ]
Скрытую марковскую модель можно представить как простейшую динамическую байесовскую сеть . Цель алгоритма — оценить скрытую переменную x(t) по списку наблюдений y(t). Применяя свойство Маркова , условное распределение вероятностей скрытой переменной x ( t ) в момент времени t , учитывая значения скрытой переменной x в любой момент времени, зависит только от значения скрытой переменной x ( t −1). Аналогично, значение наблюдаемой переменной y ( t ) зависит только от значения скрытой переменной x ( t ) (оба в момент времени t ). [ требуется цитата ]
Искусственная нейронная сеть (ИНС) основана на наборе соединенных единиц или узлов, называемых искусственными нейронами , которые в общих чертах моделируют нейроны в биологическом мозге . Каждое соединение, подобно синапсам в биологическом мозге , может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, который получает сигнал, может обработать его, а затем подать сигнал на дополнительные искусственные нейроны, подключенные к нему. В обычных реализациях ИНС сигнал в соединении между искусственными нейронами является действительным числом , а выход каждого искусственного нейрона вычисляется некоторой нелинейной функцией суммы его входов. [ необходима цитата ]
Фаза обычно предполагается случайной однородной переменной и, таким образом, бесполезной. Это происходит из-за сворачивания фазы: [12] результат функции арктангенса не является непрерывным из-за периодических скачков на . После разворачивания фазы (см., [13] Глава 2.3; Мгновенная фаза и частота ), ее можно выразить как: [12] [14] , где - линейная фаза ( - временной сдвиг в каждом кадре анализа), - фазовый вклад речевого тракта и источника фазы. [14] Полученные оценки фазы можно использовать для снижения шума: временное сглаживание мгновенной фазы [15] и ее производных по времени ( мгновенная частота ) и частоте ( групповая задержка ), [16] сглаживание фазы по частоте. [16] Объединенные оценщики амплитуды и фазы могут восстанавливать речь более точно, основываясь на предположении о распределении фазы по Мизесу. [14]