stringtranslate.com

Обработка речи

Обработка речи — это изучение речевых сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработку речи можно рассматривать как частный случай цифровой обработки сигналов , применяемой к речевым сигналам . Аспекты обработки речи включают получение, обработку, хранение, передачу и вывод речевых сигналов. Различные задачи обработки речи включают распознавание речи , синтез речи , диаризацию говорящего , улучшение речи , распознавание говорящего и т. д. [1]

История

Ранние попытки обработки и распознавания речи были в основном сосредоточены на понимании нескольких простых фонетических элементов, таких как гласные. В 1952 году три исследователя из Bell Labs, Стивен Балашек, Р. Биддулф и К. Х. Дэвис, разработали систему, которая могла распознавать цифры, произносимые одним говорящим. [2] Пионерские работы в области распознавания речи с использованием анализа ее спектра были опубликованы в 1940-х годах. [3]

Линейное предсказательное кодирование (LPC), алгоритм обработки речи, был впервые предложен Фумитадой Итакурой из Университета Нагои и Шузо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. [4] Дальнейшие разработки в области технологии LPC были сделаны Бишну С. Аталом и Манфредом Р. Шредером в Bell Labs в 1970-х годах. [4] LPC был основой для технологии передачи голоса по IP (VoIP), [4] а также для микросхем синтезатора речи , таких как речевые микросхемы LPC компании Texas Instruments, используемые в игрушках Speak & Spell с 1978 года. [5]

Одним из первых коммерчески доступных продуктов распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другими в Bell Labs, была использована AT&T в их службе обработки вызовов распознавания голоса для маршрутизации вызовов без участия человека-оператора. К этому моменту словарный запас этих систем был больше, чем средний словарный запас человека. [6]

К началу 2000-х годов доминирующая стратегия обработки речи начала смещаться от скрытых марковских моделей к более современным нейронным сетям и глубокому обучению . [ необходима ссылка ]

В 2012 году Джеффри Хинтон и его команда в Университете Торонто продемонстрировали, что глубокие нейронные сети могут значительно превзойти традиционные системы на основе HMM в задачах распознавания непрерывной речи с большим словарным запасом. Этот прорыв привел к широкому внедрению методов глубокого обучения в отрасли. [7] [8]

К середине 2010-х годов такие компании, как Google , Microsoft , Amazon и Apple, интегрировали передовые системы распознавания речи в своих виртуальных помощников, таких как Google Assistant , Cortana , Alexa и Siri . [9] Эти системы использовали модели глубокого обучения для обеспечения более естественного и точного голосового взаимодействия.

Разработка моделей на основе Transformer, таких как BERT (Bidirectional Encoder Representations from Transformers) от Google и GPT (Generative Pre-trained Transformer) от OpenAI, еще больше раздвинула границы обработки естественного языка и распознавания речи. Эти модели позволили более контекстно-зависимое и семантически богатое понимание речи. [10] [7] В последние годы обрели популярность сквозные модели распознавания речи. Эти модели упрощают конвейер распознавания речи, напрямую преобразуя аудиовход в текстовый вывод, минуя промежуточные этапы, такие как извлечение признаков и акустическое моделирование. Такой подход упростил процесс разработки и повысил производительность. [11]

Методы

Динамическое искривление времени

Динамическое изменение времени (DTW) — это алгоритм измерения сходства между двумя временными последовательностями , которые могут различаться по скорости. В общем, DTW — это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное соответствие обозначается соответствием, которое удовлетворяет всем ограничениям и правилам и имеет минимальную стоимость, где стоимость вычисляется как сумма абсолютных разностей для каждой сопоставленной пары индексов между их значениями. [ необходима цитата ]

Скрытые марковские модели

Скрытую марковскую модель можно представить как простейшую динамическую байесовскую сеть . Цель алгоритма — оценить скрытую переменную x(t) по списку наблюдений y(t). Применяя свойство Маркова , условное распределение вероятностей скрытой переменной x ( t ) в момент времени t , учитывая значения скрытой переменной x в любой момент времени, зависит только от значения скрытой переменной x ( t −1). Аналогично, значение наблюдаемой переменной y ( t ) зависит только от значения скрытой переменной x ( t ) (оба в момент времени t ). [ требуется цитата ]

Искусственные нейронные сети

Искусственная нейронная сеть (ИНС) основана на наборе соединенных единиц или узлов, называемых искусственными нейронами , которые в общих чертах моделируют нейроны в биологическом мозге . Каждое соединение, подобно синапсам в биологическом мозге , может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, который получает сигнал, может обработать его, а затем подать сигнал на дополнительные искусственные нейроны, подключенные к нему. В обычных реализациях ИНС сигнал в соединении между искусственными нейронами является действительным числом , а выход каждого искусственного нейрона вычисляется некоторой нелинейной функцией суммы его входов. [ необходима цитата ]

Обработка с учетом фазы

Фаза обычно предполагается случайной однородной переменной и, таким образом, бесполезной. Это происходит из-за сворачивания фазы: [12] результат функции арктангенса не является непрерывным из-за периодических скачков на . После разворачивания фазы (см., [13] Глава 2.3; Мгновенная фаза и частота ), ее можно выразить как: [12] [14] , где - линейная фаза ( - временной сдвиг в каждом кадре анализа), - фазовый вклад речевого тракта и источника фазы. [14] Полученные оценки фазы можно использовать для снижения шума: временное сглаживание мгновенной фазы [15] и ее производных по времени ( мгновенная частота ) и частоте ( групповая задержка ), [16] сглаживание фазы по частоте. [16] Объединенные оценщики амплитуды и фазы могут восстанавливать речь более точно, основываясь на предположении о распределении фазы по Мизесу. [14]

Приложения

Смотрите также

Ссылки

  1. ^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [eess.AS].
  2. ^ Juang, B.-H.; Rabiner, LR (2006), «Автоматическое распознавание речи: история», Encyclopedia of Language & Linguistics , Elsevier, стр. 806–819, doi :10.1016/b0-08-044854-2/00906-8, ISBN 9780080448541
  3. ^ Мясников, Л. Л.; Мясникова, Е. Н. (1970). Автоматическое распознавание звукового образа . Ленинград: Энергия.
  4. ^ abc Gray, Robert M. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного предиктивного кодирования и интернет-протокола» (PDF) . Найдено. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN  1932-8346.
  5. ^ «VC&G - Интервью с VC&G: 30 лет спустя Ричард Уиггинс рассказывает о развитии речи и правописания».
  6. ^ Хуан, Сюэдун; Бейкер, Джеймс; Редди, Радж (2014-01-01). «Историческая перспектива распознавания речи». Сообщения ACM . 57 (1): 94–103. doi :10.1145/2500887. ISSN  0001-0782. S2CID  6175701.
  7. ^ ab "Глубокие нейронные сети для акустического моделирования в распознавании речи" (PDF) . 2019-07-23 . Получено 2024-11-05 .
  8. ^ "РАСПОЗНАВАНИЕ РЕЧИ С ПОМОЩЬЮ ГЛУБОКИХ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ" (PDF) . 2019-07-23 . Получено 2024-11-05 .
  9. ^ Хой, Мэтью Б. (2018). «Alexa, Siri, Cortana и многое другое: Введение в голосовые помощники». Medical Reference Services Quarterly . 37 (1): 81–88. doi :10.1080/02763869.2018.1404391. ISSN  1540-9597. PMID  29327988.
  10. ^ "Vbee". vbee.vn (на вьетнамском) . Получено 2024-11-05 .
  11. ^ Хагивара, Масато (2021-12-21). Обработка естественного языка в реальном мире: практическое применение с глубоким обучением. Саймон и Шустер. ISBN 978-1-63835-039-2.
  12. ^ ab Mowlaee, Pejman; Kulmer, Josef (август 2015 г.). «Оценка фазы в одноканальном улучшении речи: ограничения-потенциал». IEEE/ACM Transactions on Audio, Speech, and Language Processing . 23 (8): 1283–1294. doi :10.1109/TASLP.2015.2430820. ISSN  2329-9290. S2CID  13058142. Получено 03.12.2017 .
  13. ^ Mowlaee, Pejman; Kulmer, Josef; Stahl, Johannes; Mayer, Florian (2017). Одноканальная обработка сигналов с учетом фазы в речевой коммуникации: теория и практика . Чичестер: Wiley. ISBN 978-1-119-23882-9.
  14. ^ abc Kulmer, Josef; Mowlaee, Pejman (апрель 2015 г.). «Оценка гармонической фазы в одноканальном улучшении речи с использованием распределения фон Мизеса и априорного SNR». Акустика, речь и обработка сигналов (ICASSP), 2015 IEEE Международная конференция по . IEEE. стр. 5063–5067.
  15. ^ Kulmer, Josef; Mowlaee, Pejman (май 2015 г.). «Оценка фазы в одноканальном улучшении речи с использованием фазовой декомпозиции». IEEE Signal Processing Letters . 22 (5): 598–602. Bibcode : 2015ISPL...22..598K. doi : 10.1109/LSP.2014.2365040. ISSN  1070-9908. S2CID  15503015. Получено 03.12.2017 .
  16. ^ ab Mowlaee, Pejman; Saeidi, Rahim; Stylianou, Yannis (июль 2016 г.). «Достижения в фазово-зависимой обработке сигналов в речевой коммуникации». Речевая коммуникация . 81 : 1–29. doi :10.1016/j.specom.2016.04.002. ISSN  0167-6393. S2CID  17409161 . Получено 03.12.2017 .