stringtranslate.com

Распознавание голосовой активности

Обнаружение голосовой активности ( VAD ), также известное как обнаружение речевой активности или обнаружение речи , представляет собой обнаружение наличия или отсутствия человеческой речи, используемое при обработке речи . [1] Основные области применения VAD — диаризация говорящего , кодирование речи и распознавание речи . [2] Он может облегчить обработку речи, а также может использоваться для деактивации некоторых процессов во время неречевой части аудиосеанса: он может избежать ненужного кодирования /передачи пакетов тишины в приложениях передачи голоса по интернет-протоколу (VoIP), экономя вычислительные ресурсы и пропускную способность сети .

VAD является важной технологией, обеспечивающей множество приложений на основе речи. Поэтому были разработаны различные алгоритмы VAD, которые обеспечивают различные функции и компромиссы между задержкой , чувствительностью , точностью и вычислительными затратами. Некоторые алгоритмы VAD также обеспечивают дальнейший анализ, например, является ли речь вокализованной , невокализованной или сдержанной . Обнаружение голосовой активности обычно не зависит от языка.

Впервые он был исследован для использования в системах интерполяции речи с временным распределением (TASI). [3]

Обзор алгоритма

Типичная конструкция алгоритма VAD выглядит следующим образом: [ необходима цитата ]

  1. Сначала может быть этап шумоподавления, например, посредством спектрального вычитания .
  2. Затем некоторые характеристики или величины вычисляются на основе фрагмента входного сигнала.
  3. Правило классификации применяется для классификации раздела как речевого или неречевого — часто это правило классификации обнаруживает, когда значение превышает определенный порог.

В этой последовательности может быть некоторая обратная связь, в которой решение VAD используется для улучшения оценки шума на этапе шумоподавления или для адаптивного изменения порога(ов). Эти операции обратной связи улучшают производительность VAD в нестационарном шуме (т. е. когда шум сильно меняется). [ необходима цитата ]

Представительный набор недавно опубликованных методов VAD формулирует правило принятия решения на покадровой основе, используя мгновенные измерения расстояния расхождения между речью и шумом. [ требуется ссылка ] Различные меры, которые используются в методах VAD, включают спектральный наклон , коэффициенты корреляции, логарифмическое отношение правдоподобия, кепстральные, взвешенные кепстральные и модифицированные меры расстояния. [ требуется ссылка ]

Независимо от выбора алгоритма VAD, необходимо найти компромисс между тем, чтобы голос был определен как шум, или шум был определен как голос (между ложноположительным и ложноотрицательным ). VAD, работающий в мобильном телефоне, должен быть способен обнаруживать речь в присутствии ряда самых разных типов акустического фонового шума. В этих сложных условиях обнаружения часто предпочтительнее, чтобы VAD был отказоустойчивым , указывая на обнаружение речи, когда решение находится под вопросом, чтобы снизить вероятность потери речевых сегментов. Самая большая трудность в обнаружении речи в этой среде заключается в очень низком отношении сигнал/шум (SNR), с которым приходится сталкиваться. Может оказаться невозможным различить речь и шум с помощью простых методов обнаружения уровня, когда части речевого высказывания скрыты под шумом.

Приложения

Для широкого спектра приложений, таких как цифровая мобильная радиосвязь, цифровая одновременная передача голоса и данных (DSVD) или хранение речи, желательно обеспечить прерывистую передачу параметров кодирования речи. Преимущества могут включать в себя более низкое среднее энергопотребление в мобильных телефонах, более высокую среднюю скорость передачи данных для одновременных услуг, таких как передача данных, или большую емкость на чипах хранения . Однако улучшение зависит в основном от процента пауз во время речи и надежности VAD, используемого для обнаружения этих интервалов. С одной стороны, выгодно иметь низкий процент речевой активности. С другой стороны, отсечение, то есть потеря миллисекунд активной речи, должно быть минимизировано для сохранения качества. Это важнейшая проблема для алгоритма VAD в условиях сильного шума.

Использование в телемаркетинге

Одно спорное применение VAD связано с предиктивными дозвонщиками , используемыми телемаркетинговыми фирмами. Чтобы максимизировать производительность агентов, телемаркетинговые фирмы устанавливают предиктивные дозвонщики, чтобы звонить на большее количество номеров, чем у них есть доступных агентов, зная, что большинство звонков закончатся либо «Звонок – Нет ответа», либо автоответчиками. Когда человек отвечает, он обычно говорит коротко (« Привет », « Добрый вечер » и т. д.), а затем наступает короткий период тишины. Сообщения автоответчика обычно представляют собой непрерывную речь продолжительностью 3–15 секунд. Правильно установив параметры VAD, дозвонщики могут определить, ответил ли на звонок человек или машина, и, если это человек, перевести звонок на доступного агента. Если он обнаруживает сообщение автоответчика, дозвонщик вешает трубку. Часто, даже когда система правильно определяет человека, отвечающего на звонок, ни один агент может быть недоступен, что приводит к « тихому звонку ». Фильтрация звонков с многосекундным сообщением, например «пожалуйста, скажите, кто вы, и я могу поднять трубку», расстроит такие автоматические звонки. [ необходима цитата ]

Оценка эффективности

Для оценки VAD его выходные данные с использованием тестовых записей сравниваются с данными «идеального» VAD, созданного путем ручного аннотирования наличия или отсутствия голоса в записях. Производительность VAD обычно оценивается на основе следующих четырех параметров: [4]

Хотя описанный выше метод предоставляет полезную объективную информацию о производительности VAD, он является лишь приблизительной мерой субъективного эффекта. Например, эффекты отсечения речевого сигнала могут иногда скрываться из-за наличия фонового шума, в зависимости от модели, выбранной для синтеза комфортного шума, поэтому часть отсечения, измеренного с помощью объективных тестов, на самом деле не слышна. Поэтому важно проводить субъективные тесты VAD, главная цель которых — убедиться, что воспринимаемое отсечение приемлемо. В приложениях VoIP отсечение на входе можно уменьшить, перемотав его на момент, непосредственно предшествующий обнаружению, и отправив данные с небольшой задержкой.

Этот вид теста требует, чтобы определенное количество слушателей оценило записи, содержащие результаты обработки тестируемых VAD, выставив оценки нескольким речевым последовательностям по следующим признакам:

Затем эти оценки используются для расчета средних результатов по каждой из перечисленных выше характеристик, тем самым обеспечивая глобальную оценку поведения тестируемого VAD.

В заключение, в то время как объективные методы очень полезны на начальном этапе для оценки качества VAD, субъективные методы более значимы. Поскольку они требуют участия нескольких человек в течение нескольких дней, что увеличивает стоимость, они обычно используются только тогда, когда предложение должно быть стандартизировано.

Реализации

Смотрите также

Ссылки

  1. ^ Манодж Бхатия; Джонатан Дэвидсон; Сатиш Калидинди; Судипто Мукерджи; Джеймс Питерс (20 октября 2006 г.). «VoIP: углубленный анализ — обнаружение голосовой активности». Циско .
  2. ^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкинг; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [eess.AS].
  3. ^ Рави Рамачандран; Ричард Маммон (6 декабря 2012 г.). Современные методы обработки речи. Springer Science & Business Media. стр. 102–. ISBN 978-1-4615-2281-2.
  4. ^ Beritelli, F.; Casale, S.; Ruggeri, G.; Serrano, S. (март 2002 г.). «Оценка и сравнение производительности детекторов G.729/AMR/fuzzy voice activity». IEEE Signal Processing Letters . 9 (3): 85–88. Bibcode : 2002ISPL....9...85B. doi : 10.1109/97.995824. S2CID  16724847.
  5. ^ Freeman, DK (май 1989). «Детектор голосовой активности для общеевропейской цифровой сотовой мобильной телефонной службы». Труды Международной конференции по акустике, речи и обработке сигналов (ICASSP-89) . Том 1. стр. 369–372. doi :10.1109/ICASSP.1989.266442.
  6. ^ Benyassine, A.; Shlomot, E.; Huan-yu Su; Massaloux, D.; Lamblin, C.; Petit, J.-P. (сентябрь 1997 г.). «Рекомендация ITU-T G.729, приложение B: схема сжатия тишины для использования с G.729, оптимизированная для цифровых одновременных приложений передачи голоса и данных V.70». Журнал IEEE Communications . 35 (9): 64–73. doi :10.1109/35.620527.
  7. ^ ETSI (1999). "GSM 06.42, Цифровая сотовая телекоммуникационная система (Фаза 2+); Речь с половинной скоростью; Детектор речевой активности (VAD) для каналов речевого трафика с половинной скоростью" (Документ). ETSI.
  8. ^ Коэн, И. (сентябрь 2003 г.). «Оценка спектра шума в неблагоприятных условиях: улучшенное рекурсивное усреднение с контролируемыми минимумами». Труды IEEE по обработке речи и звука . 11 (5): 466–475. CiteSeerX 10.1.1.620.8768 . doi :10.1109/TSA.2003.811544. 
  9. ^ «Алгоритм Speex VAD» . 30 сентября 2004 г.
  10. ^ "Библиотека Android Voice Activity Detection (VAD). Поддерживает модели WebRTC VAD GMM, Silero VAD DNN, Yamnet VAD DNN". Github . Получено 27 ноября 2019 г. .