Обнаружение голосовой активности ( VAD ), также известное как обнаружение речевой активности или обнаружение речи , представляет собой обнаружение наличия или отсутствия человеческой речи, используемое при обработке речи . [1] Основные области применения VAD — диаризация говорящего , кодирование речи и распознавание речи . [2] Он может облегчить обработку речи, а также может использоваться для деактивации некоторых процессов во время неречевой части аудиосеанса: он может избежать ненужного кодирования /передачи пакетов тишины в приложениях передачи голоса по интернет-протоколу (VoIP), экономя вычислительные ресурсы и пропускную способность сети .
VAD является важной технологией, обеспечивающей множество приложений на основе речи. Поэтому были разработаны различные алгоритмы VAD, которые обеспечивают различные функции и компромиссы между задержкой , чувствительностью , точностью и вычислительными затратами. Некоторые алгоритмы VAD также обеспечивают дальнейший анализ, например, является ли речь вокализованной , невокализованной или сдержанной . Обнаружение голосовой активности обычно не зависит от языка.
Впервые он был исследован для использования в системах интерполяции речи с временным распределением (TASI). [3]
Типичная конструкция алгоритма VAD выглядит следующим образом: [ необходима цитата ]
В этой последовательности может быть некоторая обратная связь, в которой решение VAD используется для улучшения оценки шума на этапе шумоподавления или для адаптивного изменения порога(ов). Эти операции обратной связи улучшают производительность VAD в нестационарном шуме (т. е. когда шум сильно меняется). [ необходима цитата ]
Представительный набор недавно опубликованных методов VAD формулирует правило принятия решения на покадровой основе, используя мгновенные измерения расстояния расхождения между речью и шумом. [ требуется ссылка ] Различные меры, которые используются в методах VAD, включают спектральный наклон , коэффициенты корреляции, логарифмическое отношение правдоподобия, кепстральные, взвешенные кепстральные и модифицированные меры расстояния. [ требуется ссылка ]
Независимо от выбора алгоритма VAD, необходимо найти компромисс между тем, чтобы голос был определен как шум, или шум был определен как голос (между ложноположительным и ложноотрицательным ). VAD, работающий в мобильном телефоне, должен быть способен обнаруживать речь в присутствии ряда самых разных типов акустического фонового шума. В этих сложных условиях обнаружения часто предпочтительнее, чтобы VAD был отказоустойчивым , указывая на обнаружение речи, когда решение находится под вопросом, чтобы снизить вероятность потери речевых сегментов. Самая большая трудность в обнаружении речи в этой среде заключается в очень низком отношении сигнал/шум (SNR), с которым приходится сталкиваться. Может оказаться невозможным различить речь и шум с помощью простых методов обнаружения уровня, когда части речевого высказывания скрыты под шумом.
Для широкого спектра приложений, таких как цифровая мобильная радиосвязь, цифровая одновременная передача голоса и данных (DSVD) или хранение речи, желательно обеспечить прерывистую передачу параметров кодирования речи. Преимущества могут включать в себя более низкое среднее энергопотребление в мобильных телефонах, более высокую среднюю скорость передачи данных для одновременных услуг, таких как передача данных, или большую емкость на чипах хранения . Однако улучшение зависит в основном от процента пауз во время речи и надежности VAD, используемого для обнаружения этих интервалов. С одной стороны, выгодно иметь низкий процент речевой активности. С другой стороны, отсечение, то есть потеря миллисекунд активной речи, должно быть минимизировано для сохранения качества. Это важнейшая проблема для алгоритма VAD в условиях сильного шума.
Одно спорное применение VAD связано с предиктивными дозвонщиками , используемыми телемаркетинговыми фирмами. Чтобы максимизировать производительность агентов, телемаркетинговые фирмы устанавливают предиктивные дозвонщики, чтобы звонить на большее количество номеров, чем у них есть доступных агентов, зная, что большинство звонков закончатся либо «Звонок – Нет ответа», либо автоответчиками. Когда человек отвечает, он обычно говорит коротко (« Привет », « Добрый вечер » и т. д.), а затем наступает короткий период тишины. Сообщения автоответчика обычно представляют собой непрерывную речь продолжительностью 3–15 секунд. Правильно установив параметры VAD, дозвонщики могут определить, ответил ли на звонок человек или машина, и, если это человек, перевести звонок на доступного агента. Если он обнаруживает сообщение автоответчика, дозвонщик вешает трубку. Часто, даже когда система правильно определяет человека, отвечающего на звонок, ни один агент может быть недоступен, что приводит к « тихому звонку ». Фильтрация звонков с многосекундным сообщением, например «пожалуйста, скажите, кто вы, и я могу поднять трубку», расстроит такие автоматические звонки. [ необходима цитата ]
Для оценки VAD его выходные данные с использованием тестовых записей сравниваются с данными «идеального» VAD, созданного путем ручного аннотирования наличия или отсутствия голоса в записях. Производительность VAD обычно оценивается на основе следующих четырех параметров: [4]
Хотя описанный выше метод предоставляет полезную объективную информацию о производительности VAD, он является лишь приблизительной мерой субъективного эффекта. Например, эффекты отсечения речевого сигнала могут иногда скрываться из-за наличия фонового шума, в зависимости от модели, выбранной для синтеза комфортного шума, поэтому часть отсечения, измеренного с помощью объективных тестов, на самом деле не слышна. Поэтому важно проводить субъективные тесты VAD, главная цель которых — убедиться, что воспринимаемое отсечение приемлемо. В приложениях VoIP отсечение на входе можно уменьшить, перемотав его на момент, непосредственно предшествующий обнаружению, и отправив данные с небольшой задержкой.
Этот вид теста требует, чтобы определенное количество слушателей оценило записи, содержащие результаты обработки тестируемых VAD, выставив оценки нескольким речевым последовательностям по следующим признакам:
Затем эти оценки используются для расчета средних результатов по каждой из перечисленных выше характеристик, тем самым обеспечивая глобальную оценку поведения тестируемого VAD.
В заключение, в то время как объективные методы очень полезны на начальном этапе для оценки качества VAD, субъективные методы более значимы. Поскольку они требуют участия нескольких человек в течение нескольких дней, что увеличивает стоимость, они обычно используются только тогда, когда предложение должно быть стандартизировано.