Распознавание голосовой активности

Обнаружение голосовой активности ( VAD ), также известное как обнаружение речевой активности или обнаружение речи , представляет собой обнаружение наличия или отсутствия человеческой речи, используемое при обработке речи . ^[1] Основные области применения VAD — диаризация говорящего , кодирование речи и распознавание речи . ^[2] Он может облегчить обработку речи, а также может использоваться для деактивации некоторых процессов во время неречевой части аудиосеанса: он может избежать ненужного кодирования /передачи пакетов тишины в приложениях передачи голоса по интернет-протоколу (VoIP), экономя вычислительные ресурсы и пропускную способность сети .

VAD является важной технологией, обеспечивающей множество приложений на основе речи. Поэтому были разработаны различные алгоритмы VAD, которые обеспечивают различные функции и компромиссы между задержкой , чувствительностью , точностью и вычислительными затратами. Некоторые алгоритмы VAD также обеспечивают дальнейший анализ, например, является ли речь вокализованной , невокализованной или сдержанной . Обнаружение голосовой активности обычно не зависит от языка.

Впервые он был исследован для использования в системах интерполяции речи с временным распределением (TASI). ^[3]

Обзор алгоритма

Типичная конструкция алгоритма VAD выглядит следующим образом: ^{[ необходима цитата ]}

Сначала может быть этап шумоподавления, например, посредством спектрального вычитания .
Затем некоторые характеристики или величины вычисляются на основе фрагмента входного сигнала.
Правило классификации применяется для классификации раздела как речевого или неречевого — часто это правило классификации обнаруживает, когда значение превышает определенный порог.

В этой последовательности может быть некоторая обратная связь, в которой решение VAD используется для улучшения оценки шума на этапе шумоподавления или для адаптивного изменения порога(ов). Эти операции обратной связи улучшают производительность VAD в нестационарном шуме (т. е. когда шум сильно меняется). ^{[ необходима цитата ]}

Представительный набор недавно опубликованных методов VAD формулирует правило принятия решения на покадровой основе, используя мгновенные измерения расстояния расхождения между речью и шумом. ^{[ требуется ссылка ]} Различные меры, которые используются в методах VAD, включают спектральный наклон , коэффициенты корреляции, логарифмическое отношение правдоподобия, кепстральные, взвешенные кепстральные и модифицированные меры расстояния. ^{[ требуется ссылка ]}

Независимо от выбора алгоритма VAD, необходимо найти компромисс между тем, чтобы голос был определен как шум, или шум был определен как голос (между ложноположительным и ложноотрицательным ). VAD, работающий в мобильном телефоне, должен быть способен обнаруживать речь в присутствии ряда самых разных типов акустического фонового шума. В этих сложных условиях обнаружения часто предпочтительнее, чтобы VAD был отказоустойчивым , указывая на обнаружение речи, когда решение находится под вопросом, чтобы снизить вероятность потери речевых сегментов. Самая большая трудность в обнаружении речи в этой среде заключается в очень низком отношении сигнал/шум (SNR), с которым приходится сталкиваться. Может оказаться невозможным различить речь и шум с помощью простых методов обнаружения уровня, когда части речевого высказывания скрыты под шумом.

Приложения

VAD является неотъемлемой частью различных систем речевой связи, таких как аудиоконференции , эхоподавление , распознавание речи , кодирование речи , распознавание говорящего и телефония без помощи рук .
В области мультимедийных приложений VAD позволяет одновременно использовать голосовые и информационные приложения.
Аналогично в универсальных системах мобильной связи (UMTS) он контролирует и снижает среднюю скорость передачи данных и повышает общее качество кодирования речи.
В системах сотовой радиосвязи (например, системах GSM и CDMA ), основанных на режиме прерывистой передачи (DTX), VAD имеет важное значение для повышения пропускной способности системы за счет снижения помех в совмещенном канале и энергопотребления портативных цифровых устройств.
В приложениях по обработке речи обнаружение голосовой активности играет важную роль, поскольку неречевые кадры часто отбрасываются.

Для широкого спектра приложений, таких как цифровая мобильная радиосвязь, цифровая одновременная передача голоса и данных (DSVD) или хранение речи, желательно обеспечить прерывистую передачу параметров кодирования речи. Преимущества могут включать в себя более низкое среднее энергопотребление в мобильных телефонах, более высокую среднюю скорость передачи данных для одновременных услуг, таких как передача данных, или большую емкость на чипах хранения . Однако улучшение зависит в основном от процента пауз во время речи и надежности VAD, используемого для обнаружения этих интервалов. С одной стороны, выгодно иметь низкий процент речевой активности. С другой стороны, отсечение, то есть потеря миллисекунд активной речи, должно быть минимизировано для сохранения качества. Это важнейшая проблема для алгоритма VAD в условиях сильного шума.

Использование в телемаркетинге

Одно спорное применение VAD связано с предиктивными дозвонщиками , используемыми телемаркетинговыми фирмами. Чтобы максимизировать производительность агентов, телемаркетинговые фирмы устанавливают предиктивные дозвонщики, чтобы звонить на большее количество номеров, чем у них есть доступных агентов, зная, что большинство звонков закончатся либо «Звонок – Нет ответа», либо автоответчиками. Когда человек отвечает, он обычно говорит коротко (« Привет », « Добрый вечер » и т. д.), а затем наступает короткий период тишины. Сообщения автоответчика обычно представляют собой непрерывную речь продолжительностью 3–15 секунд. Правильно установив параметры VAD, дозвонщики могут определить, ответил ли на звонок человек или машина, и, если это человек, перевести звонок на доступного агента. Если он обнаруживает сообщение автоответчика, дозвонщик вешает трубку. Часто, даже когда система правильно определяет человека, отвечающего на звонок, ни один агент может быть недоступен, что приводит к « тихому звонку ». Фильтрация звонков с многосекундным сообщением, например «пожалуйста, скажите, кто вы, и я могу поднять трубку», расстроит такие автоматические звонки. ^{[ необходима цитата ]}

Оценка эффективности

Для оценки VAD его выходные данные с использованием тестовых записей сравниваются с данными «идеального» VAD, созданного путем ручного аннотирования наличия или отсутствия голоса в записях. Производительность VAD обычно оценивается на основе следующих четырех параметров: ^[4]

FEC (Front End Clipping): клиппирование, вводимое при переходе от шума к речевой активности;
MSC (Mid Speech Clipping): клиппинг из-за речи, ошибочно классифицированной как шум;
OVER: шум интерпретируется как речь из-за того, что флаг VAD остается активным при переходе от речевой активности к шуму;
NDS (шум, обнаруженный как речь): шум, интерпретируемый как речь в период тишины.

Хотя описанный выше метод предоставляет полезную объективную информацию о производительности VAD, он является лишь приблизительной мерой субъективного эффекта. Например, эффекты отсечения речевого сигнала могут иногда скрываться из-за наличия фонового шума, в зависимости от модели, выбранной для синтеза комфортного шума, поэтому часть отсечения, измеренного с помощью объективных тестов, на самом деле не слышна. Поэтому важно проводить субъективные тесты VAD, главная цель которых — убедиться, что воспринимаемое отсечение приемлемо. В приложениях VoIP отсечение на входе можно уменьшить, перемотав его на момент, непосредственно предшествующий обнаружению, и отправив данные с небольшой задержкой.

Этот вид теста требует, чтобы определенное количество слушателей оценило записи, содержащие результаты обработки тестируемых VAD, выставив оценки нескольким речевым последовательностям по следующим признакам:

Качество;
Трудность понимания;
Слышимость клиппинга.

Затем эти оценки используются для расчета средних результатов по каждой из перечисленных выше характеристик, тем самым обеспечивая глобальную оценку поведения тестируемого VAD.

В заключение, в то время как объективные методы очень полезны на начальном этапе для оценки качества VAD, субъективные методы более значимы. Поскольку они требуют участия нескольких человек в течение нескольких дней, что увеличивает стоимость, они обычно используются только тогда, когда предложение должно быть стандартизировано.

Реализации

Одним из первых стандартных VAD является тот, который был разработан British Telecom для использования в общеевропейской цифровой сотовой мобильной телефонной службе в 1991 году. Он использует обратную фильтрацию, обученную на неречевых сегментах, чтобы отфильтровывать фоновый шум, так что затем он может более надежно использовать простой порог мощности для определения наличия голоса. ^[5]
Стандарт G.729 вычисляет следующие характеристики для своего VAD: линейные спектральные частоты , полнодиапазонная энергия, низкочастотная энергия (<1 кГц) и скорость пересечения нуля . Он применяет простую классификацию, используя фиксированную границу принятия решения в пространстве, определяемом этими характеристиками, а затем применяет сглаживание и адаптивную коррекцию для улучшения оценки. ^[6]
Стандарт GSM включает два варианта VAD, разработанных ETSI . ^[7] Вариант 1 вычисляет SNR в девяти диапазонах и применяет порог к этим значениям. Вариант 2 вычисляет различные параметры: мощность канала, голосовые метрики и мощность шума. Затем он устанавливает пороговые значения голосовых метрик, используя пороговое значение, которое изменяется в зависимости от предполагаемого SNR.
Библиотека сжатия звука Speex использует процедуру под названием Improved Minima Controlled Recursive Averaging , которая использует сглаженное представление спектральной мощности, а затем смотрит на минимумы сглаженной периодограммы . ^[8] Начиная с версии 1.2 она была заменена тем, что автор назвал кладжем . ^[9]
Lingua Libre — инструмент Wikimedia и проект языковой документации , использующий VAD для записи множества произношений за короткий промежуток времени.
Библиотека VAD Android ^[10] использует комбинацию моделей GMM и DNN, таких как WebRTC GMM, Silero DNN и Yamnet DNN. Библиотека превосходит многие модели промышленного уровня как по качеству, так и по производительности.

Смотрите также

Ссылки

^ Манодж Бхатия; Джонатан Дэвидсон; Сатиш Калидинди; Судипто Мукерджи; Джеймс Питерс (20 октября 2006 г.). «VoIP: углубленный анализ — обнаружение голосовой активности». Циско .
^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкинг; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [eess.AS].
^ Рави Рамачандран; Ричард Маммон (6 декабря 2012 г.). Современные методы обработки речи. Springer Science & Business Media. стр. 102–. ISBN 978-1-4615-2281-2.
^ Beritelli, F.; Casale, S.; Ruggeri, G.; Serrano, S. (март 2002 г.). «Оценка и сравнение производительности детекторов G.729/AMR/fuzzy voice activity». IEEE Signal Processing Letters . 9 (3): 85–88. Bibcode : 2002ISPL....9...85B. doi : 10.1109/97.995824. S2CID 16724847.
^ Freeman, DK (май 1989). «Детектор голосовой активности для общеевропейской цифровой сотовой мобильной телефонной службы». Труды Международной конференции по акустике, речи и обработке сигналов (ICASSP-89) . Том 1. стр. 369–372. doi :10.1109/ICASSP.1989.266442.
^ Benyassine, A.; Shlomot, E.; Huan-yu Su; Massaloux, D.; Lamblin, C.; Petit, J.-P. (сентябрь 1997 г.). «Рекомендация ITU-T G.729, приложение B: схема сжатия тишины для использования с G.729, оптимизированная для цифровых одновременных приложений передачи голоса и данных V.70». Журнал IEEE Communications . 35 (9): 64–73. doi :10.1109/35.620527.
^ ETSI (1999). "GSM 06.42, Цифровая сотовая телекоммуникационная система (Фаза 2+); Речь с половинной скоростью; Детектор речевой активности (VAD) для каналов речевого трафика с половинной скоростью" (Документ). ETSI.
^ Коэн, И. (сентябрь 2003 г.). «Оценка спектра шума в неблагоприятных условиях: улучшенное рекурсивное усреднение с контролируемыми минимумами». Труды IEEE по обработке речи и звука . 11 (5): 466–475. CiteSeerX 10.1.1.620.8768 . doi :10.1109/TSA.2003.811544.
^ «Алгоритм Speex VAD» . 30 сентября 2004 г.
^ "Библиотека Android Voice Activity Detection (VAD). Поддерживает модели WebRTC VAD GMM, Silero VAD DNN, Yamnet VAD DNN". Github . Получено 27 ноября 2019 г. .

Минимальные стандарты производительности DMA для прерывистой передачи данных мобильных станций. Документ TIA и база данных IS-727, июнь 1998 г.
MY Appiah, M. Sasikath, R. Makrickaite, M. Gusaite, «Надежный механизм обнаружения голосовой активности и шумоподавления ( PDF )», Институт электронных систем, Университет Ольборга
XL Liu, Y. Liang, YH Lou, H. Li, BS Shan, Помехоустойчивый детектор голосовой активности на основе скрытых полумарковских моделей, Proc. ICPR'10 , 81–84.