Распознавание говорящего — это идентификация человека по характеристикам голоса. [1] Он используется для ответа на вопрос «Кто говорит?» Термин « распознавание голоса » [2] [3] [4] [5] [6] может относиться к распознаванию говорящего или распознаванию речи . Проверка говорящего (также называемая аутентификацией говорящего ) отличается от идентификации, а распознавание говорящего отличается от диаризации говорящего (распознавания, когда говорит один и тот же говорящий).
Распознавание говорящего может упростить задачу перевода речи в системах, которые были обучены на определенных голосах, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было обнаружено, различаются у разных людей. Эти акустические модели отражают как анатомию , так и усвоенные поведенческие модели.
Существует два основных применения технологий и методик распознавания говорящего. Если говорящий утверждает, что он имеет определенную идентичность, и голос используется для подтверждения этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация — это задача определения идентичности неизвестного говорящего. В некотором смысле, проверка говорящего — это сопоставление 1:1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего — это сопоставление 1:N, когда голос сравнивается с несколькими шаблонами.
С точки зрения безопасности идентификация отличается от верификации. Верификация говорящего обычно используется в качестве «привратника» для предоставления доступа к защищенной системе. Эти системы работают с ведома пользователей и обычно требуют их сотрудничества. Системы идентификации говорящего также могут быть реализованы скрытно без ведома пользователя для идентификации говорящих в обсуждении, оповещения автоматизированных систем о смене говорящего, проверки, зарегистрирован ли пользователь в системе и т. д.
В криминалистических приложениях обычно сначала выполняют процесс идентификации говорящего, чтобы создать список «лучших совпадений», а затем выполняют ряд процессов проверки, чтобы определить окончательное совпадение. Работа по сопоставлению образцов говорящего со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком на основе количества сходств или различий. Обвинение и защита используют это как доказательство, чтобы определить, является ли подозреваемый на самом деле преступником. [7]
Одна из самых ранних технологий обучения, которая была коммерциализирована, была реализована в кукле Джули 1987 года от Worlds of Wonder . На тот момент независимость говорящего была предполагаемым прорывом, и системам требовался период обучения. Рекламный слоган куклы 1987 года гласил: «Наконец-то кукла, которая вас понимает». — несмотря на то, что она описывалась как продукт, «который дети могут научить реагировать на свой голос». [8] Термин «распознавание голоса» даже десятилетие спустя относился к независимости говорящего. [9] [ необходимо разъяснение ]
Каждая система распознавания говорящего имеет две фазы: регистрация и верификация. Во время регистрации голос говорящего записывается, и обычно извлекается ряд признаков для формирования голосового отпечатка, шаблона или модели. На этапе верификации образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. Для систем идентификации высказывание сравнивается с несколькими голосовыми отпечатками, чтобы определить наилучшее совпадение(я), в то время как системы верификации сравнивают высказывание с одним голосовым отпечатком. Из-за задействованного процесса верификация происходит быстрее, чем идентификация.
Системы распознавания говорящего делятся на две категории: текстозависимые и текстонезависимые. [10] Текстонезависимые системы распознавания требуют, чтобы текст был одинаковым как для регистрации, так и для проверки. [11] В текстонезависимой системе подсказки могут быть либо общими для всех говорящих (например, общая парольная фраза), либо уникальными. Кроме того, использование общих секретов (например, паролей и PIN-кодов) или информации, основанной на знаниях, может использоваться для создания сценария многофакторной аутентификации . Наоборот, текстонезависимые системы не требуют использования определенного текста. Чаще всего они используются для идентификации говорящего, поскольку требуют очень небольшого сотрудничества со стороны говорящего, если вообще требуют. В этом случае текст во время регистрации и тестирования отличается. Фактически, регистрация может происходить без ведома пользователя, как в случае со многими судебными приложениями. Поскольку текстонезависимые технологии не сравнивают то, что было сказано при регистрации и проверке, приложения проверки, как правило, также используют распознавание речи, чтобы определить, что пользователь говорит в момент аутентификации. [ необходима цитата ] В текстонезависимых системах используются как акустические , так и речевые методы анализа . [12]
Распознавание говорящего — это проблема распознавания образов . Различные технологии, используемые для обработки и хранения голосовых отпечатков, включают оценку частоты , скрытые марковские модели , модели гауссовской смеси , алгоритмы сопоставления образов , нейронные сети , матричное представление , векторное квантование и деревья решений . Для сравнения высказываний с голосовыми отпечатками традиционно используются более базовые методы, такие как косинусное сходство, из-за их простоты и производительности. Некоторые системы также используют методы «анти-говорящего», такие как когортные модели и мировые модели. Спектральные признаки в основном используются для представления характеристик говорящего. [13] Линейное предиктивное кодирование (LPC) — это метод кодирования речи, используемый при распознавании говорящего и проверке речи . [ требуется ссылка ]
Уровень окружающего шума может препятствовать как сбору начальных, так и последующих образцов голоса. Алгоритмы шумоподавления могут использоваться для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений в поведенческих характеристиках голоса и регистрации с использованием одного телефона и проверки на другом телефоне. Ожидается, что интеграция с продуктами двухфакторной аутентификации увеличится. Изменения голоса из-за старения могут повлиять на производительность системы с течением времени. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы зафиксировать такие долгосрочные изменения голоса, хотя ведутся споры относительно общего влияния на безопасность, налагаемого автоматизированной адаптацией [ необходима ссылка ]
В связи с введением таких законов, как Общий регламент по защите данных в Европейском союзе и Закон о защите прав потребителей Калифорнии в Соединенных Штатах, было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях. [14]
Первый международный патент был подан в 1983 году и стал результатом исследований в области телекоммуникаций в CSELT [15] (Италия), проведенных Микеле Каваццей и Альберто Чиарамеллой в качестве основы как для будущих телекоммуникационных услуг для конечных потребителей, так и для улучшения методов шумоподавления в сети.
В период с 1996 по 1998 год технология распознавания говорящего использовалась на пограничном переходе Скоби-Коронач, чтобы позволить зарегистрированным местным жителям, которым нечего было декларировать, пересекать границу Канады и США, когда пункты проверки были закрыты на ночь. [16] Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган. [ необходима цитата ]
В 2013 году Barclays Wealth , частное банковское подразделение Barclays, стало первой финансовой компанией, которая внедрила голосовую биометрию в качестве основного средства идентификации клиентов в своих колл-центрах . Система использовала пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд обычного разговора. [17] Она была разработана компанией по распознаванию голоса Nuance (которая в 2011 году приобрела компанию Loquendo , ответвление от CSELT для речевых технологий), компанию, стоящую за технологией Siri от Apple . 93% клиентов дали системе оценку «9 из 10» за скорость, простоту использования и безопасность. [18]
Распознавание говорящего может также использоваться в уголовных расследованиях, таких как казни в 2014 году, среди прочих, Джеймса Фоули и Стивена Сотлоффа . [19]
В феврале 2016 года крупнейший британский банк HSBC и его интернет-розничный банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн- и телефонным счетам с помощью отпечатков пальцев или голоса. [20]
В 2023 году Vice News и The Guardian независимо друг от друга продемонстрировали, что они могут обойти стандартные финансовые системы аутентификации спикеров, используя голоса, сгенерированные искусственным интеллектом из примерно пятиминутных образцов голоса цели. [21] [22]
{{cite web}}
: CS1 maint: неподходящий URL ( ссылка )Самыми ранними приложениями программного обеспечения для распознавания речи были диктовка ... Четыре месяца назад IBM представила «продукт для непрерывной диктовки», предназначенный для ..., дебютировавший на выставке Национальной ассоциации деловых поездок в 1994 г.
текстозависимый и текстонезависимый говорящий .. оба имеют одинаковую частоту ошибок и обнаружение ..
задача .. проверка или идентификация