Распознавание говорящего – это идентификация человека по характеристикам голоса. [1] Используется для ответа на вопрос «Кто говорит?» Термин «распознавание голоса» [2] [3] [4] [5] [6] может относиться к распознаванию говорящего или распознаванию речи . Проверка говорящего (также называемая аутентификацией говорящего ) контрастирует с идентификацией, а распознавание говорящего отличается от диаризации говорящего (распознавание того, когда говорит один и тот же говорящий).
Распознавание говорящего может упростить задачу перевода речи в системах, обученных работе с конкретными голосами, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса обеспечения безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было обнаружено, различаются у разных людей. Эти акустические паттерны отражают как анатомию , так и усвоенные модели поведения.
Существует два основных применения технологий и методологий распознавания говорящих. Если говорящий утверждает, что является определенной личностью, и голос используется для проверки этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация — это задача определения личности неизвестного говорящего. В некотором смысле проверка говорящего — это совпадение 1:1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего — это совпадение 1:N, когда голос сравнивается с несколькими шаблонами.
С точки зрения безопасности идентификация отличается от проверки. Проверка говорящего обычно используется в качестве «привратника» для обеспечения доступа к защищенной системе. Эти системы работают на основе знаний пользователей и обычно требуют их сотрудничества. Системы идентификации докладчиков также могут быть реализованы скрытно, без ведома пользователя, для идентификации говорящих в дискуссии, оповещения автоматизированных систем о смене докладчиков, проверки, зарегистрирован ли пользователь уже в системе и т. д.
В судебно-медицинских приложениях обычно сначала выполняется процесс идентификации говорящего, чтобы создать список «наилучших совпадений», а затем выполняется серия процессов проверки для определения окончательного совпадения. Работа по сопоставлению образцов говорящего со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком, исходя из количества сходств или различий. Обвинение и защита используют это в качестве доказательства, чтобы определить, действительно ли подозреваемый является преступником. [7]
Одна из первых коммерциализированных технологий обучения была реализована в кукле Джули из Worlds of Wonder 1987 года. На тот момент независимость динамиков была запланированным прорывом, и системы требовали периода обучения. В рекламе куклы 1987 года был слоган «Наконец-то кукла, которая тебя понимает». — несмотря на то, что его описывали как продукт, «который дети могли бы научить реагировать на свой голос». [8] Термин «распознавание голоса», даже десятилетие спустя, относился к независимости говорящего. [9] [ нужны разъяснения ]
Каждая система распознавания говорящих состоит из двух этапов: регистрация и проверка. Во время регистрации голос говорящего записывается и обычно извлекается ряд функций для формирования отпечатка голоса, шаблона или модели. На этапе проверки образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. В системах идентификации высказывание сравнивается с несколькими отпечатками голоса, чтобы определить наилучшее совпадение, в то время как системы проверки сравнивают высказывание с одним отпечатком голоса. Из-за сложного процесса проверка происходит быстрее, чем идентификация.
Системы распознавания говорящего делятся на две категории: текстозависимые и текстонезависимые. [10] Текстозависимое распознавание требует, чтобы текст был одинаковым как для регистрации, так и для проверки. [11] В текстозависимой системе подсказки могут быть либо общими для всех говорящих (например, общая фраза-пароль), либо уникальными. Кроме того, для создания сценария многофакторной аутентификации можно использовать общие секреты (например, пароли и PIN-коды) или информацию, основанную на знаниях . И наоборот, текстонезависимые системы не требуют использования конкретного текста. Они чаще всего используются для идентификации говорящего, поскольку требуют очень незначительного сотрудничества со стороны говорящего. В этом случае текст при зачислении и тестировании будет разным. Фактически, регистрация может произойти без ведома пользователя, как и в случае со многими судебно-медицинскими приложениями. Поскольку текстонезависимые технологии не сравнивают то, что было сказано при регистрации и проверке, приложения проверки, как правило, также используют распознавание речи , чтобы определить, что говорит пользователь в момент аутентификации. [ нужна ссылка ] В текстонезависимых системах используются как акустические , так и речевые методы анализа . [12]
Распознавание говорящего — это проблема распознавания образов . Различные технологии, используемые для обработки и хранения отпечатков голоса, включают оценку частоты , скрытые модели Маркова , модели гауссовой смеси , алгоритмы сопоставления с образцом , нейронные сети , матричное представление , векторное квантование и деревья решений . Для сравнения высказываний с отпечатками голоса традиционно используются более простые методы, такие как косинусное подобие, из-за их простоты и эффективности. Некоторые системы также используют «антиговорящие» методы, такие как когортные модели и модели мира. Спектральные характеристики преимущественно используются для представления характеристик динамика. [13] Линейное прогнозирующее кодирование (LPC) — это метод кодирования речи , используемый при распознавании говорящего и проверке речи . [ нужна цитата ]
Уровни окружающего шума могут препятствовать сбору как начальных, так и последующих голосовых образцов. Алгоритмы шумоподавления можно использовать для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений в поведенческих характеристиках голоса, а также регистрации с использованием одного телефона и проверки на другом телефоне. Ожидается расширение интеграции с продуктами двухфакторной аутентификации . Изменения голоса из-за старения могут со временем повлиять на производительность системы. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы фиксировать такие долгосрочные изменения в голосе, хотя ведутся споры относительно общего воздействия на безопасность, вызванного автоматической адаптацией .
В связи с принятием таких законов, как Общий регламент по защите данных в Европейском Союзе и Калифорнийский закон о конфиденциальности потребителей в США, было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях. [14]
Первый международный патент был подан в 1983 году в результате телекоммуникационных исследований в CSELT [15] (Италия), проведенных Микеле Кавацца и Альберто Чиарамеллой , в качестве основы как для будущих телекоммуникационных услуг конечным клиентам, так и для улучшения методов снижения шума в сети. .
В период с 1996 по 1998 год технология распознавания говорящих использовалась на пограничном переходе Скоби-Коронак, чтобы позволить зарегистрированным местным жителям, которым нечего декларировать, пересекать границу Канады и США , когда досмотровые посты были закрыты на ночь. [16] Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган. [ нужна цитата ]
В 2013 году Barclays Wealth , подразделение частного банковского обслуживания Barclays, стало первой фирмой, предоставляющей финансовые услуги, которая внедрила голосовую биометрию в качестве основного средства идентификации клиентов в своих колл-центрах . Система использовала пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд после обычного разговора. [17] Он был разработан компанией Nuance , занимающейся распознаванием голоса (которая в 2011 году приобрела компанию Loquendo , дочернюю компанию CSELT по речевым технологиям), компанией, стоящей за технологией Apple Siri . 93% клиентов дали системе оценку «9 из 10» за скорость, простоту использования и безопасность. [18]
Распознавание говорящего также может быть использовано в уголовных расследованиях, например, в расследованиях казней в 2014 году, в частности, Джеймса Фоули и Стивена Сотлоффа . [19]
В феврале 2016 года популярный британский банк HSBC и его розничный интернет-банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн-счетам и телефонным счетам с помощью отпечатков пальцев или голоса. [20]
В 2023 году Vice News и The Guardian по отдельности продемонстрировали, что могут обойти стандартные финансовые системы аутентификации говорящих, используя голоса, сгенерированные искусственным интеллектом, сгенерированные примерно из пяти минут образцов голоса цели. [21] [22]
{{cite web}}
: CS1 maint: неподходящий URL ( ссылка )Самыми ранними приложениями программного обеспечения для распознавания речи была диктовка... Четыре месяца назад IBM представила «продукт непрерывной диктовки», предназначенный для... дебюта на выставке Национальной ассоциации делового туризма в 1994 году.
Текстозависимый и текстонезависимый динамик.. у обоих одинаковая частота ошибок и обнаружение..
задача .. проверка или идентификация