Распознавание говорящего

Распознавание говорящего – это идентификация человека по характеристикам голоса. ^[1] Используется для ответа на вопрос «Кто говорит?» Термин «распознавание голоса» ^[2]^[3]^[4]^[5]^[6] может относиться к распознаванию говорящего или распознаванию речи . Проверка говорящего (также называемая аутентификацией говорящего ) контрастирует с идентификацией, а распознавание говорящего отличается от диаризации говорящего (распознавание того, когда говорит один и тот же говорящий).

Распознавание говорящего может упростить задачу перевода речи в системах, обученных работе с конкретными голосами, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса обеспечения безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было обнаружено, различаются у разных людей. Эти акустические паттерны отражают как анатомию , так и усвоенные модели поведения.

Проверка против идентификации

Существует два основных применения технологий и методологий распознавания говорящих. Если говорящий утверждает, что является определенной личностью, и голос используется для проверки этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация — это задача определения личности неизвестного говорящего. В некотором смысле проверка говорящего — это совпадение 1:1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего — это совпадение 1:N, когда голос сравнивается с несколькими шаблонами.

С точки зрения безопасности идентификация отличается от проверки. Проверка говорящего обычно используется в качестве «привратника» для обеспечения доступа к защищенной системе. Эти системы работают на основе знаний пользователей и обычно требуют их сотрудничества. Системы идентификации докладчиков также могут быть реализованы скрытно, без ведома пользователя, для идентификации говорящих в дискуссии, оповещения автоматизированных систем о смене докладчиков, проверки, зарегистрирован ли пользователь уже в системе и т. д.

В судебно-медицинских приложениях обычно сначала выполняется процесс идентификации говорящего, чтобы создать список «наилучших совпадений», а затем выполняется серия процессов проверки для определения окончательного совпадения. Работа по сопоставлению образцов говорящего со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком, исходя из количества сходств или различий. Обвинение и защита используют это в качестве доказательства, чтобы определить, действительно ли подозреваемый является преступником. ^[7]

Обучение

Одна из первых коммерциализированных технологий обучения была реализована в кукле Джули из Worlds of Wonder 1987 года. На тот момент независимость динамиков была запланированным прорывом, и системы требовали периода обучения. В рекламе куклы 1987 года был слоган «Наконец-то кукла, которая тебя понимает». — несмотря на то, что его описывали как продукт, «который дети могли бы научить реагировать на свой голос». ^[8] Термин «распознавание голоса», даже десятилетие спустя, относился к независимости говорящего. ^[9]^{[ нужны разъяснения ]}

Варианты распознавания говорящего

Каждая система распознавания говорящих состоит из двух этапов: регистрация и проверка. Во время регистрации голос говорящего записывается и обычно извлекается ряд функций для формирования отпечатка голоса, шаблона или модели. На этапе проверки образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. В системах идентификации высказывание сравнивается с несколькими отпечатками голоса, чтобы определить наилучшее совпадение, в то время как системы проверки сравнивают высказывание с одним отпечатком голоса. Из-за сложного процесса проверка происходит быстрее, чем идентификация.

Системы распознавания говорящего делятся на две категории: текстозависимые и текстонезависимые. ^[10] Текстозависимое распознавание требует, чтобы текст был одинаковым как для регистрации, так и для проверки. ^[11] В текстозависимой системе подсказки могут быть либо общими для всех говорящих (например, общая фраза-пароль), либо уникальными. Кроме того, для создания сценария многофакторной аутентификации можно использовать общие секреты (например, пароли и PIN-коды) или информацию, основанную на знаниях . И наоборот, текстонезависимые системы не требуют использования конкретного текста. Они чаще всего используются для идентификации говорящего, поскольку требуют очень незначительного сотрудничества со стороны говорящего. В этом случае текст при зачислении и тестировании будет разным. Фактически, регистрация может произойти без ведома пользователя, как и в случае со многими судебно-медицинскими приложениями. Поскольку текстонезависимые технологии не сравнивают то, что было сказано при регистрации и проверке, приложения проверки, как правило, также используют распознавание речи , чтобы определить, что говорит пользователь в момент аутентификации. ^{[ нужна ссылка ]} В текстонезависимых системах используются как акустические , так и речевые методы анализа . ^[12]

Технологии

Распознавание говорящего — это проблема распознавания образов . Различные технологии, используемые для обработки и хранения отпечатков голоса, включают оценку частоты , скрытые модели Маркова , модели гауссовой смеси , алгоритмы сопоставления с образцом , нейронные сети , матричное представление , векторное квантование и деревья решений . Для сравнения высказываний с отпечатками голоса традиционно используются более простые методы, такие как косинусное подобие, из-за их простоты и эффективности. Некоторые системы также используют «антиговорящие» методы, такие как когортные модели и модели мира. Спектральные характеристики преимущественно используются для представления характеристик динамика. ^[13] Линейное прогнозирующее кодирование (LPC) — это метод кодирования речи , используемый при распознавании говорящего и проверке речи . ^{[ нужна цитата ]}

Уровни окружающего шума могут препятствовать сбору как начальных, так и последующих голосовых образцов. Алгоритмы шумоподавления можно использовать для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений в поведенческих характеристиках голоса, а также регистрации с использованием одного телефона и проверки на другом телефоне. Ожидается расширение интеграции с продуктами двухфакторной аутентификации . Изменения голоса из-за старения могут со временем повлиять на производительность системы. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы фиксировать такие долгосрочные изменения в голосе, хотя ведутся споры относительно общего воздействия на безопасность, вызванного ^{автоматической}^{адаптацией}^.

Юридические последствия

В связи с принятием таких законов, как Общий регламент по защите данных в Европейском Союзе и Калифорнийский закон о конфиденциальности потребителей в США, было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях. ^[14]

Приложения

Первый международный патент был подан в 1983 году в результате телекоммуникационных исследований в CSELT ^[15] (Италия), проведенных Микеле Кавацца и Альберто Чиарамеллой , в качестве основы как для будущих телекоммуникационных услуг конечным клиентам, так и для улучшения методов снижения шума в сети. .

В период с 1996 по 1998 год технология распознавания говорящих использовалась на пограничном переходе Скоби-Коронак, чтобы позволить зарегистрированным местным жителям, которым нечего декларировать, пересекать границу Канады и США , когда досмотровые посты были закрыты на ночь. ^[16] Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган. ^{[ нужна цитата ]}

В 2013 году Barclays Wealth , подразделение частного банковского обслуживания Barclays, стало первой фирмой, предоставляющей финансовые услуги, которая внедрила голосовую биометрию в качестве основного средства идентификации клиентов в своих колл-центрах . Система использовала пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд после обычного разговора. ^[17] Он был разработан компанией Nuance , занимающейся распознаванием голоса (которая в 2011 году приобрела компанию Loquendo , дочернюю компанию CSELT по речевым технологиям), компанией, стоящей за технологией Apple Siri . 93% клиентов дали системе оценку «9 из 10» за скорость, простоту использования и безопасность. ^[18]

Распознавание говорящего также может быть использовано в уголовных расследованиях, например, в расследованиях казней в 2014 году, в частности, Джеймса Фоули и Стивена Сотлоффа . ^[19]

В феврале 2016 года популярный британский банк HSBC и его розничный интернет-банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн-счетам и телефонным счетам с помощью отпечатков пальцев или голоса. ^[20]

В 2023 году Vice News и The Guardian по отдельности продемонстрировали, что могут обойти стандартные финансовые системы аутентификации говорящих, используя голоса, сгенерированные искусственным интеллектом, сгенерированные примерно из пяти минут образцов голоса цели. ^[21]^[22]

Смотрите также

Списки

Примечания

^ Поддар, Арнаб; Сахидулла, Мэриленд; Саха, Гутам (27 ноября 2017 г.). «Верификация говорящего короткими высказываниями: обзор проблем, тенденций и возможностей». ИЭПП Биометрия . Институт техники и технологий (ИЭТ). 7 (2): 91–101. doi : 10.1049/iet-bmt.2017.0065. ISSN 2047-4938.
^ Ласс, Норман Дж. (1974). Экспериментальная фонетика . Информационная корпорация МСС. стр. 251–258. ISBN 978-0-8422-5149-5.
^ Ван Ланкер, Диана; Крейман, Джоди; Эммори, Карен (1985). «Распознавание знакомого голоса: закономерности и параметры. Часть I: Распознавание задом наперед голосов». Журнал фонетики . Эльзевир Б.В. 13 (1): 19–38. дои : 10.1016/s0095-4470(19)30723-5 . ISSN 0095-4470.
^ «Определение и синонимы РАСПОЗНАВАНИЯ ГОЛОСА (существительное)» . macmillandictionary.com . 23 января 2010 года. Архивировано из оригинала 27 марта 2023 года . Проверено 13 октября 2023 г.{{cite web}}: CS1 maint: неподходящий URL ( ссылка )
^ «Что такое распознавание голоса? Определение и значение» . businessdictionary.com . 6 октября 2008 г. Архивировано из оригинала 3 декабря 2011 г.
^ "Почтовый мешок LG # 114" . Linux-вестник . 28 марта 2005 г.
^ Роуз, Фил; Осанаи, Такаши; Киносита, Юко (6 августа 2003 г.). «Надежность судебно-медицинских доказательств идентификации говорящего: сегментарная дискриминация на основе формант и кепстра с несколькими говорящими с байесовским отношением правдоподобия в качестве порога». Международный журнал речи, языка и права . Издательство Равноденствие. 10 (2): 179–202. дои : 10.1558/sll.2003.10.2.179. ISSN 1748-8893.
↑ Пинола, Мелани (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы закончили с Siri». ПКМир .
↑ Розен, Шерил (3 марта 1997 г.). «Распознавание голоса для облегчения бронирования поездок». Новости делового туризма . Самыми ранними приложениями программного обеспечения для распознавания речи была диктовка... Четыре месяца назад IBM представила «продукт непрерывной диктовки», предназначенный для... дебюта на выставке Национальной ассоциации делового туризма в 1994 году.
^ «Проверка говорящего: текстово-зависимая и независимая от текста» . Исследования Майкрософт . 19 июня 2017. Текстозависимый и текстонезависимый динамик.. у обоих одинаковая частота ошибок и обнаружение..
^ Эбер, Матье (2008). «Текстозависимое распознавание говорящего». Справочник Springer по обработке речи . Справочники Спрингера. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 743–762. дои : 10.1007/978-3-540-49127-9_37. ISBN 978-3-540-49125-5. ISSN 2522-8692. задача .. проверка или идентификация
↑ Майерс, Лиза (25 июля 2004 г.). «Исследование голосовой биометрии». Институт САНС .
^ Сахидулла, Мэриленд; Киннунен, Томи (2016). «Функции локальной спектральной изменчивости для проверки динамиков» (PDF) . Цифровая обработка сигналов . Эльзевир Б.В. 50 : 1–11. дои : 10.1016/j.dsp.2015.10.011. ISSN 1051-2004.
^ «Эксперт по распознаванию речи выражает обеспокоенность по поводу голосовых технологий на рабочем месте» . Независимый.т.е . 29 сентября 2019 г. . Проверено 30 сентября 2019 г.
^ US4752958 A, Мишель Кавацца, Альберто Чиарамелла, «Устройство для проверки говорящего» http://www.google.com/patents/US4752958?hl=it&cl=en
↑ Мейер, Барб (12 июня 1996 г.). «Автоматизированное пересечение границы». Репортаж телевизионных новостей . Телевизионные новости Мейера.
^ Международное банковское дело (27 декабря 2013 г.). «Голосовые биометрические технологии в банковском деле | Barclays». Wealth.barclays.com . Проверено 21 февраля 2016 г.
^ Мэтт Уорман (8 мая 2013 г.). «Попрощайтесь с значком: распознавание голоса берет верх в Barclays Wealth» . Проверено 5 июня 2013 г.
^ Юэн Макаскилл. «Убил ли «Джихадист Джон» Стивена Сотлоффа? | СМИ». Хранитель . Проверено 21 февраля 2016 г.
↑ Юлия Коллеве (19 февраля 2016 г.). «HSBC внедряет систему безопасности голосовой связи и Touch ID для клиентов банков | Бизнес» . Хранитель . Проверено 21 февраля 2016 г.
^ «Как я взломал банковский счет с помощью голоса, сгенерированного искусственным интеллектом» . 23 февраля 2023 г.
^ Эвершед, Ник; Тейлор, Джош (16 марта 2023 г.). «ИИ может обмануть распознавание голоса, используемое для проверки личности Centrelink и налоговой службой Австралии». Хранитель . Проверено 16 июня 2023 г.

Внешние ссылки

Обход голосовой аутентификации. Архивировано 10 июня 2008 г., в Wayback Machine. В подкасте PLA Radio недавно был представлен простой способ обмануть элементарные системы голосовой аутентификации.
Распознавание говорящего - Scholarpedia
Преимущества и проблемы распознавания голоса при контроле доступа

Программное обеспечение

боб.био.копье
АЛИЗЕ