stringtranslate.com

Распознавание говорящего

Распознавание говорящего – это идентификация человека по характеристикам голоса. [1] Используется для ответа на вопрос «Кто говорит?» Термин «распознавание голоса» [2] [3] [4] [5] [6] может относиться к распознаванию говорящего или распознаванию речи . Проверка говорящего (также называемая аутентификацией говорящего ) контрастирует с идентификацией, а распознавание говорящего отличается от диаризации говорящего (распознавание того, когда говорит один и тот же говорящий).

Распознавание говорящего может упростить задачу перевода речи в системах, обученных работе с конкретными голосами, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса обеспечения безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было обнаружено, различаются у разных людей. Эти акустические паттерны отражают как анатомию , так и усвоенные модели поведения.

Проверка против идентификации

Существует два основных применения технологий и методологий распознавания говорящих. Если говорящий утверждает, что является определенной личностью, и голос используется для проверки этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация — это задача определения личности неизвестного говорящего. В некотором смысле проверка говорящего — это совпадение 1:1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего — это совпадение 1:N, когда голос сравнивается с несколькими шаблонами.

С точки зрения безопасности идентификация отличается от проверки. Проверка говорящего обычно используется в качестве «привратника» для обеспечения доступа к защищенной системе. Эти системы работают на основе знаний пользователей и обычно требуют их сотрудничества. Системы идентификации докладчиков также могут быть реализованы скрытно, без ведома пользователя, для идентификации говорящих в дискуссии, оповещения автоматизированных систем о смене докладчиков, проверки, зарегистрирован ли пользователь уже в системе и т. д.

В судебно-медицинских приложениях обычно сначала выполняется процесс идентификации говорящего, чтобы создать список «наилучших совпадений», а затем выполняется серия процессов проверки для определения окончательного совпадения. Работа по сопоставлению образцов говорящего со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком, исходя из количества сходств или различий. Обвинение и защита используют это в качестве доказательства, чтобы определить, действительно ли подозреваемый является преступником. [7]

Обучение

Одна из первых коммерциализированных технологий обучения была реализована в кукле Джули из Worlds of Wonder 1987 года. На тот момент независимость динамиков была запланированным прорывом, и системы требовали периода обучения. В рекламе куклы 1987 года был слоган «Наконец-то кукла, которая тебя понимает». — несмотря на то, что его описывали как продукт, «который дети могли бы научить реагировать на свой голос». [8] Термин «распознавание голоса», даже десятилетие спустя, относился к независимости говорящего. [9] [ нужны разъяснения ]

Варианты распознавания говорящего

Каждая система распознавания говорящих состоит из двух этапов: регистрация и проверка. Во время регистрации голос говорящего записывается и обычно извлекается ряд функций для формирования отпечатка голоса, шаблона или модели. На этапе проверки образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. В системах идентификации высказывание сравнивается с несколькими отпечатками голоса, чтобы определить наилучшее совпадение, в то время как системы проверки сравнивают высказывание с одним отпечатком голоса. Из-за сложного процесса проверка происходит быстрее, чем идентификация.

Системы распознавания говорящего делятся на две категории: текстозависимые и текстонезависимые. [10] Текстозависимое распознавание требует, чтобы текст был одинаковым как для регистрации, так и для проверки. [11] В текстозависимой системе подсказки могут быть либо общими для всех говорящих (например, общая фраза-пароль), либо уникальными. Кроме того, для создания сценария многофакторной аутентификации можно использовать общие секреты (например, пароли и PIN-коды) или информацию, основанную на знаниях . И наоборот, текстонезависимые системы не требуют использования конкретного текста. Они чаще всего используются для идентификации говорящего, поскольку требуют очень незначительного сотрудничества со стороны говорящего. В этом случае текст при зачислении и тестировании будет разным. Фактически, регистрация может произойти без ведома пользователя, как и в случае со многими судебно-медицинскими приложениями. Поскольку текстонезависимые технологии не сравнивают то, что было сказано при регистрации и проверке, приложения проверки, как правило, также используют распознавание речи , чтобы определить, что говорит пользователь в момент аутентификации. [ нужна ссылка ] В текстонезависимых системах используются как акустические , так и речевые методы анализа . [12]

Технологии

Распознавание говорящего — это проблема распознавания образов . Различные технологии, используемые для обработки и хранения отпечатков голоса, включают оценку частоты , скрытые модели Маркова , модели гауссовой смеси , алгоритмы сопоставления с образцом , нейронные сети , матричное представление , векторное квантование и деревья решений . Для сравнения высказываний с отпечатками голоса традиционно используются более простые методы, такие как косинусное подобие, из-за их простоты и эффективности. Некоторые системы также используют «антиговорящие» методы, такие как когортные модели и модели мира. Спектральные характеристики преимущественно используются для представления характеристик динамика. [13] Линейное прогнозирующее кодирование (LPC) — это метод кодирования речи , используемый при распознавании говорящего и проверке речи . [ нужна цитата ]

Уровни окружающего шума могут препятствовать сбору как начальных, так и последующих голосовых образцов. Алгоритмы шумоподавления можно использовать для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений в поведенческих характеристиках голоса, а также регистрации с использованием одного телефона и проверки на другом телефоне. Ожидается расширение интеграции с продуктами двухфакторной аутентификации . Изменения голоса из-за старения могут со временем повлиять на производительность системы. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы фиксировать такие долгосрочные изменения в голосе, хотя ведутся споры относительно общего воздействия на безопасность, вызванного автоматической адаптацией .

Юридические последствия

В связи с принятием таких законов, как Общий регламент по защите данных в Европейском Союзе и Калифорнийский закон о конфиденциальности потребителей в США, было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях. [14]

Приложения

Первый международный патент был подан в 1983 году в результате телекоммуникационных исследований в CSELT [15] (Италия), проведенных Микеле Кавацца и Альберто Чиарамеллой , в качестве основы как для будущих телекоммуникационных услуг конечным клиентам, так и для улучшения методов снижения шума в сети. .

В период с 1996 по 1998 год технология распознавания говорящих использовалась на пограничном переходе Скоби-Коронак, чтобы позволить зарегистрированным местным жителям, которым нечего декларировать, пересекать границу Канады и США , когда досмотровые посты были закрыты на ночь. [16] Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган. [ нужна цитата ]

В 2013 году Barclays Wealth , подразделение частного банковского обслуживания Barclays, стало первой фирмой, предоставляющей финансовые услуги, которая внедрила голосовую биометрию в качестве основного средства идентификации клиентов в своих колл-центрах . Система использовала пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд после обычного разговора. [17] Он был разработан компанией Nuance , занимающейся распознаванием голоса (которая в 2011 году приобрела компанию Loquendo , дочернюю компанию CSELT по речевым технологиям), компанией, стоящей за технологией Apple Siri . 93% клиентов дали системе оценку «9 из 10» за скорость, простоту использования и безопасность. [18]

Распознавание говорящего также может быть использовано в уголовных расследованиях, например, в расследованиях казней в 2014 году, в частности, Джеймса Фоули и Стивена Сотлоффа . [19]

В феврале 2016 года популярный британский банк HSBC и его розничный интернет-банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн-счетам и телефонным счетам с помощью отпечатков пальцев или голоса. [20]

В 2023 году Vice News и The Guardian по отдельности продемонстрировали, что могут обойти стандартные финансовые системы аутентификации говорящих, используя голоса, сгенерированные искусственным интеллектом, сгенерированные примерно из пяти минут образцов голоса цели. [21] [22]

Смотрите также

Списки

Примечания

  1. ^ Поддар, Арнаб; Сахидулла, Мэриленд; Саха, Гутам (27 ноября 2017 г.). «Верификация говорящего короткими высказываниями: обзор проблем, тенденций и возможностей». ИЭПП Биометрия . Институт техники и технологий (ИЭТ). 7 (2): 91–101. doi : 10.1049/iet-bmt.2017.0065. ISSN  2047-4938.
  2. ^ Ласс, Норман Дж. (1974). Экспериментальная фонетика . Информационная корпорация МСС. стр. 251–258. ISBN 978-0-8422-5149-5.
  3. ^ Ван Ланкер, Диана; Крейман, Джоди; Эммори, Карен (1985). «Распознавание знакомого голоса: закономерности и параметры. Часть I: Распознавание задом наперед голосов». Журнал фонетики . Эльзевир Б.В. 13 (1): 19–38. дои : 10.1016/s0095-4470(19)30723-5 . ISSN  0095-4470.
  4. ^ «Определение и синонимы РАСПОЗНАВАНИЯ ГОЛОСА (существительное)» . macmillandictionary.com . 23 января 2010 года. Архивировано из оригинала 27 марта 2023 года . Проверено 13 октября 2023 г.{{cite web}}: CS1 maint: неподходящий URL ( ссылка )
  5. ^ «Что такое распознавание голоса? Определение и значение» . businessdictionary.com . 6 октября 2008 г. Архивировано из оригинала 3 декабря 2011 г.
  6. ^ "Почтовый мешок LG # 114" . Linux-вестник . 28 марта 2005 г.
  7. ^ Роуз, Фил; Осанаи, Такаши; Киносита, Юко (6 августа 2003 г.). «Надежность судебно-медицинских доказательств идентификации говорящего: сегментарная дискриминация на основе формант и кепстра с несколькими говорящими с байесовским отношением правдоподобия в качестве порога». Международный журнал речи, языка и права . Издательство Равноденствие. 10 (2): 179–202. дои : 10.1558/sll.2003.10.2.179. ISSN  1748-8893.
  8. Пинола, Мелани (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы закончили с Siri». ПКМир .
  9. Розен, Шерил (3 марта 1997 г.). «Распознавание голоса для облегчения бронирования поездок». Новости делового туризма . Самыми ранними приложениями программного обеспечения для распознавания речи была диктовка... Четыре месяца назад IBM представила «продукт непрерывной диктовки», предназначенный для... дебюта на выставке Национальной ассоциации делового туризма в 1994 году.
  10. ^ «Проверка говорящего: текстово-зависимая и независимая от текста» . Исследования Майкрософт . 19 июня 2017. Текстозависимый и текстонезависимый динамик.. у обоих одинаковая частота ошибок и обнаружение..
  11. ^ Эбер, Матье (2008). «Текстозависимое распознавание говорящего». Справочник Springer по обработке речи . Справочники Спрингера. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 743–762. дои : 10.1007/978-3-540-49127-9_37. ISBN 978-3-540-49125-5. ISSN  2522-8692. задача .. проверка или идентификация
  12. Майерс, Лиза (25 июля 2004 г.). «Исследование голосовой биометрии». Институт САНС .
  13. ^ Сахидулла, Мэриленд; Киннунен, Томи (2016). «Функции локальной спектральной изменчивости для проверки динамиков» (PDF) . Цифровая обработка сигналов . Эльзевир Б.В. 50 : 1–11. дои : 10.1016/j.dsp.2015.10.011. ISSN  1051-2004.
  14. ^ «Эксперт по распознаванию речи выражает обеспокоенность по поводу голосовых технологий на рабочем месте» . Независимый.т.е . 29 сентября 2019 г. . Проверено 30 сентября 2019 г.
  15. ^ US4752958 A, Мишель Кавацца, Альберто Чиарамелла, «Устройство для проверки говорящего» http://www.google.com/patents/US4752958?hl=it&cl=en
  16. Мейер, Барб (12 июня 1996 г.). «Автоматизированное пересечение границы». Репортаж телевизионных новостей . Телевизионные новости Мейера.
  17. ^ Международное банковское дело (27 декабря 2013 г.). «Голосовые биометрические технологии в банковском деле | Barclays». Wealth.barclays.com . Проверено 21 февраля 2016 г.
  18. ^ Мэтт Уорман (8 мая 2013 г.). «Попрощайтесь с значком: распознавание голоса берет верх в Barclays Wealth» . Проверено 5 июня 2013 г.
  19. ^ Юэн Макаскилл. «Убил ли «Джихадист Джон» Стивена Сотлоффа? | СМИ». Хранитель . Проверено 21 февраля 2016 г.
  20. Юлия Коллеве (19 февраля 2016 г.). «HSBC внедряет систему безопасности голосовой связи и Touch ID для клиентов банков | Бизнес» . Хранитель . Проверено 21 февраля 2016 г.
  21. ^ «Как я взломал банковский счет с помощью голоса, сгенерированного искусственным интеллектом» . 23 февраля 2023 г.
  22. ^ Эвершед, Ник; Тейлор, Джош (16 марта 2023 г.). «ИИ может обмануть распознавание голоса, используемое для проверки личности Centrelink и налоговой службой Австралии». Хранитель . Проверено 16 июня 2023 г.

Рекомендации

Внешние ссылки

Программное обеспечение