stringtranslate.com

Распознавание говорящего

Распознавание говорящего — это идентификация человека по характеристикам голоса. [1] Он используется для ответа на вопрос «Кто говорит?» Термин « распознавание голоса » [2] [3] [4] [5] [6] может относиться к распознаванию говорящего или распознаванию речи . Проверка говорящего (также называемая аутентификацией говорящего ) отличается от идентификации, а распознавание говорящего отличается от диаризации говорящего (распознавания, когда говорит один и тот же говорящий).

Распознавание говорящего может упростить задачу перевода речи в системах, которые были обучены на определенных голосах, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было обнаружено, различаются у разных людей. Эти акустические модели отражают как анатомию , так и усвоенные поведенческие модели.

Проверка против идентификации

Существует два основных применения технологий и методик распознавания говорящего. Если говорящий утверждает, что он имеет определенную идентичность, и голос используется для подтверждения этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация — это задача определения идентичности неизвестного говорящего. В некотором смысле, проверка говорящего — это сопоставление 1:1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего — это сопоставление 1:N, когда голос сравнивается с несколькими шаблонами.

С точки зрения безопасности идентификация отличается от верификации. Верификация говорящего обычно используется в качестве «привратника» для предоставления доступа к защищенной системе. Эти системы работают с ведома пользователей и обычно требуют их сотрудничества. Системы идентификации говорящего также могут быть реализованы скрытно без ведома пользователя для идентификации говорящих в обсуждении, оповещения автоматизированных систем о смене говорящего, проверки, зарегистрирован ли пользователь в системе и т. д.

В криминалистических приложениях обычно сначала выполняют процесс идентификации говорящего, чтобы создать список «лучших совпадений», а затем выполняют ряд процессов проверки, чтобы определить окончательное совпадение. Работа по сопоставлению образцов говорящего со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком на основе количества сходств или различий. Обвинение и защита используют это как доказательство, чтобы определить, является ли подозреваемый на самом деле преступником. [7]

Обучение

Одна из самых ранних технологий обучения, которая была коммерциализирована, была реализована в кукле Джули 1987 года от Worlds of Wonder . На тот момент независимость говорящего была предполагаемым прорывом, и системам требовался период обучения. Рекламный слоган куклы 1987 года гласил: «Наконец-то кукла, которая вас понимает». — несмотря на то, что она описывалась как продукт, «который дети могут научить реагировать на свой голос». [8] Термин «распознавание голоса» даже десятилетие спустя относился к независимости говорящего. [9] [ необходимо разъяснение ]

Варианты распознавания говорящего

Каждая система распознавания говорящего имеет две фазы: регистрация и верификация. Во время регистрации голос говорящего записывается, и обычно извлекается ряд признаков для формирования голосового отпечатка, шаблона или модели. На этапе верификации образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. Для систем идентификации высказывание сравнивается с несколькими голосовыми отпечатками, чтобы определить наилучшее совпадение(я), в то время как системы верификации сравнивают высказывание с одним голосовым отпечатком. Из-за задействованного процесса верификация происходит быстрее, чем идентификация.

Системы распознавания говорящего делятся на две категории: текстозависимые и текстонезависимые. [10] Текстонезависимые системы распознавания требуют, чтобы текст был одинаковым как для регистрации, так и для проверки. [11] В текстонезависимой системе подсказки могут быть либо общими для всех говорящих (например, общая парольная фраза), либо уникальными. Кроме того, использование общих секретов (например, паролей и PIN-кодов) или информации, основанной на знаниях, может использоваться для создания сценария многофакторной аутентификации . Наоборот, текстонезависимые системы не требуют использования определенного текста. Чаще всего они используются для идентификации говорящего, поскольку требуют очень небольшого сотрудничества со стороны говорящего, если вообще требуют. В этом случае текст во время регистрации и тестирования отличается. Фактически, регистрация может происходить без ведома пользователя, как в случае со многими судебными приложениями. Поскольку текстонезависимые технологии не сравнивают то, что было сказано при регистрации и проверке, приложения проверки, как правило, также используют распознавание речи, чтобы определить, что пользователь говорит в момент аутентификации. [ необходима цитата ] В текстонезависимых системах используются как акустические , так и речевые методы анализа . [12]

Технологии

Распознавание говорящего — это проблема распознавания образов . Различные технологии, используемые для обработки и хранения голосовых отпечатков, включают оценку частоты , скрытые марковские модели , модели гауссовской смеси , алгоритмы сопоставления образов , нейронные сети , матричное представление , векторное квантование и деревья решений . Для сравнения высказываний с голосовыми отпечатками традиционно используются более базовые методы, такие как косинусное сходство, из-за их простоты и производительности. Некоторые системы также используют методы «анти-говорящего», такие как когортные модели и мировые модели. Спектральные признаки в основном используются для представления характеристик говорящего. [13] Линейное предиктивное кодирование (LPC) — это метод кодирования речи, используемый при распознавании говорящего и проверке речи . [ требуется ссылка ]

Уровень окружающего шума может препятствовать как сбору начальных, так и последующих образцов голоса. Алгоритмы шумоподавления могут использоваться для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений в поведенческих характеристиках голоса и регистрации с использованием одного телефона и проверки на другом телефоне. Ожидается, что интеграция с продуктами двухфакторной аутентификации увеличится. Изменения голоса из-за старения могут повлиять на производительность системы с течением времени. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы зафиксировать такие долгосрочные изменения голоса, хотя ведутся споры относительно общего влияния на безопасность, налагаемого автоматизированной адаптацией [ необходима ссылка ]

Правовые последствия

В связи с введением таких законов, как Общий регламент по защите данных в Европейском союзе и Закон о защите прав потребителей Калифорнии в Соединенных Штатах, было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях. [14]

Приложения

Первый международный патент был подан в 1983 году и стал результатом исследований в области телекоммуникаций в CSELT [15] (Италия), проведенных Микеле Каваццей и Альберто Чиарамеллой в качестве основы как для будущих телекоммуникационных услуг для конечных потребителей, так и для улучшения методов шумоподавления в сети.

В период с 1996 по 1998 год технология распознавания говорящего использовалась на пограничном переходе Скоби-Коронач, чтобы позволить зарегистрированным местным жителям, которым нечего было декларировать, пересекать границу Канады и США, когда пункты проверки были закрыты на ночь. [16] Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган. [ необходима цитата ]

В 2013 году Barclays Wealth , частное банковское подразделение Barclays, стало первой финансовой компанией, которая внедрила голосовую биометрию в качестве основного средства идентификации клиентов в своих колл-центрах . Система использовала пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд обычного разговора. [17] Она была разработана компанией по распознаванию голоса Nuance (которая в 2011 году приобрела компанию Loquendo , ответвление от CSELT для речевых технологий), компанию, стоящую за технологией Siri от Apple . 93% клиентов дали системе оценку «9 из 10» за скорость, простоту использования и безопасность. [18]

Распознавание говорящего может также использоваться в уголовных расследованиях, таких как казни в 2014 году, среди прочих, Джеймса Фоули и Стивена Сотлоффа . [19]

В феврале 2016 года крупнейший британский банк HSBC и его интернет-розничный банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн- и телефонным счетам с помощью отпечатков пальцев или голоса. [20]

В 2023 году Vice News и The Guardian независимо друг от друга продемонстрировали, что они могут обойти стандартные финансовые системы аутентификации спикеров, используя голоса, сгенерированные искусственным интеллектом из примерно пятиминутных образцов голоса цели. [21] [22]

Смотрите также

Списки

Примечания

  1. ^ Poddar, Arnab; Sahidullah, Md; Saha, Goutam (27 ноября 2017 г.). «Проверка говорящего с помощью коротких высказываний: обзор проблем, тенденций и возможностей». IET Biometrics . 7 (2). Институт инженерии и технологий (IET): 91–101. doi :10.1049/iet-bmt.2017.0065. ISSN  2047-4938.
  2. ^ Ласс, Норман Дж. (1974). Экспериментальная фонетика . MSS Information Corporation. С. 251–258. ISBN 978-0-8422-5149-5.
  3. ^ Ван Ланкер, Диана; Крейман, Джоди; Эмморей, Карен (1985). «Распознавание знакомых голосов: закономерности и параметры. Часть I: Распознавание обратных голосов». Журнал фонетики . 13 (1). Elsevier BV: 19–38. doi : 10.1016/s0095-4470(19)30723-5 . ISSN  0095-4470.
  4. ^ "VOICE RECOGNITION (сущ.) определение и синонимы". macmillandictionary.com . 23 января 2010 г. Архивировано из оригинала 27 марта 2023 г. Получено 13 октября 2023 г.{{cite web}}: CS1 maint: неподходящий URL ( ссылка )
  5. ^ "Что такое распознавание голоса? Определение и значение". businessdictionary.com . 6 октября 2008 г. Архивировано из оригинала 3 декабря 2011 г.
  6. ^ "The Mailbag LG #114". Linux Gazette . 28 марта 2005 г.
  7. ^ Роуз, Фил; Осанаи, Такаши; Киносита, Юко (6 августа 2003 г.). «Сила доказательств судебной идентификации говорящего: сегментная дискриминация на основе формант и кепстра у нескольких говорящих с байесовским отношением правдоподобия в качестве порогового значения». Международный журнал речи, языка и права . 10 (2). Equinox Publishing: 179–202. doi :10.1558/sll.2003.10.2.179. ISSN  1748-8893.
  8. ^ Пинола, Мелани (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы пришли к Siri». PCWorld .
  9. ^ Розен, Шерил (3 марта 1997 г.). «Распознавание голоса для облегчения бронирования билетов». Новости деловых поездок . Самыми ранними приложениями программного обеспечения для распознавания речи были диктовка ... Четыре месяца назад IBM представила «продукт для непрерывной диктовки», предназначенный для ..., дебютировавший на выставке Национальной ассоциации деловых поездок в 1994 г.
  10. ^ "Проверка говорящего: текстозависимый против текстонезависимого". Microsoft Research . 19 июня 2017 г. текстозависимый и текстонезависимый говорящий .. оба имеют одинаковую частоту ошибок и обнаружение ..
  11. ^ Эбер, Матье (2008). «Распознавание говорящего, зависящее от текста». Springer Handbook of Speech Processing . Springer Handbooks. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 743–762. doi :10.1007/978-3-540-49127-9_37. ISBN 978-3-540-49125-5. ISSN  2522-8692. задача .. проверка или идентификация
  12. Майерс, Лиза (25 июля 2004 г.). «Исследование голосовой биометрии». Институт SANS .
  13. ^ Сахидулла, Мд; Киннунен, Томи (2016). «Локальные спектральные характеристики изменчивости для проверки говорящего» (PDF) . Цифровая обработка сигналов . 50. Elsevier BV: 1–11. doi :10.1016/j.dsp.2015.10.011. ISSN  1051-2004.
  14. ^ «Эксперт по распознаванию речи выражает обеспокоенность по поводу голосовых технологий на рабочем месте». Independent.ie . 29 сентября 2019 г. . Получено 30 сентября 2019 г. .
  15. ^ US4752958 A, Мишель Кавацца, Альберто Чиарамелла, «Устройство для проверки говорящего» https://patents.google.com/patent/US4752958/en
  16. Мейер, Барб (12 июня 1996 г.). «Автоматизированное пересечение границы». Репортаж телевизионных новостей . Телевизионные новости Мейера.
  17. ^ International Banking (27 декабря 2013 г.). «Голосовая биометрическая технология в банковском деле | Barclays». Wealth.barclays.com . Получено 21 февраля 2016 г. .
  18. Мэтт Уорман (8 мая 2013 г.). «Попрощайтесь с булавкой: распознавание голоса берет верх в Barclays Wealth» . Получено 5 июня 2013 г.
  19. ^ Юэн Макаскилл. «Убил ли „Джихади Джон“ Стивена Сотлоффа? | Медиа». The Guardian . Получено 21 февраля 2016 г.
  20. ^ Джулия Коллеве (19 февраля 2016 г.). «HSBC внедряет систему безопасности voice and touch ID для клиентов банка | Бизнес». The Guardian . Получено 21 февраля 2016 г.
  21. ^ «Как я взломал банковский счет с помощью голоса, сгенерированного искусственным интеллектом». 23 февраля 2023 г.
  22. ^ Эвершед, Ник; Тейлор, Джош (16 марта 2023 г.). «ИИ может обмануть систему распознавания голоса, используемую Centrelink и австралийской налоговой службой для проверки личности». The Guardian . Получено 16 июня 2023 г.

Ссылки

Внешние ссылки

Программное обеспечение