stringtranslate.com

Поиск ключевых слов

Обнаружение ключевых слов (или, проще говоря, обнаружение слов ) — это проблема, которая исторически впервые была определена в контексте обработки речи . [1] [2] В обработке речи обнаружение ключевых слов связано с идентификацией ключевых слов в высказываниях .

Поиск ключевых слов также определяется как отдельная, но связанная проблема в контексте обработки изображений документов. [1] В обработке изображений документов поиск ключевых слов — это проблема поиска всех вхождений слова запроса, которые существуют в отсканированном изображении документа, без его полного распознавания.

В обработке речи

Первые работы по поиску ключевых слов появились в конце 1980-х годов. [2]

Особым случаем распознавания ключевых слов является функция обнаружения пробуждающих слов (также называемых горячими словами), используемая персональными цифровыми помощниками, такими как Alexa или Siri, для активации спящего говорящего, другими словами, «пробуждения» при произнесении его имени.

В Соединенных Штатах Агентство национальной безопасности использовало функцию обнаружения ключевых слов по крайней мере с 2006 года. [3] Эта технология позволяет аналитикам просматривать большие объемы записанных разговоров и изолировать упоминания подозрительных ключевых слов. Записи могут быть проиндексированы, и аналитики могут выполнять запросы по базе данных, чтобы найти интересующие разговоры. IARPA финансировала исследования по обнаружению ключевых слов в программе Babel .

Вот некоторые алгоритмы, используемые для этой задачи:

При обработке изображений документов

Поиск ключевых слов в обработке изображений документов можно рассматривать как пример более общей проблемы поиска изображений на основе контента (CBIR). При наличии запроса цель состоит в том, чтобы найти наиболее релевантные экземпляры слов в коллекции отсканированных документов. [1] Запрос может быть текстовой строкой (поиск ключевых слов по строке) или изображением слова (поиск ключевых слов по примеру).

Ссылки

  1. ^ abc Giotis, AP; Sfikas, G.; Gatos, B.; Nikou, C. (2017). «Обзор методов обнаружения слов на изображениях документов». Pattern Recognition . 68 : 310–332. Bibcode : 2017PatRe..68..310G. doi : 10.1016/j.patcog.2017.02.023.
  2. ^ ab Rohlicek, J.; Russell, W.; Roukos, S.; Gish, H. (1989). «Непрерывное скрытое марковское моделирование для обнаружения слов, независимого от говорящего». Труды 14-й Международной конференции IEEE по акустике, речи и обработке сигналов (ICASSP) . 1 : 627–630.
  3. ^ Фрумкин, Дэн (5 мая 2015 г.). «КОМПЬЮТЕРЫ СЛУШАЮТ». The Intercept . Получено 20 июня 2015 г.
  4. ^ Sainath, Tara N ; Parada, Carolina (2015). "Сверточные нейронные сети для обнаружения ключевых слов с малым размером отпечатка". Шестнадцатая ежегодная конференция Международной ассоциации речевой коммуникации . arXiv : 1711.00333 .
  5. ^ Вэй, Бо; Ян, Мэйронг; Чжан, Тао; Тан, Сяо; Хуан, Син; Ким, Кюхон; Ли, Джэюн; Чо, Кихо; Пак, Сон-Ун (30 августа 2021 г.). Сквозной поиск ключевых слов с открытым словарным запасом на основе трансформатора с локальным вниманием, управляемым местоположением (PDF) . Interspeech 2021.{{cite conference}}: CS1 maint: дата и год ( ссылка )