stringtranslate.com

Расширение запроса

Расширение запроса ( QE ) — это процесс переформулирования данного запроса для повышения производительности операций поиска информации , особенно в контексте понимания запроса . [1] В контексте поисковых систем расширение запроса включает в себя оценку ввода пользователя (какие слова были введены в область поискового запроса, а иногда и другие типы данных ) и расширение поискового запроса для соответствия дополнительным документам. Расширение запроса включает в себя такие методы, как:

Расширение запросов — это методология, изучаемая в области информатики , особенно в области обработки естественного языка и поиска информации .

Компромиссы между точностью и полнотой

Поисковые системы используют расширение запросов, чтобы повысить качество результатов поиска пользователей. Предполагается, что пользователи не всегда формулируют поисковые запросы, используя лучшие термины. Лучше всего в этом случае может быть то, что база данных не содержит введенных пользователем терминов.

Благодаря определению термина, введенного пользователем, сопоставляется больше документов, поскольку сопоставляются также альтернативные словоформы для термина, введенного пользователем, что увеличивает общий объем запоминаемости . Это происходит за счет снижения точности . Расширение поискового запроса для поиска синонимов введенного пользователем термина также увеличивает запоминаемость за счет точности. Это связано с характером уравнения расчета точности: больший отзыв неявно приводит к снижению точности, учитывая, что коэффициенты полноты являются частью знаменателя. Также предполагается, что больший объем отзыва отрицательно влияет на общее качество результатов поиска, поскольку многие пользователи не хотят, чтобы было просмотрено больше результатов, независимо от точности.

Целью расширения запросов в этом отношении является увеличение отзыва, точность может потенциально увеличиться (а не уменьшиться, как математически приравнивается), за счет включения в набор результатов страниц, которые более релевантны (более высокого качества) или, по крайней мере, одинаково релевантны. Страницы, которые не были бы включены в набор результатов и потенциально могут быть более релевантными желаемому запросу пользователя, включаются и без расширения запроса не были бы включены, независимо от релевантности . В то же время многие современные коммерческие поисковые системы используют частоту слов ( tf-idf ) для ранжирования. [ нужна цитата ] Путем ранжирования вхождений введенных пользователем слов и синонимов, а также альтернативных морфологических форм, документы с более высокой плотностью (высокая частота и непосредственная близость) имеют тенденцию перемещаться выше в результатах поиска, что приводит к более высокому качеству результаты поиска находятся в верхней части результатов, несмотря на большую запоминаемость.

Методы расширения запроса

Автоматические методы расширения запросов были предложены в 1960 году Мароном и Кунсом. [2] Современные методы расширения запросов либо подразумевают анализ коллекции документов (глобальный или локальный) [3] , либо основаны на словарях или онтологиях . [4] Глобальный анализ коллекции документов применяется для поиска связей между терминами. Локальный анализ относится к обратной связи по релевантности, представленной Роккио. [5] Роккио предложил вручную оценивать некоторые из полученных документов и использовать эту информацию обратной связи для расширения запроса. Поскольку сбор мнений пользователей может оказаться затруднительным, релевантными считаются только первые найденные документы. Это так называемая обратная связь псевдорелевантности (PRF). [6] Обратная связь по псевдорелевантности в среднем эффективна, но может испортить результаты для некоторых запросов, [7] особенно сложных, поскольку наиболее часто извлекаемые документы, вероятно, нерелевантны. Псевдорелевантные документы используются для поиска терминов-кандидатов на расширение, которые встречаются одновременно со многими терминами запроса. [8] Эта идея получила дальнейшее развитие в рамках формализма языковой модели релевантности в моделях позиционной релевантности [9] и моделях релевантности близости [10] , которые учитывают расстояние до терминов запроса в псевдорелевантных документах. Еще одним направлением расширения запросов является представление индексов и терминов запроса в векторном пространстве, которое можно использовать для поиска связанных терминов во время запроса с использованием семантических векторов или встраивания слов . [11] [12]

В более общем плане расширение запросов и соответствующее расширение документов сегодня реализуются в форме векторных баз данных с использованием различных схем кодирования, основанных на глубоком обучении . [13]

Смотрите также

Библиотеки программного обеспечения

Рекомендации

Цитаты

  1. ^ Вектомова, Ольга; Ван, Ин (2006). «Исследование влияния близости терминов на расширение запроса». Журнал информатики . 32 (4): 324–333. CiteSeerX  10.1.1.552.5987 . дои : 10.1177/0165551506065787. S2CID  7265523.
  2. ^ Марон, М.Э. и Кунс, Дж.Л., 1960. О релевантности, вероятностном индексировании и поиске информации. Журнал ACM 7, 3, 216–244.
  3. ^ К. Карпинето и Дж. Романо. Обзор автоматического расширения запросов при поиске информации. ACM Computing Surveys, 44(1):1-50, январь 2012 г.
  4. ^ Дж. Бхогал, А. Макфарлейн и П. Смит. Обзор расширения запросов на основе онтологий. Инф. Процесс. Manage., 43(4):866-886, июль 2007 г.
  5. ^ Дж. Роккио. Релевантность обратной связи при поиске информации. В Поисковой системе SMART, стр. 313-323. 1971.
  6. ^ К. Бакли. Автоматическое расширение запроса с использованием SMART: TREC 3. В материалах третьей конференции по поиску текста (TREC-3). Специальная публикация NIST, стр. 69-80. Национальный институт стандартов и технологий, 1995.
  7. ^ Дж. Амати, К. Карпинето и Дж. Романо. Сложность запроса, надежность и выборочное применение расширения запроса. Достижения в области информационного поиска, с. 127-137, 2004.
  8. ^ Дж. Сюй и В. Б. Крофт. Расширение запросов с использованием локального и глобального анализа документов. В материалах 19-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, страницы 4–11. АКМ, 1996.
  9. ^ Ю. Льв и К. Чжай. Модель позиционной релевантности для обратной связи по псевдорелевантности. В материалах 33-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 579-586. АКМ, 2010.
  10. ^ Л. Ермакова, Дж. Мот и Е. Никитина. 2016. Модель релевантности близости для расширения запросов. В материалах 31-го ежегодного симпозиума ACM по прикладным вычислениям (SAC '16). ACM, Нью-Йорк, штат Нью-Йорк, США, 1054–1059. DOI: https://doi.org/10.1145/2851613.2851696.
  11. ^ Салгрен, Магнус, Юсси Карлгрен, Рикард Кёстер и Тимо Ярвинен. 2003. «Автоматическое расширение запроса с использованием случайной индексации». Достижения в области межъязыкового поиска информации: третий семинар Форума межъязыковой оценки (CLEF). Спрингер.
  12. ^ С. Кузи, А. Шток, О. Курлянд. 2016. Расширение запроса с использованием встраивания слов. В материалах 25-й Международной конференции ACM по управлению информацией и знаниями (CIKM '16). ACM, Нью-Йорк, штат Нью-Йорк, США, 1929–1932 гг. DOI: https://doi.org/10.1145/2983323.2983876.
  13. ^ Лин, Джимми; Ногейра, Родриго; Йейтс, Эндрю (13 октября 2020 г.). «Предварительно обученные преобразователи для ранжирования текста: BERT и не только». arXiv : 2010.06467 [cs.IR].
  14. ^ Махтаб Таманнаи, Хоссейн Фани, Фаттейн Зарринкалам, Джамиль Самух, Самад Пайдар, Эбрахим Багери: ReQue: настраиваемый рабочий процесс и сбор наборов данных для уточнения запросов. ЦИКМ 2020: 3165-3172
  15. ^ Хоссейн Фани, Махтаб Таманнаи, Фаттане Зарринкалам, Джамиль Самух, Самад Пайдар, Ибрагим Багери; Расширяемый набор инструментов для методов уточнения запросов и создания наборов данных золотого стандарта. В достижениях в области информационного поиска: 43-я Европейская конференция по IR-исследованиям (ECIR'21), 2021 г.

Источники