stringtranslate.com

Окапи BM25

В поиске информации Okapi BM25 ( BM — это аббревиатура от best matching — лучшее соответствие ) — это функция ранжирования , используемая поисковыми системами для оценки релевантности документов заданному поисковому запросу. Она основана на вероятностной структуре поиска, разработанной в 1970-х и 1980-х годах Стивеном Э. Робертсоном , Карен Спарк Джонс и другими.

Имя фактической функции ранжирования — BM25 . Полное название, Okapi BM25 , включает название первой системы, которая его использовала, а именно информационно-поисковой системы Okapi, внедренной в Лондонском городском университете [1] в 1980-х и 1990-х годах. BM25 и ее более новые варианты, например, BM25F (версия BM25, которая может учитывать структуру документа и текст привязки), представляют собой функции поиска, подобные TF-IDF, используемые при поиске документов. [2]

Функция ранжирования

BM25 — это функция поиска по мешку слов , которая ранжирует набор документов на основе терминов запроса, встречающихся в каждом документе, независимо от их близости в документе. Это семейство функций оценки с немного отличающимися компонентами и параметрами. Одна из наиболее известных реализаций функции выглядит следующим образом.

При запросе Q , содержащем ключевые слова , оценка BM25 документа D составляет:

где — количество раз, когда ключевое слово встречается в документе D , — длина документа D в словах, а avgdl — средняя длина документа в текстовой коллекции, из которой извлекаются документы. и b — свободные параметры, обычно выбираемые при отсутствии расширенной оптимизации, как и . [3] — вес IDF ( обратная частота документа ) термина запроса . Обычно он вычисляется как:

где N — общее количество документов в коллекции, а — количество документов, содержащих .

Существует несколько интерпретаций IDF и небольшие вариации его формулы. В оригинальном выводе BM25 компонент IDF выводится из модели двоичной независимости .

Информационно-теоретическая интерпретация IDF

Вот интерпретация из теории информации. Предположим, что термин запроса появляется в документах. Тогда случайно выбранный документ будет содержать этот термин с вероятностью (где снова — мощность набора документов в коллекции). Следовательно, информационное содержание сообщения « содержит » равно:

Теперь предположим, что у нас есть два термина запроса и . Если два термина встречаются в документах совершенно независимо друг от друга, то вероятность увидеть и в случайно выбранном документе равна:

и информационное содержание такого события:

С небольшими вариациями это именно то, что выражает компонент IDF BM25.

Модификации

Ссылки

  1. ^ "OKAPI". smcse.city.ac.uk . Получено 2023-10-16 .
  2. ^ ab Stephen Robertson & Hugo Zaragoza (2009). «The Probabilistic Relevance Framework: BM25 and Beyond». Основы и тенденции в области поиска информации . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . doi :10.1561/1500000019. S2CID  207178704. 
  3. ^ Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце. Введение в поиск информации , Издательство Кембриджского университета, 2009, стр. 233.
  4. ^ «Схема взвешивания BM25».
  5. ^ Уго Сарагоса, Ник Красвелл, Майкл Тейлор, Сучи Сария и Стивен Робертсон. Microsoft Cambridge на TREC-13: Web и HARD-треки. В материалах TREC-2004.
  6. ^ Робертсон, Стивен; Сарагоса, Хьюго; Тейлор, Майкл (2004-11-13). "Простое расширение BM25 для нескольких взвешенных полей". Труды тринадцатой международной конференции ACM по управлению информацией и знаниями . CIKM '04. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 42–49. doi :10.1145/1031171.1031181. ISBN 978-1-58113-874-0. S2CID  16628332.
  7. ^ Юаньхуа Лв и Чэнсян Чжай. Нормализация частоты нижних граничных членов. В трудах CIKM'2011, страницы 7-16.

Общие ссылки

Внешние ссылки