stringtranslate.com

Нечеткий поиск

Методы нечеткого поиска основаны на расширенной булевой модели и теории нечетких множеств . Существует две классические модели нечеткого поиска: смешанная модель Min and Max (MMM) и модель Paice. Обе модели не предоставляют способа оценки веса запроса, однако это учитывается алгоритмом P-норм .

Смешанная модель минимума и максимума (MMM)

В теории нечетких множеств элемент имеет различную степень принадлежности, скажем d A , к данному множеству A вместо традиционного выбора принадлежности (является элементом/не является элементом).
В MMM [1] каждый индексный термин имеет нечеткое множество, связанное с ним. Вес документа по отношению к индексному термину A считается степенью принадлежности документа нечеткому множеству, связанному с A . Степень принадлежности для объединения и пересечения определяется в теории нечетких множеств следующим образом:

Согласно этому, документы, которые должны быть извлечены для запроса формы A или B , должны находиться в нечетком множестве, связанном с объединением двух множеств A и B . Аналогично, документы, которые должны быть извлечены для запроса формы A и B , должны находиться в нечетком множестве, связанном с пересечением двух множеств. Следовательно, можно определить сходство документа с запросом or как max(d A , d B ) , а сходство документа с запросом and как min(d A , d B ) . Модель MMM пытается смягчить булевы операторы, рассматривая сходство запроса и документа как линейную комбинацию минимального и максимального весов документа.

Дан документ D с весами индекса-терма d A1 , d A2 , ..., d An для терминов A 1 , A 2 , ..., An и запросы:

Q или = (A 1 или A 2 или ... или A n )
Q и = (A 1 и A 2 и ... и A n )

Сходство запроса и документа в модели МММ вычисляется следующим образом:

SlM(Q или , D) = C или1 * max(d A1 , d A2 , ..., d An ) + C или2 * min(d A1 , d A2 , ..., d An )
SlM(Q и , D) = C и1 * min(d A1 , d A2 , ..., d An ) + C и2 * max(d A1 , d A2 ..., d An )

где C or1 , C or2 — коэффициенты «мягкости» для оператора or , а C and1 , C and2 — коэффициенты мягкости для оператора and . Поскольку мы хотели бы придать максимуму веса документа большую важность при рассмотрении запроса or , а минимуму большую важность при рассмотрении запроса and , то обычно мы имеем C or1 > C or2 и C and1 > C and2 . Для простоты обычно предполагается, что C or1 = 1 - C or2 и C and1 = 1 - C and2 .

Эксперименты Ли и Фокса [2] показывают, что наилучшая производительность обычно достигается при C и1 в диапазоне [0,5, 0,8] и при C или1 > 0,2. В целом, вычислительная стоимость MMM низкая, а эффективность поиска намного лучше, чем у стандартной булевой модели .

модель Пейса

Модель Paice [3] является общим расширением модели MMM. По сравнению с моделью MMM, которая учитывает только минимальный и максимальный вес для индексных терминов, модель Paice учитывает все веса терминов при расчете сходства :

где r — постоянный коэффициент, а w di располагается в порядке возрастания для и запросов и в порядке убывания для или запросов. При n = 2 модель Paice показывает такое же поведение, как и модель MMM.

Эксперименты Ли и Фокса [2] показали, что установка r на 1,0 для запросов и и 0,7 для запросов или дает хорошую эффективность поиска. Вычислительная стоимость для этой модели выше, чем для модели MMM. Это связано с тем, что модель MMM требует только определения минимума или максимума набора весов терминов каждый раз, когда рассматривается предложение and или or , что может быть сделано за O(n) . Модель Пейса требует, чтобы веса терминов были отсортированы в порядке возрастания или убывания, в зависимости от того, рассматривается ли предложение and или or . Для этого требуется как минимум алгоритм сортировки 0(n log n) . Также требуется много вычислений с плавающей точкой.

Улучшения по сравнению со стандартной булевой моделью

Ли и Фокс [2] сравнили стандартную булеву модель с моделями MMM и Paice с тремя тестовыми наборами, CISI, CACM и INSPEC. Вот представленные результаты для среднего улучшения точности:

Это очень хорошие улучшения по сравнению со Стандартной моделью. MMM очень близка к результатам Paice и P-norm, что указывает на то, что она может быть очень хорошей техникой и является наиболее эффективной из трех.

Недавние работы

В 2005 году Канг и др. [4] разработали нечеткую поисковую систему, индексированную по идентификации концепций.

Если мы посмотрим на документы с использованием чистого подхода Tf-idf , даже исключив стоп-слова, то найдутся слова, более релевантные теме документа, чем другие, и они будут иметь одинаковый вес, поскольку имеют одинаковую частоту терминов. Если мы примем во внимание намерение пользователя в запросе, мы сможем лучше взвесить термины документа. Каждый термин может быть идентифицирован как концепция в определенной лексической цепочке, которая передает важность этой концепции для этого документа.
Они сообщают об улучшениях по сравнению с Paice и P-norm по средней точности и полноте для 5 лучших извлеченных документов.

Задрозный [5] пересмотрел модель нечеткого информационного поиска. Он далее расширяет нечеткую расширенную булеву модель следующим образом:

Предложенная модель позволяет учесть как неточность, так и неопределенность, касающиеся представления и поиска текстовой информации.

Смотрите также

Дальнейшее чтение

Ссылки

  1. ^ Фокс, EA; С. Шарат (1986), Сравнение двух методов мягкой булевой интерпретации в информационном поиске , Технический отчет TR-86-1, Virginia Tech, Департамент компьютерных наук
  2. ^ abc Ли, WC; EA Фокс (1988), Экспериментальное сравнение схем для интерпретации булевых запросов
  3. ^ Paice, CD (1984), Мягкая оценка булевых поисковых запросов в системах поиска информации , Информационные технологии, Res. Dev. Applications, 3(1), 33-42
  4. ^ Кан, Бо-Ён; Дэ-Вон Ким; Хэ-Джун Ким (2005), «Нечеткий поиск информации, индексированный с помощью идентификации понятий», Текст, речь и диалог , заметки лекций по информатике, т. 3658, Springer Berlin / Heidelberg, стр. 179–186, doi :10.1007/11551874_23, ISBN 978-3-540-28789-6
  5. ^ Задрозный, Славомир; Новацкая, Катажина (2009), «Повторный взгляд на модель поиска нечеткой информации», Нечеткие множества и системы , 160 (15), Elsevier North-Holland, Inc.: 2173–2191, doi : 10.1016/j.fss.2009.02.012