stringtranslate.com

Булева модель поиска информации

(Стандартная) булева модель поиска информации ( БИР ) [1] является классической моделью поиска информации (ПИ) и в то же время первой и наиболее распространенной. [2] BIR основан на булевой логике и классической теории множеств , поскольку и документы, в которых осуществляется поиск, и запрос пользователя рассматриваются как наборы терминов ( модель «мешка слов» ). Поиск основан на том, содержат ли документы условия запроса и удовлетворяют ли они логическим условиям, описанным в запросе.

Определения

Индексный термин — это слово или выражение , которое может иметь основу , описывая или характеризуя документ, например ключевое слово, указанное для журнальной статьи. Позвольте быть набором всех таких индексных термов.

Документ это любое подмножество . Пусть это набор всех документов.


представляет собой серию слов или небольших фраз (индексных терминов). Каждому из этих слов или небольших фраз присвоено имя , где — номер термина в серии/списке. Вы можете думать об этом как о «Терминах» и «индексном термине n ».

В документах могут существовать слова или небольшие фразы (индексные термины ). Эти документы затем образуют серию/список, в котором каждый отдельный документ называется . Эти документы ( ) могут содержать слова или небольшие фразы (указательные термины ), например, могут содержать термины и от . Пример этого можно найти в следующем разделе.

Индексные термины обычно представляют собой слова, которые имеют для них большее значение и соответствуют тому, о чем может говорить содержание статьи или документа. Такие термины, как «the» и «like», будут встречаться почти во всех документах, тогда как «байесовский» будет лишь небольшой частью документов. Поэтому более редкие термины, такие как «байесовский», лучше выбирать в наборах. Это относится к энтропии (теории информации) . Существует несколько типов операций, которые можно применять к терминам индекса, используемым в запросах, чтобы сделать их более общими и релевантными. Одним из таких является Стемминг .


Запрос представляет собой логическое выражение в нормальной форме: где истинно , когда . (Эквивалентно, может быть выражено в дизъюнктивной нормальной форме .)

Любые запросы представляют собой набор индексных терминов ( или ), выбранных из набора терминов, которые объединяются с помощью логических операторов для формирования набора условий.

Эти условия затем применяются к набору документов, которые содержат те же индексные термины ( ) из набора .

Мы стремимся найти комплект документов, удовлетворяющий требованиям . Эта операция называется поиском и состоит из следующих двух шагов:

1. Для каждого из найдите набор документов, удовлетворяющих : 2. Тогда набор документов, удовлетворяющих Q, определяется следующим образом: Где означает ИЛИ и означает И как логические операторы.

Пример

Пусть набор оригинальных (реальных) документов будет, например,

где

= «Принцип Байеса: принцип, согласно которому при оценке параметра следует изначально предположить, что каждое возможное значение имеет равную вероятность (равномерное априорное распределение)».

= « Байесовская теория принятия решений : математическая теория принятия решений, которая предполагает функции полезности и вероятности и согласно которой выбираемое действие является действием Байеса, то есть действием с наивысшей субъективной ожидаемой полезностью. Если бы у кого-то было неограниченное время и расчеты власть, с которой можно принимать любое решение, эта процедура была бы лучшим способом принятия любого решения».

= «Байесовская эпистемология : Философская теория, которая утверждает, что эпистемический статус предложения (т.е. насколько хорошо оно доказано или хорошо установлено) лучше всего измеряется вероятностью и что правильный способ пересмотра этой вероятности определяется байесовской кондиционализацией или чем-то подобным. Байесовский эпистемолог будет использовать вероятность для определения и исследования взаимосвязи между такими понятиями, как эпистемический статус, поддержка или объяснительная сила».

Пусть набор условий будет:

Тогда комплект документов следующий:

где

Пусть запрос будет («вероятность» И «принятие решения»):

Затем, чтобы получить соответствующие документы:

  1. Во-первых, получаются (извлекаются) следующие наборы документов : Где соответствует документам, которые содержат термин «вероятность» и содержат термин «принятие решения».
  2. Наконец, в ответ на запрос извлекаются следующие документы : Когда запрос ищет документы, содержащиеся в обоих наборах, с помощью оператора пересечения.

Это означает, что исходный документ является ответом на .

Если существует более одного документа с одинаковым представлением (одним и тем же подмножеством индексных терминов ), извлекается каждый такой документ. Такие документы в БИР неотличимы (иными словами, эквивалентны).

Преимущества

Недостатки

Структуры данных и алгоритмы

С чисто формальной математической точки зрения BIR прост. Однако с практической точки зрения необходимо решить несколько дополнительных проблем, связанных с алгоритмами и структурами данных, таких как, например, выбор терминов (ручной или автоматический выбор или оба), стемминг , хеш-таблицы , инвертированная файловая структура . , и так далее. [3]

Хэш-наборы

Другая возможность — использовать хэш-наборы. Каждый документ представлен хеш-таблицей, которая содержит каждый термин этого документа. Поскольку размер хеш-таблицы увеличивается и уменьшается в реальном времени при добавлении и удалении термов, каждый документ будет занимать гораздо меньше места в памяти. Однако при этом будет наблюдаться снижение производительности, поскольку операции более сложны, чем с битовыми векторами . В худшем случае производительность может ухудшиться с O( n ) до O( n2 ) . В среднем, замедление производительности будет не намного хуже, чем у битовых векторов, а использование пространства будет гораздо более эффективным.

Файл подписи

Каждый документ можно суммировать с помощью фильтра Блума, представляющего набор слов в этом документе, хранящихся в битовой строке фиксированной длины, называемой подписью. Файл подписи содержит одну такую ​​битовую строку наложенного кода для каждого документа в коллекции. Каждый запрос также может быть суммирован с помощью фильтра Блума, представляющего набор слов в запросе, хранящихся в битовой строке той же фиксированной длины. Битовая строка запроса проверяется на соответствие каждой сигнатуре. [4] [5] [6]

Подходящий файл подписи используется в BitFunnel .

Инвертированный файл

Файл инвертированного индекса состоит из двух частей: словаря, содержащего все термины, используемые в коллекции, и инвертированного индекса для каждого отдельного термина, в котором перечислены все документы, в которых этот термин упоминается. [4] [5]

Рекомендации

  1. ^ Ланкастер, ФРВ; Файен, Э.Г. (1973), Информационный поиск в режиме онлайн , Melville Publishing Co., Лос-Анджелес, Калифорния
  2. ^ «Поиск информации». МТИ Пресс . Проверено 9 декабря 2023 г.
  3. ^ Вартик, Стивен (1992). «Булевы операции». Структуры и алгоритмы информационного поиска. ISBN Прентис-Холл, Inc. 0-13-463837-9. Архивировано из оригинала 28 сентября 2013 г.
  4. ^ аб Джастин Зобель; Алистер Моффат; и Котагири Рамамоханарао. «Инвертированные файлы и файлы сигнатур для индексации текста».
  5. ^ AB Боб Гудвин; и другие. «BitFunnel: новый взгляд на сигнатуры для поиска». 2017.
  6. ^ Ричард Стартин. «Побитовые подписи и фильтры Блума».