Неопределенный вывод

Неопределенный вывод был впервые описан CJ van Rijsbergen ^[1] как способ формального определения связи запроса и документа в информационном поиске . Эта формализация представляет собой логическое следствие с присоединенной мерой неопределенности.

Определения

Рейсберген предлагает, чтобы мерой неопределенности документа d для запроса q была вероятность его логического следствия, то есть:

P(d\to q)

Запрос пользователя можно интерпретировать как набор утверждений о желаемом документе. Задача системы — сделать вывод , учитывая конкретный документ, верны ли утверждения запроса. Если это так, документ извлекается. Во многих случаях содержимое документов недостаточно для утверждения запросов. Необходима база знаний фактов и правил, но некоторые из них могут быть неопределенными, поскольку может быть вероятность, связанная с их использованием для вывода. Поэтому мы также можем называть это правдоподобным выводом . Правдоподобность вывода является функцией правдоподобности каждого утверждения запроса. Вместо того чтобы извлекать документ, который точно соответствует запросу, мы должны ранжировать документы на основе их правдоподобности в отношении этого запроса. Поскольку d и q оба генерируются пользователями, они подвержены ошибкам; поэтому неопределенно. Это повлияет на правдоподобность данного запроса. $d\to q$ $d\to q$

Таким образом достигаются две цели:

Отделите процессы пересмотра вероятностей от логики
Отделите обработку релевантности от обработки запросов

Мультимедийные документы, такие как изображения или видео, имеют различные свойства вывода для каждого типа данных. Они также отличаются от свойств текстового документа. Структура правдоподобного вывода позволяет нам измерять и объединять вероятности, исходящие из этих различных свойств.

Неопределенный вывод обобщает понятия автоэпистемической логики , где истинностные значения либо известны, либо неизвестны, а когда известны, они являются истинными или ложными.

Пример

Если у нас есть запрос вида:

q=A\клин B\клин C

где A, B и C — утверждения запроса, тогда для документа D мы хотим получить вероятность:

P(D\to (A\клин B\клин C))

Если мы преобразуем это в условную вероятность и если утверждения запроса независимы, мы можем вычислить общую вероятность импликации как произведение вероятностей отдельных утверждений. $P((A\клин B\клин C)|D)$

Дальнейшая работа

Крофт и Кровец ^[2] применили неопределенный вывод к системе поиска информации для офисных документов, которую они назвали OFFICER . В офисных документах предположение о независимости справедливо, поскольку запрос будет сосредоточен на их индивидуальных атрибутах. Помимо анализа содержания документов, можно также запросить, например, об авторе, размере, теме или коллекции. Они разработали методы для сравнения атрибутов документа и запроса, выведения их правдоподобности и объединения их в общий рейтинг для каждого документа. Кроме того, необходимо было также рассмотреть неопределенность содержания документа и запроса.

Вероятностные логические сети — это система для выполнения неопределенных выводов; четкие значения истинности/ложи заменяются не только вероятностью, но и уровнем достоверности, указывающим на определенность вероятности.

Логические сети Маркова позволяют выполнять неопределенные выводы; неопределенности вычисляются с использованием принципа максимальной энтропии , по аналогии с тем, как цепи Маркова описывают неопределенность конечных автоматов .

Смотрите также

Ссылки

^ CJ ван Рейсберген (1986), Неклассическая логика поиска информации (PDF) , The Computer Journal, стр. 481–485.
^ WB Croft; R. Krovetz (1988), «Интерактивный поиск офисных документов», конференция, спонсируемая ACM SIGOIS и IEEECS TC-OA по офисным информационным системам - , стр. 228–235, doi :10.1145/45410.45435, ISBN 0897912616, S2CID 16840138