Релевантность (поиск информации)

В информатике и поиске информации релевантность означает , насколько хорошо полученный документ или набор документов удовлетворяет информационную потребность пользователя. Релевантность может включать в себя такие вопросы, как своевременность, авторитетность или новизна результата.

История

Озабоченность проблемой поиска актуальной информации восходит как минимум к первым публикациям научных журналов в 17 веке. ^{[ нужна цитата ]}

Формальное изучение релевантности началось в 20 веке с изучения того, что позже будет названо библиометрией . В 1930-х и 1940-х годах С.К. Брэдфорд использовал термин «релевантные» для характеристики статей, имеющих отношение к теме (ср. закон Брэдфорда ). В 1950-х годах появились первые системы поиска информации, и исследователи отметили, что поиск нерелевантных статей является серьезной проблемой. В 1958 году Б.К. Викери подробно изложил концепцию релевантности в своем выступлении на Международной конференции по научной информации. ^[1]

С 1958 года ученые-информатики исследуют и обсуждают определения релевантности. Особое внимание в дебатах уделялось различию между «релевантностью предмету» или «тематической актуальностью» и «релевантностью для пользователя». ^[1]

Оценка

Сообщество информационного поиска уделяет особое внимание использованию наборов тестов и эталонных задач для измерения актуальности темы, начиная с экспериментов Крэнфилда в начале 1960-х годов и заканчивая оценками TREC , которые продолжаются и по сей день в качестве основной структуры оценки исследований в области информационного поиска. ^[2]

Чтобы оценить, насколько хорошо система поиска информации извлекает тематически релевантные результаты, необходимо количественно оценить релевантность полученных результатов. В оценках в стиле Крэнфилда это обычно включает в себя присвоение уровня релевантности каждому полученному результату — процесс, известный как оценка релевантности . Уровни релевантности могут быть бинарными (указывающие на релевантность или нерелевантность результата) или градуированными (указывающие на различную степень соответствия результатов между темой результата и информационной потребностью). После того, как извлеченным результатам присвоены уровни релевантности, показатели эффективности поиска информации можно использовать для оценки качества выходных данных поисковой системы.

В отличие от этого внимания исключительно к актуальной актуальности, сообщество информатики уделяет особое внимание исследованиям пользователей, которые учитывают актуальность для пользователей. ^[3] Эти исследования часто фокусируются на аспектах взаимодействия человека и компьютера (см. также поиск информации между человеком и компьютером ).

Кластеризация и релевантность

Кластерная гипотеза , предложенная К. Дж. ван Рейсбергеном в 1979 году, утверждает, что два документа, похожих друг на друга, с высокой вероятностью соответствуют одной и той же информационной потребности. Что касается пространства подобия вложения, кластерную гипотезу можно интерпретировать глобально или локально. ^[4] Глобальная интерпретация предполагает, что существует некоторый фиксированный набор основных тем, вытекающих из сходства между документами. Эти глобальные кластеры или их представители затем можно использовать для установления связи между релевантностью двух документов (например, два документа в одном кластере должны иметь отношение к одному и тому же запросу). К методам в этом духе относятся:

кластерный поиск информации ^[5]^[6]
расширение документа на основе кластеров, такое как скрытый семантический анализ или его эквиваленты языкового моделирования. ^[7] Важно обеспечить, чтобы кластеры – по отдельности или в сочетании – успешно моделировали набор возможных соответствующих документов.

Вторая интерпретация, наиболее выдвинутая Эллен Вурхис ^[8] , фокусируется на локальных отношениях между документами. Локальная интерпретация позволяет избежать необходимости моделировать количество или размер кластеров в коллекции и обеспечивает релевантность в нескольких масштабах. К методам в этом духе относятся:

множественный поиск кластеров ^[6]^[8]
методы распространения активации ^[9] и распространения релевантности ^[10]
расширение локального документа ^[11]
регуляризация оценок ^[12]

Локальные методы требуют точного и адекватного измерения сходства документов .

Проблемы и альтернативы

Наиболее релевантными документами не обязательно являются те документы, которые наиболее полезно отображать на первой странице результатов поиска. Например, два повторяющихся документа по отдельности могут считаться весьма релевантными, но полезно отображать только один из них. Для устранения этого недостатка была предложена мера под названием «максимальная предельная релевантность» (MMR). Актуальность каждого документа рассматривается только с точки зрения того, сколько новой информации он приносит с учетом предыдущих результатов. ^[13]

В некоторых случаях запрос может иметь неоднозначную интерпретацию или множество потенциальных ответов. Обеспечение разнообразия результатов может учитываться при оценке полезности набора результатов. ^[14]

Смотрите также

дальнейшее чтение

Хьёрланд, Биргер (2010). «Основы концепции релевантности» (PDF) . Журнал Американского общества информатики и технологий . 61 (2): 217–237. дои : 10.1002/asi.21261.
Актуальность: общение и познание. Дэн Спербер; Дейдре Уилсон. 2-е изд. Оксфорд; Кембридж, Массачусетс: Blackwell Publishers, 2001. ISBN 978-0-631-19878-9 .
Сарацевич, Тефко (1975). «АКТУАЛЬНОСТЬ: обзор и основа размышлений об этом понятии в информатике» (PDF) . Журнал Американского общества информатики . 26 (6): 321–343. дои : 10.1002/asi.4630260604.
Сарацевич, Тефко (2007). «Актуальность: обзор литературы и основы размышлений об этом понятии в информатике. Часть II: Природа и проявления релевантности» (PDF) . Журнал Американского общества информатики и технологий . 58 (13): 1915–1933. дои : 10.1002/asi.20682. Архивировано из оригинала (PDF) 21 февраля 2008 г.
Сарацевич, Тефко (2007). «Актуальность: обзор литературы и основы размышлений об этом понятии в информатике. Часть III: Поведение и эффекты релевантности» (PDF) . Журнал Американского общества информатики и технологий . 58 (13): 2126–2144. дои : 10.1002/asi.20681. Архивировано из оригинала (PDF) 21 февраля 2008 г.
Сарацевич, Т. (2007). Актуальность в информатике. Приглашенная ежегодная лекция памяти Thomson Scientific Lazerow в Школе информационных наук Университета Теннесси. 19 сентября 2007 г. (видео)
Введение в поиск информации: оценка. Стэнфорд. (презентация в формате PDF)