stringtranslate.com

Релевантность (поиск информации)

В информатике и поиске информации релевантность означает , насколько хорошо полученный документ или набор документов удовлетворяет информационную потребность пользователя. Релевантность может включать в себя такие вопросы, как своевременность, авторитетность или новизна результата.

История

Озабоченность проблемой поиска актуальной информации восходит как минимум к первым публикациям научных журналов в 17 веке. [ нужна цитата ]

Формальное изучение релевантности началось в 20 веке с изучения того, что позже будет названо библиометрией . В 1930-х и 1940-х годах С.К. Брэдфорд использовал термин «релевантные» для характеристики статей, имеющих отношение к теме (ср. закон Брэдфорда ). В 1950-х годах появились первые системы поиска информации, и исследователи отметили, что поиск нерелевантных статей является серьезной проблемой. В 1958 году Б.К. Викери подробно изложил концепцию релевантности в своем выступлении на Международной конференции по научной информации. [1]

С 1958 года ученые-информатики исследуют и обсуждают определения релевантности. Особое внимание в дебатах уделялось различию между «релевантностью предмету» или «тематической актуальностью» и «релевантностью для пользователя». [1]

Оценка

Сообщество информационного поиска уделяет особое внимание использованию наборов тестов и эталонных задач для измерения актуальности темы, начиная с экспериментов Крэнфилда в начале 1960-х годов и заканчивая оценками TREC , которые продолжаются и по сей день в качестве основной структуры оценки исследований в области информационного поиска. [2]

Чтобы оценить, насколько хорошо система поиска информации извлекает тематически релевантные результаты, необходимо количественно оценить релевантность полученных результатов. В оценках в стиле Крэнфилда это обычно включает в себя присвоение уровня релевантности каждому полученному результату — процесс, известный как оценка релевантности . Уровни релевантности могут быть бинарными (указывающие на релевантность или нерелевантность результата) или градуированными (указывающие на различную степень соответствия результатов между темой результата и информационной потребностью). После того, как извлеченным результатам присвоены уровни релевантности, показатели эффективности поиска информации можно использовать для оценки качества выходных данных поисковой системы.

В отличие от этого внимания исключительно к актуальной актуальности, сообщество информатики уделяет особое внимание исследованиям пользователей, которые учитывают актуальность для пользователей. [3] Эти исследования часто фокусируются на аспектах взаимодействия человека и компьютера (см. также поиск информации между человеком и компьютером ).

Кластеризация и релевантность

Кластерная гипотеза , предложенная К. Дж. ван Рейсбергеном в 1979 году, утверждает, что два документа, похожих друг на друга, с высокой вероятностью соответствуют одной и той же информационной потребности. Что касается пространства подобия вложения, кластерную гипотезу можно интерпретировать глобально или локально. [4] Глобальная интерпретация предполагает, что существует некоторый фиксированный набор основных тем, вытекающих из сходства между документами. Эти глобальные кластеры или их представители затем можно использовать для установления связи между релевантностью двух документов (например, два документа в одном кластере должны иметь отношение к одному и тому же запросу). К методам в этом духе относятся:

Вторая интерпретация, наиболее выдвинутая Эллен Вурхис [8] , фокусируется на локальных отношениях между документами. Локальная интерпретация позволяет избежать необходимости моделировать количество или размер кластеров в коллекции и обеспечивает релевантность в нескольких масштабах. К методам в этом духе относятся:

Локальные методы требуют точного и адекватного измерения сходства документов .

Проблемы и альтернативы

Наиболее релевантными документами не обязательно являются те документы, которые наиболее полезно отображать на первой странице результатов поиска. Например, два повторяющихся документа по отдельности могут считаться весьма релевантными, но полезно отображать только один из них. Для устранения этого недостатка была предложена мера под названием «максимальная предельная релевантность» (MMR). Актуальность каждого документа рассматривается только с точки зрения того, сколько новой информации он приносит с учетом предыдущих результатов. [13]

В некоторых случаях запрос может иметь неоднозначную интерпретацию или множество потенциальных ответов. Обеспечение разнообразия результатов может учитываться при оценке полезности набора результатов. [14]

Смотрите также

Рекомендации

  1. ^ аб Миццаро, Стефано (1997). «Актуальность: Вся история» (PDF) . Журнал Американского общества информатики . 48 (9): 810–832. doi :10.1002/(SICI)1097-4571(199709)48:9<810::AID-ASI6>3.0.CO;2-U.
  2. ^ Сандерсон, П. Клаф, М. (15 июня 2013 г.). «Оценка производительности информационно-поисковых систем с использованием тестовых коллекций». Informationr.net . Проверено 28 мая 2020 г.{{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
  3. ^ Юньцзе, Сюй (2006). «Соответствующее суждение: что пользователи информации считают помимо актуальности?». Журнал Американского общества информатики и технологий . 57 (7): 961–973. дои : 10.1002/asi.20361.
  4. ^ Ф. Диас, Автокорреляция и регуляризация результатов поиска на основе запросов. Докторская диссертация, Массачусетский университет в Амхерсте, Амхерст, Массачусетс, февраль 2008 г., Глава 3.
  5. ^ Крофт, В.Брюс (1980). «Модель кластерного поиска на основе классификации». Информационные системы . 5 (3): 189–195. дои : 10.1016/0306-4379(80)90010-1.
  6. ^ аб Гриффитс, Алан; Лакхерст, Х. Клэр; Уиллетт, Питер (1986). «Использование информации о сходстве между документами в системах поиска документов» (PDF) . Журнал Американского общества информатики . 37 : 3–11. doi :10.1002/(SICI)1097-4571(198601)37:1<3::AID-ASI1>3.0.CO;2-O.
  7. ^ X. Лю и В. Б. Крофт, «Кластерный поиск с использованием языковых моделей», в SIGIR '04: Материалы 27-й ежегодной международной конференции по исследованиям и разработкам в области поиска информации (Нью-Йорк, Нью-Йорк, США), стр. 186. –193, АСМ Пресс, 2004.
  8. ^ ab EM Voorhees , «Возвращение к кластерной гипотезе», в SIGIR '85: Материалы 8-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (Нью-Йорк, штат Нью-Йорк, США), стр. 188–196, ACM. Пресс, 1985.
  9. ^ С. Прис, Модель сети распространяющейся активации для поиска информации. Докторская диссертация, Университет Иллинойса, Урбана-Шампейн, 1981 год.
  10. ^ Т. Цинь, Т.-Ю. Лю, Х.-Д. Чжан, З. Чен и В.-Ю. Ма, «Исследование распространения релевантности для веб-поиска», в SIGIR '05: Материалы 28-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (Нью-Йорк, штат Нью-Йорк, США), стр. 408–415, АКМ Пресс, 2005.
  11. ^ А. Сингхал и Ф. Перейра, «Расширение документов для поиска речи», в SIGIR '99: Материалы 22-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (Нью-Йорк, Нью-Йорк, США), стр. 34–41, ACM Press, 1999.
  12. ^ Цинь, Тао; Лю, Те-Янь; Чжан, Сюй-Донг; Чен, Чжэн; Ма, Вэй-Ин (2005). «Исследование распространения релевантности для веб-поиска» (PDF) . Материалы 28-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . п. 408. дои : 10.1145/1076034.1076105. ISBN 1595930345. S2CID  15310025.
  13. ^ Карбонелл, Хайме; Гольдштейн, Джейд (1998). «Использование MMR, изменение ранжирования на основе разнообразия для изменения порядка документов и создания резюме». Материалы 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . стр. 335–336. CiteSeerX 10.1.1.50.2490 . дои : 10.1145/290941.291025. ISBN  978-1581130157. S2CID  6334682.
  14. ^ «Разнообразие в поиске документов (DDR) 2012».

дальнейшее чтение