stringtranslate.com

Меры оценки (поиск информации)

Меры оценки для системы информационного поиска (IR) позволяют оценить, насколько хорошо индекс, поисковая система или база данных возвращают результаты из набора ресурсов, которые удовлетворяют запросу пользователя. Поэтому они имеют основополагающее значение для успеха информационных систем и цифровых платформ.

Наиболее важным фактором в определении эффективности системы для пользователей является общая релевантность результатов, полученных в ответ на запрос. [1] Успех системы IR можно оценивать по ряду критериев, включая актуальность, скорость, удовлетворенность пользователей, удобство использования, эффективность и надежность. [2] Меры оценки могут быть классифицированы по-разному, включая оффлайн или онлайн, на основе пользователей или системы, и включают такие методы, как наблюдаемое поведение пользователей, наборы тестов, точность и полнота, а также оценки из подготовленных наборов эталонных тестов.

Оценка системы поиска информации должна также включать проверку используемых показателей, т.е. оценку того, насколько хорошо они измеряют то, для чего предназначены, и насколько хорошо система соответствует предполагаемому варианту использования. [3] Измерения обычно используются в двух случаях: онлайн-экспериментирование, при котором оценивается взаимодействие пользователей с поисковой системой, и офлайн-оценка, при которой измеряется эффективность системы поиска информации на статической автономной коллекции.

Фон

Методы индексирования и классификации, помогающие в поиске информации, имеют долгую историю, восходящую к самым ранним библиотекам и коллекциям, однако систематическая оценка их эффективности началась всерьез в 1950-х годах, когда быстрое расширение исследовательской деятельности в армии, правительстве и образовании, а также введение компьютеризированные каталоги. В то время действовало множество различных систем индексации, классификации и каталогизации, производство которых было дорогостоящим, и было неясно, какая из них наиболее эффективна. [4]

Сирил Клевердон , библиотекарь Колледжа аэронавтики в Крэнфилде, Англия, начал серию экспериментов с методами индексирования и поиска печатных материалов в рамках так называемой парадигмы Крэнфилда или тестов Крэнфилда, которые на многие годы установили стандарт для показателей оценки IR. [4] Клевердон разработал тест под названием «поиск известных элементов», чтобы проверить, возвращает ли система IR документы, которые, как известно, являются релевантными или правильными для данного поиска. Эксперименты Клевердона установили ряд ключевых аспектов, необходимых для оценки IR: набор тестов, набор запросов и набор заранее определенных релевантных элементов, которые в совокупности будут определять точность и отзыв.

Подход Клевердона лег в основу успешной серии конференций по текстовому поиску , которая началась в 1992 году.

Приложения

Оценка IR-систем имеет решающее значение для успеха любой поисковой системы, включая поиск в Интернете, на веб-сайтах, в базах данных и библиотечных каталогах. Оценочные меры используются в исследованиях поведения информации , тестировании удобства использования , бизнес-затратах и ​​оценках эффективности. Измерение эффективности систем IR было основным направлением исследований IR, основанных на наборах тестов в сочетании с мерами оценки. [5] Был организован ряд научных конференций, посвященных конкретно мерам оценки, включая Конференцию по текстовому поиску (TREC), Конференцию и лаборатории Форума по оценке (CLEF) и NTCIR.

Онлайн-меры

Онлайн-метрики обычно создаются на основе журналов поиска. Метрики часто используются для определения успеха A/B-теста .

Уровень прерывания сеанса

Коэффициент прерывания сеансов – это процент сеансов поиска, которые не привели к клику.

Рейтинг кликов

Рейтинг кликов (CTR) — это соотношение пользователей, которые нажимают на определенную ссылку, к общему числу пользователей, просматривающих страницу, электронное письмо или рекламу. Он обычно используется для измерения успеха рекламной кампании в Интернете для конкретного веб-сайта, а также эффективности кампаний по электронной почте. [6]

Процент успешных сеансов

Показатель успешности сеансов измеряет долю пользовательских сеансов, которые привели к успеху. Определение «успеха» часто зависит от контекста, но для поиска успешный результат часто измеряется с использованием времени пребывания в качестве основного фактора наряду с вторичным взаимодействием с пользователем, например, пользователь, копирующий URL-адрес результата, считается успешным результатом, как и копирование. /вставка из фрагмента.

Нулевой процент результатов

Доля нулевых результатов ( ZRR ) — это доля страниц результатов поисковой системы (SERP), которые вернулись с нулевыми результатами. Метрика либо указывает на проблему с отзывом , либо на то, что искомая информация отсутствует в индексе.

Офлайн-метрики

Офлайн-метрики обычно создаются на основе оценок релевантности, на которых судьи оценивают качество результатов поиска. Для оценки каждого документа, возвращаемого в ответ на запрос, можно использовать как двоичную (релевантную/нерелевантную), так и многоуровневую (например, релевантность от 0 до 5) шкалу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности. Например, в запросе «марс» есть двусмысленность: судья не знает, ищет ли пользователь планету Марс , марсианскую шоколадку, певца Бруно Марса или римское божество Марс .

Точность

Точность — это доля полученных документов, которая соответствует информационным потребностям пользователя.

В бинарной классификации точность аналогична положительной прогностической ценности . Precision учитывает все полученные документы. Его также можно оценить, учитывая только самые верхние результаты, возвращаемые системой с помощью Precision@k.

Обратите внимание, что значение и использование слова «точность» в области поиска информации отличаются от определения точности и точности в других отраслях науки и статистики .

Отзывать

Отзыв — это доля документов, имеющих отношение к запросу, которые были успешно получены.

В бинарной классификации воспоминания часто называют чувствительностью . Таким образом, это можно рассматривать как вероятность того, что соответствующий документ будет получен по запросу .

Достичь 100% полноты возврата тривиально, возвращая все документы в ответ на любой запрос. Следовательно, одного лишь отзыва недостаточно, необходимо также измерить количество нерелевантных документов, например, путем расчета точности.

Выпадать

Доля извлеченных нерелевантных документов из всех доступных нерелевантных документов:

В бинарной классификации выпадение противоположно специфичности и равно . Ее можно рассматривать как вероятность того, что по запросу будет получен нерелевантный документ .

Достичь выпадения в 0% тривиально, возвращая ноль документов в ответ на любой запрос.

F-оценка / F-мера

Средневзвешенное гармоническое значение точности и полноты, традиционная F-мера или сбалансированная F-оценка:

Это также известно как мера, поскольку полнота и точность имеют одинаковый вес.

Общая формула неотрицательного действительного числа :

Двумя другими часто используемыми F-мерами являются мера, которая весит в два раза больше, чем точность, и мера, которая весит в два раза больше точности, чем точность.

F-мера была выведена ван Рейсбергеном (1979) так, что она «измеряет эффективность поиска по отношению к пользователю, который придает запоминанию в раз больше значения, чем точности». Он основан на показателе эффективности Ван Рейсбергена . Их отношения таковы:

где

Поскольку F-мера объединяет информацию как о точности, так и об отзыве, это способ представить общую производительность без представления двух чисел.

Средняя точность

Точность и полнота — это однозначные метрики, основанные на всем списке документов, возвращаемых системой. Для систем, возвращающих ранжированную последовательность документов, желательно также учитывать порядок представления возвращаемых документов. Вычислив точность и полноту в каждой позиции в ранжированной последовательности документов, можно построить кривую точности и полноты, отображающую точность как функцию полноты . Средняя точность вычисляет среднее значение за интервал от до : [7]

Это область под кривой точности отзыва. На практике этот интеграл заменяется конечной суммой по каждой позиции в ранжированной последовательности документов:

где - ранг в последовательности извлеченных документов, - количество извлеченных документов, - точность при отсечке в списке, и - изменение отзыва с элементов на . [7]

Эта конечная сумма эквивалентна:

где – индикаторная функция, равная 1, если элемент ранга является соответствующим документом, и нулю в противном случае. [8] Обратите внимание, что среднее значение превышает релевантные документы в топ-k извлеченных документах, а релевантные неполученные документы получают нулевую оценку точности.

Некоторые авторы предпочитают интерполировать функцию, чтобы уменьшить влияние «покачиваний» кривой. [9] [10] Например, задача классов визуальных объектов PASCAL (тест для обнаружения объектов компьютерным зрением) до 2010 года [11] вычисляла среднюю точность путем усреднения точности по набору равномерно расположенных уровней отзыва {0, 0,1, 0,2, ... 1,0}: [9] [10]

где — интерполированная точность, которая обеспечивает максимальную точность для всех вызовов, превышающую :

.

Альтернативой является получение аналитической функции, предполагая конкретное параметрическое распределение для основных значений решения. Например, можно получить бинормальную кривую точности-памяти, если предположить, что значения решений в обоих классах следуют распределению Гаусса. [12]

Минимально достижимая AveP для данной задачи классификации определяется следующим образом:

[13]

Точность при k

Для современного поиска информации (в масштабе Интернета) отзыв больше не является значимым показателем, поскольку многие запросы содержат тысячи соответствующих документов, и лишь немногие пользователи будут заинтересованы в их чтении. Точность в k документах (P@k) по-прежнему является полезным показателем (например, P@10 или «Точность в 10» соответствует количеству релевантных результатов среди первых 10 извлеченных документов), но не учитывает позиции соответствующие документы среди лучших k. [14] Еще одним недостатком является то, что по запросу с меньшим количеством релевантных результатов, чем k, даже идеальная система будет иметь оценку меньше 1. [15] Легче оценивать вручную, поскольку для определения необходимо изучить только k лучших результатов. актуальны они или нет.

R-точность

R-точность требует знания всех документов, имеющих отношение к запросу. Количество соответствующих документов используется в качестве порогового значения для расчета и варьируется от запроса к запросу. Например, если в корпусе 15 документов, относящихся к «красному» (R=15), R-точность для «красного» просматривает 15 лучших возвращенных документов, подсчитывает количество релевантных чисел и превращает это в долю релевантности: . [16]

Обратите внимание, что R-Precision эквивалентна как точности в -й позиции (P@ ), так и отзыву в -й позиции. [15]

Эмпирически этот показатель часто сильно коррелирует со средней средней точностью. [15]

Средняя средняя точность

Средняя средняя точность (MAP) для набора запросов — это среднее значение средних показателей точности для каждого запроса.

где Q — количество запросов.

Дисконтированная совокупная прибыль

DCG использует градуированную шкалу релевантности документов из набора результатов, чтобы оценить полезность или выгоду документа на основе его положения в списке результатов. Идея DCG заключается в том, что высокорелевантные документы, находящиеся ниже в списке результатов поиска, должны наказываться, поскольку значение градационной релевантности уменьшается логарифмически пропорционально положению результата.

DCG, накопленный на определенной позиции в ранге, определяется как:

Поскольку размер набора результатов может различаться в зависимости от разных запросов или систем, для сравнения производительности нормализованная версия DCG использует идеальный DCG. С этой целью он сортирует документы списка результатов по релевантности, создавая идеальную DCG в позиции p ( ), которая нормализует оценку:

Значения nDCG для всех запросов можно усреднить, чтобы получить оценку средней производительности алгоритма ранжирования. Обратите внимание, что в идеальном алгоритме ранжирования это будет то же самое, что и при создании nDCG 1,0. Все вычисления nDCG представляют собой относительные значения в интервале от 0,0 до 1,0 и поэтому сопоставимы между собой при выполнении перекрестных запросов.

Другие меры

Визуализация

Визуализация производительности поиска информации включает в себя:

Нерелевантные меры

Запросов за раз

Измерение количества запросов, выполняемых в поисковой системе за (месяц/день/час/минуту/секунду), позволяет отслеживать использование поисковой системы. Его можно использовать для диагностики, чтобы указать на неожиданный всплеск запросов, или просто в качестве базового показателя при сравнении с другими показателями, такими как задержка запроса. Например, резкий рост трафика запросов можно использовать для объяснения резкого увеличения задержки запросов.

Смотрите также

Рекомендации

  1. ^ Картеретт, Бен; Вурхис, Эллен М. (2011), Лупу, Михай; Майер, Катя; Тейт, Джон; Трипп, Энтони Дж. (ред.), «Обзор оценки информационного поиска», « Текущие проблемы поиска патентной информации» , Берлин, Гейдельберг: Springer, стр. 69–85, номер документа : 10.1007/978-3-642-19231-9_3 , ISBN 978-3-642-19231-9, получено 9 декабря 2022 г.
  2. ^ Клаф, П.; Сандерсон, М. (15 июня 2013 г.). «Оценка производительности информационно-поисковых систем с использованием тестовых коллекций». Информационные исследования . Проверено 9 декабря 2022 г.
  3. ^ Карлгрен, Юсси (2019). «Принятие эталонов систематической оценки в оперативных условиях» (PDF) . Информационный поиск в меняющемся мире . Проверено 27 июня 2022 г.
  4. ^ Аб Харман, Донна (2011). Информационно-поисковая оценка. Обобщающие лекции по информационным концепциям, поиску и услугам. Чам, Швейцария: Springer. дои : 10.1007/978-3-031-02276-0. ISBN 978-3-031-02276-0. S2CID  207318946.
  5. ^ Сандерсон, Марк (2010). «Оценка информационно-поисковых систем на основе набора тестов». Основы и тенденции в области информационного поиска . 4 (4): 247–375. дои : 10.1561/1500000009. ISSN  1554-0669.
  6. ^ Словарь Американской ассоциации маркетинга . [1] Проверено 2 ноября 2012 г. Совет по стандартам подотчетности в маркетинге (MASB) одобряет это определение в рамках своего текущего проекта «Общий язык в маркетинге». Архивировано 5 апреля 2019 г. на Wayback Machine .
  7. ^ Аб Чжу, Му (2004). «Напоминание, точность и средняя точность» (PDF) . Архивировано из оригинала (PDF) 4 мая 2011 г. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  8. ^ Терпин, Эндрю; Шолер, Фальк (2006). «Производительность пользователя и показатели точности для простых задач поиска» . Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . Нью-Йорк, штат Нью-Йорк: ACM. стр. 11–18. CiteSeerX 10.1.1.533.4100 . дои : 10.1145/1148170.1148176. ISBN  978-1-59593-369-0. S2CID  9810253.
  9. ^ аб Эверингем, Марк; Ван Гул, Люк; Уильямс, Кристофер К.И.; Винн, Джон; Зиссерман, Эндрю (июнь 2010 г.). «Задача классов визуальных объектов (VOC) PASCAL» (PDF) . Международный журнал компьютерного зрения . 88 (2): 303–338. дои : 10.1007/s11263-009-0275-4. hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID  4246903. Архивировано из оригинала (PDF) 20 ноября 2011 г. Проверено 29 августа 2011 г.
  10. ^ аб Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (2008). Введение в поиск информации. Издательство Кембриджского университета.
  11. ^ «Комплект разработки классов визуальных объектов PASCAL 2012 (VOC2012)» . хост.robots.ox.ac.uk . Проверено 23 марта 2019 г.
  12. ^ К. Х. Бродерсен, К. С. Онг, К. Е. Стефан, Дж. М. Буманн (2010). Бинормальное предположение о кривых точности отзыва. Архивировано 8 декабря 2012 года в Wayback Machine . Материалы 20-й Международной конференции по распознаванию образов , 4263-4266.
  13. ^ Бойд К., Дэвис Дж., Пейдж Д. и Коста В.С. (2012). Недостижимая область в пространстве точного отзыва и ее влияние на эмпирическую оценку. Материалы ... Международной конференции по машинному обучению. Международная конференция по машинному обучению, 2012, 349 .
  14. ^ Калерво, Ярвелин (2017). «Методы оценки IR для поиска особо важных документов» (PDF) . Форум ACM SIGIR . 51, 2 : 243–250.
  15. ^ abc Кристофер Д. Мэннинг; Прабхакар Рагхаван и Хинрих Шютце (2009). «Глава 8: Оценка при поиске информации» (PDF) . Проверено 14 июня 2015 г. Часть введения в поиск информации [2]
  16. ^ abcde http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf [ пустой URL-адрес PDF ]
  17. ^ К. Лиома; Дж. Г. Симонсен; Б. Ларсен (2017). «Меры оценки релевантности и достоверности в рейтинговых списках» (PDF) . Материалы Международной конференции ACM SIGIR по теории поиска информации , 91-98.