Меры оценки (поиск информации)

Меры оценки для системы информационного поиска (IR) позволяют оценить, насколько хорошо индекс, поисковая система или база данных возвращают результаты из набора ресурсов, которые удовлетворяют запросу пользователя. Поэтому они имеют основополагающее значение для успеха информационных систем и цифровых платформ.

Наиболее важным фактором в определении эффективности системы для пользователей является общая релевантность результатов, полученных в ответ на запрос. ^[1] Успех системы IR можно оценивать по ряду критериев, включая актуальность, скорость, удовлетворенность пользователей, удобство использования, эффективность и надежность. ^[2] Меры оценки могут быть классифицированы по-разному, включая оффлайн или онлайн, на основе пользователей или системы, и включают такие методы, как наблюдаемое поведение пользователей, наборы тестов, точность и полнота, а также оценки из подготовленных наборов эталонных тестов.

Оценка системы поиска информации должна также включать проверку используемых показателей, т.е. оценку того, насколько хорошо они измеряют то, для чего предназначены, и насколько хорошо система соответствует предполагаемому варианту использования. ^[3] Измерения обычно используются в двух случаях: онлайн-экспериментирование, при котором оценивается взаимодействие пользователей с поисковой системой, и офлайн-оценка, при которой измеряется эффективность системы поиска информации на статической автономной коллекции.

Фон

Методы индексирования и классификации, помогающие в поиске информации, имеют долгую историю, восходящую к самым ранним библиотекам и коллекциям, однако систематическая оценка их эффективности началась всерьез в 1950-х годах, когда быстрое расширение исследовательской деятельности в армии, правительстве и образовании, а также введение компьютеризированные каталоги. В то время действовало множество различных систем индексации, классификации и каталогизации, производство которых было дорогостоящим, и было неясно, какая из них наиболее эффективна. ^[4]

Сирил Клевердон , библиотекарь Колледжа аэронавтики в Крэнфилде, Англия, начал серию экспериментов с методами индексирования и поиска печатных материалов в рамках так называемой парадигмы Крэнфилда или тестов Крэнфилда, которые на многие годы установили стандарт для показателей оценки IR. ^[4] Клевердон разработал тест под названием «поиск известных элементов», чтобы проверить, возвращает ли система IR документы, которые, как известно, являются релевантными или правильными для данного поиска. Эксперименты Клевердона установили ряд ключевых аспектов, необходимых для оценки IR: набор тестов, набор запросов и набор заранее определенных релевантных элементов, которые в совокупности будут определять точность и отзыв.

Подход Клевердона лег в основу успешной серии конференций по текстовому поиску , которая началась в 1992 году.

Приложения

Оценка IR-систем имеет решающее значение для успеха любой поисковой системы, включая поиск в Интернете, на веб-сайтах, в базах данных и библиотечных каталогах. Оценочные меры используются в исследованиях поведения информации , тестировании удобства использования , бизнес-затратах и оценках эффективности. Измерение эффективности систем IR было основным направлением исследований IR, основанных на наборах тестов в сочетании с мерами оценки. ^[5] Был организован ряд научных конференций, посвященных конкретно мерам оценки, включая Конференцию по текстовому поиску (TREC), Конференцию и лаборатории Форума по оценке (CLEF) и NTCIR.

Онлайн-меры

Онлайн-метрики обычно создаются на основе журналов поиска. Метрики часто используются для определения успеха A/B-теста .

Уровень прерывания сеанса

Коэффициент прерывания сеансов – это процент сеансов поиска, которые не привели к клику.

Рейтинг кликов

Рейтинг кликов (CTR) — это соотношение пользователей, которые нажимают на определенную ссылку, к общему числу пользователей, просматривающих страницу, электронное письмо или рекламу. Он обычно используется для измерения успеха рекламной кампании в Интернете для конкретного веб-сайта, а также эффективности кампаний по электронной почте. ^[6]

Процент успешных сеансов

Показатель успешности сеансов измеряет долю пользовательских сеансов, которые привели к успеху. Определение «успеха» часто зависит от контекста, но для поиска успешный результат часто измеряется с использованием времени пребывания в качестве основного фактора наряду с вторичным взаимодействием с пользователем, например, пользователь, копирующий URL-адрес результата, считается успешным результатом, как и копирование. /вставка из фрагмента.

Нулевой процент результатов

Доля нулевых результатов ( ZRR ) — это доля страниц результатов поисковой системы (SERP), которые вернулись с нулевыми результатами. Метрика либо указывает на проблему с отзывом , либо на то, что искомая информация отсутствует в индексе.

Офлайн-метрики

Офлайн-метрики обычно создаются на основе оценок релевантности, на которых судьи оценивают качество результатов поиска. Для оценки каждого документа, возвращаемого в ответ на запрос, можно использовать как двоичную (релевантную/нерелевантную), так и многоуровневую (например, релевантность от 0 до 5) шкалу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности. Например, в запросе «марс» есть двусмысленность: судья не знает, ищет ли пользователь планету Марс , марсианскую шоколадку, певца Бруно Марса или римское божество Марс .

Точность

Точность — это доля полученных документов, которая соответствует информационным потребностям пользователя.

{\mbox{precision}}={\frac {|\{{\mbox{соответствующие документы}}\}\cap \{{\mbox{полученные документы}}\}|}{|\{{\ mbox{полученные документы}}\}|}}

В бинарной классификации точность аналогична положительной прогностической ценности . Precision учитывает все полученные документы. Его также можно оценить, учитывая только самые верхние результаты, возвращаемые системой с помощью Precision@k.

Обратите внимание, что значение и использование слова «точность» в области поиска информации отличаются от определения точности и точности в других отраслях науки и статистики .

Отзывать

Отзыв — это доля документов, имеющих отношение к запросу, которые были успешно получены.

{\mbox{recall}}={\frac {|\{{\mbox{соответствующие документы}}\}\cap \{{\mbox{полученные документы}}\}|}{|\{{\ mbox{соответствующие документы}}\}|}}

В бинарной классификации воспоминания часто называют чувствительностью . Таким образом, это можно рассматривать как вероятность того, что соответствующий документ будет получен по запросу .

Достичь 100% полноты возврата тривиально, возвращая все документы в ответ на любой запрос. Следовательно, одного лишь отзыва недостаточно, необходимо также измерить количество нерелевантных документов, например, путем расчета точности.

Выпадать

Доля извлеченных нерелевантных документов из всех доступных нерелевантных документов:

{\mbox{fall-out}}={\frac {|\{{\mbox{нерелевантные документы}}\}\cap \{{\mbox{полученные документы}}\}|}{| \{{\mbox{нерелевантные документы}}\}|}}

В бинарной классификации выпадение противоположно специфичности и равно . Ее можно рассматривать как вероятность того, что по запросу будет получен нерелевантный документ . $(1- {\mbox{специфичность}})$

Достичь выпадения в 0% тривиально, возвращая ноль документов в ответ на любой запрос.

F-оценка / F-мера

Средневзвешенное гармоническое значение точности и полноты, традиционная F-мера или сбалансированная F-оценка:

F={\frac {2\cdot \mathrm {precision} \cdot \mathrm {recall} }{(\ mathrm {precision} +\ mathrm {recall} )}}

Это также известно как мера, поскольку полнота и точность имеют одинаковый вес. $F_{1}$

Общая формула неотрицательного действительного числа : $\бета$

F_{\beta }={\frac {(1+\beta ^{2})\cdot (\mathrm {precision} \cdot \mathrm {recall})}{(\beta ^{2}\cdot \mathrm {точность} +\mathrm {отзыв} )}}\,

Двумя другими часто используемыми F-мерами являются мера, которая весит в два раза больше, чем точность, и мера, которая весит в два раза больше точности, чем точность. $F_{2}$ $F_{0.5}$

F-мера была выведена ван Рейсбергеном (1979) так, что она «измеряет эффективность поиска по отношению к пользователю, который придает запоминанию в раз больше значения, чем точности». Он основан на показателе эффективности Ван Рейсбергена . Их отношения таковы: $F_{\beta }$ $\бета$ $E=1-{\frac {1}{{\frac {\alpha }{P}}+{\frac {1-\alpha }{R}}}}$

F_{\beta }=1-E

где

\alpha = {\frac {1}{1+\beta ^{2}}}

Поскольку F-мера объединяет информацию как о точности, так и об отзыве, это способ представить общую производительность без представления двух чисел.

Средняя точность

Точность и полнота — это однозначные метрики, основанные на всем списке документов, возвращаемых системой. Для систем, возвращающих ранжированную последовательность документов, желательно также учитывать порядок представления возвращаемых документов. Вычислив точность и полноту в каждой позиции в ранжированной последовательности документов, можно построить кривую точности и полноты, отображающую точность как функцию полноты . Средняя точность вычисляет среднее значение за интервал от до : ^[7] ${\ displaystyle p (r)}$ $г$ ${\ displaystyle p (r)}$ $г=0$ $г=1$

\operatorname {AveP} =\int _{0}^{1}p(r)dr

Это область под кривой точности отзыва. На практике этот интеграл заменяется конечной суммой по каждой позиции в ранжированной последовательности документов:

\operatorname {AveP} =\sum _{k=1}^{n}P(k)\Delta r(k)

где - ранг в последовательности извлеченных документов, - количество извлеченных документов, - точность при отсечке в списке, и - изменение отзыва с элементов на . ^[7] $k$ $n$ $P(k)$ $k$ $\Delta r(k)$ $k-1$ $k$

Эта конечная сумма эквивалентна:

\operatorname {AveP} ={\frac {\sum _{k=1}^{n}P(k)\times \operatorname {rel} (k)}{\mbox{total number of relevant documents}}}\!

где – индикаторная функция, равная 1, если элемент ранга является соответствующим документом, и нулю в противном случае. ^[8] Обратите внимание, что среднее значение превышает релевантные документы в топ-k извлеченных документах, а релевантные неполученные документы получают нулевую оценку точности. $\operatorname {rel} (k)$ $k$

Некоторые авторы предпочитают интерполировать функцию, чтобы уменьшить влияние «покачиваний» кривой. ^[9]^[10] Например, задача классов визуальных объектов PASCAL (тест для обнаружения объектов компьютерным зрением) до 2010 года ^[11] вычисляла среднюю точность путем усреднения точности по набору равномерно расположенных уровней отзыва {0, 0,1, 0,2, ... 1,0}: ^[9]^[10] $p(r)$

\operatorname {AveP} ={\frac {1}{11}}\sum _{r\in \{0,0.1,\ldots ,1.0\}}p_{\operatorname {interp} }(r)

где — интерполированная точность, которая обеспечивает максимальную точность для всех вызовов, превышающую : $p_{\operatorname {interp} }(r)$ $r$

p_{\operatorname {interp} }(r)=\operatorname {max} _{{\tilde {r}}:{\tilde {r}}\geq r}p({\tilde {r}})

Альтернативой является получение аналитической функции, предполагая конкретное параметрическое распределение для основных значений решения. Например, можно получить бинормальную кривую точности-памяти, если предположить, что значения решений в обоих классах следуют распределению Гаусса. ^[12] $p(r)$

Минимально достижимая AveP для данной задачи классификации определяется следующим образом:

${\frac {1}{n_{pos}}}\sum _{k=1}^{n_{pos}}{\frac {k}{k+n_{neg}}}$ ^[13]

Точность при k

Для современного поиска информации (в масштабе Интернета) отзыв больше не является значимым показателем, поскольку многие запросы содержат тысячи соответствующих документов, и лишь немногие пользователи будут заинтересованы в их чтении. Точность в k документах (P@k) по-прежнему является полезным показателем (например, P@10 или «Точность в 10» соответствует количеству релевантных результатов среди первых 10 извлеченных документов), но не учитывает позиции соответствующие документы среди лучших k. ^[14] Еще одним недостатком является то, что по запросу с меньшим количеством релевантных результатов, чем k, даже идеальная система будет иметь оценку меньше 1. ^[15] Легче оценивать вручную, поскольку для определения необходимо изучить только k лучших результатов. актуальны они или нет.

R-точность

R-точность требует знания всех документов, имеющих отношение к запросу. Количество соответствующих документов используется в качестве порогового значения для расчета и варьируется от запроса к запросу. Например, если в корпусе 15 документов, относящихся к «красному» (R=15), R-точность для «красного» просматривает 15 лучших возвращенных документов, подсчитывает количество релевантных чисел и превращает это в долю релевантности: . ^[16] $R$ $r$ $r/R=r/15$

Обратите внимание, что R-Precision эквивалентна как точности в -й позиции (P@ ), так и отзыву в -й позиции. ^[15] $R$ $R$ $R$

Эмпирически этот показатель часто сильно коррелирует со средней средней точностью. ^[15]

Средняя средняя точность

Средняя средняя точность (MAP) для набора запросов — это среднее значение средних показателей точности для каждого запроса.

\operatorname {MAP} ={\frac {\sum _{q=1}^{Q}\operatorname {AveP(q)} }{Q}}\!

где Q — количество запросов.

Дисконтированная совокупная прибыль

DCG использует градуированную шкалу релевантности документов из набора результатов, чтобы оценить полезность или выгоду документа на основе его положения в списке результатов. Идея DCG заключается в том, что высокорелевантные документы, находящиеся ниже в списке результатов поиска, должны наказываться, поскольку значение градационной релевантности уменьшается логарифмически пропорционально положению результата.

DCG, накопленный на определенной позиции в ранге, определяется как: $p$

\mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}.

Поскольку размер набора результатов может различаться в зависимости от разных запросов или систем, для сравнения производительности нормализованная версия DCG использует идеальный DCG. С этой целью он сортирует документы списка результатов по релевантности, создавая идеальную DCG в позиции p ( ), которая нормализует оценку: $IDCG_{p}$

\mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG{p}}}.

Значения nDCG для всех запросов можно усреднить, чтобы получить оценку средней производительности алгоритма ранжирования. Обратите внимание, что в идеальном алгоритме ранжирования это будет то же самое, что и при создании nDCG 1,0. Все вычисления nDCG представляют собой относительные значения в интервале от 0,0 до 1,0 и поэтому сопоставимы между собой при выполнении перекрестных запросов. $DCG_{p}$ $IDCG_{p}$

Другие меры

Средний обратный ранг
bpref — основанная на суммировании мера того, сколько релевантных документов ранжируется перед нерелевантными документами ^[16]
GMAP - среднее геометрическое средней точности (по теме) ^[16]
Меры, основанные на предельной релевантности и разнообразии документов - см. Релевантность (поиск информации) § Проблемы и альтернативы.
Меры релевантности и достоверности (для фейковых новостей в результатах поиска) ^[17]
Скорость попадания

Визуализация

Визуализация производительности поиска информации включает в себя:

Графики, которые отображают точность по одной оси и полноту по другой ^[16]
Гистограммы средней точности по различным темам ^[16]
Рабочая характеристика приемника (кривая ROC)
Матрица путаницы

Нерелевантные меры

Запросов за раз

Измерение количества запросов, выполняемых в поисковой системе за (месяц/день/час/минуту/секунду), позволяет отслеживать использование поисковой системы. Его можно использовать для диагностики, чтобы указать на неожиданный всплеск запросов, или просто в качестве базового показателя при сравнении с другими показателями, такими как задержка запроса. Например, резкий рост трафика запросов можно использовать для объяснения резкого увеличения задержки запросов.

Смотрите также

Учимся ранжировать