В статистике межэкспертная надежность (также известная под разными похожими названиями, такими как межэкспертное согласие , межэкспертное согласование , межнаблюдательная надежность , межкодирующая надежность и т. д.) — это степень согласия среди независимых наблюдателей, которые оценивают, кодируют или определяют одно и то же явление.
Инструменты оценки, основанные на рейтингах, должны демонстрировать высокую межэкспертную надежность, в противном случае они не являются валидными тестами .
Существует ряд статистик, которые можно использовать для определения межэкспертной надежности. Различные статистики подходят для разных типов измерений. Некоторые варианты — это совместная вероятность согласия, например каппа Коэна , пи Скотта и каппа Флейсса ; или межэкспертная корреляция, коэффициент корреляции конкордации , внутриклассовая корреляция и альфа Криппендорфа .
Существует несколько рабочих определений термина «межэкспертная надежность», отражающих различные точки зрения на то, что является надежным соглашением между оценщиками. [1] Существует три рабочих определения соглашения:
Они сочетаются с двумя операциональными определениями поведения:
Совместная вероятность согласия является самой простой и наименее надежной мерой. Она оценивается как процент времени, когда оценщики соглашаются в номинальной или категориальной рейтинговой системе. Она не принимает во внимание тот факт, что согласие может произойти исключительно на основе случайности. Есть некоторые сомнения относительно того, есть ли необходимость «корректировать» случайное согласие; некоторые предполагают, что в любом случае любая такая корректировка должна основываться на явной модели того, как случайность и ошибка влияют на решения оценщиков. [3]
Когда число используемых категорий невелико (например, 2 или 3), вероятность того, что 2 оценщика согласятся по чистой случайности, резко возрастает. Это происходит потому, что оба оценщика должны ограничиться ограниченным числом доступных вариантов, что влияет на общий уровень согласия, а не обязательно на их склонность к «внутреннему» согласию (соглашение считается «внутренним», если оно не является случайным).
Таким образом, совместная вероятность согласия останется высокой даже при отсутствии какого-либо «внутреннего» согласия среди оценщиков. Ожидается, что полезный коэффициент межэкспертной надежности (a) будет близок к 0, когда нет «внутреннего» согласия, и (b) будет увеличиваться по мере улучшения «внутреннего» уровня согласия. Большинство коэффициентов согласия с поправкой на случайность достигают первой цели. Однако вторая цель не достигается многими известными мерами с поправкой на случайность. [4]
Каппа — это способ измерения согласия или надежности, корректирующий то, как часто оценки могут совпадать случайно. Каппа Коэна [5] , которая работает для двух оценщиков, и каппа Флейсса [6], адаптация, которая работает для любого фиксированного числа оценщиков, улучшают совместную вероятность тем, что они учитывают количество согласия, которое можно было бы ожидать в результате случайности. Первоначальные версии имели ту же проблему, что и совместная вероятность, в том, что они рассматривают данные как номинальные и предполагают, что оценки не имеют естественного порядка; если данные на самом деле имеют ранг (порядковый уровень измерения), то эта информация не полностью учитывается в измерениях.
Более поздние расширения подхода включали версии, которые могли обрабатывать «частичные кредитные» и порядковые шкалы. [7] Эти расширения сходятся с семейством внутриклассовых корреляций (ICC), поэтому существует концептуально связанный способ оценки надежности для каждого уровня измерения от номинального (каппа) до порядкового (порядковая каппа или ICC — растягивающие предположения) до интервального (ICC или порядковая каппа — рассматривая интервальную шкалу как порядковую) и отношения (ICC). Существуют также варианты, которые могут рассматривать согласие оценщиков по набору пунктов (например, согласны ли два интервьюера относительно баллов депрессии по всем пунктам в одном и том же полуструктурированном интервью для одного случая?), а также оценщики x случаи (например, насколько хорошо два или более оценщиков согласны относительно того, имеют ли 30 случаев диагноз депрессии, да/нет — номинальная переменная).
Каппа похожа на коэффициент корреляции в том, что она не может быть выше +1,0 или ниже -1,0. Поскольку она используется как мера согласия, в большинстве ситуаций можно ожидать только положительных значений; отрицательные значения будут указывать на систематическое несогласие. Каппа может достигать очень высоких значений только тогда, когда и согласие хорошее, и уровень целевого состояния близок к 50% (потому что он включает базовый уровень в расчет совместных вероятностей). Несколько авторитетов предложили «правила большого пальца» для интерпретации уровня согласия, многие из которых согласны по сути, даже если слова не идентичны. [8] [9] [10] [11]
Для измерения парной корреляции между оценщиками с использованием упорядоченной шкалы можно использовать либо τ Пирсона , либо τ Кендалла , либо τ Спирмена . Пирсон предполагает, что шкала оценок непрерывна; статистики Кендалла и Спирмена предполагают только, что она порядковая. Если наблюдаются более двух оценщиков, средний уровень согласия для группы можно рассчитать как среднее значение , τ или значений для каждой возможной пары оценщиков.
Другой способ проверки надежности — использовать коэффициент внутриклассовой корреляции (ICC). [12] Существует несколько его типов, и один из них определяется как «доля дисперсии наблюдения, обусловленная межсубъектной изменчивостью в истинных оценках». [13] Диапазон ICC может быть от 0,0 до 1,0 (раннее определение ICC могло быть от −1 до +1). ICC будет высоким, когда существует небольшая вариация между оценками, данными каждому пункту оценщиками, например, если все оценщики дают одинаковые или близкие оценки каждому из пунктов. ICC является улучшением по сравнению с коэффициентами Пирсона и Спирмена , поскольку он учитывает различия в оценках для отдельных сегментов, а также корреляцию между оценщиками.
Другой подход к согласию (полезный, когда есть только два оценщика и шкала непрерывна) заключается в вычислении различий между каждой парой наблюдений двух оценщиков. Среднее значение этих различий называется смещением , а референтный интервал (среднее значение ± 1,96 × стандартное отклонение ) называется пределами согласия . Пределы согласия дают представление о том, насколько случайные вариации могут влиять на оценки.
Если оценщики склонны соглашаться, то различия между наблюдениями оценщиков будут близки к нулю. Если один оценщик обычно выше или ниже другого на постоянную величину, смещение будет отличаться от нуля. Если оценщики склонны не соглашаться, но без последовательной модели, когда одна оценка выше другой, то среднее значение будет близко к нулю. Пределы достоверности (обычно 95%) можно рассчитать как для смещения, так и для каждого из пределов согласия.
Существует несколько формул, которые можно использовать для расчета пределов согласия. Простая формула, которая была дана в предыдущем абзаце и хорошо работает для выборки размером более 60, [14] выглядит так:
Для выборок меньшего размера другим распространенным упрощением [15] является
Однако наиболее точной формулой (применимой для всех размеров выборки) [14] является
Бланд и Альтман [15] расширили эту идею, изобразив разницу каждой точки, среднюю разницу и пределы согласия по вертикали против среднего значения двух оценок по горизонтали. Полученный график Бланда–Альтмана демонстрирует не только общую степень согласия, но и то, связано ли согласие с базовой ценностью элемента. Например, два оценщика могут близко согласиться в оценке размера мелких элементов, но не согласиться относительно более крупных элементов.
При сравнении двух методов измерения не только интересно оценить как смещение , так и пределы согласия между двумя методами (межэкспертное согласие), но и оценить эти характеристики для каждого метода в отдельности. Вполне может быть, что согласие между двумя методами плохое просто потому, что один из методов имеет широкие пределы согласия , а другой — узкие. В этом случае метод с узкими пределами согласия будет лучше со статистической точки зрения, в то время как практические или иные соображения могут изменить эту оценку. Что составляет узкие или широкие пределы согласия или большое или малое смещение, является вопросом практической оценки в каждом случае.
Альфа Криппендорфа [16] [17] — это универсальная статистика, которая оценивает согласие, достигнутое среди наблюдателей, которые классифицируют, оценивают или измеряют заданный набор объектов с точки зрения значений переменной. Она обобщает несколько специализированных коэффициентов согласия, принимая любое количество наблюдателей, будучи применимой к номинальным, порядковым, интервальным и относительным уровням измерения, будучи способной обрабатывать отсутствующие данные и корректируясь для небольших размеров выборки.
Альфа появилась в контент-анализе, где текстовые единицы классифицируются обученными кодировщиками, и используется в консультационных и опросных исследованиях , где эксперты кодируют открытые данные интервью в анализируемые термины, в психометрии , где отдельные атрибуты проверяются несколькими методами, в наблюдательных исследованиях , где неструктурированные события регистрируются для последующего анализа, и в компьютерной лингвистике , где тексты аннотируются с учетом различных синтаксических и семантических качеств.
Для любой задачи, в которой полезны несколько оценщиков, ожидается, что оценщики не будут соглашаться относительно наблюдаемой цели. Напротив, ситуации, включающие недвусмысленные измерения, такие как простые задачи подсчета (например, количество потенциальных клиентов, входящих в магазин), часто не требуют более чем одного человека, выполняющего измерение.
Измерение, включающее неоднозначность характеристик интереса в целевой оценке, обычно улучшается с несколькими обученными оценщиками. Такие измерительные задачи часто включают субъективную оценку качества. Примерами служат оценки «манеры у постели больного» врача, оценка достоверности свидетелей присяжными и презентационные навыки оратора.
Различия между оценщиками в процедурах измерения и различия в интерпретации результатов измерения являются двумя примерами источников дисперсии ошибок в измерениях рейтинга. Четко сформулированные руководящие принципы для представления рейтингов необходимы для надежности в неоднозначных или сложных сценариях измерения.
Без руководств по подсчету оценок рейтинги все больше подвержены влиянию предвзятости экспериментатора , то есть тенденции значений рейтинга дрейфовать в сторону того, что ожидает оценщик. Во время процессов, включающих повторные измерения, коррекция дрейфа оценщика может быть выполнена путем периодического переобучения, чтобы гарантировать, что оценщики понимают руководящие принципы и цели измерения.
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка )