Межоценочная надежность

В статистике надежность между экспертами (также называемая различными похожими названиями, такими как согласие между экспертами , согласованность между экспертами , надежность между наблюдателями , надежность между кодировщиками и т. д.) — это степень согласия между независимыми наблюдателями, которые оценить, закодировать или оценить одно и то же явление.

Инструменты оценки, основанные на рейтингах, должны демонстрировать хорошую межэкспертную надежность, в противном случае они не являются валидными тестами .

Существует ряд статистических данных, которые можно использовать для определения надежности между экспертами. Для разных типов измерений подходят разные статистические данные. Некоторые варианты представляют собой совместную вероятность согласия, например, каппа Коэна , пи Скотта и каппа Флейса ; или корреляция между экспертами, коэффициент корреляции конкордации , внутриклассовая корреляция и альфа Криппендорфа .

Концепция

Существует несколько рабочих определений «надежности между оценщиками», отражающих разные точки зрения на то, что такое надежное соглашение между оценщиками. ^[1] Существует три рабочих определения соглашения:

Надежные оценщики согласны с «официальной» оценкой выступления.
Надежные оценщики договариваются друг с другом о том, какие именно рейтинги будут присуждаться.
Надежные оценщики сходятся во мнении, какая производительность лучше, а какая хуже.

Они сочетаются с двумя оперативными определениями поведения:

Надежные оценщики — это автоматы, ведущие себя как «рейтинговые машины». К этой категории относится оценка эссе компьютером ^[2]. Такое поведение можно оценить с помощью теории обобщаемости .
Надежные оценщики ведут себя как независимые свидетели. Они демонстрируют свою независимость, слегка не соглашаясь. Такое поведение можно оценить с помощью модели Раша .

Статистика

Совместная вероятность соглашения

Совместная вероятность соглашения является самым простым и наименее надежным показателем. Он оценивается как процент случаев, когда оценщики соглашаются использовать номинальную или категориальную рейтинговую систему. Он не принимает во внимание тот факт, что соглашение может произойти исключительно случайно. Возникает некоторый вопрос, есть ли необходимость «исправлять» случайное соглашение; некоторые полагают, что в любом случае любая такая корректировка должна основываться на явной модели того, как случайность и ошибка влияют на решения оценщиков. ^[3]

Когда количество используемых категорий невелико (например, 2 или 3), вероятность того, что два оценщика придут к согласию по чистой случайности, резко возрастает. Это связано с тем, что оба оценщика должны ограничиться ограниченным количеством доступных вариантов, что влияет на общий уровень согласия, а не обязательно на их склонность к «внутреннему» согласию (соглашение считается «внутренним», если оно не является случайным).

Таким образом, общая вероятность согласия останется высокой даже при отсутствии какого-либо «внутреннего» согласия между оценщиками. Ожидается, что полезный коэффициент надежности между экспертами (а) будет близок к 0, когда нет «внутреннего» согласия, и (б) будет увеличиваться по мере улучшения «внутреннего» уровня согласия. Большинство коэффициентов согласия, скорректированных на случайность, достигают первой цели. Однако вторая цель не достигается многими известными мерами, корректируемыми случайностью. ^[4]

Статистика Каппы

Каппа — это способ измерения согласия или надежности с поправкой на то, как часто рейтинги могут совпадать случайно. Каппа Коэна, ^[5] которая работает для двух оценщиков, и каппа Флейса, ^[6] адаптация, которая работает для любого фиксированного числа оценщиков, улучшают совместную вероятность, поскольку они принимают во внимание ожидаемую степень согласия. произойти случайно. Первоначальные версии имели ту же проблему, что и совместная вероятность, поскольку они рассматривали данные как номинальные и предполагали, что рейтинги не имеют естественного порядка; если данные действительно имеют ранг (порядковый уровень измерения), то эта информация не полностью учитывается при измерениях.

Более поздние расширения этого подхода включали версии, которые могли обрабатывать «частичный кредит» и порядковые шкалы. ^[7] Эти расширения сходятся с семейством внутриклассовых корреляций (ICC), поэтому существует концептуально связанный способ оценки надежности для каждого уровня измерения от номинального (каппа) до порядкового (порядковый каппа или ICC — предположения о растяжении) до интервал (ICC, или порядковая каппа, считая интервальную шкалу порядковой) и соотношение (ICC). Существуют также варианты, которые могут учитывать согласие оценщиков по набору вопросов (например, согласны ли два интервьюера с оценками депрессии по всем пунктам в одном и том же полуструктурированном интервью для одного случая?), а также оценщики х случаи (например, насколько хорошо два или более оценщика согласны с тем, есть ли у 30 случаев диагноз депрессии, да/нет — номинальная переменная).

Каппа похожа на коэффициент корреляции тем, что она не может превышать +1,0 или ниже -1,0. Поскольку он используется как мера согласия, в большинстве ситуаций можно ожидать только положительных значений; отрицательные значения будут указывать на систематическое несогласие. Каппа может достичь очень высоких значений только в том случае, если оба соглашения хорошие, а степень целевого условия составляет около 50% (поскольку она включает базовую скорость в расчет совместных вероятностей). Некоторые авторитетные источники предложили «эмпирические правила» для интерпретации уровня согласия, многие из которых согласны в сути, хотя слова не идентичны. ^[8]^[9]^[10]^[11]

Коэффициенты корреляции

Либо Пирсона , либо Кендалла τ , либо Спирмена можно использовать для измерения парной корреляции между оценщиками с использованием упорядоченной шкалы. Пирсон предполагает, что шкала оценок является непрерывной; Статистика Кендалла и Спирмена предполагает только то, что он порядковый. Если наблюдается более двух оценщиков, средний уровень согласия для группы можно рассчитать как среднее значение , τ или значений каждой возможной пары оценщиков. $г$ $\rho$ $г$ $\rho$

Коэффициент внутриклассовой корреляции

Другой способ проведения тестирования надежности — использование коэффициента внутриклассовой корреляции (ICC). ^[12] Существует несколько типов этого, и один из них определяется как «доля дисперсии наблюдения из-за вариабельности истинных оценок между субъектами». ^[13] Диапазон ICC может находиться в диапазоне от 0,0 до 1,0 (раннее определение ICC могло находиться в диапазоне от -1 до +1). ICC будет высоким, если существует небольшая разница между оценками, присвоенными оценщиками каждому пункту, например, если все оценщики дают одинаковые или близкие оценки каждому из пунктов. ICC является улучшением по сравнению с Pearson's и Spearman's , поскольку он учитывает различия в рейтингах для отдельных сегментов, а также корреляцию между оценщиками. $г$ $\rho$

Пределы соглашения

Другой подход к согласованию (полезный, когда есть только два оценщика и шкала непрерывна) заключается в вычислении разностей между каждой парой наблюдений двух оценщиков. Среднее значение этих различий называется смещением , а референтный интервал (среднее значение ± 1,96 × стандартное отклонение ) называется пределами согласия . Пределы согласия дают представление о том, насколько случайные вариации могут влиять на рейтинги.

Если оценщики склонны соглашаться, различия между наблюдениями оценщиков будут близки к нулю. Если один оценщик обычно выше или ниже другого на постоянную величину, смещение будет отлично от нуля. Если оценщики склонны расходиться во мнениях, но при этом нет устойчивой закономерности, когда одна оценка выше другой, среднее значение будет близко к нулю. Доверительные пределы (обычно 95%) можно рассчитать как для систематической ошибки, так и для каждого из пределов согласия.

Существует несколько формул, которые можно использовать для расчета пределов согласия. Простая формула, приведенная в предыдущем параграфе и хорошо работающая для размера выборки более 60, ^[14] :

{\bar {x}}\pm 1,96 с

Для меньших размеров выборки другое распространенное упрощение [ ^15]:

{\bar {x}}\pm 2s

Однако наиболее точная формула (которая применима для всех размеров выборки) ^[14] :

{\bar {x}}\pm t_{0,05,n-1}s{\sqrt {1+{\frac {1}{n}}}}

Блэнд и Альтман ^[15] расширили эту идею, нарисовав на графике разницу каждой точки, среднюю разницу и пределы согласия по вертикали в сравнении со средним значением двух оценок по горизонтали. Полученный график Бланда-Альтмана демонстрирует не только общую степень согласия, но и то, связано ли согласие с базовой ценностью объекта. Например, два оценщика могут сходиться во мнении в оценке размера мелких предметов, но не соглашаться относительно более крупных предметов.

При сравнении двух методов измерения представляет интерес не только оценить как систематическую ошибку , так и пределы согласия между двумя методами (межэкспертное согласие), но и оценить эти характеристики для каждого метода в отдельности. Вполне возможно, что согласие между двумя методами плохое просто потому, что один из методов имеет широкие пределы согласия , а другой — узкие. В этом случае метод с узкими пределами согласия будет предпочтительнее со статистической точки зрения, в то время как практические или другие соображения могут изменить эту оценку. Что представляет собой узкие или широкие пределы согласия , большую или малую предвзятость , в каждом случае является вопросом практической оценки.

Альфа Криппендорфа

Альфа Криппендорфа ^[16]^[17] — это универсальная статистика, которая оценивает согласие, достигнутое между наблюдателями, которые классифицируют, оценивают или измеряют заданный набор объектов с точки зрения значений переменной. Он обобщает несколько специализированных коэффициентов согласия, допуская любое количество наблюдателей, применим к номинальным, порядковым, интервальным и относительным уровням измерения, способен обрабатывать недостающие данные и корректируется для небольших размеров выборки.

Альфа возникла в контент-анализе, где текстовые единицы классифицируются обученными кодировщиками, и используется в консультировании и опросных исследованиях , где эксперты кодируют данные открытых интервью в анализируемые термины, в психометрии , где отдельные атрибуты проверяются несколькими методами, в наблюдательных исследованиях , где неструктурированные события записываются для последующего анализа, а также в компьютерной лингвистике , где тексты аннотируются с учетом различных синтаксических и семантических качеств.

Разногласия

Ожидается, что для любой задачи, в которой полезны несколько оценщиков, оценщики не будут расходиться во мнениях относительно наблюдаемой цели. Напротив, ситуации, требующие однозначного измерения, такие как простые задачи подсчета (например, количество потенциальных покупателей, входящих в магазин), часто не требуют выполнения измерения более чем одним человеком.

Измерения, связанные с неоднозначностью характеристик, представляющих интерес для целевого рейтинга, обычно улучшаются с помощью нескольких обученных оценщиков. Такие задачи измерения часто предполагают субъективную оценку качества. Примеры включают оценку «поведения врача у постели больного», оценку присяжными достоверности свидетелей и презентационное мастерство оратора.

Различия в процедурах измерения у разных оценщиков и различия в интерпретации результатов измерений являются двумя примерами источников ошибок в рейтинговых измерениях. Четко сформулированные рекомендации по вычислению рейтингов необходимы для обеспечения надежности в неоднозначных или сложных сценариях измерения.

Без руководящих принципов выставления оценок на оценки все больше влияет предвзятость экспериментатора , то есть тенденция значений оценок отклоняться в сторону того, что ожидает оценщик. Во время процессов, включающих повторные измерения, коррекция отклонений оценщиков может быть решена путем периодического переобучения, чтобы гарантировать, что оценщики понимают руководящие принципы и цели измерений.

Смотрите также

дальнейшее чтение

Гвет, Килем Л. (2014). Справочник по надежности между экспертами (4-е изд.). Гейтерсбург: Расширенная аналитика. ISBN 978-0970806284. ОСЛК 891732741.
Гвет, КЛ (2008). «Вычисление межоценочной надежности и ее дисперсии при высоком согласии» (PDF) . Британский журнал математической и статистической психологии . 61 (Часть 1): 29–48. дои : 10.1348/000711006X126600. PMID 18482474. S2CID 13915043. Архивировано из оригинала (PDF) 3 марта 2016 г. Проверено 16 июня 2010 г.
Джонсон, Р.; Пенни, Дж.; Гордон, Б. (2009). Оценка производительности: разработка, оценка и проверка задач по производительности . Гилфорд. ISBN 978-1-59385-988-6.
Шукри, ММ (2010). Меры соглашения между наблюдателями и надежности (2-е изд.). ЦРК Пресс. ISBN 978-1-4398-1080-4. ОСЛК 815928115.

Внешние ссылки

На Wikimedia Commons есть средства массовой информации, связанные с межоценочной надежностью .

AgreeStat 360: облачный анализ надежности между экспертами, каппа Коэна, AC1/AC2 Гвета, альфа Криппендорфа, Бреннан-Предигер, обобщенная каппа Фляйсса, коэффициенты внутриклассовой корреляции.
Статистические методы соглашения между оценщиками, Джон Юберсакс
Калькулятор межоценочной надежности от Medical Education Online
Онлайн-калькулятор Каппа (мультиратер), заархивировано 28 февраля 2009 г. на Wayback Machine.
Онлайн-калькулятор соглашения между экспертами. Архивировано 10 апреля 2016 г. на Wayback Machine.