stringtranslate.com

Межоценочная надежность

В статистике надежность между экспертами (также называемая различными похожими названиями, такими как согласие между экспертами , согласованность между экспертами , надежность между наблюдателями , надежность между кодировщиками и т. д.) — это степень согласия между независимыми наблюдателями, которые оценить, закодировать или оценить одно и то же явление.

Инструменты оценки, основанные на рейтингах, должны демонстрировать хорошую межэкспертную надежность, в противном случае они не являются валидными тестами .

Существует ряд статистических данных, которые можно использовать для определения надежности между экспертами. Для разных типов измерений подходят разные статистические данные. Некоторые варианты представляют собой совместную вероятность согласия, например, каппа Коэна , пи Скотта и каппа Флейса ; или корреляция между экспертами, коэффициент корреляции конкордации , внутриклассовая корреляция и альфа Криппендорфа .

Концепция

Существует несколько рабочих определений «надежности между оценщиками», отражающих разные точки зрения на то, что такое надежное соглашение между оценщиками. [1] Существует три рабочих определения соглашения:

  1. Надежные оценщики согласны с «официальной» оценкой выступления.
  2. Надежные оценщики договариваются друг с другом о том, какие именно рейтинги будут присуждаться.
  3. Надежные оценщики сходятся во мнении, какая производительность лучше, а какая хуже.

Они сочетаются с двумя оперативными определениями поведения:

  1. Надежные оценщики — это автоматы, ведущие себя как «рейтинговые машины». К этой категории относится оценка эссе компьютером [2]. Такое поведение можно оценить с помощью теории обобщаемости .
  2. Надежные оценщики ведут себя как независимые свидетели. Они демонстрируют свою независимость, слегка не соглашаясь. Такое поведение можно оценить с помощью модели Раша .

Статистика

Совместная вероятность соглашения

Совместная вероятность соглашения является самым простым и наименее надежным показателем. Он оценивается как процент случаев, когда оценщики соглашаются использовать номинальную или категориальную рейтинговую систему. Он не принимает во внимание тот факт, что соглашение может произойти исключительно случайно. Возникает некоторый вопрос, есть ли необходимость «исправлять» случайное соглашение; некоторые полагают, что в любом случае любая такая корректировка должна основываться на явной модели того, как случайность и ошибка влияют на решения оценщиков. [3]

Когда количество используемых категорий невелико (например, 2 или 3), вероятность того, что два оценщика придут к согласию по чистой случайности, резко возрастает. Это связано с тем, что оба оценщика должны ограничиться ограниченным количеством доступных вариантов, что влияет на общий уровень согласия, а не обязательно на их склонность к «внутреннему» согласию (соглашение считается «внутренним», если оно не является случайным).

Таким образом, общая вероятность согласия останется высокой даже при отсутствии какого-либо «внутреннего» согласия между оценщиками. Ожидается, что полезный коэффициент надежности между экспертами (а) будет близок к 0, когда нет «внутреннего» согласия, и (б) будет увеличиваться по мере улучшения «внутреннего» уровня согласия. Большинство коэффициентов согласия, скорректированных на случайность, достигают первой цели. Однако вторая цель не достигается многими известными мерами, корректируемыми случайностью. [4]

Статистика Каппы

Четыре набора рекомендаций по интерпретации уровня согласия между экспертами

Каппа — это способ измерения согласия или надежности с поправкой на то, как часто рейтинги могут совпадать случайно. Каппа Коэна, [5] которая работает для двух оценщиков, и каппа Флейса, [6] адаптация, которая работает для любого фиксированного числа оценщиков, улучшают совместную вероятность, поскольку они принимают во внимание ожидаемую степень согласия. произойти случайно. Первоначальные версии имели ту же проблему, что и совместная вероятность, поскольку они рассматривали данные как номинальные и предполагали, что рейтинги не имеют естественного порядка; если данные действительно имеют ранг (порядковый уровень измерения), то эта информация не полностью учитывается при измерениях.

Более поздние расширения этого подхода включали версии, которые могли обрабатывать «частичный кредит» и порядковые шкалы. [7] Эти расширения сходятся с семейством внутриклассовых корреляций (ICC), поэтому существует концептуально связанный способ оценки надежности для каждого уровня измерения от номинального (каппа) до порядкового (порядковый каппа или ICC — предположения о растяжении) до интервал (ICC, или порядковая каппа, считая интервальную шкалу порядковой) и соотношение (ICC). Существуют также варианты, которые могут учитывать согласие оценщиков по набору вопросов (например, согласны ли два интервьюера с оценками депрессии по всем пунктам в одном и том же полуструктурированном интервью для одного случая?), а также оценщики х случаи (например, насколько хорошо два или более оценщика согласны с тем, есть ли у 30 случаев диагноз депрессии, да/нет — номинальная переменная).

Каппа похожа на коэффициент корреляции тем, что она не может превышать +1,0 или ниже -1,0. Поскольку он используется как мера согласия, в большинстве ситуаций можно ожидать только положительных значений; отрицательные значения будут указывать на систематическое несогласие. Каппа может достичь очень высоких значений только в том случае, если оба соглашения хорошие, а степень целевого условия составляет около 50% (поскольку она включает базовую скорость в расчет совместных вероятностей). Некоторые авторитетные источники предложили «эмпирические правила» для интерпретации уровня согласия, многие из которых согласны в сути, хотя слова не идентичны. [8] [9] [10] [11]

Коэффициенты корреляции

Либо Пирсона , либо Кендалла τ , либо Спирмена можно использовать для измерения парной корреляции между оценщиками с использованием упорядоченной шкалы. Пирсон предполагает, что шкала оценок является непрерывной; Статистика Кендалла и Спирмена предполагает только то, что он порядковый. Если наблюдается более двух оценщиков, средний уровень согласия для группы можно рассчитать как среднее значение , τ или значений каждой возможной пары оценщиков.

Коэффициент внутриклассовой корреляции

Другой способ проведения тестирования надежности — использование коэффициента внутриклассовой корреляции (ICC). [12] Существует несколько типов этого, и один из них определяется как «доля дисперсии наблюдения из-за вариабельности истинных оценок между субъектами». [13] Диапазон ICC может находиться в диапазоне от 0,0 до 1,0 (раннее определение ICC могло находиться в диапазоне от -1 до +1). ICC будет высоким, если существует небольшая разница между оценками, присвоенными оценщиками каждому пункту, например, если все оценщики дают одинаковые или близкие оценки каждому из пунктов. ICC является улучшением по сравнению с Pearson's и Spearman's , поскольку он учитывает различия в рейтингах для отдельных сегментов, а также корреляцию между оценщиками.

Пределы соглашения

График Бланда – Альтмана

Другой подход к согласованию (полезный, когда есть только два оценщика и шкала непрерывна) заключается в вычислении разностей между каждой парой наблюдений двух оценщиков. Среднее значение этих различий называется смещением , а референтный интервал (среднее значение ± 1,96 ×  стандартное отклонение ) называется пределами согласия . Пределы согласия дают представление о том, насколько случайные вариации могут влиять на рейтинги.

Если оценщики склонны соглашаться, различия между наблюдениями оценщиков будут близки к нулю. Если один оценщик обычно выше или ниже другого на постоянную величину, смещение будет отлично от нуля. Если оценщики склонны расходиться во мнениях, но при этом нет устойчивой закономерности, когда одна оценка выше другой, среднее значение будет близко к нулю. Доверительные пределы (обычно 95%) можно рассчитать как для систематической ошибки, так и для каждого из пределов согласия.

Существует несколько формул, которые можно использовать для расчета пределов согласия. Простая формула, приведенная в предыдущем параграфе и хорошо работающая для размера выборки более 60, [14] :

Для меньших размеров выборки другое распространенное упрощение [ 15]:

Однако наиболее точная формула (которая применима для всех размеров выборки) [14] :

Блэнд и Альтман [15] расширили эту идею, нарисовав на графике разницу каждой точки, среднюю разницу и пределы согласия по вертикали в сравнении со средним значением двух оценок по горизонтали. Полученный график Бланда-Альтмана демонстрирует не только общую степень согласия, но и то, связано ли согласие с базовой ценностью объекта. Например, два оценщика могут сходиться во мнении в оценке размера мелких предметов, но не соглашаться относительно более крупных предметов.

При сравнении двух методов измерения представляет интерес не только оценить как систематическую ошибку , так и пределы согласия между двумя методами (межэкспертное согласие), но и оценить эти характеристики для каждого метода в отдельности. Вполне возможно, что согласие между двумя методами плохое просто потому, что один из методов имеет широкие пределы согласия , а другой — узкие. В этом случае метод с узкими пределами согласия будет предпочтительнее со статистической точки зрения, в то время как практические или другие соображения могут изменить эту оценку. Что представляет собой узкие или широкие пределы согласия , большую или малую предвзятость , в каждом случае является вопросом практической оценки.

Альфа Криппендорфа

Альфа Криппендорфа [16] [17] — это универсальная статистика, которая оценивает согласие, достигнутое между наблюдателями, которые классифицируют, оценивают или измеряют заданный набор объектов с точки зрения значений переменной. Он обобщает несколько специализированных коэффициентов согласия, допуская любое количество наблюдателей, применим к номинальным, порядковым, интервальным и относительным уровням измерения, способен обрабатывать недостающие данные и корректируется для небольших размеров выборки.

Альфа возникла в контент-анализе, где текстовые единицы классифицируются обученными кодировщиками, и используется в консультировании и опросных исследованиях , где эксперты кодируют данные открытых интервью в анализируемые термины, в психометрии , где отдельные атрибуты проверяются несколькими методами, в наблюдательных исследованиях , где неструктурированные события записываются для последующего анализа, а также в компьютерной лингвистике , где тексты аннотируются с учетом различных синтаксических и семантических качеств.

Разногласия

Ожидается, что для любой задачи, в которой полезны несколько оценщиков, оценщики не будут расходиться во мнениях относительно наблюдаемой цели. Напротив, ситуации, требующие однозначного измерения, такие как простые задачи подсчета (например, количество потенциальных покупателей, входящих в магазин), часто не требуют выполнения измерения более чем одним человеком.

Измерения, связанные с неоднозначностью характеристик, представляющих интерес для целевого рейтинга, обычно улучшаются с помощью нескольких обученных оценщиков. Такие задачи измерения часто предполагают субъективную оценку качества. Примеры включают оценку «поведения врача у постели больного», оценку присяжными достоверности свидетелей и презентационное мастерство оратора.

Различия в процедурах измерения у разных оценщиков и различия в интерпретации результатов измерений являются двумя примерами источников ошибок в рейтинговых измерениях. Четко сформулированные рекомендации по вычислению рейтингов необходимы для обеспечения надежности в неоднозначных или сложных сценариях измерения.

Без руководящих принципов выставления оценок на оценки все больше влияет предвзятость экспериментатора , то есть тенденция значений оценок отклоняться в сторону того, что ожидает оценщик. Во время процессов, включающих повторные измерения, коррекция отклонений оценщиков может быть решена путем периодического переобучения, чтобы гарантировать, что оценщики понимают руководящие принципы и цели измерений.

Смотрите также

Рекомендации

  1. ^ Саал, FE; Дауни, Р.Г.; Лэхи, Массачусетс (1980). «Рейтинг рейтингов: оценка психометрического качества рейтинговых данных». Психологический вестник . 88 (2): 413. дои : 10.1037/0033-2909.88.2.413.
  2. ^ Пейдж, Э.Б.; Петерсен, Н.С. (1995). «Компьютер переходит к оцениванию эссе: обновление древнего теста». Пхи Дельта Каппан . 76 (7): 561.
  3. ^ Юберсакс, Дж.С. (1987). «Разнообразие моделей принятия решений и измерение согласия между экспертами». Психологический вестник . 101 (1): 140–146. дои : 10.1037/0033-2909.101.1.140. S2CID  39240770.
  4. ^ «Корректировка межоценочной надежности для случайного соглашения: почему?». www.agreestat.com . Архивировано из оригинала 02 апреля 2018 г. Проверено 26 декабря 2018 г.
  5. ^ Коэн, Дж. (1960). «Коэффициент согласия для номинальных шкал» (PDF) . Образовательные и психологические измерения . 20 (1): 37–46. дои : 10.1177/001316446002000104. S2CID  15926286.
  6. ^ Фляйсс, JL (1971). «Согласование номинальной шкалы измерения между многими оценщиками». Психологический вестник . 76 (5): 378–382. дои : 10.1037/h0031619.
  7. ^ Лэндис, Дж. Ричард; Кох, Гэри Г. (1977). «Измерение соглашения наблюдателя для категориальных данных». Биометрия . 33 (1): 159–74. дои : 10.2307/2529310. JSTOR  2529310. PMID  843571. S2CID  11077516.
  8. ^ Лэндис, Дж. Ричард; Кох, Гэри Г. (1977). «Применение иерархической статистики каппа-типа для оценки согласия большинства среди нескольких наблюдателей». Биометрия . 33 (2): 363–74. дои : 10.2307/2529786. JSTOR  2529786. PMID  884196.
  9. ^ Чикетти, Д.В.; Воробей, ЮАР (1981). «Разработка критериев установления межоценочной надежности конкретных объектов: приложения к оценке адаптивного поведения». Американский журнал умственной отсталости . 86 (2): 127–137. ПМИД  7315877.
  10. ^ Фляйсс, JL (21 апреля 1981 г.). Статистические методы определения ставок и пропорций. 2-е изд . Уайли. ISBN 0-471-06428-9. ОКЛК  926949980.
  11. ^ Реджер, Даррел А.; Узкий, Уильям Э.; Кларк, Диана Э.; Кремер, Хелена К.; Курамото, С. Джанет; Куль, Эмили А.; Купфер, Дэвид Дж. (2013). «Полевые испытания DSM-5 в США и Канаде, Часть II: надежность повторного тестирования выбранных категориальных диагнозов». Американский журнал психиатрии . 170 (1): 59–70. дои : 10.1176/appi.ajp.2012.12070999. ISSN  0002-953X. ПМИД  23111466.
  12. ^ Шраут, ЧП; Фляйсс, Дж.Л. (1979). «Внутриклассовые корреляции: использование при оценке надежности оценщика». Психологический вестник . 86 (2): 420–428. дои : 10.1037/0033-2909.86.2.420. PMID  18839484. S2CID  13168820.
  13. ^ Эверитт, Б.С. (1996). Осмысление статистики в психологии: Курс второго уровня . Издательство Оксфордского университета. ISBN 978-0-19-852365-9.
  14. ^ Аб Ладбрук, Дж. (2010). Доверие к графикам Альтмана-Бланда: критический обзор метода различий. Клиническая и экспериментальная фармакология и физиология, 37 (2), 143-149.
  15. ^ Аб Бланд, Дж. М., и Альтман, Д. (1986). Статистические методы оценки согласия между двумя методами клинических измерений. Ланцет, 327 (8476), 307–310.
  16. ^ Криппендорф, Клаус (2018). Контент-анализ: введение в его методологию (4-е изд.). Лос-Анджелес. ISBN 9781506395661. ОСЛК  1019840156.{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  17. ^ Хейс, А.Ф.; Криппендорф, К. (2007). «Отвечая на призыв к стандартным мерам надежности кодирования данных». Методы и меры коммуникации . 1 (1): 77–89. дои : 10.1080/19312450709336664. S2CID  15408575.

дальнейшее чтение

Внешние ссылки