stringtranslate.com

Надежность оценок разных экспертов

В статистике межэкспертная надежность (также известная под разными похожими названиями, такими как межэкспертное согласие , межэкспертное согласование , межнаблюдательная надежность , межкодирующая надежность и т. д.) — это степень согласия среди независимых наблюдателей, которые оценивают, кодируют или определяют одно и то же явление.

Инструменты оценки, основанные на рейтингах, должны демонстрировать высокую межэкспертную надежность, в противном случае они не являются валидными тестами .

Существует ряд статистик, которые можно использовать для определения межэкспертной надежности. Различные статистики подходят для разных типов измерений. Некоторые варианты — это совместная вероятность согласия, например каппа Коэна , пи Скотта и каппа Флейсса ; или межэкспертная корреляция, коэффициент корреляции конкордации , внутриклассовая корреляция и альфа Криппендорфа .

Концепция

Существует несколько рабочих определений термина «межэкспертная надежность», отражающих различные точки зрения на то, что является надежным соглашением между оценщиками. [1] Существует три рабочих определения соглашения:

  1. Надежные оценщики соглашаются с «официальной» оценкой выступления.
  2. Надежные оценщики договариваются друг с другом о точных оценках, которые следует присуждать.
  3. Надежные оценщики сходятся во мнении, какие показатели лучше, а какие хуже.

Они сочетаются с двумя операциональными определениями поведения:

  1. Надежные оценщики — это автоматы, ведущие себя как «оценочные машины». Эта категория включает в себя оценку эссе компьютером [2] Это поведение можно оценить с помощью теории обобщаемости .
  2. Надежные оценщики ведут себя как независимые свидетели. Они демонстрируют свою независимость, слегка не соглашаясь. Такое поведение можно оценить с помощью модели Раша .

Статистика

Совместная вероятность соглашения

Совместная вероятность согласия является самой простой и наименее надежной мерой. Она оценивается как процент времени, когда оценщики соглашаются в номинальной или категориальной рейтинговой системе. Она не принимает во внимание тот факт, что согласие может произойти исключительно на основе случайности. Есть некоторые сомнения относительно того, есть ли необходимость «корректировать» случайное согласие; некоторые предполагают, что в любом случае любая такая корректировка должна основываться на явной модели того, как случайность и ошибка влияют на решения оценщиков. [3]

Когда число используемых категорий невелико (например, 2 или 3), вероятность того, что 2 оценщика согласятся по чистой случайности, резко возрастает. Это происходит потому, что оба оценщика должны ограничиться ограниченным числом доступных вариантов, что влияет на общий уровень согласия, а не обязательно на их склонность к «внутреннему» согласию (соглашение считается «внутренним», если оно не является случайным).

Таким образом, совместная вероятность согласия останется высокой даже при отсутствии какого-либо «внутреннего» согласия среди оценщиков. Ожидается, что полезный коэффициент межэкспертной надежности (a) будет близок к 0, когда нет «внутреннего» согласия, и (b) будет увеличиваться по мере улучшения «внутреннего» уровня согласия. Большинство коэффициентов согласия с поправкой на случайность достигают первой цели. Однако вторая цель не достигается многими известными мерами с поправкой на случайность. [4]

Статистика Каппы

Четыре набора рекомендаций по интерпретации уровня межэкспертного согласия

Каппа — это способ измерения согласия или надежности, корректирующий то, как часто оценки могут совпадать случайно. Каппа Коэна [5] , которая работает для двух оценщиков, и каппа Флейсса [6], адаптация, которая работает для любого фиксированного числа оценщиков, улучшают совместную вероятность тем, что они учитывают количество согласия, которое можно было бы ожидать в результате случайности. Первоначальные версии имели ту же проблему, что и совместная вероятность, в том, что они рассматривают данные как номинальные и предполагают, что оценки не имеют естественного порядка; если данные на самом деле имеют ранг (порядковый уровень измерения), то эта информация не полностью учитывается в измерениях.

Более поздние расширения подхода включали версии, которые могли обрабатывать «частичные кредиты» и порядковые шкалы. [7] Эти расширения сходятся с семейством внутриклассовых корреляций (ICC), поэтому существует концептуально связанный способ оценки надежности для каждого уровня измерения от номинального (каппа) до порядкового (порядковая каппа или ICC — растягивающие предположения) до интервального (ICC или порядковая каппа — рассматривая интервальную шкалу как порядковую) и отношения (ICC). Существуют также варианты, которые могут рассматривать согласие оценщиков по набору пунктов (например, согласны ли два интервьюера относительно баллов депрессии по всем пунктам в одном и том же полуструктурированном интервью для одного случая?), а также оценщики x случаи (например, насколько хорошо два или более оценщиков согласны относительно того, имеют ли 30 случаев диагноз депрессии, да/нет — номинальная переменная).

Каппа похожа на коэффициент корреляции в том, что она не может быть выше +1,0 или ниже -1,0. Поскольку она используется как мера согласия, в большинстве ситуаций можно ожидать только положительных значений; отрицательные значения будут указывать на систематическое несогласие. Каппа может достигать очень высоких значений только тогда, когда и согласие хорошее, и уровень целевого состояния близок к 50% (потому что он включает базовый уровень в расчет совместных вероятностей). Несколько авторитетов предложили «правила большого пальца» для интерпретации уровня согласия, многие из которых согласны по сути, даже если слова не идентичны. [8] [9] [10] [11]

Коэффициенты корреляции

Для измерения парной корреляции между оценщиками с использованием упорядоченной шкалы можно использовать либо τ Пирсона , либо τ Кендалла , либо τ Спирмена . Пирсон предполагает, что шкала оценок непрерывна; статистики Кендалла и Спирмена предполагают только, что она порядковая. Если наблюдается более двух оценщиков, средний уровень согласия для группы можно рассчитать как среднее значение , τ или значений для каждой возможной пары оценщиков.

Коэффициент внутриклассовой корреляции

Другой способ проверки надежности — использовать коэффициент внутриклассовой корреляции (ICC). [12] Существует несколько его типов, и один из них определяется как «доля дисперсии наблюдения, обусловленная межсубъектной изменчивостью в истинных оценках». [13] Диапазон ICC может быть от 0,0 до 1,0 (раннее определение ICC могло быть от −1 до +1). ICC будет высоким, когда существует небольшая вариация между оценками, данными каждому пункту оценщиками, например, если все оценщики дают одинаковые или близкие оценки каждому из пунктов. ICC является улучшением по сравнению с коэффициентами Пирсона и Спирмена , поскольку он учитывает различия в оценках для отдельных сегментов, а также корреляцию между оценщиками.

Пределы соглашения

График Бланда-Альтмана

Другой подход к согласию (полезный, когда есть только два оценщика и шкала непрерывна) заключается в вычислении различий между каждой парой наблюдений двух оценщиков. Среднее значение этих различий называется смещением , а референтный интервал (среднее значение ± 1,96 ×  стандартное отклонение ) называется пределами согласия . Пределы согласия дают представление о том, насколько случайные вариации могут влиять на оценки.

Если оценщики склонны соглашаться, то различия между наблюдениями оценщиков будут близки к нулю. Если один оценщик обычно выше или ниже другого на постоянную величину, смещение будет отличаться от нуля. Если оценщики склонны не соглашаться, но без последовательной модели, когда один рейтинг выше другого, то среднее значение будет близко к нулю. Пределы достоверности (обычно 95%) можно рассчитать как для смещения, так и для каждого из пределов согласия.

Существует несколько формул, которые можно использовать для расчета пределов согласия. Простая формула, которая была дана в предыдущем абзаце и хорошо работает для выборки размером более 60, [14] выглядит так:

Для выборок меньшего размера другим распространенным упрощением [15] является

Однако наиболее точной формулой (применимой для всех размеров выборки) [14] является

Бланд и Альтман [15] расширили эту идею, изобразив разницу каждой точки, среднюю разницу и пределы согласия по вертикали против среднего значения двух оценок по горизонтали. Полученный график Бланда–Альтмана демонстрирует не только общую степень согласия, но и то, связано ли согласие с базовой стоимостью элемента. Например, два оценщика могут близко согласиться в оценке размера мелких элементов, но не согласиться относительно более крупных элементов.

При сравнении двух методов измерения не только интересно оценить как смещение , так и пределы согласия между двумя методами (межэкспертное согласие), но и оценить эти характеристики для каждого метода в отдельности. Вполне может быть, что согласие между двумя методами плохое просто потому, что один из методов имеет широкие пределы согласия , а другой — узкие. В этом случае метод с узкими пределами согласия будет лучше со статистической точки зрения, в то время как практические или иные соображения могут изменить эту оценку. Что составляет узкие или широкие пределы согласия или большое или малое смещение, является вопросом практической оценки в каждом случае.

альфа Криппендорфа

Альфа Криппендорфа [16] [17] — это универсальная статистика, которая оценивает согласие, достигнутое среди наблюдателей, которые классифицируют, оценивают или измеряют заданный набор объектов с точки зрения значений переменной. Она обобщает несколько специализированных коэффициентов согласия, принимая любое количество наблюдателей, будучи применимой к номинальным, порядковым, интервальным и относительным уровням измерения, будучи способной обрабатывать отсутствующие данные и корректируясь для небольших размеров выборки.

Альфа появилась в контент-анализе, где текстовые единицы классифицируются обученными кодировщиками, и используется в консультационных и опросных исследованиях , где эксперты кодируют открытые данные интервью в анализируемые термины, в психометрии , где отдельные атрибуты проверяются несколькими методами, в наблюдательных исследованиях , где неструктурированные события регистрируются для последующего анализа, и в компьютерной лингвистике , где тексты аннотируются по различным синтаксическим и семантическим качествам.

Несогласие

Для любой задачи, в которой полезны несколько оценщиков, ожидается, что оценщики не будут соглашаться относительно наблюдаемой цели. Напротив, ситуации, включающие недвусмысленные измерения, такие как простые задачи подсчета (например, количество потенциальных клиентов, входящих в магазин), часто не требуют, чтобы измерение выполнял более одного человека.

Измерение, включающее неоднозначность характеристик интереса в целевой оценке, обычно улучшается с несколькими обученными оценщиками. Такие измерительные задачи часто включают субъективную оценку качества. Примерами служат оценки «манеры у постели больного» врача, оценка достоверности свидетелей присяжными и презентационные навыки оратора.

Различия между оценщиками в процедурах измерения и различия в интерпретации результатов измерения являются двумя примерами источников дисперсии ошибок в измерениях рейтинга. Четко сформулированные руководящие принципы для представления рейтингов необходимы для надежности в неоднозначных или сложных сценариях измерения.

Без руководств по подсчету оценок рейтинги все больше подвержены влиянию предвзятости экспериментатора , то есть тенденции значений рейтинга дрейфовать в сторону того, что ожидает оценщик. Во время процессов, включающих повторные измерения, коррекция дрейфа оценщика может быть выполнена путем периодического переобучения, чтобы гарантировать, что оценщики понимают руководящие принципы и цели измерения.

Смотрите также

Ссылки

  1. ^ Saal, FE; Downey, RG; Lahey, MA (1980). «Оценка оценок: оценка психометрического качества рейтинговых данных». Psychological Bulletin . 88 (2): 413. doi :10.1037/0033-2909.88.2.413.
  2. ^ Пейдж, ЭБ; Петерсен, Н.С. (1995). «Компьютер переходит к оценке эссе: обновление древнего теста». Phi Delta Kappan . 76 (7): 561.
  3. ^ Uebersax, JS (1987). «Разнообразие моделей принятия решений и измерение межличностного согласия». Psychological Bulletin . 101 (1): 140–146. doi :10.1037/0033-2909.101.1.140. S2CID  39240770.
  4. ^ «Коррекция межэкспертной надежности для случайного согласия: почему?». www.agreestat.com . Архивировано из оригинала 2018-04-02 . Получено 2018-12-26 .
  5. ^ Коэн, Дж. (1960). «Коэффициент согласия для номинальных шкал» (PDF) . Образовательные и психологические измерения . 20 (1): 37–46. doi :10.1177/001316446002000104. S2CID  15926286.
  6. ^ Флейсс, Дж. Л. (1971). «Измерение номинальной шкальной согласованности среди многих оценщиков». Психологический вестник . 76 (5): 378–382. doi :10.1037/h0031619.
  7. ^ Лэндис, Дж. Ричард; Кох, Гэри Г. (1977). «Измерение согласия наблюдателя для категориальных данных». Биометрия . 33 (1): 159–74. doi :10.2307/2529310. JSTOR  2529310. PMID  843571. S2CID  11077516.
  8. ^ Лэндис, Дж. Ричард; Кох, Гэри Г. (1977). «Применение иерархической статистики типа Каппа при оценке согласия большинства среди нескольких наблюдателей». Биометрия . 33 (2): 363–74. doi :10.2307/2529786. JSTOR  2529786. PMID  884196.
  9. ^ Cicchetti, DV; Sparrow, SA (1981). «Разработка критериев для установления межэкспертной надежности конкретных пунктов: применение к оценке адаптивного поведения». American Journal of Mental Deficiency . 86 (2): 127–137. PMID  7315877.
  10. ^ Fleiss, JL (1981-04-21). Статистические методы для скоростей и пропорций. 2-е изд . Wiley. ISBN 0-471-06428-9. OCLC  926949980.
  11. ^ Regier, Darrel A.; Narrow, William E.; Clarke, Diana E.; Kraemer, Helena C.; Kuramoto, S. Janet; Kuhl, Emily A.; Kupfer, David J. (2013). «Полевые испытания DSM-5 в Соединенных Штатах и ​​Канаде, часть II: надежность повторного тестирования отдельных категориальных диагнозов». American Journal of Psychiatry . 170 (1): 59–70. doi :10.1176/appi.ajp.2012.12070999. ISSN  0002-953X. PMID  23111466.
  12. ^ Shrout, PE; Fleiss, JL (1979). «Внутриклассовые корреляции: использование при оценке надежности оценщиков». Psychological Bulletin . 86 (2): 420–428. doi :10.1037/0033-2909.86.2.420. PMID  18839484. S2CID  13168820.
  13. ^ Эверитт, Б.С. (1996). Ощущение статистики в психологии: курс второго уровня . Oxford University Press. ISBN 978-0-19-852365-9.
  14. ^ ab Ludbrook, J. (2010). Уверенность в графиках Альтмана–Бланда: критический обзор метода различий. Клиническая и экспериментальная фармакология и физиология, 37 (2), 143-149.
  15. ^ ab Bland, JM, & Altman, D. (1986). Статистические методы оценки согласия между двумя методами клинических измерений. The Lancet, 327 (8476), 307-310.
  16. ^ Криппендорф, Клаус (2018). Анализ контента: введение в его методологию (4-е изд.). Лос-Анджелес. ISBN 9781506395661. OCLC  1019840156.{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  17. ^ Хейс, А. Ф.; Криппендорф, К. (2007). «Отвечая на призыв к стандартной мере надежности для кодирования данных». Методы и меры связи . 1 (1): 77–89. doi :10.1080/19312450709336664. S2CID  15408575.

Дальнейшее чтение

Внешние ссылки