stringtranslate.com

Каппа Коэна

Коэффициент каппа Коэна ( κ , строчная греческая каппа ) — это статистика , которая используется для измерения межэкспертной надежности (а также внутриэкспертной надежности ) для качественных (категориальных) элементов. [1] Обычно считается, что это более надежная мера, чем простой расчет процента согласия, поскольку κ учитывает возможность случайного возникновения согласия. Вокруг каппы Коэна существуют разногласия из-за сложности интерпретации показателей согласия. Некоторые исследователи предположили, что концептуально проще оценить разногласия между элементами. [2]

История

Первое упоминание о каппаподобной статистике принадлежит Гальтону в 1892 году. [3] [4]

Основополагающая статья, представляющая каппу как новую технику, была опубликована Джейкобом Коэном в журнале « Образовательные и психологические измерения» в 1960 году. [5]

Определение

Каппа Коэна измеряет согласие между двумя оценщиками, каждый из которых классифицирует N элементов в C взаимоисключающих категорий. Определение _

где p o — относительное наблюдаемое согласие между оценщиками, а p e — гипотетическая вероятность случайного согласия, используя наблюдаемые данные для расчета вероятностей того, что каждый наблюдатель случайно увидит каждую категорию. Если оценщики полностью согласны, то . Если между оценщиками нет согласия, кроме того, которое можно было бы ожидать случайно (как указано в p e ), . Статистика может быть отрицательной [6] , что может произойти случайно, если между рейтингами двух оценщиков нет связи, или это может отражать реальную тенденцию оценщиков давать разные оценки.

Для k категорий, N наблюдений для классификации и количество раз, когда оценщик i предсказал категорию k :

Это получается из следующей конструкции:

Где - предполагаемая вероятность того, что и оценщик 1, и оценщик 2 классифицируют один и тот же элемент как k, а - оценочная вероятность того, что оценщик 1 классифицирует элемент как k (и аналогично для оценщика 2). Соотношение основано на предположении, что рейтинги двух оценщиков независимы . Срок оценивается путем деления числа элементов, классифицированных как k оценщиком 1 ( ), на общее количество классифицируемых элементов ( ): (и аналогично для оценщика 2).

Матрица путаницы двоичной классификации

В традиционной матрице путаницы 2 × 2 , используемой в машинном обучении и статистике для оценки двоичных классификаций , формула Каппа Коэна может быть записана как: [7]

где TP — истинные положительные результаты, FP — ложные положительные результаты, TN — истинные отрицательные результаты, а FN — ложные отрицательные результаты. В этом случае каппа Коэна эквивалентна показателю навыков Хайдке, известному в метеорологии . [8] Впервые эта мера была введена Мириком Хаскеллом Дулитлом в 1888 году. [9]

Примеры

Простой пример

Предположим, вы анализировали данные, относящиеся к группе из 50 человек, подавших заявки на грант. Каждое предложение о гранте было прочитано двумя читателями, и каждый читатель сказал либо «Да», либо «Нет» на предложение. Предположим, что данные подсчета разногласий были следующими: где A и B — читатели, данные на главной диагонали матрицы (a и d) подсчитывают количество согласований, а внедиагональные данные (b и c) подсчитывают количество разногласий:

например

Наблюдаемое пропорциональное согласие таково:

Чтобы вычислить p e (вероятность случайного согласия), отметим, что:

Таким образом, ожидаемая вероятность того, что оба наугад скажут «да», равна:

Сходным образом:

Общая вероятность случайного согласия — это вероятность того, что они согласились либо «Да», либо «Нет», т. е.:

Итак, теперь, применяя нашу формулу для каппы Коэна, мы получаем:

Те же проценты, но разные цифры

Случай, который иногда считается проблемой с каппа Коэна, возникает при сравнении каппа, рассчитанного для двух пар оценщиков, с двумя оценщиками в каждой паре, имеющими одинаковое процентное согласие, но одна пара дает одинаковое количество оценок в каждом классе, в то время как другая пара дают очень разное количество оценок в каждом классе. [10] (В приведенных ниже случаях уведомление B имеет 70 «да» и 30 «нет» в первом случае, но во втором эти числа меняются местами.) Например, в следующих двух случаях существует равное согласие между A и B ( 60 из 100 в обоих случаях) с точки зрения согласия в каждом классе, поэтому мы ожидаем, что относительные значения каппы Коэна отразят это. Однако вычисление каппы Коэна для каждого:

мы обнаруживаем, что во втором случае наблюдается большее сходство между А и В по сравнению с первым. Это связано с тем, что, хотя процентное согласие одинаково, процентное совпадение, которое могло бы произойти «случайно», в первом случае значительно выше (0,54 по сравнению с 0,46).

Характеристики

Проверка гипотез и доверительный интервал

Значение P для каппа сообщается редко, вероятно, потому, что даже относительно низкие значения каппа, тем не менее, могут значительно отличаться от нуля, но не иметь достаточной величины, чтобы удовлетворить исследователей. [11] : 66  Тем не менее, его стандартная ошибка была описана [12] и вычисляется с помощью различных компьютерных программ. [13]

Доверительные интервалы для Каппа можно построить для ожидаемых значений Каппа, если бы мы проверили бесконечное количество элементов, используя следующую формулу: [1]

Где находится стандартный нормальный процентиль , когда и

Это рассчитывается путем игнорирования того, что p e оценивается на основе данных, и рассмотрения p o как оцененной вероятности биномиального распределения с использованием асимптотической нормальности (т. е.: предполагая, что количество элементов велико и что p o не близко к либо 0, либо 1). (и CI в целом) также можно оценить с помощью методов начальной загрузки .

Интерпретация величины

Каппа (вертикальная ось) и точность (горизонтальная ось) рассчитаны на основе одних и тех же смоделированных двоичных данных. Каждая точка на графике рассчитывается на основе пар судей, случайным образом оценивающих 10 субъектов на наличие диагноза X или нет. Обратите внимание, что в этом примере Каппа=0 примерно эквивалентна точности=0,5.

Если статистическая значимость не является полезным ориентиром, какая величина каппа отражает адекватное согласие? Руководящие принципы были бы полезны, но на их величину могут влиять и другие факторы, помимо согласия, что делает интерпретацию данной величины проблематичной. Как отметили Сим и Райт, двумя важными факторами являются распространенность (равновероятны ли коды или их вероятности различаются) и систематическая ошибка (являются ли предельные вероятности для двух наблюдателей одинаковыми или разными). При прочих равных условиях каппа выше, когда коды равновероятны. С другой стороны, каппы выше, когда коды распределяются двумя наблюдателями асимметрично. В отличие от изменений вероятности, эффект систематической ошибки сильнее, когда Каппа мала, чем когда она велика. [14] : 261–262. 

Еще одним фактором является количество кодов. По мере увеличения количества кодов каппы становятся выше. На основе моделирования Бэйкман и его коллеги пришли к выводу, что для склонных к ошибкам наблюдателей значения каппа были ниже, когда кодов было меньше. И, в соответствии с заявлением Сима и Райтс о распространенности, каппы были выше, когда коды были примерно равновероятными. Таким образом, Бэйкман и др. пришел к выводу, что «ни одно значение каппы не может считаться универсально приемлемым». [15] : 357  Они также предоставляют компьютерную программу, которая позволяет пользователям вычислять значения каппы, указывая количество кодов, их вероятность и точность наблюдателя. Например, для данных равновероятных кодов и наблюдателей с точностью 85% значение каппа составляет 0,49, 0,60, 0,66 и 0,69 при количестве кодов 2, 3, 5 и 10 соответственно.

Тем не менее, в литературе появились рекомендации по величине. Вероятно, первыми были Ландис и Кох [16] , которые охарактеризовали значения <0 как указывающие на отсутствие согласия, 0–0,20 как незначительное, 0,21–0,40 как удовлетворительное, 0,41–0,60 как умеренное, 0,61–0,80 как существенное и 0,81–1 как почти идеальное согласие. Однако этот набор руководящих принципов ни в коем случае не является общепринятым; Лэндис и Кох не предоставили никаких доказательств в поддержку этого, вместо этого основываясь на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными. [17] Фляйсс [18] : 218  одинаково произвольных рекомендаций характеризуют каппу выше 0,75 как отличную, от 0,40 до 0,75 как от удовлетворительной до хорошей, а ниже 0,40 как плохую.

Каппа максимум

Каппа принимает свое теоретическое максимальное значение, равное 1, только тогда, когда оба наблюдателя одинаково распределяют коды, то есть когда соответствующие суммы строк и столбцов идентичны. Все, что меньше, — это меньше, чем идеальное согласие. Тем не менее, максимальное значение каппа, которое может быть достигнуто при неравных распределениях, помогает интерпретировать фактически полученное значение каппа. Уравнение для максимума κ : [19]

где , как обычно, ,

k  = количество кодов, – вероятности строк, – вероятности столбцов.

Ограничения

Каппа — это индекс, который учитывает наблюдаемое согласие по отношению к базовому соглашению. Однако исследователи должны тщательно рассмотреть, применимо ли базовое соглашение Каппы к конкретному вопросу исследования. Базовую линию Каппы часто называют совпадением случайно, что верно лишь отчасти. Базовое соглашение Каппы — это соглашение, которого можно было бы ожидать из-за случайного распределения, учитывая количества, указанные в предельных суммах квадратной таблицы непредвиденных обстоятельств. Таким образом, κ = 0, когда наблюдаемое распределение является явно случайным, независимо от количественного расхождения, ограниченного маргинальными итогами. Однако во многих случаях исследователей должно больше интересовать количественное расхождение в предельных итогах, чем расхождение в распределении, описываемое дополнительной информацией на диагонали квадратной таблицы непредвиденных обстоятельств. Таким образом, для многих приложений базовая линия Каппы скорее отвлекает, чем проясняет. Рассмотрим следующий пример:

Пример каппы

Пропорция несогласия составляет 14/16 или 0,875. Разногласия возникают из-за количества, поскольку распределение оптимально. κ составляет 0,01.

Пропорция несогласия составляет 2/16 или 0,125. Разногласия возникают из-за распределения, поскольку количества идентичны. Каппа равна -0,07.

Здесь сообщение о разногласиях в количестве и распределении является информативным, в то время как Каппа скрывает информацию. Более того, каппа создает некоторые проблемы при расчете и интерпретации, поскольку каппа — это соотношение. Отношение Каппы может возвращать неопределенное значение из-за нуля в знаменателе. Более того, соотношение не раскрывает ни числитель, ни знаменатель. Для исследователей более информативно сообщать о разногласиях по двум компонентам: количеству и распределению. Эти два компонента описывают взаимосвязь между категориями более четко, чем одна сводная статистика. Когда целью является точность прогнозирования, исследователям будет легче начать думать о способах улучшения прогноза, используя два компонента количества и распределения, а не одно соотношение каппа. [2]

Некоторые исследователи выразили обеспокоенность по поводу склонности κ принимать частоты наблюдаемых категорий как данность, что может сделать его ненадежным для измерения согласия в таких ситуациях, как диагностика редких заболеваний. В таких ситуациях κ имеет тенденцию недооценивать согласие по поводу редкой категории. [20] По этой причине κ считается слишком консервативной мерой согласия. [21] Другие [22] [ нужна ссылка ] оспаривают утверждение, что каппа «принимает во внимание» случайное соглашение. Чтобы сделать это эффективно, потребуется точная модель того, как случайность влияет на решения оценщиков. Так называемая случайная корректировка статистики каппа предполагает, что, если нет полной уверенности, оценщики просто предполагают — очень нереалистичный сценарий. Более того, в некоторых работах [23] показано, как каппа-статистика может привести к неверным выводам для несбалансированных данных.

Связанная статистика

Пи Скотта

Похожая статистика, названная «пи », была предложена Скоттом (1955). Каппа Коэна и пи Скотта различаются способом расчета p e .

Каппа Флейса

Обратите внимание, что каппа Коэна измеряет согласие только между двумя оценщиками. Аналогичную меру согласия ( каппа Флейса ), используемую при наличии более двух оценщиков, см. в Fleiss (1971). Каппа Флейса, однако, представляет собой многооценочное обобщение статистики Пи Скотта , а не каппы Коэна. Каппа также используется для сравнения производительности в машинном обучении , но считается, что направленная версия, известная как информированность или статистика Юдена J, более подходит для обучения с учителем. [24]

Взвешенная каппа

Взвешенная каппа позволяет по-разному взвешивать разногласия [25] и особенно полезна при упорядочении кодов. [11] : 66  Используются три матрицы: матрица наблюдаемых оценок, матрица ожидаемых оценок, основанная на случайном согласии, и матрица весов. Ячейки матрицы весов, расположенные по диагонали (от верхнего левого угла до нижнего правого), представляют согласие и, следовательно, содержат нули. Недиагональные ячейки содержат веса, указывающие на серьезность этого несогласия. Часто ячейкам, расположенным одна за пределами диагонали, присваивается вес 1, двум — 2 и т. д.

Уравнение для взвешенного κ:

где k = количество кодов и , , и – элементы весовой, наблюдаемой и ожидаемой матриц соответственно. Когда диагональные ячейки содержат веса 0, а веса всех недиагональных ячеек — 1, эта формула дает то же значение каппа, что и расчет, приведенный выше.

Смотрите также

дальнейшее чтение

Внешние ссылки

Рекомендации

  1. ^ Аб МакХью, Мэри Л. (2012). «Надежность межоценщика: статистика каппа». Биохимия медика . 22 (3): 276–282. дои : 10.11613/bm.2012.031. ПМК 3900052 . ПМИД  23092060. 
  2. ^ аб Понтий, Роберт; Миллонес, Марко (2011). «Смерть Каппы: рождение разногласий по количеству и разногласий по распределению для оценки точности». Международный журнал дистанционного зондирования . 32 (15): 4407–4429. Бибкод : 2011IJRS...32.4407P. дои : 10.1080/01431161.2011.552923. S2CID  62883674.
  3. ^ Гальтон, Ф. (1892) Отпечатки пальцев Макмиллан, Лондон.
  4. ^ Смитон, Северная Каролина (1985). «Ранняя история статистики Каппа». Биометрия . 41 (3): 795. JSTOR  2531300.
  5. ^ Коэн, Джейкоб (1960). «Коэффициент согласия для номинальных шкал». Образовательные и психологические измерения . 20 (1): 37–46. дои : 10.1177/001316446002000104. HDL : 1942/28116 . S2CID  15926286.
  6. ^ Сим, Юлиус; Райт, Крис С. (2005). «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки». Физиотерапия . 85 (3): 257–268. дои : 10.1093/ptj/85.3.257 . ISSN  1538-6724. ПМИД  15733050.
  7. ^ Чикко Д.; Уорренс М.Дж.; Юрман Г. (июнь 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более информативен, чем показатель Каппы и Брайера Коэна при оценке бинарной классификации». Доступ IEEE . 9 : 78368–78381. doi : 10.1109/ACCESS.2021.3084050 . hdl : 10281/430460 .
  8. ^ Хайдке, П. (1 декабря 1926). «Berechnung Des Erfolges Und Der Güte Der Windstärkevorhersagen Im Sturmwarnungsdienst». Географический Анналер . 8 (4): 301–349. дои : 10.1080/20014422.1926.11881138. ISSN  2001-4422.
  9. ^ Философское общество Вашингтона (Вашингтон, округ Колумбия) (1887). Бюллетень Философского общества Вашингтона. Том. 10. Вашингтон, округ Колумбия: Опубликовано при сотрудничестве Смитсоновского института. п. 83.
  10. ^ Килем Гвет (май 2002 г.). «Надежность между экспертами: зависимость от распространенности признаков и предельной однородности» (PDF) . Статистические методы межэкспертной оценки надежности . 2 : 1–10. Архивировано из оригинала (PDF) 7 июля 2011 г. Проверено 2 февраля 2011 г.
  11. ^ аб Бэйкман, Р.; Готтман, Дж. М. (1997). Наблюдение за взаимодействием: введение в последовательный анализ (2-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-521-27593-4.
  12. ^ Фляйсс, Дж.Л.; Коэн, Дж.; Эверитт, бакалавр наук (1969). «Большая выборка стандартных ошибок каппы и взвешенная каппа». Психологический вестник . 72 (5): 323–327. дои : 10.1037/h0028106.
  13. ^ Робинсон, Б.Ф.; Бейкман, Р. (1998). «ComKappa: программа для Windows 95 для расчета каппы и соответствующей статистики». Методы, инструменты и компьютеры исследования поведения . 30 (4): 731–732. дои : 10.3758/BF03209495 .
  14. ^ Сим, Дж; Райт, CC (2005). «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки». Физиотерапия . 85 (3): 257–268. дои : 10.1093/ptj/85.3.257 . ПМИД  15733050.
  15. ^ Бэйкман, Р.; Кера, В.; Макартур, Д.; Робинсон, БФ (1997). «Обнаружение последовательных закономерностей и определение их надежности с помощью ошибочных наблюдателей». Психологические методы . 2 (4): 357–370. дои : 10.1037/1082-989X.2.4.357.
  16. ^ Лэндис, младший; Кох, Г.Г. (1977). «Измерение согласия наблюдателя для категориальных данных». Биометрия . 33 (1): 159–174. дои : 10.2307/2529310. JSTOR  2529310. PMID  843571. S2CID  11077516.
  17. ^ Гвет, К. (2010). «Справочник по надежности между экспертами (второе издание)» ISBN 978-0-9708062-2-2 [ нужна страница ] 
  18. ^ Фляйсс, JL (1981). Статистические методы определения ставок и пропорций (2-е изд.). Нью-Йорк: Джон Уайли. ISBN 978-0-471-26370-8.
  19. ^ Умеш, ООН; Петерсон, РА; Заубер МХ (1989). «Межсудейское соглашение и максимальное значение каппы». Образовательные и психологические измерения . 49 (4): 835–850. дои : 10.1177/001316448904900407. S2CID  123306239.
  20. ^ Виера, Энтони Дж.; Гаррет, Джоан М. (2005). «Понимание соглашения между наблюдателями: статистика каппы». Семейная медицина . 37 (5): 360–363. ПМИД  15883903.
  21. ^ Стрийбос, Дж.; Мартенс, Р.; Принс, Ф.; Йохемс, В. (2006). «Контент-анализ: о чем они говорят?». Компьютеры и образование . 46 : 29–48. CiteSeerX 10.1.1.397.5780 . doi :10.1016/j.compedu.2005.04.002. S2CID  14183447. 
  22. ^ Юберсакс, Дж.С. (1987). «Разнообразие моделей принятия решений и измерение согласия между экспертами» (PDF) . Психологический вестник . 101 : 140–146. CiteSeerX 10.1.1.498.4965 . дои : 10.1037/0033-2909.101.1.140. S2CID  39240770. Архивировано из оригинала (PDF) 3 марта 2016 г. Проверено 16 октября 2010 г. 
  23. ^ Дельгадо, Росарио; Тибау, Ксавье-Андони (26 сентября 2019 г.). «Почему следует избегать каппы Коэна как показателя эффективности в классификации». ПЛОС ОДИН . 14 (9): e0222916. Бибкод : 2019PLoSO..1422916D. дои : 10.1371/journal.pone.0222916 . ISSN  1932-6203. ПМК 6762152 . ПМИД  31557204. 
  24. ^ Пауэрс, Дэвид М.В. (2012). «Проблема с Каппой» (PDF) . Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP . Архивировано из оригинала (PDF) 18 мая 2016 г. Проверено 20 июля 2012 г.
  25. ^ Коэн, Дж. (1968). «Взвешенная каппа: соглашение по номинальной шкале с учетом несогласия по шкале или частичного кредита». Психологический вестник . 70 (4): 213–220. дои : 10.1037/h0026256. ПМИД  19673146.