Коэффициент каппа Коэна ( κ , строчная греческая каппа ) — это статистика , которая используется для измерения межэкспертной надежности (а также внутриэкспертной надежности ) для качественных (категориальных) элементов. [1] Обычно считается, что это более надежная мера, чем простой расчет процента согласия, поскольку κ учитывает возможность случайного возникновения согласия. Вокруг каппы Коэна существуют разногласия из-за сложности интерпретации показателей согласия. Некоторые исследователи предположили, что концептуально проще оценить разногласия между элементами. [2]
Первое упоминание о каппаподобной статистике принадлежит Гальтону в 1892 году. [3] [4]
Основополагающая статья, представляющая каппу как новую технику, была опубликована Джейкобом Коэном в журнале « Образовательные и психологические измерения» в 1960 году. [5]
Каппа Коэна измеряет согласие между двумя оценщиками, каждый из которых классифицирует N элементов в C взаимоисключающих категорий. Определение _
где p o — относительное наблюдаемое согласие между оценщиками, а p e — гипотетическая вероятность случайного согласия, используя наблюдаемые данные для расчета вероятностей того, что каждый наблюдатель случайно увидит каждую категорию. Если оценщики полностью согласны, то . Если между оценщиками нет согласия, кроме того, которое можно было бы ожидать случайно (как указано в p e ), . Статистика может быть отрицательной [6] , что может произойти случайно, если между рейтингами двух оценщиков нет связи, или это может отражать реальную тенденцию оценщиков давать разные оценки.
Для k категорий, N наблюдений для классификации и количество раз, когда оценщик i предсказал категорию k :
Это получается из следующей конструкции:
Где - предполагаемая вероятность того, что и оценщик 1, и оценщик 2 классифицируют один и тот же элемент как k, а - оценочная вероятность того, что оценщик 1 классифицирует элемент как k (и аналогично для оценщика 2). Соотношение основано на предположении, что рейтинги двух оценщиков независимы . Срок оценивается путем деления числа элементов, классифицированных как k оценщиком 1 ( ), на общее количество классифицируемых элементов ( ): (и аналогично для оценщика 2).
В традиционной матрице путаницы 2 × 2 , используемой в машинном обучении и статистике для оценки двоичных классификаций , формула Каппа Коэна может быть записана как: [7]
где TP — истинные положительные результаты, FP — ложные положительные результаты, TN — истинные отрицательные результаты, а FN — ложные отрицательные результаты. В этом случае каппа Коэна эквивалентна показателю навыков Хайдке, известному в метеорологии . [8] Впервые эта мера была введена Мириком Хаскеллом Дулитлом в 1888 году. [9]
Предположим, вы анализировали данные, относящиеся к группе из 50 человек, подавших заявки на грант. Каждое предложение о гранте было прочитано двумя читателями, и каждый читатель сказал либо «Да», либо «Нет» на предложение. Предположим, что данные подсчета разногласий были следующими: где A и B — читатели, данные на главной диагонали матрицы (a и d) подсчитывают количество согласований, а внедиагональные данные (b и c) подсчитывают количество разногласий:
например
Наблюдаемое пропорциональное согласие таково:
Чтобы вычислить p e (вероятность случайного согласия), отметим, что:
Таким образом, ожидаемая вероятность того, что оба наугад скажут «да», равна:
Сходным образом:
Общая вероятность случайного согласия — это вероятность того, что они согласились либо «Да», либо «Нет», т. е.:
Итак, теперь, применяя нашу формулу для каппы Коэна, мы получаем:
Случай, который иногда считается проблемой с каппа Коэна, возникает при сравнении каппа, рассчитанного для двух пар оценщиков, с двумя оценщиками в каждой паре, имеющими одинаковое процентное согласие, но одна пара дает одинаковое количество оценок в каждом классе, в то время как другая пара дают очень разное количество оценок в каждом классе. [10] (В приведенных ниже случаях уведомление B имеет 70 «да» и 30 «нет» в первом случае, но во втором эти числа меняются местами.) Например, в следующих двух случаях существует равное согласие между A и B ( 60 из 100 в обоих случаях) с точки зрения согласия в каждом классе, поэтому мы ожидаем, что относительные значения каппы Коэна отразят это. Однако вычисление каппы Коэна для каждого:
мы обнаруживаем, что во втором случае наблюдается большее сходство между А и В по сравнению с первым. Это связано с тем, что, хотя процентное согласие одинаково, процентное совпадение, которое могло бы произойти «случайно», в первом случае значительно выше (0,54 по сравнению с 0,46).
Значение P для каппа сообщается редко, вероятно, потому, что даже относительно низкие значения каппа, тем не менее, могут значительно отличаться от нуля, но не иметь достаточной величины, чтобы удовлетворить исследователей. [11] : 66 Тем не менее, его стандартная ошибка была описана [12] и вычисляется с помощью различных компьютерных программ. [13]
Доверительные интервалы для Каппа можно построить для ожидаемых значений Каппа, если бы мы проверили бесконечное количество элементов, используя следующую формулу: [1]
Где находится стандартный нормальный процентиль , когда и
Это рассчитывается путем игнорирования того, что p e оценивается на основе данных, и рассмотрения p o как оцененной вероятности биномиального распределения с использованием асимптотической нормальности (т. е.: предполагая, что количество элементов велико и что p o не близко к либо 0, либо 1). (и CI в целом) также можно оценить с помощью методов начальной загрузки .
Если статистическая значимость не является полезным ориентиром, какая величина каппа отражает адекватное согласие? Руководящие принципы были бы полезны, но на их величину могут влиять и другие факторы, помимо согласия, что делает интерпретацию данной величины проблематичной. Как отметили Сим и Райт, двумя важными факторами являются распространенность (равновероятны ли коды или их вероятности различаются) и систематическая ошибка (являются ли предельные вероятности для двух наблюдателей одинаковыми или разными). При прочих равных условиях каппа выше, когда коды равновероятны. С другой стороны, каппы выше, когда коды распределяются двумя наблюдателями асимметрично. В отличие от изменений вероятности, эффект систематической ошибки сильнее, когда Каппа мала, чем когда она велика. [14] : 261–262.
Еще одним фактором является количество кодов. По мере увеличения количества кодов каппы становятся выше. На основе моделирования Бэйкман и его коллеги пришли к выводу, что для склонных к ошибкам наблюдателей значения каппа были ниже, когда кодов было меньше. И, в соответствии с заявлением Сима и Райтс о распространенности, каппы были выше, когда коды были примерно равновероятными. Таким образом, Бэйкман и др. пришел к выводу, что «ни одно значение каппы не может считаться универсально приемлемым». [15] : 357 Они также предоставляют компьютерную программу, которая позволяет пользователям вычислять значения каппы, указывая количество кодов, их вероятность и точность наблюдателя. Например, для данных равновероятных кодов и наблюдателей с точностью 85% значение каппа составляет 0,49, 0,60, 0,66 и 0,69 при количестве кодов 2, 3, 5 и 10 соответственно.
Тем не менее, в литературе появились рекомендации по величине. Вероятно, первыми были Ландис и Кох [16] , которые охарактеризовали значения <0 как указывающие на отсутствие согласия, 0–0,20 как незначительное, 0,21–0,40 как удовлетворительное, 0,41–0,60 как умеренное, 0,61–0,80 как существенное и 0,81–1 как почти идеальное согласие. Однако этот набор руководящих принципов ни в коем случае не является общепринятым; Лэндис и Кох не предоставили никаких доказательств в поддержку этого, вместо этого основываясь на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными. [17] Фляйсс [18] : 218 одинаково произвольных рекомендаций характеризуют каппу выше 0,75 как отличную, от 0,40 до 0,75 как от удовлетворительной до хорошей, а ниже 0,40 как плохую.
Каппа принимает свое теоретическое максимальное значение, равное 1, только тогда, когда оба наблюдателя одинаково распределяют коды, то есть когда соответствующие суммы строк и столбцов идентичны. Все, что меньше, — это меньше, чем идеальное согласие. Тем не менее, максимальное значение каппа, которое может быть достигнуто при неравных распределениях, помогает интерпретировать фактически полученное значение каппа. Уравнение для максимума κ : [19]
где , как обычно, ,
k = количество кодов, – вероятности строк, – вероятности столбцов.
Каппа — это индекс, который учитывает наблюдаемое согласие по отношению к базовому соглашению. Однако исследователи должны тщательно рассмотреть, применимо ли базовое соглашение Каппы к конкретному вопросу исследования. Базовую линию Каппы часто называют совпадением случайно, что верно лишь отчасти. Базовое соглашение Каппы — это соглашение, которого можно было бы ожидать из-за случайного распределения, учитывая количества, указанные в предельных суммах квадратной таблицы непредвиденных обстоятельств. Таким образом, κ = 0, когда наблюдаемое распределение является явно случайным, независимо от количественного расхождения, ограниченного маргинальными итогами. Однако во многих случаях исследователей должно больше интересовать количественное расхождение в предельных итогах, чем расхождение в распределении, описываемое дополнительной информацией на диагонали квадратной таблицы непредвиденных обстоятельств. Таким образом, для многих приложений базовая линия Каппы скорее отвлекает, чем проясняет. Рассмотрим следующий пример:
Пропорция несогласия составляет 14/16 или 0,875. Разногласия возникают из-за количества, поскольку распределение оптимально. κ составляет 0,01.
Пропорция несогласия составляет 2/16 или 0,125. Разногласия возникают из-за распределения, поскольку количества идентичны. Каппа равна -0,07.
Здесь сообщение о разногласиях в количестве и распределении является информативным, в то время как Каппа скрывает информацию. Более того, каппа создает некоторые проблемы при расчете и интерпретации, поскольку каппа — это соотношение. Отношение Каппы может возвращать неопределенное значение из-за нуля в знаменателе. Более того, соотношение не раскрывает ни числитель, ни знаменатель. Для исследователей более информативно сообщать о разногласиях по двум компонентам: количеству и распределению. Эти два компонента описывают взаимосвязь между категориями более четко, чем одна сводная статистика. Когда целью является точность прогнозирования, исследователям будет легче начать думать о способах улучшения прогноза, используя два компонента количества и распределения, а не одно соотношение каппа. [2]
Некоторые исследователи выразили обеспокоенность по поводу склонности κ принимать частоты наблюдаемых категорий как данность, что может сделать его ненадежным для измерения согласия в таких ситуациях, как диагностика редких заболеваний. В таких ситуациях κ имеет тенденцию недооценивать согласие по поводу редкой категории. [20] По этой причине κ считается слишком консервативной мерой согласия. [21] Другие [22] [ нужна ссылка ] оспаривают утверждение, что каппа «принимает во внимание» случайное соглашение. Чтобы сделать это эффективно, потребуется точная модель того, как случайность влияет на решения оценщиков. Так называемая случайная корректировка статистики каппа предполагает, что, если нет полной уверенности, оценщики просто предполагают — очень нереалистичный сценарий. Более того, в некоторых работах [23] показано, как каппа-статистика может привести к неверным выводам для несбалансированных данных.
Похожая статистика, названная «пи », была предложена Скоттом (1955). Каппа Коэна и пи Скотта различаются способом расчета p e .
Обратите внимание, что каппа Коэна измеряет согласие только между двумя оценщиками. Аналогичную меру согласия ( каппа Флейса ), используемую при наличии более двух оценщиков, см. в Fleiss (1971). Каппа Флейса, однако, представляет собой многооценочное обобщение статистики Пи Скотта , а не каппы Коэна. Каппа также используется для сравнения производительности в машинном обучении , но считается, что направленная версия, известная как информированность или статистика Юдена J, более подходит для обучения с учителем. [24]
Взвешенная каппа позволяет по-разному взвешивать разногласия [25] и особенно полезна при упорядочении кодов. [11] : 66 Используются три матрицы: матрица наблюдаемых оценок, матрица ожидаемых оценок, основанная на случайном согласии, и матрица весов. Ячейки матрицы весов, расположенные по диагонали (от верхнего левого угла до нижнего правого), представляют согласие и, следовательно, содержат нули. Недиагональные ячейки содержат веса, указывающие на серьезность этого несогласия. Часто ячейкам, расположенным одна за пределами диагонали, присваивается вес 1, двум — 2 и т. д.
Уравнение для взвешенного κ:
где k = количество кодов и , , и – элементы весовой, наблюдаемой и ожидаемой матриц соответственно. Когда диагональные ячейки содержат веса 0, а веса всех недиагональных ячеек — 1, эта формула дает то же значение каппа, что и расчет, приведенный выше.