Каппа Флейсса (названная в честь Джозефа Л. Флейсса ) — это статистическая мера оценки надежности согласия между фиксированным числом оценщиков при назначении категориальных рейтингов ряду элементов или классификации элементов. Это контрастирует с другими каппами, такими как каппа Коэна , которые работают только при оценке согласия между не более чем двумя оценщиками или надежности внутри оценщика (для одного оценщика против самого себя). Мера вычисляет степень согласия в классификации по сравнению с той, которая ожидалась бы случайно.
Каппа Флейсса может использоваться с двоичной или номинальной шкалой . Ее также можно применять к порядковым данным (ранжированным данным): в онлайн-документации MiniTab [1] приведен пример. Однако в этом документе отмечается: «Когда у вас есть порядковые рейтинги, такие как рейтинги серьезности дефектов по шкале от 1 до 5, коэффициенты Кендалла , которые учитывают упорядочение, обычно являются более подходящими статистическими данными для определения ассоциации, чем только каппа». Однако следует помнить, что коэффициенты ранга Кендалла подходят только для ранговых данных.
Каппа Фляйсса является обобщением статистики пи Скотта [2], статистической меры межэкспертной надежности . [3] Она также связана со статистикой каппа Коэна и статистикой J Юдена , которые могут быть более подходящими в определенных случаях. [4] В то время как пи Скотта и каппа Коэна работают только для двух оценщиков, каппа Фляйсса работает для любого количества оценщиков, дающих категориальные оценки фиксированному количеству элементов, при условии, что для каждого элемента оценщики выбираются случайным образом. Ее можно интерпретировать как выражение степени, в которой наблюдаемое количество согласия среди оценщиков превышает то, что можно было бы ожидать, если бы все оценщики давали свои оценки совершенно случайным образом. Важно отметить, что в то время как каппа Коэна предполагает, что одни и те же два оценщика оценили набор элементов, каппа Фляйсса специально допускает, что, хотя есть фиксированное количество оценщиков (например, три), разные элементы могут оцениваться разными людьми. [3] То есть, пункт 1 оценивается оценщиками A, B и C; но пункт 2 может оцениваться оценщиками D, E и F. Условие случайной выборки среди оценщиков делает каппу Флейсса непригодной для случаев, когда все оценщики оценивают всех пациентов. [5]
Соглашение можно рассматривать следующим образом: если фиксированное количество людей присваивает числовые оценки ряду пунктов, то каппа даст меру того, насколько последовательны оценки. Каппа, , может быть определена как,
(1)
Фактор дает степень согласия, которая достижима сверх случайности, и дает степень согласия, фактически достигнутую сверх случайности. Если оценщики полностью согласны, то . Если среди оценщиков нет согласия (кроме того, что можно было бы ожидать случайно), то .
Примером использования каппы Флейсса может быть следующее: рассмотрим нескольких психиатров, которых просят осмотреть десять пациентов. Для каждого пациента 14 психиатров дают один из пяти возможных диагнозов. Они составляются в матрицу, и каппа Флейсса может быть вычислена из этой матрицы (см. пример ниже), чтобы показать степень согласия между психиатрами выше уровня согласия, ожидаемого случайно.
Пусть N будет общим числом элементов, пусть n будет числом оценок на элемент, и пусть k будет числом категорий, в которые сделаны назначения. Элементы индексируются i = 1, ..., N , а категории индексируются j = 1, ..., k . Пусть n ij представляет число оценщиков, которые назначили i -й элемент j -й категории.
Сначала вычислите p j , долю всех назначений, которые относятся к j -й категории:
(2)
Теперь вычислите степень согласия оценщиков по i -му элементу (т.е. вычислите, сколько пар оценщик-оценщик находятся в согласии относительно числа всех возможных пар оценщик-оценщик):
(3)
Обратите внимание, что существует граница между 0 , когда рейтинги присваиваются одинаково по всем категориям, и 1 , когда все рейтинги присваиваются одной категории.
Теперь вычислим , среднее арифметическое 's, и , которые входят в формулу для :
(4)
(5)
В следующем примере для каждого из десяти «субъектов» ( ) четырнадцать оценщиков ( ), выбранных из более крупной группы, назначают в общей сложности пять категорий ( ). Категории представлены в столбцах, а субъекты представлены в строках. В каждой ячейке указано количество оценщиков, которые назначили указанный (строка) субъект указанной (столбец) категории.
В следующей таблице, учитывая, что , , и . Значение представляет собой долю всех назначений, которые были сделаны для th категории. Например, взяв первый столбец и взяв вторую строку,
Для того чтобы вычислить , нам нужно знать сумму ,
По всему листу,
Landis & Koch (1977) дали следующую таблицу для интерпретации значений для примера с 2 аннотаторами и 2 классами. [6] Однако эта таблица никоим образом не является общепринятой. Они не предоставили никаких доказательств в ее поддержку, основываясь вместо этого на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными, [7] поскольку количество категорий и субъектов будет влиять на величину значения. Например, каппа выше, когда категорий меньше. [8]
Статистические пакеты могут вычислять стандартную оценку (Z-оценку) для каппы Коэна или каппы Флейсса, которую можно преобразовать в P-значение . Однако даже когда значение P достигает порога статистической значимости (обычно менее 0,05), это лишь указывает на то, что согласие между оценщиками значительно лучше, чем можно было бы ожидать случайно. P-значение само по себе не говорит о том, достаточно ли хорошее согласие, чтобы иметь высокую прогностическую ценность.