Каппа Флейса

Каппа Флейса (названная в честь Джозефа Л. Фляйсса ) — это статистическая мера для оценки надежности согласия между фиксированным количеством оценщиков при присвоении категориальных рейтингов ряду элементов или классификации элементов. Это контрастирует с другими каппами, такими как каппа Коэна , которые работают только при оценке согласия между не более чем двумя оценщиками или внутриоценочной надежности (для одного оценщика по сравнению с самим собой). Эта мера рассчитывает степень согласия классификации по сравнению с той, которую можно было бы ожидать случайно.

Каппа Флейса может использоваться с двоичной или номинальной шкалой . Его также можно применить к порядковым данным (ранжированным данным): в онлайн-документации MiniTab ^[1] приведен пример. Однако в этом документе отмечается: «Когда у вас есть порядковые оценки, такие как рейтинги серьезности дефектов по шкале от 1 до 5, коэффициенты Кендалла , которые учитывают порядок, обычно являются более подходящей статистикой для определения связи, чем одна каппа». Однако имейте в виду, что ранговые коэффициенты Кендалла подходят только для ранговых данных.

Введение

Каппа Флейса является обобщением статистики Пи Скотта , [ ^2] статистической меры надежности между экспертами . ^[3] Это также связано со статистикой каппа Коэна и статистикой J Юдена , которая может быть более подходящей в определенных случаях. ^[4] В то время как пи Скотта и каппа Коэна работают только для двух оценщиков, каппа Флейса работает для любого количества оценщиков, дающих категориальные оценки фиксированному количеству элементов, при условии, что для каждого элемента оценщики выбираются случайным образом. Его можно интерпретировать как выражение степени, в которой наблюдаемая степень согласия между оценщиками превышает то, что можно было бы ожидать, если бы все оценщики выставляли свои оценки совершенно случайным образом. Важно отметить, что в то время как каппа Коэна предполагает, что одни и те же два оценщика оценили набор элементов, каппа Флейса конкретно допускает, что, хотя существует фиксированное количество оценщиков (например, три), разные элементы могут оцениваться разными людьми. ^[3] То есть, пункт 1 оценивается оценщиками A, B и C; но пункт 2 может быть оценен оценщиками D, E и F. Условие случайной выборки среди оценщиков делает каппу Флейса непригодной для случаев, когда все оценщики оценивают всех пациентов. ^[5]

Соглашение можно представить следующим образом: если фиксированное количество людей присваивает числовые оценки ряду предметов, то каппа даст меру того, насколько последовательны оценки. Каппа может быть определена как: $\ каппа \,$

(1)

\kappa ={\frac {{\bar {P}}-{\bar {P_{e}}}}{1-{\bar {P_{e}}}}}

Коэффициент дает степень согласия, достижимую сверхслучайности, и степень согласия, фактически достигаемую сверхслучайности. Если оценщики полностью согласны, то . Если между оценщиками нет согласия (кроме того, что можно было бы ожидать случайно), тогда . $1-{\bar {P_{e}}}$ ${\bar {P}}-{\bar {P_{e}}}$ $\ каппа =1~$ $\ каппа \leq 0$

Примером использования каппы Флейса может быть следующий: рассмотрим нескольких психиатров, которых попросили осмотреть десять пациентов. Каждому пациенту 14 психиатров ставят один из возможных пяти диагнозов. Они компилируются в матрицу, и каппа Флейса может быть вычислена на основе этой матрицы (см. пример ниже), чтобы показать степень согласия между психиатрами, превышающую уровень согласия, ожидаемого случайно.

Определение

Пусть $N$ — общее количество предметов, пусть $n$ — количество оценок по каждому предмету и пусть $k$ — количество категорий, по которым разбиты задания. Предметы индексируются $i = 1, ..., N$ , а категории индексируются $j = 1, ..., k$ . Пусть $n ij$ представляет собой количество оценщиков, отнесших $i$ -й испытуемый к $j$ -й категории.

Сначала вычислите $p j$ , долю всех заданий, которые относились к $j$ -й категории:

(2)

p_{j}={\frac {1}{Nn}}\sum _{i=1}^{N}n_{ij},\quad \quad 1=\sum _{j=1}^ {k}p_{j}

Теперь вычислите степень согласия оценщиков по $i$ -му предмету (т. е. вычислите, сколько пар «оценщик-оценщик» согласны по отношению к числу всех возможных пар «оценщик-оценщик»): $P_{i}\,$

(3)

{\begin{aligned}P_{i}&={\frac {1}{n(n-1)}}\sum _{j=1}^{k}n_{ij}(n_{ij }-1)\\&={\frac {1}{n(n-1)}}\sum _{j=1}^{k}(n_{ij}^{2}-n_{ij}) \\&={\frac {1}{n(n-1)}}{\biggl [}\sum _{j=1}^{k}{\bigl (}n_{ij}^{2}{ \bigr )}-n{\biggr ]}\end{aligned}}

Обратите внимание, что это значение находится между $0$ , когда рейтинги присваиваются одинаково всем категориям, и $1$ , когда все рейтинги присваиваются одной категории. $P_{i}$

Теперь вычислите среднее значение букв и , которые входят в формулу для : ${\bar {P}}$ $P_{i}$ ${\bar {P_{e}}}$ $\ каппа$

(4)

{\begin{aligned}{\bar {P}}&={\frac {1}{N}}\sum _{i=1}^{N}P_{i}\\&={\ frac {1}{Nn(n-1)}}{\biggl [}\sum _{i=1}^{N}\sum _{j=1}^{k}{\bigl (}n_{ij }^{2}{\bigr )}-Nn{\biggr ]}\end{aligned}}

(5)

{\bar {P_{e}}}=\sum _{j=1}^{k}p_{j}^{2}

Рабочий пример

В следующем примере для каждого из десяти «субъектов» ( ) четырнадцать оценщиков ( ), выбранных из более крупной группы, присваивают в общей сложности пять категорий ( ). Категории представлены в столбцах, а предметы — в строках. В каждой ячейке указано количество оценщиков, отнесших указанный (строку) субъект к указанной (столбцу) категории. $N$ $п$ $k$

В следующей таблице, учитывая , что , и . Значение представляет собой долю всех присвоений, которые были отнесены к этой категории. Например, взяв первый столбец $N=10$ $n=14$ $k=5$ $p_{j}$ $j$

p_{1}={\frac {0+0+0+0+2+7+3+2+6+0}{140}}=0.143,

P_{2}={\frac {1}{14(14-1)}}\left(0^{2}+2^{2}+6^{2}+4^{2}+2^{2}-14\right)=0.253.

Для расчета нам необходимо знать сумму ${\bar {P}}$ $P_{i}$

\sum _{i=1}^{N}P_{i}=1.000+0.253+\cdots +0.286+0.286=3.780.

По всему листу,

{\begin{aligned}{\bar {P}}&={\frac {1}{(10)}}(3.780)=0.378\\{\bar {P}}_{e}&=0.143^{2}+0.200^{2}+0.279^{2}+0.150^{2}+0.229^{2}=0.213\\\kappa &={\frac {0.378-0.213}{1-0.213}}=0.210\end{aligned}}

Интерпретация

Ландис и Кох (1977) предоставили следующую таблицу для интерпретации значений для примера с двумя аннотаторами и двумя классами. ^[6] Однако эта таблица ни в коем случае не является общепринятой. Они не предоставили никаких доказательств в поддержку этого, вместо этого основываясь на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными ^[7] , поскольку количество категорий и предметов будет влиять на величину ценности. Например, каппа выше, когда категорий меньше. ^[8] $\kappa$

Тесты значимости

Статистические пакеты могут рассчитывать стандартную оценку (Z-показатель) для каппы Коэна или каппы Фляйсса, которую можно преобразовать в P-значение . Однако даже когда значение P достигает порога статистической значимости (обычно менее 0,05), это указывает лишь на то, что согласие между оценщиками значительно лучше, чем можно было бы ожидать случайно. Значение p само по себе не говорит вам, достаточно ли хорошее согласие, чтобы иметь высокую прогностическую ценность.

Смотрите также

дальнейшее чтение

Фляйсс, Дж.Л.; Коэн, Дж. (1973), «Эквивалентность взвешенной каппы и коэффициента внутриклассовой корреляции как меры надежности», Educational and Psychoological Measurement , 33 (3): 613–619, doi : 10.1177/001316447303300309, S2CID 145183399.
Фляйсс, Дж. Л. (1981), Статистические методы определения ставок и пропорций (2-е изд.), Нью-Йорк: John Wiley & Sons , стр. 38–46..
Гвет, К.Л. (2008), «Вычисление межэкспертной надежности и ее дисперсии при наличии высокой согласованности» (PDF) , Британский журнал математической и статистической психологии , 61 (Pt 1): 29–48, doi : 10.1348/000711006X126600 , PMID 18482474, S2CID 13915043.

Внешние ссылки

В реализации алгоритма Wikibook есть страница на тему: Каппа Флейса.

Облачный анализ надежности между экспертами, каппа Коэна, AC1/AC2 Гвета, альфа Криппендорфа, Бреннан-Предигер, обобщенная каппа Фляйсса, коэффициенты внутриклассовой корреляции
Каппа: плюсы и минусы - содержит хорошую библиографию статей о коэффициенте.
Онлайн-калькулятор каппы. Архивировано 28 февраля 2009 г. на Wayback Machine - рассчитывает вариацию каппы Флейса.