stringtranslate.com

Каппа Флейсса

Каппа Флейсса (названная в честь Джозефа Л. Флейсса ) — это статистическая мера оценки надежности согласия между фиксированным числом оценщиков при назначении категориальных рейтингов ряду элементов или классификации элементов. Это контрастирует с другими каппами, такими как каппа Коэна , которые работают только при оценке согласия между не более чем двумя оценщиками или надежности внутри оценщика (для одного оценщика против самого себя). Мера вычисляет степень согласия в классификации по сравнению с той, которая ожидалась бы случайно.

Каппа Флейсса может использоваться с двоичной или номинальной шкалой . Ее также можно применять к порядковым данным (ранжированным данным): в онлайн-документации MiniTab [1] приведен пример. Однако в этом документе отмечается: «Когда у вас есть порядковые рейтинги, такие как рейтинги серьезности дефектов по шкале от 1 до 5, коэффициенты Кендалла , которые учитывают упорядочение, обычно являются более подходящими статистическими данными для определения ассоциации, чем только каппа». Однако следует помнить, что коэффициенты ранга Кендалла подходят только для ранговых данных.

Введение

Каппа Фляйсса является обобщением статистики пи Скотта [2], статистической меры межэкспертной надежности . [3] Она также связана со статистикой каппа Коэна и статистикой J Юдена , которые могут быть более подходящими в определенных случаях. [4] В то время как пи Скотта и каппа Коэна работают только для двух оценщиков, каппа Фляйсса работает для любого количества оценщиков, дающих категориальные оценки фиксированному количеству элементов, при условии, что для каждого элемента оценщики выбираются случайным образом. Ее можно интерпретировать как выражение степени, в которой наблюдаемое количество согласия среди оценщиков превышает то, что можно было бы ожидать, если бы все оценщики давали свои оценки совершенно случайным образом. Важно отметить, что в то время как каппа Коэна предполагает, что одни и те же два оценщика оценили набор элементов, каппа Фляйсса специально допускает, что, хотя есть фиксированное количество оценщиков (например, три), разные элементы могут оцениваться разными людьми. [3] То есть, пункт 1 оценивается оценщиками A, B и C; но пункт 2 может оцениваться оценщиками D, E и F. Условие случайной выборки среди оценщиков делает каппу Флейсса непригодной для случаев, когда все оценщики оценивают всех пациентов. [5]

Соглашение можно рассматривать следующим образом: если фиксированное количество людей присваивает числовые оценки ряду пунктов, то каппа даст меру того, насколько последовательны оценки. Каппа, , может быть определена как,

(1)

Фактор дает степень согласия, которая достижима сверх случайности, и дает степень согласия, фактически достигнутую сверх случайности. Если оценщики полностью согласны, то . Если среди оценщиков нет согласия (кроме того, что можно было бы ожидать случайно), то .

Примером использования каппы Флейсса может быть следующее: рассмотрим нескольких психиатров, которых просят осмотреть десять пациентов. Для каждого пациента 14 психиатров дают один из пяти возможных диагнозов. Они составляются в матрицу, и каппа Флейсса может быть вычислена из этой матрицы (см. пример ниже), чтобы показать степень согласия между психиатрами выше уровня согласия, ожидаемого случайно.

Определение

Пусть N будет общим числом элементов, пусть n будет числом оценок на элемент, и пусть k будет числом категорий, в которые сделаны назначения. Элементы индексируются i = 1, ..., N , а категории индексируются j = 1, ..., k . Пусть n ij представляет число оценщиков, которые назначили i -й элемент j -й категории.

Сначала вычислите p j , долю всех назначений, которые относятся к j -й категории:

(2)

Теперь вычислите степень согласия оценщиков по i -му элементу (т.е. вычислите, сколько пар оценщик-оценщик находятся в согласии относительно числа всех возможных пар оценщик-оценщик):

(3)

Обратите внимание, что существует граница между 0 , когда рейтинги присваиваются одинаково по всем категориям, и 1 , когда все рейтинги присваиваются одной категории.

Теперь вычислим , среднее арифметическое 's, и , которые входят в формулу для :

(4)

(5)

Рабочий пример

В следующем примере для каждого из десяти «субъектов» ( ) четырнадцать оценщиков ( ), выбранных из более крупной группы, назначают в общей сложности пять категорий ( ). Категории представлены в столбцах, а субъекты представлены в строках. В каждой ячейке указано количество оценщиков, которые назначили указанный (строка) субъект указанной (столбец) категории.

В следующей таблице, учитывая, что , , и . Значение представляет собой долю всех назначений, которые были сделаны для th категории. Например, взяв первый столбец и взяв вторую строку,

Для того чтобы вычислить , нам нужно знать сумму ,

По всему листу,

Интерпретация

Landis & Koch (1977) дали следующую таблицу для интерпретации значений для примера с 2 аннотаторами и 2 классами. [6] Однако эта таблица никоим образом не является общепринятой. Они не предоставили никаких доказательств в ее поддержку, основываясь вместо этого на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными, [7] поскольку количество категорий и субъектов будет влиять на величину значения. Например, каппа выше, когда категорий меньше. [8]

Тесты значимости

Статистические пакеты могут вычислять стандартную оценку (Z-оценку) для каппы Коэна или каппы Флейсса, которую можно преобразовать в P-значение . Однако даже когда значение P достигает порога статистической значимости (обычно менее 0,05), это лишь указывает на то, что согласие между оценщиками значительно лучше, чем можно было бы ожидать случайно. P-значение само по себе не говорит о том, достаточно ли хорошее согласие, чтобы иметь высокую прогностическую ценность.

Смотрите также

Ссылки

  1. ^ Статистика Каппа для анализа согласованности атрибутов, MiniTab Inc , получено 22 января 2019 г..
  2. ^ Скотт, У. (1955), «Надежность контент-анализа: случай номинальной шкалы кодирования», Public Opinion Quarterly , 19 (3): 321–325, doi : 10.1086/266577, JSTOR  2746450.
  3. ^ ab Fleiss, JL (1971), «Измерение номинальной шкальной согласованности среди многих оценщиков», Psychological Bulletin , 76 (5): 378–382, doi :10.1037/h0031619.
  4. ^ Powers, David MW (2012), Проблема с Kappa , т. Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP., Ассоциация компьютерной лингвистики.
  5. ^ Холлгрен, Кевин А. (2012), «Вычисление межоценочной надежности для наблюдательных данных: обзор и руководство», Учебники по количественным методам для психологии , 8 (1): 3–34, doi :10.20982/tqmp.08.1.p023, PMID  22833776.
  6. ^ ab Landis, JR; Koch, GG (1977), «Измерение согласия наблюдателя для категориальных данных», Biometrics , 33 (1): 159–174, doi :10.2307/2529310, JSTOR  2529310, PMID  843571.
  7. ^ Gwet, KL (2014), «Глава 6. (Гейтерсбург: Advanced Analytics, LLC)», Справочник по межоценочной надежности (PDF) (4-е изд.), Advanced Analytics, LLC, ISBN 978-0970806284.
  8. ^ Сим, Дж.; Райт, К.К. (2005), «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки», Физическая терапия , 85 (3): 257–268, doi :10.1093/ptj/85.3.257.

Дальнейшее чтение

Внешние ссылки