stringtranslate.com

Каппа Флейса

Каппа Флейса (названная в честь Джозефа Л. Фляйсса ) — это статистическая мера для оценки надежности согласия между фиксированным количеством оценщиков при присвоении категориальных рейтингов ряду элементов или классификации элементов. Это контрастирует с другими каппами, такими как каппа Коэна , которые работают только при оценке согласия между не более чем двумя оценщиками или внутриоценочной надежности (для одного оценщика по сравнению с самим собой). Эта мера рассчитывает степень согласия классификации по сравнению с той, которую можно было бы ожидать случайно.

Каппа Флейса может использоваться с двоичной или номинальной шкалой . Его также можно применить к порядковым данным (ранжированным данным): в онлайн-документации MiniTab [1] приведен пример. Однако в этом документе отмечается: «Когда у вас есть порядковые оценки, такие как рейтинги серьезности дефектов по шкале от 1 до 5, коэффициенты Кендалла , которые учитывают порядок, обычно являются более подходящей статистикой для определения связи, чем одна каппа». Однако имейте в виду, что ранговые коэффициенты Кендалла подходят только для ранговых данных.

Введение

Каппа Флейса является обобщением статистики Пи Скотта , [ 2] статистической меры надежности между экспертами . [3] Это также связано со статистикой каппа Коэна и статистикой J Юдена , которая может быть более подходящей в определенных случаях. [4] В то время как пи Скотта и каппа Коэна работают только для двух оценщиков, каппа Флейса работает для любого количества оценщиков, дающих категориальные оценки фиксированному количеству элементов, при условии, что для каждого элемента оценщики выбираются случайным образом. Его можно интерпретировать как выражение степени, в которой наблюдаемая степень согласия между оценщиками превышает то, что можно было бы ожидать, если бы все оценщики выставляли свои оценки совершенно случайным образом. Важно отметить, что в то время как каппа Коэна предполагает, что одни и те же два оценщика оценили набор элементов, каппа Флейса конкретно допускает, что, хотя существует фиксированное количество оценщиков (например, три), разные элементы могут оцениваться разными людьми. [3] То есть, пункт 1 оценивается оценщиками A, B и C; но пункт 2 может быть оценен оценщиками D, E и F. Условие случайной выборки среди оценщиков делает каппу Флейса непригодной для случаев, когда все оценщики оценивают всех пациентов. [5]

Соглашение можно представить следующим образом: если фиксированное количество людей присваивает числовые оценки ряду предметов, то каппа даст меру того, насколько последовательны оценки. Каппа может быть определена как:

(1)

Коэффициент дает степень согласия, достижимую сверхслучайности, и степень согласия, фактически достигаемую сверхслучайности. Если оценщики полностью согласны, то . Если между оценщиками нет согласия (кроме того, что можно было бы ожидать случайно), тогда .

Примером использования каппы Флейса может быть следующий: рассмотрим нескольких психиатров, которых попросили осмотреть десять пациентов. Каждому пациенту 14 психиатров ставят один из возможных пяти диагнозов. Они компилируются в матрицу, и каппа Флейса может быть вычислена на основе этой матрицы (см. пример ниже), чтобы показать степень согласия между психиатрами, превышающую уровень согласия, ожидаемого случайно.

Определение

Пусть N — общее количество предметов, пусть n — количество оценок по каждому предмету и пусть k — количество категорий, по которым разбиты задания. Предметы индексируются i = 1, ..., N , а категории индексируются j = 1, ..., k . Пусть n ij представляет собой количество оценщиков, отнесших i -й испытуемый к j -й категории.

Сначала вычислите p j , долю всех заданий, которые относились к j -й категории:

(2)

Теперь вычислите степень согласия оценщиков по i -му предмету (т. е. вычислите, сколько пар «оценщик-оценщик» согласны по отношению к числу всех возможных пар «оценщик-оценщик»):

(3)

Обратите внимание, что это значение находится между 0 , когда рейтинги присваиваются одинаково всем категориям, и 1 , когда все рейтинги присваиваются одной категории.

Теперь вычислите среднее значение букв и , которые входят в формулу для :

(4)

(5)

Рабочий пример

В следующем примере для каждого из десяти «субъектов» ( ) четырнадцать оценщиков ( ), выбранных из более крупной группы, присваивают в общей сложности пять категорий ( ). Категории представлены в столбцах, а предметы — в строках. В каждой ячейке указано количество оценщиков, отнесших указанный (строку) субъект к указанной (столбцу) категории.

В следующей таблице, учитывая , что , и . Значение представляет собой долю всех присвоений, которые были отнесены к этой категории. Например, взяв первый столбец

Для расчета нам необходимо знать сумму

По всему листу,

Интерпретация

Ландис и Кох (1977) предоставили следующую таблицу для интерпретации значений для примера с двумя аннотаторами и двумя классами. [6] Однако эта таблица ни в коем случае не является общепринятой. Они не предоставили никаких доказательств в поддержку этого, вместо этого основываясь на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными [7] , поскольку количество категорий и предметов будет влиять на величину ценности. Например, каппа выше, когда категорий меньше. [8]

Тесты значимости

Статистические пакеты могут рассчитывать стандартную оценку (Z-показатель) для каппы Коэна или каппы Фляйсса, которую можно преобразовать в P-значение . Однако даже когда значение P достигает порога статистической значимости (обычно менее 0,05), это указывает лишь на то, что согласие между оценщиками значительно лучше, чем можно было бы ожидать случайно. Значение p само по себе не говорит вам, достаточно ли хорошее согласие, чтобы иметь высокую прогностическую ценность.

Смотрите также

Рекомендации

  1. ^ Статистика каппа для анализа соглашения об атрибутах, MiniTab Inc , получено 22 января 2019 г..
  2. ^ Скотт, В. (1955), «Надежность контент-анализа: случай кодирования номинальной шкалы», Public Opinion Quarterly , 19 (3): 321–325, doi : 10.1086/266577, JSTOR  2746450.
  3. ^ ab Fleiss, JL (1971), «Измерение согласия по номинальной шкале среди многих оценщиков», Psychoological Bulletin , 76 (5): 378–382, doi : 10.1037/h0031619.
  4. ^ Пауэрс, Дэвид М.В. (2012), Проблема с каппой , том. Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012), Совместный семинар ROBUS-UNSUP., Ассоциация компьютерной лингвистики..
  5. ^ Халлгрен, Кевин А. (2012), «Вычисление межоценочной надежности данных наблюдений: обзор и руководство», Учебные пособия по количественным методам в психологии , 8 (1): 3–34, doi : 10.20982/tqmp.08.1. p023, ПМИД  22833776.
  6. ^ Аб Лэндис, младший; Кох, Г.Г. (1977), «Измерение согласия наблюдателя для категориальных данных», Biometrics , 33 (1): 159–174, doi : 10.2307/2529310, JSTOR  2529310, PMID  843571.
  7. ^ Гвет, КЛ (2014), «Глава 6. (Гейтерсбург: Advanced Analytics, LLC)», Справочник по межоценочной надежности (PDF) (4-е изд.), Advanced Analytics, LLC, ISBN 978-0970806284.
  8. ^ Сим, Дж.; Райт, CC (2005), «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки», Physical Therapy , 85 (3): 257–268, doi : 10.1093/ptj/85.3.257.

дальнейшее чтение

Внешние ссылки