Коэффициент Дайса-Сёренсена

Коэффициент Дайса-Сёренсена (другие названия см. ниже) — это статистика , используемая для оценки сходства двух образцов . Он был независимо разработан ботаниками Ли Рэймондом Дайсом ^[1] и Торвальдом Сёренсеном ^[2] , которые опубликовали свои работы в 1945 и 1948 годах соответственно.

Имя

Индекс известен под несколькими другими названиями, особенно индекс Сёренсена–Дайса , ^[3] индекс Сёренсена и коэффициент Дайса . Другие вариации включают «коэффициент сходства» или «индекс», такой как коэффициент сходства Дайса ( DSC ). Распространенные альтернативные написания для Сёренсена — это Соренсон , Соеренсон и Сёренсон , и все три также можно увидеть с окончанием –сен ( датская буква ø фонетически эквивалентна немецкой/шведской ö, которая может быть записана как oe в ASCII).

Другие названия включают:

Оценка F1
Бинарный (неколичественный) индекс Чекановского [ ^4]
Мера генетического сходства ^[5]
Индекс сходства Зиденбоса, ^[6]^[7] относится к статье Зиджденбоса и др. 1994 года. ^[8]^[3]

Формула

Первоначальная формула Сёренсена была предназначена для применения к дискретным данным. При наличии двух наборов, X и Y, она определяется как

DSC={\frac {2|X\cap Y|}{|X|+|Y|}}

где | X | и | Y | — мощности двух множеств (т. е. количество элементов в каждом множестве). Индекс Сёренсена равен удвоенному количеству элементов, общих для обоих множеств, делённому на сумму количества элементов в каждом множестве. Эквивалентно, индекс — это размер пересечения как доля среднего размера двух множеств.

Применительно к булевым данным, используя определения истинно положительного (TP), ложно положительного (FP) и ложно отрицательного (FN) результата, его можно записать как

DSC={\frac {2{\mathit {TP}}}{2{\mathit {TP}}+{\mathit {FP}}+{\mathit {FN}}}}

Он отличается от индекса Жаккара , который учитывает истинно положительные результаты только один раз как в числителе, так и в знаменателе. DSC — это коэффициент сходства, который находится в диапазоне от 0 до 1. ^[9] Его можно рассматривать как меру сходства по множествам.

Аналогично индексу Жаккара , операции над множествами можно выразить через векторные операции над бинарными векторами a и b :

s_{v}={\frac {2|{\bf {{a}\cdot {\bf {{b}|}}}}}{|{\bf {{a}|^{2}+|{\bf {{b}|^{2}}}}}}}

что дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.

Для наборов X и Y ключевых слов, используемых при поиске информации , коэффициент может быть определен как удвоенная общая информация (пересечение) по сумме мощностей: ^[10]

Если рассматривать коэффициент как меру сходства строк , то его можно рассчитать для двух строк, x и y, используя биграммы следующим образом: ^[11]

s={\frac {2n_{t}}{n_{x}+n_{y}}}

где n _t — количество биграмм символов, найденных в обеих строках, n _x — количество биграмм в строке x , а n _y — количество биграмм в строке y . Например, чтобы вычислить сходство между:

night

nacht

Мы найдем набор биграмм в каждом слове:

{ ni, ig, gh, ht}

{ na, ac, ch, ht}

Каждое множество состоит из четырех элементов, а пересечение этих двух множеств состоит только из одного элемента: ht.

Подставляя эти числа в формулу, вычисляем, s = (2 · 1) / (4 + 4) = 0,25.

Непрерывный коэффициент кубика

Источник: ^[12]

Для дискретной (бинарной) истинности и непрерывных мер в интервале [0,1] можно использовать следующую формулу: $А$ $Б$

$cDC={\frac {2|A\cap B|}{c*|A|+|B|}}$

Где и $|A\cap B|=\Сигма _{i}a_{i}b_{i}$ $|B|=\Сигма _{i}b_{i}$

c можно вычислить следующим образом:

$c={\frac {\Sigma _{i}a_{i}b_{i}}{\Sigma _{i}a_{i}\operatorname {знак} {(b_{i})}}}$

Если это означает отсутствие пересечения между A и B, то c произвольно устанавливается равным 1. $\Sigma _{i}a_{i}\operatorname {знак} {(b_{i})}=0$

Отличие от Жаккара

Этот коэффициент не сильно отличается по форме от индекса Жаккара . Фактически, оба они эквивалентны в том смысле, что, имея значение коэффициента Сёренсена–Дайса , можно рассчитать соответствующее значение индекса Жаккара и наоборот, используя уравнения и . $S$ $J$ $J=S/(2-S)$ $S=2J/(1+J)$

Поскольку коэффициент Сёренсена–Дайса не удовлетворяет неравенству треугольника , его можно считать полуметрической версией индекса Жаккара. ^[4]

Функция варьируется от нуля до единицы, как Жаккар. В отличие от Жаккара, соответствующая функция разности

d=1-{\frac {2|X\cap Y|}{|X|+|Y|}}

не является собственной метрикой расстояния, поскольку не удовлетворяет неравенству треугольника. ^[4] Простейший контрпример этого дается тремя множествами {a}, {b} и {a,b}, расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных равна одной трети. Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a,b} плюс расстояние между {b} и {a,b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.

Приложения

Коэффициент Сёренсена–Дайса полезен для данных об экологическом сообществе (например, Looman & Campbell, 1960 ^[13] ). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя его можно обосновать теоретически как пересечение двух нечетких множеств ^[14] ). По сравнению с евклидовым расстоянием , расстояние Сёренсена сохраняет чувствительность в более неоднородных наборах данных и придает меньший вес выбросам. ^[15] В последнее время оценка Дайса (и ее вариации, например, logDice, логарифмирующий ее) стала популярной в компьютерной лексикографии для измерения оценки лексической ассоциации двух заданных слов. ^[16] logDice также используется как часть расстояния Mash для оценки расстояния генома и метагенома ^[17] Наконец, Dice используется в сегментации изображений , в частности, для сравнения выходных данных алгоритма с эталонными масками в медицинских приложениях. ^[8]

Версия изобилия

Выражение легко распространяется на обилие вместо наличия/отсутствия видов. Эта количественная версия известна под несколькими названиями:

Количественный индекс Серенсена – Дайса ^[4]
Количественный индекс Серенсена ^[4]
Количественный индекс Dice ^[4]
Сходство Брея-Кертиса (1 минус несходство Брея-Кертиса ) ^[4]
Количественный показатель Чекановского [ ^4]
Индекс Штейнхауза ^[4]
Процентное сходство Пиелоу [ ^4]
1 минус расстояние Хеллингера ^[18]
Доля конкретного согласия ^[19] или положительного согласия ^[20]

Смотрите также

Ссылки

^ Дайс, Ли Р. (1945). «Измерения количества экологической ассоциации между видами». Экология . 26 (3): 297–302. doi :10.2307/1932409. JSTOR 1932409. S2CID 53335638.
^ Соренсен, Т. (1948). «Метод создания групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на территории Дании». Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34.
^ ab Carass, A.; Roy, S.; Gherman, A.; Reinhold, JC; Jesson, A.; et al. (2020). «Оценка сегментации поражений белого вещества с помощью уточненного анализа Серенсена-Дайса». Scientific Reports . 10 (1): 8242. Bibcode :2020NatSR..10.8242C. doi : 10.1038/s41598-020-64803-w . ISSN 2045-2322. PMC 7237671 . PMID 32427874.
^ abcdefghij Галлахер, ED, 1999. Документация COMPAH, Массачусетский университет, Бостон
^ Nei, M.; Li, WH (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции». PNAS . 76 (10): 5269–5273. Bibcode :1979PNAS...76.5269N. doi : 10.1073/pnas.76.10.5269 . PMC 413122 . PMID 291943.
^ Prescott, JW; Pennell, M.; Best, TM; Swanson, MS; Haq, F.; Jackson, R.; Gurcan, MN (2009). «Автоматизированный метод сегментации бедренной кости для исследования остеоартрита». Ежегодная международная конференция IEEE Engineering in Medicine and Biology Society 2009 г. IEEE. стр. 6364–6367. doi :10.1109/iembs.2009.5333257. PMC 2826829 .
^ Swanson, MS; Prescott, JW; Best, TM; Powell, K.; Jackson, RD; Haq, F.; Gurcan, MN (2010). «Полуавтоматическая сегментация для оценки латерального мениска в нормальных и остеоартритных коленях». Остеоартрит и хрящ . 18 (3): 344–353. doi :10.1016/j.joca.2009.10.004. ISSN 1063-4584. PMC 2826568. PMID 19857510 .
^ ab Zijdenbos, AP; Dawant, BM; Margolin, RA; Palmer, AC (1994). «Морфометрический анализ поражений белого вещества на изображениях МРТ: метод и валидация». IEEE Transactions on Medical Imaging . 13 (4): 716–724. doi :10.1109/42.363096. ISSN 0278-0062. PMID 18218550.
^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf ^{[ пустой URL-адрес PDF ]}
^ ван Рейсберген, Корнелис Йост (1979). Информационный поиск. Лондон: Баттервортс. ISBN 3-642-12274-4.
^ Kondrak, Grzegorz; Marcu, Daniel; Knight, Kevin (2003). «Cognates Can Improve Statistical Translation Models» (PDF) . Труды HLT-NAACL 2003: Конференция по технологиям естественного языка Североамериканского отделения Ассоциации компьютерной лингвистики . стр. 46–48.
^ Шамир, Рубен Р.; Дучин, Ювал; Ким, Джинёнг; Сапиро, Гильермо; Харель, Ноам (2018-04-25). «Непрерывный коэффициент кубика: метод оценки вероятностных сегментаций»: 306977. arXiv : 1906.11031 . doi :10.1101/306977. S2CID 90993940. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Looman, J.; Campbell, JB (1960). «Адаптация K Соренсена (1948) для оценки сходства единиц в растительности прерий». Ecology . 41 (3): 409–416. doi :10.2307/1933315. JSTOR 1933315.
^ Робертс, Д. У. (1986). «Ординация на основе теории нечетких множеств». Vegetatio . 66 (3): 123–131. doi :10.1007/BF00039905. S2CID 12573576.
^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Mjm Software Design; ISBN 0-9721290-0-6 .
^ Рыхли, П. (2008) Оценка ассоциаций, удобная для лексикографов. Труды Второго семинара по последним достижениям в обработке естественного славянского языка RASLAN 2008: 6–9
^ Ондов, Брайан Д. и др. «Mash: быстрая оценка расстояний генома и метагенома с использованием MinHash». Геномная биология 17.1 (2016): 1-14.
^ Брей, Дж. Роджер; Кертис, Дж. Т. (1957). «Ординация лесных сообществ нагорья Южного Висконсина». Экологические монографии . 27 (4): 326–349. doi :10.2307/1942268. JSTOR 1942268.
^ Аяппа, Инду; Норман, Роберт Г. (2000). «Неинвазивное обнаружение респираторных пробуждений, связанных с усилием (RERA), с помощью носовой канюли/системы датчика давления». Сон . 23 (6): 763–771. doi : 10.1093/sleep/23.6.763 . PMID 11007443.
^ Джон Юберсакс. «Индексы необработанного согласия».

Внешние ссылки

Реализация алгоритма Wikibook имеет страницу на тему: Коэффициент Дайса