Статистика, используемая для сравнения сходства двух образцов.
Коэффициент Дайса-Сёренсена (другие названия см. ниже) — это статистика , используемая для оценки сходства двух образцов . Он был независимо разработан ботаниками Ли Рэймондом Дайсом [1] и Торвальдом Сёренсеном [2] , которые опубликовали свои работы в 1945 и 1948 годах соответственно.
Имя
Индекс известен под несколькими другими названиями, особенно индекс Сёренсена–Дайса , [3] индекс Сёренсена и коэффициент Дайса . Другие вариации включают «коэффициент сходства» или «индекс», такой как коэффициент сходства Дайса ( DSC ). Распространенные альтернативные написания для Сёренсена — это Соренсон , Соеренсон и Сёренсон , и все три также можно увидеть с окончанием –сен ( датская буква ø фонетически эквивалентна немецкой/шведской ö, которая может быть записана как oe в ASCII).
Другие названия включают:
- Оценка F1
- Бинарный (неколичественный) индекс Чекановского [ 4]
- Мера генетического сходства [5]
- Индекс сходства Зиденбоса, [6] [7] относится к статье Зиджденбоса и др. 1994 года. [8] [3]
Формула
Первоначальная формула Сёренсена была предназначена для применения к дискретным данным. При наличии двух наборов, X и Y, она определяется как
где | X | и | Y | — мощности двух множеств (т. е. количество элементов в каждом множестве). Индекс Сёренсена равен удвоенному количеству элементов, общих для обоих множеств, делённому на сумму количества элементов в каждом множестве. Эквивалентно, индекс — это размер пересечения как доля среднего размера двух множеств.
Применительно к булевым данным, используя определения истинно положительного (TP), ложно положительного (FP) и ложно отрицательного (FN) результата, его можно записать как
- .
Он отличается от индекса Жаккара , который учитывает истинно положительные результаты только один раз как в числителе, так и в знаменателе. DSC — это коэффициент сходства, который находится в диапазоне от 0 до 1. [9] Его можно рассматривать как меру сходства по множествам.
Аналогично индексу Жаккара , операции над множествами можно выразить через векторные операции над бинарными векторами a и b :
что дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.
Для наборов X и Y ключевых слов, используемых при поиске информации , коэффициент может быть определен как удвоенная общая информация (пересечение) по сумме мощностей: [10]
Если рассматривать коэффициент как меру сходства строк , то его можно рассчитать для двух строк, x и y, используя биграммы следующим образом: [11]
где n t — количество биграмм символов, найденных в обеих строках, n x — количество биграмм в строке x , а n y — количество биграмм в строке y . Например, чтобы вычислить сходство между:
night
nacht
Мы найдем набор биграмм в каждом слове:
- {
ni
, ig
, gh
, ht
} - {
na
, ac
, ch
, ht
}
Каждое множество состоит из четырех элементов, а пересечение этих двух множеств состоит только из одного элемента: ht
.
Подставляя эти числа в формулу, вычисляем, s = (2 · 1) / (4 + 4) = 0,25.
Непрерывный коэффициент кубика
Источник: [12]
Для дискретной (бинарной) истинности и непрерывных мер в интервале [0,1] можно использовать следующую формулу:
Где и
c можно вычислить следующим образом:
Если это означает отсутствие пересечения между A и B, то c произвольно устанавливается равным 1.
Отличие от Жаккара
Этот коэффициент не сильно отличается по форме от индекса Жаккара . Фактически, оба они эквивалентны в том смысле, что, имея значение коэффициента Сёренсена–Дайса , можно рассчитать соответствующее значение индекса Жаккара и наоборот, используя уравнения и .
Поскольку коэффициент Сёренсена–Дайса не удовлетворяет неравенству треугольника , его можно считать полуметрической версией индекса Жаккара. [4]
Функция варьируется от нуля до единицы, как Жаккар. В отличие от Жаккара, соответствующая функция разности
не является собственной метрикой расстояния, поскольку не удовлетворяет неравенству треугольника. [4] Простейший контрпример этого дается тремя множествами {a}, {b} и {a,b}, расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных равна одной трети. Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a,b} плюс расстояние между {b} и {a,b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.
Приложения
Коэффициент Сёренсена–Дайса полезен для данных об экологическом сообществе (например, Looman & Campbell, 1960 [13] ). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя его можно обосновать теоретически как пересечение двух нечетких множеств [14] ). По сравнению с евклидовым расстоянием , расстояние Сёренсена сохраняет чувствительность в более неоднородных наборах данных и придает меньший вес выбросам. [15] В последнее время оценка Дайса (и ее вариации, например, logDice, логарифмирующий ее) стала популярной в компьютерной лексикографии для измерения оценки лексической ассоциации двух заданных слов. [16]
logDice также используется как часть расстояния Mash для оценки расстояния генома и метагенома [17]
Наконец, Dice используется в сегментации изображений , в частности, для сравнения выходных данных алгоритма с эталонными масками в медицинских приложениях. [8]
Версия изобилия
Выражение легко распространяется на обилие вместо наличия/отсутствия видов. Эта количественная версия известна под несколькими названиями:
- Количественный индекс Серенсена – Дайса [4]
- Количественный индекс Серенсена [4]
- Количественный индекс Dice [4]
- Сходство Брея-Кертиса (1 минус несходство Брея-Кертиса ) [4]
- Количественный показатель Чекановского [ 4]
- Индекс Штейнхауза [4]
- Процентное сходство Пиелоу [ 4]
- 1 минус расстояние Хеллингера [18]
- Доля конкретного согласия [19] или положительного согласия [20]
Смотрите также
Ссылки
- ^ Дайс, Ли Р. (1945). «Измерения количества экологической ассоциации между видами». Экология . 26 (3): 297–302. doi :10.2307/1932409. JSTOR 1932409. S2CID 53335638.
- ^ Соренсен, Т. (1948). «Метод создания групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на территории Дании». Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34.
- ^ ab Carass, A.; Roy, S.; Gherman, A.; Reinhold, JC; Jesson, A.; et al. (2020). «Оценка сегментации поражений белого вещества с помощью уточненного анализа Серенсена-Дайса». Scientific Reports . 10 (1): 8242. Bibcode :2020NatSR..10.8242C. doi : 10.1038/s41598-020-64803-w . ISSN 2045-2322. PMC 7237671 . PMID 32427874.
- ^ abcdefghij Галлахер, ED, 1999. Документация COMPAH, Массачусетский университет, Бостон
- ^ Nei, M.; Li, WH (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции». PNAS . 76 (10): 5269–5273. Bibcode :1979PNAS...76.5269N. doi : 10.1073/pnas.76.10.5269 . PMC 413122 . PMID 291943.
- ^ Prescott, JW; Pennell, M.; Best, TM; Swanson, MS; Haq, F.; Jackson, R.; Gurcan, MN (2009). «Автоматизированный метод сегментации бедренной кости для исследования остеоартрита». Ежегодная международная конференция IEEE Engineering in Medicine and Biology Society 2009 г. IEEE. стр. 6364–6367. doi :10.1109/iembs.2009.5333257. PMC 2826829 .
- ^ Swanson, MS; Prescott, JW; Best, TM; Powell, K.; Jackson, RD; Haq, F.; Gurcan, MN (2010). «Полуавтоматическая сегментация для оценки латерального мениска в нормальных и остеоартритных коленях». Остеоартрит и хрящ . 18 (3): 344–353. doi :10.1016/j.joca.2009.10.004. ISSN 1063-4584. PMC 2826568. PMID 19857510 .
- ^ ab Zijdenbos, AP; Dawant, BM; Margolin, RA; Palmer, AC (1994). «Морфометрический анализ поражений белого вещества на изображениях МРТ: метод и валидация». IEEE Transactions on Medical Imaging . 13 (4): 716–724. doi :10.1109/42.363096. ISSN 0278-0062. PMID 18218550.
- ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf [ пустой URL-адрес PDF ]
- ^ ван Рейсберген, Корнелис Йост (1979). Информационный поиск. Лондон: Баттервортс. ISBN 3-642-12274-4.
- ^ Kondrak, Grzegorz; Marcu, Daniel; Knight, Kevin (2003). «Cognates Can Improve Statistical Translation Models» (PDF) . Труды HLT-NAACL 2003: Конференция по технологиям естественного языка Североамериканского отделения Ассоциации компьютерной лингвистики . стр. 46–48.
- ^ Шамир, Рубен Р.; Дучин, Ювал; Ким, Джинёнг; Сапиро, Гильермо; Харель, Ноам (2018-04-25). «Непрерывный коэффициент кубика: метод оценки вероятностных сегментаций»: 306977. arXiv : 1906.11031 . doi :10.1101/306977. S2CID 90993940.
- ^ Looman, J.; Campbell, JB (1960). «Адаптация K Соренсена (1948) для оценки сходства единиц в растительности прерий». Ecology . 41 (3): 409–416. doi :10.2307/1933315. JSTOR 1933315.
- ^ Робертс, Д. У. (1986). «Ординация на основе теории нечетких множеств». Vegetatio . 66 (3): 123–131. doi :10.1007/BF00039905. S2CID 12573576.
- ^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Mjm Software Design; ISBN 0-9721290-0-6 .
- ^ Рыхли, П. (2008) Оценка ассоциаций, удобная для лексикографов. Труды Второго семинара по последним достижениям в обработке естественного славянского языка RASLAN 2008: 6–9
- ^ Ондов, Брайан Д. и др. «Mash: быстрая оценка расстояний генома и метагенома с использованием MinHash». Геномная биология 17.1 (2016): 1-14.
- ^ Брей, Дж. Роджер; Кертис, Дж. Т. (1957). «Ординация лесных сообществ нагорья Южного Висконсина». Экологические монографии . 27 (4): 326–349. doi :10.2307/1942268. JSTOR 1942268.
- ^ Аяппа, Инду; Норман, Роберт Г. (2000). «Неинвазивное обнаружение респираторных пробуждений, связанных с усилием (RERA), с помощью носовой канюли/системы датчика давления». Сон . 23 (6): 763–771. doi : 10.1093/sleep/23.6.763 . PMID 11007443.
- ^ Джон Юберсакс. «Индексы необработанного согласия».
Внешние ссылки
Реализация алгоритма Wikibook имеет страницу на тему: Коэффициент Дайса