stringtranslate.com

Коэффициент Дайса-Сёренсена

Коэффициент Дайса-Сёренсена (другие названия см. ниже) — это статистика , используемая для оценки сходства двух образцов . Он был независимо разработан ботаниками Ли Рэймондом Дайсом [1] и Торвальдом Сёренсеном [2] , которые опубликовали свои работы в 1945 и 1948 годах соответственно.

Имя

Индекс известен под несколькими другими названиями, особенно индекс Сёренсена–Дайса , [3] индекс Сёренсена и коэффициент Дайса . Другие вариации включают «коэффициент сходства» или «индекс», такой как коэффициент сходства Дайса ( DSC ). Распространенные альтернативные написания для Сёренсена — это Соренсон , Соеренсон и Сёренсон , и все три также можно увидеть с окончанием –сен ( датская буква ø фонетически эквивалентна немецкой/шведской ö, которая может быть записана как oe в ASCII).

Другие названия включают:

Формула

Первоначальная формула Сёренсена была предназначена для применения к дискретным данным. При наличии двух наборов, X и Y, она определяется как

где | X | и | Y | — мощности двух множеств (т. е. количество элементов в каждом множестве). Индекс Сёренсена равен удвоенному количеству элементов, общих для обоих множеств, делённому на сумму количества элементов в каждом множестве. Эквивалентно, индекс — это размер пересечения как доля среднего размера двух множеств.

Применительно к булевым данным, используя определения истинно положительного (TP), ложно положительного (FP) и ложно отрицательного (FN) результата, его можно записать как

.

Он отличается от индекса Жаккара , который учитывает истинно положительные результаты только один раз как в числителе, так и в знаменателе. DSC — это коэффициент сходства, который находится в диапазоне от 0 до 1. [9] Его можно рассматривать как меру сходства по множествам.

Аналогично индексу Жаккара , операции над множествами можно выразить через векторные операции над бинарными векторами a и b :

что дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.

Для наборов X и Y ключевых слов, используемых при поиске информации , коэффициент может быть определен как удвоенная общая информация (пересечение) по сумме мощностей: [10]

Если рассматривать коэффициент как меру сходства строк , то его можно рассчитать для двух строк, x и y, используя биграммы следующим образом: [11]

где n t — количество биграмм символов, найденных в обеих строках, n x — количество биграмм в строке x , а n y — количество биграмм в строке y . Например, чтобы вычислить сходство между:

night
nacht

Мы найдем набор биграмм в каждом слове:

{ ni, ig, gh, ht}
{ na, ac, ch, ht}

Каждое множество состоит из четырех элементов, а пересечение этих двух множеств состоит только из одного элемента: ht.

Подставляя эти числа в формулу, вычисляем, s  = (2 · 1) / (4 + 4) = 0,25.

Непрерывный коэффициент кубика

Источник: [12]

Для дискретной (бинарной) истинности и непрерывных мер в интервале [0,1] можно использовать следующую формулу:

Где и

c можно вычислить следующим образом:

Если это означает отсутствие пересечения между A и B, то c произвольно устанавливается равным 1.

Отличие от Жаккара

Этот коэффициент не сильно отличается по форме от индекса Жаккара . Фактически, оба они эквивалентны в том смысле, что, имея значение коэффициента Сёренсена–Дайса , можно рассчитать соответствующее значение индекса Жаккара и наоборот, используя уравнения и .

Поскольку коэффициент Сёренсена–Дайса не удовлетворяет неравенству треугольника , его можно считать полуметрической версией индекса Жаккара. [4]

Функция варьируется от нуля до единицы, как Жаккар. В отличие от Жаккара, соответствующая функция разности

не является собственной метрикой расстояния, поскольку не удовлетворяет неравенству треугольника. [4] Простейший контрпример этого дается тремя множествами {a}, {b} и {a,b}, расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных равна одной трети. Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a,b} плюс расстояние между {b} и {a,b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.

Приложения

Коэффициент Сёренсена–Дайса полезен для данных об экологическом сообществе (например, Looman & Campbell, 1960 [13] ). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя его можно обосновать теоретически как пересечение двух нечетких множеств [14] ). По сравнению с евклидовым расстоянием , расстояние Сёренсена сохраняет чувствительность в более неоднородных наборах данных и придает меньший вес выбросам. [15] В последнее время оценка Дайса (и ее вариации, например, logDice, логарифмирующий ее) стала популярной в компьютерной лексикографии для измерения оценки лексической ассоциации двух заданных слов. [16] logDice также используется как часть расстояния Mash для оценки расстояния генома и метагенома [17] Наконец, Dice используется в сегментации изображений , в частности, для сравнения выходных данных алгоритма с эталонными масками в медицинских приложениях. [8]

Версия изобилия

Выражение легко распространяется на обилие вместо наличия/отсутствия видов. Эта количественная версия известна под несколькими названиями:

Смотрите также

Ссылки

  1. ^ Дайс, Ли Р. (1945). «Измерения количества экологической ассоциации между видами». Экология . 26 (3): 297–302. doi :10.2307/1932409. JSTOR  1932409. S2CID  53335638.
  2. ^ Соренсен, Т. (1948). «Метод создания групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на территории Дании». Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34.
  3. ^ ab Carass, A.; Roy, S.; Gherman, A.; Reinhold, JC; Jesson, A.; et al. (2020). «Оценка сегментации поражений белого вещества с помощью уточненного анализа Серенсена-Дайса». Scientific Reports . 10 (1): 8242. Bibcode :2020NatSR..10.8242C. doi : 10.1038/s41598-020-64803-w . ISSN  2045-2322. PMC 7237671 . PMID  32427874. 
  4. ^ abcdefghij Галлахер, ED, 1999. Документация COMPAH, Массачусетский университет, Бостон
  5. ^ Nei, M.; Li, WH (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции». PNAS . 76 (10): 5269–5273. Bibcode :1979PNAS...76.5269N. doi : 10.1073/pnas.76.10.5269 . PMC 413122 . PMID  291943. 
  6. ^ Prescott, JW; Pennell, M.; Best, TM; Swanson, MS; Haq, F.; Jackson, R.; Gurcan, MN (2009). «Автоматизированный метод сегментации бедренной кости для исследования остеоартрита». Ежегодная международная конференция IEEE Engineering in Medicine and Biology Society 2009 г. IEEE. стр. 6364–6367. doi :10.1109/iembs.2009.5333257. PMC 2826829 . 
  7. ^ Swanson, MS; Prescott, JW; Best, TM; Powell, K.; Jackson, RD; Haq, F.; Gurcan, MN (2010). «Полуавтоматическая сегментация для оценки латерального мениска в нормальных и остеоартритных коленях». Остеоартрит и хрящ . 18 (3): 344–353. doi :10.1016/j.joca.2009.10.004. ISSN  1063-4584. PMC 2826568. PMID 19857510  . 
  8. ^ ab Zijdenbos, AP; Dawant, BM; Margolin, RA; Palmer, AC (1994). «Морфометрический анализ поражений белого вещества на изображениях МРТ: метод и валидация». IEEE Transactions on Medical Imaging . 13 (4): 716–724. doi :10.1109/42.363096. ISSN  0278-0062. PMID  18218550.
  9. ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf [ пустой URL-адрес PDF ]
  10. ^ ван Рейсберген, Корнелис Йост (1979). Информационный поиск. Лондон: Баттервортс. ISBN 3-642-12274-4.
  11. ^ Kondrak, Grzegorz; Marcu, Daniel; Knight, Kevin (2003). «Cognates Can Improve Statistical Translation Models» (PDF) . Труды HLT-NAACL 2003: Конференция по технологиям естественного языка Североамериканского отделения Ассоциации компьютерной лингвистики . стр. 46–48.
  12. ^ Шамир, Рубен Р.; Дучин, Ювал; Ким, Джинёнг; Сапиро, Гильермо; Харель, Ноам (2018-04-25). «Непрерывный коэффициент кубика: метод оценки вероятностных сегментаций»: 306977. arXiv : 1906.11031 . doi :10.1101/306977. S2CID  90993940. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  13. ^ Looman, J.; Campbell, JB (1960). «Адаптация K Соренсена (1948) для оценки сходства единиц в растительности прерий». Ecology . 41 (3): 409–416. doi :10.2307/1933315. JSTOR  1933315.
  14. ^ Робертс, Д. У. (1986). «Ординация на основе теории нечетких множеств». Vegetatio . 66 (3): 123–131. doi :10.1007/BF00039905. S2CID  12573576.
  15. ^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Mjm Software Design; ISBN 0-9721290-0-6
  16. ^ Рыхли, П. (2008) Оценка ассоциаций, удобная для лексикографов. Труды Второго семинара по последним достижениям в обработке естественного славянского языка RASLAN 2008: 6–9
  17. ^ Ондов, Брайан Д. и др. «Mash: быстрая оценка расстояний генома и метагенома с использованием MinHash». Геномная биология 17.1 (2016): 1-14.
  18. ^ Брей, Дж. Роджер; Кертис, Дж. Т. (1957). «Ординация лесных сообществ нагорья Южного Висконсина». Экологические монографии . 27 (4): 326–349. doi :10.2307/1942268. JSTOR  1942268.
  19. ^ Аяппа, Инду; Норман, Роберт Г. (2000). «Неинвазивное обнаружение респираторных пробуждений, связанных с усилием (RERA), с помощью носовой канюли/системы датчика давления». Сон . 23 (6): 763–771. doi : 10.1093/sleep/23.6.763 . PMID  11007443.
  20. ^ Джон Юберсакс. «Индексы необработанного согласия».

Внешние ссылки