Качественная вариация

Индекс качественной вариации ( IQV ) является мерой статистической дисперсии номинальных распределений . Их существует множество, но они сравнительно мало изучены в статистической литературе. Самым простым является коэффициент вариации , а к более сложным показателям относится информационная энтропия .

Характеристики

Существует несколько типов индексов, используемых для анализа номинальных данных. Некоторые из них являются стандартными статистическими данными, которые используются в других местах: диапазон , стандартное отклонение , дисперсия , среднее отклонение , коэффициент вариации , медианное абсолютное отклонение , межквартильный размах и квартильное отклонение .

В дополнение к этому были разработаны некоторые статистические данные с учетом номинальных данных. Некоторые из них были обобщены и разработаны Уилкоксом (Wilcox 1967), (Wilcox 1973), который требует соблюдения следующих свойств стандартизации:

Вариация варьируется от 0 до 1.
Вариация равна 0 тогда и только тогда, когда все случаи принадлежат одной категории.
Вариация равна 1 тогда и только тогда, когда случаи равномерно распределены по всем категориям. ^[1]

В частности, значение этих стандартизированных индексов не зависит от количества категорий или количества образцов.

Для любого индекса, чем ближе к равномерному распределению, тем больше дисперсия и чем больше различия в частотах между категориями, тем меньше дисперсия.

Индексы качественных вариаций тогда аналогичны информационной энтропии , которая минимизируется, когда все случаи принадлежат одной категории, и максимизируется при равномерном распределении. Действительно, информационную энтропию можно использовать как показатель качественных изменений.

Одной из характеристик конкретного индекса качественных вариаций (IQV) является отношение наблюдаемых различий к максимальным различиям.

Индексы Уилкокса

Уилкокс дает ряд формул для различных показателей QV (Wilcox 1973), первая, которую он называет DM для «отклонения от моды», представляет собой стандартизированную форму коэффициента вариации и аналогична дисперсии как отклонению от среднего значения. .

МодВР

Формула изменения режима (ModVR) выводится следующим образом:

M=\sum _{i=1}^{K}(f_{m}-f_{i})

где f _m — модальная частота, K — количество категорий и f _i — частота i - ^й группы.

Это можно упростить до

M=Kf_{m}-N

где N — общий размер выборки.

Индекс Фримена (или коэффициент вариации) равен ^[2]

v=1-{\frac {f_{m}}{N}}

Это связано с М следующим образом:

{\frac {({\frac {f_{m}}{N}})-{\frac {1}{K}}}{{\frac {N}{K}}{\frac {( К-1)}{N}}}}={\frac {M}{N(K-1)}}

ModVR определяется как

\operatorname {ModVR} =1-{\frac {Kf_{m}-N}{N(K-1)}} = {\frac {K(N-f_{m})}{N(K -1)}}={\frac {Kv}{K-1}}

где v — индекс Фримена.

Низкие значения ModVR соответствуют небольшому количеству вариаций, а высокие значения — большему количеству вариаций.

Когда K велико, ModVR примерно равен индексу Фримена v .

РанВР

Это зависит от диапазона вокруг режима. Это определено как

\operatorname {RanVR} =1- {\frac {f_{m}-f_{l}}{f_{m}}}={\frac {f_{l}}{f_{m}}}

где f _m — модальная частота, а f _l — самая низкая частота.

AvDev

Это аналог среднего отклонения. Оно определяется как среднее арифметическое абсолютных отличий каждого значения от среднего.

\operatorname {AvDev} =1- {\frac {1}{2N}}{\frac {K}{K-1}}\sum _{i=1}^{K}\left|f_{ i}-{\frac {N}{K}}\right|

МНДиф

Это аналог средней разности — среднего значения разностей всех возможных пар значений переменных, взятых независимо от знака. Средняя разница отличается от среднего и стандартного отклонения, поскольку она зависит от разброса значений переменных между собой, а не от отклонений от некоторого центрального значения. ^[3]

\operatorname {MNDif} =1- {\frac {1}{N(K-1)}}\sum _{i=1}^{K-1}\sum _{j=i+1} ^{K}|f_{i}-f_{j}|

где f _i и f _j — i ^-я и j- ^я частоты соответственно.

MNDif — это коэффициент Джини , применяемый к качественным данным.

ВарNC

Это аналог дисперсии.

\operatorname {VarNC} =1- {\frac {1}{N^{2}}}{\frac {K}{K-1}}\sum \left(f_{i}-{\frac {N}{K}}\вправо)^{2}

Это тот же индекс, что и индекс качественной изменчивости Мюллера и Шюсслера ^[4] и индекс М2 Гиббса.

Она распределяется как переменная хи-квадрат с K – 1 степенями свободы . ^[5]

стандартное отклонение

Уилсон предложил две версии этой статистики.

Первый основан на AvDev.

\operatorname {StDev} _{1}=1-{\sqrt {\frac {\sum _{i=1}^{K}\left(f_{i}-{\frac {N}{K) }}\right)^{2}}{\left(N-{\frac {N}{K}}\right)^{2}+(K-1)\left({\frac {N}{K }}\вправо)^{2}}}}

Второй основан на MNDif

\operatorname {StDev} _{2}=1-{\sqrt {\frac {\sum _{i=1}^{K-1}\sum _{j=i+1}^{K} (f_{i}-f_{j})^{2}}{N^{2}(K-1)}}}

HRel

Этот индекс был первоначально разработан Клодом Шенноном для использования при определении свойств каналов связи.

\operatorname {HRel} = {\frac {-\sum p_{i}\log _{2}p_{i}}{\log _{2}K}}

где п _я знак равно ж _я / N .

Это эквивалентно информационной энтропии , разделенной на и полезно для сравнения относительных вариаций между таблицами частот разных размеров. $\log _{2}(K)$

Индекс Б

Уилкокс адаптировал предложение Кайзера ^[6] на основе среднего геометрического и создал индекс B' . Индекс B определяется как

B=1-{\sqrt {1-\left[{\sqrt[{k}]{\prod _{i=1}^{k}{\frac {f_{i}K}{N} }}}\,\вправо]^{2}}}

R-пакеты

Некоторые из этих индексов реализованы на языке R. ^[7]

Индексы Гибба и связанные с ними формулы

Гиббс и Постон-младший (1975) предложили шесть индексов. ^[8]

М 1

Нестандартизированный индекс ( M 1) (Гиббс и Постон-младший, 1975, стр. 471) равен

M1=1-\sum _{i=1}^{K}p_{i}^{2}

где K — количество категорий и — доля наблюдений, попадающих в данную категорию i . $p_{i}=f_{i}/N$

M 1 можно интерпретировать как единицу минус вероятность того, что случайная пара образцов будет принадлежать к одной и той же категории, ^[9] поэтому эта формула для IQV представляет собой стандартизированную вероятность попадания случайной пары в одну и ту же категорию. Этот индекс также называют индексом дифференциации, индексом дифференциации средств к существованию и индексом географической дифференциации в зависимости от контекста, в котором он использовался.

М 2

Второй индекс — M2 ^[10] (Гиббс и Постон-младший, 1975, стр. 472):

M2={\frac {K}{K-1}}\left(1-\sum _{i=1}^{K}p_{i}^{2}\right)

где K — количество категорий и — доля наблюдений, попадающих в данную категорию i . Фактор предназначен для стандартизации. $p_{i}=f_{i}/N$ ${\frac {K}{K-1}}$

M 1 и M 2 можно интерпретировать как дисперсию полиномиального распределения (Swanson 1976) (так называемую «расширенную биномиальную модель»). M 1 представляет собой дисперсию полиномиального распределения, а M 2 представляет собой отношение дисперсии полиномиального распределения к дисперсии биномиального распределения .

М 4

Индекс М 4

M4={\frac {\sum _{i=1}^{K}|X_{i}-m|}{2\sum _{i=1}^{K}X_{i}}}

где m — среднее значение.

М 6

Формула для М 6:

M6=K\left[1-{\frac {\sum _{i=1}^{K}|X_{i}-m|}{2N}}\right]

· где K — количество категорий, X _i — количество точек данных в i- ^й категории, N — общее количество точек данных, || - абсолютное значение (модуль) и

m={\frac {\sum _{i=1}^{K}X_{i}}{N}}

Эту формулу можно упростить

M6=K\left[1-{\frac {\sum _{i=1}^{K}\left|p_{i}-{\frac {1}{N}}\right|}{ 2}}\вправо]

где p _i — доля выборки в i- ^й категории.

На практике M 1 и M 6 имеют тенденцию сильно коррелировать, что препятствует их совместному использованию.

Связанные индексы

Сумма

\sum _{i=1}^{K}p_{i}^{2}

также нашел применение. Это известно как индекс Симпсона в экологии и как индекс Герфиндаля или индекс Герфиндаля-Хиршмана (HHI) в экономике. Вариант этого известен в микробиологии как индекс Хантера-Гастона ^[11].

В лингвистике и криптоанализе эта сумма известна как частота повторений. Частота совпадений ( IC ) является несмещенной оценкой этой статистики ^[12]

\operatorname {IC} =\sum {\frac {f_{i}(f_{i}-1)}{n(n-1)}}

где f _i — количество i- ^й графемы в тексте, а n — общее количество графем в тексте.

М 1

Определенная выше статистика M 1 предлагалась несколько раз в различных условиях под разными названиями. К ним относятся индекс изменчивости Джини, ^[13] показатель разнообразия Симпсона, ^[14] индекс лингвистической однородности Бачи, ^[15] индекс качественного разнообразия Мюллера и Шюсслера, ^[16] индекс отраслевой диверсификации Гиббса и Мартина, ^[17] индекс Либерсона. индекс. ^[18] и индекс Блау в социологии, психологии и исследованиях менеджмента. ^[19] Формулировки всех этих индексов идентичны.

D Симпсона определяется как

D=1-\sum _{i=1}^{K}{\frac {n_{i}(n_{i}-1)}{n(n-1)}}

где n — общий размер выборки, а n _i — количество элементов в i- ^й категории.

Для больших n имеем

u\sim 1-\sum _{i=1}^{K}p_{i}^{2}

Другая предложенная статистика — это коэффициент несходства, который колеблется от 0 до 1. ^[20]

u={\frac {c(x,y)}{n^{2}-n}}

где n — размер выборки, а c ( x , y ) = 1, если x и y одинаковы, и 0 в противном случае.

Для больших n имеем

u\sim 1-\sum _{i=1}^{K}p_{i}^{2}

где К — количество категорий.

Другая связанная статистика - это квадратичная энтропия.

H^{2}=2\left(1-\sum _{i=1}^{K}p_{i}^{2}\right)

что само по себе связано с индексом Джини .

М 2

Одноязычный невзвешенный индекс языкового разнообразия Гринберга ^[21] представляет собой статистику М 2 , определенную выше.

М 7

Другой индекс – М 7 – был создан на основе индекса М 4 Гиббса и Постона-младшего (1975) ^[22]

M7={\frac {\sum _{i=1}^{K}\sum _{j=1}^{L}|R_{i}-R|}{2\sum R_{i}}}

где

R_{ij}={\frac {O_{ij}}{E_{ij}}}={\frac {O_{ij}}{n_{i}p_{j}}}

R={\frac {\sum _{i=1}^{K}\sum _{j=1}^{L}R_{ij}}{\sum _{i=1}^{K}n_{i}}}

где K — количество категорий, L — количество подтипов, O _ij и E _ij — количество наблюдаемых и ожидаемых соответственно подтипа j в i- ^й категории, n _i — количество в i- ^й категории, а p _j — доля подтипа j в полной выборке.

Примечание. Этот индекс был разработан для измерения участия женщин на рабочем месте: он был разработан для двух подтипов: мужчин и женщин.

Другие индексы единичной выборки

Эти индексы представляют собой сводную статистику вариаций внутри выборки.

Индекс Бергера-Паркера

Индекс Бергера-Паркера равен максимальному значению в наборе данных, т.е. пропорциональному обилию наиболее распространенного типа. ^[23] Это соответствует взвешенному обобщенному среднему значению, когда q приближается к бесконечности, и, следовательно, равно обратному истинному разнообразию порядка бесконечности (1/ ^∞D ). $p_{i}$ $p_{i}$

Индекс разнообразия Бриллюэна

Этот индекс строго применим только ко всей совокупности, а не к конечным выборкам. Это определяется как

I_{B}={\frac {\log(N!)-\sum _{i=1}^{K}(\log(n_{i}!))}{N}}

где N — общее количество особей в популяции, n _i — количество особей в i- ^й категории и N ! является факториалом N. _ _ Показатель четности Бриллюэна определяется как

E_{B}=I_{B}/I_{B(\max )}

где I _{B (max)} — максимальное значение I _B .

Числа разнообразия Хилла

Хилл предложил семейство чисел разнообразия ^[24]

N_{a}={\frac {1}{\left[\sum _{i=1}^{K}p_{i}^{a}\right]^{a-1}}}

Для заданных значений a можно вычислить несколько других индексов.

a = 0: N _a = видовое богатство
a = 1: N _a = индекс Шеннона
a = 2: N _a = 1/индекс Симпсона (без поправки на малую выборку)
a = 3: N _a = 1/индекс Бергера–Паркера

Хилл также предложил семейство мер ровности.

E_{a,b}={\frac {N_{a}}{N_{b}}}

где а > б .

Хиллс Е ₄ _

E_{4}={\frac {N_{2}}{N_{1}}}

Хиллс Е ₅ _

E_{5}={\frac {N_{2}-1}{N_{1}-1}}

Индекс Маргалефа

I_{\text{Marg}}={\frac {S-1}{\log _{e}N}}

где S — количество типов данных в выборке, а N — общий размер выборки. ^[25]

Индекс Менхиника

I_{\mathrm {Men} }={\frac {S}{\sqrt {N}}}

где S — количество типов данных в выборке, а N — общий размер выборки. ^[26]

В лингвистике этот индекс идентичен индексу Курашкевича (индексу Гийарда), где S — количество отдельных слов (типов), а N — общее количество слов (лексем) в исследуемом тексте. ^[27]^[28] Этот индекс может быть получен как частный случай обобщенной функции Торквиста. ^[29]

Q-статистика

Это статистика, придуманная Кемптоном и Тейлором. ^[30] и включает в себя квартили выборки. Это определяется как

Q={\frac {{\frac {1}{2}}(n_{R1}+n_{R2})+\sum _{j=R_{1}+1}^{R_{2}-1}n_{j}}{\log(R_{2}/R_{1})}}

где R ₁ и R ₁ — квартили 25% и 75% соответственно на кумулятивной кривой видов, n _j — количество видов в j _-й категории, n _Ri — количество видов в классе, куда попадает R _i ( i = 1 или 2).

Индекс Шеннона – Винера

Это взято из теории информации

H=\log _{e}N-{\frac {1}{N}}\sum n_{i}p_{i}\log(p_{i})

где N — общее количество в выборке, а pi _— доля в i- ^й категории.

В экологии, где обычно используется этот индекс, Н обычно лежит в пределах 1,5–3,5 и лишь изредка превышает 4,0.

Приблизительная формула для стандартного отклонения (SD) H :

\operatorname {SD} (H)={\frac {1}{N}}\left[\sum p_{i}[\log _{e}(p_{i})]^{2}-H^{2}\right]

где p _i — доля i- ^й категории, а N — общее количество в выборке.

Более точное приближенное значение дисперсии H (var( H )) дается формулой ^[31]

\operatorname {var} (H)={\frac {\sum p_{i}[\log(p_{i})]^{2}-\left[\sum p_{i}\log(p_{i})\right]^{2}}{N}}+{\frac {K-1}{2N^{2}}}+{\frac {-1+\sum p_{i}^{2}-\sum p_{i}^{-1}\log(p_{i})+\sum p_{i}^{-1}\sum p_{i}\log(p_{i})}{6N^{3}}}

где N — размер выборки, а K — количество категорий.

Родственным индексом является индекс Пиелоу J , определяемый как

J={\frac {H}{\log _{e}(S)}}

Одна из трудностей с этим индексом заключается в том, что S неизвестна для конечной выборки. На практике S обычно устанавливается на максимальное значение, присутствующее в любой категории выборки.

Энтропия Реньи

Энтропия Реньи представляет собой обобщение энтропии Шеннона на другие значения q , кроме единицы. Это может быть выражено:

{}^{q}H={\frac {1}{1-q}}\;\ln \left(\sum _{i=1}^{K}p_{i}^{q}\right)

что равно

{}^{q}H=\ln \left({1 \over {\sqrt[{q-1}]{\sum _{i=1}^{K}p_{i}p_{i}^{q-1}}}}\right)=\ln({}^{q}\!D)

Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q .

Значение также известно как число Хилла. ^[24] ${}^{q}\!D$

Макинтош D и E

Макинтош предложил меру разнообразия: ^[32]

I={\sqrt {\sum _{i=1}^{K}n_{i}^{2}}}

где n _i — число в i- ^й категории, а K — количество категорий.

Он также предложил несколько нормализованных версий этого индекса. Во-первых, это Д :

D={\frac {N-I}{N-{\sqrt {N}}}}

где N — общий размер выборки.

Преимущество этого индекса состоит в том, что он выражает наблюдаемое разнообразие как долю абсолютного максимального разнообразия при данном N.

Другая предложенная нормализация — это E — отношение наблюдаемого разнообразия к максимально возможному разнообразию заданных N и K (т.е. если все виды равны по числу особей):

E={\frac {N-I}{N-{\frac {N}{K}}}}

Альфа Фишера

Это был первый индекс разнообразия. ^[33]

$K=\alpha \ln(1+{\frac {N}{\alpha }})$

где K — количество категорий, а N — количество точек данных в выборке. α Фишера должна быть оценена численно на основе данных.

Ожидаемое число особей в r- ^й категории, где категории расположены в возрастающем размере, равно

\operatorname {E} (n_{r})=\alpha {\frac {X^{r}}{r}}

где X — эмпирический параметр, лежащий между 0 и 1. Хотя X лучше всего оценить численно, приближенное значение можно получить, решив следующие два уравнения:

N={\frac {\alpha X}{1-X}}

K=-\alpha \ln(1-X)

где K — количество категорий, а N — общий размер выборки.

Дисперсия α примерно равна ^[34]

\operatorname {var} (\alpha )={\frac {\alpha }{\ln(X)(1-X)}}

Индекс Стронга

Этот индекс ( D _w ) представляет собой расстояние между кривой Лоренца распределения видов и линией 45 градусов. Он тесно связан с коэффициентом Джини. ^[35]

В символах это

D_{w}=max[{\frac {c_{i}}{K}}-{\frac {i}{N}}]

где max() — максимальное значение, полученное по N точкам данных, K — количество категорий (или видов) в наборе данных, а c _i — совокупная сумма, включая i- _ю категорию.

Симпсон E

Это связано с D Симпсона и определяется как

E={\frac {1/D}{K}}

где D — D Симпсона, а K — количество категорий в выборке.

Индексы Смита и Вильсона

Смит и Уилсон предложили ряд индексов, основанных на D Симпсона .

E_{1}={\frac {1-D}{1-{\frac {1}{K}}}}

E_{2}={\frac {\log _{e}(D)}{\log _{e}(K)}}

где D — D по Симпсону, а K — количество категорий.

Индекс Хейпа

E={\frac {e^{H}-1}{K-1}}

где H — энтропия Шеннона, а K — количество категорий.

Этот индекс тесно связан с индексом Шелдона, который

E={\frac {e^{H}}{K}}

где H — энтропия Шеннона, а K — количество категорий.

Индекс Камарго

Этот индекс был создан Камарго в 1993 году. ^[36]

$E=1-\sum _{i=1}^{K}\sum _{j=i+1}^{K}{\frac {p_{i}-p_{j}}{K}}$

где K — количество категорий, а pi _— доля в i- ^й категории.

Смит и Уилсон Б

Этот индекс был предложен Смитом и Уилсоном в 1996 году. ^[37]

B=1-{\frac {2}{\pi }}\arctan(\theta )

где θ — наклон кривой логарифмического ранга (обилия).

Индекс Ни, Харви и Котгрива

Это наклон логарифмической кривой (изобилия)-ранга.

Булла'с Е

Существует две версии этого индекса — одна для непрерывных распределений ( E _c ) и другая для дискретных ( E _d ). ^[38]

E_{c}={\frac {O-{\frac {1}{K}}}{1-{\frac {1}{K}}}}

E_{d}={\frac {O-{\frac {1}{K}}-{\frac {K-1}{N}}}{1-{\frac {1}{K}}-{\frac {K-1}{N}}}}

где

O=1-{\frac {1}{2}}\left|p_{i}-{\frac {1}{K}}\right|

– индекс Шёнера – Чеканоски, K – количество категорий, а N – размер выборки.

Индекс теории информации Хорна

Этот индекс ( R _ik ) основан на энтропии Шеннона. ^[39] Это определяется как

R_{ik}={\frac {H_{\max }-H_{\mathrm {obs} }}{H_{\max }-H_{\min }}}

где

X=\sum x_{ij}

X=\sum x_{kj}

H(X)=\sum {\frac {x_{ij}}{X}}\log {\frac {X}{x_{ij}}}

H(Y)=\sum {\frac {x_{kj}}{Y}}\log {\frac {Y}{x_{kj}}}

H_{\min }={\frac {X}{X+Y}}H(X)+{\frac {Y}{X+Y}}H(Y)

H_{\max }=\sum \left({\frac {x_{ij}}{X+Y}}\log {\frac {X+Y}{x_{ij}}}+{\frac {x_{kj}}{X+Y}}\log {\frac {X+Y}{x_{kj}}}\right)

H_{\mathrm {obs} }=\sum {\frac {x_{ij}+x_{kj}}{X+Y}}\log {\frac {X+Y}{x_{ij}+x_{kj}}}

В этих уравнениях x _ij и x _kj — это количество раз, когда j ^-й тип данных появляется в i ^-й или k ^-й выборке соответственно.

Индекс разрежения

В разреженной выборке из общего числа N элементов выбирается случайная подвыборка n . В этой выборке некоторые группы могут обязательно отсутствовать в этой подвыборке. Пусть – количество групп, все еще присутствующих в подвыборке из n элементов. меньше K — количество категорий, если в этой подвыборке отсутствует хотя бы одна группа. $X_{n}$ $X_{n}$

Кривая разрежения определяется как: $f_{n}$

f_{n}=\operatorname {E} [X_{n}]=K-{\binom {N}{n}}^{-1}\sum _{i=1}^{K}{\binom {N-N_{i}}{n}}

Обратите внимание, что 0 ≤ f ( n ) ≤ K .

Более того,

f(0)=0,\ f(1)=1,\ f(N)=K.

Несмотря на то, что эти кривые определяются при дискретных значениях n , чаще всего они отображаются как непрерывные функции. ^[40]

Этот индекс обсуждается далее в разделе «Разрежение (экология)» .

Касвеллс V

Это статистика типа z , основанная на энтропии Шеннона. ^[41]

V={\frac {H-\operatorname {E} (H)}{\operatorname {SD} (H)}}

где H — энтропия Шеннона, E ( H ) — ожидаемая энтропия Шеннона для нейтральной модели распределения, а SD ( H ) — стандартное отклонение энтропии. Стандартное отклонение оценивается по формуле, полученной Пьелу.

SD(H)={\frac {1}{N}}\left[\sum p_{i}[\log _{e}(p_{i})]^{2}-H^{2}\right]

где p _i — доля i- ^й категории, а N — общее количество в выборке.

Индекс Ллойда и Геларди

Это

I_{LG}={\frac {K}{K'}}

где K — количество категорий, а K’ — количество категорий в соответствии с моделью сломанной палки Макартура, дающей наблюдаемое разнообразие.

Средний индекс таксономической отличимости

Этот индекс используется для сравнения взаимоотношений между хозяевами и их паразитами. ^[42] Он включает информацию о филогенетических отношениях между видами-хозяевами.

S_{TD}=2{\frac {\sum \sum _{i<j}\omega _{ij}}{s(s-1)}}

где s — количество видов хозяев, используемых паразитом, а ω _ij — таксономическое различие между видами хозяев i и j .

Индекс качественной вариации

Было предложено несколько индексов с таким названием.

Один из них

IQV={\frac {K(100^{2}-\sum _{i=1}^{K}p_{i}^{2})}{100^{2}(K-1)}}={\frac {K}{K-1}}(1-\sum _{i=1}^{K}(p_{i}/100)^{2})

где K — количество категорий, а pi _— доля выборки, принадлежащая i- ^й категории.

Тейлс Х

Этот индекс также известен как индекс мультигрупповой энтропии или индекс теории информации. Он был предложен Тейлом в 1972 году. ^[43] Индекс представляет собой средневзвешенное значение энтропии выборки.

Позволять

E_{a}=\sum _{i=1}^{a}p_{i}log(p_{i})

$H=\sum _{i=1}^{r}{\frac {n_{i}(E-E_{i})}{NE}}$

где p _i — доля типа i в a- ^й выборке, r — общее количество выборок, n _i — размер i- ^й выборки, N — размер популяции, из которой были получены выборки, а E — Энтропия населения.

Индексы для сравнения двух или более типов данных в одной выборке.

Некоторые из этих индексов были разработаны для документирования степени, в которой различные типы данных, представляющие интерес, могут сосуществовать в пределах географической области.

Индекс несходства

Пусть A и B — два типа элементов данных. Тогда индекс несходства равен

D={\frac {1}{2}}\sum _{i=1}^{K}\left|{\frac {A_{i}}{A}}-{\frac {B_{i}}{B}}\right|

где

A=\sum _{i=1}^{K}A_{i}

B=\sum _{i=1}^{K}B_{i}

A _i — количество типов данных A на сайте выборки i , B _i — количество типов данных B на сайте выборки i , K — количество сайтов, выбранных для выборки, и || является абсолютной величиной.

Этот индекс, вероятно, более известен как индекс несходства ( D ). ^[44] Он тесно связан с индексом Джини.

Этот индекс является смещенным, поскольку его математическое ожидание при равномерном распределении > 0.

Модификация этого индекса была предложена Горардом и Тейлором. ^[45] Их индекс (GT) составляет

GT=D\left(1-{\frac {A}{A+B}}\right)

Индекс сегрегации

Индекс сегрегации ( IS ) ^[46] составляет

SI={\frac {1}{2}}\sum _{i=1}^{K}\left|{\frac {A_{i}}{A}}-{\frac {t_{i}-A_{i}}{T-A}}\right|

где

A=\sum _{i=1}^{K}A_{i}

T=\sum _{i=1}^{K}t_{i}

и K — количество единиц, A _i и t _i — количество типов данных A в единице i и общее количество всех типов данных в единице i .

Индекс квадратного корня Хатчена

Этот индекс ( H ) определяется как ^[47]

H=1-\sum _{i=1}^{K}\sum _{j=1}^{i}{\sqrt {p_{i}p_{j}}}

где p _i — доля выборки, состоящая из i- ^й вариации.

Индекс изоляции Либерсона

Этот индекс ( L _xy ) был изобретен Либерсоном в 1981 году. ^[48]

L_{xy}={\frac {1}{N}}\sum _{i=1}^{K}{\frac {X_{i}Y_{i}}{X_{\mathrm {tot} }}}

где X _i и Y _i — представляющие интерес переменные на i- ^м сайте, K — количество исследованных сайтов, а X _tot — общее количество вариантов типа X в исследовании.

индекс Белла

Этот индекс определяется как ^[49]

I_{R}={\frac {p_{xx}-p_{x}}{1-p_{x}}}

где p _x — доля выборки, состоящая из вариантов типа X и

p_{xx}={\frac {\sum _{i=1}^{K}x_{i}p_{i}}{N_{x}}}

где N _x — общее количество вариаций типа X в исследовании, K — количество выборок в исследовании, а xi и pi _— количество _{вариаций} и доля вариаций типа X соответственно в i- ^й выборке . .

Индекс изоляции

II=\sum _{i=1}^{K}{\frac {A_{i}}{A}}{\frac {A_{i}}{t_{i}}}

где K — количество единиц в исследовании, A _i и t _i — количество единиц типа A и количество всех единиц в i- _й выборке.

Также был предложен модифицированный индекс изоляции.

MII={\frac {II-{\frac {A}{T}}}{1-{\frac {A}{T}}}}

MII находится между 0 и 1 .

Индекс сегрегации Горара

Этот индекс (GS) определяется как

GS={\frac {1}{2}}\sum _{i=1}^{K}\left|{\frac {A_{i}}{A}}-{\frac {t_{i}}{T}}\right|

где

A=\sum _{i=1}^{K}A_{i}

T=\sum _{i=1}^{K}t_{i}

и A _i и t _i — количество элементов данных типа A и общее количество элементов в i- ^й выборке.

Индекс воздействия

Этот индекс определяется как

IE=\sum _{i=1}^{K}{\frac {A_{i}}{A}}{\frac {B_{i}}{t_{i}}}

где

A=\sum _{i=1}^{K}A_{i}

и A _i и B _i — количество типов A и B в i- ^й категории, а t _i — общее количество точек данных в i- ^й категории.

Индекс Очиай

Это двоичная форма индекса косинуса. ^[50] Он используется для сравнения данных о присутствии/отсутствии двух типов данных (здесь A и B ). Это определяется как

O={\frac {a}{\sqrt {(a+b)(a+c)}}}

где a — количество единиц выборки, в которых обнаружены как A, так и B , b — количество единиц выборки, в которых встречается A , но не B , и c — количество единиц выборки, в которых присутствует тип B , но не тип A.

Коэффициент Кульчинского

Этот коэффициент был изобретен Станиславом Кульчинским в 1927 году ^[51] и является показателем ассоциации между двумя типами (здесь A и B ). Его значение варьируется от 0 до 1. Оно определяется как

K={\frac {a}{2}}\left({\frac {1}{a+b}}+{\frac {1}{a+c}}\right)

где a — количество единиц выборки, в которых присутствуют тип A и тип B , b — количество единиц выборки, в которых присутствует тип A , но не тип B , и c — количество единиц выборки, в которых присутствует тип B , но не тип A. .

Вопрос Йоля

Этот индекс был изобретен Юлом в 1900 году. ^[52] Он касается ассоциации двух разных типов (здесь A и B ). Это определяется как

Q={\frac {ad-bc}{ad+bc}}

где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. Значение Q варьируется от -1 до +1. В порядковом случае Q известен как γ Гудмана-Краскала .

Поскольку знаменатель потенциально может быть равен нулю, Лейнхерт и Спорер рекомендовали добавлять +1 к a , b , c и d . ^[53]

Йоль Y

Этот индекс определяется как

Y={\frac {{\sqrt {ad}}-{\sqrt {bc}}}{{\sqrt {ad}}+{\sqrt {bc}}}}

Коэффициент Барони – Урбани – Бузера

Этот индекс был изобретен Барони-Урбани и Бузером в 1976 году. ^[54] Его значение варьируется от 0 до 1. Это определяется как

$BUB={\frac {{\sqrt {ad}}+a}{{\sqrt {ad}}+a+b+c}}={\frac {{\sqrt {ad}}+a}{N+{\sqrt {ad}}-d}}=1-{\frac {N-(a-d)}{N+{\sqrt {ad}}-d}}$

При d = 0 этот индекс идентичен индексу Жаккара.

Коэффициент Хаммана

Этот коэффициент определяется как

H={\frac {(a+d)-(b+c)}{a+b+c+d}}={\frac {(a+d)-(b+c)}{N}}

Коэффициент Роджерса – Танимото

Этот коэффициент определяется как

RT={\frac {a+d}{a+2(b+c)+d}}={\frac {a+d}{N+b+c}}

Коэффициент Сокала – Снита

Этот коэффициент определяется как

SS={\frac {2(a+d)}{2(a+d)+b+c}}={\frac {2(a+d)}{N+a+d}}

Бинарное расстояние Сокаля

Этот коэффициент определяется как

SBD={\sqrt {\frac {b+c}{a+b+c+d}}}={\sqrt {\frac {b+c}{N}}}

Коэффициент Рассела – Рао

Этот коэффициент определяется как

RR={\frac {a}{a+b+c+d}}={\frac {a}{N}}

Коэффициент Фи

Этот коэффициент определяется как

\varphi ={\frac {ad-bc}{\sqrt {(a+b)(a+c)(b+c)(c+d)}}}

Коэффициент Зергеля

Этот коэффициент определяется как

S={\frac {b+c}{b+c+d}}={\frac {b+c}{N-a}}

где b — количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

Коэффициент Симпсона

Этот коэффициент определяется как

S={\frac {a}{a+\min(b,c)}}

где b — количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A.

Коэффициент Денниса

Этот коэффициент определяется как

D={\frac {ad-bc}{\sqrt {(a+b+c+d)(a+b)(a+c)}}}={\frac {ad-bc}{\sqrt {N(a+b)(a+c)}}}

Коэффициент Форбса

Этот коэффициент был предложен Стивеном Альфредом Форбсом в 1907 году. ^[55] Он определяется как

F={\frac {aN}{(a+b)(a+c)}}

где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки ( N = a + b + c + d ).

Модификация этого коэффициента, не требующая знания d, была предложена Элроем ^[56]

F_{A}={\frac {a(n+{\sqrt {n}})}{a(n+{\sqrt {n}})+{\frac {3}{2}}bc}}=1-{\frac {3bc}{2a(n+{\sqrt {n}})+3bc}}

Где n = а + б + с .

Простой коэффициент соответствия

Этот коэффициент определяется как

SM={\frac {a+d}{a+b+c+d}}={\frac {a+d}{N}}

Коэффициент Фоссума

Этот коэффициент определяется как

F={\frac {(a+b+c+d)(a-0.5)^{2}}{(a+b)(a+c)}}={\frac {N(a-0.5)^{2}}{(a+b)(a+c)}}

Коэффициент Стайла

Этот коэффициент определяется как

S=\log \left[{\frac {n(|ad-bc|-{\frac {n}{2}})^{2}}{(a+b)(a+c)(b+d)(c+d)}}\right]

где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , d — количество образцов, где ни тип A , ни тип B отсутствуют, n равно a + b + c + d и || – модуль (абсолютное значение) разности.

коэффициент Майкла

Этот коэффициент определяется как

M={\frac {4(ad-bc)}{(a+d)^{2}+(b+c)^{2}}}

Коэффициент Пирса

В 1884 г. Чарльз Пирс предложил ^[57] следующий коэффициент

P={\frac {ab+bc}{ab+2bc+cd}}

Коэффициент Хокина – Дотсона

В 1975 году Хокин и Дотсон предложили следующий коэффициент:

HD={\frac {1}{2}}\left({\frac {a}{a+b+c}}+{\frac {d}{b+c+d}}\right)={\frac {1}{2}}\left({\frac {a}{N-d}}+{\frac {d}{N-a}}\right)

Коэффициент Бенини

В 1901 году Бенини предложил следующий коэффициент

B={\frac {a-(a+b)(a+c)}{a+\min(b,c)-(a+b)(a+c)}}

где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов , в которых присутствует тип A , но не тип B , и c — количество образцов, в которых присутствует тип B , но не тип A. Min( b , c ) — это минимум b и c .

Коэффициент Гилберта

Гилберт предложил следующий коэффициент

G={\frac {a-(a+b)(a+c)}{a+b+c-(a+b)(a+c)}}={\frac {a-(a+b)(a+c)}{N-(a+b)(a+c)-d}}

Индекс Джини

Индекс Джини – это

G={\frac {a-(a+b)(a+c)}{\sqrt {(1-(a+b)^{2})(1-(a+c)^{2})}}}

Модифицированный индекс Джини

G_{M}={\frac {a-(a+b)(a+c)}{1-{\frac {|b-c|}{2}}-(a+b)(a+c)}}

индекс Куна

Кун предложил следующий коэффициент в 1965 году

I={\frac {2(ad-bc)}{K(2a+b+c)}}={\frac {2(ad-bc)}{K(N+a-d)}}

Этот показатель также известен как коэффициент средних арифметических.

Индекс Эйро

Эйро предложил следующий коэффициент в 1936 году.

I={\frac {a-(a+b)(a+c)}{(a+c)(a+d)(b+d)(c+d)}}

где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не присутствует тип A , и d — количество образцов где нет ни A , ни B.

Расстояние Зергеля

Это определяется как

\operatorname {SD} ={\frac {b+c}{b+c+d}}={\frac {b+c}{N-a}}

где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не присутствует тип A , и d — количество образцов где нет ни A , ни B. N — размер выборки.

Индекс Танимото

Это определяется как

TI=1-{\frac {a}{b+c+d}}=1-{\frac {a}{N-a}}={\frac {N-2a}{N-a}}

где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не присутствует тип A , и d — количество образцов где нет ни A , ни B. N — размер выборки.

Индекс Пятецкого-Шапиро.

Это определяется как

PSI=a-bc

где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A.

Индексы для сравнения двух или более образцов

Количественный показатель Чекановского

Это также известно как индекс Брея-Кертиса , индекс Шёнера, индекс наименьшего процента, индекс родства или пропорционального сходства. Это связано с индексом сходства Сёренсена .

CZI={\frac {\sum \min(x_{i},x_{j})}{\sum (x_{i}+x_{j})}}

где x _i и x _j — количество видов на участках i и j соответственно, а минимум берется из числа общих видов между двумя участками.

Канберрская метрика

Расстояние Канберры — это взвешенная версия метрики L ₁ . Он был введен в 1966 году ^[58] и усовершенствован в 1967 году ^[59] Г. Н. Лансом и У. Т. Уильямсом . Он используется для определения расстояния между двумя векторами — здесь два сайта с K категориями внутри каждого сайта.

Расстояние Канберры d между векторами p и q в K -мерном действительном векторном пространстве равно

d(\mathbf {p} ,\mathbf {q} )=\sum _{i=1}^{n}{\frac {|p_{i}-q_{i}|}{|p_{i}|+|q_{i}|}}

где p _i и q _i — значения i - ^й категории двух векторов.

Коэффициент сообщества Соренсена

Это используется для измерения сходства между сообществами.

CC={\frac {2c}{s_{1}+s_{2}}}

где s ₁ и s ₂ — количество видов в сообществе 1 и 2 соответственно, а c — количество видов, общих для обеих территорий.

индекс Жаккара

Это мера сходства между двумя выборками:

J={\frac {A}{A+B+C}}

где A — количество точек данных, общих для двух выборок, а B и C — точки данных, обнаруженные только в первой и второй выборках соответственно.

Этот индекс был изобретен в 1902 году швейцарским ботаником Полем Жаккаром . ^[60]

При случайном распределении ожидаемое значение J равно ^[61]

J={\frac {1}{A}}\left({\frac {1}{A+B+C}}\right)

Стандартная ошибка этого индекса в предположении случайного распределения равна

$SE(J)={\sqrt {\frac {A(B+C)}{N(A+B+C)^{3}}}}$

где N — общий размер выборки.

Индекс Дайса

Это мера сходства между двумя выборками:

D={\frac {2A}{2A+B+C}}

Коэффициент матча

Это мера сходства между двумя выборками:

M={\frac {N-B-C}{N}}=1-{\frac {B+C}{N}}

где N — количество точек данных в двух выборках, а B и C — точки данных, обнаруженные только в первой и второй выборках соответственно.

Индекс Мориситы

Индекс дисперсии Мориситы ( I _m ) представляет собой масштабированную вероятность того, что две точки, выбранные случайным образом из всей совокупности, попадают в одну и ту же выборку. ^[62] Более высокие значения указывают на более сгущенное распределение.

I_{m}={\frac {\sum x(x-1)}{nm(m-1)}}

Альтернативная формулировка

I_{m}=n{\frac {\sum x^{2}-\sum x}{\left(\sum x\right)^{2}-\sum x}}

где n — общий размер выборки, m — среднее значение выборки, а x — отдельные значения с суммой, взятой по всей выборке. Оно также равно

I_{m}={\frac {n\ IMC}{nm-1}}

где IMC — индекс скученности Ллойда. ^[63]

Этот индекс относительно не зависит от плотности населения, но зависит от размера выборки.

Морисита показал, что статистика ^[62]

I_{m}\left(\sum x-1\right)+n-\sum x

распределяется как переменная хи-квадрат с n - 1 степенями свободы.

Альтернативный тест значимости этого индекса был разработан для больших выборок. ^[64]

z={\frac {I_{m}-1}{2/nm^{2}}}

где m — общее среднее значение выборки, n — количество единиц выборки, а z — абсцисса нормального распределения . Значимость проверяется путем сравнения значения z со значениями нормального распределения .

Индекс перекрытия Мориситы

Индекс перекрытия Мориситы используется для сравнения перекрытия между выборками. ^[65] Индекс основан на предположении, что увеличение размера выборки увеличит разнообразие, поскольку оно будет включать различные среды обитания.

C_{D}={\frac {2\sum _{i=1}^{S}x_{i}y_{i}}{(D_{x}+D_{y})XY}}

x _i — количество раз, когда вид i представлен в общем количестве X из одного образца.

y _i — количество раз, когда вид i представлен в общем количестве Y из другой выборки.

D _x и D _y представляют собой значения индекса Симпсона для выборок x и y соответственно.

S — количество уникальных видов

C _D = 0, если две выборки не перекрываются по видам, и C _D = 1, если виды встречаются в одинаковых пропорциях в обеих выборках.

Хорн ввел модификацию индекса ^[66]

C_{H}={\frac {2\sum _{i=1}^{S}x_{i}y_{i}}{\left({\sum _{i=1}^{S}x_{i}^{2} \over X^{2}}+{\sum _{i=1}^{S}y_{i}^{2} \over Y^{2}}\right)XY}}

Стандартизированный индекс Мориситы

Смит-Гилл разработал статистику, основанную на индексе Мориситы, который не зависит ни от размера выборки, ни от плотности населения и ограничен значениями -1 и +1. Эта статистика рассчитывается следующим образом ^[67]

Сначала определите индекс Мориситы ( I _d ) обычным способом. Тогда пусть k — количество единиц, из которых была отобрана совокупность. Рассчитайте два критических значения

M_{u}={\frac {\chi _{0.975}^{2}-k+\sum x}{\sum x-1}}

M_{c}={\frac {\chi _{0.025}^{2}-k+\sum x}{\sum x-1}}

где χ ² — значение хи-квадрат для n — 1 степеней свободы при уровнях достоверности 97,5% и 2,5%.

Стандартизированный индекс ( I _p ) затем рассчитывается по одной из формул ниже.

Когда I _d ≥ M _c > 1

I_{p}=0.5+0.5\left({\frac {I_{d}-M_{c}}{k-M_{c}}}\right)

Когда M _c > I _d ≥ 1

I_{p}=0.5\left({\frac {I_{d}-1}{M_{u}-1}}\right)

Когда 1 > I _d ≥ M _u

I_{p}=-0.5\left({\frac {I_{d}-1}{M_{u}-1}}\right)

Когда 1 > M _u > I _d

I_{p}=-0.5+0.5\left({\frac {I_{d}-M_{u}}{M_{u}}}\right)

I _p находится в диапазоне от +1 до –1 с 95% доверительным интервалом ±0,5. I _p имеет значение 0, если шаблон случайный; если шаблон однородный, I _p < 0, а если шаблон показывает агрегацию, I _p > 0.

Индексы ровности Пита

Эти индексы являются мерой равномерности между выборками. ^[68]

E_{1}={\frac {I-I_{\min }}{I_{\max }-I_{\min }}}

E_{2}={\frac {I}{I_{\max }}}

где I — индекс разнообразия, I _max и I _min — максимальное и минимальное значения I между сравниваемыми образцами.

Коэффициент Левинджера

Левингер предложил коэффициент H , определяемый следующим образом:

H={\sqrt {\frac {p_{\max }(1-p_{\min })}{p_{\min }(1-p_{\max })}}}

где p _max и p _min — максимальная и минимальная доли в выборке.

Индекс Тверского

Индекс Тверски ^[69] представляет собой асимметричную меру, лежащую между 0 и 1.

Для образцов А и Б индекс Тверски ( S ) равен

S={\frac {|A\cap B|}{|A\cap B|+\alpha |A-B|+\beta |B-A|}}

Значения α и β произвольны. Установка значений α и β равными 0,5 дает коэффициент Дайса . Установка обоих значений в 1 дает коэффициент Танимото .

Также предложен симметричный вариант этого индекса. ^[70]

S_{1}={\frac {|A\cap B|}{|A\cap B|+\beta \left(\alpha a+(1-\alpha )b\right)}}

где

a=\min \left(|X-Y|,|Y-X|\right)

b=\max \left(|X-Y|,|Y-X|\right)

Было предложено несколько подобных индексов.

Моностори и др. предложил индекс SymmetricSimilarity ^[71]

SS(A,B)={\frac {|d(A)\cap d(B)|}{|d(A)+d(B)|}}

где d ( X ) — некоторая мера , производная от X.

Бернштейн и Зобель предложили индексы S2 и S3 ^[72]

S2={\frac {|d(A)\cap d(B)|}{\min(|d(A)|,|d(B))|}}

S3={\frac {2|d(A)\cap d(B)|}{|d(A)+d(B)|}}

S3 — это просто двойной индекс SymmetricSimilarity. Оба связаны с коэффициентом Дайса.

Используемые метрики

Был предложен ряд метрик (расстояний между выборками).

Евклидово расстояние

Хотя это обычно используется в количественной работе, его также можно использовать и в качественной работе. Это определяется как

d_{jk}={\sqrt {\sum _{i=1}^{N}(x_{ij}-x_{ik})^{2}}}

где d _jk — расстояние между x _ij и x _ik .

Расстояние Гауэра

Это определяется как

GD={\frac {\Sigma _{i=1}^{n}w_{i}d_{i}}{\Sigma _{i=1}^{n}w_{i}}}

где d _i — расстояние между i- ^ми образцами, а w _i — результат взвешивания на i- ^м расстоянии.

Расстояние Манхэттен

Хотя это чаще используется в количественной работе, его также можно использовать и в качественной работе. Это определяется как

d_{jk}=\sum _{i=1}^{N}|x_{ij}-x_{ik}|

где d _jk — расстояние между x _ij и x _ik и || — абсолютное значение разницы между x _ij и x _ik .

Модифицированную версию манхэттенского расстояния можно использовать для нахождения нуля ( корня ) многочлена любой степени с помощью метода Лилля .

Расстояние Превости

Это связано с Манхэттенским расстоянием. Это было описано Превости и др. и использовался для сравнения различий между хромосомами . ^[73] Пусть P и Q — два набора r конечных вероятностных распределений. Пусть эти распределения имеют значения, которые разделены на k категорий. Тогда расстояние D _PQ равно

D_{PQ}={\frac {1}{r}}\sum _{j=1}^{r}\sum _{i=1}^{k}|p_{ji}-q_{ji}|

где r — количество дискретных распределений вероятностей в каждой популяции, k _j — количество категорий в распределениях P _j и Q _j , а p _ji (соответственно q _ji ) — теоретическая вероятность категории i в распределении P _j ( Q _j ) в популяции P ( Q ).

Его статистические свойства были исследованы Sanchez et al. ^[74] , которые рекомендовали процедуру начальной загрузки для оценки доверительных интервалов при тестировании различий между выборками.

Другие показатели

Позволять

A=\sum x_{ij}

B=\sum x_{ik}

J=\sum \min(x_{ij},x_{jk})

где min( x , y ) — меньшее значение пары x и y .

Затем

d_{jk}=A+B-2J

это Манхэттенское расстояние,

d_{jk}={\frac {A+B-2J}{A+B}}

— расстояние Брея-Кёртиса,

d_{jk}={\frac {A+B-2J}{A+B-J}}

- расстояние Жаккара (или Ружички) и

d_{jk}=1-{\frac {1}{2}}\left({\frac {J}{A}}+{\frac {J}{B}}\right)

расстояние Кульчинского.

Сходства между текстами

ХаКоэн-Кернер и др. предложили множество показателей для сравнения двух или более текстов. ^[75]

Порядковые данные

Если категории хотя бы порядковые , то можно вычислить ряд других индексов.

Лейк Д

Мера дисперсии Лейка ( D ) является одним из таких показателей. ^[76] Пусть существует K категорий, и пусть p _i равно f _i / N , где fi _— номер в i- ^й категории, и пусть категории расположены в порядке возрастания. Позволять

c_{a}=\sum _{i=1}^{a}p_{i}

где а ≤ К. _ Пусть d _a = c _a, если c _a ⩽ 0,5, и 1 − c _a ⩽ 0,5 в противном случае. Затем

D=2\sum _{a=1}^{K}{\frac {d_{a}}{K-1}}

Нормализованная мера Герфиндаля

Это квадрат коэффициента вариации, разделенный на N − 1, где N — размер выборки.

H={\frac {1}{N-1}}{\frac {s^{2}}{m^{2}}}

где m — среднее значение, а s — стандартное отклонение.

Индекс конфликтогенности

Индекс потенциального конфликта (PCI) описывает соотношение баллов по обе стороны от центральной точки рейтинговой шкалы. ^[77] Для этого индекса требуются как минимум порядковые данные. Это соотношение часто отображается в виде пузырьковой диаграммы.

PCI использует порядковую шкалу с нечетным количеством рейтинговых баллов (от - n до + n ) с центром в 0. Он рассчитывается следующим образом.

PCI={\frac {X_{t}}{Z}}\left[1-\left|{\frac {\sum _{i=1}^{r_{+}}X_{+}}{X_{t}}}-{\frac {\sum _{i=1}^{r_{-}}X_{-}}{X_{t}}}\right|\right]

где Z знак равно 2 п , |·| – абсолютная величина (модуль), r ₊ – количество ответов на положительной стороне шкалы, r _– количество ответов на отрицательной стороне шкалы, X ₊ – ответы на положительной стороне шкалы , X _{− –} ответы на отрицательной стороне шкалы и

X_{t}=\sum _{i=1}^{r_{+}}|X_{+}|+\sum _{i=1}^{r_{-}}|X_{-}|

Известно, что с PCI существуют теоретические трудности. PCI можно рассчитать только для шкал с нейтральной центральной точкой и равным количеством вариантов ответа по обе стороны от нее. Кроме того, равномерное распределение ответов не всегда дает среднюю точку статистики PCI, а скорее зависит от количества возможных ответов или значений шкалы. Например, пяти-, семи- и девятибалльная шкалы с равномерным распределением ответов дают ИКП 0,60, 0,57 и 0,50 соответственно.

Первая из этих проблем относительно незначительна, поскольку большинство порядковых шкал с четным числом ответов можно расширить (или уменьшить) на одно значение, чтобы получить нечетное количество возможных ответов. Если это необходимо, масштаб обычно можно отцентрировать. Вторую проблему решить труднее, и она может ограничить применимость PCI.

PCI был расширен ^[78]

PCI_{2}={\frac {\sum _{i=1}^{K}\sum _{j=1}^{i}k_{i}k_{j}d_{ij}}{\delta }}

где K — количество категорий, k _i — число в i- ^й категории, d _ij — расстояние между i- ^й и i ^-й категориями, а δ — максимальное расстояние по шкале, умноженное на количество раз, которое оно может встречаются в выборке. Для выборки с четным количеством точек данных

\delta ={\frac {N^{2}}{2}}d_{\max }

и для выборки с нечетным количеством точек данных

\delta ={\frac {N^{2}-1}{2}}d_{\max }

где N — количество точек данных в выборке, а d _max — максимальное расстояние между точками на шкале.

Васке и др. предложить ряд возможных мер расстояния для использования с этим индексом. ^[78]

D_{1}:d_{ij}=|r_{i}-r_{j}|-1

если знаки (+ или -) r _i и r _j различаются. Если знаки одинаковые d _ij = 0.

D_{2}:d_{ij}=|r_{i}-r_{j}|

D_{3}:d_{ij}=|r_{i}-r_{j}|^{p}

где p — произвольное действительное число > 0.

Dp_{ij}:d_{ij}=[|r_{i}-r_{j}|-(m-1)]^{p}

если знак ( r _i ) ≠ знак ( r _i ) и p — действительное число > 0. Если знаки одинаковы, то d _ij = 0. m — это D ₁ , D ₂ или D ₃ .

Разница между D ₁ и D ₂ состоит в том, что первый не учитывает нейтралы на расстоянии, а второй включает. Например, респонденты, набравшие −2 и +1, будут иметь дистанцию 2 при D ₁ и 3 при D ₂ .

Использование степени ( p ) для расстояний позволяет масштабировать экстремальные реакции. Эти различия можно подчеркнуть при p > 1 или уменьшить при p < 1.

В симуляциях с вариациями, полученными из равномерного распределения, PCI ₂ имеет симметричное унимодальное распределение. ^[78] Хвосты его распределения больше, чем у нормального распределения.

Васке и др. предложите использовать t-критерий для сравнения значений PCI между выборками, если PCI примерно нормально распределены.

Ван дер Эйк А

Эта мера представляет собой средневзвешенное значение степени согласия распределения частот. ^[79] A варьируется от −1 (совершенная бимодальность ) до +1 (совершенная унимодальность ). Это определяется как

A=U\left(1-{\frac {S-1}{K-1}}\right)

где U — унимодальность распределения, S — количество категорий с ненулевой частотой, а K — общее количество категорий.

Значение U равно 1, если распределение имеет любую из трех следующих характеристик:

все ответы относятся к одной категории
ответы равномерно распределены по всем категориям
ответы равномерно распределены между двумя или более смежными категориями, при этом остальные категории имеют нулевые ответы

При других распределениях данные необходимо разделить на «слои». Внутри слоя ответы либо равны, либо равны нулю. Категории не обязательно должны быть смежными. Вычисляется значение A для каждого слоя ( A _i ) и определяется средневзвешенное значение для распределения. Веса ( w _i ) для каждого слоя — это количество ответов в этом слое. В символах

A_{\mathrm {overall} }=\sum w_{i}A_{i}

Равномерное распределение имеет A = 0: когда все ответы попадают в одну категорию A = +1.

Одна теоретическая проблема с этим индексом заключается в том, что он предполагает, что интервалы расположены одинаково. Это может ограничить его применимость.

Связанная статистика

Проблема с днем рождения

Если в выборке n единиц и они случайным образом распределены по k категориям ( n ≤ k ), это можно считать вариантом задачи о дне рождения . ^[80] Вероятность ( p ) всех категорий, имеющих только одну единицу, равна

p=\prod _{i=1}^{n}\left(1-{\frac {i}{k}}\right)

Если c велико, а n мало по сравнению с k ^2/3 , то в хорошем приближении

p=\exp \left({\frac {-n^{2}}{2k}}\right)

Это приближение следует из точной формулы следующим образом:

\log _{e}\left(1-{\frac {i}{k}}\right)\approx -{\frac {i}{k}}

Оценка размера выборки

Для p = 0,5 и p = 0,05 соответственно могут быть полезны следующие оценки n :

n=1.2{\sqrt {k}}

n=2.448{\sqrt {k}}\approx 2.5{\sqrt {k}}

Этот анализ можно распространить на несколько категорий. Для p = 0,5 и p 0,05 имеем соответственно

n=1.2{\sqrt {\frac {1}{\sum _{i=1}^{k}{\frac {1}{c_{i}}}}}}

n\approx 2.5{\sqrt {\frac {1}{\sum _{i=1}^{k}{\frac {1}{c_{i}}}}}}

где c _i — размер i- ^й категории. Этот анализ предполагает, что категории независимы.

Если данные каким-либо образом упорядочены, то по крайней мере для одного события, происходящего в двух категориях, лежащих в пределах j категорий друг от друга, чем вероятность 0,5 или 0,05, требуется размер выборки ( n ) соответственно ^[81]

n=1.2{\sqrt {\frac {k}{2j+1}}}

n\approx 2.5{\sqrt {\frac {k}{2j+1}}}

где k — количество категорий.

Проблема дня рождения-смерти

Существует ли связь между днями рождения и днями смерти, исследовали с помощью статистики ^[82]

-\log _{10}\left({\frac {1+2d}{365}}\right),

где d — количество дней в году между днем рождения и днем смерти.

Индекс Рэнда

Индекс Рэнда используется для проверки того, согласуются ли две или более системы классификации с набором данных. ^[83]

Учитывая набор элементов и два раздела для сравнения, разбиение S на r подмножеств и разбиение S на подмножества , определите следующее : $n$ $S=\{o_{1},\ldots ,o_{n}\}$ $S$ $X=\{X_{1},\ldots ,X_{r}\}$ $Y=\{Y_{1},\ldots ,Y_{s}\}$

$a$ , количество пар элементов в том же подмножестве в и в том же подмножестве в $S$ $X$ $Y$
$b$ , количество пар элементов в, находящихся в разных подмножествах в и в разных подмножествах в $S$ $X$ $Y$
$c$ , количество пар элементов в одном и том же подмножестве в и в разных подмножествах в $S$ $X$ $Y$
$d$ , количество пар элементов, находящихся в разных подмножествах в и в одном и том же подмножестве в $S$ $X$ $Y$

Индекс Рэнда - - определяется как $R$

R={\frac {a+b}{a+b+c+d}}={\frac {a+b}{n \choose 2}}

Интуитивно можно рассматривать как количество соглашений между и и как количество разногласий между и . $a+b$ $X$ $Y$ $c+d$ $X$ $Y$

Скорректированный индекс Рэнда

Скорректированный индекс Рэнда представляет собой скорректированную версию индекса Рэнда. ^[83]^[84]^[85] Хотя индекс Рэнда может давать значение только от 0 до +1, скорректированный индекс Рэнда может давать отрицательные значения, если индекс меньше ожидаемого индекса. ^[86]

Таблица непредвиденных обстоятельств

Учитывая набор элементов и две группы или разделы ( например , кластеризации) этих точек, а именно и , перекрытие между и может быть суммировано в таблице сопряженности , где каждая запись обозначает количество общих объектов между и : . $S$ $n$ $X=\{X_{1},X_{2},\ldots ,X_{r}\}$ $Y=\{Y_{1},Y_{2},\ldots ,Y_{s}\}$ $X$ $Y$ $\left[n_{ij}\right]$ $n_{ij}$ $X_{i}$ $Y_{j}$ $n_{ij}=|X_{i}\cap Y_{j}|$

Определение

Скорректированная форма индекса Рэнда, скорректированный индекс Рэнда, представляет собой

{\text{AdjustedIndex}}={\frac {{\text{Index}}-{\text{ExpectedIndex}}}{{\text{MaxIndex}}-{\text{ExpectedIndex}}}},

более конкретно

{\text{ARI}}={\frac {\sum _{ij}{\binom {n_{ij}}{2}}-\left.\left[\sum _{i}{\binom {a_{i}}{2}}\sum _{j}{\binom {b_{j}}{2}}\right]\right/{\binom {n}{2}}}{{\frac {1}{2}}\left[\sum _{i}{\binom {a_{i}}{2}}+\sum _{j}{\binom {b_{j}}{2}}\right]-\left.\left[\sum _{i}{\binom {a_{i}}{2}}\sum _{j}{\binom {b_{j}}{2}}\right]\right/{\binom {n}{2}}}}

где значения из таблицы сопряженности. $n_{ij},a_{i},b_{j}$

Поскольку знаменателем является общее количество пар, индекс Рэнда представляет собой частоту возникновения соглашений по общему количеству пар или вероятность того, что и согласятся на случайно выбранной паре. $X$ $Y$

Оценка индексов

Различные индексы дают разные значения вариации и могут использоваться для разных целей: некоторые из них используются и критикуются, особенно в социологической литературе.

Если кто-то хочет просто провести порядковые сравнения между выборками (является ли одна выборка более или менее разнообразной, чем другая), выбор IQV относительно менее важен, поскольку они часто дают один и тот же порядок.

Если данные порядковые, для сравнения образцов можно использовать метод ORDANOVA.

В некоторых случаях полезно не стандартизировать индекс, чтобы он работал от 0 до 1, независимо от количества категорий или выборок (Wilcox 1973, стр. 338), но обычно его стандартизируют таким образом.

Смотрите также

Примечания

^ Это может произойти только в том случае, если количество дел кратно количеству категорий.
^ Freemen LC (1965) Элементарная прикладная статистика . Нью-Йорк: Джон Уайли и сыновья, стр. 40–43.
^ Кендал MC, Стюарт А. (1958) Передовая теория статистики. Издательская компания Хафнер с. 46
^ Мюллер Дж. Э., Шюсслер К. П. (1961) Статистические рассуждения в социологии. Бостон: Компания Houghton Mifflin. стр. 177–179.
^ Уилкокс (1967), с. ^{[ нужна страница ]} .
^ Кайзер HF (1968) «Показатель качества населения законодательного распределения». Обзор американской политической науки 62 (1) 208
↑ Джоэл Гомбин (18 августа 2015 г.). «qualvar: первоначальный выпуск (версия v0.1)». Зенодо . дои : 10.5281/zenodo.28341.
^ Гиббс и Постон-младший (1975).
^ Либерсон (1969), с. 851.
^ IQV в xycoon
^ Хантер, PR; Гастон, Массачусетс (1988). «Числовой индекс дискриминационной способности систем типизации: применение индекса разнообразия Симпсона». J Clin Микробиол . 26 (11): 2465–2466. doi : 10.1128/jcm.26.11.2465-2466.1988. ПМК 266921 . ПМИД 3069867.
^ Фридман В.Ф. (1925) Частота совпадений и их применение в криптоанализе. Технический документ. Кабинет начальника связи. Типография правительства США.
^ Джини CW (1912) Изменчивость и изменчивость, вклад в изучение статистических распределений и отношений. Studi Economico-Giuricici della R. Universita de Cagliari
^ Симпсон, Э.Х. (1949). «Измерение разнообразия». Природа . 163 (4148): 688. Бибкод : 1949Natur.163..688S. дои : 10.1038/163688a0 .
^ Бачи Р. (1956) Статистический анализ возрождения иврита в Израиле. В: Бачи Р. (редактор) Scripta Hierosolymitana, Том III, Иерусалим: Magnus press, стр. 179–247.
^ Мюллер Дж. Х., Шюсслер К. Ф. (1961) Статистические рассуждения в социологии. Бостон: Хоутон Миффлин
^ Гиббс, JP; Мартин, WT (1962). «Урбанизация, технологии и разделение труда: международные закономерности». Американский социологический обзор . 27 (5): 667–677. дои : 10.2307/2089624. JSTOR 2089624.
^ Либерсон (1969), с. ^{[ нужна страница ]} .
^ Блау П. (1977) Неравенство и неоднородность. Свободная пресса, Нью-Йорк
^ Перри М., Кадер Г. (2005) Вариация как непохожесть. Статистика преподавания 27 (2) 58–60
^ Гринберг, Дж. Х. (1956). «Измерение языкового разнообразия». Язык . 32 (1): 109–115. дои : 10.2307/410659. JSTOR 410659.
^ Лотар Э.Х. (1978) Кандидатская диссертация. ^{[ нужна полная цитата ]}
^ Бергер, WH; Паркер, Флорида (1970). «Разнообразие планктонных фораминифер в глубоководных отложениях». Наука . 168 (3937): 1345–1347. Бибкод : 1970Sci...168.1345B. дои : 10.1126/science.168.3937.1345. PMID 17731043. S2CID 29553922.
^ Аб Хилл, Миссури (1973). «Разнообразие и равномерность: объединяющие обозначения и их последствия». Экология . 54 (2): 427–431. дои : 10.2307/1934352. JSTOR 1934352.
^ Маргалеф Р. (1958) Временная последовательность и пространственная неоднородность фитопланктона. В: Перспективы морской биологии. Буззати-Траверсо (редактор) Univ Calif Press, Беркли, стр. 323–347.
^ Менхиник, EF (1964). «Сравнение показателей разнообразия некоторых видов и особей применительно к образцам полевых насекомых». Экология . 45 (4): 859–861. дои : 10.2307/1934933. JSTOR 1934933.
^ Курашкевич W (1951) Nakladen Wroclawskiego Towarzystwa Naukowego
^ Гиро П (1954) Статистические характеристики словарного запаса. Прессы Университетов Франции, Париж
^ Панас Э (2001) Обобщенный Torquist: Спецификация и оценка новой функции размера словарного текста. Дж. Квант Линг 8 (3) 233–252
^ Кемптон, РА; Тейлор, Л.Р. (1976). «Модели и статистика видового разнообразия». Природа . 262 (5571): 818–820. Бибкод : 1976Natur.262..818K. дои : 10.1038/262818a0. PMID 958461. S2CID 4168222.
^ Хатчесон К. (1970) Тест для сравнения разнообразия, основанный на формуле Шеннона. Дж. Тео Биол 29: 151–154.
^ Макинтош Р.П. (1967). Индекс разнообразия и связь некоторых концепций с разнообразием. Экология, 48(3), 392–404.
^ Фишер Р.А., Корбет А., Уильямс CB (1943) Связь между количеством видов и количеством особей в случайной выборке популяции животных. Школа животных 12: 42–58.
^ Анскомб (1950) Теория выборки распределений отрицательных биномиальных и логарифмических рядов. Биометрика 37: 358–382.
^ Стронг, WL (2002). «Оценка неравномерности численности видов внутри растительных сообществ и между ними». Общественная экология . 3 (2): 237–246. дои : 10.1556/comec.3.2002.2.9.
^ Камарго Дж. А. (1993) Должно ли доминирование увеличиваться с увеличением числа подчиненных видов в конкурентных взаимодействиях? Дж. Теор Биол 161 537–542
^ Смит, Уилсон (1996) ^{[ нужна полная цитата ]}
^ Булла, Л (1994). «Индекс равномерности и связанная с ним мера разнообразия». Ойкос . 70 (1): 167–171. дои : 10.2307/3545713. JSTOR 3545713.
^ Хорн, HS (1966). «Измерение« перекрытия »в сравнительных экологических исследованиях». Я Нат . 100 (914): 419–423. дои : 10.1086/282436. S2CID 84469180.
^ Сигел, Эндрю Ф (2006) «Кривые разрежения». Энциклопедия статистических наук 10.1002/0471667196.ess2195.pub2.
^ Касвелл Х (1976) Структура сообщества: анализ нейтральной модели. Эколь Моногр 46: 327–354.
^ Пулен, Р; Муйо, Д. (2003). «Специализация паразита с филогенетической точки зрения: новый индекс специфичности хозяина». Паразитология . 126 (5): 473–480. CiteSeerX 10.1.1.574.7432 . дои : 10.1017/s0031182003002993. PMID 12793652. S2CID 9440341.
^ Тейл Х (1972) Статистический анализ декомпозиции. Амстердам: Издательская компания Северной Голландии>
^ Дункан О.Д., Дункан Б. (1955) Методологический анализ индексов сегрегации. Am Social Review, 20: 210–217.
^ Горард С., Тейлор С. (2002b) Что такое сегрегация? Сравнение мер с точки зрения «сильной» и «слабой» композиционной инвариантности. Социология, 36(4), 875–895.
^ Мэсси, DS; Дентон, Северная Каролина (1988). «Размеры жилищной сегрегации». Социальные силы . 67 (2): 281–315. дои : 10.1093/sf/67.2.281 .
^ Хатченс RM (2004) Одна мера сегрегации. Международное экономическое обозрение 45: 555–578.
^ Либерсон С (1981). «Асимметричный подход к сегрегации». В Пич С., Робинсон В., Смит С. (ред.). Этническая сегрегация в городах . Лондон: Крум Хелм. стр. 61–82.
^ Белл, W (1954). «Вероятностная модель для измерения экологической сегрегации». Социальные силы . 32 (4): 357–364. дои : 10.2307/2574118. JSTOR 2574118.
^ Ochiai A (1957) Зоогеографические исследования камолеоидных рыб, обитающих в Японии и соседних регионах. Bull Jpn Soc Sci Fish 22: 526–530
^ Кульчинский С (1927) Die Pflanzenassoziationen der Pieninen. Международный бюллетень Полонезской академии наук и литературы, Класс наук
^ Юл ГУ (1900) Об ассоциации атрибутов в статистике. Филос Транс Рой Сок
^ Линерт Г.А. и Спорер С.Л. (1982) Interkorrelationen seltner Symptome mittels Nullfeldkorrigierter YuleKoeffizienten. Psychologische Beitrage 24: 411–418.
^ Барони-Урбани, К; Бузер, М.В. (1976). «сходство двоичных данных». Систематическая биология . 25 (3): 251–259. дои : 10.2307/2412493. JSTOR 2412493.
^ Forbes SA (1907) О местном распространении некоторых рыб Иллинойса: очерк статистической экологии. Бюллетень Лаборатории естественной истории штата Иллинойс 7: 272–303.
^ Элрой Дж. (2015) Новый поворот в очень старом двоичном коэффициенте подобия. Экология 96 (2) 575-586
^ Карл Р. Хаусман и Дуглас Р. Андерсон (2012). Беседы о Пирсе: реальность и идеалы . Издательство Фордхэмского университета. п. 221. ИСБН 9780823234677.
^ Лэнс, Дж.Н.; Уильямс, WT (1966). «Компьютерные программы иерархической политетической классификации («анализа подобия»)». Компьютерный журнал . 9 (1): 60–64. дои : 10.1093/comjnl/9.1.60 .
^ Лэнс, Дж.Н.; Уильямс, WT (1967). «Классификационные программы смешанных данных I.) Агломеративные системы». Австралийский компьютерный журнал : 15–20.
^ Жаккар П (1902) Лоис цветочного распространения. Bulletin de la Societé Vaudoise des Sciences Naturelles 38:67-130
^ Арчер А.В. и Мэйплс К.Г. (1989) Реакция выбранных биномиальных коэффициентов на различную степень разреженности матрицы и на матрицы с известными взаимосвязями данных. Математическая геология 21: 741–753.
^ ab Морисита М (1959) Измерение дисперсии и анализ моделей распределения. Мемуары факультета естественных наук Университета Кюсю. Серия E. Biol 2: 215–235.
^ Ллойд М (1967) Средняя скученность. Дж Аним Экол 36: 1–30
^ Pedigo LP и Buntin GD (1994) Справочник по методам отбора проб членистоногих в сельском хозяйстве. CRC Бока-Ратон, Флорида
^ Морисита М (1959) Измерение дисперсии и анализ моделей распределения. Мемуары факультета естественных наук Университета Кюсю, Серия E Биология. 2: 215–235
^ Хорн, HS (1966). «Измерение «перекрытия» в сравнительных экологических исследованиях». Американский натуралист . 100 (914): 419–424. дои : 10.1086/282436. S2CID 84469180.
^ Смит-Гилл SJ (1975). «Цитофизиологические основы разрушительных пигментных паттернов у леопардовой лягушки Rana pipiens . II. Характерные для дикого типа и мутантных клеток паттерны». Дж Морфол . 146 (1): 35–54. дои : 10.1002/jmor.1051460103. PMID 1080207. S2CID 23780609.
^ Пит (1974) Измерения видового разнообразия. Анну Преподобный Ecol Syst 5: 285–307
^ Тверски, Амос (1977). «Признаки сходства» (PDF) . Психологический обзор . 84 (4): 327–352. дои : 10.1037/0033-295x.84.4.327.
^ Хименес С., Бесерра С., Гельбух Ядро SOFTCARDINALITY: улучшение перекрытия текста с помощью мер распределения для семантического текстового сходства. Вторая совместная конференция по лексической и вычислительной семантике (*SEM), Том 1: Материалы основной конференции и общая задача: семантическое текстовое сходство, стр. 194-201. 7–8 июня 2013 г., Атланта, Джорджия, США.
^ Моностори К., Финкель Р., Заславский А., Ходас Г. и Патке М. (2002) Сравнение методов обнаружения перекрытия. В: Материалы Международной конференции по вычислительной науке 2002 года. Конспекты лекций по информатике 2329: 51-60
^ Бернштейн Ю. и Зобель Дж. (2004) Масштабируемая система для идентификации производных документов. В: Материалы 11-й Международной конференции по обработке строк и поиску информации (SPIRE) 3246: 55-67.
^ Превости, А; Рибо, Г; Серра, Л; Агуаде, М; Баланья, Дж; Монклюс, М; Местрес, Ф (1988). «Колонизация Америки Drosophila subobscura: эксперимент в природных популяциях, подтверждающий адаптивную роль хромосомного инверсионного полиморфизма». Proc Natl Acad Sci США . 85 (15): 5597–5600. Бибкод : 1988PNAS...85.5597P. дои : 10.1073/pnas.85.15.5597 . ПМК 281806 . ПМИД 16593967.
^ Санчес, А; Окана, Дж; Уцетб, Ф; Серрак, Л. (2003). «Сравнение генетических расстояний Превости». Журнал статистического планирования и выводов . 109 (1–2): 43–65. дои : 10.1016/s0378-3758(02)00297-5.
^ ХаКоэн-Кернер Ю, Тайеб А и Бен-Дрор Н (2010) Обнаружение простого плагиата в статьях по информатике. В: Материалы 23-й Международной конференции по компьютерной лингвистике, стр. 421-429.
^ Лейк Р. (1966) Мера порядкового консенсуса. Тихоокеанский социологический обзор 9 (2): 85–90
^ Манфредо М., Васке, Дж. Дж., Тил Т. Л. (2003) Индекс потенциала конфликта: графический подход к практическому значению исследования человеческого измерения. Человеческие измерения дикой природы 8: 219–228.
^ abc Васке Дж. Дж., Биман Дж., Баррето Х., Шелби Л. Б. (2010) Расширение и дальнейшая проверка индекса потенциального конфликта. Науки о досуге 32: 240–254.
^ Ван дер Эйк C (2001) Согласование измерений в упорядоченных рейтинговых шкалах. Качество и количество 35(3): 325–341
^ Фон Мизес Р. (1939) Uber Aufteilungs-und Besetzungs-Wahrcheinlichkeiten. Revue de la Facultd des Sciences de I'Universite d'stanbul NS 4: 145−163
^ Севастьянов Б.А. (1972) Предельный закон Пуассона для схемы сумм зависимых случайных величин. (пер. С. М. Рудольфера) Теория вероятностей и ее приложения, 17: 695−699
^ Хоаглин, округ Колумбия, Мостеллер, Ф. и Тьюки, Дж.В. (1985) Исследование таблиц данных, тенденций и форм, Нью-Йорк: Джон Уайли
^ AB WM Rand (1971). «Объективные критерии оценки методов кластеризации». Журнал Американской статистической ассоциации . 66 (336): 846–850. arXiv : 1704.01036 . дои : 10.2307/2284239. JSTOR 2284239.
^ Лоуренс Хьюберт и Фиппс Араби (1985). «Сравнение разделов». Журнал классификации . 2 (1): 193–218. дои : 10.1007/BF01908075. S2CID 189915041.
^ Нгуен Суан Винь, Жюльен Эппс и Джеймс Бейли (2009). «Информационные меры для кластерного сравнения: необходима ли поправка на случайность?» (PDF) . ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ. стр. 1073–1080. Архивировано из оригинала (PDF) 25 марта 2012 года.PDF.
^ Вагнер, Силке; Вагнер, Доротея (12 января 2007 г.). «Сравнение кластеров — обзор» (PDF) . Проверено 14 февраля 2018 г.