stringtranslate.com

Качественное изменение

Индекс качественной вариации ( IQV ) — это мера статистической дисперсии в номинальных распределениях . Примерами служат коэффициент вариации или информационная энтропия .

Характеристики

Существует несколько типов индексов, используемых для анализа номинальных данных. Некоторые из них являются стандартными статистиками, которые используются в других местах: размах , стандартное отклонение , дисперсия , среднее отклонение , коэффициент вариации , медианное абсолютное отклонение , межквартильный размах и квартильное отклонение .

В дополнение к этим нескольким статистикам были разработаны с учетом номинальных данных. Ряд из них были обобщены и разработаны Уилкоксом (Уилкокс 1967), (Уилкокс 1973), который требует, чтобы были удовлетворены следующие свойства стандартизации:

В частности, значение этих стандартизированных индексов не зависит от количества категорий или количества образцов.

Для любого индекса, чем ближе к равномерному распределению, тем больше дисперсия, и чем больше различия в частотах между категориями, тем меньше дисперсия.

Индексы качественной вариации тогда аналогичны информационной энтропии , которая минимизируется, когда все случаи принадлежат к одной категории, и максимизируется при равномерном распределении. Действительно, информационная энтропия может быть использована как индекс качественной вариации.

Одной из характеристик конкретного индекса качественной изменчивости (ИКИ) является отношение наблюдаемых различий к максимальным различиям.

Индексы Уилкокса

Уилкокс приводит ряд формул для различных индексов QV (Уилкокс, 1973). Первый из них, который он обозначает DM (отклонение от моды), представляет собой стандартизированную форму отношения вариации и аналогичен дисперсии как отклонению от среднего значения.

МодВР

Формула для вариации вокруг моды (ModVR) выводится следующим образом:

где f m — модальная частота, K — количество категорий, а f i — частота i группы.

Это можно упростить до

где N — общий размер выборки.

Индекс Фримена (или коэффициент вариации) равен [2]

Это связано с M следующим образом:

ModVR определяется как

где v — индекс Фримена.

Низкие значения ModVR соответствуют небольшому количеству вариаций, а высокие значения — большему количеству вариаций.

Когда K велико, ModVR приблизительно равен индексу Фримена  v .

РанВР

Это основано на диапазоне вокруг режима. Он определяется как

где f m — модальная частота, а f l — самая низкая частота.

АвДев

Это аналог среднего отклонения. Он определяется как среднее арифметическое абсолютных отклонений каждого значения от среднего.

MNDif

Это аналог средней разности — среднее значение разностей всех возможных пар значений переменной, взятых независимо от знака. Средняя разность отличается от среднего и стандартного отклонения, поскольку она зависит от разброса значений переменной между собой, а не от отклонений от некоторого центрального значения. [3]

где f i и f ji и j частоты соответственно.

MNDif — это коэффициент Джини , применяемый к качественным данным.

ВарНК

Это аналог дисперсии.

Это тот же индекс, что и индекс качественной вариации Мюллера и Шусслера [4] и индекс М2 Гиббса.

Он распределен как переменная хи-квадрат с K  – 1 степенями свободы . [5]

StDev

Уилсон предложил две версии этой статистики.

Первый основан на AvDev.

Второй основан на MNDif

HRel

Первоначально этот индекс был разработан Клодом Шенноном для использования при определении свойств каналов связи.

где p i = f i / N .

Это эквивалентно информационной энтропии, деленной на , и полезно для сравнения относительной вариации между частотными таблицами разных размеров.

Индекс B

Уилкокс адаптировал предложение Кайзера [6] на основе геометрического среднего и создал индекс B' . Индекс B определяется как

R-пакеты

Некоторые из этих индексов были реализованы в языке R. [7]

Индексы Гиббса и связанные с ними формулы

Гиббс и Постон-младший (1975) предложили шесть индексов. [8]

М1

Нестандартизированный индекс ( M 1) (Гиббс и Постон-младший, 1975, стр. 471)

где K — число категорий, а — доля наблюдений, попадающих в данную категорию i .

M 1 можно интерпретировать как единицу минус вероятность того, что случайная пара образцов будет принадлежать к одной и той же категории, [9] поэтому эта формула для IQV является стандартизированной вероятностью того, что случайная пара попадает в одну и ту же категорию. Этот индекс также называют индексом дифференциации, индексом дифференциации средств к существованию и индексом географической дифференциации в зависимости от контекста, в котором он использовался.

М2

Второй индекс — M2 [10] (Гиббс и Постон-младший, 1975, стр. 472):

где K — число категорий, а — доля наблюдений, которые попадают в данную категорию i . Фактор используется для стандартизации.

M 1 и M 2 можно интерпретировать в терминах дисперсии полиномиального распределения (Swanson 1976) (там это называется «расширенной биномиальной моделью»). M 1 — это дисперсия полиномиального распределения, а M 2 — это отношение дисперсии полиномиального распределения к дисперсии биномиального распределения .

М4

Индекс М 4 равен

где m — среднее значение.

М6

Формула для M 6:

· где K — количество категорий, X i — количество точек данных в i категории, N — общее количество точек данных, || — абсолютное значение (модуль) и

Эту формулу можно упростить

где p i — доля выборки в i категории.

На практике M 1 и M 6, как правило, сильно коррелируют, что препятствует их совместному использованию.

Связанные индексы

Сумма

также нашел применение. Это известно как индекс Симпсона в экологии и как индекс Херфиндаля или индекс Херфиндаля-Хиршмана (HHI) в экономике. Вариант этого известен как индекс Хантера-Гастона в микробиологии [11]

В лингвистике и криптоанализе эта сумма известна как частота повторения. Частота совпадений ( IC ) является несмещенной оценкой этой статистики [12]

где f i — количество i- й графемы в тексте, а n — общее количество графем в тексте.

М 1

Статистика M 1, определенная выше, предлагалась несколько раз в различных условиях под разными названиями. К ним относятся индекс изменчивости Джини, [13] мера разнообразия Симпсона, [14] индекс языковой однородности Бачи, [15] индекс качественной изменчивости Мюллера и Шусслера, [16] индекс отраслевой диверсификации Гиббса и Мартина, [17] индекс Либерсона. [18] и индекс Блау в социологии, психологии и управленческих исследованиях. [19] Формулировки всех этих индексов идентичны.

D Симпсона определяется как

где n — общий размер выборки, а n i — количество элементов в i- й категории.

Для больших n имеем

Другой предложенный статистический показатель — коэффициент непохожести, который колеблется от 0 до 1. [20]

где n — размер выборки, а c ( x , y ) = 1, если x и y различны, и 0 в противном случае.

Для больших n имеем

где K — количество категорий.

Другая связанная статистика — квадратичная энтропия.

который сам по себе связан с индексом Джини .

М 2

Одноязычный невзвешенный индекс языкового разнообразия Гринберга [21] — это статистика М2 , определенная выше.

М 7

Другой индекс – М 7 – был создан на основе индекса М 4 Гиббса и Постона-младшего (1975) [22]

где

и

где K — количество категорий, L — количество подтипов, O ij и E ij — количество наблюдаемых и ожидаемых подтипов j в i категории соответственно, n i — количество в i категории, а p j — доля подтипа j в полной выборке.

Примечание: этот индекс был разработан для измерения участия женщин на рабочем месте: он был разработан для двух подтипов: мужчин и женщин.

Другие индексы отдельных выборок

Эти индексы представляют собой сводную статистику вариации внутри выборки.

Индекс Бергера–Паркера

Индекс Бергера–Паркера, названный в честь Вольфганга Х. Бергера и Фрэнсис Лоуренс Паркер , равен максимальному значению в наборе данных, т.е. пропорциональному обилию наиболее распространенного типа. [23] Это соответствует взвешенному обобщенному среднему значению , когда q стремится к бесконечности, и, следовательно, равно обратной величине истинного разнообразия порядка бесконечности (1/ D ).

Индекс разнообразия Бриллюэна

Этот индекс строго применим только к целым популяциям, а не к конечным выборкам. Он определяется как

где N — общее число особей в популяции, n i — число особей в i -й категории , а N ! — факториал N. Индекс равномерности Бриллюэна определяется как

где I B (max) — максимальное значение I B .

Числа разнообразия Хилла

Хилл предложил семейство чисел разнообразия [24]

Для заданных значений a можно вычислить несколько других индексов.

Хилл также предложил семейство мер равномерности

где а > б .

Hill's E 4 — это

Hill's E 5 — это

Индекс Маргалефа

где S — количество типов данных в выборке, а N — общий размер выборки. [25]

индекс Менхиника

где S — количество типов данных в выборке, а N — общий размер выборки. [26]

В лингвистике этот индекс идентичен индексу Курашкевича (индексу Гьяра), где S — количество отдельных слов (типов), а N — общее количество слов (токенов) в исследуемом тексте. [27] [28] Этот индекс можно вывести как частный случай обобщенной функции Торквиста. [29]

Q-статистика

Это статистика, изобретенная Кемптоном и Тейлором. [30] и включает квартили выборки. Она определяется как

где R 1 и R 2 — 25% и 75% квартили соответственно на кумулятивной видовой кривой, n j — количество видов в j категории, n Ri — количество видов в классе, куда попадает R i ( i = 1 или 2).

Индекс Шеннона-Винера

Это взято из теории информации

где N — общее число в выборке, а p i — доля в i- й категории.

В экологии, где этот индекс широко используется, H обычно находится в диапазоне от 1,5 до 3,5 и лишь изредка превышает 4,0.

Приблизительная формула для стандартного отклонения (SD) H :

где p i — доля i- й категории, а N — общее количество в выборке.

Более точное приближенное значение дисперсии H (var( H )) дается формулой [31]

где N — размер выборки, а K — количество категорий.

Связанный индекс — Pielou J, определяемый как

Одна из трудностей с этим индексом заключается в том, что S неизвестен для конечной выборки. На практике S обычно устанавливается на максимальное значение, присутствующее в любой категории в выборке.

энтропия Реньи

Энтропия Реньи является обобщением энтропии Шеннона на другие значения q , отличные от единицы. Она может быть выражена:

что равно

Это означает, что взятие логарифма истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q .

Значение также известно как число Хилла. [24]

D и E Макинтоша

Макинтош предложил меру разнообразия: [32]

где n i — число в i- й категории, а K — количество категорий.

Он также предложил несколько нормализованных версий этого индекса. Первая — D :

где N — общий размер выборки.

Преимущество этого индекса заключается в том , что он выражает наблюдаемое разнообразие как долю от абсолютного максимального разнообразия при заданном N.

Другая предлагаемая нормализация — E — отношение наблюдаемого разнообразия к максимально возможному разнообразию при заданных N и K (т. е. если все виды равны по числу особей):

Альфа Фишера

Это был первый индекс, полученный для оценки разнообразия. [33]

где K — число категорий, а N — число точек данных в выборке. Коэффициент α Фишера должен быть оценен численно из данных.

Ожидаемое число особей в r категории, где категории были размещены в порядке возрастания размера, равно

где X — эмпирический параметр, лежащий в диапазоне от 0 до 1. Хотя X лучше всего оценить численно, приблизительное значение можно получить, решив следующие два уравнения:

где K — количество категорий, а N — общий размер выборки.

Дисперсия α приблизительно равна [34]

Индекс Стронга

Этот индекс ( D w ) представляет собой расстояние между кривой Лоренца распределения видов и линией 45 градусов. Он тесно связан с коэффициентом Джини. [35]

В символах это

где max() — максимальное значение, взятое из N точек данных, K — количество категорий (или видов) в наборе данных, а c i — совокупная сумма, включая i- ю категорию.

Симпсон E

Это связано с D Симпсона и определяется как

где D — D Симпсона , а K — количество категорий в выборке.

Индексы Смита и Уилсона

Смит и Уилсон предложили ряд индексов, основанных на индексе Симпсона D.

где D — D Симпсона , а K — количество категорий.

Индекс Хейпа

где H — энтропия Шеннона, а K — число категорий.

Этот индекс тесно связан с индексом Шелдона, который

где H — энтропия Шеннона, а K — число категорий.

Индекс Камарго

Этот индекс был создан Камарго в 1993 году. [36]

где K — количество категорий, а p i — доля в i категории.

Смит и Вильсон B

Этот индекс был предложен Смитом и Уилсоном в 1996 году. [37]

где θ — наклон кривой логарифмического ранга (распространенности).

Индекс Ни, Харви и Котгрива

Это наклон кривой логарифмической зависимости (численности) от ранга.

Булла E

Существуют две версии этого индекса — одна для непрерывных распределений ( E c ), а другая для дискретных ( E d ). [38]

где

— индекс Шёнера–Чеканоски, K — количество категорий, N — размер выборки.

Индекс теории информации Хорна

Этот индекс ( Rik ) основан на энтропии Шеннона. [39] Он определяется как

где

В этих уравнениях x ij и x kj — это количество раз, которое j тип данных появляется в i или k образце соответственно.

Индекс разрежения

В разреженной выборке случайная подвыборка n выбирается из общего числа N элементов. В этой выборке некоторые группы могут обязательно отсутствовать в этой подвыборке. Пусть будет числом групп, все еще присутствующих в подвыборке из n элементов. меньше K число категорий всякий раз, когда хотя бы одна группа отсутствует в этой подвыборке.

Кривая разрежения определяется как :

Обратите внимание, что 0 ≤ f ( n ) ≤ K .

Более того,

Несмотря на то, что эти кривые определены при дискретных значениях n , чаще всего они отображаются как непрерывные функции. [40]

Этот индекс более подробно обсуждается в разделе «Разрежение (экология)» .

V Касвелла

Это статистика типа z, основанная на энтропии Шеннона. [41]

где H — энтропия Шеннона, E ( H ) — ожидаемая энтропия Шеннона для нейтральной модели распределения, а SD ( H ) — стандартное отклонение энтропии. Стандартное отклонение оценивается по формуле, выведенной Пиелоу

где p i — доля i- й категории, а N — общее количество в выборке.

Индекс Ллойда и Геларди

Это

где K — число категорий, а K' — число категорий согласно модели сломанной палки Макартура, дающей наблюдаемое разнообразие.

Средний индекс таксономической отличимости

Этот индекс используется для сравнения взаимоотношений между хозяевами и их паразитами. [42] Он включает информацию о филогенетических отношениях между видами хозяев.

где s — число видов хозяев, используемых паразитом, а ω ij — таксономическое различие между видами хозяев i и j .

Индекс качественной вариации

Было предложено несколько индексов с таким названием.

Один из них —

где K — количество категорий, а p i — доля выборки, которая относится к i- й категории.

Тейлс Х

Этот индекс также известен как индекс многогрупповой энтропии или индекс теории информации. Он был предложен Тейлом в 1972 году. [43] Индекс представляет собой средневзвешенное значение энтропии выборок.

Позволять

и

где p i — доля типа i в a выборке, r — общее количество выборок, n i — размер i- й выборки, N — размер популяции, из которой были получены выборки, а E — энтропия популяции.

Индексы для сравнения двух или более типов данных в пределах одной выборки

Некоторые из этих индексов были разработаны для документирования степени, в которой различные типы данных, представляющие интерес, могут сосуществовать в пределах географической области.

Индекс несходства

Пусть A и B — два типа элементов данных. Тогда индекс различия равен

где

A i — количество данных типа A на участке выборки i , B i — количество данных типа B на участке выборки i , K — количество отобранных участков, а || — абсолютное значение.

Этот индекс, вероятно, более известен как индекс несходства ( D ). [44] Он тесно связан с индексом Джини.

Этот индекс смещен, поскольку его ожидание при равномерном распределении > 0.

Модификация этого индекса была предложена Горардом и Тейлором. [45] Их индекс (GT) — это

Индекс сегрегации

Индекс сегрегации ( ИС ) [46] равен

где

и K - количество единиц, A i и t i - количество типов данных A в единице i и общее количество всех типов данных в единице i .

Индекс квадратного корня Хатчена

Этот индекс ( H ) определяется как [47]

где p i — доля выборки, состоящая из i переменной.

Индекс изоляции Либерсона

Этот индекс ( L xy ) был изобретен Либерсоном в 1981 году. [48]

где X i и Y i — интересующие переменные на i участке, K — количество исследованных участков, а X tot — общее количество переменных типа X в исследовании.

индекс Белла

Этот индекс определяется как [49]

где p x — доля выборки, состоящей из переменных типа X и

где N x — общее количество переменных типа X в исследовании, K — количество образцов в исследовании, а x i и p i — количество переменных и доля переменных типа X соответственно в i образце.

Индекс изоляции

Индекс изоляции

где K — количество единиц в исследовании, A i и t i — количество единиц типа A и количество всех единиц в i выборке.

Также был предложен модифицированный индекс изоляции.

MII находится в диапазоне от 0 до 1.

Индекс сегрегации Горарда

Этот индекс (GS) определяется как

где

и A i и t i — количество элементов данных типа A и общее количество элементов в i выборке.

Индекс воздействия

Этот индекс определяется как

где

и A i и B i — количество типов A и B в i- й категории, а t i — общее количество точек данных в i категории.

Индекс Очиаи

Это двоичная форма индекса косинуса. [50] Он используется для сравнения данных о наличии/отсутствии двух типов данных (здесь A и B ). Он определяется как

где a — количество единиц выборки, в которых присутствуют как A, так и B , b — количество единиц выборки, в которых присутствует A , но не присутствует B , а c — количество единиц выборки, в которых присутствует тип B, но не присутствует тип A.

Коэффициент Кульчинского

Этот коэффициент был изобретен Станиславом Кульчинским в 1927 году [51] и является индексом ассоциации между двумя типами (здесь A и B ). Он варьируется в значении от 0 до 1. Он определяется как

где a — количество единиц выборки, в которых присутствуют типы A и B , b — количество единиц выборки, в которых присутствует тип A, но не присутствует тип B, и cколичество единиц выборки , в которых присутствует тип B, но не присутствует тип A.

Вопрос Юла

Этот индекс был изобретен Юлом в 1900 году. [52] Он касается ассоциации двух различных типов (здесь A и B ). Он определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствует ни тип A , ни тип B. Q варьируется в пределах от -1 до +1. В порядковом случае Q известен как γ Гудмана-Крускала .

Поскольку знаменатель потенциально может быть равен нулю, Лейнхерт и Спорер рекомендовали добавлять +1 к a , b , c и d . [53]

Y Юла

Этот индекс определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B.

Коэффициент Барони – Урбани – Бузера

Этот индекс был изобретен Барони-Урбани и Бузером в 1976 году. [54] Его значение варьируется от 0 до 1. Он определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

При d = 0 этот индекс идентичен индексу Жаккара.

коэффициент Хаммана

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

Коэффициент Роджерса–Танимото

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки .

Коэффициент Сокала-Снита

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

Двоичное расстояние Сокала

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

Коэффициент Рассела–Рао

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

Коэффициент Фи

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B.

Коэффициент Зёргеля

Этот коэффициент определяется как

где b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствует ни тип A , ни тип B. N — размер выборки.

коэффициент Симпсона

Этот коэффициент определяется как

где b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A.

Коэффициент Денниса

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

Коэффициент Форбса

Этот коэффициент был предложен Стивеном Альфредом Форбсом в 1907 году. [55] Он определяется как

где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A, но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки ( N = a + b + c + d ).

Модификация этого коэффициента, не требующая знания d, была предложена Элроем [56]

Где n = a + b + c .

Простой коэффициент соответствия

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

Коэффициент Фоссума

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

коэффициент Стайла

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , d — количество образцов, в которых не присутствуют ни тип A, ни тип B , n равно a + b + c + d и || — модуль (абсолютное значение) разности.

Коэффициент Михаэля

Этот коэффициент определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B.

коэффициент Пирса

В 1884 году Чарльз Пирс предложил [57] следующий коэффициент

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B.

Коэффициент Хокинса–Дотсона

В 1975 году Хокин и Дотсон предложили следующий коэффициент:

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

Коэффициент Бенини

В 1901 году Бенини предложил следующий коэффициент

где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , а c — количество образцов, в которых присутствует тип B, но отсутствует тип A. Min( b , c ) — это минимум из b и c .

коэффициент Гилберта

Гилберт предложил следующий коэффициент

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.

индекс Джини

Индекс Джини равен

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , а c — количество образцов, в которых присутствует тип B, но отсутствует тип A.

Модифицированный индекс Джини

Модифицированный индекс Джини равен

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , а c — количество образцов, в которых присутствует тип B, но отсутствует тип A.

индекс Куна

В 1965 году Кун предложил следующий коэффициент:

где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , а c — количество образцов, в которых присутствует тип B, но отсутствует тип A. K — нормализующий параметр. N размер выборки.

Этот индекс также известен как коэффициент среднего арифметического.

индекс Эйро

В 1936 году Эйро предложил следующий коэффициент:

где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A, но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых отсутствуют как A , так и B.

Расстояние Зёргеля

Это определяется как

где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A, но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых отсутствуют как A , так и B. N — размер выборки.

индекс Танимото

Это определяется как

где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A, но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых отсутствуют как A , так и B. N — размер выборки.

Индекс Пятецкого–Шапиро

Это определяется как

где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A.

Индексы для сравнения двух или более образцов

Количественный показатель Чекановского

Это также известно как индекс Брея-Кертиса , индекс Шёнера, индекс наименьшего общего процента, индекс сродства или пропорционального сходства. Он связан с индексом сходства Серенсена .

где x i и x j — количество видов на участках i и j соответственно, а минимум берется из количества видов, общих для двух участков.

Канберрская метрика

Расстояние Канберры является взвешенной версией метрики L 1. Оно было введено в 1966 году [58] и уточнено в 1967 году [59] Г. Н. Лансом и У. Т. Уильямсом . Оно используется для определения расстояния между двумя векторами – в данном случае двумя сайтами с K категориями внутри каждого сайта.

Расстояние Канберры d между векторами p и q в K -мерном действительном векторном пространстве равно

где p i и q i — значения i- й категории двух векторов.

Коэффициент общности Серенсена

Это используется для измерения сходства между сообществами.

где s 1 и s 2 — количество видов в сообществах 1 и 2 соответственно, а c — количество видов, общих для обеих областей.

индекс Жаккара

Это мера сходства между двумя образцами:

где A — количество точек данных, общих для двух образцов, а B и C — точки данных, обнаруженные только в первом и втором образцах соответственно.

Этот индекс был изобретен в 1902 году швейцарским ботаником Полем Жаккаром . [60]

При случайном распределении ожидаемое значение J равно [61]

Стандартная ошибка этого индекса при предположении случайного распределения составляет

где N — общий размер выборки.

Индекс Дайса

Это мера сходства между двумя образцами:

где A — количество точек данных, общих для двух образцов, а B и C — точки данных, обнаруженные только в первом и втором образцах соответственно.

Коэффициент соответствия

Это мера сходства между двумя образцами:

где N — количество точек данных в двух образцах, а B и C — точки данных, обнаруженные только в первом и втором образцах соответственно.

Индекс Мориситы

Индекс дисперсии Масааки Мориситы ( I m ) представляет собой масштабированную вероятность того, что две точки, выбранные случайным образом из всей генеральной совокупности, находятся в одной и той же выборке. [62] Более высокие значения указывают на более сгруппированное распределение.

Альтернативная формулировка:

где n — общий размер выборки, m — выборочное среднее, а x — индивидуальные значения, сумма которых берется по всей выборке. Он также равен

где IMC — индекс скученности Ллойда. [63]

Этот индекс относительно независим от плотности населения, но зависит от размера выборки.

Морисита показал, что статистика [62]

распределена как переменная хи-квадрат с n  − 1 степенями свободы.

Для больших выборок был разработан альтернативный тест значимости этого индекса. [64]

где m — среднее значение выборки, n — количество единиц выборки, а zабсцисса нормального распределения . Значимость проверяется путем сравнения значения z со значениями нормального распределения .

Индекс перекрытия Мориситы

Индекс перекрытия Мориситы используется для сравнения перекрытия между образцами. [65] Индекс основан на предположении, что увеличение размера образцов увеличит разнообразие, поскольку оно будет включать различные среды обитания.

x i — количество раз, которое вид i представлен в общем X из одной выборки.
y i — количество раз, которое вид i представлен в общем Y из другой выборки.
D x и D y — значения индекса Симпсона для выборок x и y соответственно.
S — количество уникальных видов

CD = 0, если две выборки не пересекаются по видам, и CD = 1 , если виды встречаются в обеих выборках в одинаковых пропорциях.

Хорн ввел модификацию индекса [66]

Стандартизированный индекс Мориситы

Смит-Гилл разработал статистику, основанную на индексе Мориситы, которая не зависит ни от размера выборки, ни от плотности населения и ограничена значениями −1 и +1. Эта статистика рассчитывается следующим образом [67]

Сначала определите индекс Мориситы ( I d ) обычным способом. Затем пусть k будет числом единиц, из которых была отобрана популяция. Рассчитайте два критических значения

где χ 2 — значение хи-квадрат для n  − 1 степеней свободы при уровнях достоверности 97,5% и 2,5%.

Затем стандартизированный индекс ( I p ) рассчитывается по одной из формул ниже.

Когда I dM c > 1

Когда М с > I d ≥ 1

Когда 1 > I dM u

Когда 1 > М у > Я д

I p колеблется от +1 до −1 с 95% доверительными интервалами ±0,5. I p имеет значение 0, если шаблон случайный; если шаблон равномерный, I p < 0 и если шаблон показывает агрегацию, I p > 0.

Индексы равномерности Пита

Эти индексы являются мерой равномерности между образцами. [68]

где I — индекс разнообразия, I max и I min — максимальное и минимальное значения I между сравниваемыми образцами.

Коэффициент Левингера

Лёвингер предложил коэффициент H, определяемый следующим образом:

где p max и p min — максимальная и минимальная доли в выборке.

индекс Тверски

Индекс Тверски [69] — асимметричная мера, которая лежит в диапазоне от 0 до 1.

Для образцов А и В индекс Тверски ( S ) равен

Значения α и β произвольны. Установка α и β на 0,5 дает коэффициент Дайса . Установка обоих на 1 дает коэффициент Танимото .

Также был предложен симметричный вариант этого индекса. [70]

где

Было предложено несколько подобных индексов.

Моностори и др. предложили индекс симметричного сходства [71]

где d ( X ) — некоторая мера, полученная из  X .

Бернштейн и Зобель предложили индексы S2 и S3 [72]

S3 — это просто удвоенный индекс SymmetricSimiality. Оба связаны с коэффициентом Дайса

Используемые метрики

Было предложено несколько метрик (расстояний между образцами).

Евклидово расстояние

Хотя это обычно используется в количественной работе, это может также использоваться в качественной работе. Это определяется как

где d jk — расстояние между x ij и x ik .

Расстояние Гауэра

Это определяется как

где d i — расстояние между i- ми образцами, а w i — весовой коэффициент, отнесенный к i- му расстоянию.

Манхэттенское расстояние

Хотя это чаще используется в количественной работе, это может также использоваться в качественной работе. Это определяется как

где d jk — расстояние между x ij и x ik , а || — абсолютное значение разности между x ij и x ik .

Модифицированную версию манхэттенского расстояния можно использовать для нахождения нуля ( корня ) многочлена любой степени с помощью метода Лилла .

Расстояние Превости

Это связано с манхэттенским расстоянием. Оно было описано Превости и др. и использовалось для сравнения различий между хромосомами . [73] Пусть P и Q — два набора из r конечных распределений вероятностей. Пусть эти распределения имеют значения, разделенные на k категорий. Тогда расстояние D PQ равно

где r — число дискретных распределений вероятностей в каждой популяции, k j — число категорий в распределениях P j и Q j , а p ji (соответственно q ji ) — теоретическая вероятность категории i в распределении P j ( Q j ) в популяции P ( Q ).

Его статистические свойства были изучены Санчесом и др. [74], которые рекомендовали процедуру бутстрепа для оценки доверительных интервалов при проверке различий между выборками.

Другие показатели

Позволять

где min( x , y ) — меньшее значение пары x и y .

Затем

это манхэттенское расстояние,

— расстояние Брея-Кертиса,

это расстояние Жаккара (или Ружички) и

— расстояние Кульчинского.

Сходства между текстами

ХаКоэн-Кернер и др. предложили ряд метрик для сравнения двух или более текстов. [75]

Порядковые данные

Если категории являются по крайней мере порядковыми , то можно вычислить ряд других индексов.

Лейкс Д

Мера дисперсии Лейка ( D ) является одним из таких индексов. [76] Пусть есть K категорий и пусть p i будет f i / N , где f i — число в i категории, и пусть категории будут расположены в порядке возрастания. Пусть

где aK. Пусть d a = c a, если c a ≤ 0,5 и 1 −  c a ≤ 0,5 в противном случае. Тогда

Нормализованная мера Херфиндаля

Это квадрат коэффициента вариации, деленный на N  − 1, где N — размер выборки.

где m — среднее значение, а s — стандартное отклонение.

Индекс потенциального конфликта

Индекс потенциального конфликта (PCI) описывает соотношение оценок по обе стороны от центральной точки рейтинговой шкалы. [77] Этот индекс требует как минимум порядковых данных. Это соотношение часто отображается в виде пузырьковой диаграммы.

PCI использует порядковую шкалу с нечетным числом рейтинговых баллов (от − n до + n ) с центром в 0. Она рассчитывается следующим образом

где Z = 2 n , |·| — абсолютное значение (модуль), r + — количество ответов в положительной части шкалы, r — количество ответов в отрицательной части шкалы, X + — ответы в положительной части шкалы, X — ответы в отрицательной части шкалы и

Известно, что существуют теоретические трудности с PCI. PCI можно вычислить только для шкал с нейтральной центральной точкой и равным количеством вариантов ответа по обе стороны от нее. Кроме того, равномерное распределение ответов не всегда дает среднюю точку статистики PCI, а скорее варьируется в зависимости от количества возможных ответов или значений в шкале. Например, пяти-, семи- и девятибалльные шкалы с равномерным распределением ответов дают PCI 0,60, 0,57 и 0,50 соответственно.

Первая из этих проблем относительно незначительна, поскольку большинство порядковых шкал с четным числом ответов можно расширить (или сократить) на одно значение, чтобы получить нечетное число возможных ответов. Шкалу обычно можно рецентрировать, если это требуется. Вторую проблему решить сложнее, и она может ограничить применимость PCI.

PCI был расширен [78]

где K — число категорий, k i — число в i категории, d ij — расстояние между i и i категориями, а δ — максимальное расстояние на шкале, умноженное на количество раз, которое оно может встретиться в выборке. Для выборки с четным числом точек данных

и для выборки с нечетным числом точек данных

где N — количество точек данных в выборке, а d max — максимальное расстояние между точками на шкале.

Васке и др. предлагают ряд возможных мер расстояния для использования с этим индексом. [78]

если знаки (+ или −) r i и r j различаются. Если знаки одинаковы, то d ij = 0.

где p — произвольное действительное число > 0.

если sign( r i ) ≠ sign( r i ) и p — действительное число > 0. Если знаки одинаковы, то d ij = 0. m — это D 1 , D 2 или D 3 .

Разница между D 1 и D 2 заключается в том, что первый не включает нейтралов в расстояние, а последний включает. Например, респонденты, набравшие −2 и +1, будут иметь расстояние 2 под D 1 и 3 под D 2 .

Использование мощности ( p ) в расстояниях позволяет перемасштабировать экстремальные ответы. Эти различия могут быть подчеркнуты с помощью p > 1 или уменьшены с помощью p < 1.

В симуляциях с переменными, взятыми из равномерного распределения, PCI 2 имеет симметричное унимодальное распределение. [78] Хвосты его распределения больше, чем у нормального распределения.

Васке и др. предлагают использовать t-тест для сравнения значений PCI между выборками, если PCI распределены приблизительно нормально.

А ван дер Эйка

Эта мера представляет собой средневзвешенное значение степени согласия распределения частот. [79] A варьируется от −1 (совершенная бимодальность ) до +1 (совершенная унимодальность ). Она определяется как

где U — унимодальность распределения, S — число категорий, имеющих ненулевые частоты, а K — общее число категорий.

Значение U равно 1, если распределение имеет любую из трех следующих характеристик:

При других распределениях данные должны быть разделены на «слои». Внутри слоя ответы либо равны, либо равны нулю. Категории не обязательно должны быть смежными. Вычисляется значение A для каждого слоя ( A i ) и определяется средневзвешенное значение для распределения. Веса ( w i ) для каждого слоя — это количество ответов в этом слое. В символах

Равномерное распределение имеет A = 0: когда все ответы попадают в одну категорию, A = +1.

Одна из теоретических проблем с этим индексом заключается в том, что он предполагает, что интервалы распределены равномерно. Это может ограничить его применимость.

Сопутствующая статистика

Проблема с днем ​​рождения

Если в выборке n единиц и они случайным образом распределены по k категориям ( nk ), это можно считать вариантом проблемы дня рождения . [80] Вероятность ( p ) того, что все категории будут иметь только одну единицу, равна

Если c велико, а n мало по сравнению с k2 /3 , то с хорошим приближением

Это приближение следует из точной формулы следующим образом:

Оценки размера выборки

Для p = 0,5 и p = 0,05 соответственно могут быть полезны следующие оценки n:

Этот анализ можно распространить на несколько категорий. Для p = 0,5 и p 0,05 мы имеем соответственно

где c i — размер i- й категории. Этот анализ предполагает, что категории независимы.

Если данные упорядочены каким-либо образом, то для того, чтобы хотя бы одно событие произошло в двух категориях, лежащих в пределах j категорий друг от друга, вероятность 0,5 или 0,05 требует размера выборки ( n ) соответственно [81]

где k — количество категорий.

Проблема дня рождения-дня смерти

Существует ли связь между днями рождения и днями смерти, было исследовано с помощью статистики [82].

где d — количество дней в году между днем ​​рождения и днем ​​смерти.

индекс Рэнда

Индекс Рэнда используется для проверки того, согласуются ли две или более систем классификации с набором данных. [83]

Для заданного набора элементов и двух разделов для сравнения, , разбиения S на r подмножеств , и , разбиения S на s подмножеств, определим следующее:

Индекс Рэнда - - определяется как

Интуитивно можно рассматривать как число соглашений между и , а как число несоответствий между и .

Скорректированный индекс Рэнда

Скорректированный индекс Рэнда — это скорректированная на случайность версия индекса Рэнда. [83] [84] [85] Хотя индекс Рэнда может давать только значение от 0 до +1, скорректированный индекс Рэнда может давать отрицательные значения, если индекс меньше ожидаемого индекса. [86]

Таблица непредвиденных обстоятельств

При наличии набора элементов и двух группировок или разделов ( например, кластеризации) этих точек, а именно и , перекрытие между и можно суммировать в таблице сопряженности, где каждая запись обозначает количество объектов, общих для и  : .

Определение

Скорректированная форма индекса Рэнда, скорректированный индекс Рэнда, это

более конкретно

где — значения из таблицы сопряженности.

Поскольку знаменатель представляет собой общее число пар, индекс Рэнда представляет собой частоту появления соглашений по всем парам или вероятность того, что и придут к соглашению по случайно выбранной паре.

Оценка индексов

Различные индексы дают разные значения вариации и могут использоваться для разных целей: некоторые из них используются и критикуются, особенно в социологической литературе.

Если требуется просто провести порядковые сравнения между образцами (является ли один образец более или менее разнообразным, чем другой), выбор IQV относительно менее важен, поскольку они часто будут давать тот же самый порядок.

Если данные порядковые, то для сравнения выборок может быть полезен метод ORDANOVA.

В некоторых случаях полезно не стандартизировать индекс, чтобы он измерялся от 0 до 1, независимо от количества категорий или образцов (Wilcox 1973, стр. 338), но обычно его стандартизируют именно так.

Смотрите также

Примечания

  1. ^ Это может произойти только в том случае, если количество случаев кратно количеству категорий.
  2. ^ Freemen LC (1965) Элементарная прикладная статистика . Нью-Йорк: John Wiley and Sons стр. 40–43
  3. ^ Кендал MC, Стюарт A (1958) Продвинутая теория статистики. Hafner Publishing Company стр. 46
  4. ^ Мюллер Дж. Э., Шусслер К. П. (1961) Статистическое обоснование в социологии. Бостон: Houghton Mifflin Company. С. 177–179
  5. ^ Уилкокс (1967), стр.  [ нужна страница ] .
  6. ^ Kaiser HF (1968) «Мера качества законодательного распределения населения». The American Political Science Review 62 (1) 208
  7. Джоэл Гомбин (18 августа 2015 г.). «qualvar: первоначальный выпуск (версия v0.1)». Зенодо . дои : 10.5281/zenodo.28341.
  8. Гиббс и Постон-младший (1975).
  9. ^ Либерсон (1969), стр. 851.
  10. ^ IQV в xycoon
  11. ^ Хантер, PR; Гастон, MA (1988). «Численный индекс дискриминационной способности систем типирования: применение индекса разнообразия Симпсона». J Clin Microbiol . 26 (11): 2465–2466. doi :10.1128 / jcm.26.11.2465-2466.1988. PMC 266921. PMID  3069867. 
  12. ^ Фридман У. Ф. (1925) Частота совпадений и ее применение в криптоанализе. Технический документ. Офис начальника связи. Типография правительства США.
  13. ^ Джини CW (1912) Изменчивость и изменчивость, вклад в изучение статистических распределений и отношений. Studi Economico-Giuricici della R. Universita de Cagliari
  14. ^ Симпсон, Э. Х. (1949). «Измерение разнообразия». Nature . 163 (4148): 688. Bibcode : 1949Natur.163..688S. doi : 10.1038/163688a0 .
  15. ^ Бачи Р. (1956) Статистический анализ возрождения иврита в Израиле. В: Бачи Р. (редактор) Scripta Hierosolymitana, Том III, Иерусалим: Magnus press, стр. 179–247.
  16. ^ Мюллер Дж. Х., Шусслер К. Ф. (1961) Статистическое обоснование в социологии. Бостон: Houghton Mifflin
  17. ^ Гиббс, Дж. П.; Мартин, У. Т. (1962). «Урбанизация, технология и разделение труда: международные модели». American Sociological Review . 27 (5): 667–677. doi :10.2307/2089624. JSTOR  2089624.
  18. ^ Либерсон (1969), стр.  [ нужна страница ] .
  19. ^ Блау П. (1977) Неравенство и гетерогенность. Free Press, Нью-Йорк
  20. ^ Перри М., Кадер Г. (2005) Вариация как несходство. Статистика преподавания 27 (2) 58–60
  21. ^ Гринберг, Дж. Х. (1956). «Измерение языкового разнообразия». Язык . 32 (1): 109–115. doi :10.2307/410659. JSTOR  410659.
  22. ^ Lautard EH (1978) Кандидатская диссертация. [ необходима полная цитата ]
  23. ^ Бергер, WH; Паркер, FL (1970). «Разнообразие планктонных фораменифер в глубоководных осадках». Science . 168 (3937): 1345–1347. Bibcode :1970Sci...168.1345B. doi :10.1126/science.168.3937.1345. PMID  17731043. S2CID  29553922.
  24. ^ ab Hill, MO (1973). «Разнообразие и равномерность: унифицированная нотация и ее последствия». Экология . 54 (2): 427–431. Bibcode : 1973Ecol...54..427H. doi : 10.2307/1934352. JSTOR  1934352.
  25. ^ Маргалеф Р. (1958) Временная последовательность и пространственная гетерогенность фитопланктона. В: Перспективы морской биологии. Buzzati-Traverso (ред.) Univ Calif Press, Беркли, стр. 323–347
  26. ^ Menhinick, EF (1964). "Сравнение некоторых индексов видового и индивидуального разнообразия, применяемых к образцам полевых насекомых". Ecology . 45 (4): 859–861. Bibcode :1964Ecol...45..859M. doi :10.2307/1934933. JSTOR  1934933.
  27. ^ Курашкевич W (1951) Nakladen Wroclawskiego Towarzystwa Naukowego
  28. ^ Гиро П. (1954) Статистические характеристики словарного запаса. Прессы Университетов Франции, Париж
  29. ^ Panas E (2001) Обобщенный Торквист: Спецификация и оценка новой функции размера словаря-текста. J Quant Ling 8(3) 233–252
  30. ^ Кемптон, РА; Тейлор, ЛР (1976). «Модели и статистика для видового разнообразия». Nature . 262 (5571): 818–820. Bibcode :1976Natur.262..818K. doi :10.1038/262818a0. PMID  958461. S2CID  4168222.
  31. ^ Хатчесон К (1970) Тест для сравнения разнообразий на основе формулы Шеннона. J Theo Biol 29: 151–154
  32. ^ Макинтош РП (1967). Индекс разнообразия и связь некоторых концепций с разнообразием. Экология, 48(3), 392–404
  33. ^ Фишер РА, Корбет А, Уильямс КБ (1943) Соотношение между числом видов и числом особей в случайной выборке популяции животных. Animal Ecol 12: 42–58
  34. ^ Anscombe (1950) Теория выборки отрицательных биномиальных и логарифмических рядов распределений. Biometrika 37: 358–382
  35. ^ Стронг, У. Л. (2002). «Оценка неравномерности численности видов внутри и между растительными сообществами» (PDF) . Экология сообществ . 3 (2): 237–246. doi :10.1556/comec.3.2002.2.9.
  36. ^ Camargo JA (1993) Должно ли доминирование увеличиваться с числом подчиненных видов в конкурентных взаимодействиях? J. Theor Biol 161 537–542
  37. ^ Смит, Уилсон (1996) [ необходима полная цитата ]
  38. ^ Булла, Л. (1994). «Индекс равномерности и связанная с ним мера разнообразия». Oikos . 70 (1): 167–171. Bibcode :1994Oikos..70..167B. doi :10.2307/3545713. JSTOR  3545713.
  39. ^ Хорн, Х.С. (1966). «Измерение „перекрытия“ в сравнительных экологических исследованиях». Am Nat . 100 (914): 419–423. doi :10.1086/282436. S2CID  84469180.
  40. ^ Сигел, Эндрю Ф. (2006) «Кривые разрежения». Энциклопедия статистических наук 10.1002/0471667196.ess2195.pub2.
  41. ^ Касвелл Х (1976) Структура сообщества: нейтральный модельный анализ. Ecol Monogr 46: 327–354
  42. ^ Пулен, Р.; Муйо, Д. (2003). «Специализация паразитов с филогенетической точки зрения: новый индекс специфичности хозяина». Паразитология . 126 (5): 473–480. CiteSeerX 10.1.1.574.7432 . doi :10.1017/s0031182003002993. PMID  12793652. S2CID  9440341. 
  43. ^ Theil H (1972) Статистический анализ декомпозиции. Амстердам: North-Holland Publishing Company>
  44. ^ Дункан О.Д., Дункан Б. (1955) Методологический анализ индексов сегрегации. Am Sociol Review, 20: 210–217
  45. ^ Горард С., Тейлор К. (2002b) Что такое сегрегация? Сравнение мер с точки зрения «сильной» и «слабой» композиционной инвариантности. Социология, 36(4), 875–895
  46. ^ Massey, DS; Denton, NA (1988). «Измерения жилой сегрегации». Social Forces . 67 (2): 281–315. doi : 10.1093/sf/67.2.281 .
  47. ^ Хатченс Р.М. (2004) Одна мера сегрегации. International Economic Review 45: 555–578
  48. ^ Либерсон С. (1981). «Асимметричный подход к сегрегации». В Peach C, Robinson V, Smith S (ред.). Этническая сегрегация в городах . Лондон: Croom Helm. С. 61–82.
  49. ^ Белл, В. (1954). «Вероятностная модель для измерения экологической сегрегации». Social Forces . 32 (4): 357–364. doi :10.2307/2574118. JSTOR  2574118.
  50. ^ Ochiai A (1957) Зоогеографические исследования солеоидных рыб, обнаруженных в Японии и соседних регионах. Bull Jpn Soc Sci Fish 22: 526–530
  51. ^ Кульчинский С (1927) Die Pflanzenassoziationen der Pieninen. Международный бюллетень Полонезской академии наук и литературы, Класс наук
  52. ^ Юл ГУ (1900) Об ассоциации атрибутов в статистике. Philos Trans Roy Soc
  53. ^ Линерт Г.А. и Спорер С.Л. (1982) Interkorrelationen seltner Symptome mittels Nullfeldkorrigierter YuleKoeffizienten. Psychologische Beitrage 24: 411–418.
  54. ^ Baroni-Urbani, C; Buser, MW (1976). «сходство двоичных данных». Systematic Biology . 25 (3): 251–259. doi :10.2307/2412493. JSTOR  2412493.
  55. ^ Форбс СА (1907) О локальном распределении некоторых рыб Иллинойса: эссе по статистической экологии. Бюллетень Иллинойской государственной лаборатории естественной истории 7:272–303
  56. ^ Alroy J (2015) Новый поворот в очень старом двоичном коэффициенте подобия. Экология 96 (2) 575-586
  57. ^ Карл Р. Хаусман и Дуглас Р. Андерсон (2012). Беседы о Пирсе: Реальные и Идеальные . Fordham University Press. стр. 221. ISBN 9780823234677.
  58. ^ Лэнс, ГН; Уильямс, У.Т. (1966). «Компьютерные программы для иерархической политетической классификации («анализ сходства»)». Computer Journal . 9 (1): 60–64. doi : 10.1093/comjnl/9.1.60 .
  59. ^ Лэнс, ГН; Уильямс, УТ (1967). «Программы классификации смешанных данных I.) Агломеративные системы». Australian Computer Journal : 15–20.
  60. ^ Жаккар П (1902) Лоис цветочного распространения. Bulletin de la Societé Vaudoise des Sciences Naturelles 38:67-130
  61. ^ Арчер AW и Мейплз CG (1989) Реакция выбранных биномиальных коэффициентов на различные степени разреженности матрицы и на матрицы с известными взаимосвязями данных. Математическая геология 21: 741–753
  62. ^ ab Morisita M (1959) Измерение дисперсии и анализ закономерностей распределения. Мемуары факультета естественных наук Университета Кюсю Серия E. Biol 2:215–235
  63. ^ Ллойд М (1967) Средняя скученность. J Anim Ecol 36: 1–30
  64. ^ Pedigo LP & Buntin GD (1994) Справочник по методам отбора проб для членистоногих в сельском хозяйстве. CRC Boca Raton FL
  65. ^ Морисита М (1959) Измерение дисперсии и анализ закономерностей распределения. Мемуары факультета естественных наук Университета Кюсю, Серия E Биология. 2: 215–235
  66. ^ Хорн, Х.С. (1966). «Измерение «перекрытия» в сравнительных экологических исследованиях». The American Naturalist . 100 (914): 419–424. doi :10.1086/282436. S2CID  84469180.
  67. ^ Смит-Гилл С.Дж. (1975). «Цитофизиологическая основа нарушенных пигментных паттернов у леопардовой лягушки Rana pipiens . II. Паттерны, специфичные для дикого типа и мутантных клеток». J Morphol . 146 (1): 35–54. doi :10.1002/jmor.1051460103. PMID  1080207. S2CID  23780609.
  68. ^ Пит (1974) Измерения видового разнообразия. Annu Rev Ecol Syst 5: 285–307
  69. ^ Тверски, Амос (1977). «Черты сходства» (PDF) . Психологический обзор . 84 (4): 327–352. doi :10.1037/0033-295x.84.4.327.
  70. ^ Хименес С., Бесерра С., Гельбух А. SOFTCARDINALITY-CORE: Улучшение перекрытия текстов с помощью мер распределения для семантического текстового сходства. Вторая совместная конференция по лексической и вычислительной семантике (*SEM), том 1: Труды основной конференции и общая задача: семантическое текстовое сходство, стр. 194-201. 7–8 июня 2013 г., Атланта, Джорджия, США
  71. ^ Моностори К, Финкель Р, Заславский А, Ходаш Г и Патке М (2002) Сравнение методов обнаружения перекрытий. В: Труды Международной конференции по вычислительной науке 2002 года. Заметки лекций по информатике 2329: 51-60
  72. ^ Бернстайн Y и Зобель J (2004) Масштабируемая система для идентификации сопроизводных документов. В: Труды 11-й Международной конференции по обработке строк и поиску информации (SPIRE) 3246: 55-67
  73. ^ Prevosti, A; Ribo, G; Serra, L; Aguade, M; Balanya, J; Monclus, M; Mestres, F (1988). «Колонизация Америки Drosophila subobscura: эксперимент на природных популяциях, подтверждающий адаптивную роль полиморфизма хромосомной инверсии». Proc Natl Acad Sci USA . 85 (15): 5597–5600. Bibcode : 1988PNAS...85.5597P. doi : 10.1073 /pnas.85.15.5597 . PMC 281806. PMID  16593967. 
  74. ^ Санчес, А; Окана, Дж; Уцетб, Ф; Серрак, Л. (2003). «Сравнение генетических расстояний Превости». Журнал статистического планирования и выводов . 109 (1–2): 43–65. дои : 10.1016/s0378-3758(02)00297-5.
  75. ^ ХаКоэн-Кернер Y, Тайеб A и Бен-Дрор N (2010) Обнаружение простого плагиата в работах по информатике. В: Труды 23-й Международной конференции по компьютерной лингвистике, стр. 421-429
  76. ^ Лейк Р. (1966) Мера порядкового консенсуса. Pacific sociological review 9 (2): 85–90
  77. ^ Manfredo M, Vaske, JJ, Teel TL (2003) Индекс потенциала конфликта: графический подход к практическому значению исследований человеческих измерений. Человеческие измерения дикой природы 8: 219–228
  78. ^ abc Vaske JJ, Beaman J, Barreto H, Shelby LB (2010) Расширение и дальнейшая проверка индекса потенциала конфликта. Leisure Sciences 32: 240–254
  79. ^ Ван дер Эйк К (2001) Измерение согласия в упорядоченных рейтинговых шкалах. Качество и количество 35(3): 325–341
  80. ^ Фон Мизес Р. (1939) Uber Aufteilungs-und Besetzungs-Wahrcheinlichkeiten. Revue de la Facultd des Sciences de I'Universite d'stanbul NS 4: 145−163
  81. ^ Севастьянов Б.А. (1972) Предельный закон Пуассона для схемы сумм зависимых случайных величин. (пер. С.М. Рудольфера) Теория вероятностей и ее приложения, 17: 695−699
  82. ^ Хоглин Д.К., Мостеллер Ф. и Тьюки Дж.У. (1985) Исследование таблиц данных, тенденций и форм, Нью-Йорк: John Wiley
  83. ^ ab WM Rand (1971). «Объективные критерии оценки методов кластеризации». Журнал Американской статистической ассоциации . 66 (336): 846–850. arXiv : 1704.01036 . doi : 10.2307/2284239. JSTOR  2284239.
  84. ^ Лоуренс Хьюберт и Фиппс Араби (1985). «Сравнение разделов». Журнал классификации . 2 (1): 193–218. doi :10.1007/BF01908075. S2CID  189915041.
  85. ^ Нгуен Суан Винь, Жюльен Эппс и Джеймс Бейли (2009). «Информационные теоретические меры для сравнения кластеризации: необходима ли поправка на случайность?» (PDF) . ICML '09: Труды 26-й ежегодной международной конференции по машинному обучению . ACM. стр. 1073–1080. Архивировано из оригинала (PDF) 25 марта 2012 г.PDF-файл.
  86. ^ Вагнер, Силке; Вагнер, Доротея (12 января 2007 г.). "Сравнение кластеризации - обзор" (PDF) . Получено 14 февраля 2018 г.

Ссылки