Индекс качественной вариации ( IQV ) — это мера статистической дисперсии в номинальных распределениях . Примерами служат коэффициент вариации или информационная энтропия .
Существует несколько типов индексов, используемых для анализа номинальных данных. Некоторые из них являются стандартными статистиками, которые используются в других местах: размах , стандартное отклонение , дисперсия , среднее отклонение , коэффициент вариации , медианное абсолютное отклонение , межквартильный размах и квартильное отклонение .
В дополнение к этим нескольким статистикам были разработаны с учетом номинальных данных. Ряд из них были обобщены и разработаны Уилкоксом (Уилкокс 1967), (Уилкокс 1973), который требует, чтобы были удовлетворены следующие свойства стандартизации:
В частности, значение этих стандартизированных индексов не зависит от количества категорий или количества образцов.
Для любого индекса, чем ближе к равномерному распределению, тем больше дисперсия, и чем больше различия в частотах между категориями, тем меньше дисперсия.
Индексы качественной вариации тогда аналогичны информационной энтропии , которая минимизируется, когда все случаи принадлежат к одной категории, и максимизируется при равномерном распределении. Действительно, информационная энтропия может быть использована как индекс качественной вариации.
Одной из характеристик конкретного индекса качественной изменчивости (ИКИ) является отношение наблюдаемых различий к максимальным различиям.
Уилкокс приводит ряд формул для различных индексов QV (Уилкокс, 1973). Первый из них, который он обозначает DM (отклонение от моды), представляет собой стандартизированную форму отношения вариации и аналогичен дисперсии как отклонению от среднего значения.
Формула для вариации вокруг моды (ModVR) выводится следующим образом:
где f m — модальная частота, K — количество категорий, а f i — частота i -й группы.
Это можно упростить до
где N — общий размер выборки.
Индекс Фримена (или коэффициент вариации) равен [2]
Это связано с M следующим образом:
ModVR определяется как
где v — индекс Фримена.
Низкие значения ModVR соответствуют небольшому количеству вариаций, а высокие значения — большему количеству вариаций.
Когда K велико, ModVR приблизительно равен индексу Фримена v .
Это основано на диапазоне вокруг режима. Он определяется как
где f m — модальная частота, а f l — самая низкая частота.
Это аналог среднего отклонения. Он определяется как среднее арифметическое абсолютных отклонений каждого значения от среднего.
Это аналог средней разности — среднее значение разностей всех возможных пар значений переменной, взятых независимо от знака. Средняя разность отличается от среднего и стандартного отклонения, поскольку она зависит от разброса значений переменной между собой, а не от отклонений от некоторого центрального значения. [3]
где f i и f j — i -я и j -я частоты соответственно.
MNDif — это коэффициент Джини , применяемый к качественным данным.
Это аналог дисперсии.
Это тот же индекс, что и индекс качественной вариации Мюллера и Шусслера [4] и индекс М2 Гиббса.
Он распределен как переменная хи-квадрат с K – 1 степенями свободы . [5]
Уилсон предложил две версии этой статистики.
Первый основан на AvDev.
Второй основан на MNDif
Первоначально этот индекс был разработан Клодом Шенноном для использования при определении свойств каналов связи.
где p i = f i / N .
Это эквивалентно информационной энтропии, деленной на , и полезно для сравнения относительной вариации между частотными таблицами разных размеров.
Уилкокс адаптировал предложение Кайзера [6] на основе геометрического среднего и создал индекс B' . Индекс B определяется как
Некоторые из этих индексов были реализованы в языке R. [7]
Гиббс и Постон-младший (1975) предложили шесть индексов. [8]
Нестандартизированный индекс ( M 1) (Гиббс и Постон-младший, 1975, стр. 471)
где K — число категорий, а — доля наблюдений, попадающих в данную категорию i .
M 1 можно интерпретировать как единицу минус вероятность того, что случайная пара образцов будет принадлежать к одной и той же категории, [9] поэтому эта формула для IQV является стандартизированной вероятностью того, что случайная пара попадает в одну и ту же категорию. Этот индекс также называют индексом дифференциации, индексом дифференциации средств к существованию и индексом географической дифференциации в зависимости от контекста, в котором он использовался.
Второй индекс — M2 [10] (Гиббс и Постон-младший, 1975, стр. 472):
где K — число категорий, а — доля наблюдений, которые попадают в данную категорию i . Фактор используется для стандартизации.
M 1 и M 2 можно интерпретировать в терминах дисперсии полиномиального распределения (Swanson 1976) (там это называется «расширенной биномиальной моделью»). M 1 — это дисперсия полиномиального распределения, а M 2 — это отношение дисперсии полиномиального распределения к дисперсии биномиального распределения .
Индекс М 4 равен
где m — среднее значение.
Формула для M 6:
· где K — количество категорий, X i — количество точек данных в i -й категории, N — общее количество точек данных, || — абсолютное значение (модуль) и
Эту формулу можно упростить
где p i — доля выборки в i -й категории.
На практике M 1 и M 6, как правило, сильно коррелируют, что препятствует их совместному использованию.
Сумма
также нашел применение. Это известно как индекс Симпсона в экологии и как индекс Херфиндаля или индекс Херфиндаля-Хиршмана (HHI) в экономике. Вариант этого известен как индекс Хантера-Гастона в микробиологии [11]
В лингвистике и криптоанализе эта сумма известна как частота повторения. Частота совпадений ( IC ) является несмещенной оценкой этой статистики [12]
где f i — количество i- й графемы в тексте, а n — общее количество графем в тексте.
Статистика M 1, определенная выше, предлагалась несколько раз в различных условиях под разными названиями. К ним относятся индекс изменчивости Джини, [13] мера разнообразия Симпсона, [14] индекс языковой однородности Бачи, [15] индекс качественной изменчивости Мюллера и Шусслера, [16] индекс отраслевой диверсификации Гиббса и Мартина, [17] индекс Либерсона. [18] и индекс Блау в социологии, психологии и управленческих исследованиях. [19] Формулировки всех этих индексов идентичны.
D Симпсона определяется как
где n — общий размер выборки, а n i — количество элементов в i- й категории.
Для больших n имеем
Другой предложенный статистический показатель — коэффициент непохожести, который колеблется от 0 до 1. [20]
где n — размер выборки, а c ( x , y ) = 1, если x и y различны, и 0 в противном случае.
Для больших n имеем
где K — количество категорий.
Другая связанная статистика — квадратичная энтропия.
который сам по себе связан с индексом Джини .
Одноязычный невзвешенный индекс языкового разнообразия Гринберга [21] — это статистика М2 , определенная выше.
Другой индекс – М 7 – был создан на основе индекса М 4 Гиббса и Постона-младшего (1975) [22]
где
и
где K — количество категорий, L — количество подтипов, O ij и E ij — количество наблюдаемых и ожидаемых подтипов j в i -й категории соответственно, n i — количество в i -й категории, а p j — доля подтипа j в полной выборке.
Примечание: этот индекс был разработан для измерения участия женщин на рабочем месте: он был разработан для двух подтипов: мужчин и женщин.
Эти индексы представляют собой сводную статистику вариации внутри выборки.
Индекс Бергера–Паркера, названный в честь Вольфганга Х. Бергера и Фрэнсис Лоуренс Паркер , равен максимальному значению в наборе данных, т.е. пропорциональному обилию наиболее распространенного типа. [23] Это соответствует взвешенному обобщенному среднему значению , когда q стремится к бесконечности, и, следовательно, равно обратной величине истинного разнообразия порядка бесконечности (1/ ∞ D ).
Этот индекс строго применим только к целым популяциям, а не к конечным выборкам. Он определяется как
где N — общее число особей в популяции, n i — число особей в i -й категории , а N ! — факториал N. Индекс равномерности Бриллюэна определяется как
где I B (max) — максимальное значение I B .
Хилл предложил семейство чисел разнообразия [24]
Для заданных значений a можно вычислить несколько других индексов.
Хилл также предложил семейство мер равномерности
где а > б .
Hill's E 4 — это
Hill's E 5 — это
где S — количество типов данных в выборке, а N — общий размер выборки. [25]
где S — количество типов данных в выборке, а N — общий размер выборки. [26]
В лингвистике этот индекс идентичен индексу Курашкевича (индексу Гьяра), где S — количество отдельных слов (типов), а N — общее количество слов (токенов) в исследуемом тексте. [27] [28] Этот индекс можно вывести как частный случай обобщенной функции Торквиста. [29]
Это статистика, изобретенная Кемптоном и Тейлором. [30] и включает квартили выборки. Она определяется как
где R 1 и R 2 — 25% и 75% квартили соответственно на кумулятивной видовой кривой, n j — количество видов в j -й категории, n Ri — количество видов в классе, куда попадает R i ( i = 1 или 2).
Это взято из теории информации
где N — общее число в выборке, а p i — доля в i- й категории.
В экологии, где этот индекс широко используется, H обычно находится в диапазоне от 1,5 до 3,5 и лишь изредка превышает 4,0.
Приблизительная формула для стандартного отклонения (SD) H :
где p i — доля i- й категории, а N — общее количество в выборке.
Более точное приближенное значение дисперсии H (var( H )) дается формулой [31]
где N — размер выборки, а K — количество категорий.
Связанный индекс — Pielou J, определяемый как
Одна из трудностей с этим индексом заключается в том, что S неизвестен для конечной выборки. На практике S обычно устанавливается на максимальное значение, присутствующее в любой категории в выборке.
Энтропия Реньи является обобщением энтропии Шеннона на другие значения q , отличные от единицы. Она может быть выражена:
что равно
Это означает, что взятие логарифма истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q .
Значение также известно как число Хилла. [24]
Макинтош предложил меру разнообразия: [32]
где n i — число в i- й категории, а K — количество категорий.
Он также предложил несколько нормализованных версий этого индекса. Первая — D :
где N — общий размер выборки.
Преимущество этого индекса заключается в том , что он выражает наблюдаемое разнообразие как долю от абсолютного максимального разнообразия при заданном N.
Другая предлагаемая нормализация — E — отношение наблюдаемого разнообразия к максимально возможному разнообразию при заданных N и K (т. е. если все виды равны по числу особей):
Это был первый индекс, полученный для оценки разнообразия. [33]
где K — число категорий, а N — число точек данных в выборке. Коэффициент α Фишера должен быть оценен численно из данных.
Ожидаемое число особей в r -й категории, где категории были размещены в порядке возрастания размера, равно
где X — эмпирический параметр, лежащий в диапазоне от 0 до 1. Хотя X лучше всего оценить численно, приблизительное значение можно получить, решив следующие два уравнения:
где K — количество категорий, а N — общий размер выборки.
Дисперсия α приблизительно равна [34]
Этот индекс ( D w ) представляет собой расстояние между кривой Лоренца распределения видов и линией 45 градусов. Он тесно связан с коэффициентом Джини. [35]
В символах это
где max() — максимальное значение, взятое из N точек данных, K — количество категорий (или видов) в наборе данных, а c i — совокупная сумма, включая i- ю категорию.
Это связано с D Симпсона и определяется как
где D — D Симпсона , а K — количество категорий в выборке.
Смит и Уилсон предложили ряд индексов, основанных на индексе Симпсона D.
где D — D Симпсона , а K — количество категорий.
где H — энтропия Шеннона, а K — число категорий.
Этот индекс тесно связан с индексом Шелдона, который
где H — энтропия Шеннона, а K — число категорий.
Этот индекс был создан Камарго в 1993 году. [36]
где K — количество категорий, а p i — доля в i -й категории.
Этот индекс был предложен Смитом и Уилсоном в 1996 году. [37]
где θ — наклон кривой логарифмического ранга (распространенности).
Это наклон кривой логарифмической зависимости (численности) от ранга.
Существуют две версии этого индекса — одна для непрерывных распределений ( E c ), а другая для дискретных ( E d ). [38]
где
— индекс Шёнера–Чеканоски, K — количество категорий, N — размер выборки.
Этот индекс ( Rik ) основан на энтропии Шеннона. [39] Он определяется как
где
В этих уравнениях x ij и x kj — это количество раз, которое j -й тип данных появляется в i -м или k -м образце соответственно.
В разреженной выборке случайная подвыборка n выбирается из общего числа N элементов. В этой выборке некоторые группы могут обязательно отсутствовать в этой подвыборке. Пусть будет числом групп, все еще присутствующих в подвыборке из n элементов. меньше K число категорий всякий раз, когда хотя бы одна группа отсутствует в этой подвыборке.
Кривая разрежения определяется как :
Обратите внимание, что 0 ≤ f ( n ) ≤ K .
Более того,
Несмотря на то, что эти кривые определены при дискретных значениях n , чаще всего они отображаются как непрерывные функции. [40]
Этот индекс более подробно обсуждается в разделе «Разрежение (экология)» .
Это статистика типа z, основанная на энтропии Шеннона. [41]
где H — энтропия Шеннона, E ( H ) — ожидаемая энтропия Шеннона для нейтральной модели распределения, а SD ( H ) — стандартное отклонение энтропии. Стандартное отклонение оценивается по формуле, выведенной Пиелоу
где p i — доля i- й категории, а N — общее количество в выборке.
Это
где K — число категорий, а K' — число категорий согласно модели сломанной палки Макартура, дающей наблюдаемое разнообразие.
Этот индекс используется для сравнения взаимоотношений между хозяевами и их паразитами. [42] Он включает информацию о филогенетических отношениях между видами хозяев.
где s — число видов хозяев, используемых паразитом, а ω ij — таксономическое различие между видами хозяев i и j .
Было предложено несколько индексов с таким названием.
Один из них —
где K — количество категорий, а p i — доля выборки, которая относится к i- й категории.
Этот индекс также известен как индекс многогрупповой энтропии или индекс теории информации. Он был предложен Тейлом в 1972 году. [43] Индекс представляет собой средневзвешенное значение энтропии выборок.
Позволять
и
где p i — доля типа i в a -й выборке, r — общее количество выборок, n i — размер i- й выборки, N — размер популяции, из которой были получены выборки, а E — энтропия популяции.
Некоторые из этих индексов были разработаны для документирования степени, в которой различные типы данных, представляющие интерес, могут сосуществовать в пределах географической области.
Пусть A и B — два типа элементов данных. Тогда индекс различия равен
где
A i — количество данных типа A на участке выборки i , B i — количество данных типа B на участке выборки i , K — количество отобранных участков, а || — абсолютное значение.
Этот индекс, вероятно, более известен как индекс несходства ( D ). [44] Он тесно связан с индексом Джини.
Этот индекс смещен, поскольку его ожидание при равномерном распределении > 0.
Модификация этого индекса была предложена Горардом и Тейлором. [45] Их индекс (GT) — это
Индекс сегрегации ( ИС ) [46] равен
где
и K - количество единиц, A i и t i - количество типов данных A в единице i и общее количество всех типов данных в единице i .
Этот индекс ( H ) определяется как [47]
где p i — доля выборки, состоящая из i -й переменной.
Этот индекс ( L xy ) был изобретен Либерсоном в 1981 году. [48]
где X i и Y i — интересующие переменные на i -м участке, K — количество исследованных участков, а X tot — общее количество переменных типа X в исследовании.
Этот индекс определяется как [49]
где p x — доля выборки, состоящей из переменных типа X и
где N x — общее количество переменных типа X в исследовании, K — количество образцов в исследовании, а x i и p i — количество переменных и доля переменных типа X соответственно в i -м образце.
Индекс изоляции
где K — количество единиц в исследовании, A i и t i — количество единиц типа A и количество всех единиц в i -й выборке.
Также был предложен модифицированный индекс изоляции.
MII находится в диапазоне от 0 до 1.
Этот индекс (GS) определяется как
где
и A i и t i — количество элементов данных типа A и общее количество элементов в i -й выборке.
Этот индекс определяется как
где
и A i и B i — количество типов A и B в i- й категории, а t i — общее количество точек данных в i -й категории.
Это двоичная форма индекса косинуса. [50] Он используется для сравнения данных о наличии/отсутствии двух типов данных (здесь A и B ). Он определяется как
где a — количество единиц выборки, в которых присутствуют как A, так и B , b — количество единиц выборки, в которых присутствует A , но не присутствует B , а c — количество единиц выборки, в которых присутствует тип B, но не присутствует тип A.
Этот коэффициент был изобретен Станиславом Кульчинским в 1927 году [51] и является индексом ассоциации между двумя типами (здесь A и B ). Он варьируется в значении от 0 до 1. Он определяется как
где a — количество единиц выборки, в которых присутствуют типы A и B , b — количество единиц выборки, в которых присутствует тип A, но не присутствует тип B, и c — количество единиц выборки , в которых присутствует тип B, но не присутствует тип A.
Этот индекс был изобретен Юлом в 1900 году. [52] Он касается ассоциации двух различных типов (здесь A и B ). Он определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствует ни тип A , ни тип B. Q варьируется в пределах от -1 до +1. В порядковом случае Q известен как γ Гудмана-Крускала .
Поскольку знаменатель потенциально может быть равен нулю, Лейнхерт и Спорер рекомендовали добавлять +1 к a , b , c и d . [53]
Этот индекс определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B.
Этот индекс был изобретен Барони-Урбани и Бузером в 1976 году. [54] Его значение варьируется от 0 до 1. Он определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
При d = 0 этот индекс идентичен индексу Жаккара.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки .
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B.
Этот коэффициент определяется как
где b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствует ни тип A , ни тип B. N — размер выборки.
Этот коэффициент определяется как
где b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
Этот коэффициент был предложен Стивеном Альфредом Форбсом в 1907 году. [55] Он определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A, но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки ( N = a + b + c + d ).
Модификация этого коэффициента, не требующая знания d, была предложена Элроем [56]
Где n = a + b + c .
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , d — количество образцов, в которых не присутствуют ни тип A, ни тип B , n равно a + b + c + d и || — модуль (абсолютное значение) разности.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B.
В 1884 году Чарльз Пирс предложил [57] следующий коэффициент
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B.
В 1975 году Хокин и Дотсон предложили следующий коэффициент:
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
В 1901 году Бенини предложил следующий коэффициент
где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , а c — количество образцов, в которых присутствует тип B, но отсутствует тип A. Min( b , c ) — это минимум из b и c .
Гилберт предложил следующий коэффициент
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B , но отсутствует тип A , а d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
Индекс Джини равен
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , а c — количество образцов, в которых присутствует тип B, но отсутствует тип A.
Модифицированный индекс Джини равен
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , а c — количество образцов, в которых присутствует тип B, но отсутствует тип A.
В 1965 году Кун предложил следующий коэффициент:
где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , а c — количество образцов, в которых присутствует тип B, но отсутствует тип A. K — нормализующий параметр. N — размер выборки.
Этот индекс также известен как коэффициент среднего арифметического.
В 1936 году Эйро предложил следующий коэффициент:
где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A, но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых отсутствуют как A , так и B.
Это определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A, но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых отсутствуют как A , так и B. N — размер выборки.
Это определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — количество образцов, в которых присутствует тип A, но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A , а d — количество образцов, в которых отсутствуют как A , так и B. N — размер выборки.
Это определяется как
где a — количество образцов, в которых присутствуют оба типа: A и B , b — количество образцов, в которых присутствует тип A , но отсутствует тип B , c — количество образцов, в которых присутствует тип B, но отсутствует тип A.
Это также известно как индекс Брея-Кертиса , индекс Шёнера, индекс наименьшего общего процента, индекс сродства или пропорционального сходства. Он связан с индексом сходства Серенсена .
где x i и x j — количество видов на участках i и j соответственно, а минимум берется из количества видов, общих для двух участков.
Расстояние Канберры является взвешенной версией метрики L 1. Оно было введено в 1966 году [58] и уточнено в 1967 году [59] Г. Н. Лансом и У. Т. Уильямсом . Оно используется для определения расстояния между двумя векторами – в данном случае двумя сайтами с K категориями внутри каждого сайта.
Расстояние Канберры d между векторами p и q в K -мерном действительном векторном пространстве равно
где p i и q i — значения i- й категории двух векторов.
Это используется для измерения сходства между сообществами.
где s 1 и s 2 — количество видов в сообществах 1 и 2 соответственно, а c — количество видов, общих для обеих областей.
Это мера сходства между двумя образцами:
где A — количество точек данных, общих для двух образцов, а B и C — точки данных, обнаруженные только в первом и втором образцах соответственно.
Этот индекс был изобретен в 1902 году швейцарским ботаником Полем Жаккаром . [60]
При случайном распределении ожидаемое значение J равно [61]
Стандартная ошибка этого индекса при предположении случайного распределения составляет
где N — общий размер выборки.
Это мера сходства между двумя образцами:
где A — количество точек данных, общих для двух образцов, а B и C — точки данных, обнаруженные только в первом и втором образцах соответственно.
Это мера сходства между двумя образцами:
где N — количество точек данных в двух образцах, а B и C — точки данных, обнаруженные только в первом и втором образцах соответственно.
Индекс дисперсии Масааки Мориситы ( I m ) представляет собой масштабированную вероятность того, что две точки, выбранные случайным образом из всей генеральной совокупности, находятся в одной и той же выборке. [62] Более высокие значения указывают на более сгруппированное распределение.
Альтернативная формулировка:
где n — общий размер выборки, m — выборочное среднее, а x — индивидуальные значения, сумма которых берется по всей выборке. Он также равен
где IMC — индекс скученности Ллойда. [63]
Этот индекс относительно независим от плотности населения, но зависит от размера выборки.
Морисита показал, что статистика [62]
распределена как переменная хи-квадрат с n − 1 степенями свободы.
Для больших выборок был разработан альтернативный тест значимости этого индекса. [64]
где m — среднее значение выборки, n — количество единиц выборки, а z — абсцисса нормального распределения . Значимость проверяется путем сравнения значения z со значениями нормального распределения .
Индекс перекрытия Мориситы используется для сравнения перекрытия между образцами. [65] Индекс основан на предположении, что увеличение размера образцов увеличит разнообразие, поскольку оно будет включать различные среды обитания.
CD = 0, если две выборки не пересекаются по видам, и CD = 1 , если виды встречаются в обеих выборках в одинаковых пропорциях.
Хорн ввел модификацию индекса [66]
Смит-Гилл разработал статистику, основанную на индексе Мориситы, которая не зависит ни от размера выборки, ни от плотности населения и ограничена значениями −1 и +1. Эта статистика рассчитывается следующим образом [67]
Сначала определите индекс Мориситы ( I d ) обычным способом. Затем пусть k будет числом единиц, из которых была отобрана популяция. Рассчитайте два критических значения
где χ 2 — значение хи-квадрат для n − 1 степеней свободы при уровнях достоверности 97,5% и 2,5%.
Затем стандартизированный индекс ( I p ) рассчитывается по одной из формул ниже.
Когда I d ≥ M c > 1
Когда М с > I d ≥ 1
Когда 1 > I d ≥ M u
Когда 1 > М у > Я д
I p колеблется от +1 до −1 с 95% доверительными интервалами ±0,5. I p имеет значение 0, если шаблон случайный; если шаблон равномерный, I p < 0 и если шаблон показывает агрегацию, I p > 0.
Эти индексы являются мерой равномерности между образцами. [68]
где I — индекс разнообразия, I max и I min — максимальное и минимальное значения I между сравниваемыми образцами.
Лёвингер предложил коэффициент H, определяемый следующим образом:
где p max и p min — максимальная и минимальная доли в выборке.
Индекс Тверски [69] — асимметричная мера, которая лежит в диапазоне от 0 до 1.
Для образцов А и В индекс Тверски ( S ) равен
Значения α и β произвольны. Установка α и β на 0,5 дает коэффициент Дайса . Установка обоих на 1 дает коэффициент Танимото .
Также был предложен симметричный вариант этого индекса. [70]
где
Было предложено несколько подобных индексов.
Моностори и др. предложили индекс симметричного сходства [71]
где d ( X ) — некоторая мера, полученная из X .
Бернштейн и Зобель предложили индексы S2 и S3 [72]
S3 — это просто удвоенный индекс SymmetricSimiality. Оба связаны с коэффициентом Дайса
Было предложено несколько метрик (расстояний между образцами).
Хотя это обычно используется в количественной работе, это может также использоваться в качественной работе. Это определяется как
где d jk — расстояние между x ij и x ik .
Это определяется как
где d i — расстояние между i- ми образцами, а w i — весовой коэффициент, отнесенный к i- му расстоянию.
Хотя это чаще используется в количественной работе, это может также использоваться в качественной работе. Это определяется как
где d jk — расстояние между x ij и x ik , а || — абсолютное значение разности между x ij и x ik .
Модифицированную версию манхэттенского расстояния можно использовать для нахождения нуля ( корня ) многочлена любой степени с помощью метода Лилла .
Это связано с манхэттенским расстоянием. Оно было описано Превости и др. и использовалось для сравнения различий между хромосомами . [73] Пусть P и Q — два набора из r конечных распределений вероятностей. Пусть эти распределения имеют значения, разделенные на k категорий. Тогда расстояние D PQ равно
где r — число дискретных распределений вероятностей в каждой популяции, k j — число категорий в распределениях P j и Q j , а p ji (соответственно q ji ) — теоретическая вероятность категории i в распределении P j ( Q j ) в популяции P ( Q ).
Его статистические свойства были изучены Санчесом и др. [74], которые рекомендовали процедуру бутстрепа для оценки доверительных интервалов при проверке различий между выборками.
Позволять
где min( x , y ) — меньшее значение пары x и y .
Затем
это манхэттенское расстояние,
— расстояние Брея-Кертиса,
это расстояние Жаккара (или Ружички) и
— расстояние Кульчинского.
ХаКоэн-Кернер и др. предложили ряд метрик для сравнения двух или более текстов. [75]
Если категории являются по крайней мере порядковыми , то можно вычислить ряд других индексов.
Мера дисперсии Лейка ( D ) является одним из таких индексов. [76] Пусть есть K категорий и пусть p i будет f i / N , где f i — число в i -й категории, и пусть категории будут расположены в порядке возрастания. Пусть
где a ≤ K. Пусть d a = c a, если c a ≤ 0,5 и 1 − c a ≤ 0,5 в противном случае. Тогда
Это квадрат коэффициента вариации, деленный на N − 1, где N — размер выборки.
где m — среднее значение, а s — стандартное отклонение.
Индекс потенциального конфликта (PCI) описывает соотношение оценок по обе стороны от центральной точки рейтинговой шкалы. [77] Этот индекс требует как минимум порядковых данных. Это соотношение часто отображается в виде пузырьковой диаграммы.
PCI использует порядковую шкалу с нечетным числом рейтинговых баллов (от − n до + n ) с центром в 0. Она рассчитывается следующим образом
где Z = 2 n , |·| — абсолютное значение (модуль), r + — количество ответов в положительной части шкалы, r − — количество ответов в отрицательной части шкалы, X + — ответы в положительной части шкалы, X − — ответы в отрицательной части шкалы и
Известно, что существуют теоретические трудности с PCI. PCI можно вычислить только для шкал с нейтральной центральной точкой и равным количеством вариантов ответа по обе стороны от нее. Кроме того, равномерное распределение ответов не всегда дает среднюю точку статистики PCI, а скорее варьируется в зависимости от количества возможных ответов или значений в шкале. Например, пяти-, семи- и девятибалльные шкалы с равномерным распределением ответов дают PCI 0,60, 0,57 и 0,50 соответственно.
Первая из этих проблем относительно незначительна, поскольку большинство порядковых шкал с четным числом ответов можно расширить (или сократить) на одно значение, чтобы получить нечетное число возможных ответов. Шкалу обычно можно рецентрировать, если это требуется. Вторую проблему решить сложнее, и она может ограничить применимость PCI.
PCI был расширен [78]
где K — число категорий, k i — число в i -й категории, d ij — расстояние между i -й и i -й категориями, а δ — максимальное расстояние на шкале, умноженное на количество раз, которое оно может встретиться в выборке. Для выборки с четным числом точек данных
и для выборки с нечетным числом точек данных
где N — количество точек данных в выборке, а d max — максимальное расстояние между точками на шкале.
Васке и др. предлагают ряд возможных мер расстояния для использования с этим индексом. [78]
если знаки (+ или −) r i и r j различаются. Если знаки одинаковы, то d ij = 0.
где p — произвольное действительное число > 0.
если sign( r i ) ≠ sign( r i ) и p — действительное число > 0. Если знаки одинаковы, то d ij = 0. m — это D 1 , D 2 или D 3 .
Разница между D 1 и D 2 заключается в том, что первый не включает нейтралов в расстояние, а последний включает. Например, респонденты, набравшие −2 и +1, будут иметь расстояние 2 под D 1 и 3 под D 2 .
Использование мощности ( p ) в расстояниях позволяет перемасштабировать экстремальные ответы. Эти различия могут быть подчеркнуты с помощью p > 1 или уменьшены с помощью p < 1.
В симуляциях с переменными, взятыми из равномерного распределения, PCI 2 имеет симметричное унимодальное распределение. [78] Хвосты его распределения больше, чем у нормального распределения.
Васке и др. предлагают использовать t-тест для сравнения значений PCI между выборками, если PCI распределены приблизительно нормально.
Эта мера представляет собой средневзвешенное значение степени согласия распределения частот. [79] A варьируется от −1 (совершенная бимодальность ) до +1 (совершенная унимодальность ). Она определяется как
где U — унимодальность распределения, S — число категорий, имеющих ненулевые частоты, а K — общее число категорий.
Значение U равно 1, если распределение имеет любую из трех следующих характеристик:
При других распределениях данные должны быть разделены на «слои». Внутри слоя ответы либо равны, либо равны нулю. Категории не обязательно должны быть смежными. Вычисляется значение A для каждого слоя ( A i ) и определяется средневзвешенное значение для распределения. Веса ( w i ) для каждого слоя — это количество ответов в этом слое. В символах
Равномерное распределение имеет A = 0: когда все ответы попадают в одну категорию, A = +1.
Одна из теоретических проблем с этим индексом заключается в том, что он предполагает, что интервалы распределены равномерно. Это может ограничить его применимость.
Если в выборке n единиц и они случайным образом распределены по k категориям ( n ≤ k ), это можно считать вариантом проблемы дня рождения . [80] Вероятность ( p ) того, что все категории будут иметь только одну единицу, равна
Если c велико, а n мало по сравнению с k2 /3 , то с хорошим приближением
Это приближение следует из точной формулы следующим образом:
Для p = 0,5 и p = 0,05 соответственно могут быть полезны следующие оценки n:
Этот анализ можно распространить на несколько категорий. Для p = 0,5 и p 0,05 мы имеем соответственно
где c i — размер i- й категории. Этот анализ предполагает, что категории независимы.
Если данные упорядочены каким-либо образом, то для того, чтобы хотя бы одно событие произошло в двух категориях, лежащих в пределах j категорий друг от друга, вероятность 0,5 или 0,05 требует размера выборки ( n ) соответственно [81]
где k — количество категорий.
Существует ли связь между днями рождения и днями смерти, было исследовано с помощью статистики [82].
где d — количество дней в году между днем рождения и днем смерти.
Индекс Рэнда используется для проверки того, согласуются ли две или более систем классификации с набором данных. [83]
Для заданного набора элементов и двух разделов для сравнения, , разбиения S на r подмножеств , и , разбиения S на s подмножеств, определим следующее:
Индекс Рэнда - - определяется как
Интуитивно можно рассматривать как число соглашений между и , а как число несоответствий между и .
Скорректированный индекс Рэнда — это скорректированная на случайность версия индекса Рэнда. [83] [84] [85] Хотя индекс Рэнда может давать только значение от 0 до +1, скорректированный индекс Рэнда может давать отрицательные значения, если индекс меньше ожидаемого индекса. [86]
При наличии набора элементов и двух группировок или разделов ( например, кластеризации) этих точек, а именно и , перекрытие между и можно суммировать в таблице сопряженности, где каждая запись обозначает количество объектов, общих для и : .
Скорректированная форма индекса Рэнда, скорректированный индекс Рэнда, это
более конкретно
где — значения из таблицы сопряженности.
Поскольку знаменатель представляет собой общее число пар, индекс Рэнда представляет собой частоту появления соглашений по всем парам или вероятность того, что и придут к соглашению по случайно выбранной паре.
Различные индексы дают разные значения вариации и могут использоваться для разных целей: некоторые из них используются и критикуются, особенно в социологической литературе.
Если требуется просто провести порядковые сравнения между образцами (является ли один образец более или менее разнообразным, чем другой), выбор IQV относительно менее важен, поскольку они часто будут давать тот же самый порядок.
Если данные порядковые, то для сравнения выборок может быть полезен метод ORDANOVA.
В некоторых случаях полезно не стандартизировать индекс, чтобы он измерялся от 0 до 1, независимо от количества категорий или образцов (Wilcox 1973, стр. 338), но обычно его стандартизируют именно так.