Индекс качественной вариации ( IQV ) является мерой статистической дисперсии номинальных распределений . Их существует множество, но они сравнительно мало изучены в статистической литературе. Самым простым является коэффициент вариации , а к более сложным показателям относится информационная энтропия .
Существует несколько типов индексов, используемых для анализа номинальных данных. Некоторые из них являются стандартными статистическими данными, которые используются в других местах: диапазон , стандартное отклонение , дисперсия , среднее отклонение , коэффициент вариации , медианное абсолютное отклонение , межквартильный размах и квартильное отклонение .
В дополнение к этому были разработаны некоторые статистические данные с учетом номинальных данных. Некоторые из них были обобщены и разработаны Уилкоксом (Wilcox 1967), (Wilcox 1973), который требует соблюдения следующих свойств стандартизации:
В частности, значение этих стандартизированных индексов не зависит от количества категорий или количества образцов.
Для любого индекса, чем ближе к равномерному распределению, тем больше дисперсия и чем больше различия в частотах между категориями, тем меньше дисперсия.
Индексы качественных вариаций тогда аналогичны информационной энтропии , которая минимизируется, когда все случаи принадлежат одной категории, и максимизируется при равномерном распределении. Действительно, информационную энтропию можно использовать как показатель качественных изменений.
Одной из характеристик конкретного индекса качественных вариаций (IQV) является отношение наблюдаемых различий к максимальным различиям.
Уилкокс дает ряд формул для различных показателей QV (Wilcox 1973), первая, которую он называет DM для «отклонения от моды», представляет собой стандартизированную форму коэффициента вариации и аналогична дисперсии как отклонению от среднего значения. .
Формула изменения режима (ModVR) выводится следующим образом:
где f m — модальная частота, K — количество категорий и f i — частота i - й группы.
Это можно упростить до
где N — общий размер выборки.
Индекс Фримена (или коэффициент вариации) равен [2]
Это связано с М следующим образом:
ModVR определяется как
где v — индекс Фримена.
Низкие значения ModVR соответствуют небольшому количеству вариаций, а высокие значения — большему количеству вариаций.
Когда K велико, ModVR примерно равен индексу Фримена v .
Это зависит от диапазона вокруг режима. Это определено как
где f m — модальная частота, а f l — самая низкая частота.
Это аналог среднего отклонения. Оно определяется как среднее арифметическое абсолютных отличий каждого значения от среднего.
Это аналог средней разности — среднего значения разностей всех возможных пар значений переменных, взятых независимо от знака. Средняя разница отличается от среднего и стандартного отклонения, поскольку она зависит от разброса значений переменных между собой, а не от отклонений от некоторого центрального значения. [3]
где f i и f j — i -я и j- я частоты соответственно.
MNDif — это коэффициент Джини , применяемый к качественным данным.
Это аналог дисперсии.
Это тот же индекс, что и индекс качественной изменчивости Мюллера и Шюсслера [4] и индекс М2 Гиббса.
Она распределяется как переменная хи-квадрат с K – 1 степенями свободы . [5]
Уилсон предложил две версии этой статистики.
Первый основан на AvDev.
Второй основан на MNDif
Этот индекс был первоначально разработан Клодом Шенноном для использования при определении свойств каналов связи.
где п я знак равно ж я / N .
Это эквивалентно информационной энтропии , разделенной на и полезно для сравнения относительных вариаций между таблицами частот разных размеров.
Уилкокс адаптировал предложение Кайзера [6] на основе среднего геометрического и создал индекс B' . Индекс B определяется как
Некоторые из этих индексов реализованы на языке R. [7]
Гиббс и Постон-младший (1975) предложили шесть индексов. [8]
Нестандартизированный индекс ( M 1) (Гиббс и Постон-младший, 1975, стр. 471) равен
где K — количество категорий и — доля наблюдений, попадающих в данную категорию i .
M 1 можно интерпретировать как единицу минус вероятность того, что случайная пара образцов будет принадлежать к одной и той же категории, [9] поэтому эта формула для IQV представляет собой стандартизированную вероятность попадания случайной пары в одну и ту же категорию. Этот индекс также называют индексом дифференциации, индексом дифференциации средств к существованию и индексом географической дифференциации в зависимости от контекста, в котором он использовался.
Второй индекс — M2 [10] (Гиббс и Постон-младший, 1975, стр. 472):
где K — количество категорий и — доля наблюдений, попадающих в данную категорию i . Фактор предназначен для стандартизации.
M 1 и M 2 можно интерпретировать как дисперсию полиномиального распределения (Swanson 1976) (так называемую «расширенную биномиальную модель»). M 1 представляет собой дисперсию полиномиального распределения, а M 2 представляет собой отношение дисперсии полиномиального распределения к дисперсии биномиального распределения .
Индекс М 4
где m — среднее значение.
Формула для М 6:
· где K — количество категорий, X i — количество точек данных в i- й категории, N — общее количество точек данных, || - абсолютное значение (модуль) и
Эту формулу можно упростить
где p i — доля выборки в i- й категории.
На практике M 1 и M 6 имеют тенденцию сильно коррелировать, что препятствует их совместному использованию.
Сумма
также нашел применение. Это известно как индекс Симпсона в экологии и как индекс Герфиндаля или индекс Герфиндаля-Хиршмана (HHI) в экономике. Вариант этого известен в микробиологии как индекс Хантера-Гастона [11].
В лингвистике и криптоанализе эта сумма известна как частота повторений. Частота совпадений ( IC ) является несмещенной оценкой этой статистики [12]
где f i — количество i- й графемы в тексте, а n — общее количество графем в тексте.
Определенная выше статистика M 1 предлагалась несколько раз в различных условиях под разными названиями. К ним относятся индекс изменчивости Джини, [13] показатель разнообразия Симпсона, [14] индекс лингвистической однородности Бачи, [15] индекс качественного разнообразия Мюллера и Шюсслера, [16] индекс отраслевой диверсификации Гиббса и Мартина, [17] индекс Либерсона. индекс. [18] и индекс Блау в социологии, психологии и исследованиях менеджмента. [19] Формулировки всех этих индексов идентичны.
D Симпсона определяется как
где n — общий размер выборки, а n i — количество элементов в i- й категории.
Для больших n имеем
Другая предложенная статистика — это коэффициент несходства, который колеблется от 0 до 1. [20]
где n — размер выборки, а c ( x , y ) = 1, если x и y одинаковы, и 0 в противном случае.
Для больших n имеем
где К — количество категорий.
Другая связанная статистика - это квадратичная энтропия.
что само по себе связано с индексом Джини .
Одноязычный невзвешенный индекс языкового разнообразия Гринберга [21] представляет собой статистику М 2 , определенную выше.
Другой индекс – М 7 – был создан на основе индекса М 4 Гиббса и Постона-младшего (1975) [22]
где
и
где K — количество категорий, L — количество подтипов, O ij и E ij — количество наблюдаемых и ожидаемых соответственно подтипа j в i- й категории, n i — количество в i- й категории, а p j — доля подтипа j в полной выборке.
Примечание. Этот индекс был разработан для измерения участия женщин на рабочем месте: он был разработан для двух подтипов: мужчин и женщин.
Эти индексы представляют собой сводную статистику вариаций внутри выборки.
Индекс Бергера-Паркера равен максимальному значению в наборе данных, т.е. пропорциональному обилию наиболее распространенного типа. [23] Это соответствует взвешенному обобщенному среднему значению, когда q приближается к бесконечности, и, следовательно, равно обратному истинному разнообразию порядка бесконечности (1/ ∞ D ).
Этот индекс строго применим только ко всей совокупности, а не к конечным выборкам. Это определяется как
где N — общее количество особей в популяции, n i — количество особей в i- й категории и N ! является факториалом N. _ _ Показатель четности Бриллюэна определяется как
где I B (max) — максимальное значение I B .
Хилл предложил семейство чисел разнообразия [24]
Для заданных значений a можно вычислить несколько других индексов.
Хилл также предложил семейство мер ровности.
где а > б .
Хиллс Е 4 _
Хиллс Е 5 _
где S — количество типов данных в выборке, а N — общий размер выборки. [25]
где S — количество типов данных в выборке, а N — общий размер выборки. [26]
В лингвистике этот индекс идентичен индексу Курашкевича (индексу Гийарда), где S — количество отдельных слов (типов), а N — общее количество слов (лексем) в исследуемом тексте. [27] [28] Этот индекс может быть получен как частный случай обобщенной функции Торквиста. [29]
Это статистика, придуманная Кемптоном и Тейлором. [30] и включает в себя квартили выборки. Это определяется как
где R 1 и R 1 — квартили 25% и 75% соответственно на кумулятивной кривой видов, n j — количество видов в j -й категории, n Ri — количество видов в классе, куда попадает R i ( i = 1 или 2).
Это взято из теории информации
где N — общее количество в выборке, а pi — доля в i- й категории.
В экологии, где обычно используется этот индекс, Н обычно лежит в пределах 1,5–3,5 и лишь изредка превышает 4,0.
Приблизительная формула для стандартного отклонения (SD) H :
где p i — доля i- й категории, а N — общее количество в выборке.
Более точное приближенное значение дисперсии H (var( H )) дается формулой [31]
где N — размер выборки, а K — количество категорий.
Родственным индексом является индекс Пиелоу J , определяемый как
Одна из трудностей с этим индексом заключается в том, что S неизвестна для конечной выборки. На практике S обычно устанавливается на максимальное значение, присутствующее в любой категории выборки.
Энтропия Реньи представляет собой обобщение энтропии Шеннона на другие значения q , кроме единицы. Это может быть выражено:
что равно
Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q .
Значение также известно как число Хилла. [24]
Макинтош предложил меру разнообразия: [32]
где n i — число в i- й категории, а K — количество категорий.
Он также предложил несколько нормализованных версий этого индекса. Во-первых, это Д :
где N — общий размер выборки.
Преимущество этого индекса состоит в том, что он выражает наблюдаемое разнообразие как долю абсолютного максимального разнообразия при данном N.
Другая предложенная нормализация — это E — отношение наблюдаемого разнообразия к максимально возможному разнообразию заданных N и K (т.е. если все виды равны по числу особей):
Это был первый индекс разнообразия. [33]
где K — количество категорий, а N — количество точек данных в выборке. α Фишера должна быть оценена численно на основе данных.
Ожидаемое число особей в r- й категории, где категории расположены в возрастающем размере, равно
где X — эмпирический параметр, лежащий между 0 и 1. Хотя X лучше всего оценить численно, приближенное значение можно получить, решив следующие два уравнения:
где K — количество категорий, а N — общий размер выборки.
Дисперсия α примерно равна [34]
Этот индекс ( D w ) представляет собой расстояние между кривой Лоренца распределения видов и линией 45 градусов. Он тесно связан с коэффициентом Джини. [35]
В символах это
где max() — максимальное значение, полученное по N точкам данных, K — количество категорий (или видов) в наборе данных, а c i — совокупная сумма, включая i- ю категорию.
Это связано с D Симпсона и определяется как
где D — D Симпсона, а K — количество категорий в выборке.
Смит и Уилсон предложили ряд индексов, основанных на D Симпсона .
где D — D по Симпсону, а K — количество категорий.
где H — энтропия Шеннона, а K — количество категорий.
Этот индекс тесно связан с индексом Шелдона, который
где H — энтропия Шеннона, а K — количество категорий.
Этот индекс был создан Камарго в 1993 году. [36]
где K — количество категорий, а pi — доля в i- й категории.
Этот индекс был предложен Смитом и Уилсоном в 1996 году. [37]
где θ — наклон кривой логарифмического ранга (обилия).
Это наклон логарифмической кривой (изобилия)-ранга.
Существует две версии этого индекса — одна для непрерывных распределений ( E c ) и другая для дискретных ( E d ). [38]
где
– индекс Шёнера – Чеканоски, K – количество категорий, а N – размер выборки.
Этот индекс ( R ik ) основан на энтропии Шеннона. [39] Это определяется как
где
В этих уравнениях x ij и x kj — это количество раз, когда j -й тип данных появляется в i -й или k -й выборке соответственно.
В разреженной выборке из общего числа N элементов выбирается случайная подвыборка n . В этой выборке некоторые группы могут обязательно отсутствовать в этой подвыборке. Пусть – количество групп, все еще присутствующих в подвыборке из n элементов. меньше K — количество категорий, если в этой подвыборке отсутствует хотя бы одна группа.
Кривая разрежения определяется как:
Обратите внимание, что 0 ≤ f ( n ) ≤ K .
Более того,
Несмотря на то, что эти кривые определяются при дискретных значениях n , чаще всего они отображаются как непрерывные функции. [40]
Этот индекс обсуждается далее в разделе «Разрежение (экология)» .
Это статистика типа z , основанная на энтропии Шеннона. [41]
где H — энтропия Шеннона, E ( H ) — ожидаемая энтропия Шеннона для нейтральной модели распределения, а SD ( H ) — стандартное отклонение энтропии. Стандартное отклонение оценивается по формуле, полученной Пьелу.
где p i — доля i- й категории, а N — общее количество в выборке.
Это
где K — количество категорий, а K’ — количество категорий в соответствии с моделью сломанной палки Макартура, дающей наблюдаемое разнообразие.
Этот индекс используется для сравнения взаимоотношений между хозяевами и их паразитами. [42] Он включает информацию о филогенетических отношениях между видами-хозяевами.
где s — количество видов хозяев, используемых паразитом, а ω ij — таксономическое различие между видами хозяев i и j .
Было предложено несколько индексов с таким названием.
Один из них
где K — количество категорий, а pi — доля выборки, принадлежащая i- й категории.
Этот индекс также известен как индекс мультигрупповой энтропии или индекс теории информации. Он был предложен Тейлом в 1972 году. [43] Индекс представляет собой средневзвешенное значение энтропии выборки.
Позволять
и
где p i — доля типа i в a- й выборке, r — общее количество выборок, n i — размер i- й выборки, N — размер популяции, из которой были получены выборки, а E — Энтропия населения.
Некоторые из этих индексов были разработаны для документирования степени, в которой различные типы данных, представляющие интерес, могут сосуществовать в пределах географической области.
Пусть A и B — два типа элементов данных. Тогда индекс несходства равен
где
A i — количество типов данных A на сайте выборки i , B i — количество типов данных B на сайте выборки i , K — количество сайтов, выбранных для выборки, и || является абсолютной величиной.
Этот индекс, вероятно, более известен как индекс несходства ( D ). [44] Он тесно связан с индексом Джини.
Этот индекс является смещенным, поскольку его математическое ожидание при равномерном распределении > 0.
Модификация этого индекса была предложена Горардом и Тейлором. [45] Их индекс (GT) составляет
Индекс сегрегации ( IS ) [46] составляет
где
и K — количество единиц, A i и t i — количество типов данных A в единице i и общее количество всех типов данных в единице i .
Этот индекс ( H ) определяется как [47]
где p i — доля выборки, состоящая из i- й вариации.
Этот индекс ( L xy ) был изобретен Либерсоном в 1981 году. [48]
где X i и Y i — представляющие интерес переменные на i- м сайте, K — количество исследованных сайтов, а X tot — общее количество вариантов типа X в исследовании.
Этот индекс определяется как [49]
где p x — доля выборки, состоящая из вариантов типа X и
где N x — общее количество вариаций типа X в исследовании, K — количество выборок в исследовании, а xi и pi — количество вариаций и доля вариаций типа X соответственно в i- й выборке . .
Индекс изоляции
где K — количество единиц в исследовании, A i и t i — количество единиц типа A и количество всех единиц в i- й выборке.
Также был предложен модифицированный индекс изоляции.
MII находится между 0 и 1 .
Этот индекс (GS) определяется как
где
и A i и t i — количество элементов данных типа A и общее количество элементов в i- й выборке.
Этот индекс определяется как
где
и A i и B i — количество типов A и B в i- й категории, а t i — общее количество точек данных в i- й категории.
Это двоичная форма индекса косинуса. [50] Он используется для сравнения данных о присутствии/отсутствии двух типов данных (здесь A и B ). Это определяется как
где a — количество единиц выборки, в которых обнаружены как A, так и B , b — количество единиц выборки, в которых встречается A , но не B , и c — количество единиц выборки, в которых присутствует тип B , но не тип A.
Этот коэффициент был изобретен Станиславом Кульчинским в 1927 году [51] и является показателем ассоциации между двумя типами (здесь A и B ). Его значение варьируется от 0 до 1. Оно определяется как
где a — количество единиц выборки, в которых присутствуют тип A и тип B , b — количество единиц выборки, в которых присутствует тип A , но не тип B , и c — количество единиц выборки, в которых присутствует тип B , но не тип A. .
Этот индекс был изобретен Юлом в 1900 году. [52] Он касается ассоциации двух разных типов (здесь A и B ). Это определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. Значение Q варьируется от -1 до +1. В порядковом случае Q известен как γ Гудмана-Краскала .
Поскольку знаменатель потенциально может быть равен нулю, Лейнхерт и Спорер рекомендовали добавлять +1 к a , b , c и d . [53]
Этот индекс определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют.
Этот индекс был изобретен Барони-Урбани и Бузером в 1976 году. [54] Его значение варьируется от 0 до 1. Это определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
При d = 0 этот индекс идентичен индексу Жаккара.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют.
Этот коэффициент определяется как
где b — количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, в которых не присутствуют ни тип A , ни тип B. N — размер выборки.
Этот коэффициент определяется как
где b — количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
Этот коэффициент был предложен Стивеном Альфредом Форбсом в 1907 году. [55] Он определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки ( N = a + b + c + d ).
Модификация этого коэффициента, не требующая знания d, была предложена Элроем [56]
Где n = а + б + с .
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , d — количество образцов, где ни тип A , ни тип B отсутствуют, n равно a + b + c + d и || – модуль (абсолютное значение) разности.
Этот коэффициент определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют.
В 1884 г. Чарльз Пирс предложил [57] следующий коэффициент
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют.
В 1975 году Хокин и Дотсон предложили следующий коэффициент:
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
В 1901 году Бенини предложил следующий коэффициент
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов , в которых присутствует тип A , но не тип B , и c — количество образцов, в которых присутствует тип B , но не тип A. Min( b , c ) — это минимум b и c .
Гилберт предложил следующий коэффициент
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.
Индекс Джини – это
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов , в которых присутствует тип A , но не тип B , и c — количество образцов, в которых присутствует тип B , но не тип A.
Модифицированный индекс Джини
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов , в которых присутствует тип A , но не тип B , и c — количество образцов, в которых присутствует тип B , но не тип A.
Кун предложил следующий коэффициент в 1965 году
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов , в которых присутствует тип A , но не тип B , и c — количество образцов, в которых присутствует тип B , но не тип A. К – нормирующий параметр. N — размер выборки.
Этот показатель также известен как коэффициент средних арифметических.
Эйро предложил следующий коэффициент в 1936 году.
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не присутствует тип A , и d — количество образцов где нет ни A , ни B.
Это определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не присутствует тип A , и d — количество образцов где нет ни A , ни B. N — размер выборки.
Это определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не присутствует тип A , и d — количество образцов где нет ни A , ни B. N — размер выборки.
Это определяется как
где a — количество образцов, в которых присутствуют оба типа A и B , b — это количество образцов, в которых присутствует тип A , но не тип B , c — количество образцов, в которых присутствует тип B , но не тип A.
Это также известно как индекс Брея-Кертиса , индекс Шёнера, индекс наименьшего процента, индекс родства или пропорционального сходства. Это связано с индексом сходства Сёренсена .
где x i и x j — количество видов на участках i и j соответственно, а минимум берется из числа общих видов между двумя участками.
Расстояние Канберры — это взвешенная версия метрики L 1 . Он был введен в 1966 году [58] и усовершенствован в 1967 году [59] Г. Н. Лансом и У. Т. Уильямсом . Он используется для определения расстояния между двумя векторами — здесь два сайта с K категориями внутри каждого сайта.
Расстояние Канберры d между векторами p и q в K -мерном действительном векторном пространстве равно
где p i и q i — значения i - й категории двух векторов.
Это используется для измерения сходства между сообществами.
где s 1 и s 2 — количество видов в сообществе 1 и 2 соответственно, а c — количество видов, общих для обеих территорий.
Это мера сходства между двумя выборками:
где A — количество точек данных, общих для двух выборок, а B и C — точки данных, обнаруженные только в первой и второй выборках соответственно.
Этот индекс был изобретен в 1902 году швейцарским ботаником Полем Жаккаром . [60]
При случайном распределении ожидаемое значение J равно [61]
Стандартная ошибка этого индекса в предположении случайного распределения равна
где N — общий размер выборки.
Это мера сходства между двумя выборками:
где A — количество точек данных, общих для двух выборок, а B и C — точки данных, обнаруженные только в первой и второй выборках соответственно.
Это мера сходства между двумя выборками:
где N — количество точек данных в двух выборках, а B и C — точки данных, обнаруженные только в первой и второй выборках соответственно.
Индекс дисперсии Мориситы ( I m ) представляет собой масштабированную вероятность того, что две точки, выбранные случайным образом из всей совокупности, попадают в одну и ту же выборку. [62] Более высокие значения указывают на более сгущенное распределение.
Альтернативная формулировка
где n — общий размер выборки, m — среднее значение выборки, а x — отдельные значения с суммой, взятой по всей выборке. Оно также равно
где IMC — индекс скученности Ллойда. [63]
Этот индекс относительно не зависит от плотности населения, но зависит от размера выборки.
Морисита показал, что статистика [62]
распределяется как переменная хи-квадрат с n - 1 степенями свободы.
Альтернативный тест значимости этого индекса был разработан для больших выборок. [64]
где m — общее среднее значение выборки, n — количество единиц выборки, а z — абсцисса нормального распределения . Значимость проверяется путем сравнения значения z со значениями нормального распределения .
Индекс перекрытия Мориситы используется для сравнения перекрытия между выборками. [65] Индекс основан на предположении, что увеличение размера выборки увеличит разнообразие, поскольку оно будет включать различные среды обитания.
C D = 0, если две выборки не перекрываются по видам, и C D = 1, если виды встречаются в одинаковых пропорциях в обеих выборках.
Хорн ввел модификацию индекса [66]
Смит-Гилл разработал статистику, основанную на индексе Мориситы, который не зависит ни от размера выборки, ни от плотности населения и ограничен значениями -1 и +1. Эта статистика рассчитывается следующим образом [67]
Сначала определите индекс Мориситы ( I d ) обычным способом. Тогда пусть k — количество единиц, из которых была отобрана совокупность. Рассчитайте два критических значения
где χ 2 — значение хи-квадрат для n — 1 степеней свободы при уровнях достоверности 97,5% и 2,5%.
Стандартизированный индекс ( I p ) затем рассчитывается по одной из формул ниже.
Когда I d ≥ M c > 1
Когда M c > I d ≥ 1
Когда 1 > I d ≥ M u
Когда 1 > M u > I d
I p находится в диапазоне от +1 до –1 с 95% доверительным интервалом ±0,5. I p имеет значение 0, если шаблон случайный; если шаблон однородный, I p < 0, а если шаблон показывает агрегацию, I p > 0.
Эти индексы являются мерой равномерности между выборками. [68]
где I — индекс разнообразия, I max и I min — максимальное и минимальное значения I между сравниваемыми образцами.
Левингер предложил коэффициент H , определяемый следующим образом:
где p max и p min — максимальная и минимальная доли в выборке.
Индекс Тверски [69] представляет собой асимметричную меру, лежащую между 0 и 1.
Для образцов А и Б индекс Тверски ( S ) равен
Значения α и β произвольны. Установка значений α и β равными 0,5 дает коэффициент Дайса . Установка обоих значений в 1 дает коэффициент Танимото .
Также предложен симметричный вариант этого индекса. [70]
где
Было предложено несколько подобных индексов.
Моностори и др. предложил индекс SymmetricSimilarity [71]
где d ( X ) — некоторая мера , производная от X.
Бернштейн и Зобель предложили индексы S2 и S3 [72]
S3 — это просто двойной индекс SymmetricSimilarity. Оба связаны с коэффициентом Дайса.
Был предложен ряд метрик (расстояний между выборками).
Хотя это обычно используется в количественной работе, его также можно использовать и в качественной работе. Это определяется как
где d jk — расстояние между x ij и x ik .
Это определяется как
где d i — расстояние между i- ми образцами, а w i — результат взвешивания на i- м расстоянии.
Хотя это чаще используется в количественной работе, его также можно использовать и в качественной работе. Это определяется как
где d jk — расстояние между x ij и x ik и || — абсолютное значение разницы между x ij и x ik .
Модифицированную версию манхэттенского расстояния можно использовать для нахождения нуля ( корня ) многочлена любой степени с помощью метода Лилля .
Это связано с Манхэттенским расстоянием. Это было описано Превости и др. и использовался для сравнения различий между хромосомами . [73] Пусть P и Q — два набора r конечных вероятностных распределений. Пусть эти распределения имеют значения, которые разделены на k категорий. Тогда расстояние D PQ равно
где r — количество дискретных распределений вероятностей в каждой популяции, k j — количество категорий в распределениях P j и Q j , а p ji (соответственно q ji ) — теоретическая вероятность категории i в распределении P j ( Q j ) в популяции P ( Q ).
Его статистические свойства были исследованы Sanchez et al. [74] , которые рекомендовали процедуру начальной загрузки для оценки доверительных интервалов при тестировании различий между выборками.
Позволять
где min( x , y ) — меньшее значение пары x и y .
Затем
это Манхэттенское расстояние,
— расстояние Брея-Кёртиса,
- расстояние Жаккара (или Ружички) и
расстояние Кульчинского.
ХаКоэн-Кернер и др. предложили множество показателей для сравнения двух или более текстов. [75]
Если категории хотя бы порядковые , то можно вычислить ряд других индексов.
Мера дисперсии Лейка ( D ) является одним из таких показателей. [76] Пусть существует K категорий, и пусть p i равно f i / N , где fi — номер в i- й категории, и пусть категории расположены в порядке возрастания. Позволять
где а ≤ К. _ Пусть d a = c a, если c a ⩽ 0,5, и 1 − c a ⩽ 0,5 в противном случае. Затем
Это квадрат коэффициента вариации, разделенный на N − 1, где N — размер выборки.
где m — среднее значение, а s — стандартное отклонение.
Индекс потенциального конфликта (PCI) описывает соотношение баллов по обе стороны от центральной точки рейтинговой шкалы. [77] Для этого индекса требуются как минимум порядковые данные. Это соотношение часто отображается в виде пузырьковой диаграммы.
PCI использует порядковую шкалу с нечетным количеством рейтинговых баллов (от - n до + n ) с центром в 0. Он рассчитывается следующим образом.
где Z знак равно 2 п , |·| – абсолютная величина (модуль), r + – количество ответов на положительной стороне шкалы, r – количество ответов на отрицательной стороне шкалы, X + – ответы на положительной стороне шкалы , X − – ответы на отрицательной стороне шкалы и
Известно, что с PCI существуют теоретические трудности. PCI можно рассчитать только для шкал с нейтральной центральной точкой и равным количеством вариантов ответа по обе стороны от нее. Кроме того, равномерное распределение ответов не всегда дает среднюю точку статистики PCI, а скорее зависит от количества возможных ответов или значений шкалы. Например, пяти-, семи- и девятибалльная шкалы с равномерным распределением ответов дают ИКП 0,60, 0,57 и 0,50 соответственно.
Первая из этих проблем относительно незначительна, поскольку большинство порядковых шкал с четным числом ответов можно расширить (или уменьшить) на одно значение, чтобы получить нечетное количество возможных ответов. Если это необходимо, масштаб обычно можно отцентрировать. Вторую проблему решить труднее, и она может ограничить применимость PCI.
PCI был расширен [78]
где K — количество категорий, k i — число в i- й категории, d ij — расстояние между i- й и i -й категориями, а δ — максимальное расстояние по шкале, умноженное на количество раз, которое оно может встречаются в выборке. Для выборки с четным количеством точек данных
и для выборки с нечетным количеством точек данных
где N — количество точек данных в выборке, а d max — максимальное расстояние между точками на шкале.
Васке и др. предложить ряд возможных мер расстояния для использования с этим индексом. [78]
если знаки (+ или -) r i и r j различаются. Если знаки одинаковые d ij = 0.
где p — произвольное действительное число > 0.
если знак ( r i ) ≠ знак ( r i ) и p — действительное число > 0. Если знаки одинаковы, то d ij = 0. m — это D 1 , D 2 или D 3 .
Разница между D 1 и D 2 состоит в том, что первый не учитывает нейтралы на расстоянии, а второй включает. Например, респонденты, набравшие −2 и +1, будут иметь дистанцию 2 при D 1 и 3 при D 2 .
Использование степени ( p ) для расстояний позволяет масштабировать экстремальные реакции. Эти различия можно подчеркнуть при p > 1 или уменьшить при p < 1.
В симуляциях с вариациями, полученными из равномерного распределения, PCI 2 имеет симметричное унимодальное распределение. [78] Хвосты его распределения больше, чем у нормального распределения.
Васке и др. предложите использовать t-критерий для сравнения значений PCI между выборками, если PCI примерно нормально распределены.
Эта мера представляет собой средневзвешенное значение степени согласия распределения частот. [79] A варьируется от −1 (совершенная бимодальность ) до +1 (совершенная унимодальность ). Это определяется как
где U — унимодальность распределения, S — количество категорий с ненулевой частотой, а K — общее количество категорий.
Значение U равно 1, если распределение имеет любую из трех следующих характеристик:
При других распределениях данные необходимо разделить на «слои». Внутри слоя ответы либо равны, либо равны нулю. Категории не обязательно должны быть смежными. Вычисляется значение A для каждого слоя ( A i ) и определяется средневзвешенное значение для распределения. Веса ( w i ) для каждого слоя — это количество ответов в этом слое. В символах
Равномерное распределение имеет A = 0: когда все ответы попадают в одну категорию A = +1.
Одна теоретическая проблема с этим индексом заключается в том, что он предполагает, что интервалы расположены одинаково. Это может ограничить его применимость.
Если в выборке n единиц и они случайным образом распределены по k категориям ( n ≤ k ), это можно считать вариантом задачи о дне рождения . [80] Вероятность ( p ) всех категорий, имеющих только одну единицу, равна
Если c велико, а n мало по сравнению с k 2/3 , то в хорошем приближении
Это приближение следует из точной формулы следующим образом:
Для p = 0,5 и p = 0,05 соответственно могут быть полезны следующие оценки n :
Этот анализ можно распространить на несколько категорий. Для p = 0,5 и p 0,05 имеем соответственно
где c i — размер i- й категории. Этот анализ предполагает, что категории независимы.
Если данные каким-либо образом упорядочены, то по крайней мере для одного события, происходящего в двух категориях, лежащих в пределах j категорий друг от друга, чем вероятность 0,5 или 0,05, требуется размер выборки ( n ) соответственно [81]
где k — количество категорий.
Существует ли связь между днями рождения и днями смерти, исследовали с помощью статистики [82]
где d — количество дней в году между днем рождения и днем смерти.
Индекс Рэнда используется для проверки того, согласуются ли две или более системы классификации с набором данных. [83]
Учитывая набор элементов и два раздела для сравнения, разбиение S на r подмножеств и разбиение S на подмножества , определите следующее :
Индекс Рэнда - - определяется как
Интуитивно можно рассматривать как количество соглашений между и и как количество разногласий между и .
Скорректированный индекс Рэнда представляет собой скорректированную версию индекса Рэнда. [83] [84] [85] Хотя индекс Рэнда может давать значение только от 0 до +1, скорректированный индекс Рэнда может давать отрицательные значения, если индекс меньше ожидаемого индекса. [86]
Учитывая набор элементов и две группы или разделы ( например , кластеризации) этих точек, а именно и , перекрытие между и может быть суммировано в таблице сопряженности , где каждая запись обозначает количество общих объектов между и : .
Скорректированная форма индекса Рэнда, скорректированный индекс Рэнда, представляет собой
более конкретно
где значения из таблицы сопряженности.
Поскольку знаменателем является общее количество пар, индекс Рэнда представляет собой частоту возникновения соглашений по общему количеству пар или вероятность того, что и согласятся на случайно выбранной паре.
Различные индексы дают разные значения вариации и могут использоваться для разных целей: некоторые из них используются и критикуются, особенно в социологической литературе.
Если кто-то хочет просто провести порядковые сравнения между выборками (является ли одна выборка более или менее разнообразной, чем другая), выбор IQV относительно менее важен, поскольку они часто дают один и тот же порядок.
Если данные порядковые, для сравнения образцов можно использовать метод ORDANOVA.
В некоторых случаях полезно не стандартизировать индекс, чтобы он работал от 0 до 1, независимо от количества категорий или выборок (Wilcox 1973, стр. 338), но обычно его стандартизируют таким образом.