Индекс разнообразия

Индекс разнообразия — это метод измерения количества различных типов (например, видов ) в наборе данных (например, сообществе). Некоторые более сложные индексы также учитывают филогенетическое родство между типами. ^[1] Индексы разнообразия — это статистические представления различных аспектов биоразнообразия (например, богатства , равномерности и доминирования ), которые являются полезными упрощениями для сравнения различных сообществ или участков.

Эффективное число видов или числа Хилла

Когда индексы разнообразия используются в экологии , типы интереса обычно являются видами, но они также могут быть другими категориями, такими как роды , семейства , функциональные типы или гаплотипы . Сущности интереса обычно являются отдельными организмами (например, растениями или животными), а мерой обилия может быть, например, количество особей, биомасса или покрытие. В демографии сущности интереса могут быть людьми, а типы интереса - различными демографическими группами. В информатике сущности могут быть символами и типами различных букв алфавита. Наиболее часто используемые индексы разнообразия являются простыми преобразованиями эффективного числа типов (также известного как «истинное разнообразие»), но каждый индекс разнообразия также может быть интерпретирован сам по себе как мера, соответствующая некоторому реальному явлению (но разная для каждого индекса разнообразия). ^[2]^[3]^[4]^[5]

Многие индексы учитывают только категориальное разнообразие между субъектами или сущностями. Однако такие индексы не учитывают общую вариацию (разнообразие), которая может иметь место между субъектами или сущностями, которая возникает только тогда, когда рассчитываются как категориальное, так и качественное разнообразие.

Истинное разнообразие, или эффективное число типов, относится к числу одинаково обильных типов, необходимых для того, чтобы средняя пропорциональная численность типов была равна наблюдаемой в интересующем наборе данных (где все типы могут быть не одинаково обильными). Истинное разнообразие в наборе данных рассчитывается путем взятия сначала взвешенного обобщенного среднего $M q -1$ пропорциональной численности типов в наборе данных, а затем взятия обратной величины . Уравнение выглядит следующим образом: ^[4]^[5]

{}^{q}\!D={1 \over M_{q-1}}={1 \over {\sqrt[{q-1}]{\sum _{i=1}^{R}p_{i}p_{i}^{q-1}}}}=\left({\sum _{i=1}^{R}p_{i}^{q}}\right)^{1/(1-q)}

Знаменатель $M$ $q$ $-1$ равен среднему пропорциональному обилию типов в наборе данных, рассчитанному с помощью взвешенного обобщенного среднего с показателем $q$ $- 1$ . В уравнении $R$ — это богатство (общее число типов в наборе данных), а пропорциональное обилие $i-$ го типа — $p$ $i$ . Сами пропорциональные обилия используются в качестве номинальных весов. Эти числа называются числами Хилла порядка q или эффективным числом видов . ^[6] $^{q}D$

Когда $q = 1$ , приведенное выше уравнение не определено. Однако математический предел , когда $q$ приближается к 1, хорошо определен, и соответствующее разнообразие вычисляется с помощью следующего уравнения:

{}^{1}\!D={1 \over {\prod _{i=1}^{R}p_{i}^{p_{i}}}}=\exp \left(-\sum _{i=1}^{R}p_{i}\ln(p_{i})\right)

что является экспонентой энтропии Шеннона, вычисленной с помощью натуральных логарифмов (см. выше). В других областях эта статистика также известна как perplexity .

Общее уравнение разнообразия часто записывается в виде ^[2]^[3]

{}^{q}\!D=\left({\sum _{i=1}^{R}p_{i}^{q}}\right)^{1/(1-q)}

и термин внутри скобок называется базовой суммой. Некоторые популярные индексы разнообразия соответствуют базовой сумме, рассчитанной с различными значениями $q$ . ^[3]

Чувствительность показателя разнообразия к редким и распространенным видам

Значение $q$ часто называют порядком разнообразия. Оно определяет чувствительность истинного разнообразия к редким и обильным видам, изменяя способ расчета взвешенного среднего пропорционального обилия видов. При некоторых значениях параметра $q$ значение обобщенного среднего $M q -1$ предполагает знакомые виды взвешенных средних как особые случаи. В частности,

$q = 0$ соответствует взвешенному гармоническому среднему ,
$q = 1$ к средневзвешенному геометрическому значению , и
$q = 2$ к взвешенному арифметическому среднему .
По мере того как $q$ стремится к бесконечности , взвешенное обобщенное среднее с показателем $q - 1$ приближается к максимальному значению $p i$ , которое представляет собой пропорциональную численность наиболее распространенных видов в наборе данных.

Как правило, увеличение значения $q$ увеличивает эффективный вес, придаваемый наиболее распространенному виду. Это приводит к получению большего значения $M q -1$ и меньшего значения истинного разнообразия ( $q D$ ) с увеличением $q$ .

Когда $q = 1$ , используется средневзвешенное геометрическое значение значений $p i$ , и каждый вид точно взвешивается по его пропорциональной численности (в средневзвешенном геометрическом значении веса являются показателями степени). Когда $q > 1$ , вес, придаваемый распространенным видам, преувеличен, а когда $q < 1$ , вес, придаваемый редким видам, равен . При $q = 0$ веса видов в точности отменяют пропорциональную численность видов, так что средневзвешенное значение значений $p i$ равно $1 / R,$ даже когда все виды не одинаково распространены. При $q = 0$ эффективное число видов, $0 D$ , следовательно, равно фактическому числу видов $R$ . В контексте разнообразия $q$ обычно ограничено неотрицательными значениями. Это происходит потому, что отрицательные значения $q$ дали бы редким видам настолько больший вес, чем распространенным, что $q D$ превысило бы $R$ . ^[4]^[5]

Богатство

Богатство $R$ просто количественно определяет, сколько различных типов содержит интересующий набор данных. Например, богатство видов (обычно обозначается как $S$ ) — это просто число видов, например, на определенном участке. Богатство — это простая мера, поэтому оно стало популярным индексом разнообразия в экологии, где данные о численности часто отсутствуют. ^[7] Если истинное разнообразие рассчитывается с $q = 0$ , эффективное число типов ( $0 D$ ) равно фактическому числу типов, что идентично богатству ( $R$ ). ^[3]^[5]

индекс Шеннона

Индекс Шеннона был популярным индексом разнообразия в экологической литературе, где он также известен как индекс разнообразия Шеннона , индекс Шеннона –Винера и (ошибочно) индекс Шеннона– Уивера . ^[8] Первоначально эта мера была предложена Клодом Шенноном в 1948 году для количественной оценки энтропии (отсюда и энтропия Шеннона , связанная с информационным содержанием Шеннона ) в строках текста. ^[9] Идея заключается в том, что чем больше букв и чем ближе их пропорциональные содержания в интересующей строке, тем сложнее правильно предсказать, какая буква будет следующей в строке. Энтропия Шеннона количественно определяет неопределенность (энтропию или степень неожиданности), связанную с этим предсказанием. Чаще всего она рассчитывается следующим образом:

H'=-\sum _{i=1}^{R}p_{i}\ln p_{i}

где $p i$ — доля символов, принадлежащих к $i-$ му типу букв в интересующей строке. В экологии $p i$ часто является долей особей, принадлежащих к $i-$ му виду в интересующем наборе данных. Тогда энтропия Шеннона количественно определяет неопределенность в прогнозировании видовой идентичности особи, которая случайно выбирается из набора данных.

Хотя уравнение здесь записано с натуральными логарифмами, основание логарифма, используемое при вычислении энтропии Шеннона, может быть выбрано свободно. Сам Шеннон обсуждал основания логарифма 2, 10 и $e$ , и с тех пор они стали самыми популярными основаниями в приложениях, использующих энтропию Шеннона. Каждое основание логарифма соответствует отдельной единице измерения, которая была названа двоичными цифрами (битами), десятичными цифрами (децитами) и натуральными цифрами (натами) для оснований 2, 10 и $e$ соответственно. Сравнение значений энтропии Шеннона, которые изначально были вычислены с различными основаниями логарифма, требует преобразования их в одно и то же основание логарифма: изменение от основания $a$ к основанию $b$ получается путем умножения на $log b a$ . ^[9]

Индекс Шеннона ( $H'$ ) связан с геометрическим средним взвешенным пропорциональным обилием типов. В частности, он равен логарифму истинного разнообразия, рассчитанного при $q = 1$ : ^[4]

H'=-\sum _{i=1}^{R}p_{i}\ln p_{i}=-\sum _{i=1}^{R}\ln p_{i}^{p_{i}}

Это также можно записать

H'=-(\ln p_{1}^{p_{1}}+\ln p_{2}^{p_{2}}+\ln p_{3}^{p_{3}}+\cdots +\ln p_{R}^{p_{R}})

что равно

H'=-\ln p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}=\ln \left({1 \over p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}}\right)=\ln \left({1 \over {\prod _{i=1}^{R}p_{i}^{p_{i}}}}\right)

Поскольку сумма значений $p i$ по определению равна 1, знаменатель равен взвешенному геометрическому среднему значению значений $p i$ , причем сами значения $p i$ используются в качестве весов (показатель степени в уравнении). Таким образом, член в скобках равен истинному разнообразию $1 D$ , а $H'$ равен $ln(1 D)$ . ^[2]^[4]^[5]

Когда все типы в интересующем наборе данных одинаково распространены, все значения $p i$ $равны 1 / R$ , и индекс Шеннона, следовательно, принимает значение $ln(R)$ . Чем более неравномерно распространенность типов, тем больше взвешенное геометрическое среднее значений $p i$ и тем меньше соответствующая энтропия Шеннона. Если практически вся распространенность сосредоточена в одном типе, а другие типы очень редки (даже если их много), энтропия Шеннона стремится к нулю. Когда в наборе данных есть только один тип, энтропия Шеннона точно равна нулю (нет никакой неопределенности в предсказании типа следующей случайно выбранной сущности).

В машинном обучении индекс Шеннона также называется приростом информации .

энтропия Реньи

Энтропия Реньи является обобщением энтропии Шеннона на другие значения $q$ , отличные от 1. Ее можно выразить следующим образом:

{}^{q}H={\frac {1}{1-q}}\;\ln \left(\sum _{i=1}^{R}p_{i}^{q}\right)

что равно

{}^{q}H=\ln \left({1 \over {\sqrt[{q-1}]{\sum _{i=1}^{R}p_{i}p_{i}^{q-1}}}}\right)=\ln({}^{q}\!D)

Это означает, что взятие логарифма истинного разнообразия на основе любого значения $q$ дает энтропию Реньи, соответствующую тому же значению $q$ .

индекс Симпсона

Индекс Симпсона был введен в 1949 году Эдвардом Х. Симпсоном для измерения степени концентрации при классификации людей по типам. ^[10] Тот же индекс был заново открыт Оррисом К. Херфиндалем в 1950 году. ^[11] Квадратный корень индекса уже был введен в 1945 году экономистом Альбертом О. Хиршманом . ^[12] В результате эта же мера обычно известна как индекс Симпсона в экологии и как индекс Херфиндаля или индекс Херфиндаля–Хиршмана (HHI) в экономике.

Мера равна вероятности того, что два объекта, взятых случайным образом из интересующего набора данных, представляют один и тот же тип. ^[10] Она равна:

\lambda =\sum _{i=1}^{R}p_{i}^{2},

где $R$ — богатство (общее число типов в наборе данных). Это уравнение также равно взвешенному арифметическому среднему пропорциональному содержанию $p i$ интересующих типов, причем сами пропорциональные содержания используются в качестве весов. ^[2] Пропорциональное содержание по определению ограничено значениями от нуля до единицы, но это взвешенное арифметическое среднее, следовательно, $λ \geq 1/ R$ , что достигается, когда все типы одинаково распространены.

Сравнивая уравнение, используемое для расчета λ, с уравнениями, используемыми для расчета истинного разнообразия, можно увидеть, что $1/λ$ равно $2 D$ , т. е. истинному разнообразию, рассчитанному при $q = 2.$ Исходный индекс Симпсона, таким образом, равен соответствующей базовой сумме. ^[3]

Интерпретация λ как вероятности того, что две сущности, взятые случайным образом из интересующего набора данных, представляют один и тот же тип, предполагает, что первая сущность заменяется в наборе данных перед взятием второй сущности. Если набор данных очень большой, выборка без замены дает примерно тот же результат, но в небольших наборах данных разница может быть существенной. Если набор данных небольшой и предполагается выборка без замены, вероятность получения одного и того же типа при обоих случайных выборках равна:

\ell ={\frac {\sum _{i=1}^{R}n_{i}(n_{i}-1)}{N(N-1)}}

где $n i$ — число сущностей, принадлежащих к $i-$ му типу, а $N$ — общее число сущностей в наборе данных. ^[10] Эта форма индекса Симпсона также известна как индекс Хантера–Гастона в микробиологии. ^[13]

Поскольку среднее пропорциональное обилие типов увеличивается с уменьшением числа типов и увеличением обилия наиболее обильного типа, λ получает малые значения в наборах данных с высоким разнообразием и большие значения в наборах данных с низким разнообразием. Это контринтуитивное поведение для индекса разнообразия, поэтому часто вместо него использовались такие преобразования λ, которые увеличиваются с увеличением разнообразия. Наиболее популярными из таких индексов были обратный индекс Симпсона (1/λ) и индекс Джини -Симпсона (1 − λ). ^[2]^[3] Оба они также называются индексом Симпсона в экологической литературе, поэтому необходимо проявлять осторожность, чтобы избежать случайного сравнения разных индексов, как если бы они были одинаковыми.

Обратный индекс Симпсона

Обратный индекс Симпсона равен:

{\frac {1}{\lambda }}={1 \over \sum _{i=1}^{R}p_{i}^{2}}={}^{2}D

Это просто равно истинному разнообразию порядка 2, т.е. эффективному числу типов, которое получается, когда взвешенное арифметическое среднее используется для количественной оценки средней пропорциональной распространенности типов в интересующем наборе данных.

Индекс также используется как мера эффективного числа партий .

Индекс Джини-Симпсона

Индекс Джини-Симпсона также называется примесью Джини или индексом разнообразия Джини ^[14] в области машинного обучения . Исходный индекс Симпсона λ равен вероятности того, что две сущности, взятые случайным образом из интересующего набора данных (с заменой), представляют один и тот же тип. Его преобразование 1 − λ, следовательно, равно вероятности того, что две сущности представляют разные типы. Эта мера также известна в экологии как вероятность межвидовой встречи ( PIE ) ^[15] и индекс Джини-Симпсона. ^[3] Его можно выразить как преобразование истинного разнообразия порядка 2:

1-\lambda =1-\sum _{i=1}^{R}p_{i}^{2}=1-{\frac {1}{{}^{2}D}}

Индекс Гиббса-Мартина в социологии, психологии и управленческих исследованиях ^[16] , также известный как индекс Блау, представляет собой ту же меру, что и индекс Джини-Симпсона.

Эта величина также известна как ожидаемая гетерозиготность в популяционной генетике.

Индекс Бергера–Паркера

Индекс Бергера–Паркера, названный в честь Вольфганга Х. Бергера и Фрэнсис Лоуренс Паркер , ^[17] равен максимальному значению $p i$ в наборе данных, т. е. пропорциональному обилию наиболее обильного типа. Это соответствует взвешенному $обобщенному$ среднему значению p $i ,$ когда $q$ стремится к бесконечности, и, следовательно, равно обратному значению истинного разнообразия порядка бесконечности ( $1/$ $\infty$ $D$ ).

Смотрите также

Альфа-разнообразие
Бета-разнообразие
Культурное разнообразие
Эффективное число партий , индекс разнообразия, применяемый к политическим партиям
Гамма-разнообразие
Обобщенный индекс энтропии
Коэффициент Джини
Индекс изоляции
Измерение биоразнообразия
Качественное изменение
Относительное изобилие
Разнообразие видов
Видовое богатство

Ссылки

^ Такер, Кэролайн М.; Кадотт, Марк В.; Карвальо, Сильвия Б.; Дэвис, Т. Джонатан; Ферье, Саймон; Фриц, Сюзанна А.; Гренье, Рич; Хельмус, Мэтью Р.; Джин, Ланна С. (май 2017 г.). «Руководство по филогенетическим метрикам для сохранения, экологии сообществ и макроэкологии: руководство по филогенетическим метрикам для экологии». Biological Reviews . 92 (2): 698–715. doi :10.1111/brv.12252. PMC 5096690 . PMID 26785932.
^ abcde Hill, MO (1973). «Разнообразие и равномерность: унифицированная нотация и ее последствия». Экология . 54 (2): 427–432. Bibcode :1973Ecol...54..427H. doi :10.2307/1934352. JSTOR 1934352.
^ abcdefg Йост, Л (2006). «Энтропия и разнообразие». Oikos . 113 (2): 363–375. Bibcode : 2006Oikos.113..363J. doi : 10.1111/j.2006.0030-1299.14714.x.
^ abcde Tuomisto, H (2010). «Разнообразие бета-разнообразий: исправление ошибочной концепции. Часть 1. Определение бета-разнообразия как функции альфа- и гамма-разнообразия». Ecography . 33 (1): 2–22. Bibcode : 2010Ecogr..33....2T. doi : 10.1111/j.1600-0587.2009.05880.x.
^ abcde Tuomisto, H (2010). «Последовательная терминология для количественной оценки видового разнообразия? Да, она существует». Oecologia . 164 (4): 853–860. Bibcode : 2010Oecol.164..853T. doi : 10.1007/s00442-010-1812-0. PMID 20978798. S2CID 19902787.
^ Чао, Энн; Чиу, Чун-Хуо; Джост, Лу (2016), «Меры филогенетического разнообразия и их разложение: структура, основанная на числах Хилла», Сохранение биоразнообразия и филогенетическая систематика , темы по биоразнообразию и сохранению, т. 14, Springer International Publishing, стр. 141–172, doi : 10.1007/978-3-319-22461-9_8 , ISBN 9783319224602
^ Моррис, Э. Кэтрин; Карузо, Танкреди; Бускот, Франсуа; Фишер, Маркус; Хэнкок, Кристина; Майер, Таня С.; Майнерс, Торстен; Мюллер, Кэролайн; Обермайер, Элизабет; Прати, Дэниел; Сочер, Стефани А.; Зоннеманн, Илья; Васке, Николь; Вубет, Тесфайе; Вурст, Сюзанна (сентябрь 2014 г.). «Выбор и использование индексов разнообразия: идеи для экологических приложений от Немецких исследований биоразнообразия». Экология и эволюция . 4 (18): 3514–3524. Бибкод : 2014EcoEv...4.3514M. дои : 10.1002/ece3.1155. ISSN 2045-7758. PMC 4224527. PMID 25478144 .
^ Спеллерберг, Ян Ф. и Питер Дж. Федор. (2003) Дань уважения Клоду Шеннону (1916–2001) и призыв к более строгому использованию видового богатства, видового разнообразия и индекса «Шеннона–Винера». Глобальная экология и биогеография 12.3, 177–179.
^ ab Шеннон, CE (1948) Математическая теория связи . The Bell System Technical Journal, 27, 379–423 и 623–656.
^ abc Simpson, EH (1949). "Измерение разнообразия". Nature . 163 (4148): 688. Bibcode :1949Natur.163..688S. doi : 10.1038/163688a0 .
^ Херфиндаль, О.К. (1950) Концентрация в сталелитейной промышленности США. Неопубликованная докторская диссертация, Колумбийский университет.
^ Хиршман, АО (1945) Национальная мощь и структура внешней торговли. Беркли.
^ Хантер, PR; Гастон, MA (1988). «Численный индекс дискриминационной способности систем типирования: применение индекса разнообразия Симпсона». J Clin Microbiol . 26 (11): 2465–2466. doi : 10.1128 /JCM.26.11.2465-2466.1988. PMC 266921. PMID 3069867.
^ "Выращивание деревьев решений". MathWorks .
^ Hurlbert, SH (1971). «Неконцепция видового разнообразия: критика и альтернативные параметры». Ecology . 52 (4): 577–586. Bibcode :1971Ecol...52..577H. doi :10.2307/1934145. JSTOR 1934145. PMID 28973811. S2CID 25837001.
^ Гиббс, Джек П.; Уильям Т. Мартин (1962). «Урбанизация, технология и разделение труда». American Sociological Review . 27 (5): 667–677. doi :10.2307/2089624. JSTOR 2089624.
^ Бергер, Вольфганг Х.; Паркер, Фрэнсис Л. (июнь 1970 г.). «Разнообразие планктонных фораминифер в глубоководных осадках». Science . 168 (3937): 1345–1347. Bibcode :1970Sci...168.1345B. doi :10.1126/science.168.3937.1345. PMID 17731043. S2CID 29553922.

Дальнейшее чтение

Колинво, Пол А. (1973). Введение в экологию . Wiley. ISBN 0-471-16498-4.
Cover, Thomas M.; Thomas, Joy A. (1991). Элементы теории информации . Wiley. ISBN 0-471-06259-6. Подробное описание процедур кодирования, неформально описанных выше, см. в главе 5.
Чао, А.; Шен, Т.Дж. (2003). «Непараметрическая оценка индекса разнообразия Шеннона при наличии в выборке неизвестных видов» (PDF) . Экологическая и экологическая статистика . 10 (4): 429–443. doi :10.1023/A:1026096204727. S2CID 20389926.

Внешние ссылки

Индекс разнообразия Симпсона
Индексы разнообразия, архивированные 19 декабря 2005 г. на Wayback Machine, содержат некоторые примеры оценок индекса Симпсона для реальных экосистем.