Индекс разнообразия — это метод измерения количества различных типов (например, видов ) в наборе данных (например, сообществе). Некоторые более сложные индексы также учитывают филогенетическое родство между типами. [1] Индексы разнообразия — это статистические представления различных аспектов биоразнообразия (например, богатства , равномерности и доминирования ), которые являются полезными упрощениями для сравнения различных сообществ или участков.
Когда индексы разнообразия используются в экологии , типы интереса обычно являются видами, но они также могут быть другими категориями, такими как роды , семейства , функциональные типы или гаплотипы . Сущности интереса обычно являются отдельными организмами (например, растениями или животными), а мерой обилия может быть, например, количество особей, биомасса или покрытие. В демографии сущности интереса могут быть людьми, а типы интереса - различными демографическими группами. В информатике сущности могут быть символами и типами различных букв алфавита. Наиболее часто используемые индексы разнообразия являются простыми преобразованиями эффективного числа типов (также известного как «истинное разнообразие»), но каждый индекс разнообразия также может быть интерпретирован сам по себе как мера, соответствующая некоторому реальному явлению (но разная для каждого индекса разнообразия). [2] [3] [4] [5]
Многие индексы учитывают только категориальное разнообразие между субъектами или сущностями. Однако такие индексы не учитывают общую вариацию (разнообразие), которая может иметь место между субъектами или сущностями, которая возникает только тогда, когда рассчитываются как категориальное, так и качественное разнообразие.
Истинное разнообразие, или эффективное число типов, относится к числу одинаково обильных типов, необходимых для того, чтобы средняя пропорциональная численность типов была равна наблюдаемой в интересующем наборе данных (где все типы могут быть не одинаково обильными). Истинное разнообразие в наборе данных рассчитывается путем взятия сначала взвешенного обобщенного среднего M q −1 пропорциональной численности типов в наборе данных, а затем взятия обратной величины . Уравнение выглядит следующим образом: [4] [5]
Знаменатель M q −1 равен среднему пропорциональному обилию типов в наборе данных, рассчитанному с помощью взвешенного обобщенного среднего с показателем q − 1 . В уравнении R — это богатство (общее число типов в наборе данных), а пропорциональное обилие i- го типа — p i . Сами пропорциональные обилия используются в качестве номинальных весов. Эти числа называются числами Хилла порядка q или эффективным числом видов . [6]
Когда q = 1 , приведенное выше уравнение не определено. Однако математический предел , когда q приближается к 1, хорошо определен, и соответствующее разнообразие вычисляется с помощью следующего уравнения:
что является экспонентой энтропии Шеннона, вычисленной с помощью натуральных логарифмов (см. выше). В других областях эта статистика также известна как perplexity .
Общее уравнение разнообразия часто записывается в виде [2] [3]
и термин внутри скобок называется базовой суммой. Некоторые популярные индексы разнообразия соответствуют базовой сумме, рассчитанной с различными значениями q . [3]
Значение q часто называют порядком разнообразия. Оно определяет чувствительность истинного разнообразия к редким и обильным видам, изменяя способ расчета взвешенного среднего пропорционального обилия видов. При некоторых значениях параметра q значение обобщенного среднего M q −1 предполагает знакомые виды взвешенных средних как особые случаи. В частности,
Как правило, увеличение значения q увеличивает эффективный вес, придаваемый наиболее распространенному виду. Это приводит к получению большего значения M q −1 и меньшего значения истинного разнообразия ( q D ) с увеличением q .
Когда q = 1 , используется средневзвешенное геометрическое значение p i , и каждый вид точно взвешивается по его пропорциональной численности (в средневзвешенном геометрическом значении веса являются показателями степени). Когда q > 1 , вес, придаваемый распространенным видам, преувеличен, а когда q < 1 , вес, придаваемый редким видам, равен . При q = 0 веса видов в точности отменяют пропорциональную численность видов, так что средневзвешенное значение значений p i равно 1 / R, даже когда все виды не одинаково распространены. При q = 0 эффективное число видов, 0 D , следовательно, равно фактическому числу видов R . В контексте разнообразия q обычно ограничивается неотрицательными значениями. Это происходит потому, что отрицательные значения q придали бы редким видам настолько больший вес, чем распространенным, что q D превысило бы R . [4] [5]
Богатство R просто количественно определяет, сколько различных типов содержит интересующий набор данных. Например, богатство видов (обычно обозначается как S ) — это просто число видов, например, на определенном участке. Богатство — это простая мера, поэтому оно стало популярным индексом разнообразия в экологии, где данные о численности часто отсутствуют. [7] Если истинное разнообразие рассчитывается с q = 0 , эффективное число типов ( 0 D ) равно фактическому числу типов, что идентично богатству ( R ). [3] [5]
Индекс Шеннона был популярным индексом разнообразия в экологической литературе, где он также известен как индекс разнообразия Шеннона , индекс Шеннона –Винера и (ошибочно) индекс Шеннона– Уивера . [8] Первоначально эта мера была предложена Клодом Шенноном в 1948 году для количественной оценки энтропии (отсюда и энтропия Шеннона , связанная с информационным содержанием Шеннона ) в строках текста. [9] Идея заключается в том, что чем больше букв и чем ближе их пропорциональные содержания в интересующей строке, тем сложнее правильно предсказать, какая буква будет следующей в строке. Энтропия Шеннона количественно определяет неопределенность (энтропию или степень неожиданности), связанную с этим предсказанием. Чаще всего она рассчитывается следующим образом:
где p i — доля символов, принадлежащих к i- му типу букв в интересующей строке. В экологии p i часто является долей особей, принадлежащих к i- му виду в интересующем наборе данных. Тогда энтропия Шеннона количественно определяет неопределенность в прогнозировании видовой идентичности особи, которая случайно выбирается из набора данных.
Хотя уравнение здесь записано с натуральными логарифмами, основание логарифма, используемое при вычислении энтропии Шеннона, может быть выбрано свободно. Сам Шеннон обсуждал основания логарифма 2, 10 и e , и с тех пор они стали самыми популярными основаниями в приложениях, использующих энтропию Шеннона. Каждое основание логарифма соответствует отдельной единице измерения, которая была названа двоичными цифрами (битами), десятичными цифрами (децитами) и натуральными цифрами (натами) для оснований 2, 10 и e соответственно. Сравнение значений энтропии Шеннона, которые изначально были вычислены с различными основаниями логарифма, требует преобразования их в одно и то же основание логарифма: изменение от основания a к основанию b получается путем умножения на log b a . [9]
Индекс Шеннона ( H' ) связан с геометрическим средним взвешенным пропорциональным обилием типов. В частности, он равен логарифму истинного разнообразия, рассчитанного при q = 1 : [4]
Это также можно записать
что равно
Поскольку сумма значений p i по определению равна 1, знаменатель равен взвешенному геометрическому среднему значению значений p i , причем сами значения p i используются в качестве весов (показатель степени в уравнении). Таким образом, член в скобках равен истинному разнообразию 1 D , а H' равен ln( 1 D ) . [2] [4] [5]
Когда все типы в интересующем наборе данных одинаково распространены, все значения p i равны 1 / R , и индекс Шеннона, следовательно, принимает значение ln( R ) . Чем более неравномерно распространенность типов, тем больше взвешенное геометрическое среднее значений p i и тем меньше соответствующая энтропия Шеннона. Если практически вся распространенность сосредоточена в одном типе, а другие типы очень редки (даже если их много), энтропия Шеннона стремится к нулю. Когда в наборе данных есть только один тип, энтропия Шеннона точно равна нулю (нет никакой неопределенности в предсказании типа следующей случайно выбранной сущности).
В машинном обучении индекс Шеннона также называется приростом информации .
Энтропия Реньи является обобщением энтропии Шеннона на другие значения q , отличные от 1. Ее можно выразить следующим образом:
что равно
Это означает, что взятие логарифма истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q .
Индекс Симпсона был введен в 1949 году Эдвардом Х. Симпсоном для измерения степени концентрации при классификации людей по типам. [10] Тот же индекс был заново открыт Оррисом К. Херфиндалем в 1950 году. [11] Квадратный корень индекса уже был введен в 1945 году экономистом Альбертом О. Хиршманом . [12] В результате эта же мера обычно известна как индекс Симпсона в экологии и как индекс Херфиндаля или индекс Херфиндаля–Хиршмана (HHI) в экономике.
Мера равна вероятности того, что два объекта, взятых случайным образом из интересующего набора данных, представляют один и тот же тип. [10] Она равна:
где R — богатство (общее число типов в наборе данных). Это уравнение также равно взвешенному арифметическому среднему пропорциональному содержанию p i интересующих типов, причем сами пропорциональные содержания используются в качестве весов. [2] Пропорциональное содержание по определению ограничено значениями от нуля до единицы, но это взвешенное арифметическое среднее, следовательно, λ ≥ 1/ R , что достигается, когда все типы одинаково распространены.
Сравнивая уравнение, используемое для расчета λ, с уравнениями, используемыми для расчета истинного разнообразия, можно увидеть, что 1/λ равно 2 D , т.е. истинному разнообразию, рассчитанному при q = 2. Исходный индекс Симпсона, таким образом, равен соответствующей базовой сумме. [3]
Интерпретация λ как вероятности того, что две сущности, взятые случайным образом из интересующего набора данных, представляют один и тот же тип, предполагает, что первая сущность заменяется в наборе данных перед взятием второй сущности. Если набор данных очень большой, выборка без замены дает примерно тот же результат, но в небольших наборах данных разница может быть существенной. Если набор данных небольшой и предполагается выборка без замены, вероятность получения одного и того же типа при обоих случайных выборках равна:
где n i — число сущностей, принадлежащих к i- му типу, а N — общее число сущностей в наборе данных. [10] Эта форма индекса Симпсона также известна как индекс Хантера–Гастона в микробиологии. [13]
Поскольку среднее пропорциональное обилие типов увеличивается с уменьшением числа типов и увеличением обилия наиболее обильного типа, λ получает малые значения в наборах данных с высоким разнообразием и большие значения в наборах данных с низким разнообразием. Это нелогичное поведение для индекса разнообразия, поэтому часто вместо него использовались такие преобразования λ, которые увеличиваются с увеличением разнообразия. Наиболее популярными из таких индексов были обратный индекс Симпсона (1/λ) и индекс Джини -Симпсона (1 − λ). [2] [3] Оба они также называются индексом Симпсона в экологической литературе, поэтому необходимо проявлять осторожность, чтобы избежать случайного сравнения разных индексов, как если бы они были одинаковыми.
Обратный индекс Симпсона равен:
Это просто равно истинному разнообразию порядка 2, т.е. эффективному числу типов, которое получается, когда взвешенное арифметическое среднее используется для количественной оценки средней пропорциональной распространенности типов в интересующем наборе данных.
Индекс также используется как мера эффективного числа партий .
Индекс Джини-Симпсона также называется примесью Джини или индексом разнообразия Джини [14] в области машинного обучения . Исходный индекс Симпсона λ равен вероятности того, что две сущности, взятые случайным образом из интересующего набора данных (с заменой), представляют один и тот же тип. Его преобразование 1 − λ, следовательно, равно вероятности того, что две сущности представляют разные типы. Эта мера также известна в экологии как вероятность межвидовой встречи ( PIE ) [15] и индекс Джини-Симпсона. [3] Его можно выразить как преобразование истинного разнообразия порядка 2:
Индекс Гиббса-Мартина в социологии, психологии и управленческих исследованиях [16] , также известный как индекс Блау, представляет собой ту же меру, что и индекс Джини-Симпсона.
Эта величина также известна как ожидаемая гетерозиготность в популяционной генетике.
Индекс Бергера–Паркера, названный в честь Вольфганга Х. Бергера и Фрэнсис Лоуренс Паркер , [17] равен максимальному значению p i в наборе данных, т. е. пропорциональному обилию наиболее обильного типа. Это соответствует взвешенному обобщенному среднему значению p i , когда q стремится к бесконечности, и, следовательно, равно обратному значению истинного разнообразия порядка бесконечности ( 1/ ∞ D ).