Коэффициент вариации

В теории вероятностей и статистике коэффициент вариации ( CV ), также известный как нормализованное среднеквадратичное отклонение (NRMSD) , процент RMS и относительное стандартное отклонение ( RSD ), является стандартизированной мерой дисперсии распределения вероятностей или Распределение частоты . Оно определяется как отношение стандартного отклонения к среднему значению (или его абсолютному значению , ) и часто выражается в процентах («%RSD»). CV или RSD широко используется в аналитической химии для выражения точности и повторяемости анализа . Он также широко используется в таких областях, как инженерное дело или физика , при проведении исследований по обеспечению качества и оценке R&R ANOVA , ^[^{нужна ссылка}^] экономистами и инвесторами в экономические модели , а также в психологии / неврологии . ${\ displaystyle \ сигма }$ $\mu$ $|\му |$

Определение

Коэффициент вариации (CV) определяется как отношение стандартного отклонения к среднему значению , ^[1] ${\ displaystyle \ сигма }$ $\mu$ $CV={\frac {\sigma }{\mu }}.$

Он показывает степень изменчивости по отношению к среднему значению популяции. Коэффициент вариации следует рассчитывать только для данных, измеренных по шкалам, которые имеют значимый ноль ( шкала отношений ) и, следовательно, позволяют относительное сравнение двух измерений (т. е. деление одного измерения на другое). Коэффициент вариации может не иметь никакого значения для данных в интервальной шкале . ^[2] Например, большинство температурных шкал (например, Цельсия, Фаренгейта и т. д.) являются интервальными шкалами с произвольными нулями, поэтому вычисленный коэффициент вариации будет различным в зависимости от используемой шкалы. С другой стороны, температура Кельвина имеет значимый ноль, полное отсутствие тепловой энергии и, таким образом, представляет собой шкалу отношений. Говоря простым языком, имеет смысл сказать, что 20 Кельвинов в два раза горячее, чем 10 Кельвинов, но только в этой шкале с истинным абсолютным нулем. Хотя стандартное отклонение (SD) можно измерить в Кельвинах, Цельсиях или Фаренгейтах, вычисленное значение применимо только к этой шкале. Для расчета достоверного коэффициента изменчивости можно использовать только шкалу Кельвина.

Измерения с логнормальным распределением демонстрируют стационарный CV; напротив, стандартное отклонение варьируется в зависимости от ожидаемого значения измерений.

Более надежным вариантом является квартильный коэффициент дисперсии , равный половине межквартильного диапазона , разделенной на среднее значение квартилей (средний шарнир ), . ${(Q_{3}-Q_{1})/2}$ ${(Q_{1}+Q_{3})/2}$

В большинстве случаев CV рассчитывается для одной независимой переменной (например, одного фабричного продукта) с многочисленными повторяющимися измерениями зависимой переменной (например, ошибки в производственном процессе). Однако данные, которые являются линейными или даже логарифмически нелинейными и включают непрерывный диапазон для независимой переменной с редкими измерениями для каждого значения (например, диаграмма рассеяния), могут быть пригодны для расчета одиночного CV с использованием подхода оценки максимального правдоподобия . ^[3]

Примеры

В приведенных ниже примерах мы возьмем заданные значения как случайно выбранные из большей совокупности значений .

Набор данных [100, 100, 100] имеет постоянные значения. Его стандартное отклонение равно 0, а среднее значение равно 100, что дает коэффициент вариации 0/100 = 0.
Набор данных [90, 100, 110] отличается большей вариативностью. Его стандартное отклонение равно 10, а среднее значение — 100, что дает коэффициент вариации 10/100 = 0,1.
Набор данных [1, 5, 6, 8, 10, 40, 65, 88] имеет еще большую вариативность. Его стандартное отклонение составляет 32,9, а среднее значение — 27,9, что дает коэффициент вариации 32,9 / 27,9 = 1,18.

В этих примерах мы возьмем заданные значения как всю совокупность значений .

Набор данных [100, 100, 100] имеет стандартное отклонение генеральной совокупности 0 и коэффициент вариации 0/100 = 0.
Набор данных [90, 100, 110] имеет стандартное отклонение генеральной совокупности 8,16 и коэффициент вариации 8,16/100 = 0,0816.
Набор данных [1, 5, 6, 8, 10, 40, 65, 88] имеет стандартное отклонение генеральной совокупности 30,8 и коэффициент вариации 30,8/27,9 = 1,10.

Оценка

Когда доступна только выборка данных из совокупности, CV совокупности можно оценить, используя отношение стандартного отклонения выборки к выборочному среднему : $с\,$ ${\bar {x}}$

{\widehat {c_{\rm {v}}}}={\frac {s}{\bar {x}}}

Но эта оценка, когда она применяется к выборке небольшого или среднего размера, имеет тенденцию быть слишком низкой: это смещенная оценка . Для нормально распределенных данных несмещенная оценка ^[4] для выборки размера n:

{\widehat {c_{\rm {v}}}}^{*}={\bigg (}1+{\frac {1}{4n}}{\bigg )}{\widehat {c_{ \rm {v}}}}

Логнормальные данные

Многие наборы данных имеют примерно логарифмически нормальное распределение. ^[5] В таких случаях более точная оценка, полученная из свойств логарифмически нормального распределения , ^[6]^[7]^[8] определяется как:

{\widehat {cv}}_{\rm {raw}}={\sqrt {\mathrm {e} ^{s_ {\rm {ln}}^{2}}-1}}

где — выборочное стандартное отклонение данных после естественного логарифмического преобразования. (В случае, если измерения записываются с использованием любой другой логарифмической основы b, их стандартное отклонение преобразуется в базу e с помощью , а формула для остается той же. ^[9] ) Эту оценку иногда называют «геометрическим CV». (GCV) ^[10]^[11] , чтобы отличить ее от простой оценки, приведенной выше. Однако «геометрический коэффициент вариации» также был определен Кирквудом ^[12] как: ${s_ {\rm {ln}}}\,$ $s_{b}\,$ $s_{\rm {ln}}=s_{b}\ln(b)\,$ ${\widehat {cv}}_{\rm {raw}}\,$

\mathrm {GCV_{K}} ={\mathrm {e} ^{s_{\rm {ln}}}\!\!-1}

Этот термин был задуман как аналог коэффициента вариации для описания мультипликативной вариации логарифмически нормальных данных, но это определение GCV не имеет теоретической основы для оценки самого себя . $c_{\rm {v}}\,$

Для многих практических целей (таких как определение размера выборки и расчет доверительных интервалов ) именно он наиболее полезен в контексте логарифмически нормально распределенных данных. При необходимости это можно получить из оценки или GCV путем обращения соответствующей формулы. $s_{ln}\,$ $c_{\rm {v}}\,$

Сравнение со стандартным отклонением

Преимущества

Коэффициент вариации полезен, потому что стандартное отклонение данных всегда следует понимать в контексте среднего значения данных. Напротив, фактическое значение CV не зависит от единицы измерения, в которой было произведено измерение, поэтому это безразмерное число . Для сравнения наборов данных с разными единицами измерения или совершенно разными средними значениями следует использовать коэффициент вариации вместо стандартного отклонения.

Недостатки

Когда среднее значение близко к нулю, коэффициент вариации приближается к бесконечности и поэтому чувствителен к небольшим изменениям среднего значения. Это часто имеет место, если значения не основаны на шкале отношений.
В отличие от стандартного отклонения, его нельзя использовать непосредственно для построения доверительных интервалов для среднего значения.

Приложения

Коэффициент вариации также часто используется в прикладных областях вероятности, таких как теория возобновления , теория массового обслуживания и теория надежности . В этих областях экспоненциальное распределение часто более важно, чем нормальное распределение . Стандартное отклонение экспоненциального распределения равно его среднему значению, поэтому его коэффициент вариации равен 1. Распределения с CV <1 (например, распределение Эрланга ) считаются малодисперсионными, а распределения с CV > 1 (например, гиперэкспоненциальное распределение ) считаются ^{высокодисперсными . _} Некоторые формулы в этих полях выражаются с использованием квадрата коэффициента вариации , часто сокращенно SCV. В моделировании вариацией CV является CV (RMSD). По сути, CV(RMSD) заменяет термин стандартного отклонения среднеквадратическим отклонением (RMSD) . Хотя многие естественные процессы действительно демонстрируют корреляцию между средним значением и величиной изменений вокруг него, точные сенсорные устройства должны быть спроектированы таким образом, чтобы коэффициент вариации был близок к нулю , т.е. рабочий диапазон.

В актуарной науке CV известен как унифицированный риск . ^[13]

В промышленной переработке твердых веществ CV особенно важен для измерения степени однородности порошковой смеси. Сравнение рассчитанного CV со спецификацией позволит определить, достигнута ли достаточная степень смешивания. ^[14]

В гидродинамике CV , также называемый процентом RMS , %RMS , %RMS однородности или среднеквадратичной скоростью , является полезным определением однородности потока для промышленных процессов. Этот термин широко используется при проектировании оборудования для контроля загрязнения, такого как электростатические фильтры (ESP), ^[15] системы селективного каталитического восстановления (SCR), скрубберы и подобные устройства. Институт компаний чистого воздуха (ICAC) ссылается на среднеквадратичное отклонение скорости при проектировании тканевых фильтров (документ ICAC F-7). ^[16] Основной принцип заключается в том, что многие из этих устройств контроля загрязнения требуют «равномерного потока», входящего в зону контроля и проходящего через нее. Это может быть связано с однородностью профиля скорости, распределением температуры, составом газа (например, аммиаком для СКВ или впрыском активированного угля для поглощения ртути) и другими параметрами, связанными с потоком. Процент RMS также используется для оценки однородности потока в системах сгорания, системах отопления, вентиляции и кондиционирования, воздуховодах, входных отверстиях вентиляторов и фильтров, вентиляционных установках и т. д., где на производительность оборудования влияет распределение входящего потока.

Лабораторные измерения внутри- и межанализа CV

Показатели CV часто используются в качестве контроля качества количественных лабораторных анализов . Хотя можно предположить, что CV внутри и между анализами рассчитывается путем простого усреднения значений CV по значениям CV для нескольких образцов в рамках одного анализа или путем усреднения нескольких оценок CV между анализами, было высказано предположение, что такая практика неверна и что требуется более сложный вычислительный процесс. ^[17] Также было отмечено, что значения CV не являются идеальным показателем достоверности измерения, когда количество повторов варьируется в зависимости от выборки - в этом случае стандартная ошибка в процентах считается более предпочтительной. ^[18] Если измерения не имеют естественной нулевой точки, то CV не является действительным измерением, и рекомендуются альтернативные меры, такие как коэффициент внутриклассовой корреляции . ^[19]

Как мера экономического неравенства

Коэффициент вариации отвечает требованиям меры экономического неравенства . ^[20]^[21]^[22] Если x (с записями x _i ) представляет собой список значений экономического показателя (например, богатства), где x _i представляет собой богатство агента i , то выполняются следующие требования:

Анонимность – c _v не зависит от порядка списка x . Это следует из того факта, что дисперсия и среднее значение не зависят от порядка x .
Масштабная инвариантность: c _v ( x ) = c _v (α x ), где α — действительное число. ^[22]
Независимость от населения. Если { x , x } — это список x, добавленный к самому себе, то c _v ({ x , x }) = c _v ( x ). Это следует из того факта, что и дисперсия, и среднее значение подчиняются этому принципу.
Принцип передачи Пигу-Дальтона: когда богатство передается от более богатого агента i к более бедному агенту j (т.е. x _i > x _j ) без изменения их ранга, тогда c _v уменьшается, и наоборот. ^[22]

c _v принимает минимальное значение, равное нулю, для полного равенства (все x _i равны). ^[22] Его наиболее заметным недостатком является то, что он не ограничен сверху, поэтому его нельзя нормализовать так, чтобы он находился в пределах фиксированного диапазона (например, как коэффициент Джини , который ограничен диапазоном от 0 до 1). ^[22] Однако он более математически понятен, чем коэффициент Джини.

Как мера стандартизации археологических артефактов

Археологи часто используют значения CV для сравнения степени стандартизации древних артефактов. ^[23]^[24] Различия в CV были интерпретированы как указывающие на различные культурные контексты передачи новых технологий. ^[25] Коэффициенты вариации также использовались для исследования стандартизации керамики, связанной с изменениями в социальной организации. ^[26] Археологи также используют несколько методов для сравнения значений CV, например, модифицированный тест отношения знакового правдоподобия (MSLR) для равенства CV. ^[27]^[28]

Примеры неправильного использования

Сравнение коэффициентов вариации параметров с использованием относительных единиц может привести к различиям, которые могут быть нереальными. Если мы сравним один и тот же набор температур в градусах Цельсия и Фаренгейта (обе относительные единицы, где шкалы Кельвина и Ренкина являются соответствующими абсолютными значениями):

Цельсия: [0, 10, 20, 30, 40]

Фаренгейт: [32, 50, 68, 86, 104]

Стандартные отклонения выборки составляют 15,81 и 28,46 соответственно. CV первого набора составляет 15,81/20 = 79%. Для второго набора (с теми же температурами) это 28,46/68 = 42%.

Если, например, наборы данных представляют собой показания температуры двух разных датчиков (датчика Цельсия и датчика Фаренгейта), и вы хотите узнать, какой датчик лучше, выбрав тот, у которого наименьшая дисперсия, то вы будете введены в заблуждение, если будете использовать РЕЗЮМЕ. Проблема здесь в том, что вы разделили относительное значение, а не абсолютное.

Сравнение того же набора данных, теперь в абсолютных единицах:

Кельвин: [273,15, 283,15, 293,15, 303,15, 313,15]

Рэнкин: [491,67, 509,67, 527,67, 545,67, 563,67]

Стандартные отклонения выборки по -прежнему составляют 15,81 и 28,46 соответственно, поскольку на стандартное отклонение не влияет постоянное смещение. Однако коэффициенты вариации теперь оба равны 5,39%.

С математической точки зрения коэффициент вариации не является полностью линейным. То есть для случайной величины коэффициент вариации равен коэффициенту вариации только при . В приведенном выше примере градусы Цельсия можно преобразовать в градусы Фаренгейта только посредством линейного преобразования формы с помощью , тогда как Кельвины можно преобразовать в единицы Рэнкина посредством преобразования формы . $X$ $aX+b$ $X$ $b=0$ $ax+b$ $b\neq 0$ $ax$

Распределение

При условии, что отрицательные и небольшие положительные значения выборочного среднего встречаются с пренебрежимо малой частотой, Хендрикс и Роби показали, что распределение вероятностей коэффициента вариации для выборки размером iid с нормальными случайными величинами будет ^[29] $n$

\mathrm {d} F_{c_{\rm {v}}}={\frac {2}{\pi ^{1/2}\Gamma {\left({\frac {n-1}{2}}\right)}}}\;\mathrm {e} ^{-{\frac {n}{2\left({\frac {\sigma }{\mu }}\right)^{2}}}{\frac {{c_{\rm {v}}}^{2}}{1+{c_{\rm {v}}}^{2}}}}{\frac {{c_{\rm {v}}}^{n-2}}{(1+{c_{\rm {v}}}^{2})^{n/2}}}\sideset {}{^{\prime }}\sum _{i=0}^{n-1}{\frac {(n-1)!\,\Gamma \left({\frac {n-i}{2}}\right)}{(n-1-i)!\,i!\,}}{\frac {n^{i/2}}{2^{i/2}\left({\frac {\sigma }{\mu }}\right)^{i}}}{\frac {1}{(1+{c_{\rm {v}}}^{2})^{i/2}}}\,\mathrm {d} c_{\rm {v}},

где символ указывает, что суммирование производится только по четным значениям , т. е., если нечетно, суммировать по четным значениям , а если четно, суммировать только по нечетным значениям . ${\textstyle \sideset {}{^{\prime }}\sum }$ $n-1-i$ $n$ $i$ $n$ $i$

Это полезно, например, при построении тестов гипотез или доверительных интервалов . Статистический вывод для коэффициента вариации нормально распределенных данных часто основан на аппроксимации хи-квадрат Маккея для коэффициента вариации. ^[30]^[31]^[32]^[33]^[34]^[35] Методы

Альтернатива

Лю (2012) рассматривает методы построения доверительного интервала для коэффициента вариации. ^[36] Примечательно, что Леманн (1986) получил выборочное распределение для коэффициента вариации, используя нецентральное t-распределение , чтобы дать точный метод построения CI. ^[37]

Подобные соотношения

Стандартизированные моменты — это аналогичные отношения, где — k- ^й момент относительно среднего значения, которые также безразмерны и масштабно-инвариантны. Отношение дисперсии к среднему — еще одно подобное соотношение , но оно не безразмерное и, следовательно, не масштабно-инвариантное. Дополнительные соотношения см. в разделе «Нормализация (статистика)» . ${\mu _{k}}/{\sigma ^{k}}$ $\mu _{k}$ $\sigma ^{2}/\mu$