В теории вероятностей и статистике коэффициент вариации ( CV ), также известный как нормализованное среднеквадратичное отклонение (NRMSD) , процент RMS и относительное стандартное отклонение ( RSD ), является стандартизированной мерой дисперсии распределения вероятностей или Распределение частоты . Оно определяется как отношение стандартного отклонения к среднему значению (или его абсолютному значению , ) и часто выражается в процентах («%RSD»). CV или RSD широко используется в аналитической химии для выражения точности и повторяемости анализа . Он также широко используется в таких областях, как инженерное дело или физика , при проведении исследований по обеспечению качества и оценке R&R ANOVA , [ нужна ссылка ] экономистами и инвесторами в экономические модели , а также в психологии / неврологии .
Коэффициент вариации (CV) определяется как отношение стандартного отклонения к среднему значению , [1]
Он показывает степень изменчивости по отношению к среднему значению популяции. Коэффициент вариации следует рассчитывать только для данных, измеренных по шкалам, которые имеют значимый ноль ( шкала отношений ) и, следовательно, позволяют относительное сравнение двух измерений (т. е. деление одного измерения на другое). Коэффициент вариации может не иметь никакого значения для данных в интервальной шкале . [2] Например, большинство температурных шкал (например, Цельсия, Фаренгейта и т. д.) являются интервальными шкалами с произвольными нулями, поэтому вычисленный коэффициент вариации будет различным в зависимости от используемой шкалы. С другой стороны, температура Кельвина имеет значимый ноль, полное отсутствие тепловой энергии и, таким образом, представляет собой шкалу отношений. Говоря простым языком, имеет смысл сказать, что 20 Кельвинов в два раза горячее, чем 10 Кельвинов, но только в этой шкале с истинным абсолютным нулем. Хотя стандартное отклонение (SD) можно измерить в Кельвинах, Цельсиях или Фаренгейтах, вычисленное значение применимо только к этой шкале. Для расчета достоверного коэффициента изменчивости можно использовать только шкалу Кельвина.
Измерения с логнормальным распределением демонстрируют стационарный CV; напротив, стандартное отклонение варьируется в зависимости от ожидаемого значения измерений.
Более надежным вариантом является квартильный коэффициент дисперсии , равный половине межквартильного диапазона , разделенной на среднее значение квартилей (средний шарнир ), .
В большинстве случаев CV рассчитывается для одной независимой переменной (например, одного фабричного продукта) с многочисленными повторяющимися измерениями зависимой переменной (например, ошибки в производственном процессе). Однако данные, которые являются линейными или даже логарифмически нелинейными и включают непрерывный диапазон для независимой переменной с редкими измерениями для каждого значения (например, диаграмма рассеяния), могут быть пригодны для расчета одиночного CV с использованием подхода оценки максимального правдоподобия . [3]
В приведенных ниже примерах мы возьмем заданные значения как случайно выбранные из большей совокупности значений .
В этих примерах мы возьмем заданные значения как всю совокупность значений .
Когда доступна только выборка данных из совокупности, CV совокупности можно оценить, используя отношение стандартного отклонения выборки к выборочному среднему :
Но эта оценка, когда она применяется к выборке небольшого или среднего размера, имеет тенденцию быть слишком низкой: это смещенная оценка . Для нормально распределенных данных несмещенная оценка [4] для выборки размера n:
Многие наборы данных имеют примерно логарифмически нормальное распределение. [5] В таких случаях более точная оценка, полученная из свойств логарифмически нормального распределения , [6] [7] [8] определяется как:
где — выборочное стандартное отклонение данных после естественного логарифмического преобразования. (В случае, если измерения записываются с использованием любой другой логарифмической основы b, их стандартное отклонение преобразуется в базу e с помощью , а формула для остается той же. [9] ) Эту оценку иногда называют «геометрическим CV». (GCV) [10] [11] , чтобы отличить ее от простой оценки, приведенной выше. Однако «геометрический коэффициент вариации» также был определен Кирквудом [12] как:
Этот термин был задуман как аналог коэффициента вариации для описания мультипликативной вариации логарифмически нормальных данных, но это определение GCV не имеет теоретической основы для оценки самого себя .
Для многих практических целей (таких как определение размера выборки и расчет доверительных интервалов ) именно он наиболее полезен в контексте логарифмически нормально распределенных данных. При необходимости это можно получить из оценки или GCV путем обращения соответствующей формулы.
Коэффициент вариации полезен, потому что стандартное отклонение данных всегда следует понимать в контексте среднего значения данных. Напротив, фактическое значение CV не зависит от единицы измерения, в которой было произведено измерение, поэтому это безразмерное число . Для сравнения наборов данных с разными единицами измерения или совершенно разными средними значениями следует использовать коэффициент вариации вместо стандартного отклонения.
Коэффициент вариации также часто используется в прикладных областях вероятности, таких как теория возобновления , теория массового обслуживания и теория надежности . В этих областях экспоненциальное распределение часто более важно, чем нормальное распределение . Стандартное отклонение экспоненциального распределения равно его среднему значению, поэтому его коэффициент вариации равен 1. Распределения с CV <1 (например, распределение Эрланга ) считаются малодисперсионными, а распределения с CV > 1 (например, гиперэкспоненциальное распределение ) считаются высокодисперсными . _ Некоторые формулы в этих полях выражаются с использованием квадрата коэффициента вариации , часто сокращенно SCV. В моделировании вариацией CV является CV (RMSD). По сути, CV(RMSD) заменяет термин стандартного отклонения среднеквадратическим отклонением (RMSD) . Хотя многие естественные процессы действительно демонстрируют корреляцию между средним значением и величиной изменений вокруг него, точные сенсорные устройства должны быть спроектированы таким образом, чтобы коэффициент вариации был близок к нулю , т.е. рабочий диапазон.
В актуарной науке CV известен как унифицированный риск . [13]
В промышленной переработке твердых веществ CV особенно важен для измерения степени однородности порошковой смеси. Сравнение рассчитанного CV со спецификацией позволит определить, достигнута ли достаточная степень смешивания. [14]
В гидродинамике CV , также называемый процентом RMS , %RMS , %RMS однородности или среднеквадратичной скоростью , является полезным определением однородности потока для промышленных процессов. Этот термин широко используется при проектировании оборудования для контроля загрязнения, такого как электростатические фильтры (ESP), [15] системы селективного каталитического восстановления (SCR), скрубберы и подобные устройства. Институт компаний чистого воздуха (ICAC) ссылается на среднеквадратичное отклонение скорости при проектировании тканевых фильтров (документ ICAC F-7). [16] Основной принцип заключается в том, что многие из этих устройств контроля загрязнения требуют «равномерного потока», входящего в зону контроля и проходящего через нее. Это может быть связано с однородностью профиля скорости, распределением температуры, составом газа (например, аммиаком для СКВ или впрыском активированного угля для поглощения ртути) и другими параметрами, связанными с потоком. Процент RMS также используется для оценки однородности потока в системах сгорания, системах отопления, вентиляции и кондиционирования, воздуховодах, входных отверстиях вентиляторов и фильтров, вентиляционных установках и т. д., где на производительность оборудования влияет распределение входящего потока.
Показатели CV часто используются в качестве контроля качества количественных лабораторных анализов . Хотя можно предположить, что CV внутри и между анализами рассчитывается путем простого усреднения значений CV по значениям CV для нескольких образцов в рамках одного анализа или путем усреднения нескольких оценок CV между анализами, было высказано предположение, что такая практика неверна и что требуется более сложный вычислительный процесс. [17] Также было отмечено, что значения CV не являются идеальным показателем достоверности измерения, когда количество повторов варьируется в зависимости от выборки - в этом случае стандартная ошибка в процентах считается более предпочтительной. [18] Если измерения не имеют естественной нулевой точки, то CV не является действительным измерением, и рекомендуются альтернативные меры, такие как коэффициент внутриклассовой корреляции . [19]
Коэффициент вариации отвечает требованиям меры экономического неравенства . [20] [21] [22] Если x (с записями x i ) представляет собой список значений экономического показателя (например, богатства), где x i представляет собой богатство агента i , то выполняются следующие требования:
c v принимает минимальное значение, равное нулю, для полного равенства (все x i равны). [22] Его наиболее заметным недостатком является то, что он не ограничен сверху, поэтому его нельзя нормализовать так, чтобы он находился в пределах фиксированного диапазона (например, как коэффициент Джини , который ограничен диапазоном от 0 до 1). [22] Однако он более математически понятен, чем коэффициент Джини.
Археологи часто используют значения CV для сравнения степени стандартизации древних артефактов. [23] [24] Различия в CV были интерпретированы как указывающие на различные культурные контексты передачи новых технологий. [25] Коэффициенты вариации также использовались для исследования стандартизации керамики, связанной с изменениями в социальной организации. [26] Археологи также используют несколько методов для сравнения значений CV, например, модифицированный тест отношения знакового правдоподобия (MSLR) для равенства CV. [27] [28]
Сравнение коэффициентов вариации параметров с использованием относительных единиц может привести к различиям, которые могут быть нереальными. Если мы сравним один и тот же набор температур в градусах Цельсия и Фаренгейта (обе относительные единицы, где шкалы Кельвина и Ренкина являются соответствующими абсолютными значениями):
Цельсия: [0, 10, 20, 30, 40]
Фаренгейт: [32, 50, 68, 86, 104]
Стандартные отклонения выборки составляют 15,81 и 28,46 соответственно. CV первого набора составляет 15,81/20 = 79%. Для второго набора (с теми же температурами) это 28,46/68 = 42%.
Если, например, наборы данных представляют собой показания температуры двух разных датчиков (датчика Цельсия и датчика Фаренгейта), и вы хотите узнать, какой датчик лучше, выбрав тот, у которого наименьшая дисперсия, то вы будете введены в заблуждение, если будете использовать РЕЗЮМЕ. Проблема здесь в том, что вы разделили относительное значение, а не абсолютное.
Сравнение того же набора данных, теперь в абсолютных единицах:
Кельвин: [273,15, 283,15, 293,15, 303,15, 313,15]
Рэнкин: [491,67, 509,67, 527,67, 545,67, 563,67]
Стандартные отклонения выборки по -прежнему составляют 15,81 и 28,46 соответственно, поскольку на стандартное отклонение не влияет постоянное смещение. Однако коэффициенты вариации теперь оба равны 5,39%.
С математической точки зрения коэффициент вариации не является полностью линейным. То есть для случайной величины коэффициент вариации равен коэффициенту вариации только при . В приведенном выше примере градусы Цельсия можно преобразовать в градусы Фаренгейта только посредством линейного преобразования формы с помощью , тогда как Кельвины можно преобразовать в единицы Рэнкина посредством преобразования формы .
При условии, что отрицательные и небольшие положительные значения выборочного среднего встречаются с пренебрежимо малой частотой, Хендрикс и Роби показали, что распределение вероятностей коэффициента вариации для выборки размером iid с нормальными случайными величинами будет [29]
где символ указывает, что суммирование производится только по четным значениям , т. е., если нечетно, суммировать по четным значениям , а если четно, суммировать только по нечетным значениям .
Это полезно, например, при построении тестов гипотез или доверительных интервалов . Статистический вывод для коэффициента вариации нормально распределенных данных часто основан на аппроксимации хи-квадрат Маккея для коэффициента вариации. [30] [31] [32] [33] [34] [35] Методы
Лю (2012) рассматривает методы построения доверительного интервала для коэффициента вариации. [36] Примечательно, что Леманн (1986) получил выборочное распределение для коэффициента вариации, используя нецентральное t-распределение , чтобы дать точный метод построения CI. [37]
Стандартизированные моменты — это аналогичные отношения, где — k- й момент относительно среднего значения, которые также безразмерны и масштабно-инвариантны. Отношение дисперсии к среднему — еще одно подобное соотношение , но оно не безразмерное и, следовательно, не масштабно-инвариантное. Дополнительные соотношения см. в разделе «Нормализация (статистика)» .
При обработке сигналов , в частности при обработке изображений , обратное отношение (или его квадрат) называется отношением сигнал/шум в целом и отношением сигнал/шум (изображение) в частности.
Другие соответствующие коэффициенты включают в себя: