stringtranslate.com

Коэффициент вариации

В теории вероятностей и статистике коэффициент вариации ( CV ), также известный как нормализованное среднеквадратичное отклонение (NRMSD) , процентное среднеквадратичное отклонение и относительное стандартное отклонение ( RSD ), является стандартизированной мерой дисперсии распределения вероятностей или частотного распределения . Он определяется как отношение стандартного отклонения к среднему значению (или его абсолютному значению , ) и часто выражается в процентах («%RSD»). CV или RSD широко используется в аналитической химии для выражения точности и повторяемости анализа . Он также широко используется в таких областях, как инженерия или физика, при проведении исследований по обеспечению качества и ANOVA gauge R&R , [ требуется ссылка ] экономистами и инвесторами в экономические модели , а также в психологии / нейробиологии .

Определение

Коэффициент вариации (CV) определяется как отношение стандартного отклонения к среднему значению , [1]

Он показывает степень изменчивости по отношению к среднему значению совокупности. Коэффициент вариации следует вычислять только для данных, измеренных по шкалам, которые имеют значимый ноль ( шкала отношений ) и, следовательно, допускают относительное сравнение двух измерений (т. е. деление одного измерения на другое). Коэффициент вариации может не иметь никакого значения для данных по интервальной шкале . [2] Например, большинство температурных шкал (например, Цельсия, Фаренгейта и т. д.) являются интервальными шкалами с произвольными нулями, поэтому вычисленный коэффициент вариации будет отличаться в зависимости от используемой шкалы. С другой стороны, температура Кельвина имеет значимый ноль, полное отсутствие тепловой энергии, и, таким образом, является шкалой отношений. Проще говоря, имеет смысл сказать, что 20 Кельвинов вдвое горячее, чем 10 Кельвинов, но только в этой шкале с истинным абсолютным нулем. Хотя стандартное отклонение (SD) можно измерить в градусах Кельвина, Цельсия или Фаренгейта, вычисленное значение применимо только к этой шкале. Для вычисления достоверного коэффициента изменчивости можно использовать только шкалу Кельвина.

Измерения, распределенные по логарифмически нормальному закону , демонстрируют стационарный CV; в отличие от этого, SD изменяется в зависимости от ожидаемого значения измерений.

Более надежным вариантом является квартиль коэффициента дисперсии , представляющий собой половину межквартильного размаха, деленную на среднее значение квартилей (срединный шарнир ) .

В большинстве случаев CV вычисляется для одной независимой переменной (например, одного фабричного продукта) с многочисленными, повторяющимися измерениями зависимой переменной (например, ошибки в процессе производства). Однако данные, которые являются линейными или даже логарифмически нелинейными и включают непрерывный диапазон для независимой переменной с редкими измерениями по каждому значению (например, диаграмма рассеяния), могут поддаваться вычислению одного CV с использованием подхода оценки максимального правдоподобия . [3]

Примеры

В приведенных ниже примерах мы будем использовать значения, выбранные случайным образом из большей совокупности значений .

В этих примерах мы будем рассматривать приведенные значения как всю совокупность значений .

Оценка

Если доступна только выборка данных из популяции, коэффициент вариации популяции можно оценить с помощью отношения стандартного отклонения выборки к среднему значению выборки :

Но эта оценка, когда применяется к выборке небольшого или среднего размера, имеет тенденцию быть слишком низкой: это смещенная оценка . Для нормально распределенных данных несмещенная оценка [4] для выборки размера n имеет вид:

Логнормальные данные

Многие наборы данных следуют приблизительно логнормальному распределению. [5] В таких случаях более точная оценка, полученная на основе свойств логнормального распределения , [6] [7] [8] определяется как:

где — стандартное отклонение выборки данных после преобразования натурального логарифма . (В случае, если измерения регистрируются с использованием любого другого логарифмического основания b, их стандартное отклонение преобразуется в основание e с использованием , и формула для остается прежней. [9] ) Эту оценку иногда называют «геометрическим CV» (GCV) [10] [11] , чтобы отличить ее от простой оценки выше. Однако «геометрический коэффициент вариации» также был определен Кирквудом [12] как:

Этот термин был задуман как аналог коэффициента вариации для описания мультипликативной вариации в логнормальных данных, но это определение GCV не имеет теоретической основы в качестве оценки самого себя.

Для многих практических целей (таких как определение размера выборки и расчет доверительных интервалов ) это то, что наиболее полезно в контексте логарифмически нормально распределенных данных. При необходимости это можно вывести из оценки или GCV путем инвертирования соответствующей формулы.

Сравнение со стандартным отклонением

Преимущества

Коэффициент вариации полезен, поскольку стандартное отклонение данных всегда должно пониматься в контексте среднего значения данных. Напротив, фактическое значение CV не зависит от единицы, в которой было проведено измерение, поэтому это безразмерное число . Для сравнения наборов данных с разными единицами или сильно различающимися средними значениями следует использовать коэффициент вариации вместо стандартного отклонения.

Недостатки

Приложения

Коэффициент вариации также распространен в прикладных областях вероятностей, таких как теория восстановления , теория массового обслуживания и теория надежности . В этих областях экспоненциальное распределение часто важнее нормального распределения . Среднеквадратичное отклонение экспоненциального распределения равно его среднему значению, поэтому его коэффициент вариации равен 1. Распределения с CV < 1 (например, распределение Эрланга ) считаются низкодисперсными, в то время как распределения с CV > 1 (например, гиперэкспоненциальное распределение ) считаются высокодисперсными [ требуется ссылка ] . Некоторые формулы в этих областях выражаются с использованием квадрата коэффициента вариации , часто сокращенно SCV. В моделировании вариацией CV является CV(RMSD). По сути, CV(RMSD) заменяет термин стандартного отклонения на среднеквадратичное отклонение (RMSD) . Хотя многие естественные процессы действительно демонстрируют корреляцию между средним значением и величиной вариации вокруг него, точные сенсорные устройства должны быть спроектированы таким образом, чтобы коэффициент вариации был близок к нулю, т. е. обеспечивал постоянную абсолютную погрешность во всем рабочем диапазоне.

В актуарной науке CV известен как унифицированный риск . [13]

В промышленной обработке твердых веществ CV особенно важен для измерения степени однородности порошковой смеси. Сравнение рассчитанного CV со спецификацией позволит определить, была ли достигнута достаточная степень смешивания. [14]

В гидродинамике CV , также называемый процентом RMS , %RMS , %RMS однородностью или скоростью RMS , является полезным определением однородности потока для промышленных процессов. Этот термин широко используется при проектировании оборудования для контроля загрязнения, такого как электрофильтры (ESP), [ 15] селективное каталитическое восстановление (SCR), скрубберы и аналогичные устройства. Институт компаний по производству чистого воздуха (ICAC) ссылается на среднеквадратичное отклонение скорости при проектировании тканевых фильтров (документ ICAC F-7). [16] Руководящий принцип заключается в том, что многие из этих устройств контроля загрязнения требуют «равномерного потока», входящего и проходящего через зону контроля. Это может быть связано с однородностью профиля скорости, распределением температуры, видами газа (такими как аммиак для SCR или впрыск активированного угля для поглощения ртути) и другими параметрами, связанными с потоком. Процент среднеквадратичного отклонения также используется для оценки равномерности потока в системах сгорания, системах отопления, вентиляции и кондиционирования воздуха, воздуховодах, входных отверстиях вентиляторов и фильтров, вентиляционных установках и т. д., где на производительность оборудования влияет распределение входящего потока.

Лабораторные измерения внутри- и межанализных коэффициентов вариации

Меры CV часто используются в качестве контроля качества для количественных лабораторных анализов . Хотя можно предположить, что внутрианализные и межанализные CV рассчитываются путем простого усреднения значений CV по значениям CV для нескольких образцов в одном анализе или путем усреднения нескольких оценок межанализного CV, было высказано предположение, что эти методы неверны и что требуется более сложный вычислительный процесс. [17] Также было отмечено, что значения CV не являются идеальным показателем достоверности измерения, когда число повторов варьируется в зависимости от образца — в этом случае предполагается, что стандартная ошибка в процентах будет лучше. [18] Если измерения не имеют естественной нулевой точки, то CV не является допустимым измерением, и рекомендуются альтернативные меры, такие как коэффициент внутриклассовой корреляции . [19]

Как мера экономического неравенства

Коэффициент вариации удовлетворяет требованиям, предъявляемым к мере экономического неравенства . [20] [21] [22] Если x (с записями x i ) представляет собой список значений экономического показателя (например, богатства), где x i является богатством агента i , то выполняются следующие требования:

c v предполагает минимальное значение, равное нулю, для полного равенства (все x i равны). [22] Его наиболее заметным недостатком является то, что он не ограничен сверху, поэтому его нельзя нормализовать, чтобы он находился в фиксированном диапазоне (например, как коэффициент Джини , который ограничен пределами от 0 до 1). [22] Однако он более поддается математическому анализу, чем коэффициент Джини.

В качестве меры стандартизации археологических артефактов

Археологи часто используют значения CV для сравнения степени стандартизации древних артефактов. [23] [24] Изменение CV интерпретировалось как указание на различные культурные контексты передачи для принятия новых технологий. [25] Коэффициенты вариации также использовались для исследования стандартизации керамики, связанной с изменениями в социальной организации. [26] Археологи также используют несколько методов для сравнения значений CV, например, тест модифицированного знакового отношения правдоподобия (MSLR) на равенство CV. [27] [28]

Примеры злоупотребления

Сравнение коэффициентов вариации между параметрами с использованием относительных единиц может привести к различиям, которые могут быть нереальными. Если мы сравним один и тот же набор температур в градусах Цельсия и Фаренгейта (обе относительные единицы, где кельвин и шкала Ранкина являются их связанными абсолютными значениями):

Цельсий: [0, 10, 20, 30, 40]

Фаренгейт: [32, 50, 68, 86, 104]

Стандартные отклонения выборки составляют 15,81 и 28,46 соответственно. CV первого набора составляет 15,81/20 = 79%. Для второго набора (которые представляют собой те же температуры) он составляет 28,46/68 = 42%.

Если, например, наборы данных представляют собой показания температуры с двух разных датчиков (датчик Цельсия и датчик Фаренгейта) и вы хотите узнать, какой датчик лучше, выбрав тот, у которого наименьшая дисперсия, то вы будете введены в заблуждение, если используете CV. Проблема здесь в том, что вы разделили на относительное значение, а не на абсолютное.

Сравниваем тот же набор данных, теперь в абсолютных единицах:

Кельвин: [273,15, 283,15, 293,15, 303,15, 313,15]

Ранкин: [491,67, 509,67, 527,67, 545,67, 563,67]

Стандартные отклонения выборки по-прежнему равны 15,81 и 28,46 соответственно, поскольку стандартное отклонение не зависит от постоянного смещения. Однако коэффициенты вариации теперь оба равны 5,39%.

Математически говоря, коэффициент вариации не является полностью линейным. То есть, для случайной величины коэффициент вариации равен коэффициенту вариации только когда . В приведенном выше примере градусы Цельсия можно преобразовать в градусы Фаренгейта только с помощью линейного преобразования вида с , тогда как градусы Кельвина можно преобразовать в градусы Ранкинса с помощью преобразования вида .

Распределение

При условии, что отрицательные и небольшие положительные значения выборочного среднего встречаются с незначительной частотой, распределение вероятностей коэффициента вариации для выборки размера iid нормальных случайных величин, как показали Хендрикс и Роби, выглядит следующим образом [29]

где символ указывает, что суммирование производится только по четным значениям , т.е. если нечетно, то суммирование производится по четным значениям , а если четно, то суммирование производится только по нечетным значениям .

Это полезно, например, при построении тестов гипотез или доверительных интервалов . Статистический вывод для коэффициента вариации в нормально распределенных данных часто основан на приближении хи-квадрат Маккея для коэффициента вариации. [30] [31] [32] [33] [34] [35] Методы для

Альтернатива

Лю (2012) рассматривает методы построения доверительного интервала для коэффициента вариации. [36] В частности, Леманн (1986) вывел выборочное распределение для коэффициента вариации, используя нецентральное t-распределение, чтобы дать точный метод построения доверительного интервала. [37]

Похожие соотношения

Стандартизированные моменты — это похожие отношения, где — момент k относительно среднего, которые также безразмерны и масштабно инвариантны. Отношение дисперсии к среднему , , — это еще одно похожее отношение, но оно не безразмерно и, следовательно, не масштабно инвариантно. См. Нормализация (статистика) для получения дополнительных отношений.

В обработке сигналов , в частности при обработке изображений , обратное отношение (или его квадрат) называется отношением сигнал/шум вообще и отношением сигнал/шум (визуализации) в частности.

Другие связанные коэффициенты включают:

Смотрите также

Ссылки

  1. ^ Эверитт, Брайан (1998). Кембриджский словарь статистики . Кембридж, Великобритания, Нью-Йорк: Cambridge University Press. ISBN 978-0521593465.
  2. ^ "В чем разница между порядковыми, интервальными и относительными переменными? Почему меня это должно волновать?". GraphPad Software Inc. Архивировано из оригинала 15 декабря 2008 г. Получено 22 февраля 2008 г.
  3. ^ Одич, Дарко; Им, Хи Ён; Айзингер, Роберт; Ли, Райан; Халберда, Джастин (июнь 2016 г.). «PsiMLE: подход к оценке психофизического масштабирования и изменчивости с использованием метода максимального правдоподобия для более надежной, эффективной и гибкой оценки». Методы исследования поведения . 48 (2): 445–462. doi : 10.3758/s13428-015-0600-5 . ISSN  1554-3528. PMID  25987306.
  4. ^ Sokal RR & Rohlf FJ. Биометрия (3-е изд.). Нью-Йорк: Freeman, 1995. стр. 58. ISBN 0-7167-2411-1 
  5. ^ Лимперт, Экхард; Штаэль, Вернер А.; Эббт, Маркус (2001). «Логнормальные распределения в науках: ключи и подсказки». BioScience . 51 (5): 341–352. doi : 10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2 .
  6. ^ Купманс, Л. Х.; Оуэн, Д. Б.; Розенблатт, Дж. И. (1964). «Доверительные интервалы для коэффициента вариации для нормального и логнормального распределений». Biometrika . 51 (1–2): 25–32. doi :10.1093/biomet/51.1-2.25.
  7. ^ Дилетти, Э.; Хаушке, Д.; Стейниджанс, В. В. (1992). «Определение размера выборки для оценки биоэквивалентности с помощью доверительных интервалов». Международный журнал клинической фармакологии, терапии и токсикологии . 30 (Приложение 1): S51–8. PMID  1601532.
  8. ^ Джулиус, Стивен А.; Дебарнот, Камиль AM (2000). «Почему фармакокинетические данные суммируются с помощью средних арифметических?». Журнал биофармацевтической статистики . 10 (1): 55–71. doi :10.1081/BIP-100101013. PMID  10709801. S2CID  2805094.
  9. ^ Рид, Дж. Ф.; Линн, Ф.; Мид, Б. Д. (2002). «Использование коэффициента вариации при оценке изменчивости количественных анализов». Clin Diagn Lab Immunol . 9 (6): 1235–1239. doi : 10.1128 /CDLI.9.6.1235-1239.2002. PMC 130103. PMID  12414755. 
  10. ^ Савант, С.; Мохан, Н. (2011) «Часто задаваемые вопросы: проблемы с анализом эффективности данных клинических испытаний с использованием SAS» Архивировано 24 августа 2011 г. в Wayback Machine , PharmaSUG2011 , статья PO08
  11. ^ Шифф, МХ; и др. (2014). «Сравнительное рандомизированное перекрестное исследование перорального и подкожного метотрексата у пациентов с ревматоидным артритом: ограничения воздействия препарата пероральным метотрексатом в дозах >=15 мг могут быть преодолены при подкожном введении». Ann Rheum Dis . 73 (8): 1–3. doi :10.1136/annrheumdis-2014-205228. PMC 4112421. PMID  24728329 . 
  12. ^ Кирквуд, Т.Б.Л. (1979). «Геометрические средние и меры дисперсии». Биометрия . 35 (4): 908–9. JSTOR  2530139.
  13. ^ Броверман, Сэмюэл А. (2001). Учебное пособие Actex, курс 1, Экзамен Общества актуариев, Экзамен 1 Общества актуариев по страхованию от несчастных случаев (ред. 2001 г.). Уинстед, Коннектикут: Actex Publications. стр. 104. ISBN 9781566983969. Получено 7 июня 2014 г.
  14. ^ "Измерение степени смешивания – Гомогенность порошковой смеси - Качество смеси - PowderProcess.net". www.powderprocess.net . Архивировано из оригинала 14 ноября 2017 г. . Получено 2 мая 2018 г. .
  15. ^ Banka, A; Dumont, B; Franklin, J; Klemm, G; Mudry, R (2018). "Улучшенная методология точного CFD и физического моделирования ESP" (PDF) . Конференция Международного общества электростатических осадков (ISESP) 2018.
  16. ^ "F7 - Исследования модели потока газа через тканевый фильтр" (PDF) . Институт компаний чистого воздуха (ICAC). 1996.
  17. ^ Родбард, Д. (октябрь 1974 г.). «Статистический контроль качества и рутинная обработка данных для радиоиммунных и иммунорадиометрических анализов». Клиническая химия . 20 (10): 1255–70. doi : 10.1093/clinchem/20.10.1255 . PMID  4370388.
  18. ^ Эйзенберг, Дэн (2015). «Улучшение анализа длины теломер методом ПЦР: контроль эффектов положения скважин увеличивает статистическую мощность». Американский журнал биологии человека . 27 (4): 570–5. doi :10.1002/ajhb.22690. PMC 4478151. PMID  25757675 . 
  19. ^ Eisenberg, Dan TA (30 августа 2016 г.). «Достоверность измерения длины теломер: коэффициент вариации недействителен и не может использоваться для сравнения количественной полимеразной цепной реакции и метода измерения длины теломер методом Саузерн-блоттинга». International Journal of Epidemiology . 45 (4): 1295–1298. doi : 10.1093/ije/dyw191 . ISSN  0300-5771. PMID  27581804.
  20. ^ Чамперноун, Д. Г.; Коуэлл, ФА (1999). Экономическое неравенство и распределение доходов . Издательство Кембриджского университета.
  21. ^ Кампано, Ф.; Сальваторе, Д. (2006). Распределение доходов . Oxford University Press.
  22. ^ abcde Bellu, Lorenzo Giovanni; Liberati, Paolo (2006). "Policy Impacts on Inequality – Simple Inequality Measures" (PDF) . EASYPol, Аналитические инструменты . Служба поддержки политики, Отдел содействия политике, ФАО. Архивировано (PDF) из оригинала 5 августа 2016 г. . Получено 13 июня 2016 г. .
  23. ^ Eerkens, Jelmer W.; Bettinger, Robert L. (июль 2001 г.). «Методы оценки стандартизации в собраниях артефактов: можем ли мы масштабировать материальную изменчивость?». American Antiquity . 66 (3): 493–504. doi :10.2307/2694247. JSTOR  2694247. S2CID  163507589.
  24. ^ Ру, Валентайн (2003). «Стандартизация керамики и интенсивность производства: количественная оценка степеней специализации». American Antiquity . 68 (4): 768–782. doi :10.2307/3557072. ISSN  0002-7316. JSTOR  3557072. S2CID  147444325.
  25. ^ Беттингер, Роберт Л.; Эркенс, Джелмер (апрель 1999 г.). «Типологии наконечников, культурная передача и распространение технологии лука и стрел в доисторическом Большом Бассейне». American Antiquity . 64 (2): 231–242. doi :10.2307/2694276. JSTOR  2694276. S2CID  163198451.
  26. ^ Ван, Ли-Ин; Марвик, Бен (октябрь 2020 г.). «Стандартизация керамической формы: исследование керамики железного века с северо-востока Тайваня». Журнал археологической науки: Отчеты . 33 : 102554. Bibcode : 2020JArSR..33j2554W. doi : 10.1016/j.jasrep.2020.102554. S2CID  224904703.
  27. ^ Кришнамурти, К.; Ли, Мисук (февраль 2014 г.). «Улучшенные тесты на равенство нормальных коэффициентов вариации». Computational Statistics . 29 (1–2): 215–232. doi :10.1007/s00180-013-0445-2. S2CID  120898013.
  28. ^ Марвик, Бен; Кришнамурти, К (2019). cvequality: Тесты на равенство коэффициентов вариации из нескольких групп. Версия пакета R 0.2.0.
  29. ^ Хендрикс, Уолтер А.; Роби, Кейт В. (1936). «Выборочное распределение коэффициента вариации». Анналы математической статистики . 7 (3): 129–32. doi : 10.1214/aoms/1177732503 . JSTOR  2957564.
  30. ^ Иглевич, Борис; Майерс, Рэймонд (1970). «Сравнение приближений к процентным точкам выборочного коэффициента вариации». Technometrics . 12 (1): 166–169. doi :10.2307/1267363. JSTOR  1267363.
  31. ^ Беннетт, Б. М. (1976). «О приближенном тесте на однородность коэффициентов вариации». Вклад в прикладную статистику . Experientia Supplementum. Том 22. С. 169–171. doi :10.1007/978-3-0348-5513-6_16. ISBN 978-3-0348-5515-0.
  32. ^ Вангель, Марк Г. (1996). «Доверительные интервалы для нормального коэффициента вариации». Американский статистик . 50 (1): 21–26. doi :10.1080/00031305.1996.10473537. JSTOR  2685039..
  33. ^ Фелтц, Кэрол Дж.; Миллер, Г. Эдвард (1996). "Асимптотический тест на равенство коэффициентов вариации из k популяций". Статистика в медицине . 15 (6): 647. doi :10.1002/(SICI)1097-0258(19960330)15:6<647::AID-SIM184>3.0.CO;2-P. PMID  8731006.
  34. ^ Форкман, Йоханнес (2009). "Оценка и тесты для общих коэффициентов вариации в нормальных распределениях" (PDF) . Communications in Statistics – Theory and Methods . 38 (2): 21–26. doi :10.1080/03610920802187448. S2CID  29168286. Архивировано (PDF) из оригинала 6 декабря 2013 г. . Получено 23 сентября 2013 г. .
  35. ^ Кришнамурти, К; Ли, Мисук (2013). «Улучшенные тесты на равенство нормальных коэффициентов вариации». Computational Statistics . 29 (1–2): 215–232. doi :10.1007/s00180-013-0445-2. S2CID  120898013.
  36. ^ Лю, Шуан (2012). Оценка доверительного интервала для коэффициента вариации (диссертация). Университет штата Джорджия. стр. 3. Архивировано из оригинала 1 марта 2014 года . Получено 25 февраля 2014 года .
  37. ^ Леманн, Э. Л. (1986). Проверка статистических гипотез. 2-е изд. Нью-Йорк: Wiley.

Внешние ссылки