stringtranslate.com

Коэффициент вариации

В теории вероятностей и статистике коэффициент вариации ( CV ), также известный как нормализованное среднеквадратичное отклонение (NRMSD) , процент RMS и относительное стандартное отклонение ( RSD ), является стандартизированной мерой дисперсии распределения вероятностей или Распределение частоты . Оно определяется как отношение стандартного отклонения к среднему значению (или его абсолютному значению , ) и часто выражается в процентах («%RSD»). CV или RSD широко используется в аналитической химии для выражения точности и повторяемости анализа . Он также широко используется в таких областях, как инженерное дело или физика , при проведении исследований по обеспечению качества и оценке R&R ANOVA , [ нужна ссылка ] экономистами и инвесторами в экономические модели , а также в психологии / неврологии .

Определение

Коэффициент вариации (CV) определяется как отношение стандартного отклонения к среднему значению , [1]

Он показывает степень изменчивости по отношению к среднему значению популяции. Коэффициент вариации следует рассчитывать только для данных, измеренных по шкалам, которые имеют значимый ноль ( шкала отношений ) и, следовательно, позволяют относительное сравнение двух измерений (т. е. деление одного измерения на другое). Коэффициент вариации может не иметь никакого значения для данных в интервальной шкале . [2] Например, большинство температурных шкал (например, Цельсия, Фаренгейта и т. д.) являются интервальными шкалами с произвольными нулями, поэтому вычисленный коэффициент вариации будет различным в зависимости от используемой шкалы. С другой стороны, температура Кельвина имеет значимый ноль, полное отсутствие тепловой энергии и, таким образом, представляет собой шкалу отношений. Говоря простым языком, имеет смысл сказать, что 20 Кельвинов в два раза горячее, чем 10 Кельвинов, но только в этой шкале с истинным абсолютным нулем. Хотя стандартное отклонение (SD) можно измерить в Кельвинах, Цельсиях или Фаренгейтах, вычисленное значение применимо только к этой шкале. Для расчета достоверного коэффициента изменчивости можно использовать только шкалу Кельвина.

Измерения с логнормальным распределением демонстрируют стационарный CV; напротив, стандартное отклонение варьируется в зависимости от ожидаемого значения измерений.

Более надежным вариантом является квартильный коэффициент дисперсии , равный половине межквартильного диапазона , разделенной на среднее значение квартилей (средний шарнир ), .

В большинстве случаев CV рассчитывается для одной независимой переменной (например, одного фабричного продукта) с многочисленными повторяющимися измерениями зависимой переменной (например, ошибки в производственном процессе). Однако данные, которые являются линейными или даже логарифмически нелинейными и включают непрерывный диапазон для независимой переменной с редкими измерениями для каждого значения (например, диаграмма рассеяния), могут быть пригодны для расчета одиночного CV с использованием подхода оценки максимального правдоподобия . [3]

Примеры

В приведенных ниже примерах мы возьмем заданные значения как случайно выбранные из большей совокупности значений .

В этих примерах мы возьмем заданные значения как всю совокупность значений .

Оценка

Когда доступна только выборка данных из совокупности, CV совокупности можно оценить, используя отношение стандартного отклонения выборки к выборочному среднему :

Но эта оценка, когда она применяется к выборке небольшого или среднего размера, имеет тенденцию быть слишком низкой: это смещенная оценка . Для нормально распределенных данных несмещенная оценка [4] для выборки размера n:

Логнормальные данные

Многие наборы данных имеют примерно логарифмически нормальное распределение. [5] В таких случаях более точная оценка, полученная из свойств логарифмически нормального распределения , [6] [7] [8] определяется как:

где — выборочное стандартное отклонение данных после естественного логарифмического преобразования. (В случае, если измерения записываются с использованием любой другой логарифмической основы b, их стандартное отклонение преобразуется в базу e с помощью , а формула для остается той же. [9] ) Эту оценку иногда называют «геометрическим CV». (GCV) [10] [11] , чтобы отличить ее от простой оценки, приведенной выше. Однако «геометрический коэффициент вариации» также был определен Кирквудом [12] как:

Этот термин был задуман как аналог коэффициента вариации для описания мультипликативной вариации логарифмически нормальных данных, но это определение GCV не имеет теоретической основы для оценки самого себя .

Для многих практических целей (таких как определение размера выборки и расчет доверительных интервалов ) именно он наиболее полезен в контексте логарифмически нормально распределенных данных. При необходимости это можно получить из оценки или GCV путем обращения соответствующей формулы.

Сравнение со стандартным отклонением

Преимущества

Коэффициент вариации полезен, потому что стандартное отклонение данных всегда следует понимать в контексте среднего значения данных. Напротив, фактическое значение CV не зависит от единицы измерения, в которой было произведено измерение, поэтому это безразмерное число . Для сравнения наборов данных с разными единицами измерения или совершенно разными средними значениями следует использовать коэффициент вариации вместо стандартного отклонения.

Недостатки

Приложения

Коэффициент вариации также часто используется в прикладных областях вероятности, таких как теория возобновления , теория массового обслуживания и теория надежности . В этих областях экспоненциальное распределение часто более важно, чем нормальное распределение . Стандартное отклонение экспоненциального распределения равно его среднему значению, поэтому его коэффициент вариации равен 1. Распределения с CV <1 (например, распределение Эрланга ) считаются малодисперсионными, а распределения с CV > 1 (например, гиперэкспоненциальное распределение ) считаются высокодисперсными . _ Некоторые формулы в этих полях выражаются с использованием квадрата коэффициента вариации , часто сокращенно SCV. В моделировании вариацией CV является CV (RMSD). По сути, CV(RMSD) заменяет термин стандартного отклонения среднеквадратическим отклонением (RMSD) . Хотя многие естественные процессы действительно демонстрируют корреляцию между средним значением и величиной изменений вокруг него, точные сенсорные устройства должны быть спроектированы таким образом, чтобы коэффициент вариации был близок к нулю , т.е. рабочий диапазон.

В актуарной науке CV известен как унифицированный риск . [13]

В промышленной переработке твердых веществ CV особенно важен для измерения степени однородности порошковой смеси. Сравнение рассчитанного CV со спецификацией позволит определить, достигнута ли достаточная степень смешивания. [14]

В гидродинамике CV , также называемый процентом RMS , %RMS , %RMS однородности или среднеквадратичной скоростью , является полезным определением однородности потока для промышленных процессов. Этот термин широко используется при проектировании оборудования для контроля загрязнения, такого как электростатические фильтры (ESP), [15] системы селективного каталитического восстановления (SCR), скрубберы и подобные устройства. Институт компаний чистого воздуха (ICAC) ссылается на среднеквадратичное отклонение скорости при проектировании тканевых фильтров (документ ICAC F-7). [16] Основной принцип заключается в том, что многие из этих устройств контроля загрязнения требуют «равномерного потока», входящего в зону контроля и проходящего через нее. Это может быть связано с однородностью профиля скорости, распределением температуры, составом газа (например, аммиаком для СКВ или впрыском активированного угля для поглощения ртути) и другими параметрами, связанными с потоком. Процент RMS также используется для оценки однородности потока в системах сгорания, системах отопления, вентиляции и кондиционирования, воздуховодах, входных отверстиях вентиляторов и фильтров, вентиляционных установках и т. д., где на производительность оборудования влияет распределение входящего потока.

Лабораторные измерения внутри- и межанализа CV

Показатели CV часто используются в качестве контроля качества количественных лабораторных анализов . Хотя можно предположить, что CV внутри и между анализами рассчитывается путем простого усреднения значений CV по значениям CV для нескольких образцов в рамках одного анализа или путем усреднения нескольких оценок CV между анализами, было высказано предположение, что такая практика неверна и что требуется более сложный вычислительный процесс. [17] Также было отмечено, что значения CV не являются идеальным показателем достоверности измерения, когда количество повторов варьируется в зависимости от выборки - в этом случае стандартная ошибка в процентах считается более предпочтительной. [18] Если измерения не имеют естественной нулевой точки, то CV не является действительным измерением, и рекомендуются альтернативные меры, такие как коэффициент внутриклассовой корреляции . [19]

Как мера экономического неравенства

Коэффициент вариации отвечает требованиям меры экономического неравенства . [20] [21] [22] Если x (с записями x i ) представляет собой список значений экономического показателя (например, богатства), где x i представляет собой богатство агента i , то выполняются следующие требования:

c v принимает минимальное значение, равное нулю, для полного равенства (все x i равны). [22] Его наиболее заметным недостатком является то, что он не ограничен сверху, поэтому его нельзя нормализовать так, чтобы он находился в пределах фиксированного диапазона (например, как коэффициент Джини , который ограничен диапазоном от 0 до 1). [22] Однако он более математически понятен, чем коэффициент Джини.

Как мера стандартизации археологических артефактов

Археологи часто используют значения CV для сравнения степени стандартизации древних артефактов. [23] [24] Различия в CV были интерпретированы как указывающие на различные культурные контексты передачи новых технологий. [25] Коэффициенты вариации также использовались для исследования стандартизации керамики, связанной с изменениями в социальной организации. [26] Археологи также используют несколько методов для сравнения значений CV, например, модифицированный тест отношения знакового правдоподобия (MSLR) для равенства CV. [27] [28]

Примеры неправильного использования

Сравнение коэффициентов вариации параметров с использованием относительных единиц может привести к различиям, которые могут быть нереальными. Если мы сравним один и тот же набор температур в градусах Цельсия и Фаренгейта (обе относительные единицы, где шкалы Кельвина и Ренкина являются соответствующими абсолютными значениями):

Цельсия: [0, 10, 20, 30, 40]

Фаренгейт: [32, 50, 68, 86, 104]

Стандартные отклонения выборки составляют 15,81 и 28,46 соответственно. CV первого набора составляет 15,81/20 = 79%. Для второго набора (с теми же температурами) это 28,46/68 = 42%.

Если, например, наборы данных представляют собой показания температуры двух разных датчиков (датчика Цельсия и датчика Фаренгейта), и вы хотите узнать, какой датчик лучше, выбрав тот, у которого наименьшая дисперсия, то вы будете введены в заблуждение, если будете использовать РЕЗЮМЕ. Проблема здесь в том, что вы разделили относительное значение, а не абсолютное.

Сравнение того же набора данных, теперь в абсолютных единицах:

Кельвин: [273,15, 283,15, 293,15, 303,15, 313,15]

Рэнкин: [491,67, 509,67, 527,67, 545,67, 563,67]

Стандартные отклонения выборки по -прежнему составляют 15,81 и 28,46 соответственно, поскольку на стандартное отклонение не влияет постоянное смещение. Однако коэффициенты вариации теперь оба равны 5,39%.

С математической точки зрения коэффициент вариации не является полностью линейным. То есть для случайной величины коэффициент вариации равен коэффициенту вариации только при . В приведенном выше примере градусы Цельсия можно преобразовать в градусы Фаренгейта только посредством линейного преобразования формы с помощью , тогда как Кельвины можно преобразовать в единицы Рэнкина посредством преобразования формы .

Распределение

При условии, что отрицательные и небольшие положительные значения выборочного среднего встречаются с пренебрежимо малой частотой, Хендрикс и Роби показали, что распределение вероятностей коэффициента вариации для выборки размером iid с нормальными случайными величинами будет [29]

где символ указывает, что суммирование производится только по четным значениям , т. е., если нечетно, суммировать по четным значениям , а если четно, суммировать только по нечетным значениям .

Это полезно, например, при построении тестов гипотез или доверительных интервалов . Статистический вывод для коэффициента вариации нормально распределенных данных часто основан на аппроксимации хи-квадрат Маккея для коэффициента вариации. [30] [31] [32] [33] [34] [35] Методы

Альтернатива

Лю (2012) рассматривает методы построения доверительного интервала для коэффициента вариации. [36] Примечательно, что Леманн (1986) получил выборочное распределение для коэффициента вариации, используя нецентральное t-распределение , чтобы дать точный метод построения CI. [37]

Подобные соотношения

Стандартизированные моменты — это аналогичные отношения, где — k- й момент относительно среднего значения, которые также безразмерны и масштабно-инвариантны. Отношение дисперсии к среднему — еще одно подобное соотношение , но оно не безразмерное и, следовательно, не масштабно-инвариантное. Дополнительные соотношения см. в разделе «Нормализация (статистика)» .

При обработке сигналов , в частности при обработке изображений , обратное отношение (или его квадрат) называется отношением сигнал/шум в целом и отношением сигнал/шум (изображение) в частности.

Другие соответствующие коэффициенты включают в себя:

Смотрите также

Рекомендации

  1. ^ Эверитт, Брайан (1998). Кембриджский статистический словарь . Кембридж, Великобритания, Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0521593465.
  2. ^ «В чем разница между порядковыми, интервальными и пропорциональными переменными? Почему меня это должно волновать?». GraphPad Software Inc. Архивировано из оригинала 15 декабря 2008 года . Проверено 22 февраля 2008 г.
  3. ^ Одич, Дарко; Я, Хи Ён; Эйзингер, Роберт; Ли, Райан; Халберда, Джастин (июнь 2016 г.). «PsiMLE: подход к оценке максимального правдоподобия для более надежной, эффективной и гибкой оценки психофизического масштабирования и изменчивости». Методы исследования поведения . 48 (2): 445–462. дои : 10.3758/s13428-015-0600-5 . ISSN  1554-3528. ПМИД  25987306.
  4. ^ Сокаль Р.Р. и Рольф Ф.Дж. Биометрия (3-е изд.). Нью-Йорк: Фриман, 1995. с. 58. ISBN 0-7167-2411-1 . 
  5. ^ Лимперт, Экхард; Стахель, Вернер А.; Эббт, Маркус (2001). «Логнормальное распределение в науках: ключи и подсказки». Бионаука . 51 (5): 341–352. doi : 10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2 .
  6. ^ Купманс, Л.Х.; Оуэн, Д.Б.; Розенблатт, JI (1964). «Доверительные интервалы для коэффициента вариации нормального и логнормального распределений». Биометрика . 51 (1–2): 25–32. дои : 10.1093/biomet/51.1-2.25.
  7. ^ Дилетти, Э; Хаушке, Д; Стейнянс, VW (1992). «Определение размера выборки для оценки биоэквивалентности с помощью доверительных интервалов». Международный журнал клинической фармакологии, терапии и токсикологии . 30 (Приложение 1): S51–8. ПМИД  1601532.
  8. ^ Джулиус, Стивен А.; Дебарно, Камилла А.М. (2000). «Почему фармакокинетические данные суммируются средними арифметическими средствами?». Журнал биофармацевтической статистики . 10 (1): 55–71. дои : 10.1081/BIP-100101013. PMID  10709801. S2CID  2805094.
  9. ^ Рид, Дж. Ф.; Линн, Ф; Мид, Б.Д. (2002). «Использование коэффициента вариации при оценке изменчивости количественных анализов». Клин Диагн Лаборатория Иммунол . 9 (6): 1235–1239. дои : 10.1128/CDLI.9.6.1235-1239.2002. ПМК 130103 . ПМИД  12414755. 
  10. ^ Савант, С.; Мохан, Н. (2011) «Часто задаваемые вопросы: проблемы с анализом эффективности данных клинических испытаний с использованием SAS». Архивировано 24 августа 2011 г. в Wayback Machine , PharmaSUG2011 , документ PO08.
  11. ^ Шифф, Миннесота; и другие. (2014). «Прямое рандомизированное перекрестное исследование перорального и подкожного метотрексата у пациентов с ревматоидным артритом: ограничения воздействия препарата при пероральном метотрексате в дозах > = 15 мг можно преодолеть с помощью подкожного введения». Энн Реум Дис . 73 (8): 1–3. doi : 10.1136/annrheumdis-2014-205228. ПМЦ 4112421 . ПМИД  24728329. 
  12. ^ Кирквуд, TBL (1979). «Геометрические средства и меры дисперсии». Биометрия . 35 (4): 908–9. JSTOR  2530139.
  13. ^ Броверман, Сэмюэл А. (2001). Учебное пособие Actex, Курс 1, Экзамен Общества актуариев, Экзамен 1 Актуарного общества по несчастным случаям (изд. 2001 г.). Уинстед, Коннектикут: Публикации Actex. п. 104. ИСБН 9781566983969. Проверено 7 июня 2014 г.
  14. ^ «Измерение степени смешивания - Однородность порошковой смеси - Качество смеси - PowderProcess.net» . www.powderprocess.net . Архивировано из оригинала 14 ноября 2017 года . Проверено 2 мая 2018 г.
  15. ^ Банка, А; Дюмон, Б; Франклин, Дж; Клемм, Г; Мудрый, Р. (2018). «Улучшенная методология точного CFD и физического моделирования ESP» (PDF) . Конференция Международного общества электростатических осаждений (ISESP) 2018.
  16. ^ «F7 - Исследования модели газового потока тканевого фильтра» (PDF) . Институт компаний чистого воздуха (ICAC). 1996.
  17. ^ Родбард, Д. (октябрь 1974 г.). «Статистический контроль качества и рутинная обработка данных радиоиммуноанализов и иммунорадиометрических исследований». Клиническая химия . 20 (10): 1255–70. дои : 10.1093/клинчем/20.10.1255 . ПМИД  4370388.
  18. ^ Айзенберг, Дэн (2015). «Улучшение анализа длины теломер qPCR: контроль эффектов положения лунки увеличивает статистическую мощность». Американский журнал биологии человека . 27 (4): 570–5. дои : 10.1002/ajhb.22690. ПМЦ 4478151 . ПМИД  25757675. 
  19. Айзенберг, Дэн Т.А. (30 августа 2016 г.). «Достоверность измерения длины теломер: коэффициент вариации недействителен и не может использоваться для сравнения количественной полимеразной цепной реакции и метода измерения длины теломер по Саузерн-блоттингу». Международный журнал эпидемиологии . 45 (4): 1295–1298. дои : 10.1093/ije/dyw191 . ISSN  0300-5771. ПМИД  27581804.
  20. ^ Чамперноун, генеральный директор; Коуэлл, ФА (1999). Экономическое неравенство и распределение доходов . Издательство Кембриджского университета.
  21. ^ Кампано, Ф.; Сальваторе, Д. (2006). Распределение доходов . Издательство Оксфордского университета.
  22. ^ abcde Bellu, Лоренцо Джованни; Либерати, Паоло (2006). «Влияние политики на неравенство – простые меры неравенства» (PDF) . EASYPol, Аналитические инструменты . Служба поддержки политики, Отдел содействия политике, ФАО. Архивировано (PDF) из оригинала 5 августа 2016 года . Проверено 13 июня 2016 г.
  23. ^ Эркенс, Джелмер В.; Беттингер, Роберт Л. (июль 2001 г.). «Методы оценки стандартизации в сборках артефактов: можем ли мы масштабировать изменчивость материалов?». Американская древность . 66 (3): 493–504. дои : 10.2307/2694247. JSTOR  2694247. S2CID  163507589.
  24. ^ Ру, Валентин (2003). «Стандартизация керамики и интенсивность производства: количественная оценка степени специализации». Американская древность . 68 (4): 768–782. дои : 10.2307/3557072. ISSN  0002-7316. JSTOR  3557072. S2CID  147444325.
  25. ^ Беттингер, Роберт Л.; Эркенс, Джелмер (апрель 1999 г.). «Точечные типологии, культурная передача и распространение технологии лука и стрел в доисторическом Большом бассейне». Американская древность . 64 (2): 231–242. дои : 10.2307/2694276. JSTOR  2694276. S2CID  163198451.
  26. ^ Ван, Ли-Ин; Марвик, Бен (октябрь 2020 г.). «Стандартизация формы керамики: пример керамики железного века с северо-востока Тайваня». Журнал археологической науки: отчеты . 33 : 102554. Бибкод : 2020JArSR..33j2554W. дои : 10.1016/j.jasrep.2020.102554. S2CID  224904703.
  27. ^ Кришнамурти, К.; Ли, Мисук (февраль 2014 г.). «Улучшенные тесты на равенство нормальных коэффициентов вариации». Вычислительная статистика . 29 (1–2): 215–232. дои : 10.1007/s00180-013-0445-2. S2CID  120898013.
  28. ^ Марвик, Бен; Кришнамурти, К. (2019). cvequality: тесты на равенство коэффициентов вариации из нескольких групп. Пакет R версии 0.2.0.
  29. ^ Хендрикс, Уолтер А.; Роби, Кейт В. (1936). «Выборочное распределение коэффициента вариации». Анналы математической статистики . 7 (3): 129–32. дои : 10.1214/aoms/1177732503 . JSTOR  2957564.
  30. ^ Иглевич, Борис; Майерс, Раймонд (1970). «Сравнение приближений к процентным пунктам выборочного коэффициента вариации». Технометрика . 12 (1): 166–169. дои : 10.2307/1267363. JSTOR  1267363.
  31. ^ Беннетт, Б.М. (1976). «О приближенном тесте на однородность коэффициентов вариации». Вклад в прикладную статистику . Дополнительный опыт. Том. 22. С. 169–171. дои : 10.1007/978-3-0348-5513-6_16. ISBN 978-3-0348-5515-0.
  32. ^ Вангель, Марк Г. (1996). «Доверительные интервалы для нормального коэффициента вариации». Американский статистик . 50 (1): 21–26. дои : 10.1080/00031305.1996.10473537. JSTOR  2685039..
  33. ^ Фельц, Кэрол Дж; Миллер, Г. Эдвард (1996). «Асимптотический тест на равенство коэффициентов вариации k популяций». Статистика в медицине . 15 (6): 647. doi :10.1002/(SICI)1097-0258(19960330)15:6<647::AID-SIM184>3.0.CO;2-P. ПМИД  8731006.
  34. ^ Форкман, Йоханнес (2009). «Оценщик и тесты для общих коэффициентов вариации нормального распределения» (PDF) . Коммуникации в статистике – теория и методы . 38 (2): 21–26. дои : 10.1080/03610920802187448. S2CID  29168286. Архивировано (PDF) из оригинала 6 декабря 2013 года . Проверено 23 сентября 2013 г.
  35. ^ Кришнамурти, К.; Ли, Мисук (2013). «Улучшенные тесты на равенство нормальных коэффициентов вариации». Вычислительная статистика . 29 (1–2): 215–232. дои : 10.1007/s00180-013-0445-2. S2CID  120898013.
  36. ^ Лю, Шуан (2012). Оценка доверительного интервала для коэффициента вариации (Диссертация). Государственный университет Джорджии. п.3. Архивировано из оригинала 1 марта 2014 года . Проверено 25 февраля 2014 г.
  37. ^ Леманн, EL (1986). Проверка статистической гипотезы. 2-е изд. Нью-Йорк: Уайли.

Внешние ссылки