Надежные показатели масштаба

В статистике надежные меры масштаба — это методы, которые количественно определяют статистическую дисперсию в выборке числовых данных , при этом противостоя выбросам . Наиболее распространенными такими надежными статистиками являются межквартильный размах (IQR) и медианное абсолютное отклонение (MAD). Они противопоставляются обычным или ненадежным мерам масштаба, таким как стандартное отклонение выборки , на которые сильно влияют выбросы.

Эти надежные статистики в частности используются в качестве оценщиков параметра масштаба и обладают преимуществами как надежности, так и превосходной эффективности на загрязненных данных за счет более низкой эффективности на чистых данных из распределений, таких как нормальное распределение. Чтобы проиллюстрировать надежность, стандартное отклонение может быть сделано произвольно большим путем увеличения ровно одного наблюдения (у него точка разбивки 0, поскольку оно может быть загрязнено одной точкой), дефект, который не свойствен надежным статистикам.

IQR и MAD

Одной из наиболее распространенных надежных мер масштаба является межквартильный размах (IQR), разница между 75-м процентилем и 25-м процентилем выборки; это 25% усеченный размах , пример L-оценки . Также могут использоваться другие усеченные размахи, такие как междецильный размах (10% усеченный размах). Для гауссовского распределения IQR связан с как: ^[1] $\сигма$

\sigma \approx 0,7413\operatorname {IQR} =\operatorname {IQR} /1,349

Другой известной надежной мерой масштаба является медианное абсолютное отклонение (MAD), медиана абсолютных значений разностей между значениями данных и общей медианой набора данных; для гауссовского распределения MAD соотносится как: $\сигма$

\sigma \approx 1.4826\operatorname {MAD} \approx \operatorname {MAD} /0.6745

Подробную информацию см. в разделе Медианное абсолютное отклонение#Отношение к стандартному отклонению .

Оценка

Надежные меры масштаба могут использоваться в качестве оценщиков свойств совокупности, либо для оценки параметров , либо в качестве оценщиков их собственного ожидаемого значения .

Например, надежные оценки масштаба используются для оценки стандартного отклонения популяции , как правило, путем умножения на масштабный коэффициент , чтобы сделать его несмещенной последовательной оценкой ; см. параметр масштаба: оценка . Например, деление IQR на 2 √ 2 erf ⁻¹ (1/2) (приблизительно 1,349) делает его несмещенной, последовательной оценкой для стандартного отклонения популяции, если данные следуют нормальному распределению .

В других ситуациях разумнее думать о надежной мере масштаба как об оценке ее собственного ожидаемого значения , интерпретируемой как альтернатива стандартному отклонению популяции как мере масштаба. Например, среднее абсолютное отклонение выборки из стандартного распределения Коши является оценкой среднего абсолютного отклонения популяции, которое в этом случае равно 1, тогда как дисперсия популяции не существует.

Эффективность

Эти надежные оценщики обычно имеют более низкую статистическую эффективность по сравнению с обычными оценщиками для данных, полученных из распределения без выбросов (например, нормального распределения), но имеют более высокую эффективность для данных, полученных из смешанного распределения или распределения с тяжелыми хвостами , для которых не следует использовать ненадежные меры, такие как стандартное отклонение.

Например, для данных, полученных из нормального распределения, MAD на 37% эффективнее выборочного стандартного отклонения, тогда как оценка Руссеу–Кру Q _n на 88% эффективнее выборочного стандартного отклонения.

Абсолютные попарные разности

Руссо и Кру ^[2] предлагают альтернативы MAD, мотивируя это двумя его недостатками:

Он неэффективен (эффективность 37%) при гауссовых распределениях .
он вычисляет симметричную статистику относительно оценки местоположения, таким образом не имея дела с асимметрией .

Они предлагают две альтернативные статистики, основанные на попарных различиях: S _n и Q _n , определяемые как:

{\begin{aligned}S_{n}&:=1.1926\,\operatorname {med} _{i}\left(\operatorname {med} _{j}(\,\left|x_{i}-x_{j}\right|\,)\right),\\Q_{n}&:=c_{n}{\text{первый квартиль}}\left(\left|x_{i}-x_{j}\right|:i<j\right),\end{aligned}}

где — константа, зависящая от . $c_{n}$ $n$

Их можно вычислить за O ( n log n ) времени и O ( n ) пространства.

Ни один из них не требует оценки местоположения , поскольку они основаны только на различиях между значениями. Они оба более эффективны, чем MAD при гауссовском распределении: S _n эффективен на 58%, а Q _n эффективен на 82%.

Для выборки из нормального распределения S _n приблизительно несмещено относительно стандартного отклонения популяции даже при очень скромных размерах выборки (смещение <1% для n = 10).

Для большой выборки из нормального распределения 2,22 Q _n приблизительно несмещено для стандартного отклонения популяции. Для небольших или умеренных выборок ожидаемое значение Q _{n при нормальном распределении существенно зависит от размера выборки, поэтому для калибровки шкалы}Q _n используются поправочные коэффициенты для конечной выборки (полученные из таблицы или из моделирования) .

Двухвесовая средняя дисперсия

Подобно S _n и Q _n , двухвесовая средняя дисперсия стремится быть надежной, не жертвуя при этом слишком большой эффективностью. Она определяется как

{\frac {n\sum _{i=1}^{n}(x_{i}-Q)^{2}(1-u_{i}^{2})^{4}I(|u_{i}|<1)}{\left(\sum _{i}(1-u_{i}^{2})(1-5u_{i}^{2})I(|u_{i}|<1)\right)^{2}}},

где I — индикаторная функция , Q — выборочная медиана X _i , а

u_{i}={\frac {x_{i}-Q}{9\cdot {\rm {MAD}}}}.

Его квадратный корень является надежным оценщиком масштаба, поскольку вес точек данных уменьшается по мере увеличения их расстояния от медианы, при этом точки, находящиеся дальше 9 единиц MAD от медианы, не оказывают никакого влияния вообще.

Расширения

Mizera & Müller (2004) предлагают надежную оценку на основе глубины для местоположения и масштаба одновременно. Они предлагают новую меру, названную медианой Стьюдента. ^[3]

Доверительные интервалы

Надежный доверительный интервал — это надежная модификация доверительных интервалов , то есть ненадежные расчеты доверительного интервала модифицируются таким образом, чтобы на них не оказывали сильного влияния выпадающие или аберрантные наблюдения в наборе данных.

Пример

В процессе взвешивания 1000 объектов в практических условиях легко поверить, что оператор может ошибиться в процедуре и сообщить неверную массу (тем самым сделав один тип систематической ошибки ). Предположим, что было 100 объектов, и оператор взвесил их все, по одному, и повторил весь процесс десять раз. Затем оператор может вычислить выборочное стандартное отклонение для каждого объекта и найти выбросы . Любой объект с необычно большим стандартным отклонением, вероятно, имеет выброс в своих данных. Их можно удалить различными непараметрическими методами. Если оператор повторил процесс только три раза, просто взяв медиану трех измерений и используя σ, можно было бы получить доверительный интервал. 200 дополнительных взвешиваний служили только для обнаружения и исправления ошибки оператора и не сделали ничего для улучшения доверительного интервала. При большем количестве повторений можно было бы использовать усеченное среднее , отбрасывая самые большие и самые маленькие значения и усредняя остальные. Расчет методом бутстрепа можно использовать для определения более узкого доверительного интервала, чем рассчитанный на основе σ, и, таким образом, получить некоторую выгоду от большого объема дополнительной работы.

Эти процедуры устойчивы к процедурным ошибкам, которые не моделируются предположением, что весы имеют фиксированное известное стандартное отклонение σ. В практических приложениях, где может произойти случайная ошибка оператора или весы могут выйти из строя, предположения, лежащие в основе простых статистических вычислений, не могут быть приняты как должное. Прежде чем доверять результатам 100 объектов, взвешенных всего по три раза каждый, чтобы иметь доверительные интервалы, рассчитанные из σ, необходимо проверить и удалить разумное количество выбросов (проверив предположение, что оператор осторожен, и исправив тот факт, что он не идеален), и проверить предположение, что данные действительно имеют нормальное распределение со стандартным отклонением σ.

Компьютерное моделирование

Теоретический анализ такого эксперимента сложен, но легко создать электронную таблицу , которая извлекает случайные числа из нормального распределения со стандартным отклонением σ для моделирования ситуации; это можно сделать в Microsoft Excel с помощью =NORMINV(RAND(),0,σ)), как обсуждалось в ^[4] , и те же методы можно использовать в других программах для работы с электронными таблицами, таких как OpenOffice.org Calc и gnumeric .

После удаления очевидных выбросов можно вычесть медиану из двух других значений для каждого объекта и изучить распределение 200 полученных чисел. Оно должно быть нормальным со средним значением около нуля и стандартным отклонением немного больше σ. Простой расчет электронной таблицы Монте-Карло покажет типичные значения для стандартного отклонения (около 105–115% от σ). Или можно вычесть среднее значение каждого триплета из значений и изучить распределение 300 значений. Среднее значение тождественно равно нулю, но стандартное отклонение должно быть несколько меньше (около 75–85% от σ).

Смотрите также

Ссылки

^ "Межквартильный размах". NIST . Получено 2022-03-30 .
^ Rousseeuw, Peter J. ; Croux, Christophe (декабрь 1993 г.), «Альтернативы медианному абсолютному отклонению», Журнал Американской статистической ассоциации , 88 (424), Американская статистическая ассоциация: 1273–1283, doi : 10.2307/2291267, JSTOR 2291267
^ Мизера, И.; Мюллер, CH (2004), «Глубина шкалы местоположения», Журнал Американской статистической ассоциации , 99 (468): 949–966, doi : 10.1198/016214504000001312.
^ Wittwer, JW, «Моделирование Монте-Карло в Excel: практическое руководство», 1 июня 2004 г.