В статистике надежные меры масштаба — это методы, которые количественно определяют статистическую дисперсию в выборке числовых данных , при этом противостоя выбросам . Наиболее распространенными такими надежными статистиками являются межквартильный размах (IQR) и медианное абсолютное отклонение (MAD). Они противопоставляются обычным или ненадежным мерам масштаба, таким как стандартное отклонение выборки , на которые сильно влияют выбросы.
Эти надежные статистики в частности используются в качестве оценщиков параметра масштаба и обладают преимуществами как надежности, так и превосходной эффективности на загрязненных данных за счет более низкой эффективности на чистых данных из распределений, таких как нормальное распределение. Чтобы проиллюстрировать надежность, стандартное отклонение может быть сделано произвольно большим путем увеличения ровно одного наблюдения (у него точка разбивки 0, поскольку оно может быть загрязнено одной точкой), дефект, который не свойствен надежным статистикам.
Одной из наиболее распространенных надежных мер масштаба является межквартильный размах (IQR), разница между 75-м процентилем и 25-м процентилем выборки; это 25% усеченный размах , пример L-оценки . Также могут использоваться другие усеченные размахи, такие как междецильный размах (10% усеченный размах). Для гауссовского распределения IQR связан с как: [1]
Другой известной надежной мерой масштаба является медианное абсолютное отклонение (MAD), медиана абсолютных значений разностей между значениями данных и общей медианой набора данных; для гауссовского распределения MAD соотносится как:
Подробную информацию см. в разделе Медианное абсолютное отклонение#Отношение к стандартному отклонению .
Надежные меры масштаба могут использоваться в качестве оценщиков свойств совокупности, либо для оценки параметров , либо в качестве оценщиков их собственного ожидаемого значения .
Например, надежные оценки масштаба используются для оценки стандартного отклонения популяции , как правило, путем умножения на масштабный коэффициент , чтобы сделать его несмещенной последовательной оценкой ; см. параметр масштаба: оценка . Например, деление IQR на 2 √ 2 erf −1 (1/2) (приблизительно 1,349) делает его несмещенной, последовательной оценкой для стандартного отклонения популяции, если данные следуют нормальному распределению .
В других ситуациях разумнее думать о надежной мере масштаба как об оценке ее собственного ожидаемого значения , интерпретируемой как альтернатива стандартному отклонению популяции как мере масштаба. Например, среднее абсолютное отклонение выборки из стандартного распределения Коши является оценкой среднего абсолютного отклонения популяции, которое в этом случае равно 1, тогда как дисперсия популяции не существует.
Эти надежные оценщики обычно имеют более низкую статистическую эффективность по сравнению с обычными оценщиками для данных, полученных из распределения без выбросов (например, нормального распределения), но имеют более высокую эффективность для данных, полученных из смешанного распределения или распределения с тяжелыми хвостами , для которых не следует использовать ненадежные меры, такие как стандартное отклонение.
Например, для данных, полученных из нормального распределения, MAD на 37% эффективнее выборочного стандартного отклонения, тогда как оценка Руссеу–Кру Q n на 88% эффективнее выборочного стандартного отклонения.
Руссо и Кру [2] предлагают альтернативы MAD, мотивируя это двумя его недостатками:
Они предлагают две альтернативные статистики, основанные на попарных различиях: S n и Q n , определяемые как:
где — константа, зависящая от .
Их можно вычислить за O ( n log n ) времени и O ( n ) пространства.
Ни один из них не требует оценки местоположения , поскольку они основаны только на различиях между значениями. Они оба более эффективны, чем MAD при гауссовском распределении: S n эффективен на 58%, а Q n эффективен на 82%.
Для выборки из нормального распределения S n приблизительно несмещено относительно стандартного отклонения популяции даже при очень скромных размерах выборки (смещение <1% для n = 10).
Для большой выборки из нормального распределения 2,22 Q n приблизительно несмещено для стандартного отклонения популяции. Для небольших или умеренных выборок ожидаемое значение Q n при нормальном распределении существенно зависит от размера выборки, поэтому для калибровки шкалы Q n используются поправочные коэффициенты для конечной выборки (полученные из таблицы или из моделирования) .
Подобно S n и Q n , двухвесовая средняя дисперсия стремится быть надежной, не жертвуя при этом слишком большой эффективностью. Она определяется как
где I — индикаторная функция , Q — выборочная медиана X i , а
Его квадратный корень является надежным оценщиком масштаба, поскольку вес точек данных уменьшается по мере увеличения их расстояния от медианы, при этом точки, находящиеся дальше 9 единиц MAD от медианы, не оказывают никакого влияния вообще.
Mizera & Müller (2004) предлагают надежную оценку на основе глубины для местоположения и масштаба одновременно. Они предлагают новую меру, названную медианой Стьюдента. [3]
Надежный доверительный интервал — это надежная модификация доверительных интервалов , то есть ненадежные расчеты доверительного интервала модифицируются таким образом, чтобы на них не оказывали сильного влияния выпадающие или аберрантные наблюдения в наборе данных.
В процессе взвешивания 1000 объектов в практических условиях легко поверить, что оператор может ошибиться в процедуре и сообщить неверную массу (тем самым сделав один тип систематической ошибки ). Предположим, что было 100 объектов, и оператор взвесил их все, по одному, и повторил весь процесс десять раз. Затем оператор может вычислить выборочное стандартное отклонение для каждого объекта и найти выбросы . Любой объект с необычно большим стандартным отклонением, вероятно, имеет выброс в своих данных. Их можно удалить различными непараметрическими методами. Если оператор повторил процесс только три раза, просто взяв медиану трех измерений и используя σ, можно было бы получить доверительный интервал. 200 дополнительных взвешиваний служили только для обнаружения и исправления ошибки оператора и не сделали ничего для улучшения доверительного интервала. При большем количестве повторений можно было бы использовать усеченное среднее , отбрасывая самые большие и самые маленькие значения и усредняя остальные. Расчет методом бутстрепа можно использовать для определения более узкого доверительного интервала, чем рассчитанный на основе σ, и, таким образом, получить некоторую выгоду от большого объема дополнительной работы.
Эти процедуры устойчивы к процедурным ошибкам, которые не моделируются предположением, что весы имеют фиксированное известное стандартное отклонение σ. В практических приложениях, где может произойти случайная ошибка оператора или весы могут выйти из строя, предположения, лежащие в основе простых статистических вычислений, не могут быть приняты как должное. Прежде чем доверять результатам 100 объектов, взвешенных всего по три раза каждый, чтобы иметь доверительные интервалы, рассчитанные из σ, необходимо проверить и удалить разумное количество выбросов (проверив предположение, что оператор осторожен, и исправив тот факт, что он не идеален), и проверить предположение, что данные действительно имеют нормальное распределение со стандартным отклонением σ.
Теоретический анализ такого эксперимента сложен, но легко создать электронную таблицу , которая извлекает случайные числа из нормального распределения со стандартным отклонением σ для моделирования ситуации; это можно сделать в Microsoft Excel с помощью =NORMINV(RAND(),0,σ))
, как обсуждалось в [4] , и те же методы можно использовать в других программах для работы с электронными таблицами, таких как OpenOffice.org Calc и gnumeric .
После удаления очевидных выбросов можно вычесть медиану из двух других значений для каждого объекта и изучить распределение 200 полученных чисел. Оно должно быть нормальным со средним значением около нуля и стандартным отклонением немного больше σ. Простой расчет электронной таблицы Монте-Карло покажет типичные значения для стандартного отклонения (около 105–115% от σ). Или можно вычесть среднее значение каждого триплета из значений и изучить распределение 300 значений. Среднее значение тождественно равно нулю, но стандартное отклонение должно быть несколько меньше (около 75–85% от σ).