stringtranslate.com

Непредвзятая оценка стандартного отклонения

В статистике и, в частности, статистической теории , несмещенная оценка стандартного отклонения — это расчет по статистической выборке оценочного значения стандартного отклонения (меры статистической дисперсии ) совокупности значений таким образом, что ожидаемое значение расчета соответствует истинному значению. За исключением некоторых важных ситуаций, описанных ниже, эта задача не имеет большого отношения к приложениям статистики, поскольку ее необходимость устраняется с помощью стандартных процедур, таких как использование тестов значимости и доверительных интервалов или использование байесовского анализа .

Однако для статистической теории это представляет собой образцовую задачу в контексте теории оценивания , которую легко сформулировать и для которой результаты не могут быть получены в закрытой форме. Это также является примером того, как навязывание требования объективной оценки может рассматриваться как просто добавление неудобств, не приносящее реальной пользы.

Мотивация

В статистике стандартное отклонение совокупности чисел часто оценивается на основе случайной выборки, взятой из совокупности. Это выборочное стандартное отклонение, которое определяется формулой

где – выборка (формально, реализации случайной величины X ) и – выборочное среднее .

Один из способов увидеть, что это смещенная оценка стандартного отклонения генеральной совокупности, состоит в том, чтобы исходить из того, что s 2 является несмещенной оценкой дисперсии σ 2 базовой совокупности , если эта дисперсия существует и значения выборки получены независимо. с заменой. Квадратный корень — нелинейная функция, и только линейные функции коммутируют с учетом математического ожидания. Поскольку квадратный корень является строго вогнутой функцией, из неравенства Йенсена следует, что квадратный корень выборочной дисперсии является заниженной оценкой.

Использование n  - 1 вместо n в формуле выборочной дисперсии известно как поправка Бесселя , которая исправляет смещение при оценке генеральной дисперсии, а также некоторую, но не всю, смещение при оценке генерального стандарта. отклонение.

Невозможно найти оценку стандартного отклонения, которая была бы несмещенной для всех распределений населения, поскольку смещение зависит от конкретного распределения. Большая часть нижеследующего относится к оценкам, предполагающим нормальное распределение .

Коррекция смещения

Результаты для нормального распределения

Поправочный коэффициент в зависимости от размера выборки n .

Когда случайная величина имеет нормальное распределение , существует незначительная поправка для устранения систематической ошибки. Чтобы вывести поправку, обратите внимание, что для нормально распределенного X теорема Кокрана подразумевает, что он имеет распределение хи-квадрат со степенями свободы и, следовательно, его квадратный корень имеет распределение хи со степенями свободы. Следовательно, вычислив математическое ожидание этого последнего выражения и переставив константы,

где поправочный коэффициент — это среднее масштабное распределение хи со степенями свободы, . Это зависит от размера выборки n и определяется следующим образом: [1]

где Γ(·) – гамма-функция . Несмещенную оценку σ можно получить путем деления на . По мере увеличения оно приближается к 1, и даже для меньших значений поправка незначительна. На рисунке показан график зависимости размера выборки. В таблице ниже приведены числовые значения и алгебраические выражения для некоторых значений ; более полные таблицы можно найти в большинстве учебников по статистическому контролю качества .

Важно иметь в виду, что эта поправка дает только несмещенную оценку для нормально и независимо распределенного X. Когда это условие выполнено, другой результат, связанный с использованием s, заключается в том, что стандартная ошибка s равна [2] [3] , в то время как стандартная ошибка несмещенной оценки равна

Эмпирическое правило нормального распределения

Если вычисление функции c 4 ( n ) кажется слишком сложным, существует простое эмпирическое правило [4], позволяющее использовать оценщик

Формула отличается от привычного выражения для s 2 только тем, что в знаменателе стоит n − 1,5 вместо n − 1 . Это выражение является лишь приблизительным; фактически,

Смещение сравнительно невелико: скажем, для оно равно 2,3%, а для смещение уже 0,1%.

Другие дистрибутивы

В тех случаях, когда статистически независимые данные моделируются параметрическим семейством распределений, отличных от нормального распределения , стандартное отклонение генеральной совокупности, если оно существует, будет функцией параметров модели. Одним из общих подходов к оценке является метод максимального правдоподобия . В качестве альтернативы можно использовать теорему Рао-Блэквелла как способ найти хорошую оценку стандартного отклонения. Ни в том, ни в другом случае полученные оценки обычно не будут несмещенными. Теоретически можно было бы получить теоретические поправки, которые привели бы к несмещенным оценкам, но, в отличие от нормального распределения, они обычно будут зависеть от оцениваемых параметров.

Если требуется просто уменьшить погрешность оценки стандартного отклонения, а не полностью устранить ее, то доступны два практических подхода, оба в контексте повторной выборки . Это складной нож и бутстрэппинг . Оба могут применяться либо к параметрическим оценкам стандартного отклонения, либо к выборочному стандартному отклонению.

Для несмещенных распределений приблизительная (с точностью до O ( n −1 )) формула для несмещенной оценки стандартного отклонения:

где γ 2 обозначает избыточный эксцесс популяции . Избыточный эксцесс может быть либо известен заранее для определенных распределений, либо оценен на основе данных.

Эффект автокорреляции (серийная корреляция)

Приведенный выше материал, чтобы еще раз подчеркнуть эту мысль, применим только к независимым данным. Однако реальные данные часто не отвечают этому требованию; это автокорреляция (также известная как серийная корреляция). Например, последовательные показания измерительного прибора, который включает в себя ту или иную форму процесса «сглаживания» (точнее, фильтрации нижних частот), будут автокоррелированы, поскольку любое конкретное значение рассчитывается на основе некоторой комбинации более ранних и поздних показаний.

Оценки дисперсии и стандартного отклонения автокоррелированных данных будут смещены. Ожидаемое значение выборочной дисперсии равно [5]

где n — размер выборки (количество измерений), а — автокорреляционная функция (АКФ) данных. (Обратите внимание, что выражение в скобках равно единице минус среднее ожидаемое значение автокорреляции показаний.) Если АКФ состоит из положительных значений, то оценка дисперсии (и ее квадратного корня, стандартного отклонения) будет иметь низкое смещение. То есть фактическая изменчивость данных будет больше, чем та, на которую указывает расчет неисправленной дисперсии или стандартного отклонения. Важно понимать, что если это выражение будет использоваться для корректировки систематической ошибки путем деления оценки на величину в скобках выше, то АКФ должен быть известен аналитически , а не посредством оценки на основе данных. Это связано с тем, что расчетная АКФ сама по себе будет смещенной. [6]

Пример смещения стандартного отклонения

Чтобы проиллюстрировать величину систематической ошибки стандартного отклонения, рассмотрим набор данных, состоящий из последовательных показаний прибора, использующего определенный цифровой фильтр, чья АКФ, как известно, определяется выражением

где α — параметр фильтра, принимающий значения от нуля до единицы. Таким образом, АКФ положителен и геометрически убывает.

Смещение стандартного отклонения для автокоррелированных данных.

На рисунке показано отношение оцененного стандартного отклонения к его известному значению (которое может быть рассчитано аналитически для этого цифрового фильтра) для нескольких настроек α в зависимости от размера выборки n . Изменение α изменяет коэффициент уменьшения дисперсии фильтра, который, как известно,

так что меньшие значения α приводят к большему уменьшению дисперсии или «сглаживанию». Смещение обозначается значениями на вертикальной оси, отличными от единицы; то есть, если бы не было систематической ошибки, отношение оцененного к известному стандартному отклонению было бы единицей. Очевидно, что при небольших размерах выборки может иметь место значительная погрешность (в два и более раз).

Отклонение среднего значения

Часто представляет интерес оценить дисперсию или стандартное отклонение предполагаемого среднего значения , а не дисперсию генеральной совокупности. Когда данные автокоррелированы, это оказывает прямое влияние на теоретическую дисперсию выборочного среднего значения, которая составляет [7]

Затем дисперсию выборочного среднего можно оценить, подставив оценку σ 2 . Одну такую ​​оценку можно получить из приведенного выше уравнения для E[s 2 ]. Сначала определите следующие константы, предполагая, опять же, известную АКФ:

так что

Это говорит о том, что ожидаемое значение величины, полученное путем деления наблюдаемой выборочной дисперсии на поправочный коэффициент, дает несмещенную оценку дисперсии. Аналогично, переписав приведенное выше выражение для дисперсии среднего значения:

и подставив оценку для дает [8]

который представляет собой несмещенную оценку дисперсии среднего значения с точки зрения наблюдаемой выборочной дисперсии и известных величин. Если автокорреляции тождественно равны нулю, это выражение сводится к хорошо известному результату для дисперсии среднего значения для независимых данных. Эффект оператора ожидания в этих выражениях заключается в том, что равенство сохраняется в среднем (т. е. в среднем).

Оценка стандартного отклонения генеральной совокупности

Имея приведенные выше выражения, включающие дисперсию совокупности и оценку среднего значения этой совокупности, казалось бы логичным просто извлечь квадратный корень из этих выражений, чтобы получить несмещенные оценки соответствующих стандартных отклонений. Однако дело в том, что, поскольку ожидания являются интегралами,

Вместо этого предположим, что существует функция θ такая, что несмещенную оценку стандартного отклонения можно записать

и θ зависит от размера выборки n и АКФ. В случае данных NID (нормально и независимо распределенных) подкоренное выражение равно единице, а θ — это просто функция c 4 , указанная в первом разделе выше. Как и в случае с c 4 , θ приближается к единице по мере увеличения размера выборки (как и γ 1 ).

С помощью имитационного моделирования можно продемонстрировать, что игнорирование θ (то есть принимая его за единицу) и использование

удаляет все смещения, вызванные автокорреляцией, кроме нескольких процентов, что делает эту оценку уменьшенной -смещенной, а не несмещенной оценкой. В практических ситуациях измерения такое снижение погрешности может быть значительным и полезным, даже если остается некоторая относительно небольшая погрешность. Рисунок выше, показывающий пример смещения стандартного отклонения в зависимости от размера выборки, основан на этом приближении; фактическое смещение будет несколько больше, чем указано на этих графиках, поскольку смещение преобразования θ туда не включено.

Оценка стандартного отклонения выборочного среднего значения

Несмещенная дисперсия среднего значения с точки зрения генеральной дисперсии и АКФ определяется выражением

и поскольку здесь нет ожидаемых значений, в этом случае можно извлечь квадратный корень, так что

Используя приведенное выше выражение несмещенной оценки для σ , оценка стандартного отклонения среднего значения будет тогда

Если данные являются NID, так что ACF исчезает, это сводится к

При наличии ненулевой АКФ игнорирование функции θ , как и раньше, приводит к уменьшенной оценке -смещения

что опять-таки можно продемонстрировать, что оно устраняет большую часть предвзятости.

Смотрите также

Рекомендации

  1. ^ Бен В. Болч, «Подробнее о несмещенной оценке стандартного отклонения», The American Statistician, 22 (3), стр. 27 (1968)
  2. ^ Дункан, AJ, Контроль качества и промышленная статистика, 4-е изд., Ирвин (1974) ISBN  0-256-01558-9 , стр.139
  3. ^ * Н. Л. Джонсон, С. Коц и Н. Балакришнан, Непрерывные одномерные распределения, Том 1 , 2-е издание, Wiley and sons, 1994. ISBN 0-471-58495-9 . Глава 13, раздел 8.2 
  4. ^ Ричард М. Брюггер, «Заметки о несмещенной оценке стандартного отклонения», Американский статистик (23) 4 стр. 32 (1969)
  5. ^ Лоу и Келтон, Имитационное моделирование и анализ , 2-е изд. МакГроу-Хилл (1991), стр. 284, ISBN 0-07-036698-5 . Это выражение можно получить из его первоначального источника в книге Андерсона « Статистический анализ временных рядов» , Wiley (1971), ISBN 0-471-04745-7 , стр. 448, уравнение 51.  
  6. ^ Ло и Келтон, стр.286. Это смещение количественно выражено у Андерсона, стр. 448, уравнения 52–54.
  7. ^ Ло и Келтон, стр.285. Это уравнение можно вывести из теоремы 8.2.3 Андерсона. Он также появляется в книге Бокса, Дженкинса, Рейнселя, « Анализ временных рядов: прогнозирование и контроль» , 4-е изд. Уайли (2008), ISBN 978-0-470-27284-8 , стр.31. 
  8. Ло и Келтон, стр.285.

Внешние ссылки

Всеобщее достояние Эта статья включает общедоступные материалы Национального института стандартов и технологий.