stringtranslate.com

Поправка Бесселя

В статистике поправка Бесселя представляет собой использование n  - 1 вместо n в формуле выборочной дисперсии и выборочного стандартного отклонения , [ 1] где n — количество наблюдений в выборке . Этот метод корректирует смещение в оценке дисперсии генеральной совокупности. Это также частично исправляет погрешность в оценке стандартного отклонения генеральной совокупности. Однако коррекция часто увеличивает среднеквадратическую ошибку в этих оценках. Эта техника названа в честь Фридриха Бесселя .

Формулировка

При оценке генеральной дисперсии по выборке, когда среднее значение генеральной совокупности неизвестно, нескорректированная выборочная дисперсия представляет собой среднее значение квадратов отклонений выборочных значений от выборочного среднего (т. е. с использованием мультипликативного коэффициента 1/ n ). В этом случае выборочная дисперсия является смещенной оценкой генеральной дисперсии. Умножение неисправленной выборочной дисперсии на коэффициент

дает несмещенную оценку генеральной дисперсии. В некоторой литературе [2] [3] указанный выше коэффициент называют поправкой Бесселя .

Поправку Бесселя можно понимать как степени свободы вектора остатков (остатки, а не ошибки, поскольку среднее значение совокупности неизвестно):

где выборочное среднее. Хотя в выборке имеется n независимых наблюдений, независимых остатков только n  - 1, поскольку их сумма равна 0. Более интуитивное объяснение необходимости поправки Бесселя см. в § Источник систематической ошибки.

Обычно поправка Бесселя представляет собой подход, позволяющий уменьшить погрешность из-за конечного размера выборки. Такая коррекция смещения конечной выборки также необходима для других оценок, таких как асимметрия и эксцесс , но в них неточности часто значительно больше. Чтобы полностью устранить такую ​​предвзятость, необходимо провести более сложную многопараметрическую оценку. Например, правильная поправка на стандартное отклонение зависит от эксцесса (нормализованного центрального 4-го момента), но это снова имеет конечное смещение выборки и зависит от стандартного отклонения, т. е. обе оценки должны быть объединены.

Предостережения

В отношении поправки Бесселя следует учитывать три предостережения :

  1. Он не дает несмещенной оценки стандартного отклонения .
  2. Скорректированная оценка часто имеет более высокую среднеквадратическую ошибку (MSE), чем нескорректированная оценка. [4] Более того, не существует распределения населения, для которого оно имело бы минимальную MSE, поскольку всегда можно выбрать другой масштабный коэффициент для минимизации MSE.
  3. Это необходимо только в том случае, если среднее значение генеральной совокупности неизвестно (и оценивается как среднее выборочное). На практике обычно так и происходит.

Во-первых, хотя выборочная дисперсия (с использованием поправки Бесселя) является несмещенной оценкой генеральной дисперсии, ее квадратный корень , выборочное стандартное отклонение, является смещенной оценкой генерального стандартного отклонения; поскольку квадратный корень является вогнутой функцией , по неравенству Йенсена смещение направлено вниз . Не существует общей формулы для несмещенной оценки стандартного отклонения генеральной совокупности, хотя существуют поправочные коэффициенты для конкретных распределений, таких как нормальное; Подробности см. в разделе «несмещенная оценка стандартного отклонения» . Приближение точного поправочного коэффициента для нормального распределения дается с использованием n  - 1,5 в формуле: смещение убывает квадратично (а не линейно, как в нескорректированной форме и скорректированной форме Бесселя).

Во-вторых, несмещенная оценка не минимизирует среднеквадратическую ошибку (MSE) и обычно имеет худшую СКО, чем нескорректированная оценка (это зависит от избыточного эксцесса ). MSE можно минимизировать, используя другой коэффициент. Оптимальное значение зависит от избыточного эксцесса, как описано в среднеквадратичной ошибке: дисперсия ; для нормального распределения это оптимизируется путем деления на n  + 1 (вместо n  - 1 или n ).

В-третьих, поправка Бесселя необходима только в том случае, если среднее значение генеральной совокупности неизвестно, и можно оценить как среднее генеральное значение , так и дисперсию генеральной совокупности по данной выборке, используя выборочное среднее значение для оценки среднего генерального значения. В этом случае в выборке из n точек имеется n степеней свободы , и одновременная оценка среднего значения и дисперсии означает, что одна степень свободы переходит к выборочному среднему, а оставшиеся n  - 1 степеней свободы ( остатки ) переходят к выборочному. дисперсия. Однако если среднее значение популяции известно, то отклонения наблюдений от среднего значения совокупности имеют n степеней свободы (поскольку среднее значение не оценивается - отклонения являются не остатками, а ошибками ) и поправка Бесселя неприменима.

Источник предвзятости

Проще всего, чтобы понять предвзятость, которую необходимо исправить, подумайте о крайнем случае. Предположим, что популяция равна (0,0,0,1,2,9), среднее значение которой равно 2, а дисперсия популяции равна . Делается выборка n = 1, и оказывается, что наилучшая оценка среднего значения генеральной совокупности равна Но что, если мы воспользуемся формулой для оценки дисперсии? Оценка дисперсии будет равна нулю – и эта оценка будет равна нулю для любой совокупности и любой выборки с n = 1. Проблема в том, что при оценке выборочного среднего процесс уже приблизил нашу оценку среднего значения к значению мы выбрали - идентичны, для n = 1. В случае n = 1 дисперсию просто невозможно оценить, потому что в выборке нет изменчивости.

Но рассмотрим n = 2. Предположим, что выборка равна (0, 2). Тогда и , но с поправкой Бесселя, которая является несмещенной оценкой (если взяты все возможные выборки n = 2 и используется этот метод, средняя оценка будет 12,4, такая же, как выборочная дисперсия с поправкой Бесселя.)

Чтобы увидеть это более подробно, рассмотрим следующий пример. Предположим, что среднее значение всей совокупности равно 2050, но статистик этого не знает и должен оценить его на основе этой небольшой выборки, случайно выбранной из населения:

Можно вычислить выборочное среднее:

Это может служить наблюдаемой оценкой ненаблюдаемой средней численности населения, которая равна 2050 году. Теперь мы сталкиваемся с проблемой оценки дисперсии численности населения. Это среднее значение квадратов отклонений от 2050 года. Если бы мы знали, что средняя численность населения равна 2050 году, мы могли бы поступить следующим образом:

Но наша оценка средней численности населения — это выборочное среднее, 2052. Фактическое среднее значение, 2050, неизвестно. Таким образом, необходимо использовать выборочное среднее значение 2052:

Теперь разница намного меньше. Как показано ниже, дисперсия почти всегда будет меньше при расчете с использованием суммы квадратов расстояний до выборочного среднего значения по сравнению с использованием суммы квадратов расстояний до среднего значения генеральной совокупности. Единственным исключением из этого правила является случай, когда выборочное среднее оказывается равным генеральному среднему, и в этом случае дисперсия также равна.

Чтобы понять, почему это происходит, мы воспользуемся простым тождеством из алгебры:

С представлением отклонения отдельной выборки от среднего значения выборки и представлением отклонения среднего значения выборки от среднего значения генеральной совокупности. Обратите внимание, что мы просто разложили фактическое отклонение отдельной выборки от (неизвестного) среднего значения совокупности на два компонента: отклонение отдельной выборки от выборочного среднего, которое мы можем вычислить, и дополнительное отклонение выборочного среднего от население означает, что мы не можем. Теперь мы применим это тождество к квадратам отклонений от среднего значения генеральной совокупности:

Теперь примените это ко всем пяти наблюдениям и обратите внимание на определенные закономерности:

Сумма записей в среднем столбце должна быть равна нулю, поскольку термин a будет добавлен ко всем 5 строкам, что само по себе должно быть равно нулю. Это связано с тем, что a содержит 5 отдельных выборок (левая часть в круглых скобках), которые при сложении естественно имеют ту же сумму, что и сложение 5-кратного выборочного среднего этих 5 чисел (2052). Это означает, что вычитание этих двух сумм должно равняться нулю. Коэффициент 2 и член b в среднем столбце одинаковы для всех строк, а это означает, что относительная разница во всех строках среднего столбца остается одинаковой и поэтому ее можно игнорировать. Следующие утверждения объясняют значение остальных столбцов:

Поэтому:

Вот почему сумма квадратов отклонений от выборочного среднего слишком мала, чтобы дать несмещенную оценку дисперсии генеральной совокупности, когда находится среднее значение этих квадратов. Чем меньше размер выборки, тем больше разница между выборочной дисперсией и популяционной дисперсией.

Терминология

Эта поправка настолько распространена, что термины «выборочная дисперсия» и «выборочное стандартное отклонение» часто используются для обозначения скорректированных оценок (несмещенная выборочная вариация, менее смещенное выборочное стандартное отклонение), использующих n  - 1. Однако необходима осторожность: некоторые калькуляторы а пакеты программного обеспечения могут предусматривать обе или только более необычную формулировку. В этой статье используются следующие символы и определения:

Тогда стандартные отклонения будут представлять собой квадратные корни соответствующих дисперсий. Поскольку квадратный корень вносит смещение, для оценок стандартного отклонения предпочтительна терминология «нескорректированный» и «скорректированный»:

Формула

Выборочное среднее определяется выражением

Затем записывается смещенная выборочная дисперсия:

и несмещенная выборочная дисперсия записывается:

Доказательство

Предположим, что это независимые и одинаково распределенные случайные величины со математическим ожиданием и дисперсией .

Зная значения at исхода базового выборочного пространства, мы хотели бы получить хорошую оценку дисперсии , которая неизвестна. Для этого построим математическую формулу, содержащую такое , что математическое ожидание этой формулы равно . Это означает, что в среднем эта формула должна давать правильный ответ.

Образованный, но наивный способ угадать такую ​​формулу был бы

,

где ; это была бы дисперсия, если бы у нас была дискретная случайная величина в дискретном вероятностном пространстве , имеющая значение . Но давайте посчитаем ожидаемое значение этого выражения:

вот мы имеем (по независимости, симметричному сокращению и равному распределению)

и поэтому

.

В отличие,

.

Таким образом, наше первоначальное предположение было ошибочным в несколько раз.

,

и это именно поправка Бесселя.

Смотрите также

Примечания

  1. ^ Радзивилл, Николь М (2017). Статистика (более простой способ) с R . Ляпис Люцера. ISBN 9780996916059. ОСЛК  1030532622.
  2. ^ WJ Reichmann, WJ (1961) Использование статистики и злоупотребление ею , Метуэн. Перепечатано издательством Pelican в 1964–1970 годах. Приложение 8.
  3. ^ Аптон, Г.; Кук, И. (2008) Оксфордский статистический словарь , OUP. ISBN 978-0-19-954145-4 (запись «Отклонение (данные)») 
  4. ^ Розенталь, Джеффри С. (2015). «Дети в порядке: разделите на n при оценке дисперсии». Вестник Института математической статистики . Декабрь 2015: 9.

Внешние ссылки