В статистике смещение оценщика (или функция смещения ) — это разница между ожидаемым значением этого оценщика и истинным значением оцениваемого параметра. Оценщик или правило принятия решения с нулевым смещением называется несмещенным . В статистике «смещение» — это объективное свойство оценщика. Смещение — это отличное от согласованности понятие : согласованные оценщики сходятся по вероятности к истинному значению параметра, но могут быть смещенными или несмещенными (см. смещение и согласованность для получения дополнительной информации).
При прочих равных условиях несмещенная оценка предпочтительнее смещенной оценки, хотя на практике смещенные оценки (обычно с небольшим смещением) используются часто. При использовании смещенной оценки вычисляются границы смещения. Смещенная оценка может использоваться по разным причинам: потому что несмещенная оценка не существует без дополнительных предположений о генеральной совокупности; потому что оценку трудно вычислить (как в случае несмещенной оценки стандартного отклонения ); потому что смещенная оценка может быть несмещенной по отношению к различным мерам центральной тенденции ; потому что смещенная оценка дает более низкое значение некоторой функции потерь (в частности, среднеквадратической ошибки ) по сравнению с несмещенными оценками (особенно в случае оценок сжатия ); или потому что в некоторых случаях несмещенность является слишком сильным условием, и единственные несмещенные оценки бесполезны.
Смещение также может быть измерено относительно медианы , а не среднего (ожидаемого значения), в этом случае можно отличить свойство медианы -несмещенности от обычного свойства среднего -несмещенности. Среднее-несмещенность не сохраняется при нелинейных преобразованиях , хотя медиана-несмещенность сохраняется (см. § Влияние преобразований); например, дисперсия выборки является смещенной оценкой для дисперсии совокупности. Все это проиллюстрировано ниже.
Несмещенная оценка параметра не всегда должна существовать. Например, не существует несмещенной оценки обратной величины параметра биномиальной случайной величины. [1]
Предположим, что у нас есть статистическая модель , параметризованная действительным числом θ , дающая распределение вероятностей для наблюдаемых данных, и статистика , которая служит оценщиком θ на основе любых наблюдаемых данных . То есть, мы предполагаем, что наши данные следуют некоторому неизвестному распределению (где θ — фиксированная, неизвестная константа, которая является частью этого распределения), а затем мы строим некоторый оценщик, который сопоставляет наблюдаемые данные со значениями, которые, как мы надеемся , близки к θ . Смещение относительно определяется как [2]
где обозначает ожидаемое значение по распределению (т.е. усреднение по всем возможным наблюдениям ). Второе уравнение следует, поскольку θ измеримо относительно условного распределения .
Говорят, что оценка является несмещенной , если ее смещение равно нулю для всех значений параметра θ или, что эквивалентно, если ожидаемое значение оценки совпадает со значением параметра. [3] Несмещенность не гарантируется. Например, если является несмещенной оценкой для параметра θ , не гарантируется, что g( ) является несмещенной оценкой для g( θ). [4]
В имитационном эксперименте, касающемся свойств оценщика, смещение оценщика можно оценить с помощью средней знаковой разности .
Дисперсия выборки случайной величины демонстрирует два аспекта смещения оценщика: во-первых, наивный оценщик смещен, что можно исправить с помощью масштабного коэффициента; во-вторых, несмещенный оценщик не является оптимальным с точки зрения средней квадратичной ошибки (MSE), которую можно минимизировать, используя другой масштабный коэффициент, что приводит к смещенному оценщику с более низким MSE, чем у несмещенного оценщика. Конкретно, наивный оценщик суммирует квадратичные отклонения и делит на n, что является смещенным. Деление вместо этого на n − 1 дает несмещенный оценщик. И наоборот, MSE можно минимизировать, разделив на другое число (в зависимости от распределения), но это приводит к смещенному оценщику. Это число всегда больше n − 1, поэтому это известно как оценка сжатия , поскольку она «сжимает» несмещенный оценщик до нуля; для нормального распределения оптимальное значение равно n + 1.
Предположим, что X 1 , ..., X n являются независимыми и одинаково распределенными (iid) случайными величинами с ожиданием μ и дисперсией σ 2 . Если выборочное среднее и нескорректированная выборочная дисперсия определяются как
тогда S 2 является смещенной оценкой σ 2 , потому что
Продолжая, заметим, что вычитая из обеих сторон , получаем
Значение, (перекрестным умножением) . Тогда предыдущее становится:
Это можно увидеть, заметив следующую формулу, которая следует из формулы Бьенеме , для члена в неравенстве для математического ожидания нескорректированной выборочной дисперсии выше: .
Другими словами, ожидаемое значение неоткорректированной дисперсии выборки не равно дисперсии совокупности σ 2 , если только не умножено на нормировочный коэффициент. С другой стороны, среднее значение выборки является несмещенной [5] оценкой среднего значения совокупности μ . [3]
Обратите внимание, что обычное определение дисперсии выборки — это , и это несмещенная оценка дисперсии популяции.
С алгебраической точки зрения, является беспристрастным, потому что:
где переход ко второй строке использует результат, полученный выше для смещенной оценки. Таким образом , и, следовательно, является несмещенной оценкой дисперсии совокупности, σ 2 . Соотношение между смещенной (нескорректированной) и несмещенной оценками дисперсии известно как поправка Бесселя .
Причина, по которой неисправленная дисперсия выборки, S 2 , смещена, заключается в том, что среднее значение выборки является обычной оценкой наименьших квадратов (МНК) для μ : это число, которое делает сумму как можно меньше. То есть, когда любое другое число вставляется в эту сумму, сумма может только увеличиться. В частности, выбор дает,
а потом
Вышеприведенное обсуждение можно понять в геометрических терминах: вектор можно разложить на «среднюю часть» и «дисперсионную часть», проецируя на направление и на ортогональную дополнительную гиперплоскость этого направления. Получаем для части вдоль и для дополнительной части. Поскольку это ортогональное разложение, теорема Пифагора гласит , и беря ожидания, получаем , как и выше (но умножаем на ). Если распределение симметрично относительно вращения, как в случае, когда выбираются из гауссова распределения, то в среднем измерение вдоль вносит вклад в равной степени, как и направления, перпендикулярные , так что и . Это фактически верно в общем случае, как объяснено выше.
Гораздо более экстремальный случай, когда смещенная оценка лучше любой несмещенной оценки, возникает из распределения Пуассона . [6] [7] Предположим, что X имеет распределение Пуассона с математическим ожиданием λ . Предположим, что требуется оценить
с выборкой размера 1. (Например, если входящие звонки на телефонном коммутаторе моделируются как процесс Пуассона, а λ — среднее количество звонков в минуту, то e −2 λ — вероятность того, что в течение следующих двух минут не поступит ни одного звонка.)
Так как ожидание несмещенной оценки δ ( X ) равно оценке , т.е.
единственная функция данных, составляющих несмещенную оценку, это
Чтобы увидеть это, обратите внимание, что при разложении e − λ из приведенного выше выражения для ожидания, оставшаяся сумма также представляет собой разложение e − λ в ряд Тейлора , что дает e − λ e − λ = e −2 λ (см. Характеристику экспоненциальной функции ).
Если наблюдаемое значение X равно 100, то оценка равна 1, хотя истинное значение оцениваемой величины, скорее всего, будет близко к 0, что является противоположной крайностью. И если наблюдаемое значение X равно 101, то оценка еще более абсурдна: оно равно −1, хотя оцениваемая величина должна быть положительной.
(Смещенная) оценка максимального правдоподобия
намного лучше, чем эта непредвзятая оценка. Ее значение не только всегда положительно, но и точнее в том смысле, что ее среднеквадратическая ошибка
меньше; сравните среднеквадратичную ошибку несмещенной оценки
MSE являются функциями истинного значения λ . Смещение оценки максимального правдоподобия равно:
Смещение оценок максимального правдоподобия может быть существенным. Рассмотрим случай, когда n билетов, пронумерованных от 1 до n, помещаются в коробку, и один из них выбирается случайным образом, давая значение X. Если n неизвестно, то оценка максимального правдоподобия n равна X , даже если ожидание X при данном n равно только ( n + 1)/2; мы можем быть уверены только в том, что n не меньше X и, вероятно, больше. В этом случае естественная несмещенная оценка равна 2 X − 1.
Теория медианно -несмещенных оценок была возрождена Джорджем Брауном в 1947 году: [8]
Оценка одномерного параметра θ будет называться медианно-несмещенной, если при фиксированном θ медиана распределения оценки равна значению θ; т. е. оценка недооценивает так же часто, как и переоценивает. Это требование, по-видимому, для большинства целей достигает того же, что и требование среднего-несмещенного, и имеет дополнительное свойство, заключающееся в том, что оно инвариантно относительно преобразования один к одному.
Дальнейшие свойства оценок без смещения медианы были отмечены Леманном, Бирнбаумом, ван дер Вартом и Пфанцаглем. [9] В частности, оценки без смещения медианы существуют в случаях, когда оценки без смещения среднего и оценки максимального правдоподобия не существуют. Они инвариантны относительно преобразований один к одному .
Существуют методы построения медианно-несмещенных оценок для распределений вероятностей, которые имеют монотонные функции правдоподобия , такие как однопараметрические экспоненциальные семейства, чтобы гарантировать, что они являются оптимальными (в некотором смысле, аналогично свойству минимальной дисперсии, рассматриваемому для оценок без смещения среднего). [10] [11] Одна из таких процедур является аналогом процедуры Рао–Блэквелла для оценок без смещения среднего: процедура справедлива для меньшего класса распределений вероятностей, чем процедура Рао–Блэквелла для оценки без смещения среднего, но для большего класса функций потерь. [11]
Любая среднее - несмещенная оценка с минимальной дисперсией минимизирует риск ( ожидаемые потери ) относительно функции потерь квадрата ошибки (среди среднее-несмещенных оценок), как заметил Гаусс . [12] Среднее -абсолютное отклонение медианно -несмещенной оценки с минимальным абсолютным отклонением минимизирует риск относительно абсолютной функции потерь (среди медианно-несмещенных оценок), как заметил Лаплас . [12] [13] В статистике используются и другие функции потерь, особенно в надежной статистике . [12] [14]
Для одномерных параметров медианно-несмещенные оценки остаются медианно-несмещенными при преобразованиях , которые сохраняют порядок (или обратный порядок). Обратите внимание, что когда преобразование применяется к средне-несмещенной оценке, результат не обязательно должен быть средне-несмещенной оценкой соответствующей статистики популяции. По неравенству Йенсена выпуклая функция как преобразование внесет положительное смещение, в то время как вогнутая функция внесет отрицательное смещение, а функция смешанной выпуклости может внести смещение в любом направлении, в зависимости от конкретной функции и распределения. То есть, для нелинейной функции f и средне-несмещенной оценки U параметра p составная оценка f ( U ) не обязательно должна быть средне-несмещенной оценкой f ( p ). Например, квадратный корень несмещенной оценки дисперсии популяции не является несмещенной оценкой среднего стандартного отклонения популяции : квадратный корень несмещенной выборочной дисперсии , скорректированное выборочное стандартное отклонение , смещено. Смещение зависит как от выборочного распределения оценки, так и от преобразования, и может быть довольно сложным для вычисления — см. несмещенную оценку стандартного отклонения для обсуждения в этом случае.
В то время как смещение количественно определяет среднюю разницу, которую следует ожидать между оценщиком и базовым параметром, оценщик, основанный на конечной выборке, может дополнительно отличаться от параметра из-за случайности в выборке. Оценщик, который минимизирует смещение, не обязательно минимизирует среднеквадратичную ошибку. Одной из мер, которая используется для попытки отразить оба типа разницы, является среднеквадратическая ошибка , [2]
Можно показать, что это равно квадрату смещения плюс дисперсия: [2]
Если параметр является вектором, применяется аналогичное разложение: [15]
где — след (диагональная сумма) ковариационной матрицы оценки, а — квадратная векторная норма .
Например, [16] предположим, что оценка имеет вид
ищется дисперсия популяции, как и выше, но на этот раз для минимизации MSE:
Если переменные X 1 ... X n следуют нормальному распределению, то nS 2 /σ 2 имеет распределение хи-квадрат с n − 1 степенями свободы, что дает:
и так
С помощью небольших алгебраических вычислений можно подтвердить, что именно c = 1/( n + 1) минимизирует эту комбинированную функцию потерь, а не c = 1/( n − 1), которое минимизирует только квадрат смещения.
В более общем смысле, только в ограниченных классах задач будет существовать оценщик, который минимизирует MSE независимо от значений параметров.
Однако очень часто может возникнуть ощущение, что существует компромисс между смещением и дисперсией , когда небольшое увеличение смещения можно обменять на большее уменьшение дисперсии, что в итоге приводит к более желательной оценке в целом.
Большинство байесовцев не слишком заботятся о несмещенности (по крайней мере, в формальном смысле теории выборки, указанном выше) своих оценок. Например, Гельман и соавторы (1995) пишут: «С байесовской точки зрения принцип несмещенности разумен в пределе больших выборок, но в противном случае он потенциально вводит в заблуждение». [17]
По сути, разница между байесовским подходом и подходом теории выборки, описанным выше, заключается в том, что в подходе теории выборки параметр принимается фиксированным, а затем рассматриваются распределения вероятностей статистики на основе предсказанного распределения выборки данных. Для байесовского подхода, однако, известны и фиксированы данные , а неизвестный параметр является тем, для которого делается попытка построить распределение вероятностей, используя теорему Байеса :
Здесь второй член, вероятность данных с учетом неизвестного значения параметра θ, зависит только от полученных данных и моделирования процесса генерации данных. Однако байесовское вычисление также включает первый член, априорную вероятность для θ, которая учитывает все, что аналитик может знать или подозревать о θ до поступления данных. Эта информация не играет никакой роли в подходе теории выборки; на самом деле любая попытка включить ее будет считаться «смещением» от того, на что указывали исключительно данные. В той степени, в которой байесовские вычисления включают априорную информацию, поэтому по сути неизбежно, что их результаты не будут «несмещенными» в терминах теории выборки.
Однако результаты байесовского подхода могут отличаться от подхода теории выборки, даже если байесовский подход пытается принять «неинформативную» априорную информацию.
Например, рассмотрим снова оценку неизвестной дисперсии популяции σ 2 нормального распределения с неизвестным средним значением, где требуется оптимизировать c в ожидаемой функции потерь.
Стандартным выбором неинформативного априорного распределения для этой задачи является априорное распределение Джеффриса , которое эквивалентно принятию инвариантного к масштабированию плоского априорного распределения для ln(σ 2 ) .
Одним из следствий принятия этого априорного значения является то, что S 2 /σ 2 остается основной величиной , т.е. распределение вероятностей S 2 /σ 2 зависит только от S 2 /σ 2 , независимо от значения S 2 или σ 2 :
Однако, в то время как
в отличие
— когда ожидание берется по распределению вероятностей σ 2 при заданном S 2 , как это происходит в байесовском случае, а не S 2 при заданном σ 2 , больше нельзя брать σ 4 как константу и выносить ее за скобки. Следствием этого является то, что по сравнению с расчетом по теории выборки байесовский расчет придает больший вес большим значениям σ 2 , надлежащим образом учитывая (чего не может сделать расчет по теории выборки), что при этой функции квадратичных потерь последствие недооценки больших значений σ 2 является более дорогостоящим в терминах квадратичных потерь, чем переоценка малых значений σ 2 .
Разработанный байесовский расчет дает масштабированное обратное распределение хи-квадрат с n − 1 степенями свободы для апостериорного распределения вероятностей σ 2 . Ожидаемые потери минимизируются, когда cnS 2 = <σ 2 >; это происходит, когда c = 1/( n − 3).
Таким образом, даже при неинформативном априорном значении байесовский расчет может не дать того же результата минимизации ожидаемых потерь, что и соответствующий расчет на основе теории выборки.
{{cite journal}}
: CS1 maint: date and year (link){{cite journal}}
: CS1 maint: date and year (link)