Смещение оценщика

В статистике смещение оценщика (или функции смещения ) — это разница между ожидаемым значением этого оценщика и истинным значением оцениваемого параметра. Оценщик или правило принятия решения с нулевым смещением называется несмещенным . В статистике «предвзятость» — это объективное свойство оценщика. Смещение - это понятие, отличное от последовательности : непротиворечивые оценки сходятся по вероятности к истинному значению параметра, но могут быть смещенными или несмещенными; см. предвзятость и последовательность для получения дополнительной информации.

При прочих равных условиях несмещенная оценка предпочтительнее, чем смещенная, хотя на практике часто используются смещенные оценки (как правило, с небольшой погрешностью). При использовании смещенной оценки вычисляются границы смещения. Смещенная оценка может использоваться по разным причинам: потому что несмещенная оценка не существует без дополнительных предположений о совокупности; потому что оценщик трудно вычислить (как при несмещенной оценке стандартного отклонения ); потому что смещенная оценка может быть несмещенной по отношению к различным мерам центральной тенденции ; потому что смещенная оценка дает более низкое значение некоторой функции потерь (особенно среднеквадратичной ошибки ) по сравнению с несмещенными оценками (особенно в оценках усадки ); или потому, что в некоторых случаях несмещенность является слишком строгим условием, и единственные несмещенные оценки бесполезны.

Смещение также можно измерить по отношению к медиане , а не к среднему (ожидаемому значению), и в этом случае можно отличить медианную несмещенность от обычного свойства средней несмещенности. Несмещенность к среднему не сохраняется при нелинейных преобразованиях , хотя несмещенность к среднему сохраняется (см. § Эффект преобразований); например, выборочная дисперсия является смещенной оценкой генеральной дисперсии. Все это проиллюстрировано ниже.

Непредвзятая оценка параметра не всегда должна существовать. Например, не существует несмещенной оценки обратной величины параметра биномиальной случайной величины. ^[1]

Определение

Предположим , у нас есть статистическая модель , параметризованная действительным числом θ , дающая распределение вероятностей для наблюдаемых данных, и статистика , которая служит оценкой θ на основе любых наблюдаемых данных . То есть мы предполагаем, что наши данные соответствуют некоторому неизвестному распределению (где θ — фиксированная неизвестная константа, которая является частью этого распределения), а затем мы создаем некоторый оценщик , который отображает наблюдаемые данные в значения, которые, как мы надеемся, близки к θ . Смещение относительно определяется как [ ² ] $P_ {\theta }(x)=P(x\mid \theta)$ ${\hat {\theta }}$ $х$ ${\ displaystyle P (х \ середина \ тета)}$ ${\hat {\theta }}$ ${\hat {\theta }}$ ${\ displaystyle \ theta }$

\operatorname {Смещение} ({\hat {\theta }},\theta )=\operatorname {Bias} _ {\theta }[\, {\hat {\theta }}\,]=\operatorname { E} _{x\mid \theta }[\,{\hat {\theta }}\,]-\theta =\operatorname {E} _{x\mid \theta }[\,{\hat {\theta }}-\тета\,],

где обозначает ожидаемое значение по распределению (т. е. усреднение по всем возможным наблюдениям ). Второе уравнение следует из того, что θ измеримо относительно условного распределения . $\operatorname {E} _{x\mid \theta }$ ${\ displaystyle P (х \ середина \ тета)}$ $х$ ${\ displaystyle P (х \ середина \ тета)}$

Оценщик считается несмещенным, если его смещение равно нулю для всех значений параметра θ или, что то же самое, если ожидаемое значение средства оценки соответствует ожидаемому значению параметра. ^[3] Непредвзятость не гарантирована. Например, если является несмещенной оценкой параметра θ , не гарантируется, что g( ) является несмещенной оценкой для g( θ). ^[4] ${\hat {\theta }}$ ${\hat {\theta }}$

В моделирующем эксперименте, касающемся свойств оценщика, смещение оценщика можно оценить, используя среднюю знаковую разность .

Примеры

Выборочная дисперсия

Выборочная дисперсия случайной величины демонстрирует два аспекта систематической ошибки оценки: во-первых, наивная оценка является смещенной, что можно исправить с помощью масштабного коэффициента; во-вторых, несмещенная оценка не является оптимальной с точки зрения среднеквадратической ошибки (MSE), которую можно минимизировать, используя другой масштабный коэффициент, что приводит к смещенной оценке с более низким MSE, чем у несмещенной оценки. Конкретно, наивная оценка суммирует квадраты отклонений и делит их на n, что является смещением. Вместо этого деление на n - 1 дает несмещенную оценку. И наоборот, MSE можно минимизировать путем деления на другое число (в зависимости от распределения), но это приводит к смещенной оценке. Это число всегда больше, чем n - 1, поэтому оно известно как оценка сжатия , поскольку оно «сжимает» несмещенную оценку к нулю; для нормального распределения оптимальное значение равно n + 1.

Предположим, что X ₁ , ..., X _n являются независимыми и одинаково распределенными (iid) случайными величинами с математическим ожиданием µ и дисперсией σ ² . Если выборочное среднее и неисправленная выборочная дисперсия определяются как

{\overline {X}}\,={\frac {1}{n}}\sum _{i=1}^{n}X_{i}\qquad S^{2}={\frac {1}{n}}\sum _{i=1}^{n}{\big (}X_{i}-{\overline {X}}\,{\big )}^{2}\qquad

тогда S2 ^{является} смещенной оценкой σ2 ^, поскольку

{\begin{aligned}\operatorname {E} [S^{2}]&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}{\big (}X_{i}-{\overline {X}}{\big )}^{2}\right]=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}{\bigg (}(X_{i}-\mu )-({\overline {X}}-\mu ){\bigg )}^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}{\bigg (}(X_{i}-\mu )^{2}-2({\overline {X}}-\mu )(X_{i}-\mu )+({\overline {X}}-\mu )^{2}{\bigg )}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\sum _{i=1}^{n}(X_{i}-\mu )+{\frac {1}{n}}({\overline {X}}-\mu )^{2}\sum _{i=1}^{n}1{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\sum _{i=1}^{n}(X_{i}-\mu )+{\frac {1}{n}}({\overline {X}}-\mu )^{2}\cdot n{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\sum _{i=1}^{n}(X_{i}-\mu )+({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]\end{aligned}}

В продолжение заметим, что вычитая из обеих частей , получаем $\mu$ ${\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}$

{\begin{aligned}{\overline {X}}-\mu ={\frac {1}{n}}\sum _{i=1}^{n}X_{i}-\mu ={\frac {1}{n}}\sum _{i=1}^{n}X_{i}-{\frac {1}{n}}\sum _{i=1}^{n}\mu \ ={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu ).\\[8pt]\end{aligned}}

Значение (путем перекрестного умножения) . Тогда предыдущее становится: $n\cdot ({\overline {X}}-\mu )=\sum _{i=1}^{n}(X_{i}-\mu )$

{\begin{aligned}\operatorname {E} [S^{2}]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\sum _{i=1}^{n}(X_{i}-\mu )+({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\cdot n\cdot ({\overline {X}}-\mu )+({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-2({\overline {X}}-\mu )^{2}+({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}{\bigg ]}-\operatorname {E} {\bigg [}({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\sigma ^{2}-\operatorname {E} {\bigg [}({\overline {X}}-\mu )^{2}{\bigg ]}=\left(1-{\frac {1}{n}}\right)\sigma ^{2}<\sigma ^{2}.\end{aligned}}

В этом можно убедиться, обратив внимание на следующую формулу, которая следует из формулы Бьенеме для члена неравенства для ожидания нескорректированной выборочной дисперсии, приведенной выше: . $\operatorname {E} {\big [}({\overline {X}}-\mu )^{2}{\big ]}={\frac {1}{n}}\sigma ^{2}$

Другими словами, ожидаемое значение нескорректированной выборочной дисперсии не равно популяционной дисперсии σ ² , если не умножено на коэффициент нормализации. С другой стороны, выборочное среднее является несмещенной ^[5] оценкой генерального среднего ц . ^[3]

Обратите внимание, что обычно выборочная дисперсия определяется как , и это несмещенная оценка генеральной дисперсии. $S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}}\,)^{2}$

Алгебраически говоря, является несмещенным, потому что: $\operatorname {E} [S^{2}]$

{\begin{aligned}\operatorname {E} [S^{2}]&=\operatorname {E} \left[{\frac {1}{n-1}}\sum _{i=1}^{n}{\big (}X_{i}-{\overline {X}}{\big )}^{2}\right]={\frac {n}{n-1}}\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}{\big (}X_{i}-{\overline {X}}{\big )}^{2}\right]\\[8pt]&={\frac {n}{n-1}}\left(1-{\frac {1}{n}}\right)\sigma ^{2}=\sigma ^{2},\\[8pt]\end{aligned}}

где переход ко второй строке использует результат, полученный выше для смещенной оценки. Таким образом , и, следовательно, является несмещенной оценкой генеральной дисперсии σ ² . Отношение между смещенной (нескорректированной) и несмещенной оценками дисперсии известно как поправка Бесселя . $\operatorname {E} [S^{2}]=\sigma ^{2}$ $S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}}\,)^{2}$

Причина того, что нескорректированная выборочная дисперсия S ² является смещенной, связана с тем фактом, что выборочное среднее представляет собой обычную оценку методом наименьших квадратов (OLS) для μ : это число, которое делает сумму минимально возможной. То есть, когда в эту сумму подставляется любое другое число, сумма может только увеличиваться. В частности, выбор дает, ${\overline {X}}$ $\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}$ $\mu \neq {\overline {X}}$

{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}<{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2},

а потом

{\begin{aligned}\operatorname {E} [S^{2}]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}{\bigg ]}<\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}{\bigg ]}=\sigma ^{2}.\end{aligned}}

Вышеупомянутое обсуждение можно понять в геометрических терминах: вектор можно разложить на «среднюю часть» и «дисперсионную часть» путем проецирования в направлении и на ортогональную дополнительную гиперплоскость этого направления. Получают как за сопутствующую, так и за дополнительную часть. Так как это ортогональное разложение, то теорема Пифагора гласит , и взяв математическое ожидание, мы получим , как указано выше (но времена ). Если распределение вращательно-симметрично, как в случае, когда производится выборка из гауссианы, то в среднем размерность вдоль вносит такой же вклад, как и направления, перпендикулярные , так что и . В целом это действительно так, как объяснялось выше. ${\vec {C}}=(X_{1}-\mu ,\ldots ,X_{n}-\mu )$ ${\vec {u}}=(1,\ldots ,1)$ ${\vec {A}}=({\overline {X}}-\mu ,\ldots ,{\overline {X}}-\mu )$ ${\vec {u}}$ ${\vec {B}}=(X_{1}-{\overline {X}},\ldots ,X_{n}-{\overline {X}})$ $|{\vec {C}}|^{2}=|{\vec {A}}|^{2}+|{\vec {B}}|^{2}$ $n\sigma ^{2}=n\operatorname {E} \left[({\overline {X}}-\mu )^{2}\right]+n\operatorname {E} [S^{2}]$ $n$ ${\vec {C}}$ $X_{i}$ ${\vec {u}}$ $|{\vec {C}}|^{2}$ $n-1$ ${\vec {u}}$ $\operatorname {E} \left[({\overline {X}}-\mu )^{2}\right]={\frac {\sigma ^{2}}{n}}$ $\operatorname {E} [S^{2}]={\frac {(n-1)\sigma ^{2}}{n}}$

Оценка вероятности Пуассона

Гораздо более крайний случай, когда смещенная оценка лучше, чем любая несмещенная оценка, возникает из распределения Пуассона . ^[6]^[7] Предположим, что X имеет распределение Пуассона с математическим ожиданием λ . Предположим, что требуется оценить

\operatorname {P} (X=0)^{2}=e^{-2\lambda }\quad

с выборкой размером 1. (Например, если входящие вызовы на телефонный коммутатор моделируются как процесс Пуассона, а λ — среднее количество вызовов в минуту, то e ^{−2 λ} — вероятность того, что в следующие две минуты.)

Так как математическое ожидание несмещенной оценки δ ( X ) равно оценке , т.е.

\operatorname {E} (\delta (X))=\sum _{x=0}^{\infty }\delta (x){\frac {\lambda ^{x}e^{-\lambda }}{x!}}=e^{-2\lambda },

единственная функция данных, составляющих несмещенную оценку, - это

\delta (x)=(-1)^{x}.\,

Чтобы убедиться в этом, обратите внимание, что при разложении e ^{− λ} из приведенного выше выражения для ожидания оставшаяся сумма также представляет собой разложение e ⁻^λ в ряд Тейлора , что дает e ⁻^λ e ⁻^λ = e ⁻²^λ (см. Характеристики показательной функции ).

Если наблюдаемое значение X равно 100, то оценка равна 1, хотя истинное значение оцениваемой величины, скорее всего, будет около 0, что является противоположным крайним значением. А если X равен 101, то оценка становится еще более абсурдной: она равна -1, хотя оцениваемая величина должна быть положительной.

(Смещенная) оценка максимального правдоподобия

e^{-2{X}}\quad

намного лучше, чем эта несмещенная оценка. Его значение не только всегда положительно, но и более точно в том смысле, что его среднеквадратическая ошибка

e^{-4\lambda }-2e^{\lambda (1/e^{2}-3)}+e^{\lambda (1/e^{4}-1)}\,

меньше; сравнить СКО несмещенной оценки

1-e^{-4\lambda }.\,

СКО являются функциями истинного значения λ . Смещение оценки максимального правдоподобия:

e^{-2\lambda }-e^{\lambda (1/e^{2}-1)}.\,

Максимум дискретного равномерного распределения

Смещение оценок максимального правдоподобия может быть существенным. Рассмотрим случай, когда n билетов с номерами от 1 до n помещены в коробку, и один из них выбирается случайным образом, что дает значение X. Если n неизвестно, то оценкой максимального правдоподобия n является X , даже если математическое ожидание X при заданном n равно только ( n + 1)/2; мы можем быть уверены только в том, что n не меньше X , а возможно, и больше. В этом случае естественная несмещенная оценка равна 2 X − 1.

Медианно-несмещенные оценки

Теория медианно -несмещенных оценок была возрождена Джорджем Брауном в 1947 году: ^[8]

Оценка одномерного параметра θ будет называться несмещенной по медиане, если при фиксированном θ медиана распределения оценки равна значению θ; т. е. оценка занижается так же часто, как и переоценивается. Кажется, что для большинства целей это требование удовлетворяет тем же требованиям, что и требование несмещенности по среднему, и обладает дополнительным свойством, состоящим в том, что оно инвариантно относительно взаимно однозначного преобразования.

Дополнительные свойства несмещенных по медиане оценок были отмечены Леманном, Бирнбаумом, ван дер Ваартом и Пфанзаглем. ^{[ нужна ссылка ]} В частности, несмещенные по медиане оценки существуют в тех случаях, когда не существуют несмещенные по среднему оценки и оценки максимального правдоподобия . Они инвариантны относительно взаимно однозначных преобразований .

Существуют методы построения несмещенных по медиане оценок для распределений вероятностей, которые имеют монотонные функции правдоподобия , такие как однопараметрические экспоненциальные семейства, чтобы гарантировать, что они оптимальны (в смысле, аналогичном свойству минимальной дисперсии, рассматриваемому для несмещенных к среднему оценок). . ^[9]^[10] Одна из таких процедур является аналогом процедуры Рао-Блэквелла для несмещенных в среднем оценок: процедура справедлива для меньшего класса распределений вероятностей, чем процедура Рао-Блэквелла для несмещенных в среднем оценок, но для большего класс функций потерь. ^[10]

Смещение по отношению к другим функциям потерь

Любая несмещенная по среднему оценщик с минимальной дисперсией минимизирует риск ( ожидаемые потери ) по отношению к функции потерь квадратичной ошибки (среди несмещенных по среднему оценок), как заметил Гаусс . ^[11]Медианно -несмещенная оценка с минимальным и средним абсолютным отклонением минимизирует риск в отношении функции абсолютных потерь (среди медианно-несмещенных оценок), как заметил Лаплас . ^[11]^[12] В статистике используются и другие функции потерь, особенно в робастной статистике . ^[11]^[13]

Эффект преобразований

Для одномерных параметров несмещенные по медиане оценки остаются несмещенными по медиане при преобразованиях , сохраняющих порядок (или обратный порядок). Обратите внимание, что когда преобразование применяется к несмещенной к среднему оценке, результат не обязательно должен быть несмещенной к среднему оценке соответствующей статистики населения. Согласно неравенству Йенсена , выпуклая функция при преобразовании будет вносить положительное смещение, тогда как вогнутая функция будет вносить отрицательное смещение, а функция смешанной выпуклости может вносить смещение в любом направлении, в зависимости от конкретной функции и распределения. То есть для нелинейной функции f и несмещенной в среднем оценки U параметра p составная оценка f ( U ) не обязательно должна быть несмещенной в среднем оценкой f ( p ). Например, квадратный корень из несмещенной оценки дисперсии генеральной совокупности не является несмещенной оценкой стандартного отклонения генеральной совокупности : квадратный корень из несмещенной дисперсии выборки , скорректированное стандартное отклонение выборки , является смещенным. Смещение зависит как от выборочного распределения оценщика, так и от преобразования, и его расчет может быть весьма сложным - см. обсуждение в этом случае несмещенной оценки стандартного отклонения .

Смещение, дисперсия и среднеквадратическая ошибка

Хотя смещение количественно определяет среднюю ожидаемую разницу между оценщиком и базовым параметром, можно дополнительно ожидать, что оценщик, основанный на конечной выборке, будет отличаться от параметра из-за случайности в выборке. Оценщик, который минимизирует смещение, не обязательно минимизирует среднеквадратическую ошибку. Одной мерой, которая используется для отражения обоих типов различий , является среднеквадратическая ошибка ^{[2] .}

\operatorname {MSE} ({\hat {\theta }})=\operatorname {E} {\big [}({\hat {\theta }}-\theta )^{2}{\big ]}.

Можно показать, что оно равно квадрату смещения плюс дисперсия: ^[2]

{\begin{aligned}\operatorname {MSE} ({\hat {\theta }})=&(\operatorname {E} [{\hat {\theta }}]-\theta )^{2}+\operatorname {E} [\,({\hat {\theta }}-\operatorname {E} [\,{\hat {\theta }}\,])^{2}\,]\\=&(\operatorname {Bias} ({\hat {\theta }},\theta ))^{2}+\operatorname {Var} ({\hat {\theta }})\end{aligned}}

Когда параметр является вектором, применяется аналогичное разложение: ^[14]

\operatorname {MSE} ({\hat {\theta }})=\operatorname {trace} (\operatorname {Cov} ({\hat {\theta }}))+\left\Vert \operatorname {Bias} ({\hat {\theta }},\theta )\right\Vert ^{2}

где — след (диагональная сумма) ковариационной матрицы оценки, а — норма квадратного вектора . $\operatorname {trace} (\operatorname {Cov} ({\hat {\theta }}))$ $\left\Vert \operatorname {Bias} ({\hat {\theta }},\theta )\right\Vert ^{2}$

Пример: оценка дисперсии генеральной совокупности.

Например, в ^[15] предположим, что имеется оценка вида

T^{2}=c\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}=cnS^{2}

ищется дисперсия генеральной совокупности, как указано выше, но на этот раз для минимизации MSE:

{\begin{aligned}\operatorname {MSE} =&\operatorname {E} \left[(T^{2}-\sigma ^{2})^{2}\right]\\=&\left(\operatorname {E} \left[T^{2}-\sigma ^{2}\right]\right)^{2}+\operatorname {Var} (T^{2})\end{aligned}}

Если переменные X ₁ ... X _n подчиняются нормальному распределению, то nS ² /σ ² имеет распределение хи-квадрат с n − 1 степенями свободы, что дает:

\operatorname {E} [nS^{2}]=(n-1)\sigma ^{2}{\text{ and }}\operatorname {Var} (nS^{2})=2(n-1)\sigma ^{4}.

и так

\operatorname {MSE} =(c(n-1)-1)^{2}\sigma ^{4}+2c^{2}(n-1)\sigma ^{4}

С помощью небольшой алгебры можно подтвердить, что именно c = 1/( n + 1) минимизирует эту комбинированную функцию потерь, а не c = 1/( n - 1), которая минимизирует только квадрат смещения.

В более общем смысле только в ограниченных классах задач будет существовать средство оценки, которое минимизирует MSE независимо от значений параметров.

Однако очень часто можно предположить, что существует компромисс между смещением и дисперсией , когда небольшое увеличение смещения можно обменять на большее уменьшение дисперсии, что в целом приводит к более желательной оценке.

Байесовский взгляд

Большинство байесовцев совершенно не беспокоится о несмещенности (по крайней мере, в формальном смысле теории выборки, изложенном выше) своих оценок. Например, Гельман и соавторы (1995) пишут: «С байесовской точки зрения принцип несмещенности разумен в пределах больших выборок, но в остальном он потенциально вводит в заблуждение». ^[16]

По сути, разница между байесовским подходом и описанным выше подходом теории выборки заключается в том, что в подходе теории выборки параметр считается фиксированным, а затем рассматриваются вероятностные распределения статистики на основе прогнозируемого выборочного распределения данных. Однако для байесовского подхода это данные , которые известны и фиксированы, и это неизвестный параметр, для которого делается попытка построить распределение вероятностей, используя теорему Байеса :

p(\theta \mid D,I)\propto p(\theta \mid I)p(D\mid \theta ,I)

Здесь второй член — вероятность данных при неизвестном значении параметра θ — зависит только от полученных данных и моделирования процесса генерации данных. Однако байесовский расчет также включает в себя первый член, априорную вероятность для θ, которая учитывает все, что аналитик может знать или подозревать о θ до того, как поступят данные. Эта информация не играет никакой роли в подходе теории выборки; действительно, любая попытка включить его будет рассматриваться как «отклонение» от того, на что указывают исключительно данные. Поскольку байесовские расчеты включают в себя априорную информацию, поэтому практически неизбежно, что их результаты не будут «несмещенными» с точки зрения теории выборки.

Но результаты байесовского подхода могут отличаться от подхода теории выборки, даже если байесовский подход пытается принять «неинформативный» априор.

Например, снова рассмотрим оценку неизвестной дисперсии генеральной совокупности σ ² нормального распределения с неизвестным средним значением, где желательно оптимизировать c в функции ожидаемых потерь.

\operatorname {ExpectedLoss} =\operatorname {E} \left[\left(cnS^{2}-\sigma ^{2}\right)^{2}\right]=\operatorname {E} \left[\sigma ^{4}\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]

Стандартным выбором неинформативного априора для этой задачи является априор Джеффриса , что эквивалентно принятию плоского априора, инвариантного к масштабированию, для ln(σ ² ) . $\scriptstyle {p(\sigma ^{2})\;\propto \;1/\sigma ^{2}}$

Одним из последствий принятия этого принципа является то, что S ² /σ ² остается основной величиной , т.е. распределение вероятностей S ² /σ ² зависит только от S ² /σ ² , независимо от значения S ² или σ ² :

p\left({\tfrac {S^{2}}{\sigma ^{2}}}\mid S^{2}\right)=p\left({\tfrac {S^{2}}{\sigma ^{2}}}\mid \sigma ^{2}\right)=g\left({\tfrac {S^{2}}{\sigma ^{2}}}\right)

Однако в то время как

\operatorname {E} _{p(S^{2}\mid \sigma ^{2})}\left[\sigma ^{4}\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]=\sigma ^{4}\operatorname {E} _{p(S^{2}\mid \sigma ^{2})}\left[\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]

в отличие

\operatorname {E} _{p(\sigma ^{2}\mid S^{2})}\left[\sigma ^{4}\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]\neq \sigma ^{4}\operatorname {E} _{p(\sigma ^{2}\mid S^{2})}\left[\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]

- когда математическое ожидание берется за распределение вероятностей σ ² при заданном S ² , как это происходит в байесовском случае, а не на S ² при заданном σ ² , нельзя больше принимать σ ⁴ как константу и вычитать ее. Следствием этого является то, что по сравнению с расчетом по теории выборки байесовский расчет придает больший вес большим значениям σ ² , правильно учитывая (а расчет по теории выборки не может), что при этой функции квадрата потерь следствие недооценка больших значений σ ² обходится дороже с точки зрения квадрата потерь, чем переоценка малых значений σ ² .

Разработанный байесовский расчет дает масштабированное обратное распределение хи-квадрат с n - 1 степенями свободы для апостериорного распределения вероятностей σ ² . Ожидаемые потери минимизируются, когда cnS ² = <σ ² >; это происходит, когда c = 1/( n − 3).

Таким образом, даже при неинформативном априорном подходе байесовский расчет может не дать такого же результата по минимизации ожидаемых потерь, как соответствующий расчет по теории выборки.

Смотрите также

Примечания

^ «Почему для биномиального распределения не существует несмещенной оценки для $1/p$?». Математический обмен стеками . Проверено 27 декабря 2023 г.
^ abc Коздрон, Майкл (март 2016 г.). «Оценка качества оценщика: смещение, среднеквадратическая ошибка, относительная эффективность (глава 3)» (PDF) . stat.math.uregina.ca . Проверено 11 сентября 2020 г.
↑ Аб Тейлор, Кортни (13 января 2019 г.). «Непредвзятые и смещенные оценки». МысльКо . Проверено 12 сентября 2020 г.
^ Деккинг, Мишель, изд. (2005). Современное введение в вероятность и статистику: понимание почему и как . Тексты Спрингера в статистике. Лондон [Гейдельберг]: Springer. ISBN 978-1-85233-896-1.
^ Ричард Арнольд Джонсон; Дин В. Вичерн (2007). Прикладной многомерный статистический анализ. Пирсон Прентис Холл. ISBN 978-0-13-187715-3. Проверено 10 августа 2012 г.
^ Дж. П. Романо и А. Ф. Сигел (1986) Контрпримеры в теории вероятностей и статистике , Уодсворт и Брукс / Коул, Монтерей, Калифорния, США, стр. 168
^ Харди, М. (1 марта 2003 г.). «Ясный контрпример». Американский математический ежемесячник . 110 (3): 234–238. arXiv : math/0206006 . дои : 10.2307/3647938. ISSN 0002-9890. JSTOR 3647938.
^ Браун (1947), стр. 583
^ Пфанзагль, Иоганн (1979). «Об оптимальных медианных несмещенных оценках при наличии мешающих параметров». Анналы статистики . 7 (1): 187–193. дои : 10.1214/aos/1176344563 .
^ Аб Браун, LD; Коэн, Артур; Стродерман, МЫ (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями». Анна. Статист . 4 (4): 712–722. дои : 10.1214/aos/1176343543 .
^ abc Dodge, Ядола, изд. (1987). Статистический анализ данных на основе L ₁ -нормы и родственных методов . Материалы Первой международной конференции, состоявшейся в Невшателе, 31 августа – 4 сентября 1987 г. Амстердам: Северная Голландия. ISBN 0-444-70273-3.
^ Джейнс, ET (2007). Теория вероятностей: Логика науки . Кембридж: Кембриджский университет. Нажимать. п. 172. ИСБН 978-0-521-59271-0.
^ Клебанов, Лев Б.; Рачев Светлозар Т.; Фабоцци, Фрэнк Дж. (2009). «Функции потерь и теория несмещенной оценки». Робастные и неробастные модели в статистике . Нью-Йорк: Нова Сайентифик. ISBN 978-1-60741-768-2.
^ Табога, Марко (2010). «Лекции по теории вероятностей и математической статистике».
^ ДеГрут, Моррис Х. (1986). Вероятность и статистика (2-е изд.). Аддисон-Уэсли. стр. 414–5. ISBN 0-201-11366-Х.Но сравните это, например, с дискуссией в Казелле; Бергер (2001). Статистический вывод (2-е изд.). Даксбери. п. 332. ИСБН 0-534-24312-6.
^ Гельман, А.; и другие. (1995). Байесовский анализ данных . Чепмен и Холл. п. 108. ИСБН 0-412-03991-5.

Внешние ссылки

«Несмещенная оценка», Математическая энциклопедия , EMS Press , 2001 [1994]^{[ нужны разъяснения ]}