Байесовский оценщик

В теории оценивания и теории принятия решений байесовская оценка или действие Байеса — это оценка или правило принятия решения , которое минимизирует апостериорное ожидаемое значение функции потерь (т. е. апостериорную ожидаемую потерю ). Эквивалентно, это максимизирует апостериорное математическое ожидание функции полезности . Альтернативным способом формулирования оценки в байесовской статистике является максимальная апостериорная оценка .

Определение

Предположим, что неизвестный параметр имеет априорное распределение . Пусть будет оценщиком (основанным на некоторых измерениях x ), и пусть будет функцией потерь , такой как квадрат ошибки. Байесовский риск определяется как , где ожидание принимается за распределение вероятностей : это определяет функцию риска как функцию . Оценщик называется оценщиком Байеса , если он минимизирует риск Байеса среди всех оценщиков. Аналогично, оценщик, который минимизирует апостериорные ожидаемые потери для каждого, также минимизирует риск Байеса и, следовательно, является оценщиком Байеса. ^[1] $\theta$ $\pi$ ${\widehat {\theta }}={\widehat {\theta }}(x)$ $\theta$ $L(\theta ,{\widehat {\theta }})$ ${\widehat {\theta }}$ $E_{\pi }(L(\theta ,{\widehat {\theta }}))$ $\theta$ ${\widehat {\theta }}$ ${\widehat {\theta }}$ $E(L(\theta ,{\widehat {\theta }})|x)$ $x$

Если априорная оценка неправильная , то оценка, которая минимизирует апостериорные ожидаемые потери для каждого из них, $x$ называется обобщенной оценкой Байеса . ^[2]

Примеры

Оценка минимальной среднеквадратической ошибки

Наиболее распространенной функцией риска, используемой для байесовской оценки, является среднеквадратическая ошибка (MSE), также называемая риском квадратичной ошибки . MSE определяется

\mathrm {MSE} =E\left[({\widehat {\theta }}(x)-\theta )^{2}\right],

где математическое ожидание берется за совместное распределение и . $\theta$ $x$

Апостериорное среднее

Используя MSE в качестве риска, байесовская оценка неизвестного параметра представляет собой просто среднее значение апостериорного распределения , ^[3]

{\widehat {\theta }}(x)=E[\theta |x]=\int \theta \,p(\theta |x)\,d\theta .

Это известно как оценка минимальной среднеквадратической ошибки (MMSE).

Байесовские оценки для сопряженных априорных значений

Если нет внутренней причины предпочитать одно априорное распределение вероятностей другому, для простоты иногда выбирается сопряженное априорное распределение . Сопряженное априорное распределение определяется как априорное распределение, принадлежащее некоторому параметрическому семейству , для которого результирующее апостериорное распределение также принадлежит тому же семейству. Это важное свойство, поскольку оценка Байеса, а также ее статистические свойства (дисперсия, доверительный интервал и т. д.) могут быть получены из апостериорного распределения.

Сопряженные априорные значения особенно полезны для последовательной оценки, когда апостериорное значение текущего измерения используется в качестве априорного в следующем измерении. При последовательной оценке, если не используется сопряженное априорное распределение, апостериорное распределение обычно становится более сложным с каждым добавленным измерением, и оценку Байеса обычно невозможно рассчитать, не прибегая к численным методам.

Ниже приведены некоторые примеры сопряженных априорных значений.

Если Normal , , и априорное значение является нормальным, , то апостериорное значение также является нормальным, а оценка Байеса при MSE определяется выражением $x|\theta$ $x|\theta \sim N(\theta ,\sigma ^{2})$ $\theta \sim N(\mu ,\tau ^{2})$

{\widehat {\theta }}(x)={\frac {\sigma ^{2}}{\sigma ^{2}+\tau ^{2}}}\mu +{\frac {\tau ^{2}}{\sigma ^{2}+\tau ^{2}}}x.

Если это случайные величины iid Пуассона , и если априорное распределение является гамма-распределением , то апостериорное также является гамма-распределением, а оценка Байеса при MSE определяется выражением $x_{1},...,x_{n}$ $x_{i}|\theta \sim P(\theta )$ $\theta \sim G(a,b)$

{\widehat {\theta }}(X)={\frac {n{\overline {X}}+a}{n+b}}.

Если iid равномерно распределены и если априорное распределение распределено по Парето , то апостериорное также распределено по Парето, а оценка Байеса при MSE определяется выражением $x_{1},...,x_{n}$ $x_{i}|\theta \sim U(0,\theta )$ $\theta \sim Pa(\theta _{0},a)$

{\widehat {\theta }}(X)={\frac {(a+n)\max {(\theta _{0},x_{1},...,x_{n})}}{a+n-1}}.

Альтернативные функции риска

Функции риска выбираются в зависимости от того, как измеряется расстояние между оценкой и неизвестным параметром. MSE является наиболее распространенной функцией риска, прежде всего из-за ее простоты. Однако иногда используются и альтернативные функции риска. Ниже приведены несколько примеров таких альтернатив. Обозначим апостериорную обобщенную функцию распределения через . $F$

Задняя медиана и другие квантили

«Линейная» функция потерь с , которая дает апостериорную медиану как оценку Байеса: $a>0$

L(\theta ,{\widehat {\theta }})=a|\theta -{\widehat {\theta }}|

F({\widehat {\theta }}(x)|X)={\tfrac {1}{2}}.

Еще одна «линейная» функция потерь, которая присваивает разные «веса» завышенной или неполной оценке. Он дает квантиль из апостериорного распределения и является обобщением предыдущей функции потерь: $a,b>0$

L(\theta ,{\widehat {\theta }})={\begin{cases}a|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}\geq 0\\b|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}<0\end{cases}}

F({\widehat {\theta }}(x)|X)={\frac {a}{a+b}}.

Задний режим

Следующая функция потерь сложнее: она дает либо апостериорную моду , либо точку, близкую к ней, в зависимости от кривизны и свойств апостериорного распределения. Рекомендуется использовать небольшие значения параметра , чтобы использовать режим в качестве приближения ( ): $K>0$ $L>0$

L(\theta ,{\widehat {\theta }})={\begin{cases}0,&{\mbox{for }}|\theta -{\widehat {\theta }}|<K\\L,&{\mbox{for }}|\theta -{\widehat {\theta }}|\geq K.\end{cases}}

Можно придумать и другие функции потерь, хотя среднеквадратическая ошибка является наиболее широко используемой и проверенной. Другие функции потерь используются в статистике, особенно в робастной статистике .

Обобщенные оценки Байеса

До сих пор предполагалось, что априорное распределение является истинным распределением вероятностей, поскольку $p$

\int p(\theta )d\theta =1.

Однако иногда это может быть ограничительным требованием. Например, не существует распределения (охватывающего множество R всех действительных чисел), для которого каждое действительное число равновероятно. Тем не менее, в некотором смысле такое «распределение» кажется естественным выбором неинформативного априорного распределения , т. е. априорного распределения, которое не подразумевает предпочтения какого-либо конкретного значения неизвестного параметра. Можно еще определить функцию , но это не будет правильным распределением вероятностей, поскольку она имеет бесконечную массу. $p(\theta )=1$

\int {p(\theta )d\theta }=\infty .

Такие меры , которые не являются распределениями вероятностей, называются неправильными априорами . $p(\theta )$

Использование неправильного априорного значения означает, что байесовский риск не определен (поскольку априорное значение не является распределением вероятностей и мы не можем принять в его рамках математическое ожидание). Как следствие, больше не имеет смысла говорить об байесовской оценке, которая минимизирует байесовский риск. Тем не менее во многих случаях можно определить апостериорное распределение

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{\int p(x|\theta )p(\theta )d\theta }}.

Это определение, а не применение теоремы Байеса , поскольку теорему Байеса можно применять только тогда, когда все распределения правильные. Однако нередко полученное «апостериорное» распределение оказывается действительным. В этом случае апостериорные ожидаемые потери

\int {L(\theta ,a)p(\theta |x)d\theta }

обычно четко определена и конечна. Напомним, что для правильного априора оценка Байеса минимизирует апостериорные ожидаемые потери. Когда априорная оценка неверна, оценка, которая минимизирует апостериорные ожидаемые потери, называется обобщенной оценкой Байеса . ^[2]

Пример

Типичным примером является оценка параметра местоположения с помощью функции потерь типа . Вот параметр местоположения, т.е. $L(a-\theta )$ $\theta$ $p(x|\theta )=f(x-\theta )$

В этом случае обычно используется неправильный априор , особенно когда нет другой, более субъективной информации. Это дает $p(\theta )=1$

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{p(x)}}={\frac {f(x-\theta )}{p(x)}}

так что апостериорная ожидаемая потеря

E[L(a-\theta )|x]=\int {L(a-\theta )p(\theta |x)d\theta }={\frac {1}{p(x)}}\int L(a-\theta )f(x-\theta )d\theta .

Обобщенная оценка Байеса — это значение , которое минимизирует это выражение для данного значения . Это эквивалентно минимизации $a(x)$ $x$

\int L(a-\theta )f(x-\theta )d\theta

для данного (1)

x.

В этом случае можно показать, что обобщенная оценка Байеса имеет вид для некоторой константы . Чтобы убедиться в этом, пусть будет значение, минимизирующее (1), когда . Тогда, учитывая другое значение , мы должны минимизировать $x+a_{0}$ $a_{0}$ $a_{0}$ $x=0$ $x_{1}$

\int L(a-\theta )f(x_{1}-\theta )d\theta =\int L(a-x_{1}-\theta ')f(-\theta ')d\theta '.

(2)

Это идентично (1), за исключением того, что оно заменено на . Таким образом, минимизирующее выражение имеет вид , так что оптимальная оценка имеет вид $a$ $a-x_{1}$ $a-x_{1}=a_{0}$

a(x)=a_{0}+x.\,\!

Эмпирические оценки Байеса

Оценка Байеса, полученная с помощью эмпирического метода Байеса, называется эмпирической оценкой Байеса . Эмпирические методы Байеса позволяют использовать вспомогательные эмпирические данные из наблюдений за связанными параметрами при разработке оценки Байеса. Это делается в предположении, что оцененные параметры получены из общего априора. Например, если проводятся независимые наблюдения за различными параметрами, то эффективность оценки конкретного параметра иногда можно улучшить, используя данные других наблюдений.

Существуют как параметрические , так и непараметрические подходы к эмпирической оценке Байеса. ^[4]

Пример

Ниже приведен простой пример параметрической эмпирической байесовской оценки. Учитывая прошлые наблюдения , имеющие условное распределение , нас интересует оценка на основе . Предположим, что у 's есть общий априор , который зависит от неизвестных параметров. Например, предположим, что это нормально с неизвестными средним значением и дисперсией. Затем мы можем использовать прошлые наблюдения, чтобы определить среднее значение и дисперсию следующим образом. $x_{1},\ldots ,x_{n}$ $f(x_{i}|\theta _{i})$ $\theta _{n+1}$ $x_{n+1}$ $\theta _{i}$ $\pi$ $\pi$ $\mu _{\pi }\,\!$ $\sigma _{\pi }\,\!.$ $\pi$

Сначала мы оцениваем среднее значение и дисперсию маргинального распределения с использованием подхода максимального правдоподобия : $\mu _{m}\,\!$ $\sigma _{m}\,\!$ $x_{1},\ldots ,x_{n}$

{\widehat {\mu }}_{m}={\frac {1}{n}}\sum {x_{i}},

{\widehat {\sigma }}_{m}^{2}={\frac {1}{n}}\sum {(x_{i}-{\widehat {\mu }}_{m})^{2}}.

Далее мы используем закон полного ожидания для вычисления и закон полной дисперсии для вычисления так, что $\mu _{m}$ $\sigma _{m}^{2}$

\mu _{m}=E_{\pi }[\mu _{f}(\theta )]\,\!,

\sigma _{m}^{2}=E_{\pi }[\sigma _{f}^{2}(\theta )]+E_{\pi }[(\mu _{f}(\theta )-\mu _{m})^{2}],

где и – моменты условного распределения , которые считаются известными. В частности, предположим, что и то ; тогда у нас есть $\mu _{f}(\theta )$ $\sigma _{f}(\theta )$ $f(x_{i}|\theta _{i})$ $\mu _{f}(\theta )=\theta$ $\sigma _{f}^{2}(\theta )=K$

\mu _{\pi }=\mu _{m}\,\!,

\sigma _{\pi }^{2}=\sigma _{m}^{2}-\sigma _{f}^{2}=\sigma _{m}^{2}-K.

Наконец, мы получаем оценки моментов априора:

{\widehat {\mu }}_{\pi }={\widehat {\mu }}_{m},

{\widehat {\sigma }}_{\pi }^{2}={\widehat {\sigma }}_{m}^{2}-K.

Например, если и если мы предполагаем нормальный априор (который в данном случае является сопряженным априором), мы заключаем, что , из которого можно вычислить байесовскую оценку на основе . $x_{i}|\theta _{i}\sim N(\theta _{i},1)$ $\theta _{n+1}\sim N({\widehat {\mu }}_{\pi },{\widehat {\sigma }}_{\pi }^{2})$ $\theta _{n+1}$ $x_{n+1}$

Характеристики

Приемлемость

Обычно допустимы правила Байеса, имеющие конечный байесовский риск . Ниже приведены некоторые конкретные примеры теорем о допустимости.

Если правило Байеса уникально, то оно допустимо. ^[5] Например, как указано выше, при среднеквадратической ошибке (MSE) правило Байеса уникально и поэтому допустимо.
Если θ принадлежит дискретному множеству , то все правила Байеса допустимы.
Если θ принадлежит непрерывному (недискретному) множеству и если функция риска R(θ,δ) непрерывна по θ для любого δ, то все правила Байеса допустимы.

Напротив, обобщенные правила Байеса часто имеют неопределенный байесовский риск в случае неправильных априорных значений. Эти правила часто являются неприемлемыми, и проверка их приемлемости может быть затруднена. Например, обобщенная байесовская оценка параметра местоположения θ на основе гауссовских выборок (описанная выше в разделе «Обобщенная байесовская оценка») недопустима для ; это известно как феномен Штейна . $p>2$

Асимптотическая эффективность

Пусть θ — неизвестная случайная величина, и предположим, что это выборки iid с плотностью . Пусть — последовательность байесовских оценок θ, основанная на возрастающем количестве измерений. Нас интересует анализ асимптотической эффективности этой последовательности оценок, т. е. производительности при больших n . $x_{1},x_{2},\ldots$ $f(x_{i}|\theta )$ $\delta _{n}=\delta _{n}(x_{1},\ldots ,x_{n})$ $\delta _{n}$

С этой целью принято рассматривать θ как детерминированный параметр, истинное значение которого равно . В определенных условиях ^[6] для больших выборок (большие значения n ) апостериорная плотность θ примерно нормальна. Другими словами, при больших n влияние априорной вероятности на апостериорную незначительно. Более того, если δ является байесовской оценкой риска MSE, то она асимптотически несмещена и сходится по распределению к нормальному распределению : $\theta _{0}$

{\sqrt {n}}(\delta _{n}-\theta _{0})\to N\left(0,{\frac {1}{I(\theta _{0})}}\right),

где I (θ ₀ ) — информация Фишера для θ ₀ . Отсюда следует, что оценка Байеса δ _n при MSE асимптотически эффективна .

Другая оценка, которая является асимптотически нормальной и эффективной, — это оценка максимального правдоподобия (MLE). Связь между оценками максимального правдоподобия и байесовскими оценками можно показать на следующем простом примере.

Пример: оценка p в биномиальном распределении

Рассмотрим оценку θ на основе биномиальной выборки x ~ b(θ, n ), где θ обозначает вероятность успеха. Предполагая, что θ распределяется в соответствии с сопряженным априорным распределением, которое в данном случае является бета-распределением B( a , b ), известно, что апостериорное распределение равно B(a+x,b+nx). Таким образом, оценка Байеса при MSE равна

\delta _{n}(x)=E[\theta |x]={\frac {a+x}{a+b+n}}.

MLE в этом случае равен x/n, поэтому мы получаем:

\delta _{n}(x)={\frac {a+b}{a+b+n}}E[\theta ]+{\frac {n}{a+b+n}}\delta _{MLE}.

Из последнего уравнения следует, что при n → ∞ байесовская оценка (в описанной задаче) близка к MLE.

С другой стороны, когда n мало, априорная информация по-прежнему актуальна для проблемы принятия решения и влияет на оценку. Чтобы увидеть относительный вес априорной информации, предположим, что a = b ; в этом случае каждое измерение приносит 1 новый бит информации; формула выше показывает, что предыдущая информация имеет тот же вес, что и a+b бит новой информации. В приложениях часто очень мало известно о мелких деталях предшествующего распределения; в частности, нет оснований предполагать, что оно в точности совпадает с B( a , b ). В таком случае одна из возможных интерпретаций этого расчета такова: «существует непатологическое априорное распределение со средним значением 0,5 и стандартным отклонением d , которое дает вес априорной информации, равный 1/(4 d ² )-1. кусочки новой информации».

Другим примером того же явления является случай, когда априорная оценка и измерение нормально распределены. Если априорное значение центрировано в точке B с отклонением Σ, а измерение центрировано в точке b с отклонением σ, то апостериорное значение центрируется в точке с весами в этом средневзвешенном значении α=σ², β=Σ². При этом квадрат заднего отклонения равен Σ²+σ². Другими словами, априорное измерение объединяется с измерением точно так же, как если бы это было дополнительное измерение, которое необходимо учитывать. ${\frac {\alpha }{\alpha +\beta }}B+{\frac {\beta }{\alpha +\beta }}b$

Например, если Σ=σ/2, то объединенное отклонение 4 измерений соответствует отклонению априорных измерений (при условии, что ошибки измерений независимы). И веса α,β в формуле для апостериорного измерения соответствуют этому: вес априорного измерения в 4 раза превышает вес измерения. Объединение этого априорного значения с n измерениями со средним значением v приводит к получению заднего изображения с центром в точке ; в частности, априор играет ту же роль, что и 4 измерения, сделанные заранее. В общем, априор имеет вес измерений (σ/Σ)². ${\frac {4}{4+n}}V+{\frac {n}{4+n}}v$

Сравните с примером биномиального распределения: там априор имеет вес (σ/Σ)²−1 измерений. Видно, что точный вес действительно зависит от деталей распределения, но когда σ≫Σ, разница становится небольшой.

Практический пример байесовских оценок

База данных фильмов в Интернете использует формулу для расчета и сравнения рейтингов фильмов ее пользователями, включая их 250 наименований с самым высоким рейтингом , которая, как утверждается, дает «истинную байесовскую оценку». ^[7] Первоначально для расчета средневзвешенного балла для топ-250 использовалась следующая байесовская формула, хотя с тех пор формула изменилась:

W={Rv+Cm \over v+m}\

где:

W\

= взвешенный рейтинг

R\

= средний рейтинг фильма в виде числа от 1 до 10 (среднее) = (Рейтинг)

v\

= количество голосов/рейтингов фильма = (голосов)

m\

= вес, присвоенный предварительной оценке (в данном случае количество голосов, которые IMDB считает необходимыми для того, чтобы средний рейтинг приблизился к статистической достоверности)

C\

= средний голос по всему пулу (сейчас 7,0)

Обратите внимание, что W — это просто взвешенное среднее арифметическое R и C с весовым вектором (v, m) . Поскольку количество оценок превышает m , достоверность среднего рейтинга превосходит достоверность среднего голоса для всех фильмов (C), а взвешенный байесовский рейтинг (W) приближается к прямому среднему значению (R). Чем ближе v (количество оценок фильма) к нулю, тем ближе W к C , где W — взвешенный рейтинг, а C — средний рейтинг всех фильмов. Таким образом, проще говоря, чем меньше оценок/голосов отдано за фильм, тем больше взвешенный рейтинг этого фильма будет смещаться в сторону среднего значения по всем фильмам, в то время как фильмы с большим количеством оценок/голосов будут иметь рейтинг, приближающийся к чистому среднему арифметическому рейтингу.

Подход IMDb гарантирует, что фильм с несколькими рейтингами, все из которых равны 10, не будет иметь рейтинг выше «Крестного отца», например, со средним баллом 9,2 из более чем 500 000 оценок.

Смотрите также

Примечания

^ Леманн и Казелла, Теорема 4.1.1
^ ab Леманн и Казелла, Определение 4.2.9
^ Джейнс, ET (2007). Теория вероятностей: Логика науки (5-е печатное изд.). Кембридж [ua]: Cambridge Univ. Нажимать. п. 172. ИСБН 978-0-521-59271-0.
^ Бергер (1980), раздел 4.5.
^ Леманн и Казелла (1998), Теорема 5.2.4.
^ Леманн и Казелла (1998), раздел 6.8.
^ Топ-250 IMDb

Внешние ссылки

«Байесовский оценщик», Математическая энциклопедия , EMS Press , 2001 [1994]

Байесовский оценщик

Определение

Примеры

Оценка минимальной среднеквадратической ошибки

Апостериорное среднее

Байесовские оценки для сопряженных априорных значений

Альтернативные функции риска

Задняя медиана и другие квантили

Задний режим

Обобщенные оценки Байеса

Пример

Эмпирические оценки Байеса

Пример

Характеристики

Приемлемость

Асимптотическая эффективность

Пример: оценка p в биномиальном распределении

Практический пример байесовских оценок

Смотрите также

Примечания

Рекомендации

Внешние ссылки