В теории оценивания и теории принятия решений байесовская оценка или действие Байеса — это оценка или правило принятия решения , которое минимизирует апостериорное ожидаемое значение функции потерь (т. е. апостериорную ожидаемую потерю ). Эквивалентно, это максимизирует апостериорное математическое ожидание функции полезности . Альтернативным способом формулирования оценки в байесовской статистике является максимальная апостериорная оценка .
Предположим, что неизвестный параметр имеет априорное распределение . Пусть будет оценщиком (основанным на некоторых измерениях x ), и пусть будет функцией потерь , такой как квадрат ошибки. Байесовский риск определяется как , где ожидание принимается за распределение вероятностей : это определяет функцию риска как функцию . Оценщик называется оценщиком Байеса , если он минимизирует риск Байеса среди всех оценщиков. Аналогично, оценщик, который минимизирует апостериорные ожидаемые потери для каждого, также минимизирует риск Байеса и, следовательно, является оценщиком Байеса. [1]
Если априорная оценка неправильная , то оценка, которая минимизирует апостериорные ожидаемые потери для каждого из них, называется обобщенной оценкой Байеса . [2]
Наиболее распространенной функцией риска, используемой для байесовской оценки, является среднеквадратическая ошибка (MSE), также называемая риском квадратичной ошибки . MSE определяется
где математическое ожидание берется за совместное распределение и .
Используя MSE в качестве риска, байесовская оценка неизвестного параметра представляет собой просто среднее значение апостериорного распределения , [3]
Это известно как оценка минимальной среднеквадратической ошибки (MMSE).
Если нет внутренней причины предпочитать одно априорное распределение вероятностей другому, для простоты иногда выбирается сопряженное априорное распределение . Сопряженное априорное распределение определяется как априорное распределение, принадлежащее некоторому параметрическому семейству , для которого результирующее апостериорное распределение также принадлежит тому же семейству. Это важное свойство, поскольку оценка Байеса, а также ее статистические свойства (дисперсия, доверительный интервал и т. д.) могут быть получены из апостериорного распределения.
Сопряженные априорные значения особенно полезны для последовательной оценки, когда апостериорное значение текущего измерения используется в качестве априорного в следующем измерении. При последовательной оценке, если не используется сопряженное априорное распределение, апостериорное распределение обычно становится более сложным с каждым добавленным измерением, и оценку Байеса обычно невозможно рассчитать, не прибегая к численным методам.
Ниже приведены некоторые примеры сопряженных априорных значений.
Функции риска выбираются в зависимости от того, как измеряется расстояние между оценкой и неизвестным параметром. MSE является наиболее распространенной функцией риска, прежде всего из-за ее простоты. Однако иногда используются и альтернативные функции риска. Ниже приведены несколько примеров таких альтернатив. Обозначим апостериорную обобщенную функцию распределения через .
Можно придумать и другие функции потерь, хотя среднеквадратическая ошибка является наиболее широко используемой и проверенной. Другие функции потерь используются в статистике, особенно в робастной статистике .
До сих пор предполагалось, что априорное распределение является истинным распределением вероятностей, поскольку
Однако иногда это может быть ограничительным требованием. Например, не существует распределения (охватывающего множество R всех действительных чисел), для которого каждое действительное число равновероятно. Тем не менее, в некотором смысле такое «распределение» кажется естественным выбором неинформативного априорного распределения , т. е. априорного распределения, которое не подразумевает предпочтения какого-либо конкретного значения неизвестного параметра. Можно еще определить функцию , но это не будет правильным распределением вероятностей, поскольку она имеет бесконечную массу.
Такие меры , которые не являются распределениями вероятностей, называются неправильными априорами .
Использование неправильного априорного значения означает, что байесовский риск не определен (поскольку априорное значение не является распределением вероятностей и мы не можем принять в его рамках математическое ожидание). Как следствие, больше не имеет смысла говорить об байесовской оценке, которая минимизирует байесовский риск. Тем не менее во многих случаях можно определить апостериорное распределение
Это определение, а не применение теоремы Байеса , поскольку теорему Байеса можно применять только тогда, когда все распределения правильные. Однако нередко полученное «апостериорное» распределение оказывается действительным. В этом случае апостериорные ожидаемые потери
обычно четко определена и конечна. Напомним, что для правильного априора оценка Байеса минимизирует апостериорные ожидаемые потери. Когда априорная оценка неверна, оценка, которая минимизирует апостериорные ожидаемые потери, называется обобщенной оценкой Байеса . [2]
Типичным примером является оценка параметра местоположения с помощью функции потерь типа . Вот параметр местоположения, т.е.
В этом случае обычно используется неправильный априор , особенно когда нет другой, более субъективной информации. Это дает
так что апостериорная ожидаемая потеря
Обобщенная оценка Байеса — это значение , которое минимизирует это выражение для данного значения . Это эквивалентно минимизации
В этом случае можно показать, что обобщенная оценка Байеса имеет вид для некоторой константы . Чтобы убедиться в этом, пусть будет значение, минимизирующее (1), когда . Тогда, учитывая другое значение , мы должны минимизировать
Это идентично (1), за исключением того, что оно заменено на . Таким образом, минимизирующее выражение имеет вид , так что оптимальная оценка имеет вид
Оценка Байеса, полученная с помощью эмпирического метода Байеса, называется эмпирической оценкой Байеса . Эмпирические методы Байеса позволяют использовать вспомогательные эмпирические данные из наблюдений за связанными параметрами при разработке оценки Байеса. Это делается в предположении, что оцененные параметры получены из общего априора. Например, если проводятся независимые наблюдения за различными параметрами, то эффективность оценки конкретного параметра иногда можно улучшить, используя данные других наблюдений.
Существуют как параметрические , так и непараметрические подходы к эмпирической оценке Байеса. [4]
Ниже приведен простой пример параметрической эмпирической байесовской оценки. Учитывая прошлые наблюдения , имеющие условное распределение , нас интересует оценка на основе . Предположим, что у 's есть общий априор , который зависит от неизвестных параметров. Например, предположим, что это нормально с неизвестными средним значением и дисперсией. Затем мы можем использовать прошлые наблюдения, чтобы определить среднее значение и дисперсию следующим образом.
Сначала мы оцениваем среднее значение и дисперсию маргинального распределения с использованием подхода максимального правдоподобия :
Далее мы используем закон полного ожидания для вычисления и закон полной дисперсии для вычисления так, что
где и – моменты условного распределения , которые считаются известными. В частности, предположим, что и то ; тогда у нас есть
Наконец, мы получаем оценки моментов априора:
Например, если и если мы предполагаем нормальный априор (который в данном случае является сопряженным априором), мы заключаем, что , из которого можно вычислить байесовскую оценку на основе .
Обычно допустимы правила Байеса, имеющие конечный байесовский риск . Ниже приведены некоторые конкретные примеры теорем о допустимости.
Напротив, обобщенные правила Байеса часто имеют неопределенный байесовский риск в случае неправильных априорных значений. Эти правила часто являются неприемлемыми, и проверка их приемлемости может быть затруднена. Например, обобщенная байесовская оценка параметра местоположения θ на основе гауссовских выборок (описанная выше в разделе «Обобщенная байесовская оценка») недопустима для ; это известно как феномен Штейна .
Пусть θ — неизвестная случайная величина, и предположим, что это выборки iid с плотностью . Пусть — последовательность байесовских оценок θ, основанная на возрастающем количестве измерений. Нас интересует анализ асимптотической эффективности этой последовательности оценок, т. е. производительности при больших n .
С этой целью принято рассматривать θ как детерминированный параметр, истинное значение которого равно . В определенных условиях [6] для больших выборок (большие значения n ) апостериорная плотность θ примерно нормальна. Другими словами, при больших n влияние априорной вероятности на апостериорную незначительно. Более того, если δ является байесовской оценкой риска MSE, то она асимптотически несмещена и сходится по распределению к нормальному распределению :
где I (θ 0 ) — информация Фишера для θ 0 . Отсюда следует, что оценка Байеса δ n при MSE асимптотически эффективна .
Другая оценка, которая является асимптотически нормальной и эффективной, — это оценка максимального правдоподобия (MLE). Связь между оценками максимального правдоподобия и байесовскими оценками можно показать на следующем простом примере.
Рассмотрим оценку θ на основе биномиальной выборки x ~ b(θ, n ), где θ обозначает вероятность успеха. Предполагая, что θ распределяется в соответствии с сопряженным априорным распределением, которое в данном случае является бета-распределением B( a , b ), известно, что апостериорное распределение равно B(a+x,b+nx). Таким образом, оценка Байеса при MSE равна
MLE в этом случае равен x/n, поэтому мы получаем:
Из последнего уравнения следует, что при n → ∞ байесовская оценка (в описанной задаче) близка к MLE.
С другой стороны, когда n мало, априорная информация по-прежнему актуальна для проблемы принятия решения и влияет на оценку. Чтобы увидеть относительный вес априорной информации, предположим, что a = b ; в этом случае каждое измерение приносит 1 новый бит информации; формула выше показывает, что предыдущая информация имеет тот же вес, что и a+b бит новой информации. В приложениях часто очень мало известно о мелких деталях предшествующего распределения; в частности, нет оснований предполагать, что оно в точности совпадает с B( a , b ). В таком случае одна из возможных интерпретаций этого расчета такова: «существует непатологическое априорное распределение со средним значением 0,5 и стандартным отклонением d , которое дает вес априорной информации, равный 1/(4 d 2 )-1. кусочки новой информации».
Другим примером того же явления является случай, когда априорная оценка и измерение нормально распределены. Если априорное значение центрировано в точке B с отклонением Σ, а измерение центрировано в точке b с отклонением σ, то апостериорное значение центрируется в точке с весами в этом средневзвешенном значении α=σ², β=Σ². При этом квадрат заднего отклонения равен Σ²+σ². Другими словами, априорное измерение объединяется с измерением точно так же, как если бы это было дополнительное измерение, которое необходимо учитывать.
Например, если Σ=σ/2, то объединенное отклонение 4 измерений соответствует отклонению априорных измерений (при условии, что ошибки измерений независимы). И веса α,β в формуле для апостериорного измерения соответствуют этому: вес априорного измерения в 4 раза превышает вес измерения. Объединение этого априорного значения с n измерениями со средним значением v приводит к получению заднего изображения с центром в точке ; в частности, априор играет ту же роль, что и 4 измерения, сделанные заранее. В общем, априор имеет вес измерений (σ/Σ)².
Сравните с примером биномиального распределения: там априор имеет вес (σ/Σ)²−1 измерений. Видно, что точный вес действительно зависит от деталей распределения, но когда σ≫Σ, разница становится небольшой.
База данных фильмов в Интернете использует формулу для расчета и сравнения рейтингов фильмов ее пользователями, включая их 250 наименований с самым высоким рейтингом , которая, как утверждается, дает «истинную байесовскую оценку». [7] Первоначально для расчета средневзвешенного балла для топ-250 использовалась следующая байесовская формула, хотя с тех пор формула изменилась:
где:
Обратите внимание, что W — это просто взвешенное среднее арифметическое R и C с весовым вектором (v, m) . Поскольку количество оценок превышает m , достоверность среднего рейтинга превосходит достоверность среднего голоса для всех фильмов (C), а взвешенный байесовский рейтинг (W) приближается к прямому среднему значению (R). Чем ближе v (количество оценок фильма) к нулю, тем ближе W к C , где W — взвешенный рейтинг, а C — средний рейтинг всех фильмов. Таким образом, проще говоря, чем меньше оценок/голосов отдано за фильм, тем больше взвешенный рейтинг этого фильма будет смещаться в сторону среднего значения по всем фильмам, в то время как фильмы с большим количеством оценок/голосов будут иметь рейтинг, приближающийся к чистому среднему арифметическому рейтингу.
Подход IMDb гарантирует, что фильм с несколькими рейтингами, все из которых равны 10, не будет иметь рейтинг выше «Крестного отца», например, со средним баллом 9,2 из более чем 500 000 оценок.