В байесовской статистике гипераприор — это априорное распределение по гиперпараметру , то есть по параметру априорного распределения .
Как и в случае с термином гиперпараметр, использование гипер используется для того, чтобы отличить его от предварительного распределения параметра модели для базовой системы. Они возникают, в частности, при использовании иерархических моделей . [1] [2]
Например, если для моделирования распределения параметра p распределения Бернулли используется бета-распределение , то:
В принципе, можно повторить вышесказанное: если у самого гиперприора есть гиперпараметры, то их можно назвать гипергиперпараметрами и т. д.
Аналогично можно назвать апостериорное распределение по гиперпараметру гиперпостериорным, и, если они находятся в одном семействе, назвать их сопряженными гиперраспределениями или сопряженным гипераприорным. Однако это быстро становится очень абстрактным и далеким от исходной проблемы.
Гипераприоры, как и сопряженные априорные вероятности, обеспечивают вычислительное удобство — они не изменяют процесс байесовского вывода, а просто позволяют легче описывать и вычислять априорные вероятности.
Во-первых, использование гипераприорной вероятности позволяет выразить неопределенность в гиперпараметре: взятие фиксированной априорной вероятности является предположением, изменение гиперпараметра априорной вероятности позволяет провести анализ чувствительности на основе этого предположения, а взятие распределения на основе этого гиперпараметра позволяет выразить неопределенность в этом предположении: «предположим, что априорная вероятность имеет такую-то форму (это параметрическое семейство), но мы не уверены в том, какими именно должны быть значения параметров».
Более абстрактно, если использовать гиперприор, то априорное распределение (по параметру базовой модели) само по себе является плотностью смеси : это взвешенное среднее различных априорных распределений (по разным гиперпараметрам), причем гиперприор является весом. Это добавляет дополнительные возможные распределения (за пределами параметрического семейства, которое используется), поскольку параметрические семейства распределений, как правило, не являются выпуклыми множествами — поскольку плотность смеси является выпуклой комбинацией распределений, она, как правило, будет лежать вне семейства. Например, смесь двух нормальных распределений не является нормальным распределением: если взять разные средние (достаточно удаленные) и смешать 50% каждого, то получится бимодальное распределение, которое, таким образом, не является нормальным. Фактически, выпуклая оболочка нормальных распределений плотна во всех распределениях, поэтому в некоторых случаях вы можете произвольно близко аппроксимировать заданное априорное распределение, используя семейство с подходящим гиперприором.
Что делает этот подход особенно полезным, так это то, что если вы используете сопряженные априорные распределения: отдельные сопряженные априорные распределения легко вычисляются, и, таким образом, смесь сопряженных априорных распределений является той же смесью апостериорных распределений: нужно только знать, как изменяется каждое сопряженное априорное распределение. Использование одного сопряженного априорного распределения может быть слишком ограничительным, но использование смеси сопряженных априорных распределений может дать желаемое распределение в форме, которую легко вычислить. Это похоже на разложение функции по собственным функциям – см. Сопряженные априорные распределения: аналогия с собственными функциями .
Гиперприор — это распределение в пространстве возможных гиперпараметров. Если используются сопряженные априорные распределения, то это пространство сохраняется путем перехода к апостериорным распределениям — таким образом, по мере поступления данных распределение изменяется, но остается в этом пространстве: по мере поступления данных распределение развивается как динамическая система (каждая точка пространства гиперпараметров развивается к обновленным гиперпараметрам), со временем сходясь, так же как сходится само априорное распределение.