Семейство распределений вероятностей, связанных с нормальным распределением
В теории вероятности и статистики экспоненциальное семейство — это параметрический набор распределений вероятностей определенной формы, указанной ниже. Эта специальная форма выбрана для математического удобства, включая возможность пользователю вычислять ожидания, ковариации с использованием дифференциации на основе некоторых полезных алгебраических свойств, а также для общности, поскольку экспоненциальные семейства в некотором смысле являются очень естественными наборами распределений для рассмотрения. Термин экспоненциальный класс иногда используется вместо «экспоненциального семейства» [1] или более старого термина семейство Купмана–Дармуа . Иногда свободно называемый «экспоненциальным семейством», этот класс распределений отличается тем, что все они обладают множеством желаемых свойств, наиболее важным из которых является наличие достаточной статистики .
Концепция экспоненциальных семейств принадлежит [2] EJG Pitman , [3] G. Darmois , [4] и BO Koopman [5] в 1935–1936 годах. Экспоненциальные семейства распределений обеспечивают общую структуру для выбора возможной альтернативной параметризации параметрического семейства распределений в терминах естественных параметров и для определения полезных выборочных статистик , называемых естественными достаточными статистиками семейства.
Трудность номенклатуры
Термины «распределение» и «семейство» часто используются в широком смысле: в частности, экспоненциальное семейство представляет собой набор распределений, где конкретное распределение изменяется в зависимости от параметра; [a] однако параметрическое семейство распределений часто называют « распределением » (как «нормальное распределение», что означает «семейство нормальных распределений»), а набор всех экспоненциальных семейств иногда в широком смысле называют «экспоненциальным семейством».
Определение
Большинство обычно используемых распределений образуют экспоненциальное семейство или подмножество экспоненциального семейства, перечисленные в подразделе ниже. Подразделы, следующие за ним, представляют собой последовательность все более общих математических определений экспоненциального семейства. Случайный читатель может ограничить внимание первым и самым простым определением, которое соответствует однопараметрическому семейству дискретных или непрерывных распределений вероятностей.
Примеры экспоненциальных распределений семейств
Экспоненциальные семейства включают в себя многие из наиболее распространенных распределений. Среди многих других, экспоненциальные семейства включают в себя следующее: [6]
Ряд распространенных распределений являются экспоненциальными семействами, но только когда определенные параметры фиксированы и известны. Например:
Обратите внимание, что в каждом случае необходимо зафиксировать те параметры, которые устанавливают ограничение на диапазон значений, которые могут наблюдаться.
Примерами общих распределений, которые не являются экспоненциальными семействами, являются t Стьюдента , большинство смешанных распределений и даже семейство равномерных распределений , когда границы не фиксированы. См. раздел ниже о примерах для более подробного обсуждения.
Скалярный параметр
Значение называется параметром семейства.
Однопараметрическое экспоненциальное семейство представляет собой набор распределений вероятностей, функция плотности вероятности (или функция массы вероятности , в случае дискретного распределения ) которых может быть выражена в виде
где и — известные функции. Функция должна быть неотрицательной.
Альтернативная, эквивалентная форма, которая часто приводится, это
или эквивалентно
С точки зрения логарифмической вероятности ,
Обратите внимание, что и
Поддержка должна быть независимойθ
Важно отметить, что поддержка (все возможные значения, для которых больше ) не должна зависеть от [7].
Это требование можно использовать для исключения параметрического распределения семейства из числа экспоненциальных.
Например: Распределение Парето имеет плотность вероятности, которая определена для (минимальное значение, являющееся параметром масштаба), и его поддержка, следовательно, имеет нижний предел Поскольку поддержка зависит от значения параметра, семейство распределений Парето не образует экспоненциальное семейство распределений (по крайней мере, когда неизвестно).
Другой пример: распределения типа Бернулли — биномиальное , отрицательное биномиальное , геометрическое и подобные — могут быть включены в экспоненциальный класс только в том случае, если число испытаний Бернулли рассматривается как фиксированная константа — исключенная из свободных параметров — поскольку допустимое число испытаний устанавливает пределы для числа «успехов» или «неудач», которые можно наблюдать в наборе испытаний.
Вектор со значениемхи θ
Часто представляет собой вектор измерений, в этом случае может быть функцией из пространства возможных значений в действительные числа.
В более общем случае, и каждый может быть векторнозначным, таким образом, что является вещественнозначным. Однако см. обсуждение ниже векторных параметров, касающееся криволинейного экспоненциального семейства.
Если то экспоненциальное семейство находится в канонической форме . Определяя преобразованный параметр , всегда можно преобразовать экспоненциальное семейство в каноническую форму. Каноническая форма не является уникальной, так как может быть умножена на любую ненулевую константу, при условии, что умножается на обратную величину этой константы, или константа c может быть добавлена и умножена на для ее смещения. В особом случае, и тогда семейство называется естественным экспоненциальным семейством .
Даже если является скаляром и имеется только один параметр, функции и все равно могут быть векторами, как описано ниже.
Функция или эквивалентно определяется автоматически после выбора других функций, поскольку она должна принять форму, которая нормализует распределение ( суммировать или интегрировать к единице по всей области). Более того, обе эти функции всегда можно записать как функции от даже когда не является функцией один к одному , т.е. два или более различных значения отображают одно и то же значение и, следовательно, не могут быть инвертированы. В таком случае все значения отображения в одно и то же также будут иметь одно и то же значение для и
Факторизация задействованных переменных
Важно отметить, и это характеризует все варианты экспоненциального семейства, что параметр(ы) и переменная(ые) наблюдения должны факторизоваться (могут быть разделены на произведения, каждое из которых включает только один тип переменной), либо напрямую, либо в пределах любой части (основания или показателя) операции возведения в степень . Как правило, это означает, что все факторы, составляющие функцию плотности или массы, должны иметь одну из следующих форм:
где и — произвольные функции наблюдаемой статистической переменной; и — произвольные функции фиксированных параметров, определяющих форму распределения; и — любое произвольное постоянное выражение (т.е. число или выражение, которое не изменяется ни при , ни при ).
Существуют дополнительные ограничения на то, сколько таких факторов может возникнуть. Например, два выражения:
являются тем же самым, т.е. произведением двух "разрешенных" множителей. Однако, будучи переписанными в факторизованную форму,
можно видеть, что его невозможно выразить в требуемой форме. (Однако форма такого рода является членом криволинейного экспоненциального семейства , которое допускает множественные факторизованные члены в показателе степени. [ необходима ссылка ] )
Чтобы увидеть, почему выражение формы
квалифицируется,
и, следовательно, факторизуется внутри экспоненты. Аналогично,
и снова факторизуется внутри показателя степени.
Фактор, состоящий из суммы, в которой участвуют оба типа переменных (например, фактор вида ), не может быть разложен таким образом (за исключением некоторых случаев, когда он встречается непосредственно в показателе степени); вот почему, например, распределение Коши и распределение Стьюдента t не являются показательными семействами.
Векторный параметр
Определение в терминах одного параметра действительного числа можно расширить до одного параметра действительного вектора .
Говорят, что семейство распределений принадлежит к векторному экспоненциальному семейству, если функция плотности вероятности (или функция массы вероятности для дискретных распределений) может быть записана как
или в более компактной форме,
Эта форма записывает сумму как скалярное произведение векторнозначных функций и .
Альтернативная, эквивалентная форма, которую часто можно увидеть, это
Как и в случае со скалярными значениями, экспоненциальное семейство считается находящимся в канонической форме, если
Вектор экспоненциального семейства называется искривленным, если размерность
меньше размерности вектора
То есть, если размерность , d , вектора параметров меньше числа функций , s , вектора параметров в представлении выше функции плотности вероятности. Большинство распространенных распределений в экспоненциальном семействе не являются искривленными, и многие алгоритмы, разработанные для работы с любым экспоненциальным семейством, неявно или явно предполагают, что распределение не является искривленным.
Как и в случае скалярного параметра, функция или эквивалентно автоматически определяется ограничением нормализации, как только были выбраны другие функции. Даже если не является взаимно-однозначным, функции и могут быть определены, требуя, чтобы распределение было нормализовано для каждого значения натурального параметра . Это дает каноническую форму
или эквивалентно
Вышеуказанные формы иногда можно увидеть с вместо . Это абсолютно эквивалентные формулировки, просто использующие другую запись для скалярного произведения .
Векторный параметр, векторная переменная
Форма векторного параметра над одной скалярной случайной величиной может быть тривиально расширена для покрытия совместного распределения над вектором случайных величин. Результирующее распределение просто такое же, как и приведенное выше распределение для скалярной случайной величины, где каждое вхождение скаляра x заменено вектором
Размерность k случайной величины не обязательно должна соответствовать размерности d вектора параметров или (в случае криволинейной экспоненциальной функции) размерности s натурального параметра и достаточной статистики T ( x ) .
Распределение в этом случае записывается как
Или более компактно как
Или альтернативно как
Формулировка теории меры
Мы используем кумулятивные функции распределения (CDF) для охвата как дискретных, так и непрерывных распределений.
Предположим, что H — неубывающая функция действительной переменной. Тогда интегралы Лебега–Стилтьеса относительно являются интегралами относительно референтной меры экспоненциального семейства, порожденного H.
Любой член этого экспоненциального семейства имеет кумулятивную функцию распределения
H ( x ) — это интегратор Лебега–Стилтьеса для референтной меры. Когда референтная мера конечна, ее можно нормализовать, и H фактически является кумулятивной функцией распределения вероятностей. Если F абсолютно непрерывна с плотностьюотносительно референтной меры(обычно меры Лебега ), можно записать. В этом случае H также абсолютно непрерывна и может быть записанатак, что формулы сводятся к формулам из предыдущих параграфов. Если F дискретна , то H является ступенчатой функцией (со ступеньками на носителе F).
В качестве альтернативы мы можем записать меру вероятности непосредственно как
для некоторой справочной меры .
Интерпретация
В определениях выше функции T ( x ) , η ( θ ) и A ( η ) были произвольными. Однако эти функции имеют важные интерпретации в результирующем распределении вероятностей.
- T ( x ) является достаточной статистикой распределения. Для экспоненциальных семейств достаточная статистика является функцией данных, которая содержит всю информацию, которую данные x предоставляют относительно неизвестных значений параметров. Это означает, что для любых наборов данныхиотношение правдоподобия одинаково, то естьесли T ( x ) = T ( y ) . Это верно, даже если x и y не равны друг другу. Размерность T ( x ) равна количеству параметров θ и охватывает всю информацию относительно данных, связанных с параметром θ . Достаточная статистика набора независимых одинаково распределенных наблюдений данных является просто суммой индивидуальных достаточных статистик и инкапсулирует всю информацию, необходимую для описания апостериорного распределения параметров, учитывая данные (и, следовательно, для получения любой желаемой оценки параметров). (Это важное свойство обсуждается ниже.)
- η называется натуральным параметром . Множество значений η , для которых функция интегрируема, называется пространством натуральных параметров . Можно показать, что пространство натуральных параметров всегда выпукло .
- A ( η ) называетсяЛогарифмическая функция распределения [b], поскольку она является логарифмом нормировочного множителя , без которого не было бы распределения вероятностей:
Функция A важна сама по себе, потому что среднее значение , дисперсия и другие моменты достаточной статистики T ( x ) могут быть получены просто путем дифференцирования A ( η ) . Например, поскольку log( x ) является одним из компонентов достаточной статистики гамма -распределения , может быть легко определен для этого распределения с помощью A ( η ) . Технически это верно, потому что
— кумулянтная производящая функция достаточной статистики.
Характеристики
Экспоненциальные семейства обладают большим количеством свойств, которые делают их чрезвычайно полезными для статистического анализа. Во многих случаях можно показать, что только экспоненциальные семейства обладают этими свойствами. Примеры:
Дано экспоненциальное семейство, определяемое как , где — пространство параметров, такое, что . Тогда
- Если имеет непустую внутреннюю часть в , то при наличии любых выборок IID статистика является полной статистикой для . [9] [10]
- является минимальной статистикой для тогда и только тогда, когда для всех , и в поддержку , если , то или . [11]
Примеры
При рассмотрении примеров в этом разделе крайне важно помнить вышеизложенное обсуждение того, что означает выражение «распределение» как экспоненциальное семейство, и в частности иметь в виду, что набор параметров, которым разрешено изменяться, имеет решающее значение для определения того, является ли «распределение» экспоненциальным семейством или нет.
Нормальное , экспоненциальное , логнормальное , гамма , хи-квадрат , бета , Дирихле , Бернулли , категориальное , Пуассона , геометрическое , обратное гауссово , ALAAM , фон Мизеса и фон Мизеса-Фишера — все это экспоненциальные семейства.
Некоторые распределения являются экспоненциальными семействами только в том случае, если некоторые из их параметров остаются фиксированными. Семейство распределений Парето с фиксированной минимальной границей x m образует экспоненциальное семейство. Семейства биномиальных и полиномиальных распределений с фиксированным числом испытаний n, но неизвестным параметром(ами) вероятности являются экспоненциальными семействами. Семейство отрицательных биномиальных распределений с фиксированным числом неудач (также известным как параметр времени остановки) r является экспоненциальным семейством. Однако, когда любой из вышеупомянутых фиксированных параметров может изменяться, полученное семейство не является экспоненциальным семейством.
Как упоминалось выше, как правило, поддержка экспоненциального семейства должна оставаться одинаковой при всех настройках параметров в семействе. Вот почему приведенные выше случаи (например, биномиальное с переменным числом испытаний, Парето с переменной минимальной границей) не являются экспоненциальными семействами — во всех случаях рассматриваемый параметр влияет на поддержку (в частности, изменяя минимальное или максимально возможное значение). По аналогичным причинам ни дискретное равномерное распределение , ни непрерывное равномерное распределение не являются экспоненциальными семействами, поскольку одна или обе границы изменяются.
Распределение Вейбулла с фиксированным параметром формы k является экспоненциальным семейством. В отличие от предыдущих примеров, параметр формы не влияет на поддержку; тот факт, что разрешение его варьировать делает распределение Вейбулла неэкспоненциальным, обусловлен скорее особой формой функции плотности вероятности Вейбулла ( k появляется в показателе показателя степени).
В общем случае распределения, которые являются результатом конечной или бесконечной смеси других распределений, например, плотности смешанной модели и составные распределения вероятностей , не являются экспоненциальными семействами. Примерами являются типичные модели гауссовых смесей , а также многие распределения с тяжелыми хвостами , которые являются результатом компаундирования (т. е. бесконечного смешивания) распределения с априорным распределением по одному из его параметров, например, t -распределение Стьюдента (компаундирование нормального распределения по гамма-распределенному априорному точному распределению), а также бета-биномиальное и Дирихле-мультиномиальное распределения. Другими примерами распределений, которые не являются экспоненциальными семействами, являются F-распределение , распределение Коши , гипергеометрическое распределение и логистическое распределение .
Ниже приведены некоторые подробные примеры представления некоторых полезных распределений в виде экспоненциальных семейств.
Нормальное распределение: неизвестное среднее значение, известная дисперсия
В качестве первого примера рассмотрим случайную величину, распределенную нормально с неизвестным средним значением μ и известной дисперсией σ 2 . Тогда функция плотности вероятности будет иметь вид
Это однопараметрическое экспоненциальное семейство, как можно увидеть, установив
Если σ = 1, то это каноническая форма, так как тогда η ( μ ) = μ .
Нормальное распределение: неизвестное среднее значение и неизвестная дисперсия
Далее рассмотрим случай нормального распределения с неизвестным средним и неизвестной дисперсией. Тогда функция плотности вероятности будет иметь вид
Это экспоненциальное семейство, которое можно записать в канонической форме, определив
Биномиальное распределение
В качестве примера дискретного экспоненциального семейства рассмотрим биномиальное распределение с известным числом испытаний n . Функция массы вероятности для этого распределения имеет вид
Это можно эквивалентно записать как
что показывает, что биномиальное распределение представляет собой экспоненциальное семейство, натуральный параметр которого равен
Эта функция p известна как логит .
Таблица распределений
В следующей таблице показано, как переписать ряд общих распределений как экспоненциальные-семейные распределения с натуральными параметрами. Обратитесь к карточкам [12] для основных экспоненциальных семейств.
Для скалярной переменной и скалярного параметра форма выглядит следующим образом:
Для скалярной переменной и векторного параметра:
Для векторной переменной и векторного параметра:
Вышеуказанные формулы выбирают функциональную форму экспоненциального семейства с функцией логарифмического разделения . Причина этого в том, что моменты достаточной статистики можно легко вычислить, просто дифференцируя эту функцию. Альтернативные формы включают либо параметризацию этой функции в терминах нормального параметра вместо натурального параметра, и/или использование фактора вне экспоненты. Связь между последним и первым такова:
Для преобразования представлений, включающих два типа параметров, используйте приведенные ниже формулы для записи одного типа параметра через другой.
- * Скобка Айверсона является обобщением дискретной дельта-функции: если заключенное в скобки выражение истинно, скобка имеет значение 1; если заключенное в скобки утверждение ложно, скобка Айверсона равна нулю. Существует много вариантов обозначений, например волнистые скобки: ⧙ a = b ⧘ эквивалентно обозначению [ a = b ], использованному выше.
Три варианта категориального распределения и полиномиального распределения обусловлены тем, что параметры ограничены, так что
Таким образом, имеются только независимые параметры.
- Вариант 1 использует естественные параметры с простой связью между стандартными и естественными параметрами; однако, только естественные параметры являются независимыми, а набор естественных параметров неидентифицируем . Ограничение на обычные параметры транслируется в аналогичное ограничение на естественные параметры.
- Вариант 2 демонстрирует тот факт, что весь набор натуральных параметров неидентифицируем: Добавление любого постоянного значения к натуральным параметрам не оказывает никакого влияния на результирующее распределение. Однако, используя ограничение на натуральные параметры, формулу для нормальных параметров в терминах натуральных параметров можно записать таким образом, чтобы она не зависела от добавляемой константы.
- Вариант 3 показывает, как сделать параметры идентифицируемыми удобным способом, установив Это фактически «разворачивается» и приводит к тому, что последний натуральный параметр имеет постоянное значение 0. Все остальные формулы записаны таким образом, что не обращаются к , так что фактически модель имеет только параметры как обычного, так и естественного вида.
Варианты 1 и 2 на самом деле не являются стандартными экспоненциальными семействами вообще. Скорее, они являются криволинейными экспоненциальными семействами , т. е. существуют независимые параметры, встроенные в -мерное пространство параметров. [13] Многие из стандартных результатов для экспоненциальных семейств не применяются к криволинейным экспоненциальным семействам. Примером является функция логарифмического разбиения , которая имеет значение 0 в криволинейных случаях. В стандартных экспоненциальных семействах производные этой функции соответствуют моментам (более технически, кумулянтам ) достаточных статистик, например, среднему значению и дисперсии. Однако значение 0 предполагает, что среднее значение и дисперсия всех достаточных статистик равномерно равны 0, тогда как на самом деле среднее значение -й достаточной статистики должно быть . (Это правильно получается при использовании формы , показанной в варианте 3.)
Моменты и кумулянты достаточной статистики
Нормализация распределения
Начнем с нормализации распределения вероятностей. В общем случае любая неотрицательная функция f ( x ), которая служит ядром распределения вероятностей (часть, кодирующая всю зависимость от x ), может быть преобразована в правильное распределение путем нормализации : т.е.
где
Фактор Z иногда называют нормализатором или статистической суммой , основываясь на аналогии со статистической физикой .
В случае экспоненциального семейства, где
ядро - это
и функция распределения равна
Поскольку распределение должно быть нормализовано, то имеем
Другими словами,
или эквивалентно
Это оправдывает название A как логнормализатора или логарифмической функции разбиения .
Функция, производящая момент достаточной статистики
Теперь функция генерации моментов T ( x ) равна
доказывая более раннее утверждение, что
— кумулянтная производящая функция для T.
Важным подклассом экспоненциальных семейств являются естественные экспоненциальные семейства , которые имеют схожую форму для функции, производящей момент для распределения x .
Дифференциальные тождества для кумулянтов
В частности, используя свойства кумулянтной производящей функции,
и
Первые два сырых момента и все смешанные вторые моменты могут быть восстановлены из этих двух тождеств. Моменты и кумулянты более высокого порядка получаются с помощью более высоких производных. Этот метод часто полезен, когда T является сложной функцией данных, моменты которой трудно вычислить путем интегрирования.
Другой способ увидеть это, не опираясь на теорию кумулянтов , состоит в том, чтобы начать с того факта, что распределение экспоненциального семейства должно быть нормализовано и дифференцировано. Мы иллюстрируем это на простом примере одномерного параметра, но аналогичный вывод справедлив и в более общем случае.
В одномерном случае имеем
Это должно быть нормализовано, поэтому
Возьмем производную обеих сторон по η :
Поэтому,
Пример 1
В качестве вводного примера рассмотрим гамма-распределение , распределение которого определяется формулой
Ссылаясь на приведенную выше таблицу, мы видим, что натуральный параметр определяется выражением
обратные замены
достаточная статистика и функция логарифмического разделения
Мы можем найти среднее значение достаточной статистики следующим образом. Во-первых, для η 1 :
Где — дигамма-функция (производная логарифма гаммы), и на последнем шаге мы использовали обратные подстановки.
Теперь для η 2 :
снова делая обратную замену на последнем шаге.
Чтобы вычислить дисперсию x , мы просто снова дифференцируем:
Все эти вычисления можно выполнить с помощью интегрирования, используя различные свойства гамма -функции , но это требует значительно больше работы.
Пример 2
В качестве другого примера рассмотрим действительную случайную величину X с плотностью
индексируется по параметру формы (это называется косо-логистическим распределением ). Плотность можно переписать как
Обратите внимание, что это экспоненциальное семейство с натуральным параметром.
достаточная статистика
и функция логарифмического разделения
Итак, используя первую идентификацию,
и используя вторую личность
Этот пример иллюстрирует случай, когда использовать этот метод очень просто, но прямой расчет практически невозможен.
Пример 3
Последний пример — это тот, где интеграция будет крайне сложной. Это случай распределения Уишарта , которое определено над матрицами. Даже взятие производных немного сложно, так как это включает в себя матричное исчисление , но соответствующие тождества перечислены в этой статье.
Из приведенной выше таблицы мы видим, что натуральный параметр определяется выражением
обратные замены
и достаточная статистика
Функция логарифмического разделения записана в различных формах в таблице, чтобы облегчить дифференциацию и обратную подстановку. Мы используем следующие формы:
- Ожидаемое значение X (связанное с η 1 )
Для дифференцирования по η 1 нам понадобится следующее тождество матричного исчисления :
Затем:
Последняя строка использует тот факт, что V симметрична, и поэтому при транспонировании она остается той же.
- Ожидаемое значение log | X | (связанное с η 2 )
Теперь для η 2 нам сначала нужно разложить часть логарифмической функции распределения, которая включает многомерную гамма-функцию :
Нам также понадобится дигамма-функция :
Затем:
Эта последняя формула приведена в статье о распределении Уишарта . Оба эти ожидания необходимы при выводе вариационных уравнений обновления Байеса в сети Байеса , включающей распределение Уишарта (которое является сопряженным априорным распределением многомерного нормального распределения ).
Вычислить эти формулы с помощью интегрирования было бы гораздо сложнее. Первая, например, потребовала бы матричной интеграции.
Энтропия
Относительная энтропия
Относительная энтропия ( расхождение Кульбака–Лейблера , расхождение KL) двух распределений в экспоненциальном семействе имеет простое выражение как расхождение Брегмана между натуральными параметрами относительно логарифмического нормализатора. [14] Относительная энтропия определяется в терминах интеграла, в то время как расхождение Брегмана определяется в терминах производной и внутреннего произведения, и, таким образом, его легче вычислить и оно имеет выражение в замкнутой форме (предполагая, что производная имеет выражение в замкнутой форме). Кроме того, расхождение Брегмана в терминах натуральных параметров и логарифмического нормализатора равно расхождению Брегмана двойственных параметров (параметров ожидания) в обратном порядке для выпуклой сопряженной функции . [15]
Фиксируя экспоненциальное семейство с помощью логарифмического нормализатора ( с выпуклым сопряжением ) , записывая для распределения в этом семействе, соответствующего фиксированному значению натурального параметра ( записывая для другого значения и с для соответствующих двойственных параметров ожидания/момента), записывая KL для расхождения KL и для расхождения Брегмана, расхождения связаны следующим образом:
Дивергенция КЛ традиционно записывается относительно первого параметра, в то время как дивергенция Брэгмана традиционно записывается относительно второго параметра, и, таким образом, это можно прочитать как «относительная энтропия равна дивергенции Брэгмана, определенной логарифмическим нормализатором по замененным натуральным параметрам», или, что эквивалентно, как «равна дивергенции Брэгмана, определенной дуальным к логарифмическому нормализатору по параметрам ожидания».
Вывод максимальной энтропии
Экспоненциальные семейства возникают естественным образом как ответ на следующий вопрос: какое распределение максимальной энтропии согласуется с заданными ограничениями на ожидаемые значения?
Информационная энтропия распределения вероятностей dF ( x ) может быть вычислена только относительно некоторого другого распределения вероятностей (или, в более общем смысле, положительной меры), и обе меры должны быть взаимно абсолютно непрерывными . Соответственно, нам нужно выбрать эталонную меру dH ( x ) с той же поддержкой, что и dF ( x ).
Энтропия dF ( x ) относительно dH ( x ) равна
или
где dF / dH и dH / dF — производные Радона–Никодима . Обычное определение энтропии для дискретного распределения, поддерживаемого на множестве I , а именно
предполагает , хотя это редко указывается, что dH выбрано в качестве меры подсчета на I.
Рассмотрим теперь набор наблюдаемых величин (случайных величин) T i . Распределение вероятностей dF , энтропия которого относительно dH наибольшая, при условии, что ожидаемое значение T i равно t i , является экспоненциальным семейством с dH в качестве эталонной меры и ( T 1 , ..., T n ) в качестве достаточной статистики.
Вывод представляет собой простое вариационное вычисление с использованием множителей Лагранжа . Нормализация накладывается путем принятия T 0 = 1 в качестве одного из ограничений. Естественными параметрами распределения являются множители Лагранжа, а нормировочным фактором является множитель Лагранжа, связанный с T 0 .
Примеры таких выводов см. в разделе Распределение вероятностей максимальной энтропии .
Роль в статистике
Классическая оценка: достаточность
Согласно теореме Питмана – Купмана – Дармуа , среди семейств распределений вероятностей, область определения которых не меняется в зависимости от оцениваемого параметра, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки.
Менее кратко, предположим, что X k , (где k = 1, 2, 3, ... n ) являются независимыми , одинаково распределенными случайными величинами. Только если их распределение является одним из экспоненциального семейства распределений, существует достаточная статистика T ( X 1 , ..., X n ), число скалярных компонентов которой не увеличивается с увеличением размера выборки n ; статистика T может быть вектором или одним скалярным числом , но что бы это ни было, ее размер не будет ни расти, ни уменьшаться при получении большего количества данных.
В качестве контрпримера, если эти условия смягчены, семейство равномерных распределений ( дискретных или непрерывных , с одной или обеими неизвестными границами) имеет достаточную статистику, а именно максимум выборки, минимум выборки и размер выборки, но не образует экспоненциальное семейство, поскольку область определения меняется в зависимости от параметров.
Байесовская оценка: сопряженные распределения
Экспоненциальные семейства также важны в байесовской статистике . В байесовской статистике априорное распределение умножается на функцию правдоподобия , а затем нормализуется для получения апостериорного распределения . В случае правдоподобия, принадлежащего экспоненциальному семейству, существует сопряженное априорное распределение , которое часто также находится в экспоненциальном семействе. Сопряженное априорное распределение π для параметра экспоненциального семейства
дается
или эквивалентно
где s — размерность и и — гиперпараметры (параметры, управляющие параметрами). соответствует эффективному числу наблюдений, которые вносит априорное распределение, и соответствует общему количеству, которое эти псевдонаблюдения вносят в достаточную статистику по всем наблюдениям и псевдонаблюдениям. — константа нормализации , которая автоматически определяется оставшимися функциями и служит для того, чтобы гарантировать, что данная функция является функцией плотности вероятности (т.е. она нормализована ). и, что эквивалентно, являются теми же функциями, что и в определении распределения, по которому π является сопряженным априорным распределением.
Сопряженное априорное распределение — это распределение, которое при объединении с правдоподобием и нормализации дает апостериорное распределение того же типа, что и априорное. Например, если кто-то оценивает вероятность успеха биномиального распределения, то, если он выбирает использовать бета-распределение в качестве априорного, апостериорное распределение будет другим бета-распределением. Это делает вычисление апостериорного распределения особенно простым. Аналогично, если кто-то оценивает параметр распределения Пуассона, использование гамма-априорного распределения приведет к другому гамма-апостериорному распределению. Сопряженные априорные распределения часто очень гибкие и могут быть очень удобными. Однако, если чье-то убеждение относительно вероятного значения параметра тета биномиального распределения представлено (скажем) бимодальным (двугорбым) априорным распределением, то оно не может быть представлено бета-распределением. Однако его можно представить, используя плотность смеси в качестве априорного распределения, в данном случае комбинацию двух бета-распределений; это форма гипераприорного распределения .
Произвольное правдоподобие не будет принадлежать к экспоненциальному семейству, и, таким образом, в общем случае не существует сопряженного априорного распределения. Апостериорное распределение тогда придется вычислять численными методами.
Чтобы показать, что указанное выше априорное распределение является сопряженным априорным, мы можем вывести апостериорное распределение.
Во-первых, предположим, что вероятность отдельного наблюдения следует экспоненциальному семейству, параметризованному с использованием его натурального параметра:
Тогда для данных вероятность вычисляется следующим образом:
Тогда для приведенного выше сопряженного априорного распределения:
Затем мы можем вычислить апостериорную вероятность следующим образом:
Последняя строка — это ядро апостериорного распределения, т.е.
Это показывает, что задняя часть имеет ту же форму, что и предыдущая.
Данные X входят в это уравнение только в выражении
что называется достаточной статистикой данных. То есть значение достаточной статистики достаточно для полного определения апостериорного распределения. Фактические точки данных сами по себе не нужны, и все наборы точек данных с одинаковой достаточной статистикой будут иметь одинаковое распределение. Это важно, поскольку размерность достаточной статистики не растет с размером данных — она имеет только столько компонентов, сколько компонентов (эквивалентно, количество параметров распределения одной точки данных).
Уравнения обновления следующие:
Это показывает, что уравнения обновления могут быть записаны просто в терминах количества точек данных и достаточной статистики данных. Это можно ясно увидеть в различных примерах уравнений обновления, показанных на странице сопряженных априорных распределений . Из-за способа, которым вычисляется достаточная статистика, она обязательно включает суммы компонентов данных (в некоторых случаях замаскированные под продукты или другие формы — продукт может быть записан в терминах суммы логарифмов ). Случаи, когда уравнения обновления для конкретных распределений не точно соответствуют вышеуказанным формам, — это случаи, когда сопряженное априорное распределение было выражено с использованием другой параметризации, чем та, которая создает сопряженное априорное распределение вышеуказанной формы — часто именно потому, что вышеуказанная форма определена по натуральному параметру, в то время как сопряженные априорные распределения обычно определяются по фактическому параметру
Непредвзятая оценка
Если вероятность представляет собой экспоненциальное семейство, то несмещенная оценка равна . [16]
Проверка гипотез: равномерно наиболее мощные тесты
Однопараметрическое экспоненциальное семейство имеет монотонное неубывающее отношение правдоподобия в достаточной статистике T ( x ), при условии, что η ( θ ) не убывает. Как следствие, существует равномерно наиболее мощный тест для проверки гипотезы H 0 : θ ≥ θ 0 против . H 1 : θ < θ 0 .
Обобщенные линейные модели
Экспоненциальные семейства формируют основу для функций распределения, используемых в обобщенных линейных моделях (GLM), классе моделей, который охватывает многие из обычно используемых моделей регрессии в статистике. Примерами являются логистическая регрессия с использованием биномиального семейства и регрессия Пуассона .
Смотрите также
Сноски
- ^ Например, семейство нормальных распределений включает стандартное нормальное распределение N (0, 1) со средним значением 0 и дисперсией 1, а также другие нормальные распределения с другими средним значением и дисперсией.
- ^ «Функция распределения» часто используется в статистике как синоним «коэффициента нормализации».
- ^ Эти распределения часто сами по себе не являются показательными семействами. Обычными примерами не показательных семейств, возникающих из показательных, являются распределение Стьюдента , бета -биномиальное распределение и полиномиальное распределение Дирихле .
Ссылки
Цитаты
- ^ Купперман, М. (1958). «Вероятности гипотез и информационная статистика при выборке из популяций экспоненциального класса». Annals of Mathematical Statistics . 9 (2): 571–575. doi : 10.1214/aoms/1177706633 . JSTOR 2237349.
- ^ Андерсен, Эрлинг (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств». Журнал Американской статистической ассоциации . 65 (331). Журнал Американской статистической ассоциации: 1248–1255. doi :10.2307/2284291. JSTOR 2284291. MR 0268992.
- ^ Питман, Э.; Уишарт, Дж. (1936). «Достаточная статистика и внутренняя точность». Математические труды Кембриджского философского общества . 32 (4): 567–579. Bibcode : 1936PCPS...32..567P. doi : 10.1017/S0305004100019307. S2CID 120708376.
- ^ Дармуа, Г. (1935). «Sur les lois de вероятностная оценка исчерпывающая». ЧР акад. наук. Париж (на французском языке). 200 : 1265–1266.
- ^ Купман, Б. (1936). «О распределении, допускающем достаточную статистику». Труды Американского математического общества . 39 (3). Американское математическое общество : 399–409. doi : 10.2307/1989758 . JSTOR 1989758. MR 1501854.
- ^ "Общие экспоненциальные семейства". www.randomservices.org . Получено 2022-08-30 .
- ^ Абрамович и Ритов (2013). Статистическая теория: краткое введение . Chapman & Hall. ISBN 978-1439851845.
- ^ Блей, Дэвид. «Вариационный вывод» (PDF) . Принстонский университет.
- ^ Casella, George (2002). Статистический вывод. Roger L. Berger (2-е изд.). Австралия: Thomson Learning. Теорема 6.2.25. ISBN 0-534-24312-6. OCLC 46538638.
- ^ Браун, Лоуренс Д. (1986). Основы статистических экспоненциальных семейств: с приложениями в статистической теории принятия решений. Хейворд, Калифорния: Институт математической статистики. Теорема 2.12. ISBN 0-940600-10-2. OCLC 15986663.
- ^ Кинер, Роберт В. (2010). Теоретическая статистика: темы для основного курса. Нью-Йорк. С. 47, Пример 3.12. ISBN 978-0-387-93839-4. OCLC 676700036.
{{cite book}}
: CS1 maint: location missing publisher (link) - ^ Нильсен, Франк; Гарсия, Винсент (2009). «Статистические экспоненциальные семейства: дайджест с карточками». arXiv : 0911.4863 [cs.LG].
- ^ Ван Гардерен, Кис Ян (1997). «Криволинейные экспоненциальные модели в эконометрике». Эконометрическая теория . 13 (6): 771–790. doi :10.1017/S0266466600006253. S2CID 122742807.
- ^ Nielsen & Nock 2010, 4. Расхождения Брегмана и относительная энтропия экспоненциальных семейств.
- ^ Барндорф-Нильсен 1978, 9.1 Выпуклая двойственность и экспоненциальные семейства.
- ^ Эфрон, Брэдли (декабрь 2011 г.). «Формула Твиди и смещение отбора». Журнал Американской статистической ассоциации . 106 (496): 1602–1614. doi :10.1198/jasa.2011.tm11181. ISSN 0162-1459. PMC 3325056. PMID 22505788 .
Источники
- Barndorff-Nielsen, Ole (1978). Информация и экспоненциальные семейства в статистической теории . Wiley Series in Probability and Mathematical Statistics. Чичестер: John Wiley & Sons, Ltd. стр. ix+238 стр. ISBN 0-471-99545-2. МР 0489333.
- Перепечатано как Barndorff-Nielsen, Ole (2014). Информация и экспоненциальные семейства в статистической теории . John Wiley & Sons, Ltd. doi :10.1002/9781118857281. ISBN 978-111885750-2.
- Нильсен, Франк; Гарсия, Винсент (2009). «Статистические экспоненциальные семейства: дайджест с карточками». arXiv : 0911.4863 . Bibcode :2009arXiv0911.4863N.
- Nielsen, Frank; Nock, Richard (2010). Entropies and cross-entropies of exponential families (PDF) . Международная конференция IEEE по обработке изображений. doi :10.1109/ICIP.2010.5652054. Архивировано из оригинала (PDF) 2019-03-31.
Дальнейшее чтение
- Fahrmeir, Ludwig; Tutz, G. (1994). Многомерное статистическое моделирование на основе обобщенных линейных моделей . Springer. стр. 18–22, 345–349. ISBN 0-387-94233-5.
- Кинер, Роберт В. (2006). Теоретическая статистика: темы для основного курса . Springer. стр. 27–28, 32–33. ISBN 978-0-387-93838-7.
- Леманн, Эль; Казелла, Г. (1998). Теория точечной оценки (2-е изд.). сек. 1,5. ISBN 0-387-98502-6.
Внешние ссылки
- Учебник по экспоненциальному семейству распределений
- Экспоненциальное семейство распределений на самых ранних известных использованиях некоторых слов математики
- jMEF: библиотека Java для экспоненциальных семейств. Архивировано 11.04.2013 в archive.today.
- Графические модели, экспоненциальные семейства и вариационный вывод Уэйнрайта и Джордана (2008)