Функция правдоподобия

Функция правдоподобия (часто называемая просто правдоподобием ) — это совместная вероятность (или плотность вероятности) наблюдаемых данных , рассматриваемая как функция параметров статистической модели . ^[1] ^[2]^[3]

При оценке максимального правдоподобия arg max (по параметру ) функции правдоподобия служит точечной оценкой для , в то время как информация Фишера (часто аппроксимируемая матрицей Гессе правдоподобия) указывает точность оценки . $\theta$ $\theta$

Напротив, в байесовской статистике оценки параметров получаются на основе обратной вероятности , так называемой апостериорной вероятности , которая рассчитывается с помощью правила Байеса . ^[4]

Определение

Функция правдоподобия, параметризованная параметром (возможно, многомерным) , обычно определяется по-разному для дискретных и непрерывных распределений вероятностей (более общее определение обсуждается ниже). Учитывая плотность вероятности или функцию массы $\theta$

x\mapsto f(x\mid \theta ),

где – реализация случайной величины , функция правдоподобия равна $x$ $X$

\theta \mapsto f(x\mid \theta ),

{\mathcal {L}}(\theta \mid x).

Другими словами, если рассматривать ее как функцию с фиксированным значением, это функция плотности вероятности, а если рассматривать как функцию с фиксированным, то это функция правдоподобия. В частотной парадигме обозначения часто избегают и вместо этого используют или используют для обозначения того, что оно рассматривается как фиксированная неизвестная величина, а не как случайная величина , от которой зависит. $f(x\mid \theta )$ $x$ $\theta$ $\theta$ $x$ $f(x\mid \theta )$ $f(x;\theta )$ $f(x,\theta )$ $\theta$

Функция правдоподобия не определяет вероятность того, что это правда, учитывая наблюдаемую выборку . Такая интерпретация является распространенной ошибкой, имеющей потенциально катастрофические последствия (см. «Заблуждение прокурора »). $\theta$ $X=x$

Дискретное распределение вероятностей

Пусть – дискретная случайная величина с функцией вероятности , зависящей от параметра . Тогда функция $X$ $p$ $\theta$

{\mathcal {L}}(\theta \mid x)=p_{\theta }(x)=P_{\theta }(X=x),

рассматриваемая как функция от , является функцией правдоподобия с учетом результата случайной величины . Иногда вероятность «значения значения параметра » записывается как $P$ $($ $X$ $=$ $x$ $|$ $θ$ $)$ или $P$ $($ $X$ $=$ $x$ $;$ $θ$ $)$ . Правдоподобие — это вероятность того, что конкретный результат будет наблюдаться, когда истинное значение параметра эквивалентно массе вероятности на ; это не плотность вероятности по параметру . Вероятность не следует путать с , которая является апостериорной вероятностью данных данных . $\theta$ $x$ $X$ $x$ $X$ $\theta$ $x$ $\theta$ $x$ $\theta$ ${\mathcal {L}}(\theta \mid x)$ $P(\theta \mid x)$ $\theta$ $x$

При отсутствии события (нет данных) вероятность равна 1; ^{[ нужна цитация ]} любое нетривиальное событие будет иметь меньшую вероятность.

Пример

Рисунок 1. Функция правдоподобия ( ) для вероятности падения монеты лицом вверх (без предварительного знания честности монеты), учитывая, что мы наблюдали HH. $p_{\text{H}}^{2}$

Рисунок 2. Функция правдоподобия ( ) для вероятности падения монеты лицом вверх (без предварительного знания честности монеты), учитывая, что мы наблюдали HHT. $p_{\text{H}}^{2}(1-p_{\text{H}})$

Рассмотрим простую статистическую модель подбрасывания монеты: единственный параметр , который выражает «справедливость» монеты. Параметр — это вероятность того, что монета при броске упадет решкой вверх («H»). может принимать любое значение в диапазоне от 0,0 до 1,0. Для совершенно честной монеты . $p_{\text{H}}$ $p_{\text{H}}$ $p_{\text{H}}=0.5$

Представьте себе, что вы дважды подбрасываете честную монету и наблюдаете, как в двух бросках выпадает две решки («ЧХ»). Если предположить, что каждый последующий подброс монеты равен iid , то вероятность наблюдения HH равна

P({\text{HH}}\mid p_{\text{H}}=0.5)=0.5^{2}=0.25.

Аналогично, вероятность того , что «HH» наблюдался, равна 0,25: $\theta =0.5$

{\mathcal {L}}(p_{\text{H}}=0.5\mid {\text{HH}})=0.25.

Это не то же самое, что сказать, что , вывод, который можно сделать только с помощью теоремы Байеса, зная о предельных вероятностях и . $P(p_{\text{H}}=0.5\mid HH)=0.25$ $P(p_{\text{H}}=0.5)$ $P({\text{HH}})$

Теперь предположим, что монета не является честной монетой, а вместо этого . Тогда вероятность того, что при двух бросках выпадет две решки, равна $p_{\text{H}}=0.3$

P({\text{HH}}\mid p_{\text{H}}=0.3)=0.3^{2}=0.09.

Следовательно

{\mathcal {L}}(p_{\text{H}}=0.3\mid {\text{HH}})=0.09.

В более общем смысле, для каждого значения мы можем вычислить соответствующую вероятность. Результат таких вычислений показан на рисунке 1. Интеграл от [0, 1] равен 1/3; вероятности не обязательно должны интегрироваться или суммироваться до единицы в пространстве параметров. $p_{\text{H}}$ ${\mathcal {L}}$

Непрерывное распределение вероятностей

Пусть – случайная величина, следующая абсолютно непрерывному распределению вероятностей с функцией плотности (функцией ), которая зависит от параметра . Тогда функция $X$ $f$ $x$ $\theta$

{\mathcal {L}}(\theta \mid x)=f_{\theta }(x),

рассматриваемый как функция от , является функцией правдоподобия (от , учитывая результат ). Опять же, это не плотность вероятности или функция массы над , несмотря на то, что она является функцией данного наблюдения . $\theta$ $\theta$ $X=x$ ${\mathcal {L}}$ $\theta$ $\theta$ $X=x$

Связь между функциями правдоподобия и плотности вероятности

Использование плотности вероятности при задании функции правдоподобия выше обосновано следующим образом. Учитывая наблюдение , вероятность для интервала , где является константой, определяется выражением . Обратите внимание, что $x_{j}$ $[x_{j},x_{j}+h]$ $h>0$ ${\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])$

\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h]),

h

\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\Pr(x_{j}\leq x\leq x_{j}+h\mid \theta )=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx,

где – функция плотности вероятности, отсюда следует, что $f(x\mid \theta )$

\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx.

Первая фундаментальная теорема исчисления гласит, что

\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx=f(x_{j}\mid \theta ).

Затем

{\begin{aligned}&\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])\right]\\[4pt]={}&\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx\right]=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ).\end{aligned}}

Поэтому,

\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ),

x_{j}

x_{j}

В общем

В теоретико-мерной теории вероятностей функция плотности определяется как производная Радона – Никодима распределения вероятностей относительно общей доминирующей меры. ^[5] Функция правдоподобия — это плотность, интерпретируемая как функция параметра, а не случайной величины. ^[6] Таким образом, мы можем построить функцию правдоподобия для любого распределения, будь то дискретное, непрерывное, смешанное или иное. (Правдоподобия сравнимы, например, для оценки параметров, только если они являются производными Радона – Никодима по одной и той же доминирующей мере.)

В приведенном выше обсуждении вероятности дискретных случайных величин используется мера подсчета , при которой плотность вероятности любого результата равна вероятности этого результата.

Вероятности для смешанных непрерывно-дискретных распределений

Вышеизложенное можно просто расширить, чтобы можно было рассматривать распределения, которые содержат как дискретные, так и непрерывные компоненты. Предположим, что распределение состоит из ряда дискретных вероятностных масс и плотности , где сумма всех добавленных к интегралу всегда равна единице. Предполагая, что можно отличить наблюдение, соответствующее одной из дискретных вероятностных масс, от наблюдения, которое соответствует компоненту плотности, с функцией правдоподобия для наблюдения из непрерывного компонента можно обращаться способом, показанным выше. Для наблюдения дискретного компонента функция правдоподобия наблюдения дискретного компонента просто $p_{k}\theta$ $f(x\mid \theta )$ $p$ $f$

{\mathcal {L}}(\theta \mid x)=p_{k}(\theta ),

k

x

x

Тот факт, что функция правдоподобия может быть определена способом, включающим несоизмеримые вклады (плотность и масса вероятности), обусловлен тем, как функция правдоподобия определяется с точностью до константы пропорциональности, где эта «константа» может меняться в зависимости от наблюдения , но не в зависимости от параметра . $x$ $\theta$

Условия регулярности

В контексте оценки параметров обычно предполагается, что функция правдоподобия подчиняется определенным условиям, известным как условия регулярности. Эти условия предполагаются в различных доказательствах с использованием функций правдоподобия и требуют проверки в каждом конкретном приложении. Для оценки максимального правдоподобия существование глобального максимума функции правдоподобия имеет первостепенное значение. По теореме об экстремальных значениях достаточно, чтобы функция правдоподобия была непрерывной в компактном пространстве параметров, чтобы существовала оценка максимального правдоподобия. ^[7] Хотя предположение о непрерывности обычно соблюдается, предположение о компактности пространства параметров часто не выполняется, поскольку границы истинных значений параметров могут быть неизвестны. В этом случае ключевую роль играет вогнутость функции правдоподобия.

Более конкретно, если функция правдоподобия дважды непрерывно дифференцируема в k -мерном пространстве параметров, которое считается открытым связным подмножеством, то существует уникальный максимум, если матрица вторых частей $\Theta$ $\mathbb {R} ^{k}\,,$ ${\hat {\theta }}\in \Theta$

\mathbf {H} (\theta )\equiv \left[\,{\frac {\partial ^{2}L}{\,\partial \theta _{i}\,\partial \theta _{j}\,}}\,\right]_{i,j=1,1}^{n_{\mathrm {i} },n_{\mathrm {j} }}\;

определен границе

\,\theta \in \Theta \,

\;\nabla L\equiv \left[\,{\frac {\partial L}{\,\partial \theta _{i}\,}}\,\right]_{i=1}^{n_{\mathrm {i} }}\;

\;\partial \Theta \;,

\lim _{\theta \to \partial \Theta }L(\theta )=0\;,

теорию Морса^[8]теорему о горном перевале^[9]

\,\Theta \,

В доказательствах непротиворечивости и асимптотической нормальности оценки максимального правдоподобия делаются дополнительные предположения о плотностях вероятности, которые составляют основу конкретной функции правдоподобия. Эти условия были впервые установлены Чандой. ^[10] В частности, почти для всех и для всех $x$ $\,\theta \in \Theta \,,$

{\frac {\partial \log f}{\partial \theta _{r}}}\,,\quad {\frac {\partial ^{2}\log f}{\partial \theta _{r}\partial \theta _{s}}}\,,\quad {\frac {\partial ^{3}\log f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\,

расширения Тейлора

\,r,s,t=1,2,\ldots ,k\,

x

\,\theta \in \Theta \,

\left|{\frac {\partial f}{\partial \theta _{r}}}\right|<F_{r}(x)\,,\quad \left|{\frac {\partial ^{2}f}{\partial \theta _{r}\,\partial \theta _{s}}}\right|<F_{rs}(x)\,,\quad \left|{\frac {\partial ^{3}f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\right|<H_{rst}(x)

дифференцирование под знаком интеграла информационная матрица

H

\,\int _{-\infty }^{\infty }H_{rst}(z)\mathrm {d} z\leq M<\infty \;.

\mathbf {I} (\theta )=\int _{-\infty }^{\infty }{\frac {\partial \log f}{\partial \theta _{r}}}\ {\frac {\partial \log f}{\partial \theta _{s}}}\ f\ \mathrm {d} z

определена оценка^[11]

\,\left|\mathbf {I} (\theta )\right|\,

Вышеуказанные условия являются достаточными, но не необходимыми. То есть модель, которая не удовлетворяет этим условиям регулярности, может иметь или не иметь оценку максимального правдоподобия упомянутых выше свойств. Кроме того, в случае ненезависимых или неидентично распределенных наблюдений может потребоваться принять дополнительные свойства.

В байесовской статистике почти идентичные условия регулярности накладываются на функцию правдоподобия , чтобы доказать асимптотическую нормальность апостериорной вероятности ^[12]^[13] и, следовательно, оправдать аппроксимацию Лапласа апостериорной вероятности в больших выборках. ^[14]

Отношение правдоподобия и относительная вероятность

Отношение правдоподобия

Отношение правдоподобия — это отношение любых двух заданных правдоподобий, которое часто записывают как:

\Lambda (\theta _{1}:\theta _{2}\mid x)={\frac {{\mathcal {L}}(\theta _{1}\mid x)}{{\mathcal {L}}(\theta _{2}\mid x)}}

Отношение правдоподобия занимает центральное место в правдоподобной статистике : закон правдоподобия гласит, что степень, в которой данные (считающиеся доказательствами) поддерживают одно значение параметра по сравнению с другим, измеряется отношением правдоподобия.

В частотном выводе отношение правдоподобия является основой для тестовой статистики , так называемого теста отношения правдоподобия . Согласно лемме Неймана-Пирсона , это самый мощный тест для сравнения двух простых гипотез на заданном уровне значимости . Многочисленные другие тесты можно рассматривать как тесты отношения правдоподобия или их аппроксимации. ^[15] Асимптотическое распределение логарифмического отношения правдоподобия, рассматриваемое как тестовая статистика, определяется теоремой Уилкса .

Отношение правдоподобия также имеет центральное значение в байесовском выводе , где оно известно как фактор Байеса и используется в правиле Байеса . Выраженное в терминах шансов правило Байеса гласит, что апостериорные шансы двух альтернатив и при данном событии являются априорными шансами, умноженными на отношение правдоподобия. В виде уравнения: $A_{1}$ $A_{2}$ $B$

O(A_{1}:A_{2}\mid B)=O(A_{1}:A_{2})\cdot \Lambda (A_{1}:A_{2}\mid B).

Отношение правдоподобия не используется напрямую в статистике на основе AIC. Вместо этого используется относительная вероятность моделей (см. ниже).

Функция относительного правдоподобия

Поскольку фактическое значение функции правдоподобия зависит от выборки, часто удобно работать со стандартизированной мерой. Предположим, что оценка максимального правдоподобия для параметра $θ$ равна . Относительная правдоподобность других значений $θ$ может быть найдена путем сравнения правдоподобий этих других значений с вероятностью . Относительная вероятность θ определяется как ^[16]^[17] $[$ ^18]^[19]^[20] ${\hat {\theta }}$ ${\hat {\theta }}$

R(\theta )={\frac {{\mathcal {L}}(\theta \mid x)}{{\mathcal {L}}({\hat {\theta }}\mid x)}}.

{\mathcal {L}}({\hat {\theta }})

Вероятностный регион

Область правдоподобия — это набор всех значений $θ$ , относительная вероятность которых больше или равна заданному порогу. В процентах область вероятности $p$ % для $θ$ определяется как ^[16]^[18]^[21]

\left\{\theta :R(\theta )\geq {\frac {p}{100}}\right\}.

Если $θ$ является единственным действительным параметром, область вероятности $p$ % обычно будет включать интервал реальных значений. Если область содержит интервал, то она называется интервалом правдоподобия . ^[16]^[18]^[22]

Интервалы правдоподобия и, в более общем плане, области правдоподобия используются для интервальной оценки в правдоподобной статистике: они аналогичны доверительным интервалам в частотной статистике и достоверным интервалам в байесовской статистике. Интервалы правдоподобия интерпретируются непосредственно с точки зрения относительной вероятности, а не с точки зрения вероятности покрытия (частотность) или апостериорной вероятности (байесианство).

Учитывая модель, интервалы правдоподобия можно сравнить с доверительными интервалами. Если $θ$ является единственным действительным параметром, то при определенных условиях интервал правдоподобия 14,65% (вероятность около 1:7) для $θ$ будет таким же, как доверительный интервал 95% (вероятность охвата 19/20). ^[16]^[21] В несколько иной формулировке, подходящей для использования логарифмического правдоподобия (см. теорему Уилкса ), тестовая статистика в два раза превышает разницу в логарифмическом правдоподобии, а распределение вероятностей тестовой статистики примерно равно хи- квадратичное распределение со степенями свободы (df), равными разнице df между двумя моделями (следовательно, интервал правдоподобия $e$ ^-2 такой же, как доверительный интервал 0,954; принимая разницу в df равной 1). ^[21]^[22]

Вероятности, исключающие мешающие параметры

Во многих случаях вероятность является функцией более чем одного параметра, но интерес сосредотачивается на оценке только одного или, самое большее, нескольких из них, а остальные рассматриваются как мешающие параметры . Для устранения таких мешающих параметров было разработано несколько альтернативных подходов, чтобы вероятность можно было записать как функцию только интересующего параметра (или параметров): основными подходами являются профильная, условная и предельная правдоподобия. ^[23]^[24] Эти подходы также полезны, когда многомерную поверхность правдоподобия необходимо свести к одному или двум интересующим параметрам, чтобы можно было построить график .

Вероятность профиля

Можно уменьшить размерность, концентрируя функцию правдоподобия для подмножества параметров, выражая мешающие параметры как функции интересующих параметров и заменяя их в функции правдоподобия. ^[25]^[26] В общем, для функции правдоподобия, зависящей от вектора параметров , который можно разделить на и где соответствие может быть определено явно, концентрация уменьшает вычислительную нагрузку исходной задачи максимизации. ^[27] $\mathbf {\theta }$ $\mathbf {\theta } =\left(\mathbf {\theta } _{1}:\mathbf {\theta } _{2}\right)$ $\mathbf {\hat {\theta }} _{2}=\mathbf {\hat {\theta }} _{2}\left(\mathbf {\theta } _{1}\right)$

Например, в линейной регрессии с нормально распределенными ошибками вектор коэффициентов может быть разделен на (и, следовательно, на матрицу плана ). Максимизация по отношению к дает оптимальную функцию значения . Используя этот результат, оценку максимального правдоподобия для можно получить как $\mathbf {y} =\mathbf {X} \beta +u$ $\beta =\left[\beta _{1}:\beta _{2}\right]$ $\mathbf {X} =\left[\mathbf {X} _{1}:\mathbf {X} _{2}\right]$ $\beta _{2}$ $\beta _{2}(\beta _{1})=\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}\left(\mathbf {y} -\mathbf {X} _{1}\beta _{1}\right)$ $\beta _{1}$

{\hat {\beta }}_{1}=\left(\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {X} _{1}\right)^{-1}\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {y}

проекции теорема Фриша-Во-Ловелла

\mathbf {P} _{2}=\mathbf {X} _{2}\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}

\mathbf {X} _{2}

Поскольку графически процедура концентрации эквивалентна разрезанию поверхности правдоподобия по гребню значений параметра помехи, максимизирующему функцию правдоподобия, созданию изометрического профиля функции правдоподобия для заданного , результат этой процедуры также известен как профиль вероятность . ^[28]^[29] Помимо графического изображения, профиль правдоподобия также можно использовать для расчета доверительных интервалов , которые часто имеют лучшие свойства для малой выборки, чем те, которые основаны на асимптотических стандартных ошибках , рассчитанных на основе полного правдоподобия. ^[30]^[31] $\beta _{2}$ $\beta _{1}$

Условная вероятность

Иногда можно найти достаточную статистику для мешающих параметров, и использование этой статистики приводит к получению вероятности, которая не зависит от мешающих параметров. ^[32]

Один из примеров встречается в таблицах 2×2, где условие всех четырех предельных итогов приводит к условному правдоподобию, основанному на нецентральном гипергеометрическом распределении . Эта форма обусловленности также является основой точного теста Фишера .

Предельная вероятность

Иногда мы можем удалить мешающие параметры, рассматривая вероятность, основанную только на части информации в данных, например, используя набор рангов, а не числовые значения. Другой пример встречается в линейных смешанных моделях , где рассмотрение вероятности остатков только после подгонки фиксированных эффектов приводит к оценке максимального правдоподобия остатков для компонентов дисперсии.

Частичная вероятность

Частичная вероятность — это адаптация полной вероятности, при которой в ней встречается только часть параметров (интересующих параметров). ^[33] Это ключевой компонент модели пропорциональных рисков : при использовании ограничения на функцию риска вероятность не содержит формы опасности с течением времени.

Произведения вероятностей

Вероятность при наличии двух или более независимых событий является произведением вероятностей каждого из отдельных событий:

\Lambda (A\mid X_{1}\land X_{2})=\Lambda (A\mid X_{1})\cdot \Lambda (A\mid X_{2})

Это особенно важно, когда события происходят из независимых и одинаково распределенных случайных величин , таких как независимые наблюдения или выборка с заменой . В такой ситуации функция правдоподобия превращается в произведение отдельных функций правдоподобия.

Пустое произведение имеет значение 1, что соответствует вероятности, равной 1 при отсутствии событий: перед появлением каких-либо данных вероятность всегда равна 1. Это похоже на равномерный априор в байесовской статистике, но в правдоподобной статистике это не является неправильным. раньше , потому что вероятности не интегрированы.

Логарифмическое правдоподобие

Логарифмическая функция правдоподобия — это логарифм функции правдоподобия, часто обозначаемый строчной буквой $l$ или , в отличие от прописной буквы $L$ или для правдоподобия. Поскольку логарифмы являются строго возрастающими функциями, максимизация правдоподобия эквивалентна максимизации логарифмического правдоподобия. Но для практических целей удобнее работать с логарифмической функцией правдоподобия при оценке максимального правдоподобия , в частности, поскольку наиболее распространенные распределения вероятностей — особенно экспоненциальное семейство — являются только логарифмически вогнутыми , ^[34]^[35] и вогнутостью цели. Функция играет ключевую роль в максимизации . $\ell$ ${\mathcal {L}}$

Учитывая независимость каждого события, общая логарифмическая вероятность пересечения равна сумме логарифмических вероятностей отдельных событий. Это аналогично тому факту, что общая логарифмическая вероятность представляет собой сумму логарифмических вероятностей отдельных событий. Помимо математического удобства, процесс добавления логарифмического правдоподобия имеет интуитивную интерпретацию, которую часто выражают как «поддержку» данными. Когда параметры оцениваются с использованием логарифмического правдоподобия для оценки максимального правдоподобия , каждая точка данных используется путем прибавления к общему логарифмическому правдоподобию. Поскольку данные можно рассматривать как свидетельство, подтверждающее оцененные параметры, этот процесс можно интерпретировать как «дополнительную поддержку со стороны независимых доказательств », а логарифмическое правдоподобие представляет собой «вес доказательств». Интерпретируя отрицательную логарифмическую вероятность как информационное содержание или неожиданность , поддержка (логарифмическая вероятность) модели при данном событии является отрицанием неожиданности события при данной модели: модель поддерживается событием в той степени, в которой что событие неудивительно, учитывая модель.

Логарифм отношения правдоподобия равен разнице логарифмов правдоподобия:

\log {\frac {L(A)}{L(B)}}=\log L(A)-\log L(B)=\ell (A)-\ell (B).

Точно так же, как вероятность при отсутствии событий равна 1, логарифмическая правдоподобность при отсутствии событий равна 0, что соответствует значению пустой суммы: без каких-либо данных не поддерживается никакая модель.

График

График логарифмического правдоподобия называется опорной кривой (в одномерном случае ). ^[36] В многомерном случае концепция обобщается до опорной поверхности в пространстве параметров . Он имеет отношение к поддержке дистрибутива , но отличается от него .

Этот термин был придуман AWF Edwards ^[36] в контексте проверки статистических гипотез , т.е. «поддерживают ли данные» одну проверяемую гипотезу (или значение параметра) в большей степени, чем любую другую.

Построенная функция логарифмического правдоподобия используется при вычислении оценки ( градиент логарифмического правдоподобия) и информации Фишера (кривизна логарифмического правдоподобия). Этот график имеет прямую интерпретацию в контексте оценки максимального правдоподобия и тестов отношения правдоподобия .

Уравнения правдоподобия

Если логарифмическая функция правдоподобия является гладкой , ее градиент по отношению к параметру, известному как оценка и написанное , существует и позволяет применять дифференциальное исчисление . Основной способ максимизировать дифференцируемую функцию — найти стационарные точки (точки, в которых производная равна нулю); поскольку производная суммы — это просто сумма производных, а для производной произведения требуется правило произведения , легче вычислить стационарные точки логарифмической вероятности независимых событий, чем вероятности независимых событий. $s_{n}(\theta )\equiv \nabla _{\theta }\ell _{n}(\theta )$

Уравнения, определяемые стационарной точкой оценочной функции, служат оценочными уравнениями для средства оценки максимального правдоподобия.

s_{n}(\theta )=\mathbf {0}

функцииdевклидово пространство теорему об обратной функции корректно определена открытой окрестности почти наверняка^[37]теорему Ролля^[38]^[39]

\mathbf {0}

s_{n}^{-1}:\mathbb {E} ^{d}\to \Theta

\mathbb {E} ^{d}

\Theta

s_{n}^{-1}

\mathbf {0}

{\hat {\theta }}_{n}=s_{n}^{-1}(\mathbf {0} )

\theta

{\textstyle \left\{{\hat {\theta }}_{n}\right\}}

s_{n}({\hat {\theta }}_{n})=\mathbf {0}

{\hat {\theta }}_{n}{\xrightarrow {\text{p}}}\theta _{0}

Вторая производная, оцененная при , известная как информация Фишера , определяет кривизну поверхности правдоподобия ^[40] и, таким образом, указывает на точность оценки. ^[41] ${\hat {\theta }}$

Экспоненциальные семьи

Логарифмическое правдоподобие также особенно полезно для экспоненциальных семейств распределений, которые включают многие распространенные параметрические распределения вероятностей . Функция распределения вероятностей (и, следовательно, функция правдоподобия) для экспоненциальных семейств содержит произведения факторов, включающих возведение в степень . Логарифм такой функции представляет собой сумму произведений, которую опять же легче дифференцировать, чем исходную функцию.

Экспоненциальное семейство — это семейство, функция плотности вероятности которого имеет вид (для некоторых функций запись внутреннего продукта ): $\langle -,-\rangle$

p(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }}){\Big )}.

Каждый из этих терминов имеет интерпретацию, ^[a] но простой переход от вероятности к правдоподобию и логарифмирование дает сумму:

\ell ({\boldsymbol {\theta }}\mid x)=\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }})+\log h(x).

Каждый из и соответствует изменению координат , поэтому в этих координатах логарифмическое правдоподобие экспоненциального семейства определяется простой формулой: ${\boldsymbol {\eta }}({\boldsymbol {\theta }})$ $h(x)$

\ell ({\boldsymbol {\eta }}\mid x)=\langle {\boldsymbol {\eta }},\mathbf {T} (x)\rangle -A({\boldsymbol {\eta }}).

Другими словами, логарифмическое правдоподобие экспоненциального семейства является внутренним произведением натурального параметра и достаточной статистики за вычетом коэффициента нормализации ( функция логарифмического разделения ) . Так, например, оценку максимального правдоподобия можно вычислить, взяв производные достаточной статистики $T$ и функции логарифмического распределения $A$ . ${\boldsymbol {\eta }}$ $\mathbf {T} (x)$ $A({\boldsymbol {\eta }})$

Пример: гамма-распределение

Гамма -распределение представляет собой экспоненциальное семейство с двумя параметрами и . Функция правдоподобия $\alpha$ $\beta$

{\mathcal {L}}(\alpha ,\beta \mid x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.

Нахождение оценки максимального правдоподобия для одного наблюдаемого значения выглядит довольно сложной задачей. С его логарифмом работать гораздо проще: $\beta$ $x$

\log {\mathcal {L}}(\alpha ,\beta \mid x)=\alpha \log \beta -\log \Gamma (\alpha )+(\alpha -1)\log x-\beta x.\,

Чтобы максимизировать логарифмическое правдоподобие, мы сначала берем частную производную по : $\beta$

{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x)}{\partial \beta }}={\frac {\alpha }{\beta }}-x.

Если имеется ряд независимых наблюдений , то совместное логарифмическое правдоподобие будет суммой отдельных логарифмических правдоподобий, а производная этой суммы будет суммой производных каждого отдельного логарифмического правдоподобия: $x_{1},\ldots ,x_{n}$

{\begin{aligned}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1},\ldots ,x_{n})}{\partial \beta }}\\={}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1})}{\partial \beta }}+\cdots +{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{n})}{\partial \beta }}={\frac {n\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}.\end{aligned}}

Чтобы завершить процедуру максимизации совместного логарифмического правдоподобия, уравнение устанавливается равным нулю и решается для : $\beta$

{\widehat {\beta }}={\frac {\alpha }{\bar {x}}}.

Здесь обозначает оценку максимального правдоподобия и является выборочным средним значением наблюдений. ${\widehat {\beta }}$ $\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$

Предыстория и интерпретация

Исторические замечания

Термин «вероятность» используется в английском языке, по крайней мере, с позднего среднеанглийского языка . ^[42] Его формальное использование для обозначения конкретной функции в математической статистике было предложено Рональдом Фишером ^[43] в двух исследовательских статьях, опубликованных в 1921 году ^[44] и 1922 году. ^[45] В статье 1921 года было представлено то, что сегодня называется « интервал правдоподобия"; в статье 1922 года был введен термин « метод максимального правдоподобия ». Цитирую Фишер:

В 1922 году я предложил термин «правдоподобие» ввиду того, что по отношению к [параметру] он не является вероятностью и не подчиняется законам вероятности, хотя в то же время он имеет к проблеме рационального выбора среди возможных значений [параметра] отношение, подобное тому, которое вероятность имеет к проблеме предсказания событий в азартных играх. . . . Однако, хотя в отношении психологического суждения вероятность имеет некоторое сходство с вероятностью, эти два понятия совершенно различны. . . .» ^[46]

Понятие правдоподобия не следует путать с вероятностью, упомянутой сэром Рональдом Фишером.

Я подчеркиваю это, потому что, несмотря на то внимание, которое я всегда уделял разнице между вероятностью и правдоподобием, все еще существует тенденция рассматривать вероятность как разновидность вероятности. Таким образом, первый результат состоит в том, что существуют две разные меры рационального убеждения, подходящие для разных случаев. Зная генеральную совокупность, мы можем выразить наше неполное знание или ожидание относительно выборки в терминах вероятности; зная выборку, мы можем выразить наши неполные знания о совокупности с точки зрения вероятности. ^[47]

Изобретение Фишером статистического правдоподобия было реакцией на более раннюю форму рассуждения, называемую обратной вероятностью . ^[48] Использование им термина «вероятность» закрепило значение этого термина в математической статистике.

АВФ Эдвардс (1972) установил аксиоматическую основу для использования отношения логарифмического правдоподобия как меры относительной поддержки одной гипотезы по сравнению с другой. В этом случае опорная функция представляет собой натуральный логарифм функции правдоподобия. Оба термина используются в филогенетике , но не были приняты при общем рассмотрении темы статистических данных. ^[49]

Толкования под разные основания

Среди статистиков нет единого мнения относительно того, какой должна быть основа статистики . Для фонда были предложены четыре основные парадигмы: частотность , байесианство , правдоподобие и AIC-основание . ^[50] Для каждого из предложенных оснований интерпретация вероятности различна. Четыре интерпретации описаны в подразделах ниже.

Частотная интерпретация

Байесовская интерпретация

Хотя в байесовском выводе можно говорить о вероятности любого утверждения или случайной величины при наличии другой случайной величины: например, о вероятности значения параметра или статистической модели (см. Предельное правдоподобие ), при заданных данных или других доказательствах, ^{[51] ]}^[52]^[53]^[54] функция правдоподобия остается той же сущностью, с дополнительными интерпретациями (i) условной плотности данных с учетом параметра (поскольку параметр тогда является случайной величиной) и (ii) мера или количество информации, содержащееся в данных о значении параметра или даже модели. ^[51]^[52]^[53]^[54]^[55] Из-за введения вероятностной структуры в пространстве параметров или в наборе моделей возможно, что значение параметра или статистическая модель будут иметь большое значение правдоподобия. для данных данных, но имеют низкую вероятность , или наоборот. ^[53]^[55] Это часто имеет место в медицинском контексте. ^[56] Следуя правилу Байеса , вероятность, рассматриваемая как условная плотность, может быть умножена на априорную плотность вероятности параметра, а затем нормализована, чтобы получить апостериорную плотность вероятности . ^[51]^[52]^[53]^[54]^[55] В более общем смысле, вероятность неизвестной величины при наличии другой неизвестной величины пропорциональна вероятности данного . ^[51]^[52]^[53]^[54]^[55] $X$ $Y$ $Y$ $X$

Правдоподобная интерпретация

В частотной статистике функция правдоподобия сама по себе является статистикой , которая суммирует одну выборку из совокупности, расчетное значение которой зависит от выбора нескольких параметров θ ₁ ... θ _p , где p — количество параметров в некоторых уже выбранных статистическая модель . Значение правдоподобия служит показателем качества выбора параметров, а набор параметров с максимальным правдоподобием является лучшим выбором с учетом имеющихся данных.

Конкретный расчет правдоподобия — это вероятность того, что наблюдаемая выборка будет присвоена, при условии, что выбранная модель и значения нескольких параметров θ дают точную аппроксимацию частотного распределения популяции, из которой была взята наблюдаемая выборка. С эвристической точки зрения имеет смысл, что хороший выбор параметров — это те, которые делают выборку действительно наблюдаемой с максимально возможной апостериорной вероятностью того, что произошло. Теорема Уилкса количественно определяет эвристическое правило, показывая, что разница в логарифме вероятности, генерируемой значениями параметров оценки, и логарифмом правдоподобия, генерируемого «истинными» (но неизвестными) значениями параметров совокупности, асимптотически распределена χ 2 .

Оценка максимального правдоподобия каждой независимой выборки представляет собой отдельную оценку «истинного» набора параметров, описывающего выбранную совокупность. Последовательные оценки из многих независимых выборок будут группироваться вместе с «истинным» набором значений параметров генеральной совокупности, скрытым где-то среди них. Разность логарифмов правдоподобия максимального правдоподобия и правдоподобия соседних наборов параметров можно использовать для построения доверительной области на графике, координатами которого являются параметры θ ₁ ... θ _p . Область окружает оценку максимального правдоподобия, и все точки (наборы параметров) в этой области отличаются по логарифмическому правдоподобию не более чем на некоторое фиксированное значение. Распределение χ ^2, заданное теоремой Уилкса, преобразует различия логарифмического правдоподобия региона в «уверенность» в том, что «истинный» набор параметров популяции находится внутри. Искусство выбора фиксированной логарифмической разности правдоподобия состоит в том, чтобы сделать достоверность приемлемо высокой, сохраняя при этом приемлемо малую область (узкий диапазон оценок).

По мере того, как наблюдается больше данных, вместо того, чтобы использовать их для независимых оценок, их можно объединить с предыдущими выборками, чтобы создать единую объединенную выборку, и эту большую выборку можно использовать для новой оценки максимального правдоподобия. По мере увеличения размера объединенной выборки размер области правдоподобия с той же достоверностью уменьшается. В конце концов, либо размер доверительной области почти равен одной точке, либо была выбрана вся совокупность; в обоих случаях предполагаемый набор параметров по существу такой же, как набор параметров совокупности.

Интерпретация на основе AIC

В парадигме AIC вероятность интерпретируется в контексте теории информации . ^[57]^[58]^[59]

Смотрите также

Примечания

^ См. Экспоненциальное семейство § Интерпретация.

дальнейшее чтение

Аззалини, Адельчи (1996). "Вероятность". Статистический вывод, основанный на правдоподобии . Чепмен и Холл. стр. 17–50. ISBN 0-412-60650-Х.
Боос, Деннис Д.; Стефански, Луизиана (2013). «Построение и оценка вероятности». Основные статистические выводы: теория и методы . Нью-Йорк: Спрингер. стр. 27–124. дои : 10.1007/978-1-4614-4818-1_2. ISBN 978-1-4614-4817-4.
Эдвардс, AWF (1992) [1972]. Вероятность (Расширенная ред.). Издательство Университета Джонса Хопкинса . ISBN 0-8018-4443-6.
Кинг, Гэри (1989). «Модель правдоподобия вывода». Объединение политической методологии: теория подобия статистического вывода . Издательство Кембриджского университета. стр. 59–94. ISBN 0-521-36697-6.
Линдси, Дж. К. (1996). "Вероятность". Параметрический статистический вывод . Издательство Оксфордского университета. стр. 69–139. ISBN 0-19-852359-9.
Роде, Чарльз А. (2014). Вводный статистический вывод с функцией правдоподобия . Берлин: Шпрингер. ISBN 978-3-319-10460-7.
Ройалл, Ричард (1997). Статистические данные: парадигма вероятности . Лондон: Чепмен и Холл. ISBN 0-412-04411-0.
Уорд, Майкл Д .; Алквист, Джон С. (2018). «Функция правдоподобия: более глубокое погружение». Максимальное правдоподобие для социальных наук: стратегии анализа . Издательство Кембриджского университета . стр. 21–28. ISBN 978-1-316-63682-4.

Внешние ссылки

Поищите вероятность в Викисловаре, бесплатном словаре.

Функция правдоподобия в Planetmath
«Логаправдоподобие». Статлект .