Функция правдоподобия

Функция правдоподобия (часто называемая просто правдоподобием ) измеряет, насколько хорошо статистическая модель объясняет наблюдаемые данные , вычисляя вероятность увидеть эти данные при различных значениях параметров модели. Она строится на основе совместного распределения вероятностей случайной величины , которая (предположительно) сгенерировала наблюдения. ^[1]^[2]^[3] При оценке на фактических точках данных она становится функцией исключительно параметров модели.

При оценке максимального правдоподобия аргумент, который максимизирует функцию правдоподобия, служит точечной оценкой для неизвестного параметра, в то время как информация Фишера (часто аппроксимируемая матрицей Гессе правдоподобия в максимуме) дает представление о точности оценки .

Напротив, в байесовской статистике оценка интереса является обратной величиной правдоподобия, так называемой апостериорной вероятностью параметра с учетом наблюдаемых данных, которая вычисляется с помощью правила Байеса . ^[4]

Определение

Функция правдоподобия, параметризованная (возможно, многомерным) параметром , обычно определяется по-разному для дискретных и непрерывных распределений вероятностей (более общее определение обсуждается ниже). При наличии плотности вероятности или функции массы ${\textstyle \тета}$

$x\mapsto f(x\mid \theta ),$

где - реализация случайной величины , функция правдоподобия часто записывается ${\textstyle x}$ ${\textstyle X}$ $\theta \mapsto f(x\mid \theta ),$ ${\mathcal {L}}(\theta \mid x).$

Другими словами, когда рассматривается как функция от с фиксированным, это функция плотности вероятности, а когда рассматривается как функция от с фиксированным, это функция правдоподобия. В частотной парадигме обозначение часто избегается и вместо этого или используется для указания того, что рассматривается как фиксированная неизвестная величина, а не как случайная переменная, обусловленная. ${\textstyle f(x\mid \theta )}$ ${\textstyle x}$ ${\textstyle \тета}$ ${\textstyle \тета}$ ${\textstyle x}$ ${\textstyle f(x\mid \theta )}$ ${\textstyle f(x;\тета)}$ ${\textstyle f(x,\theta )}$ ${\textstyle \тета}$

Функция правдоподобия не определяет вероятность того, что является правдой, учитывая наблюдаемую выборку . Такая интерпретация является распространенной ошибкой, с потенциально катастрофическими последствиями (см. Ошибка прокурора ). ${\textstyle \тета}$ ${\textstyle X=x}$

Дискретное распределение вероятностей

Пусть — дискретная случайная величина с функцией вероятности массы, зависящей от параметра . Тогда функция ${\textstyle X}$ ${\textstyle р}$ ${\textstyle \тета}$

${\mathcal {L}}(\theta \mid x)=p_{\theta }(x)=P_{\theta }(X=x),$

рассматриваемая как функция от , является функцией правдоподобия , учитывая результат случайной величины . Иногда вероятность "значения для значения параметра " записывается как $P$ $($ $X$ $=$ $x$ $|$ $θ$ $)$ или $P$ $($ $X$ $=$ $x$ $;$ $θ$ $)$ . Правдоподобие - это вероятность того, что определенный результат наблюдается, когда истинное значение параметра равно , эквивалентно массе вероятности на ; это не плотность вероятности по параметру . Правдоподобие , , не следует путать с , которое является апостериорной вероятностью при данных . ${\textstyle \тета}$ ${\textstyle x}$ ${\textstyle X}$ ${\textstyle x}$ ${\textstyle X}$ ${\textstyle \тета}$ ${\textstyle x}$ ${\textstyle \тета}$ ${\textstyle x}$ ${\textstyle \тета}$ ${\textstyle {\mathcal {L}}(\theta \mid x)}$ ${\textstyle P(\тета \середина x)}$ ${\textstyle \тета}$ ${\textstyle x}$

Пример

Рисунок 1. Функция правдоподобия ( ) для вероятности падения монеты орлом вверх (без предварительного знания честности монеты), учитывая, что мы наблюдали HH. ${\textstyle p_{\text{H}}^{2}}$

Рисунок 2. Функция правдоподобия ( ) для вероятности падения монеты орлом вверх (без предварительного знания честности монеты), учитывая, что мы наблюдали HHT. ${\textstyle p_{\text{H}}^{2}(1-p_{\text{H}})}$

Рассмотрим простую статистическую модель подбрасывания монеты: один параметр , который выражает «честность» монеты. Параметр — это вероятность того, что монета упадет орлом вверх («H») при подбрасывании. может принимать любое значение в диапазоне от 0,0 до 1,0. Для совершенно честной монеты , . ${\textstyle p_{\text{H}}}$ ${\textstyle p_{\text{H}}}$ ${\textstyle p_{\text{H}}=0.5}$

Представьте себе, что вы подбрасываете честную монету дважды и наблюдаете два выпадения орла в двух бросках («HH»). Если предположить, что каждое последующее подбрасывание монеты является iid , то вероятность наблюдения HH равна

$P({\text{HH}}\mid p_{\text{H}}=0.5)=0.5^{2}=0.25.$

Эквивалентно, вероятность наблюдения "HH" при условии , что ${\textstyle p_{\text{H}}=0.5}$

${\mathcal {L}}(p_{\text{H}}=0.5\mid {\text{HH}})=0.25.$

Это не то же самое, что сказать, что , вывод, к которому можно прийти только с помощью теоремы Байеса, учитывая знания о предельных вероятностях и . ${\textstyle P(p_{\text{H}}=0.5\mid HH)=0.25}$ ${\textstyle P(p_{\text{H}}=0.5)}$ ${\textstyle P({\text{HH}})}$

Теперь предположим, что монета не является честной монетой, а вместо этого . Тогда вероятность выпадения двух орлов при двух подбрасываниях равна ${\textstyle p_{\text{H}}=0.3}$

$P({\text{HH}}\mid p_{\text{H}}=0.3)=0.3^{2}=0.09.$

Следовательно

${\mathcal {L}}(p_{\text{H}}=0.3\mid {\text{HH}})=0.09.$

В более общем смысле, для каждого значения мы можем вычислить соответствующее правдоподобие. Результат таких вычислений показан на рисунке 1. Интеграл по [0, 1] равен 1/3; правдоподобия не обязательно должны интегрироваться или суммироваться до единицы по пространству параметров. ${\textstyle p_{\text{H}}}$ ${\textstyle {\mathcal {L}}}$

Непрерывное распределение вероятностей

Пусть будет случайной величиной, следующей абсолютно непрерывному распределению вероятностей с функцией плотности (функцией от ), которая зависит от параметра . Тогда функция ${\textstyle X}$ ${\textstyle f}$ ${\textstyle x}$ ${\textstyle \theta }$

${\mathcal {L}}(\theta \mid x)=f_{\theta }(x),$

рассматриваемая как функция от , является функцией правдоподобия (от , учитывая результат ). Опять же, не является функцией плотности вероятности или массовой функцией над , несмотря на то, что является функцией от , учитывая наблюдение . ${\textstyle \theta }$ ${\textstyle \theta }$ ${\textstyle X=x}$ ${\textstyle {\mathcal {L}}}$ ${\textstyle \theta }$ ${\textstyle \theta }$ ${\textstyle X=x}$

Связь между функциями плотности правдоподобия и вероятности

Использование плотности вероятности при указании функции правдоподобия выше оправдано следующим образом. При наличии наблюдения вероятность для интервала , где — константа, определяется выражением . Заметим, что поскольку — положительно и постоянно. Поскольку ${\textstyle x_{j}}$ ${\textstyle [x_{j},x_{j}+h]}$ ${\textstyle h>0}$ ${\textstyle {\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])}$ $\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h]),$ ${\textstyle h}$ $\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\Pr(x_{j}\leq x\leq x_{j}+h\mid \theta )=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx,$

где - функция плотности вероятности, следует, что ${\textstyle f(x\mid \theta )}$

$\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx.$

Первая фундаментальная теорема исчисления гласит, что $\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx=f(x_{j}\mid \theta ).$

Затем ${\begin{aligned}&\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])\right]\\[4pt]={}&\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx\right]=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ).\end{aligned}}$

Следовательно, и, таким образом, максимизация плотности вероятности при равносильна максимизации вероятности конкретного наблюдения . $\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ),$ ${\textstyle x_{j}}$ ${\textstyle x_{j}}$

В общем

В теории вероятностей с мерой функция плотности определяется как производная Радона–Никодима распределения вероятностей относительно общей доминирующей меры. ^[5] Функция правдоподобия — это эта плотность, интерпретируемая как функция параметра, а не случайной величины. ^[6] Таким образом, мы можем построить функцию правдоподобия для любого распределения, будь то дискретное, непрерывное, смешанное или иное. (Вероятности сравнимы, например, для оценки параметров, только если они являются производными Радона–Никодима относительно одной и той же доминирующей меры.)

Приведенное выше обсуждение вероятности для дискретных случайных величин использует меру подсчета , при которой плотность вероятности любого результата равна вероятности этого результата.

Вероятности для смешанных непрерывно-дискретных распределений

Вышесказанное можно расширить простым способом, чтобы рассмотреть распределения, которые содержат как дискретные, так и непрерывные компоненты. Предположим, что распределение состоит из ряда дискретных вероятностных масс и плотности , где сумма всех ' , добавленных к интегралу от , всегда равна единице. Предполагая, что можно отличить наблюдение, соответствующее одной из дискретных вероятностных масс, от наблюдения, соответствующего компоненту плотности, с функцией правдоподобия для наблюдения из непрерывного компонента можно работать так, как показано выше. Для наблюдения из дискретного компонента функция правдоподобия для наблюдения из дискретного компонента просто равна , где - индекс дискретной вероятностной массы, соответствующей наблюдению , поскольку максимизация вероятностной массы (или вероятности) при означает максимизацию правдоподобия конкретного наблюдения. ${\textstyle p_{k}(\theta )}$ ${\textstyle f(x\mid \theta )}$ ${\textstyle p}$ ${\textstyle f}$ ${\mathcal {L}}(\theta \mid x)=p_{k}(\theta ),$ ${\textstyle k}$ ${\textstyle x}$ ${\textstyle x}$

Тот факт, что функция правдоподобия может быть определена таким образом, что включает в себя несоизмеримые вклады (плотность и масса вероятности), вытекает из способа, которым функция правдоподобия определяется с точностью до константы пропорциональности, где эта «константа» может изменяться вместе с наблюдением , но не вместе с параметром . ${\textstyle x}$ ${\textstyle \theta }$

Условия регулярности

В контексте оценки параметров обычно предполагается, что функция правдоподобия подчиняется определенным условиям, известным как условия регулярности. Эти условия предполагаются в различных доказательствах, включающих функции правдоподобия, и должны быть проверены в каждом конкретном приложении. Для оценки максимального правдоподобия существование глобального максимума функции правдоподобия имеет первостепенное значение. По теореме об экстремальном значении достаточно, чтобы функция правдоподобия была непрерывной на компактном пространстве параметров для существования оценки максимального правдоподобия. ^[7] В то время как предположение о непрерывности обычно выполняется, предположение о компактности пространства параметров часто не выполняется, поскольку границы истинных значений параметров могут быть неизвестны. В этом случае вогнутость функции правдоподобия играет ключевую роль.

Более конкретно, если функция правдоподобия дважды непрерывно дифференцируема на k -мерном пространстве параметров, которое предполагается открытым связным подмножеством , то существует единственный максимум, если матрица вторых парциальных функций отрицательно определена для каждого , при котором градиент обращается в нуль, и если функция правдоподобия стремится к константе на границе пространства параметров, т. е. которая может включать точки на бесконечности, если неограничена. Мякеляйнен и соавторы доказывают этот результат, используя теорию Морса , неформально апеллируя к свойству горного перевала. ^[8] Маскаренхас переформулирует свое доказательство, используя теорему о горном перевале . ^[9] ${\textstyle \Theta }$ ${\textstyle \mathbb {R} ^{k}\,,}$ ${\textstyle {\hat {\theta }}\in \Theta }$ $\mathbf {H} (\theta )\equiv \left[\,{\frac {\partial ^{2}L}{\,\partial \theta _{i}\,\partial \theta _{j}\,}}\,\right]_{i,j=1,1}^{n_{\mathrm {i} },n_{\mathrm {j} }}\;$ ${\textstyle \,\theta \in \Theta \,}$ ${\textstyle \;\nabla L\equiv \left[\,{\frac {\partial L}{\,\partial \theta _{i}\,}}\,\right]_{i=1}^{n_{\mathrm {i} }}\;}$ ${\textstyle \;\partial \Theta \;,}$ $\lim _{\theta \to \partial \Theta }L(\theta )=0\;,$ ${\textstyle \,\Theta \,}$

В доказательствах согласованности и асимптотической нормальности оценки максимального правдоподобия делаются дополнительные предположения о плотностях вероятности, которые формируют основу конкретной функции правдоподобия. Эти условия были впервые установлены Чандой. ^[10] В частности, для почти всех и для всех существуют для всех , чтобы гарантировать существование разложения Тейлора . Во-вторых, для почти всех и для каждого должно быть так, что где таково, что Эта ограниченность производных необходима для того, чтобы разрешить дифференцирование под знаком интеграла . И, наконец, предполагается, что информационная матрица , положительно определена и конечна. Это гарантирует, что оценка имеет конечную дисперсию. ^[11] ${\textstyle x}$ ${\textstyle \,\theta \in \Theta \,,}$ ${\frac {\partial \log f}{\partial \theta _{r}}}\,,\quad {\frac {\partial ^{2}\log f}{\partial \theta _{r}\partial \theta _{s}}}\,,\quad {\frac {\partial ^{3}\log f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\,$ ${\textstyle \,r,s,t=1,2,\ldots ,k\,}$ ${\textstyle x}$ ${\textstyle \,\theta \in \Theta \,}$ $\left|{\frac {\partial f}{\partial \theta _{r}}}\right|<F_{r}(x)\,,\quad \left|{\frac {\partial ^{2}f}{\partial \theta _{r}\,\partial \theta _{s}}}\right|<F_{rs}(x)\,,\quad \left|{\frac {\partial ^{3}f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\right|<H_{rst}(x)$ ${\textstyle H}$ ${\textstyle \,\int _{-\infty }^{\infty }H_{rst}(z)\mathrm {d} z\leq M<\infty \;.}$ $\mathbf {I} (\theta )=\int _{-\infty }^{\infty }{\frac {\partial \log f}{\partial \theta _{r}}}\ {\frac {\partial \log f}{\partial \theta _{s}}}\ f\ \mathrm {d} z$ ${\textstyle \,\left|\mathbf {I} (\theta )\right|\,}$

Вышеуказанные условия достаточны, но не необходимы. То есть модель, которая не удовлетворяет этим условиям регулярности, может иметь или не иметь оценку максимального правдоподобия свойств, упомянутых выше. Кроме того, в случае ненезависимо или неидентично распределенных наблюдений может потребоваться предположить дополнительные свойства.

В байесовской статистике почти идентичные условия регулярности налагаются на функцию правдоподобия, чтобы доказать асимптотическую нормальность апостериорной вероятности , ^[12]^[13] и, следовательно, оправдать приближение Лапласа апостериорной вероятности в больших выборках. ^[14]

Коэффициент правдоподобия и относительная вероятность

Коэффициент правдоподобия

Отношение правдоподобия — это отношение любых двух указанных вероятностей, часто записываемое как: $\Lambda (\theta _{1}:\theta _{2}\mid x)={\frac {{\mathcal {L}}(\theta _{1}\mid x)}{{\mathcal {L}}(\theta _{2}\mid x)}}.$

Отношение правдоподобия играет центральную роль в статистике правдоподобия : закон правдоподобия гласит, что степень, в которой данные (рассматриваемые как доказательства) подтверждают одно значение параметра по сравнению с другим, измеряется отношением правдоподобия.

В частотном выводе отношение правдоподобия является основой для тестовой статистики , так называемого теста отношения правдоподобия . Согласно лемме Неймана–Пирсона , это самый мощный тест для сравнения двух простых гипотез на заданном уровне значимости . Многочисленные другие тесты можно рассматривать как тесты отношения правдоподобия или их приближения. ^[15] Асимптотическое распределение логарифмического отношения правдоподобия, рассматриваемого как тестовая статистика, задается теоремой Уилкса .

Отношение правдоподобия также имеет центральное значение в байесовском выводе , где оно известно как фактор Байеса и используется в правиле Байеса . Выражаясь в терминах шансов , правило Байеса гласит, что апостериорные шансы двух альтернатив, ⁠ ⁠ $A_{1}$ и ⁠ ⁠ $A_{2}$ , при данном событии ⁠ ⁠ $B$ , равны априорным шансам, умноженным на отношение правдоподобия. Как уравнение: $O(A_{1}:A_{2}\mid B)=O(A_{1}:A_{2})\cdot \Lambda (A_{1}:A_{2}\mid B).$

Отношение правдоподобия не используется напрямую в статистике на основе AIC. Вместо этого используется относительное правдоподобие моделей (см. ниже).

В доказательной медицине отношения правдоподобия используются в диагностических тестах для оценки ценности проведения диагностического теста .

Функция относительного правдоподобия

Поскольку фактическое значение функции правдоподобия зависит от выборки, часто бывает удобно работать со стандартизированной мерой. Предположим, что максимальная оценка правдоподобия для параметра $θ$ равна . Относительные правдоподобия других значений $θ$ можно найти, сравнив правдоподобия этих других значений с правдоподобием . Относительное правдоподобие θ $определяется$ как ^[16]^[17]^[18]^[19]^[20] Таким образом, относительное правдоподобие — это отношение правдоподобия (обсуждавшееся выше) с фиксированным знаменателем . Это соответствует стандартизации правдоподобия, чтобы иметь максимум 1. ${\textstyle {\hat {\theta }}}$ ${\textstyle {\hat {\theta }}}$ $R(\theta )={\frac {{\mathcal {L}}(\theta \mid x)}{{\mathcal {L}}({\hat {\theta }}\mid x)}}.$ ${\textstyle {\mathcal {L}}({\hat {\theta }})}$

Область вероятности

Область правдоподобия — это множество всех значений $θ$ , относительная вероятность которых больше или равна заданному порогу. В процентном отношении область правдоподобия $p$ % для $θ$ определяется как ^[16]^[18]^[21]

$\left\{\theta :R(\theta )\geq {\frac {p}{100}}\right\}.$

Если $θ$ — это один действительный параметр, область правдоподобия $p$ % обычно будет включать интервал действительных значений. Если область включает интервал, то она называется интервалом правдоподобия . ^[16]^[18]^[22]

Интервалы правдоподобия и, в более общем смысле, области правдоподобия используются для оценки интервалов в статистике правдоподобия: они похожи на доверительные интервалы в частотной статистике и достоверные интервалы в байесовской статистике. Интервалы правдоподобия интерпретируются непосредственно в терминах относительного правдоподобия, а не в терминах вероятности покрытия (частотности) или апостериорной вероятности (байесианства).

При наличии модели интервалы правдоподобия можно сравнить с доверительными интервалами. Если $θ$ — один действительный параметр, то при определенных условиях интервал правдоподобия 14,65% (вероятность около 1:7) для $θ$ будет таким же, как доверительный интервал 95% (вероятность покрытия 19/20). ^[16]^[21] В несколько иной формулировке, подходящей для использования логарифмических правдоподобий (см. теорему Уилкса ), тестовая статистика в два раза больше разницы в логарифмических правдоподобиях, а распределение вероятностей тестовой статистики приблизительно равно распределению хи-квадрат со степенями свободы (df), равными разнице в df между двумя моделями (следовательно, интервал правдоподобия $e$ ⁻² такой же, как доверительный интервал 0,954; предполагая, что разница в df равна 1). ^[21]^[22]

Вероятности, исключающие ненужные параметры

Во многих случаях вероятность является функцией более чем одного параметра, но интерес сосредоточен на оценке только одного или, самое большее, нескольких из них, а остальные рассматриваются как мешающие параметры . Было разработано несколько альтернативных подходов для устранения таких мешающих параметров, так что вероятность может быть записана как функция только интересующего параметра (или параметров): основными подходами являются профильные, условные и предельные вероятности. ^[23]^[24] Эти подходы также полезны, когда высокоразмерную поверхность вероятности необходимо свести к одному или двум интересующим параметрам, чтобы построить график .

Вероятность профиля

Можно уменьшить размерность, концентрируя функцию правдоподобия для подмножества параметров, выражая мешающие параметры как функции интересующих параметров и заменяя их в функции правдоподобия. ^[25]^[26] В общем случае, для функции правдоподобия, зависящей от вектора параметров , который может быть разделен на , и где соответствие может быть определено явно, концентрация уменьшает вычислительную нагрузку исходной задачи максимизации. ^[27] ${\textstyle \mathbf {\theta } }$ ${\textstyle \mathbf {\theta } =\left(\mathbf {\theta } _{1}:\mathbf {\theta } _{2}\right)}$ ${\textstyle \mathbf {\hat {\theta }} _{2}=\mathbf {\hat {\theta }} _{2}\left(\mathbf {\theta } _{1}\right)}$

Например, в линейной регрессии с нормально распределенными ошибками, вектор коэффициентов может быть разделен на (и, следовательно, матрица плана ). Максимизация относительно дает оптимальную функцию значения . Используя этот результат, можно вывести оценку максимального правдоподобия для как , где — матрица проекции . Этот результат известен как теорема Фриша–Во–Ловелла . ${\textstyle \mathbf {y} =\mathbf {X} \beta +u}$ ${\textstyle \beta =\left[\beta _{1}:\beta _{2}\right]}$ ${\textstyle \mathbf {X} =\left[\mathbf {X} _{1}:\mathbf {X} _{2}\right]}$ ${\textstyle \beta _{2}}$ ${\textstyle \beta _{2}(\beta _{1})=\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}\left(\mathbf {y} -\mathbf {X} _{1}\beta _{1}\right)}$ ${\textstyle \beta _{1}}$ ${\hat {\beta }}_{1}=\left(\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {X} _{1}\right)^{-1}\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {y}$ ${\textstyle \mathbf {P} _{2}=\mathbf {X} _{2}\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}}$ ${\textstyle \mathbf {X} _{2}}$

Поскольку графически процедура концентрации эквивалентна разрезанию поверхности правдоподобия вдоль хребта значений мешающего параметра , который максимизирует функцию правдоподобия, создавая изометрический профиль функции правдоподобия для заданного , результат этой процедуры также известен как профильное правдоподобие . ^[28]^[29] Помимо графического представления, профильное правдоподобие также может использоваться для вычисления доверительных интервалов , которые часто обладают лучшими свойствами для малых выборок, чем те, которые основаны на асимптотических стандартных ошибках, вычисленных из полного правдоподобия. ^[30]^[31] ${\textstyle \beta _{2}}$ ${\textstyle \beta _{1}}$

Условная вероятность

Иногда можно найти достаточную статистику для мешающих параметров, и обусловливание этой статистики приводит к вероятности, которая не зависит от мешающих параметров. ^[32]

Один из примеров встречается в таблицах 2×2, где обусловливание всех четырех маргинальных итогов приводит к условному правдоподобию, основанному на нецентральном гипергеометрическом распределении . Эта форма обусловливания также является основой для точного теста Фишера .

Незначительная вероятность

Иногда мы можем удалить мешающие параметры, рассматривая вероятность, основанную только на части информации в данных, например, используя набор рангов, а не числовые значения. Другой пример возникает в линейных смешанных моделях , где рассмотрение вероятности для остатков только после подгонки фиксированных эффектов приводит к оценке максимального остаточного правдоподобия компонентов дисперсии.

Частичная вероятность

Частичное правдоподобие представляет собой адаптацию полного правдоподобия таким образом, что в нем присутствует только часть параметров (параметров, представляющих интерес). ^[33] Это ключевой компонент модели пропорциональных опасностей : при использовании ограничения на функцию опасности вероятность не содержит форму опасности с течением времени.

Произведения вероятностей

Вероятность, при условии двух или более независимых событий , является произведением вероятностей каждого из отдельных событий: Это следует из определения независимости в вероятности: вероятности двух независимых событий, происходящих при заданной модели, являются произведением вероятностей. $\Lambda (A\mid X_{1}\land X_{2})=\Lambda (A\mid X_{1})\cdot \Lambda (A\mid X_{2}).$

Это особенно важно, когда события происходят из независимых и одинаково распределенных случайных величин , таких как независимые наблюдения или выборка с заменой . В такой ситуации функция правдоподобия раскладывается на произведение отдельных функций правдоподобия.

Пустое произведение имеет значение 1, что соответствует вероятности, равной 1, при отсутствии события: до появления каких-либо данных вероятность всегда равна 1. Это похоже на равномерное априорное распределение в байесовской статистике, но в статистике правдоподобия это не неправильное априорное распределение , поскольку вероятности не интегрированы.

Логарифмическое правдоподобие

Функция логарифмического правдоподобия — это логарифм функции правдоподобия, часто обозначаемый строчной буквой $l$ или ⁠ ⁠ $\ell$ , в отличие от заглавной буквы $L$ или для правдоподобия. Поскольку логарифмы являются строго возрастающими функциями, максимизация правдоподобия эквивалентна максимизации логарифмического правдоподобия. Но для практических целей удобнее работать с функцией логарифмического правдоподобия при оценке максимального правдоподобия , в частности, поскольку большинство распространенных распределений вероятностей — в частности, экспоненциальное семейство — являются только логарифмически вогнутыми , ^[34]^[35] и вогнутость целевой функции играет ключевую роль в максимизации . ${\textstyle {\mathcal {L}}}$

Учитывая независимость каждого события, общая логарифмическая вероятность пересечения равна сумме логарифмических вероятностей отдельных событий. Это аналогично тому, что общая логарифмическая вероятность является суммой логарифмических вероятностей отдельных событий. В дополнение к математическому удобству от этого, процесс сложения логарифмической вероятности имеет интуитивную интерпретацию, часто выражаемую как «поддержка» от данных. Когда параметры оцениваются с использованием логарифмической вероятности для оценки максимального правдоподобия , каждая точка данных используется путем добавления к общей логарифмической вероятности. Поскольку данные можно рассматривать как доказательство, которое подтверждает оцененные параметры, этот процесс можно интерпретировать как «поддержка от независимых свидетельств добавляется», а логарифмическая вероятность является «весом доказательства». Интерпретируя отрицательную логарифмическую вероятность как информационное содержание или неожиданность , поддержка (логарифмическая вероятность) модели при условии события является отрицательным значением неожиданности события при условии модели: модель поддерживается событием в той степени, в которой событие не является неожиданным при условии модели.

Логарифм отношения правдоподобия равен разности логарифмов правдоподобий: $\log {\frac {{\mathcal {L}}(A)}{{\mathcal {L}}(B)}}=\log {\mathcal {L}}(A)-\log {\mathcal {L}}(B)=\ell (A)-\ell (B).$

Так же как вероятность при отсутствии события равна 1, логарифм правдоподобия при отсутствии события равен 0, что соответствует значению пустой суммы: без каких-либо данных нет никакой поддержки для какой-либо модели.

График

График логарифмического правдоподобия называется кривой поддержки (в одномерном случае). ^[36] В многомерном случае концепция обобщается в опорную поверхность над пространством параметров . Она имеет отношение к поддержке распределения , но отличается от нее .

Термин был введен А. В. Ф. Эдвардсом ^[36] в контексте проверки статистических гипотез , то есть того, «поддерживают» ли данные одну проверяемую гипотезу (или значение параметра) больше, чем любую другую.

Построенная логарифмическая функция правдоподобия используется при вычислении оценки ( градиента логарифмической функции правдоподобия) и информации Фишера (кривизны логарифмической функции правдоподобия). Таким образом, график имеет прямую интерпретацию в контексте оценки максимального правдоподобия и тестов отношения правдоподобия .

Уравнения правдоподобия

Если функция логарифмического правдоподобия является гладкой , ее градиент относительно параметра, известный как оценка и записанный , существует и допускает применение дифференциального исчисления . Основной способ максимизации дифференцируемой функции — найти стационарные точки (точки, в которых производная равна нулю); поскольку производная суммы — это просто сумма производных, но производная произведения требует правила произведения , проще вычислить стационарные точки логарифмического правдоподобия независимых событий, чем вероятности независимых событий. ${\textstyle s_{n}(\theta )\equiv \nabla _{\theta }\ell _{n}(\theta )}$

Уравнения, определяемые стационарной точкой функции оценки, служат в качестве оценочных уравнений для оценщика максимального правдоподобия. В этом смысле оценщик максимального правдоподобия неявно определяется значением в обратной функции , где — d -мерное евклидово пространство , а — пространство параметров. Используя теорему об обратной функции , можно показать, что хорошо определено в открытой окрестности около с вероятностью, стремящейся к единице, и является последовательной оценкой . Как следствие, существует последовательность такая, что асимптотически почти наверняка , и . ^[37] Аналогичный результат можно получить, используя теорему Ролля . ^[38]^[39] $s_{n}(\theta )=\mathbf {0}$ ${\textstyle \mathbf {0} }$ ${\textstyle s_{n}^{-1}:\mathbb {E} ^{d}\to \Theta }$ ${\textstyle \mathbb {E} ^{d}}$ ${\textstyle \Theta }$ ${\textstyle s_{n}^{-1}}$ ${\textstyle \mathbf {0} }$ ${\textstyle {\hat {\theta }}_{n}=s_{n}^{-1}(\mathbf {0} )}$ ${\textstyle \theta }$ ${\textstyle \left\{{\hat {\theta }}_{n}\right\}}$ ${\textstyle s_{n}({\hat {\theta }}_{n})=\mathbf {0} }$ ${\textstyle {\hat {\theta }}_{n}\xrightarrow {\text{p}} \theta _{0}}$

Вторая производная, оцененная при , известная как информация Фишера , определяет кривизну поверхности правдоподобия ^[40] и, таким образом, указывает на точность оценки. ^[41] ${\textstyle {\hat {\theta }}}$

Экспоненциальные семьи

Логарифмическое правдоподобие также особенно полезно для экспоненциальных семейств распределений, которые включают в себя многие из общих параметрических распределений вероятностей . Функция распределения вероятностей (и, следовательно, функция правдоподобия) для экспоненциальных семейств содержит произведения факторов, включающих возведение в степень . Логарифм такой функции представляет собой сумму произведений, которую снова легче дифференцировать, чем исходную функцию.

Экспоненциальное семейство — это семейство, функция плотности вероятности которого имеет вид (для некоторых функций запись для внутреннего произведения ): ${\textstyle \langle -,-\rangle }$

$p(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }}){\Big )}.$

Каждый из этих терминов имеет интерпретацию, ^[a] , но простой переход от вероятности к правдоподобию и взятие логарифмов дает сумму:

$\ell ({\boldsymbol {\theta }}\mid x)=\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }})+\log h(x).$

Каждый из них и соответствует изменению координат , поэтому в этих координатах логарифм правдоподобия экспоненциального семейства определяется простой формулой: ${\textstyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})}$ ${\textstyle h(x)}$

$\ell ({\boldsymbol {\eta }}\mid x)=\langle {\boldsymbol {\eta }},\mathbf {T} (x)\rangle -A({\boldsymbol {\eta }}).$

Другими словами, логарифмическое правдоподобие экспоненциального семейства является внутренним произведением натурального параметра ⁠ ⁠ ${\boldsymbol {\eta }}$ и достаточной статистики ⁠ ⁠ $\mathbf {T} (x)$ , за вычетом нормировочного фактора ( логарифмической функции разделения ) ⁠ ⁠ $A({\boldsymbol {\eta }})$ . Таким образом, например, оценка максимального правдоподобия может быть вычислена путем взятия производных достаточной статистики $T$ и логарифмической функции разделения $A$ .

Пример: гамма-распределение

Гамма -распределение представляет собой экспоненциальное семейство с двумя параметрами и . Функция правдоподобия имеет вид ${\textstyle \alpha }$ ${\textstyle \beta }$

${\mathcal {L}}(\alpha ,\beta \mid x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.$

Нахождение оценки максимального правдоподобия для одного наблюдаемого значения выглядит довольно устрашающе. С его логарифмом работать гораздо проще: ${\textstyle \beta }$ ${\textstyle x}$

$\log {\mathcal {L}}(\alpha ,\beta \mid x)=\alpha \log \beta -\log \Gamma (\alpha )+(\alpha -1)\log x-\beta x.\,$

Чтобы максимизировать логарифмическое правдоподобие, сначала возьмем частную производную по : ${\textstyle \beta }$

${\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x)}{\partial \beta }}={\frac {\alpha }{\beta }}-x.$

Если имеется ряд независимых наблюдений , то совместная логарифмическая функция правдоподобия будет суммой индивидуальных логарифмических функций правдоподобия, а производная этой суммы будет суммой производных каждой индивидуальной логарифмической функции правдоподобия: ${\textstyle x_{1},\ldots ,x_{n}}$

${\begin{aligned}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1},\ldots ,x_{n})}{\partial \beta }}\\={}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1})}{\partial \beta }}+\cdots +{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{n})}{\partial \beta }}={\frac {n\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}.\end{aligned}}$

Для завершения процедуры максимизации совместного логарифмического правдоподобия уравнение приравнивается к нулю и решается относительно : ${\textstyle \beta }$

${\widehat {\beta }}={\frac {\alpha }{\bar {x}}}.$

Здесь обозначает оценку максимального правдоподобия, а — выборочное среднее значение наблюдений. ${\textstyle {\widehat {\beta }}}$ ${\textstyle \textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}$

Предыстория и интерпретация

Исторические заметки

Термин «вероятность» используется в английском языке по крайней мере с конца среднеанглийского . ^[42] Его формальное использование для обозначения определенной функции в математической статистике было предложено Рональдом Фишером ^[43] в двух исследовательских работах, опубликованных в 1921 ^[44] и 1922 годах . ^[45] В работе 1921 года было введено то, что сегодня называется «интервалом правдоподобия»; в статье 1922 года был введен термин « метод максимального правдоподобия ». Цитата Фишера:

«[В] 1922 году я предложил термин «вероятность», ввиду того, что по отношению к [параметру] это не вероятность и не подчиняется законам вероятности, и в то же время это имеет к проблеме рационального выбора среди возможных значений [параметра] отношение, подобное тому, которое вероятность имеет к проблеме предсказания событий в азартных играх. . . . Однако, в то время как по отношению к психологическому суждению вероятность имеет некоторое сходство с вероятностью, эти два понятия совершенно различны...» ^[46]

Понятие правдоподобия не следует путать с вероятностью, как отметил сэр Рональд Фишер.

Я подчеркиваю это, потому что, несмотря на акцент, который я всегда делал на различии между вероятностью и правдоподобием, все еще существует тенденция рассматривать вероятность так, как будто это разновидность вероятности. Первый результат заключается в том, что существуют две различные меры рациональной веры, подходящие для разных случаев. Зная совокупность, мы можем выразить наше неполное знание или ожидание относительно выборки в терминах вероятности; зная выборку, мы можем выразить наше неполное знание о совокупности в терминах правдоподобия. ^[47]

Изобретение Фишером статистической вероятности было реакцией на более раннюю форму рассуждения, называемую обратной вероятностью . ^[48] Его использование термина «вероятность» зафиксировало значение этого термина в математической статистике.

AWF Edwards (1972) установил аксиоматическую основу для использования логарифмического отношения правдоподобия как меры относительной поддержки одной гипотезы против другой. Функция поддержки тогда является натуральным логарифмом функции правдоподобия. Оба термина используются в филогенетике , но не были приняты в общей трактовке темы статистических доказательств. ^[49]

Интерпретации на разных основаниях

Среди статистиков нет единого мнения о том, какой должна быть основа статистики . Для основы были предложены четыре основные парадигмы: частотность , байесианство , правдоподобие и AIC-based . ^[50] Для каждой из предложенных основ интерпретация правдоподобия различна. Четыре интерпретации описаны в подразделах ниже.

Частотная интерпретация

Байесовская интерпретация

В байесовском выводе , хотя можно говорить о правдоподобии любого предложения или случайной величины при заданной другой случайной величине: например, о правдоподобии значения параметра или статистической модели (см. предельное правдоподобие ) при заданных данных или других доказательствах, ^[51]^[52]^[53]^[54] функция правдоподобия остается той же сущностью, с дополнительными интерпретациями (i) условной плотности данных при заданном параметре (поскольку параметр тогда является случайной величиной) и (ii) меры или количества информации, приносимой данными о значении параметра или даже модели. ^[51]^[52]^[53]^[54]^[55] Из-за введения вероятностной структуры в пространство параметров или в набор моделей возможно, что значение параметра или статистическая модель имеют большое значение правдоподобия для заданных данных, но при этом имеют низкую вероятность , или наоборот. ^[53]^[55] Это часто имеет место в медицинских контекстах. ^[56] Согласно правилу Байеса , вероятность, рассматриваемая как условная плотность, может быть умножена на априорную плотность вероятности параметра, а затем нормализована, чтобы получить апостериорную плотность вероятности . ^[51]^[52]^[53]^[54]^[55] В более общем смысле, вероятность неизвестной величины при наличии другой неизвестной величины пропорциональна вероятности при наличии . ^[51]^[52]^[53]^[54]^[55] ${\textstyle X}$ ${\textstyle Y}$ ${\textstyle Y}$ ${\textstyle X}$

интерпретация теории правдоподобия

В частотной статистике функция правдоподобия сама по себе является статистикой , которая суммирует одну выборку из популяции, расчетное значение которой зависит от выбора нескольких параметров θ ₁ ... θ _p , где p — количество параметров в некоторой уже выбранной статистической модели . Значение правдоподобия служит показателем качества выбора, используемого для параметров, а набор параметров с максимальным правдоподобием является наилучшим выбором, учитывая имеющиеся данные.

Конкретный расчет вероятности — это вероятность того, что наблюдаемая выборка будет назначена, предполагая, что выбранная модель и значения нескольких параметров θ дают точное приближение распределения частот популяции, из которой была взята наблюдаемая выборка. Эвристически имеет смысл, что хороший выбор параметров — это те, которые делают фактически наблюдаемую выборку максимально возможной post-hoc вероятностью того, что она произошла. Теорема Уилкса количественно определяет эвристическое правило, показывая, что разница в логарифме вероятности, генерируемой значениями параметров оценки, и логарифма вероятности, генерируемой «истинными» (но неизвестными) значениями параметров популяции, асимптотически распределена по закону χ 2 .

Оценка максимального правдоподобия каждой независимой выборки является отдельной оценкой «истинного» набора параметров, описывающего выбранную популяцию. Последовательные оценки из многих независимых выборок будут группироваться вместе с «истинным» набором значений параметров популяции, скрытым где-то в их середине. Разность логарифмов максимального правдоподобия и правдоподобий смежных наборов параметров может быть использована для построения доверительной области на графике, координатами которого являются параметры θ ₁ ... θ _p . Область окружает оценку максимального правдоподобия, и все точки (наборы параметров) внутри этой области отличаются максимум по логарифмическому правдоподобию на некоторое фиксированное значение. Распределение χ ^{2 ,} заданное теоремой Уилкса, преобразует различия логарифмического правдоподобия области в «уверенность» в том, что «истинный» набор параметров популяции находится внутри. Искусство выбора фиксированной разницы логарифмического правдоподобия заключается в том, чтобы сделать уверенность приемлемо высокой, сохраняя при этом область приемлемо малой (узкий диапазон оценок).

По мере того, как наблюдается больше данных, вместо того, чтобы использовать их для создания независимых оценок, их можно объединить с предыдущими выборками, чтобы создать одну объединенную выборку, и эту большую выборку можно использовать для новой оценки максимального правдоподобия. По мере увеличения размера объединенной выборки размер области правдоподобия с той же уверенностью уменьшается. В конце концов, либо размер области доверия становится очень близким к одной точке, либо вся популяция была опробована; в обоих случаях оцененный набор параметров по сути совпадает с набором параметров популяции.

Интерпретация на основе AIC

В парадигме AIC вероятность интерпретируется в контексте теории информации . ^[57]^[58]^[59]

Смотрите также

Примечания

^ См . Экспоненциальное семейство § Интерпретация

Ссылки

^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод (2-е изд.). Даксбери. стр. 290. ISBN 0-534-24312-6.
^ Уэйкфилд, Джон (2013). Методы частотной и байесовской регрессии (1-е изд.). Springer. стр. 36. ISBN 978-1-4419-0925-1.
^ Леманн, Эрих Л.; Каселла, Джордж (1998). Теория точечной оценки (2-е изд.). Springer. стр. 444. ISBN 0-387-98502-6.
^ Zellner, Arnold (1971). Введение в байесовский вывод в эконометрике . Нью-Йорк: Wiley. С. 13–14. ISBN 0-471-98165-6.
^ Биллингсли, Патрик (1995). Вероятность и мера (третье изд.). John Wiley & Sons . С. 422–423.
^ Шао, Цзюнь (2003). Математическая статистика (2-е изд.). Springer. §4.4.1.
^ Гурьеру, Кристиан ; Монфорт, Ален (1995). Статистика и эконометрические модели. Нью-Йорк: Cambridge University Press. стр. 161. ISBN 0-521-40551-3.
^ Мякеляйнен, Тимо; Шмидт, Клаус; Стьян, Джордж PH (1981). «О существовании и уникальности оценки максимального правдоподобия векторного параметра в выборках фиксированного размера». Annals of Statistics . 9 (4): 758–767. doi : 10.1214/aos/1176345516 . JSTOR 2240844.
^ Маскаренас, В. Ф. (2011). «Лемма о горном перевале и ее последствия относительно уникальности ограниченных минимизаторов». Оптимизация . 60 (8–9): 1121–1159. doi :10.1080/02331934.2010.527973. S2CID 15896597.
^ Чанда, К. С. (1954). «Заметка о согласованности и максимумах корней уравнений правдоподобия». Biometrika . 41 (1–2): 56–61. doi :10.2307/2333005. JSTOR 2333005.
^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк, Нью-Йорк: John Wiley & Sons. стр. 24–25. ISBN 0-471-09077-8.
^ Heyde, CC; Johnstone, IM (1979). «Об асимптотической апостериорной нормальности для стохастических процессов». Журнал Королевского статистического общества . Серия B (Методологическая). 41 (2): 184–189. doi :10.1111/j.2517-6161.1979.tb01071.x.
^ Чен, Чан-Фу (1985). «Об асимптотической нормальности предельных функций плотности с байесовскими следствиями». Журнал Королевского статистического общества . Серия B (Методологическая). 47 (3): 540–546. doi :10.1111/j.2517-6161.1985.tb01384.x.
^ Касс, Роберт Э.; Тирни, Люк; Кадане, Джозеф Б. (1990). «Достоверность апостериорных расширений на основе метода Лапласа». В Geisser, S.; Hodges, JS; Press, SJ; Zellner, A. (ред.). Байесовские и правдоподобные методы в статистике и эконометрике . Elsevier. стр. 473–488. ISBN 0-444-88376-2.
^ Buse, A. (1982). «Отношение правдоподобия, тесты Вальда и множителей Лагранжа: пояснительная записка». The American Statistician . 36 (3a): 153–157. doi :10.1080/00031305.1982.10482817.
^ abcd Kalbfleisch, JG (1985), Вероятность и статистический вывод , Springer(§9.3).
^ Azzalini, A. (1996), Статистический вывод — основанный на правдоподобии, Chapman & Hall , ISBN 9780412606502(§1.4.2).
^ abc Sprott, DA (2000), Статистический вывод в науке , Springer (глава 2).
^ Дэвисон, AC (2008), Статистические модели , Cambridge University Press (§4.1.2).
^ Хельд, Л.; Сабанес Бове, Д.С. (2014), Прикладной статистический вывод — правдоподобие и Байес , Springer(§2.1).
^ abc Rossi, RJ (2018), Математическая статистика , Wiley , стр. 267.
^ ab Hudson, DJ (1971), «Интервальная оценка с помощью функции правдоподобия», Журнал Королевского статистического общества, Серия B , 33 (2): 256–262.
^ Pawitan, Yudi (2001). In All Likelihood: Статистическое моделирование и вывод с использованием правдоподобия . Oxford University Press .
^ Вэнь Сян Вэй. «Обобщенная линейная модель — заметки курса». Тайчжун, Тайвань: Университет Тунхай . стр. Глава 5. Получено 01.10.2017 .
^ Амемия, Такеши (1985). «Концентрированная функция правдоподобия». Advanced Econometrics . Cambridge: Harvard University Press. стр. 125–127. ISBN 978-0-674-00560-0.
^ Дэвидсон, Рассел; Маккиннон, Джеймс Г. (1993). «Концентрация функции логарифмического правдоподобия». Оценка и вывод в эконометрике . Нью-Йорк: Oxford University Press. С. 267–269. ISBN 978-0-19-506011-9.
^ Гурьеру, Кристиан; Монфорт, Ален (1995). «Концентрированная функция правдоподобия». Статистика и эконометрические модели . Нью-Йорк: Cambridge University Press. С. 170–175. ISBN 978-0-521-40551-5.
^ Пиклз, Эндрю (1985). Введение в анализ правдоподобия. Норвич: WH Hutchins & Sons. С. 21–24. ISBN 0-86094-190-6.
^ Болкер, Бенджамин М. (2008). Экологические модели и данные в R. Princeton University Press. стр. 187–189. ISBN 978-0-691-12522-0.
^ Эйткин, Мюррей (1982). «Прямой вывод правдоподобия». GLIM 82: Труды Международной конференции по обобщенным линейным моделям . Springer. стр. 76–86. ISBN 0-387-90777-7.
^ Venzon, DJ; Moolgavkar, SH (1988). «Метод вычисления доверительных интервалов на основе правдоподобия профилей». Журнал Королевского статистического общества . Серия C (Прикладная статистика). 37 (1): 87–94. doi :10.2307/2347496. JSTOR 2347496.
^ Kalbfleisch, JD; Sprott, DA (1973). «Предельные и условные вероятности». Sankhyā: The Indian Journal of Statistics . Серия A. 35 (3): 311–328. JSTOR 25049882.
^ Кокс, DR (1975). «Частичное правдоподобие». Biometrika . 62 (2): 269–276. doi :10.1093/biomet/62.2.269. MR 0400509.
^ Касс, Роберт Э.; Вос, Пол В. (1997). Геометрические основы асимптотического вывода. Нью-Йорк: John Wiley & Sons. стр. 14. ISBN 0-471-82668-5.
^ Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда ставим log() перед совместной pdf, когда используем MLE (оценку максимального правдоподобия)?». Stack Exchange .
^ ab Edwards, AWF (1992) [1972]. Вероятность . Johns Hopkins University Press . ISBN 0-8018-4443-6.
^ Foutz, Robert V. (1977). «О единственном согласованном решении уравнений правдоподобия». Журнал Американской статистической ассоциации . 72 (357): 147–148. doi :10.1080/01621459.1977.10479926.
^ Тароне, Роберт Э.; Грюнхаге, Гэри (1975). «Заметка об уникальности корней уравнений правдоподобия для векторных параметров». Журнал Американской статистической ассоциации . 70 (352): 903–904. doi :10.1080/01621459.1975.10480321.
^ Рай, Камта; Ван Райзин, Джон (1982). «Заметка о многомерной версии теоремы Ролля и уникальности корней максимального правдоподобия». Сообщения по статистике . Теория и методы. 11 (13): 1505–1510. doi :10.1080/03610928208828325.
^ Рао, Б. Раджа (1960). «Формула для кривизны поверхности правдоподобия выборки, взятой из распределения, допускающего достаточную статистику». Biometrika . 47 (1–2): 203–207. doi :10.1093/biomet/47.1-2.203.
^ Уорд, Майкл Д.; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа . Cambridge University Press . С. 25–27.
^ «вероятность», Краткий Оксфордский словарь английского языка (2007).
^ Hald, A. (1999). «Об истории максимального правдоподобия в связи с обратной вероятностью и наименьшими квадратами». Статистическая наука . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR 2676741.
^ Фишер, РА (1921). «О «вероятной ошибке» коэффициента корреляции, выведенного из малой выборки». Metron . 1 : 3–32.
^ Фишер, РА (1922). «О математических основах теоретической статистики». Philosophical Transactions of the Royal Society A. 222 ( 594–604): 309–368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM 48.1280.02. JSTOR 91208.
^ Клеменс, Бен (2008). Моделирование с использованием данных: инструменты и методы для научных вычислений . Princeton University Press . стр. 329.
^ Фишер, Рональд (1930). «Обратная вероятность». Математические труды Кембриджского философского общества . 26 (4): 528–535. Bibcode : 1930PCPS...26..528F. doi : 10.1017/S0305004100016297.
^ Fienberg, Stephen E (1997). "Введение в RA Fisher по обратной вероятности и правдоподобию". Статистическая наука . 12 (3): 161. doi : 10.1214/ss/1030037905 .
^ Ройалл, Р. (1997). Статистические данные . Чапман и Холл .
^ Bandyopadhyay, PS; Forster, MR, ред. (2011). Философия статистики . North-Holland Publishing .
^ abcd IJ Good: Вероятность и взвешивание доказательств (Griffin 1950), §6.1
^ abcd H. Jeffreys: Теория вероятностей (3-е изд., Oxford University Press, 1983), §1.22
^ abcde ET Jaynes: Теория вероятностей: Логика науки (Cambridge University Press 2003), §4.1
^ abcd DV Lindley: Введение в вероятность и статистику с байесовской точки зрения. Часть 1: Вероятность (Cambridge University Press 1980), §1.6
^ abcd А. Гельман, Дж. Б. Карлин, Х. С. Стерн, Д. Б. Дансон, А. Вехтари, Д. Б. Рубин: Байесовский анализ данных (3-е изд., Chapman & Hall/CRC 2014), §1.3
^ Sox, HC; Higgins, MC; Owens, DK (2013), Medical Decision Making (2-е изд.), Wiley, главы 3–4, doi : 10.1002/9781118341544, ISBN 9781118341544
^ Акаике, Х. (1985). «Предсказание и энтропия». В Аткинсон, А.С.; Файнберг, С.Е. (ред.). Торжество статистики . Springer. стр. 1–24.
^ Сакамото, Y.; Ишигуро, M.; Китагава, G. (1986). Статистика критерия информации Акаике . Д. Рейдель . Часть I.
^ Бернхэм, К. П.; Андерсон, Д. Р. (2002). Выбор модели и вывод на основе нескольких моделей: практический информационно-теоретический подход (2-е изд.). Springer-Verlag . Глава 7.

Дальнейшее чтение

Azzalini, Adelchi (1996). «Правдоподобие». Статистический вывод, основанный на правдоподобии . Chapman and Hall. стр. 17–50. ISBN 0-412-60650-X.
Boos, Dennis D.; Stefanski, LA (2013). «Построение и оценка правдоподобия». Essential Statistical Inference: Theory and Methods . New York: Springer. pp. 27–124. doi :10.1007/978-1-4614-4818-1_2. ISBN 978-1-4614-4817-4.
Эдвардс, AWF (1992) [1972]. Вероятность (Расширенное издание). Johns Hopkins University Press . ISBN 0-8018-4443-6.
Кинг, Гэри (1989). «Модель правдоподобия вывода». Унификация политической методологии: теория правдоподобия статистического вывода . Cambridge University Press. стр. 59–94. ISBN 0-521-36697-6.
Ричард, Марк; Вечер, Ян (1 февраля 2021 г.). «Тестирование эффективности рынков прогнозирования: подход Мартингейла, отношение правдоподобия и анализ байесовского фактора». Риски . 9 (2): 31. doi : 10.3390/risks9020031 . hdl : 10419/258120 .
Линдси, Дж. К. (1996). «Правдоподобие». Параметрический статистический вывод . Oxford University Press. С. 69–139. ISBN 0-19-852359-9.
Роде, Чарльз А. (2014). Вводный статистический вывод с функцией правдоподобия . Берлин: Springer. ISBN 978-3-319-10460-7.
Ройалл, Ричард (1997). Статистические доказательства: парадигма правдоподобия . Лондон: Chapman & Hall. ISBN 0-412-04411-0.
Уорд, Майкл Д .; Алквист, Джон С. (2018). «Функция правдоподобия: более глубокое погружение». Максимальное правдоподобие для социальных наук: стратегии анализа . Cambridge University Press . стр. 21–28. ISBN 978-1-316-63682-4.

Внешние ссылки

Найдите значение слова «вероятность» в Викисловаре, бесплатном словаре.

Функция правдоподобия в Planetmath
«Лог-правдоподобие » .