Оценка максимального правдоподобия

В статистике оценка максимального правдоподобия ( MLE ) — это метод оценки параметров предполагаемого распределения вероятностей с учетом некоторых наблюдаемых данных. Это достигается путем максимизации функции правдоподобия , так что в рамках предполагаемой статистической модели наблюдаемые данные являются наиболее вероятными. Точка в пространстве параметров , которая максимизирует функцию правдоподобия, называется оценкой максимального правдоподобия. ^[1] Логика максимального правдоподобия является как интуитивной, так и гибкой, и как таковой метод стал доминирующим средством статистического вывода . ^[2]^[3]^[4]

Если функция правдоподобия дифференцируема , можно применить производный тест для нахождения максимумов. В некоторых случаях условия первого порядка функции правдоподобия можно решить аналитически; например, обычная оценка наименьших квадратов для линейной регрессионной модели максимизирует правдоподобие, когда предполагается, что случайные ошибки имеют нормальное распределение с той же дисперсией. ^[5]

С точки зрения байесовского вывода MLE в целом эквивалентно оценке максимума апостериори (MAP) с априорным распределением , которое равномерно в интересующей области. В частотном выводе MLE является частным случаем экстремальной оценки , где целевой функцией является правдоподобие.

Принципы

Мы моделируем набор наблюдений как случайную выборку из неизвестного совместного распределения вероятностей , которое выражается в терминах набора параметров . Цель оценки максимального правдоподобия состоит в том, чтобы определить параметры, для которых наблюдаемые данные имеют самую высокую совместную вероятность. Мы записываем параметры, управляющие совместным распределением, как вектор, так что это распределение попадает в параметрическое семейство , где называется пространством параметров , конечномерным подмножеством евклидова пространства . Оценка совместной плотности в наблюдаемой выборке данных дает вещественную функцию, $\;\theta =\left[\theta _{1},\,\theta _{2},\,\ldots ,\,\theta _{k}\right]^{\mathsf {T}}\;$ $\;\{f(\cdot \,;\theta )\mid \theta \in \Theta \}\;,$ $\,\Тета \,$ $\;\mathbf {y} =(y_{1},y_{2},\ldots,y_{n})\;$

{\mathcal {L}}_{n}(\theta)={\mathcal {L}}_{n}(\theta;\mathbf {y})=f_ {n}(\mathbf {y } ;\тета )\;,

которая называется функцией правдоподобия . Для независимых и одинаково распределенных случайных величин будет произведением одномерных функций плотности : $f_ {n}(\mathbf {y};\theta)$

f_{n}(\mathbf {y};\theta)=\prod _{k=1}^{n}\,f_{k}^{\mathsf {univar}}(y_{k}; \тета )~.

Целью оценки максимального правдоподобия является нахождение значений параметров модели, которые максимизируют функцию правдоподобия в пространстве параметров, ^[6] то есть

{\hat {\theta }}={\underset {\theta \in \Theta }{\operatorname {arg\;max} }}\,{\mathcal {L}}_{n}(\theta \,;\mathbf {y} )~.

Интуитивно, это выбирает значения параметров, которые делают наблюдаемые данные наиболее вероятными. Конкретное значение , которое максимизирует функцию правдоподобия, называется оценкой максимального правдоподобия. Кроме того, если функция, определенная таким образом, измерима , то она называется оценщиком максимального правдоподобия . Это, как правило, функция, определенная на пространстве выборок , т. е. принимающая заданную выборку в качестве своего аргумента. Достаточным, но не необходимым условием для ее существования является непрерывность функции правдоподобия на пространстве параметров, которое является компактным . ^[7] Для открытого пространства функция правдоподобия может увеличиваться, никогда не достигая супремум-значения. ${\ displaystyle ~ {\ шляпа {\ theta }} = {\ шляпа {\ theta }} _ {n} (\ mathbf {y}) \ in \ Theta ~}$ $\,{\mathcal {L}}_{n}\,$ $\;{\hat {\theta }}_{n}:\mathbb {R} ^{n}\to \Theta \;$ $\,\Тета \,$ $\,\Тета \,$

На практике часто бывает удобно работать с натуральным логарифмом функции правдоподобия, называемым логарифмом правдоподобия :

\ell (\theta \,;\mathbf {y}) = \ln {\mathcal {L}}_{n}(\theta \,;\mathbf {y})~.

Так как логарифм является монотонной функцией , то максимум достигается при том же значении, что и максимум ^[8] Если дифференцируема , то достаточные условия для возникновения максимума (или минимума) таковы: $\;\ell (\theta \,;\mathbf {y})\;$ $\тета$ $\,{\mathcal {L}}_{n}~.$ $\ell (\theta \,;\mathbf {y})$ $\,\Тета \,,$

{\frac {\partial \ell }{\partial \theta _{1}}}=0,\quad {\frac {\partial \ell }{\partial \theta _{2}}}=0,\quad \ldots ,\quad {\frac {\partial \ell }{\partial \theta _{k}}}=0~,

известные как уравнения правдоподобия. Для некоторых моделей эти уравнения могут быть явно решены для , но в общем случае решение в замкнутой форме для задачи максимизации неизвестно или недоступно, и MLE может быть найдено только с помощью численной оптимизации . Другая проблема заключается в том, что в конечных выборках может существовать несколько корней для уравнений правдоподобия. ^[9] Является ли выявленный корень уравнений правдоподобия действительно (локальным) максимумом, зависит от того, является ли матрица частных и перекрестных частных производных второго порядка, так называемая матрица Гессе $\, {\widehat {\theta \,}} \,,$ $\, {\widehat {\theta \,}}\,$

\mathbf {H} \left({\widehat {\theta \,}}\right)={\begin{bmatrix}\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\vdots &\vdots &\ddots &\vdots \\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}\end{bmatrix}}~,

отрицательно полуопределена при , так как это указывает на локальную вогнутость . Удобно, что большинство общих распределений вероятностей – в частности, экспоненциальное семейство – являются логарифмически вогнутыми . ^[10]^[11] ${\widehat {\theta \,}}$

Ограниченное пространство параметров

В то время как область функции правдоподобия — пространство параметров — обычно является конечномерным подмножеством евклидова пространства , иногда необходимо включать дополнительные ограничения в процесс оценки. Пространство параметров может быть выражено как

\Theta =\left\{\theta :\theta \in \mathbb {R} ^{k},\;h(\theta )=0\right\}~,

где — векторная функция, отображающая в Оценка истинного параметра, принадлежащего , с практической точки зрения означает нахождение максимума функции правдоподобия с учетом ограничения $\;h(\theta )=\left[h_{1}(\theta ),h_{2}(\theta ),\ldots ,h_{r}(\theta )\right]\;$ $\,\mathbb {R} ^{k}\,$ $\;\mathbb {R} ^{r}~.$ $\theta$ $\Theta$ $~h(\theta )=0~.$

Теоретически наиболее естественным подходом к этой проблеме ограниченной оптимизации является метод подстановки, то есть «заполнение» ограничений для набора таким образом, чтобы он был функцией один к одному из самого себя, и повторная параметризация функции правдоподобия путем установки ^[12] Из-за эквивариантности оценки максимального правдоподобия свойства MLE применяются также к ограниченным оценкам. ^[13] Например, в многомерном нормальном распределении ковариационная матрица должна быть положительно определенной ; это ограничение можно наложить путем замены, где — действительная верхняя треугольная матрица , а — ее транспонированная матрица . ^[14] $\;h_{1},h_{2},\ldots ,h_{r}\;$ $\;h_{1},h_{2},\ldots ,h_{r},h_{r+1},\ldots ,h_{k}\;$ $\;h^{\ast }=\left[h_{1},h_{2},\ldots ,h_{k}\right]\;$ $\mathbb {R} ^{k}$ $\;\phi _{i}=h_{i}(\theta _{1},\theta _{2},\ldots ,\theta _{k})~.$ $\,\Sigma \,$ $\;\Sigma =\Gamma ^{\mathsf {T}}\Gamma \;,$ $\Gamma$ $\Gamma ^{\mathsf {T}}$

На практике ограничения обычно накладываются с помощью метода Лагранжа, который с учетом ограничений, определенных выше, приводит к уравнениям ограниченного правдоподобия

{\frac {\partial \ell }{\partial \theta }}-{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\lambda =0

h(\theta )=0\;,

где — вектор-столбец множителей Лагранжа , а — матрица Якоби частных производных размером $k \times r .$ ^[12] Естественно, если ограничения не являются обязательными на максимуме, множители Лагранжа должны быть равны нулю. ^[15] Это, в свою очередь, позволяет провести статистический тест «действительности» ограничения, известный как тест множителей Лагранжа . $~\lambda =\left[\lambda _{1},\lambda _{2},\ldots ,\lambda _{r}\right]^{\mathsf {T}}~$ $\;{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\;$

Непараметрическая оценка максимального правдоподобия

Непараметрическая оценка максимального правдоподобия может быть выполнена с использованием эмпирического правдоподобия .

Характеристики

Оценка максимального правдоподобия — это экстремальная оценка , полученная путем максимизации целевой функции как функции θ . Если данные независимы и одинаково распределены , то мы имеем ${\widehat {\ell \,}}(\theta \,;x)$

{\widehat {\ell \,}}(\theta \,;x)={\frac {1}{n}}\sum _{i=1}^{n}\ln f(x_{i}\mid \theta ),

это выборочный аналог ожидаемого логарифмического правдоподобия , где это ожидание берется по отношению к истинной плотности. $\ell (\theta )=\operatorname {\mathbb {E} } [\,\ln f(x_{i}\mid \theta )\,]$

Оценки максимального правдоподобия не имеют оптимальных свойств для конечных выборок в том смысле, что (при оценке на конечных выборках) другие оценки могут иметь большую концентрацию вокруг истинного значения параметра. ^[16] Однако, как и другие методы оценки, оценка максимального правдоподобия обладает рядом привлекательных ограничивающих свойств : по мере того, как размер выборки увеличивается до бесконечности, последовательности оценок максимального правдоподобия обладают следующими свойствами:

Согласованность : последовательность MLE сходится по вероятности к оцениваемому значению.
Эквивариантность : Если — оценка максимального правдоподобия для , а если — биективное преобразование , то оценка максимального правдоподобия для — . Свойство эквивариантности можно обобщить на небиективные преобразования, хотя в этом случае оно применяется к максимуму индуцированной функции правдоподобия, которая в общем случае не является истинным правдоподобием. ${\hat {\theta }}$ $\theta$ $g(\theta )$ $\theta$ $\alpha =g(\theta )$ ${\hat {\alpha }}=g({\hat {\theta }})$
Эффективность , т. е. достигает нижней границы Крамера–Рао , когда размер выборки стремится к бесконечности. Это означает, что ни один состоятельный оценщик не имеет более низкой асимптотической средней квадратической ошибки , чем MLE (или другие оценщики, достигающие этой границы), что также означает, что MLE имеет асимптотическую нормальность .
Эффективность второго порядка после поправки на смещение.

Последовательность

При условиях, описанных ниже, оценка максимального правдоподобия является согласованной . Согласованность означает, что если данные были сгенерированы и у нас есть достаточно большое количество наблюдений n , то можно найти значение θ ₀ с произвольной точностью. В математических терминах это означает, что по мере того, как n стремится к бесконечности, оценка сходится по вероятности к своему истинному значению: $f(\cdot \,;\theta _{0})$ ${\widehat {\theta \,}}$

{\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{p}}}\ \theta _{0}.

При несколько более жестких условиях оценка сходится почти наверняка (или сильно ):

{\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{a.s.}}}\ \theta _{0}.

В практических приложениях данные никогда не генерируются . Скорее, это модель, часто в идеализированной форме, процесса, генерируемого данными. В статистике распространен афоризм, что все модели неверны . Таким образом, истинная согласованность не встречается в практических приложениях. Тем не менее, согласованность часто считается желательным свойством для оценщика. $f(\cdot \,;\theta _{0})$ $f(\cdot \,;\theta _{0})$

Для установления согласованности достаточны следующие условия. ^[17]

Идентификация модели:
$\theta \neq \theta _{0}\quad \Leftrightarrow \quad f(\cdot \mid \theta )\neq f(\cdot \mid \theta _{0}).$
Другими словами, различные значения параметра θ соответствуют различным распределениям внутри модели. Если бы это условие не выполнялось, то существовало бы некоторое значение θ ₁ такое, что θ ₀ и θ ₁ генерировали бы одинаковое распределение наблюдаемых данных. Тогда мы не смогли бы различить эти два параметра даже при бесконечном количестве данных — эти параметры были бы наблюдательно эквивалентны .
Условие идентификации абсолютно необходимо для того, чтобы оценщик ML был последовательным. Когда это условие выполняется, предельная функция правдоподобия ℓ ( θ |·) имеет уникальный глобальный максимум при θ ₀ .
Компактность: пространство параметров Θ модели компактно .
Условие идентификации устанавливает, что логарифмическое правдоподобие имеет уникальный глобальный максимум. Компактность подразумевает, что правдоподобие не может приближаться к максимальному значению произвольно близко в какой-то другой точке (как показано, например, на рисунке справа).
Компактность является лишь достаточным условием, а не необходимым. Компактность может быть заменена некоторыми другими условиями, такими как:
- как вогнутость логарифмической функции правдоподобия, так и компактность некоторых (непустых) множеств верхнего уровня логарифмической функции правдоподобия, или
- существование компактной окрестности $N$ точки $θ$ ₀ такой, что вне $N$ логарифмическая функция правдоподобия меньше максимума по крайней мере на некоторое $ε$ > 0 .
Непрерывность: функция $ln f (x | θ)$ непрерывна по $θ$ почти для всех значений $x$ :
$\operatorname {\mathbb {P} } {\Bigl [}\;\ln f(x\mid \theta )\;\in \;C^{0}(\Theta )\;{\Bigr ]}=1.$
Непрерывность здесь можно заменить несколько более слабым условием полунепрерывности сверху .
Доминирование: существует $D (x),$ интегрируемая относительно распределения $f (x | θ 0),$ такая, что
${\Bigl |}\ln f(x\mid \theta ){\Bigr |}<D(x)\quad {\text{ for all }}\theta \in \Theta .$
По равномерному закону больших чисел условие доминирования вместе с непрерывностью устанавливают равномерную сходимость по вероятности логарифма правдоподобия:
$\sup _{\theta \in \Theta }\left|{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\,\right|\ {\xrightarrow {\text{p}}}\ 0.$

Условие доминирования может быть использовано в случае наблюдений iid . В случае не-iid равномерная сходимость по вероятности может быть проверена путем демонстрации того, что последовательность является стохастически равностепенно непрерывной . Если кто-то хочет продемонстрировать, что оценка ML сходится к θ ₀почти наверняка , то должно быть наложено более сильное условие равномерной сходимости почти наверняка: ${\widehat {\ell \,}}(\theta \mid x)$ ${\widehat {\theta \,}}$

\sup _{\theta \in \Theta }\left\|\;{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\;\right\|\ \xrightarrow {\text{a.s.}} \ 0.

Кроме того, если (как предполагалось выше) данные были сгенерированы , то при определенных условиях можно также показать, что оценка максимального правдоподобия сходится по распределению к нормальному распределению. В частности, ^[18] $f(\cdot \,;\theta _{0})$

{\sqrt {n}}\left({\widehat {\theta \,}}_{\mathrm {mle} }-\theta _{0}\right)\ \xrightarrow {d} \ {\mathcal {N}}\left(0,\,I^{-1}\right)

где $I$ — информационная матрица Фишера .

Функциональная инвариантность

Оценка максимального правдоподобия выбирает значение параметра, которое дает наблюдаемым данным наибольшую возможную вероятность (или плотность вероятности в непрерывном случае). Если параметр состоит из нескольких компонентов, то мы определяем их отдельные оценки максимального правдоподобия как соответствующий компонент MLE полного параметра. В соответствии с этим, если есть MLE для , и если есть любое преобразование , то MLE для по определению ^[19] ${\widehat {\theta \,}}$ $\theta$ $g(\theta )$ $\theta$ $\alpha =g(\theta )$

{\widehat {\alpha }}=g(\,{\widehat {\theta \,}}\,).\,

Он максимизирует так называемую профильную вероятность :

{\bar {L}}(\alpha )=\sup _{\theta :\alpha =g(\theta )}L(\theta ).\,

MLE также эквивариантен относительно некоторых преобразований данных. Если где является один к одному и не зависит от оцениваемых параметров, то функции плотности удовлетворяют $y=g(x)$ $g$

f_{Y}(y)=f_{X}(g^{-1}(y))\,|(g^{-1}(y))^{\prime }|

и, следовательно, функции правдоподобия для и отличаются только множителем, который не зависит от параметров модели. $X$ $Y$

Например, параметры MLE логнормального распределения такие же, как и у нормального распределения, подобранного к логарифму данных. Фактически, в логнормальном случае, если , то следует логнормальное распределение . Плотность Y следует со стандартным нормальным и , для . $X\sim {\mathcal {N}}(0,1)$ $Y=g(X)=e^{X}$ $f_{X}$ $g^{-1}(y)=\log(y)$ $|(g^{-1}(y))^{\prime }|={\frac {1}{y}}$ $y>0$

Эффективность

Как предполагалось выше, если данные были сгенерированы к тому времени при определенных условиях, можно также показать, что оценка максимального правдоподобия сходится по распределению к нормальному распределению. Она √ n -согласована и асимптотически эффективна, что означает, что она достигает границы Крамера–Рао . В частности, ^[18] $~f(\cdot \,;\theta _{0})~,$

{\sqrt {n\,}}\,\left({\widehat {\theta \,}}_{\text{mle}}-\theta _{0}\right)\ \ \xrightarrow {d} \ \ {\mathcal {N}}\left(0,\ {\mathcal {I}}^{-1}\right)~,

где информационная матрица Фишера : $~{\mathcal {I}}~$

{\mathcal {I}}_{jk}=\operatorname {\mathbb {E} } \,{\biggl [}\;-{\frac {\partial ^{2}\ln f_{\theta _{0}}(X_{t})}{\partial \theta _{j}\,\partial \theta _{k}}}\;{\biggr ]}~.

В частности, это означает, что смещение оценки максимального правдоподобия равно нулю вплоть до порядка ⁠1/√ $н$ ⁠ .

Эффективность второго порядка после коррекции смещения

Однако, когда мы рассматриваем члены более высокого порядка в разложении распределения этой оценки, оказывается, что $θ mle$ имеет смещение порядка 1 ⁄ $n$ . Это смещение равно (покомпонентно) ^[20]

b_{h}\;\equiv \;\operatorname {\mathbb {E} } {\biggl [}\;\left({\widehat {\theta }}_{\mathrm {mle} }-\theta _{0}\right)_{h}\;{\biggr ]}\;=\;{\frac {1}{\,n\,}}\,\sum _{i,j,k=1}^{m}\;{\mathcal {I}}^{hi}\;{\mathcal {I}}^{jk}\left({\frac {1}{\,2\,}}\,K_{ijk}\;+\;J_{j,ik}\right)

где (с верхними индексами) обозначает ( j,k )-й компонент обратной информационной матрицы Фишера , а ${\mathcal {I}}^{jk}$ ${\mathcal {I}}^{-1}$

{\frac {1}{\,2\,}}\,K_{ijk}\;+\;J_{j,ik}\;=\;\operatorname {\mathbb {E} } \,{\biggl [}\;{\frac {1}{2}}{\frac {\partial ^{3}\ln f_{\theta _{0}}(X_{t})}{\partial \theta _{i}\;\partial \theta _{j}\;\partial \theta _{k}}}+{\frac {\;\partial \ln f_{\theta _{0}}(X_{t})\;}{\partial \theta _{j}}}\,{\frac {\;\partial ^{2}\ln f_{\theta _{0}}(X_{t})\;}{\partial \theta _{i}\,\partial \theta _{k}}}\;{\biggr ]}~.

Используя эти формулы, можно оценить смещение второго порядка оценки максимального правдоподобия и скорректировать это смещение, вычитая его:

{\widehat {\theta \,}}_{\text{mle}}^{*}={\widehat {\theta \,}}_{\text{mle}}-{\widehat {b\,}}~.

Эта оценка является несмещенной вплоть до условий порядка ⁠1/ $н$ ⁠ , и называется оценкой максимального правдоподобия с поправкой на смещение .

Эта оценка со скорректированным смещением является эффективной второго порядка (по крайней мере, в пределах семейства криволинейных экспоненциальных функций), что означает, что она имеет минимальную среднеквадратичную ошибку среди всех оценок второго порядка со скорректированным смещением, вплоть до членов порядка ⁠1/ $н$ ² ⁠ . Можно продолжить этот процесс, то есть вывести член коррекции смещения третьего порядка и т. д. Однако оценка максимального правдоподобия не является эффективной третьего порядка. ^[21]

Отношение к байесовскому выводу

Оценка максимального правдоподобия совпадает с наиболее вероятной байесовской оценкой при условии равномерного априорного распределения параметров . Действительно, максимальная апостериорная оценка — это параметр $θ$ , который максимизирует вероятность $θ$ при данных, заданных теоремой Байеса:

\operatorname {\mathbb {P} } (\theta \mid x_{1},x_{2},\ldots ,x_{n})={\frac {f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )\operatorname {\mathbb {P} } (\theta )}{\operatorname {\mathbb {P} } (x_{1},x_{2},\ldots ,x_{n})}}

где — априорное распределение для параметра $θ$ , а где — вероятность данных, усредненная по всем параметрам. Поскольку знаменатель не зависит от $θ$ , байесовская оценка получается путем максимизации по отношению к $θ$ . Если мы далее предположим, что априорное распределение является равномерным, байесовская оценка получается путем максимизации функции правдоподобия . Таким образом, байесовская оценка совпадает с оценкой максимального правдоподобия для равномерного априорного распределения . $\operatorname {\mathbb {P} } (\theta )$ $\operatorname {\mathbb {P} } (x_{1},x_{2},\ldots ,x_{n})$ $f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )\operatorname {\mathbb {P} } (\theta )$ $\operatorname {\mathbb {P} } (\theta )$ $f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )$ $\operatorname {\mathbb {P} } (\theta )$

Применение оценки максимального правдоподобия в теории принятия решений Байеса

Во многих практических приложениях машинного обучения в качестве модели для оценки параметров используется оценка максимального правдоподобия.

Теория байесовских решений заключается в разработке классификатора, который минимизирует общий ожидаемый риск, особенно когда затраты (функция потерь), связанные с различными решениями, равны, классификатор минимизирует ошибку по всему распределению. ^[22]

Таким образом, правило принятия решения Байесом формулируется как

"решить, если иначе решить "

\;w_{1}\;

~\operatorname {\mathbb {P} } (w_{1}|x)\;>\;\operatorname {\mathbb {P} } (w_{2}|x)~;~

\;w_{2}\;

где есть предсказания разных классов. С точки зрения минимизации ошибки, это также можно сформулировать как $\;w_{1}\,,w_{2}\;$

w={\underset {w}{\operatorname {arg\;max} }}\;\int _{-\infty }^{\infty }\operatorname {\mathbb {P} } ({\text{ error}}\mid x)\operatorname {\mathbb {P} } (x)\,\operatorname {d} x~

где

\operatorname {\mathbb {P} } ({\text{ error}}\mid x)=\operatorname {\mathbb {P} } (w_{1}\mid x)~

если мы решим и если мы решим $\;w_{2}\;$ $\;\operatorname {\mathbb {P} } ({\text{ error}}\mid x)=\operatorname {\mathbb {P} } (w_{2}\mid x)\;$ $\;w_{1}\;.$

Применяя теорему Байеса

\operatorname {\mathbb {P} } (w_{i}\mid x)={\frac {\operatorname {\mathbb {P} } (x\mid w_{i})\operatorname {\mathbb {P} } (w_{i})}{\operatorname {\mathbb {P} } (x)}}

и если мы далее предположим функцию потерь «ноль или один», которая представляет собой одинаковые потери для всех ошибок, правило принятия решения Байесом можно переформулировать следующим образом:

h_{\text{Bayes}}={\underset {w}{\operatorname {arg\;max} }}\,{\bigl [}\,\operatorname {\mathbb {P} } (x\mid w)\,\operatorname {\mathbb {P} } (w)\,{\bigr ]}\;,

где — прогноз, а — априорная вероятность . $h_{\text{Bayes}}$ $\;\operatorname {\mathbb {P} } (w)\;$

Связь с минимизацией расхождения Кульбака-Лейблера и перекрестной энтропии

Нахождение , которое максимизирует правдоподобие, асимптотически эквивалентно нахождению , которое определяет распределение вероятностей ( ), которое имеет минимальное расстояние, в терминах расхождения Кульбака–Лейблера , до реального распределения вероятностей, из которого были сгенерированы наши данные (т.е. сгенерированы ). ^[23] В идеальном мире P и Q одинаковы (и единственное неизвестное — это то, что определяет P), но даже если это не так и используемая нами модель неверно определена, MLE все равно даст нам «ближайшее» распределение (в пределах ограничения модели Q, которая зависит от ) к реальному распределению . ^[24] ${\hat {\theta }}$ ${\hat {\theta }}$ $Q_{\hat {\theta }}$ $P_{\theta _{0}}$ $\theta$ ${\hat {\theta }}$ $P_{\theta _{0}}$

Примеры

Дискретное равномерное распределение

Рассмотрим случай, когда n билетов, пронумерованных от 1 до n, помещаются в коробку, и один из них выбирается случайным образом ( см. равномерное распределение ); таким образом, размер выборки равен 1. Если n неизвестно, то оценка максимального правдоподобия n — это число m в вытянутом билете. (Вероятность равна 0 для n < m , 1 ⁄ n для n ≥ m , и она наибольшая, когда n = m . Обратите внимание, что оценка максимального правдоподобия n происходит в нижнем пределе возможных значений { m , m + 1, ...}, а не где-то в «середине» диапазона возможных значений, что привело бы к меньшему смещению.) Ожидаемое значение числа m в вытянутом билете, а следовательно, и ожидаемое значение , равно ( n + 1)/2. В результате при размере выборки 1 оценка максимального правдоподобия для n будет систематически недооценивать n на ( n − 1)/2. ${\widehat {n}}$ ${\widehat {n}}$

Дискретное распределение, конечное пространство параметров

Предположим, кто-то хочет определить, насколько предвзята нечестная монета . Назовем вероятность подбрасывания ' орла ' p . Тогда целью становится определение p .

Предположим, что монета подбрасывается 80 раз: т.е. выборка может быть такой: x ₁ = H, x ₂ = T, ..., x ₈₀ = T, и наблюдается подсчет количества выпавших орлов «H».

Вероятность выпадения решки равна 1 − p (поэтому здесь p — это θ выше). Предположим, что результат равен 49 орлам и 31 решке , и предположим, что монета была взята из коробки, содержащей три монеты: одна, которая дает орел с вероятностью p = 1 ⁄ 3 , одна, которая дает орел с вероятностью p = 1 ⁄ 2 и еще одна, которая дает орел с вероятностью p = 2 ⁄ 3 . Монеты потеряли свои этикетки, поэтому неизвестно, какая из них это была. Используя оценку максимального правдоподобия, можно найти монету, которая имеет наибольшее правдоподобие, учитывая наблюдаемые данные. Используя функцию массы вероятности биномиального распределения с размером выборки, равным 80, числом успехов, равным 49, но для разных значений p («вероятность успеха»), функция правдоподобия (определенная ниже) принимает одно из трех значений:

{\begin{aligned}\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {1}{3}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {1}{3}})^{49}(1-{\tfrac {1}{3}})^{31}\approx 0.000,\\[6pt]\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {1}{2}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {1}{2}})^{49}(1-{\tfrac {1}{2}})^{31}\approx 0.012,\\[6pt]\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {2}{3}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {2}{3}})^{49}(1-{\tfrac {2}{3}})^{31}\approx 0.054~.\end{aligned}}

Вероятность максимальна, когда $p$ = 2 ⁄ 3 , и поэтому это оценка максимальной вероятности для $p$ .

Дискретное распределение, непрерывное пространство параметров

Теперь предположим, что была только одна монета, но ее $p$ могло быть любым значением 0 ≤ $p$ ≤ 1. Функция правдоподобия, которую нужно максимизировать, равна

L(p)=f_{D}(\mathrm {H} =49\mid p)={\binom {80}{49}}p^{49}(1-p)^{31}~,

и максимизация осуществляется по всем возможным значениям 0 ≤ $p$ ≤ 1.

Функция правдоподобия для пропорционального значения биномиального процесса ( $n$ = 10)

Один из способов максимизировать эту функцию — дифференцировать по $p$ и приравнять к нулю:

{\begin{aligned}0&={\frac {\partial }{\partial p}}\left({\binom {80}{49}}p^{49}(1-p)^{31}\right)~,\\[8pt]0&=49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\[8pt]&=p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\[8pt]&=p^{48}(1-p)^{30}\left[49-80p\right]~.\end{aligned}}

Это произведение трех членов. Первый член равен 0, когда $p$ = 0. Второй равен 0, когда $p$ = 1. Третий равен нулю, когда $p$ = 49 ⁄ 80 . Решение, которое максимизирует правдоподобие, очевидно, равно $p$ = 49 ⁄ 80 (поскольку $p$ = 0 и $p$ = 1 дают правдоподобие 0). Таким образом, максимальная оценка правдоподобия для $p$ равна 49 ⁄ 80 .

Этот результат легко обобщается путем подстановки буквы, например, $s,$ вместо 49, чтобы обозначить наблюдаемое число «успехов» наших испытаний Бернулли , и буквы, например, $n$ , вместо 80, чтобы обозначить число испытаний Бернулли. Точно такой же расчет дает $s$ ⁄ $n$ , что является оценкой максимального правдоподобия для любой последовательности из $n$ испытаний Бернулли, приводящих к $s$ «успехам».

Непрерывное распределение, непрерывное пространство параметров

Для нормального распределения , имеющего функцию плотности вероятности ${\mathcal {N}}(\mu ,\sigma ^{2})$

f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi \sigma ^{2}}}\ }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right),

соответствующая функция плотности вероятности для выборки из $n$ независимых одинаково распределенных нормальных случайных величин (правдоподобие) равна

f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\prod _{i=1}^{n}f(x_{i}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right).

Это семейство распределений имеет два параметра: $θ = (μ, σ)$ ; поэтому мы максимизируем правдоподобие, , по обоим параметрам одновременно или, если возможно, по отдельности. ${\mathcal {L}}(\mu ,\sigma ^{2})=f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})$

Поскольку сама логарифмическая функция является непрерывной строго возрастающей функцией в диапазоне правдоподобия, значения, которые максимизируют правдоподобие, также максимизируют его логарифм (само логарифмическое правдоподобие не обязательно строго возрастает). Логарифмическое правдоподобие можно записать следующим образом:

\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=-{\frac {\,n\,}{2}}\log(2\pi \sigma ^{2})-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(\,x_{i}-\mu \,)^{2}

(Примечание: логарифм правдоподобия тесно связан с информационной энтропией и информацией Фишера .)

Теперь вычислим производные этого логарифмического правдоподобия следующим образом.

{\begin{aligned}0&={\frac {\partial }{\partial \mu }}\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=0-{\frac {\;-2n({\bar {x}}-\mu )\;}{2\sigma ^{2}}}.\end{aligned}}

где выборочное среднее . Это решается с помощью ${\bar {x}}$

{\widehat {\mu }}={\bar {x}}=\sum _{i=1}^{n}{\frac {\,x_{i}\,}{n}}.

Это действительно максимум функции, поскольку это единственная точка поворота в $μ$ , а вторая производная строго меньше нуля. Ее ожидаемое значение равно параметру $μ$ данного распределения,

\operatorname {\mathbb {E} } {\bigl [}\;{\widehat {\mu }}\;{\bigr ]}=\mu ,\,

это означает, что оценка максимального правдоподобия является несмещенной. ${\widehat {\mu }}$

Аналогично дифференцируем логарифм правдоподобия по $σ$ и приравниваем к нулю:

{\begin{aligned}0&={\frac {\partial }{\partial \sigma }}\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=-{\frac {\,n\,}{\sigma }}+{\frac {1}{\sigma ^{3}}}\sum _{i=1}^{n}(\,x_{i}-\mu \,)^{2}.\end{aligned}}

которая решается путем

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}.

Подставляя оценку получаем $\mu ={\widehat {\mu }}$

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}x_{i}x_{j}.

Чтобы вычислить его ожидаемое значение, удобно переписать выражение в терминах случайных величин с нулевым средним ( статистическая ошибка ) . Выражение оценки в этих переменных дает $\delta _{i}\equiv \mu -x_{i}$

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(\mu -\delta _{i})^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(\mu -\delta _{i})(\mu -\delta _{j}).

Упрощение приведенного выше выражения с учетом того, что и , позволяет нам получить $\operatorname {\mathbb {E} } {\bigl [}\;\delta _{i}\;{\bigr ]}=0$ $\operatorname {E} {\bigl [}\;\delta _{i}^{2}\;{\bigr ]}=\sigma ^{2}$

\operatorname {\mathbb {E} } {\bigl [}\;{\widehat {\sigma }}^{2}\;{\bigr ]}={\frac {\,n-1\,}{n}}\sigma ^{2}.

Это означает, что оценка смещена для . Можно также показать, что смещено для , но оба значения и являются согласованными. ${\widehat {\sigma }}^{2}$ $\sigma ^{2}$ ${\widehat {\sigma }}$ $\sigma$ ${\widehat {\sigma }}^{2}$ ${\widehat {\sigma }}$

Формально мы говорим, что оценка максимального правдоподобия для равна $\theta =(\mu ,\sigma ^{2})$

{\widehat {\theta \,}}=\left({\widehat {\mu }},{\widehat {\sigma }}^{2}\right).

В этом случае MLE могут быть получены по отдельности. В общем случае это может быть не так, и MLE должны быть получены одновременно.

Нормальное логарифмическое правдоподобие в максимуме принимает особенно простую форму:

\log {\Bigl (}{\mathcal {L}}({\widehat {\mu }},{\widehat {\sigma }}){\Bigr )}={\frac {\,-n\;\;}{2}}{\bigl (}\,\log(2\pi {\widehat {\sigma }}^{2})+1\,{\bigr )}

Можно показать, что эта максимальная логарифмическая вероятность одинакова для более общих наименьших квадратов , даже для нелинейных наименьших квадратов . Это часто используется при определении приближенных доверительных интервалов и доверительных областей на основе правдоподобия , которые, как правило, точнее тех, которые используют асимптотическую нормальность, обсуждавшуюся выше.

Независимые переменные

Может быть так, что переменные коррелируют, то есть не являются независимыми. Две случайные величины и являются независимыми только в том случае, если их совместная функция плотности вероятности является произведением индивидуальных функций плотности вероятности, то есть $y_{1}$ $y_{2}$

f(y_{1},y_{2})=f(y_{1})f(y_{2})\,

Предположим, что мы создаем гауссовский вектор порядка n из случайных величин , где каждая переменная имеет среднее значение, заданное как . Кроме того, пусть ковариационная матрица будет обозначена как . Совместная функция плотности вероятности этих n случайных величин затем следует многомерному нормальному распределению, заданному как: $(y_{1},\ldots ,y_{n})$ $(\mu _{1},\ldots ,\mu _{n})$ ${\mathit {\Sigma }}$

f(y_{1},\ldots ,y_{n})={\frac {1}{(2\pi )^{n/2}{\sqrt {\det({\mathit {\Sigma }})}}}}\exp \left(-{\frac {1}{2}}\left[y_{1}-\mu _{1},\ldots ,y_{n}-\mu _{n}\right]{\mathit {\Sigma }}^{-1}\left[y_{1}-\mu _{1},\ldots ,y_{n}-\mu _{n}\right]^{\mathrm {T} }\right)

В двумерном случае совместная функция плотности вероятности определяется выражением:

f(y_{1},y_{2})={\frac {1}{2\pi \sigma _{1}\sigma _{2}{\sqrt {1-\rho ^{2}}}}}\exp \left[-{\frac {1}{2(1-\rho ^{2})}}\left({\frac {(y_{1}-\mu _{1})^{2}}{\sigma _{1}^{2}}}-{\frac {2\rho (y_{1}-\mu _{1})(y_{2}-\mu _{2})}{\sigma _{1}\sigma _{2}}}+{\frac {(y_{2}-\mu _{2})^{2}}{\sigma _{2}^{2}}}\right)\right]

В этом и других случаях, когда существует совместная функция плотности, функция правдоподобия определяется, как указано выше в разделе « принципы », с использованием этой плотности.

Пример

$X_{1},\ X_{2},\ldots ,\ X_{m}$ являются счетчиками в ячейках / ящиках от 1 до m; каждый ящик имеет различную вероятность (представьте, что ящики больше или меньше), и мы фиксируем количество выпавших шариков, равное : . Вероятность каждого ящика равна , с ограничением: . Это случай, когда s не являются независимыми, совместная вероятность вектора называется полиномиальной и имеет вид: $n$ $x_{1}+x_{2}+\cdots +x_{m}=n$ $p_{i}$ $p_{1}+p_{2}+\cdots +p_{m}=1$ $X_{i}$ $x_{1},\ x_{2},\ldots ,x_{m}$

f(x_{1},x_{2},\ldots ,x_{m}\mid p_{1},p_{2},\ldots ,p_{m})={\frac {n!}{\prod x_{i}!}}\prod p_{i}^{x_{i}}={\binom {n}{x_{1},x_{2},\ldots ,x_{m}}}p_{1}^{x_{1}}p_{2}^{x_{2}}\cdots p_{m}^{x_{m}}

Каждая ячейка, взятая отдельно по отношению ко всем остальным ячейкам, является биномом, и это является его расширением.

Логарифмическая вероятность этого равна:

\ell (p_{1},p_{2},\ldots ,p_{m})=\log n!-\sum _{i=1}^{m}\log x_{i}!+\sum _{i=1}^{m}x_{i}\log p_{i}

Необходимо учитывать ограничение и использовать множители Лагранжа:

L(p_{1},p_{2},\ldots ,p_{m},\lambda )=\ell (p_{1},p_{2},\ldots ,p_{m})+\lambda \left(1-\sum _{i=1}^{m}p_{i}\right)

Приравнивая все производные к 0, получаем наиболее естественную оценку

{\hat {p}}_{i}={\frac {x_{i}}{n}}

Максимизация логарифмического правдоподобия, с ограничениями и без них, может оказаться неразрешимой задачей в замкнутой форме, тогда нам придется использовать итерационные процедуры.

Итеративные процедуры

За исключением особых случаев, уравнения правдоподобия

{\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}=0

не могут быть решены явно для оценщика . Вместо этого их нужно решать итеративно : начиная с начального предположения (скажем ), пытаются получить сходящуюся последовательность . Существует много методов для такого рода задач оптимизации , ^[26]^[27] но наиболее часто используемые из них — это алгоритмы, основанные на формуле обновления вида ${\widehat {\theta }}={\widehat {\theta }}(\mathbf {y} )$ $\theta$ ${\widehat {\theta }}_{1}$ $\left\{{\widehat {\theta }}_{r}\right\}$

{\widehat {\theta }}_{r+1}={\widehat {\theta }}_{r}+\eta _{r}\mathbf {d} _{r}\left({\widehat {\theta }}\right)

где вектор указывает направление спуска r -го «шага», а скаляр фиксирует «длину шага», ^[28]^[29] также известную как скорость обучения . ^[30] $\mathbf {d} _{r}\left({\widehat {\theta }}\right)$ $\eta _{r}$

Градиентный спускметод

(Примечание: здесь речь идет о задаче максимизации, поэтому знак перед градиентом меняется на противоположный)

\eta _{r}\in \mathbb {R} ^{+}

что достаточно мало для сходимости и

\mathbf {d} _{r}\left({\widehat {\theta }}\right)=\nabla \ell \left({\widehat {\theta }}_{r};\mathbf {y} \right)

Метод градиентного спуска требует вычисления градиента на r-й итерации, но не требует вычисления обратной производной второго порядка, т. е. матрицы Гессе. Поэтому он вычислительно быстрее, чем метод Ньютона-Рафсона.

Метод Ньютона–Рафсона

\eta _{r}=1

\mathbf {d} _{r}\left({\widehat {\theta }}\right)=-\mathbf {H} _{r}^{-1}\left({\widehat {\theta }}\right)\mathbf {s} _{r}\left({\widehat {\theta }}\right)

где — оценка , а — обратная матрица Гессе функции логарифмического правдоподобия, обе оценивали r -ю итерацию. ^[31]^[32] Но поскольку вычисление матрицы Гессе является вычислительно затратным , было предложено множество альтернатив. Популярный алгоритм Берндта–Холла–Хаусмана аппроксимирует Гессе внешним произведением ожидаемого градиента, таким образом, что $\mathbf {s} _{r}({\widehat {\theta }})$ $\mathbf {H} _{r}^{-1}\left({\widehat {\theta }}\right)$

\mathbf {d} _{r}\left({\widehat {\theta }}\right)=-\left[{\frac {1}{n}}\sum _{t=1}^{n}{\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}\left({\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}\right)^{\mathsf {T}}\right]^{-1}\mathbf {s} _{r}\left({\widehat {\theta }}\right)

Квази-ньютоновские методы

Другие квазиньютоновские методы используют более сложные секущие обновления для получения аппроксимации матрицы Гессе.

Формула Дэвидона–Флетчера–Пауэлла

Формула DFP находит решение, которое является симметричным, положительно определенным и наиболее близким к текущему приближенному значению производной второго порядка:

\mathbf {H} _{k+1}=\left(I-\gamma _{k}y_{k}s_{k}^{\mathsf {T}}\right)\mathbf {H} _{k}\left(I-\gamma _{k}s_{k}y_{k}^{\mathsf {T}}\right)+\gamma _{k}y_{k}y_{k}^{\mathsf {T}},

где

y_{k}=\nabla \ell (x_{k}+s_{k})-\nabla \ell (x_{k}),

\gamma _{k}={\frac {1}{y_{k}^{T}s_{k}}},

s_{k}=x_{k+1}-x_{k}.

Алгоритм Бройдена–Флетчера–Гольдфарба–Шанно

BFGS также дает решение, которое является симметричным и положительно определенным:

B_{k+1}=B_{k}+{\frac {y_{k}y_{k}^{\mathsf {T}}}{y_{k}^{\mathsf {T}}s_{k}}}-{\frac {B_{k}s_{k}s_{k}^{\mathsf {T}}B_{k}^{\mathsf {T}}}{s_{k}^{\mathsf {T}}B_{k}s_{k}}}\ ,

где

y_{k}=\nabla \ell (x_{k}+s_{k})-\nabla \ell (x_{k}),

s_{k}=x_{k+1}-x_{k}.

Метод BFGS не гарантирует сходимости, если функция не имеет квадратичного расширения Тейлора вблизи оптимума. Однако BFGS может иметь приемлемую производительность даже для негладких случаев оптимизации

Оценка Фишера

Другой популярный метод — заменить гессиан на информационную матрицу Фишера , что дает нам алгоритм оценки Фишера. Эта процедура является стандартной в оценке многих методов, таких как обобщенные линейные модели . ${\mathcal {I}}(\theta )=\operatorname {\mathbb {E} } \left[\mathbf {H} _{r}\left({\widehat {\theta }}\right)\right]$

Несмотря на популярность, квазиньютоновские методы могут сходиться к стационарной точке , которая не обязательно является локальным или глобальным максимумом, ^[33] , а скорее локальным минимумом или седловой точкой . Поэтому важно оценить достоверность полученного решения уравнений правдоподобия, проверив, что гессиан, оцененный в решении, является как отрицательно определенным , так и хорошо обусловленным . ^[34]

История

Среди первых пользователей метода максимального правдоподобия были Карл Фридрих Гаусс , Пьер-Симон Лаплас , Торвальд Н. Тиле и Фрэнсис Исидро Эджворт . ^[35]^[36] Однако именно Рональд Фишер в период с 1912 по 1922 год единолично создал современную версию метода. ^[37]^[38]

Оценка максимального правдоподобия наконец превзошла эвристическое обоснование в доказательстве, опубликованном Сэмюэлем С. Уилксом в 1938 году, теперь называемом теоремой Уилкса . ^[39] Теорема показывает, что ошибка в логарифме значений правдоподобия для оценок из нескольких независимых наблюдений асимптотически распределена по закону χ 2 , что позволяет удобно определять доверительную область вокруг любой оценки параметров. Единственная сложная часть доказательства Уилкса зависит от ожидаемого значения информационной матрицы Фишера , которое обеспечивается теоремой, доказанной Фишером. ^[40] Уилкс продолжал улучшать общность теоремы на протяжении всей своей жизни, и его наиболее общее доказательство было опубликовано в 1962 году. ^[41]

Обзоры развития оценки максимального правдоподобия были предоставлены рядом авторов. ^[42]^[43]^[44]^[45]^[46]^[47]^[48]^[49]

Смотрите также

Связанные концепции

Критерий информации Акаике : критерий для сравнения статистических моделей, основанный на MLE
Экстремальная оценка : более общий класс оценок, к которому принадлежит MLE
Информация Фишера : информационная матрица, ее связь с ковариационной матрицей оценок ML
Среднеквадратическая ошибка : мера того, насколько «хороша» оценка параметра распределения (будь то оценка максимального правдоподобия или какая-то другая оценка)
RANSAC : метод оценки параметров математической модели с учетом данных, содержащих выбросы
Теорема Рао–Блэквелла : дает процесс нахождения наилучшей возможной несмещенной оценки (в смысле минимальной среднеквадратической ошибки ); MLE часто является хорошей отправной точкой для процесса.
Теорема Уилкса : дает возможность оценить размер и форму области приблизительно равновероятных оценок значений параметров популяции, используя информацию из одной выборки, используя распределение хи-квадрат.

Другие методы оценки

Обобщенный метод моментов : методы, связанные с уравнением правдоподобия в оценке максимального правдоподобия
M-оценщик : подход, используемый в надежной статистике
Оценка максимального апостериорного значения (MAP): для контраста в способе вычисления оценок, когда постулируются априорные знания
Оценка максимального расстояния : родственный метод, который более надежен во многих ситуациях.
Оценка максимальной энтропии
Метод моментов (статистики) : еще один популярный метод нахождения параметров распределений.
Метод поддержки , разновидность метода максимального правдоподобия
Оценка минимального расстояния
Методы частичного правдоподобия для панельных данных
Оценка квазимаксимального правдоподобия : оценка MLE, которая неправильно определена, но все еще последовательна
Ограниченное максимальное правдоподобие : вариация с использованием функции правдоподобия, рассчитанной на основе преобразованного набора данных.

Ссылки

^ Росси, Ричард Дж. (2018). Математическая статистика: Введение в вывод на основе правдоподобия . Нью-Йорк: John Wiley & Sons. стр. 227. ISBN 978-1-118-77104-4.
^ Хендри, Дэвид Ф.; Нильсен, Бент (2007). Эконометрическое моделирование: подход с использованием теории правдоподобия . Принстон: Princeton University Press. ISBN 978-0-691-13128-3.
^ Чемберс, Рэймонд Л.; Стил, Дэвид Г.; Ванг, Суодзин; Уэлш, Алан (2012). Оценка максимального правдоподобия для выборочных обследований . Бока-Ратон: CRC Press. ISBN 978-1-58488-632-7.
^ Уорд, Майкл Дон ; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа . Нью-Йорк: Cambridge University Press. ISBN 978-1-107-18582-1.
^ Press, WH; Flannery, BP; Teukolsky, SA; Vetterling, WT (1992). «Наименьшие квадраты как оценка максимального правдоподобия». Numerical Recipes in FORTRAN: The Art of Scientific Computing (2nd ed.). Cambridge: Cambridge University Press. pp. 651–655. ISBN 0-521-43064-X.
^ Myung, IJ (2003). «Учебник по оценке максимального правдоподобия». Журнал математической психологии . 47 (1): 90–100. doi :10.1016/S0022-2496(02)00028-7.
^ Гурьеру, Кристиан; Монфорт, Ален (1995). Статистика и эконометрические модели . Cambridge University Press. стр. 161. ISBN 0-521-40551-3.
^ Кейн, Эдвард Дж. (1968). Экономическая статистика и эконометрика . Нью-Йорк, Нью-Йорк: Harper & Row. стр. 179.
^ Small, Christoper G.; Wang, Jinfang (2003). «Работа с корнями». Численные методы нелинейных оценочных уравнений . Oxford University Press. С. 74–124. ISBN 0-19-850688-0.
^ Касс, Роберт Э.; Вос, Пол В. (1997). Геометрические основы асимптотического вывода. Нью-Йорк, Нью-Йорк: John Wiley & Sons. стр. 14. ISBN 0-471-82668-5.
^ Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда ставим log() перед совместной pdf, когда используем MLE (оценку максимального правдоподобия)?». Stack Exchange .
^ ab Silvey, SD (1975). Статистический вывод. Лондон, Великобритания: Chapman and Hall. стр. 79. ISBN 0-412-13820-4.
^ Олив, Дэвид (2004). «Максимизирует ли MLE правдоподобие?» (PDF) . Университет Южного Иллинойса .
^ Швалли, Дэниел П. (1985). «Положительно определенные оценки ковариации максимального правдоподобия». Economics Letters . 17 (1–2): 115–117. doi :10.1016/0165-1765(85)90139-9.
^ Магнус, Ян Р. (2017). Введение в теорию эконометрики . Амстердам: VU University Press. С. 64–65. ISBN 978-90-8659-766-6.
^ Пфанцагль (1994, стр. 206)
^ По теореме 2.5 в Newey, Whitney K.; McFadden, Daniel (1994). "Глава 36: Оценка большой выборки и проверка гипотез". В Engle, Robert; McFadden, Dan (ред.). Справочник по эконометрике, том 4. Elsevier Science. стр. 2111–2245. ISBN 978-0-444-88766-5.
^ ab По теореме 3.3 в Newey, Whitney K.; McFadden, Daniel (1994). "Глава 36: Оценка большой выборки и проверка гипотез". В Engle, Robert; McFadden, Dan (ред.). Справочник по эконометрике, том 4. Elsevier Science. стр. 2111–2245. ISBN 978-0-444-88766-5.
^ Закс, Шелемьяху (1971). Теория статистического вывода . Нью-Йорк: John Wiley & Sons. стр. 223. ISBN 0-471-98103-6.
^ См. формулу 20 в Cox, David R. ; Snell, E. Joyce (1968). «Общее определение остатков». Журнал Королевского статистического общества, Серия B . 30 (2): 248–275. JSTOR 2984505.
^ Кано, Ютака (1996). «Эффективность третьего порядка подразумевает эффективность четвертого порядка». Журнал Японского статистического общества . 26 : 101–117. doi : 10.14490/jjss1995.26.101 .
^ Кристенсен, Хенрикт И. «Распознавание образов» (PDF) (лекция). Байесовская теория принятия решений - CS 7616. Georgia Tech.
^ cmplx96 (https://stats.stackexchange.com/users/177679/cmplx96), Расхождение Кульбака–Лейблера, URL (версия: 2017-11-18): https://stats.stackexchange.com/q/314472 (на видео на YouTube посмотрите минуты с 13 по 25)
^ Введение в статистический вывод | Стэнфорд (Лекция 16 — MLE при неправильной спецификации модели)
^ Sycorax говорит: «Восстановите Монику» (https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica), взаимосвязь между максимизацией правдоподобия и минимизацией перекрестной энтропии, URL (версия: 2019-11-06): https://stats.stackexchange.com/q/364237
^ Флетчер, Р. (1987). Практические методы оптимизации (Второе издание). Нью-Йорк, Нью-Йорк: John Wiley & Sons. ISBN 0-471-91547-5.
^ Нокедаль, Хорхе ; Райт, Стивен Дж. (2006). Численная оптимизация (второе изд.). Нью-Йорк, Нью-Йорк: Springer. ISBN 0-387-30303-0.
^ Даганзо, Карлос (1979). Мультиномиальный пробит: теория и ее применение для прогнозирования спроса . Нью-Йорк: Academic Press. С. 61–78. ISBN 0-12-201150-3.
^ Гулд, Уильям; Питбладо, Джеффри; Пой, Брайан (2010). Оценка максимального правдоподобия с Stata (четвертое издание). College Station: Stata Press. стр. 13–20. ISBN 978-1-59718-078-8.
^ Мерфи, Кевин П. (2012). Машинное обучение: вероятностная перспектива. Кембридж: MIT Press. стр. 247. ISBN 978-0-262-01802-9.
^ Амемия, Такеши (1985). Продвинутая эконометрика. Кембридж: Издательство Гарвардского университета. С. 137–138. ISBN 0-674-00560-0.
^ Сарган, Денис (1988). «Методы численной оптимизации». Конспект лекций по передовой эконометрической теории . Оксфорд: Basil Blackwell. С. 161–169. ISBN 0-631-14956-2.
↑ См. теорему 10.1 в Avriel, Mordecai (1976). Нелинейное программирование: анализ и методы. Englewood Cliffs, NJ: Prentice-Hall. стр. 293–294. ISBN 978-0-486-43227-4.
^ Гилл, Филип Э.; Мюррей, Уолтер; Райт, Маргарет Х. (1981). Практическая оптимизация . Лондон, Великобритания: Academic Press. С. 312–313. ISBN 0-12-283950-1.
^ Эджворт, Фрэнсис И. (сентябрь 1908 г.). «О вероятных ошибках частотных констант». Журнал Королевского статистического общества . 71 (3): 499–512. doi :10.2307/2339293. JSTOR 2339293.
^ Эджворт, Фрэнсис И. (декабрь 1908 г.). «О вероятных ошибках частотных констант». Журнал Королевского статистического общества . 71 (4): 651–678. doi :10.2307/2339378. JSTOR 2339378.
^ Пфанзагль, Иоганн (1994). Параметрическая статистическая теория . Вальтер де Грюйтер . стр. 207–208. дои : 10.1515/9783110889765. ISBN 978-3-11-013863-4. МР 1291393.
^ Хальд, Андерс (1999). «Об истории максимального правдоподобия в связи с обратной вероятностью и наименьшими квадратами». Статистическая наука . 14 (2): 214–222. ISSN 0883-4237.
^ Уилкс, СС (1938). «Распределение отношения правдоподобия для большой выборки при проверке составных гипотез». Annals of Mathematical Statistics . 9 : 60–62. doi : 10.1214/aoms/1177732360 .
^ Оуэн, Арт Б. (2001). Эмпирическая вероятность . Лондон, Великобритания; Бока-Ратон, Флорида: Chapman & Hall; CRC Press. ISBN 978-1-58488-071-4.
^ Уилкс, Сэмюэл С. (1962). Математическая статистика . Нью-Йорк, Нью-Йорк: John Wiley & Sons. ISBN 978-0-471-94650-2.
^ Сэвидж, Леонард Дж. (1976). «О перечитывании RA Фишера». Анналы статистики . 4 (3): 441–500. doi : 10.1214/aos/1176343456 . JSTOR 2958221.
^ Пратт, Джон В. (1976). «Ф. И. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия». Анналы статистики . 4 (3): 501–514. doi : 10.1214/aos/1176343457 . JSTOR 2958222.
^ Стиглер, Стивен М. (1978). «Фрэнсис Исидро Эджворт, статистик». Журнал Королевского статистического общества, Серия A. 141 ( 3): 287–322. doi :10.2307/2344804. JSTOR 2344804.
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года. Издательство Гарвардского университета. ISBN 978-0-674-40340-6.
^ Стиглер, Стивен М. (1999). Статистика на столе: история статистических концепций и методов . Издательство Гарвардского университета. ISBN 978-0-674-83601-3.
^ Хальд, Андерс (1998). История математической статистики с 1750 по 1930 год . Нью-Йорк, Нью-Йорк: Wiley. ISBN 978-0-471-17912-2.
^ Хальд, Андерс (1999). «Об истории максимального правдоподобия в связи с обратной вероятностью и наименьшими квадратами». Статистическая наука . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR 2676741.
^ Олдрич, Джон (1997). «RA Fisher и создание максимального правдоподобия 1912–1922». Статистическая наука . 12 (3): 162–176. doi : 10.1214/ss/1030037906 . MR 1617519.

Дальнейшее чтение

Крамер, Дж. С. (1986). Эконометрические приложения методов максимального правдоподобия. Нью-Йорк, Нью-Йорк: Cambridge University Press. ISBN 0-521-25317-9.
Элиасон, Скотт Р. (1993). Оценка максимального правдоподобия: логика и практика . Newbury Park: Sage. ISBN 0-8039-4107-2.
Кинг, Гэри (1989). Унификация политической методологии: теория сходства статистического вывода . Cambridge University Press. ISBN 0-521-36697-6.
Le Cam, Lucien (1990). «Максимальное правдоподобие: Введение». ISI Review . 58 (2): 153–171. doi :10.2307/1403464. JSTOR 1403464.
Магнус, Ян Р. (2017). «Максимальное правдоподобие». Введение в теорию эконометрики . Амстердам, Нидерланды: VU University Press. С. 53–68. ISBN 978-90-8659-766-6.
Миллар, Рассел Б. (2011). Оценка максимального правдоподобия и вывод . Хобокен, Нью-Джерси: Wiley. ISBN 978-0-470-09482-2.
Pickles, Andrew (1986). Введение в анализ правдоподобия . Norwich: WH Hutchins & Sons. ISBN 0-86094-190-6.
Северини, Томас А. (2000). Методы правдоподобия в статистике . Нью-Йорк, Нью-Йорк: Oxford University Press. ISBN 0-19-850650-3.
Уорд, Майкл Д .; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа . Cambridge University Press. ISBN 978-1-316-63682-4.

Внешние ссылки

Тилевик, Андреас (2022). Максимальное правдоподобие против наименьших квадратов в линейной регрессии (видео)
«Метод максимального правдоподобия», Энциклопедия математики , EMS Press , 2001 [1994]
Перселл, С. «Оценка максимального правдоподобия».
Сарджент, Томас ; Стахурски, Джон. «Оценка максимального правдоподобия». Количественная экономика с Python .
Тумет, Отт; Хеннингсен, Арне (19 мая 2019 г.). «maxLik: пакет для оценки максимального правдоподобия в R».
Лессер, Лоуренс М. (2007). "Текст песни 'MLE'". Математические науки / Колледж наук. Техасский университет . Эль-Пасо, Техас . Получено 06.03.2021 .