stringtranslate.com

Оценка максимального правдоподобия

В статистике оценка максимального правдоподобия ( MLE ) — это метод оценки параметров предполагаемого распределения вероятностей с учетом некоторых наблюдаемых данных. Это достигается путем максимизации функции правдоподобия , чтобы в соответствии с предполагаемой статистической моделью наблюдаемые данные были наиболее вероятными. Точка в пространстве параметров , которая максимизирует функцию правдоподобия , называется оценкой максимального правдоподобия. [1] Логика максимального правдоподобия одновременно интуитивно понятна и гибка, и поэтому этот метод стал доминирующим средством статистического вывода . [2] [3] [4]

Если функция правдоподобия дифференцируема , можно применить тест производной для поиска максимумов. В некоторых случаях условия первого порядка функции правдоподобия можно решить аналитически; например, обычный метод наименьших квадратов для модели линейной регрессии максимизирует вероятность, когда предполагается, что случайные ошибки имеют нормальное распределение с одинаковой дисперсией. [5]

С точки зрения байесовского вывода , MLE обычно эквивалентен максимальной апостериорной оценке (MAP) с равномерным априорным распределением (или нормальному априорному распределению со стандартным отклонением, равным бесконечности). В частотном выводе MLE является частным случаем оценки экстремума , где целевой функцией является правдоподобие.

Принципы

Мы моделируем набор наблюдений как случайную выборку из неизвестного совместного распределения вероятностей , которое выражается через набор параметров . Целью оценки максимального правдоподобия является определение параметров, для которых наблюдаемые данные имеют наибольшую совместную вероятность. Мы записываем параметры, управляющие совместным распределением, в виде вектора, так что это распределение попадает в параметрическое семейство , которое называется пространством параметров , конечномерным подмножеством евклидова пространства . Оценка плотности соединений на наблюдаемой выборке данных дает действительную функцию:

которая называется функцией правдоподобия . Для независимых и одинаково распределенных случайных величин будет произведением одномерных функций плотности :

Целью оценки максимального правдоподобия является нахождение значений параметров модели, которые максимизируют функцию правдоподобия в пространстве параметров, [6] то есть

Интуитивно понятно, что при этом выбираются значения параметров, которые делают наблюдаемые данные наиболее вероятными. Конкретное значение , которое максимизирует функцию правдоподобия, называется оценкой максимального правдоподобия. Кроме того, если определенная таким образом функция измерима , то она называется оценкой максимального правдоподобия . Обычно это функция, определенная в пространстве выборки , т. е. принимающая данную выборку в качестве аргумента. Достаточным , но не необходимым условием ее существования является непрерывность функции правдоподобия в компактном пространстве параметров . [7] Для открытия функция правдоподобия может увеличиваться, так и не достигнув максимального значения.

На практике часто удобно работать с натуральным логарифмом функции правдоподобия, называемым логарифмом правдоподобия :

Поскольку логарифм является монотонной функцией , максимум происходит при том же значении, что и максимум [8] Если дифференцируем в необходимых условиях возникновения максимума (или минимума)

известные как уравнения правдоподобия. Для некоторых моделей эти уравнения могут быть решены явно, но, как правило, решение задачи максимизации в замкнутой форме неизвестно или доступно, а MLE можно найти только с помощью численной оптимизации . Другая проблема заключается в том, что в конечных выборках у уравнений правдоподобия может существовать несколько корней . [9] Действительно ли идентифицированный корень уравнений правдоподобия является (локальным) максимумом, зависит от того, является ли матрица частных и перекрестных производных второго порядка, так называемая матрица Гессе

является отрицательным полуопределенным при , поскольку это указывает на локальную вогнутость . Удобно, что наиболее распространенные распределения вероятностей , в частности экспоненциальное семейство , являются логарифмически вогнутыми . [10] [11]

Ограниченное пространство параметров

Хотя область определения функции правдоподобия — пространство параметров — обычно представляет собой конечномерное подмножество евклидова пространства , иногда в процесс оценки необходимо включать дополнительные ограничения . Пространство параметров можно выразить как

где векторная функция отображается в . Оценка истинного параметра, принадлежащего then, на практике означает нахождение максимума функции правдоподобия с учетом ограничения

Теоретически наиболее естественным подходом к этой задаче оптимизации с ограничениями является метод подстановки, то есть «заполнение» ограничений множества таким образом, чтобы оно представляло собой функцию «один к одному» , и перепараметризацию функции правдоподобия. установив [12] Из-за эквивариантности оценки максимального правдоподобия свойства MLE применимы и к ограниченным оценкам. [13] Например, в многомерном нормальном распределении ковариационная матрица должна быть положительно определенной ; это ограничение можно наложить заменой где – действительная верхняя треугольная матрица и – ее транспонирование . [14]

На практике ограничения обычно накладываются с использованием метода Лагранжа, который с учетом ограничений, определенных выше, приводит к уравнениям ограниченного правдоподобия.

и

где – вектор-столбец множителей Лагранжа и – матрица Якоби частных производных размера k × r . [12] Естественно, если ограничения не являются обязательными по максимуму, множители Лагранжа должны быть равны нулю. [15] Это, в свою очередь, позволяет провести статистическую проверку «действительности» ограничения, известную как тест множителя Лагранжа .

Непараметрическая оценка максимального правдоподобия

Непараметрическая оценка максимального правдоподобия может быть выполнена с использованием эмпирического правдоподобия .

Характеристики

Оценка максимального правдоподобия — это оценка экстремума , полученная путем максимизации целевой функции в зависимости от θ . Если данные независимы и одинаково распределены , то мы имеем

это выборочный аналог ожидаемого логарифмического правдоподобия , где это ожидание берется относительно истинной плотности.

Оценщики максимального правдоподобия не обладают оптимальными свойствами для конечных выборок в том смысле, что (при оценке на конечных выборках) другие оценки могут иметь большую концентрацию вокруг истинного значения параметра. [16] Однако, как и другие методы оценки, оценка максимального правдоподобия обладает рядом привлекательных ограничивающих свойств : когда размер выборки увеличивается до бесконечности, последовательности оценок максимального правдоподобия обладают следующими свойствами:

Последовательность

При условиях, изложенных ниже, оценка максимального правдоподобия является состоятельной . Согласованность означает, что если данные были сгенерированы и у нас есть достаточно большое количество наблюдений n , то можно найти значение θ 0 с произвольной точностью. С математической точки зрения это означает, что при стремлении n к бесконечности оценщик по вероятности сходится к своему истинному значению:

При несколько более сильных условиях оценка сходится почти наверняка (или сильно ):

В практических приложениях данные никогда не генерируются с помощью . Скорее, это модель, часто в идеализированной форме, процесса, генерируемого данными. В статистике распространен афоризм о том, что все модели неверны . Таким образом, истинная согласованность не достигается в практических приложениях. Тем не менее, последовательность часто считается желательным свойством для оценщика.

Для установления согласованности достаточны следующие условия. [17]

  1. Идентификация модели:

    Другими словами, разные значения параметра θ соответствуют разным распределениям внутри модели. Если бы это условие не выполнялось, существовало бы некоторое значение θ 1 такое, что θ 0 и θ 1 порождали идентичное распределение наблюдаемых данных. Тогда мы не смогли бы различить эти два параметра даже при бесконечном количестве данных — эти параметры были бы эквивалентны с точки зрения наблюдений .

    Условие идентификации абсолютно необходимо для того, чтобы оценщик ML был непротиворечивым. Когда это условие выполняется, предельная функция правдоподобия ( θ |·) имеет единственный глобальный максимум в точке θ 0 .
  2. Компактность: пространство параметров модели Θ компактно .

    Условие идентификации устанавливает, что логарифмическое правдоподобие имеет уникальный глобальный максимум. Компактность подразумевает, что вероятность не может приблизиться к максимальному значению сколь угодно близко в какой-то другой точке (как показано, например, на рисунке справа).

    Компактность — лишь достаточное, но не необходимое условие. Компактность может быть заменена некоторыми другими условиями, такими как:

    • как вогнутость логарифмической функции правдоподобия, так и компактность некоторых (непустых) множеств верхнего уровня логарифмической функции правдоподобия, или
    • существование компактной окрестности N точки θ 0 такой, что вне N логарифмическая функция правдоподобия меньше максимума хотя бы на некоторое ε > 0 .
  3. Непрерывность: функция ln f ( x  |  θ ) непрерывна по θ почти для всех значений x :
    Непрерывность здесь можно заменить несколько более слабым условием полунепрерывности сверху .
  4. Доминирование: существует D ( x ), интегрируемый относительно распределения f ( x  |  θ 0 ), такой, что
    По равномерному закону больших чисел условие доминирования вместе с непрерывностью устанавливают равномерную сходимость по вероятности логарифмического правдоподобия:

Условие доминирования можно использовать в случае иид- наблюдений. В случае, отличном от iid, равномерную сходимость по вероятности можно проверить, показав, что последовательность стохастически равнонепрерывна . Если кто-то хочет продемонстрировать, что оценка ML почти наверняка сходится к θ 0 , то необходимо почти наверняка наложить более сильное условие равномерной сходимости:

Кроме того, если (как предполагалось выше) данные были сгенерированы , то при определенных условиях также можно показать, что оценка максимального правдоподобия сходится по распределению к нормальному распределению. В частности, [18]

где Iинформационная матрица Фишера .

Функциональная инвариантность

Оценщик максимального правдоподобия выбирает значение параметра, которое дает наблюдаемым данным наибольшую возможную вероятность (или плотность вероятности в непрерывном случае). Если параметр состоит из нескольких компонентов, то мы определяем их отдельные оценки максимального правдоподобия как соответствующий компонент MLE полного параметра. В соответствии с этим, если MLE для , и если является каким-либо преобразованием , то MLE для по определению [19]

Это максимизирует так называемую вероятность профиля :

MLE также эквивариантен относительно определенных преобразований данных. Если где взаимно однозначно и не зависит от оцениваемых параметров, то функции плотности удовлетворяют

и, следовательно, функции правдоподобия для и отличаются лишь на коэффициент, не зависящий от параметров модели.

Например, параметры MLE логарифмически нормального распределения такие же, как и параметры нормального распределения, адаптированного к логарифму данных.

Эффективность

Как предполагалось выше, если к тому времени данные были сгенерированы при определенных условиях, можно также показать, что оценка максимального правдоподобия сходится по распределению к нормальному распределению. Он n -согласован и асимптотически эффективен, что означает, что он достигает границы Крамера – Рао . В частности, [18] 

где информационная матрица Фишера :

В частности, это означает, что смещение оценки максимального правдоподобия равно нулю до порядка1/н .

Эффективность второго порядка после поправки на смещение

Однако, если мы рассмотрим члены более высокого порядка в разложении распределения этой оценки, окажется, что θ mle имеет смещение порядка 1n . Это смещение равно (покомпонентно) [20]

где (с верхними индексами) обозначает ( j,k )-ю компоненту обратной информационной матрицы Фишера , а

Используя эти формулы, можно оценить смещение второго порядка оценки максимального правдоподобия и скорректировать это смещение путем его вычитания:

Эта оценка несмещена с точки зрения порядка1/ни называется оценкой максимального правдоподобия с поправкой на смещение .

Эта оценка с коррекцией смещения является эффективной второго порядка (по крайней мере, в пределах семейства кривых экспонент), что означает, что она имеет минимальную среднеквадратическую ошибку среди всех оценок второго порядка с коррекцией смещения, вплоть до членов порядка1/2 . Можно продолжить этот процесс, то есть вывести член коррекции смещения третьего порядка и так далее. Однако оценка максимального правдоподобия не является эффективной третьего порядка. [21]

Связь с байесовским выводом

Оценка максимального правдоподобия совпадает с наиболее вероятной байесовской оценкой при условии равномерного предварительного распределения параметров . Действительно, максимальная апостериорная оценка - это параметр θ , который максимизирует вероятность θ с учетом данных, заданных теоремой Байеса:

где — априорное распределение параметра θ и где — вероятность усреднения данных по всем параметрам. Поскольку знаменатель не зависит от θ , байесовская оценка получается путем максимизации по θ . Если мы далее предположим, что априорное распределение является равномерным, байесовская оценка получается путем максимизации функции правдоподобия . Таким образом, байесовская оценка совпадает с оценкой максимального правдоподобия для равномерного априорного распределения .

Применение оценки максимального правдоподобия в теории принятия решений Байеса

Во многих практических приложениях машинного обучения оценка максимального правдоподобия используется в качестве модели для оценки параметров.

Теория байесовского решения заключается в разработке классификатора, который минимизирует общий ожидаемый риск, особенно, когда затраты (функция потерь), связанные с различными решениями, равны, классификатор минимизирует ошибку по всему распределению. [22]

Таким образом, правило принятия решения Байеса формулируется как

"реши , если решишь иначе "

где предсказания разных классов. С точки зрения минимизации ошибки это также можно сформулировать как

где

если мы решим и если мы решим

Применяя теорему Байеса

,

и если мы далее предположим, что функция потерь равна нулю или единице, которая является одинаковой потерей для всех ошибок, правило байесовского решения можно переформулировать как:

где — прогноз, а — априорная вероятность .

Связь с минимизацией расхождения Кульбака – Лейблера и перекрестной энтропии

Нахождение того, что максимизирует правдоподобие, асимптотически эквивалентно нахождению того , что определяет распределение вероятностей ( ), которое имеет минимальное расстояние, с точки зрения расхождения Кульбака-Лейблера , до реального распределения вероятностей, из которого были сгенерированы наши данные (т. е. сгенерировано ). [23] В идеальном мире P и Q одинаковы (и неизвестно только то, что определяет P), но даже если это не так и модель, которую мы используем, определена неверно, MLE все равно даст нам «ближайший» распределение (в пределах ограничения модели Q, зависящей от ) до реального распределения . [24]

Поскольку перекрестная энтропия — это просто энтропия Шеннона плюс дивергенция KL, и поскольку энтропия постоянна, то MLE также асимптотически минимизирует перекрестную энтропию. [25]

Примеры

Дискретное равномерное распределение

Рассмотрим случай, когда n билетов с номерами от 1 до n помещены в коробку и один выбирается случайным образом ( см. равномерное распределение ); таким образом, размер выборки равен 1. Если n неизвестно, то оценщиком максимального правдоподобия n является число m в выпавшем билете. (Вероятность равна 0 для n  <  m , 1n для n  ≥  m , и она наибольшая, когда n  =  m . Обратите внимание, что оценка максимального правдоподобия n происходит в нижнем экстремуме возможных значений { mm  + 1, ...}, а не где-то в «середине» диапазона возможных значений, что приведет к меньшему смещению.) Ожидаемое значение числа m в выпавшем билете и, следовательно, ожидаемое значение , равно ( n  + 1)/2. В результате при размере выборки, равном 1, оценка максимального правдоподобия для n будет систематически занижать n на ( n  - 1)/2.

Дискретное распределение, пространство с конечным параметром

Предположим, кто-то хочет определить, насколько необъективна нечестная монета . Назовем вероятность выбрасывания « головы » p . Целью тогда становится определение p .

Предположим, монету подбрасывают 80 раз: т.е. выборка может быть чем-то вроде x 1  = H, x 2  = T, ..., x 80 = T, и наблюдается  подсчет количества орлов «H».

Вероятность выпадения решки равна 1 -  p (поэтому здесь p равно θ , указанному выше). Предположим, что результат — 49 орлов и 31  решка , и предположим, что монета была взята из коробки, содержащей три монеты: одна, которая дает орла с вероятностью p  =  13 , одна, которая дает орла с вероятностью p = 1 ⁄ 2 , и еще одна, которая дает орла с вероятностью p  =  1 2. орел с вероятностью p  =  23 . Монеты потеряли этикетки, поэтому неизвестно, какая именно. Используя оценку максимального правдоподобия, можно найти монету, имеющую наибольшую вероятность, учитывая наблюдаемые данные. Используя функцию массы вероятности биномиального распределения с размером выборки, равным 80, количеством успехов, равным 49, но для разных значений p («вероятность успеха»), функция правдоподобия (определенная ниже) принимает одно из трех значений:

Вероятность максимизируется, когда p  =  23 , и поэтому это оценка максимального правдоподобия для  p .

Дискретное распределение, непрерывное пространство параметров

Теперь предположим, что была только одна монета, но ее p могло быть любым значением 0 ≤ p ≤ 1. Функция правдоподобия, которую необходимо максимизировать, равна

и максимизация осуществляется по всем возможным значениям 0 ≤ p ≤ 1.

Функция правдоподобия для значения доли биномиального процесса ( n  = 10)

Один из способов максимизировать эту функцию — дифференцировать по p и присвоить нулю:

Это продукт трёх слагаемых. Первый член равен 0, когда p  = 0. Второй равен 0, когда p  = 1. Третий равен нулю, когда p  =  4980 . Решение, которое максимизирует вероятность, очевидно, равно p  =  4980 (поскольку p  = 0 и p  = 1 приводят к вероятности 0). Таким образом, оценка максимального правдоподобия для p равна 49/80 .

Этот результат легко обобщить, заменив букву, например s , на место 49, чтобы обозначить наблюдаемое количество «успехов» наших испытаний Бернулли , и букву, например, n , на место 80, чтобы обозначить количество испытаний Бернулли. Точно такой же расчет дает sn , который является оценкой максимального правдоподобия для любой последовательности из n испытаний Бернулли, приводящей к s «успехам».

Непрерывное распределение, непрерывное пространство параметров

Для нормального распределения , имеющего функцию плотности вероятности

соответствующая функция плотности вероятности для выборки из n независимых одинаково распределенных нормальных случайных величин (правдоподобие) равна

Это семейство распределений имеет два параметра: θ  = ( μσ ) ; поэтому мы максимизируем вероятность по обоим параметрам одновременно или, если возможно, по отдельности.

Поскольку функция логарифма сама по себе является непрерывной строго возрастающей функцией в диапазоне правдоподобия, значения, которые максимизируют правдоподобие, также будут максимизировать ее логарифм (сама логарифмическая вероятность не обязательно строго возрастает). Логарифмическое правдоподобие можно записать следующим образом:

(Примечание: логарифмическое правдоподобие тесно связано с информационной энтропией и информацией Фишера .)

Теперь мы вычисляем производные этого логарифмического правдоподобия следующим образом.

где выборочное среднее . Это решается

Это действительно максимум функции, поскольку это единственная точка поворота функции µ , а вторая производная строго меньше нуля. Его математическое ожидание равно параметру µ данного распределения:

что означает, что оценка максимального правдоподобия является несмещенной.

Аналогично дифференцируем логарифмическое правдоподобие по σ и приравниваем к нулю:

который решается

Подставив оценку, получим

Чтобы вычислить его ожидаемое значение, удобно переписать выражение в терминах случайных величин с нулевым средним значением ( статистической ошибки ) . Выражение оценки в этих переменных дает

Упрощая приведенное выше выражение, используя те факты, что и , позволяет нам получить

Это означает, что оценка смещена для . Можно также показать, что оно смещено для , но оба и согласованы.

Формально мы говорим, что оценка максимального правдоподобия для равна

В этом случае MLE можно получить индивидуально. В целом это может быть не так, и MLE придется получать одновременно.

Нормальное логарифмическое правдоподобие в максимуме принимает особенно простую форму:

Можно показать, что это максимальное логарифмическое правдоподобие одинаково для более общих методов наименьших квадратов , даже для нелинейных методов наименьших квадратов . Это часто используется при определении приближенных доверительных интервалов и доверительных областей на основе правдоподобия , которые обычно более точны, чем те, которые используют асимптотическую нормальность, обсуждавшуюся выше.

Ненезависимые переменные

Может случиться так, что переменные коррелируют, то есть не являются независимыми. Две случайные величины и независимы только в том случае, если их совместная функция плотности вероятности является произведением отдельных функций плотности вероятности, т.е.

Предположим, что кто-то строит гауссов вектор порядка n из случайных величин , где каждая переменная имеет средние значения, заданные . Кроме того, пусть ковариационная матрица обозначается через . Тогда совместная функция плотности вероятности этих n случайных величин следует многомерному нормальному распределению, определяемому следующим образом:

В двумерном случае совместная функция плотности вероятности определяется выражением:

В этом и других случаях, когда существует совместная функция плотности, функция правдоподобия определяется, как указано выше, в разделе « принципы », с использованием этой плотности.

Пример

– отсчеты в ячейках/коробках от 1 до m; у каждого ящика разная вероятность (представьте, что ящики больше или меньше), и мы фиксируем количество выпавших шаров равным : . Вероятность каждого ящика равна , с ограничением: . Это случай, когда s не являются независимыми, совместная вероятность вектора называется мультиномом и имеет вид:

Каждый блок, взятый отдельно от всех остальных блоков, представляет собой бином и является его расширением.

Логарифмическая вероятность этого равна:

Ограничение необходимо принять во внимание и использовать множители Лагранжа:

Полагая, что все производные равны 0, получается наиболее естественная оценка.

Максимизация логарифмической вероятности с ограничениями и без них может оказаться неразрешимой задачей в закрытой форме, тогда нам придется использовать итерационные процедуры.

Итерационные процедуры

За исключением особых случаев, уравнения правдоподобия

не может быть решено явно для оценщика . Вместо этого их необходимо решать итеративно : начиная с первоначального предположения (скажем ), мы стремимся получить сходящуюся последовательность . Доступно множество методов решения такого рода задач оптимизации , [26] [27] , но наиболее часто используемые из них — это алгоритмы, основанные на формуле обновления вида

где вектор указывает направление спуска r - го «шага», а скаляр фиксирует «длину шага», [28] [29], также известную как скорость обучения . [30]

Метод градиентного спуска

(Примечание: здесь речь идет о задаче максимизации, поэтому знак перед градиентом переворачивается)

это достаточно мало для сходимости и

Метод градиентного спуска требует расчета градиента на r-й итерации, но нет необходимости вычислять обратную производную второго порядка, то есть матрицу Гессе. Следовательно, он вычислительно быстрее, чем метод Ньютона-Рафсона.

Метод Ньютона – Рафсона

и

где - оценка и - обратная матрица Гессе функции логарифмического правдоподобия, обе оцениваются на r- й итерации. [31] [32] Но поскольку расчет матрицы Гессе требует больших вычислительных затрат , были предложены многочисленные альтернативы. Популярный алгоритм Берндта-Холла-Холла-Хаусмана аппроксимирует гессиан внешним произведением ожидаемого градиента, так что

Квазиньютоновские методы

Другие квазиньютоновские методы используют более сложные обновления секущей для аппроксимации матрицы Гессе.

Формула Дэвидона – Флетчера – Пауэлла

Формула DFP находит решение, которое является симметричным, положительно определенным и наиболее близким к текущему приблизительному значению производной второго порядка:

где

Алгоритм Бройдена–Флетчера–Гольдфарба–Шенно

BFGS также дает симметричное и положительно определенное решение:

где

Сходимость метода BFGS не гарантируется, если функция не имеет квадратичного разложения Тейлора вблизи оптимума. Однако BFGS может иметь приемлемую производительность даже для негладких примеров оптимизации.

Гол Фишера

Другой популярный метод — заменить гессиан информационной матрицей Фишера , что дает нам алгоритм оценки Фишера. Эта процедура является стандартной для оценки многих методов, таких как обобщенные линейные модели .

Несмотря на свою популярность, квазиньютоновские методы могут сходиться к стационарной точке , которая не обязательно является локальным или глобальным максимумом [33] , а скорее локальным минимумом или седловой точкой . Поэтому важно оценить достоверность полученного решения уравнений правдоподобия, проверив, что гессиан, оцененный при решении, является как отрицательно определенным , так и хорошо обусловленным . [34]

История

Рональд Фишер в 1913 году

Первыми пользователями метода максимального правдоподобия были Карл Фридрих Гаусс , Пьер-Симон Лаплас , Торвальд Н. Тиле и Фрэнсис Исидро Эджворт . [35] [36] Однако его широкое использование выросло между 1912 и 1922 годами, когда Рональд Фишер рекомендовал, широко популяризировал и тщательно анализировал оценку максимального правдоподобия (с бесплодными попытками доказательства ). [37]

Оценка максимального правдоподобия наконец превзошла эвристическое обоснование в доказательстве, опубликованном Сэмюэлем С. Уилксом в 1938 году и теперь называемом теоремой Уилкса . [38] Теорема показывает, что ошибка логарифма значений правдоподобия для оценок на основе нескольких независимых наблюдений асимптотически χ  2 -распределена , что позволяет удобно определять доверительную область вокруг любой оценки параметров. Единственная трудная часть доказательства Уилкса зависит от ожидаемого значения информационной матрицы Фишера , которое обеспечивается теоремой, доказанной Фишером. [39] Уилкс продолжал совершенствовать общность теоремы на протяжении всей своей жизни, его наиболее общее доказательство было опубликовано в 1962 году. [40]

Обзоры разработки оценки максимального правдоподобия были предоставлены рядом авторов. [41] [42] [ 43] [44] [45] [46] [47] [48]

Смотрите также

Связанные понятия

Другие методы оценки

Рекомендации

  1. ^ Росси, Ричард Дж. (2018). Математическая статистика: введение в вывод, основанный на правдоподобии . Нью-Йорк: Джон Уайли и сыновья. п. 227. ИСБН 978-1-118-77104-4.
  2. ^ Хендри, Дэвид Ф .; Нильсен, Бент (2007). Эконометрическое моделирование: вероятностный подход . Принстон: Издательство Принстонского университета. ISBN 978-0-691-13128-3.
  3. ^ Чемберс, Раймонд Л.; Стил, Дэвид Г.; Ван, Суоджин; Уэлш, Алан (2012). Оценка максимального правдоподобия для выборочных обследований . Бока-Ратон: CRC Press. ISBN 978-1-58488-632-7.
  4. ^ Уорд, Майкл Дон ; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа . Нью-Йорк: Издательство Кембриджского университета. ISBN 978-1-107-18582-1.
  5. ^ Пресс, WH; Фланнери, BP; Теукольский, С.А.; Веттерлинг, WT (1992). «Метод наименьших квадратов как средство оценки максимального правдоподобия». Числовые рецепты на FORTRAN: Искусство научных вычислений (2-е изд.). Кембридж: Издательство Кембриджского университета. стр. 651–655. ISBN 0-521-43064-Х.
  6. ^ Мьюнг, IJ (2003). «Учебное пособие по оценке максимального правдоподобия». Журнал математической психологии . 47 (1): 90–100. дои : 10.1016/S0022-2496(02)00028-7.
  7. ^ Гурьеро, Кристиан; Монфор, Ален (1995). Статистические и эконометрические модели . Издательство Кембриджского университета. п. 161. ИСБН 0-521-40551-3.
  8. ^ Кейн, Эдвард Дж. (1968). Экономическая статистика и эконометрика . Нью-Йорк, штат Нью-Йорк: Харпер и Роу. п. 179.
  9. ^ Смолл, Кристопер Г.; Ван, Цзиньфан (2003). «Работа с корнями». Численные методы решения нелинейных уравнений оценки . Издательство Оксфордского университета. стр. 74–124. ISBN 0-19-850688-0.
  10. ^ Касс, Роберт Э.; Вос, Пол В. (1997). Геометрические основы асимптотического вывода. Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. п. 14. ISBN 0-471-82668-5.
  11. Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда помещаем log() перед совместным PDF-файлом, когда используем MLE (оценка максимального правдоподобия)?». Обмен стеками .
  12. ^ аб Сильви, SD (1975). Статистические выводы. Лондон, Великобритания: Чепмен и Холл. п. 79. ИСБН 0-412-13820-4.
  13. ^ Олив, Дэвид (2004). «Максимизирует ли MLE вероятность?» (PDF) . Университет Южного Иллинойса .
  14. ^ Швалли, Дэниел П. (1985). «Положительные определенные оценки ковариации максимального правдоподобия». Письма по экономике . 17 (1–2): 115–117. дои : 10.1016/0165-1765(85)90139-9.
  15. ^ Магнус, Ян Р. (2017). Введение в теорию эконометрики . Амстердам: Издательство Университета ВУ. стр. 64–65. ISBN 978-90-8659-766-6.
  16. ^ Пфанзагль (1994, стр. 206)
  17. ^ По теореме 2.5 в работе Ньюи, Уитни К.; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». В Энгле, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Эльзевир Наука. стр. 2111–2245. ISBN 978-0-444-88766-5.
  18. ^ ab По теореме 3.3 в работе Ньюи, Уитни К.; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». В Энгле, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Эльзевир Наука. стр. 2111–2245. ISBN 978-0-444-88766-5.
  19. ^ Закс, Шелемьягу (1971). Теория статистического вывода . Нью-Йорк: Джон Уайли и сыновья. п. 223. ИСБН 0-471-98103-6.
  20. ^ См. формулу 20 у Кокса, Дэвида Р .; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, серия B. 30 (2): 248–275. JSTOR  2984505.
  21. ^ Кано, Ютака (1996). «Эффективность третьего порядка подразумевает эффективность четвертого порядка». Журнал Японского статистического общества . 26 : 101–117. дои : 10.14490/jjss1995.26.101 .
  22. ^ Кристенсен, Хенрикт И. «Распознавание образов» (PDF) (лекция). Байесовская теория принятия решений - CS 7616. Технологический институт Джорджии.
  23. ^ cmplx96 (https://stats.stackexchange.com/users/177679/cmplx96), расхождение Кульбака – Лейблера, URL (версия: 18 ноября 2017 г.): https://stats.stackexchange.com/q/314472 ( на ютубе видео, посмотрите минуты с 13 по 25)
  24. ^ Введение в статистический вывод | Стэнфорд (Лекция 16 — MLE при неправильной спецификации модели)
  25. ^ Sycorax говорит о восстановлении Моники (https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica), взаимосвязи между максимизацией вероятности и минимизацией перекрестной энтропии, URL (версия: 2019-11- 06): https://stats.stackexchange.com/q/364237
  26. ^ Флетчер, Р. (1987). Практические методы оптимизации (Второе изд.). Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-91547-5.
  27. ^ Носедал, Хорхе ; Райт, Стивен Дж. (2006). Численная оптимизация (второе изд.). Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 0-387-30303-0.
  28. ^ Даганзо, Карлос (1979). Полиномиальный пробит: теория и ее применение к прогнозированию спроса . Нью-Йорк: Академическая пресса. стр. 61–78. ISBN 0-12-201150-3.
  29. ^ Гулд, Уильям; Питбладо, Джеффри; Пои, Брайан (2010). Оценка максимального правдоподобия с помощью Stata (Четвертое изд.). Колледж-Стейшн: Stata Press. стр. 13–20. ISBN 978-1-59718-078-8.
  30. ^ Мерфи, Кевин П. (2012). Машинное обучение: вероятностная перспектива. Кембридж: MIT Press. п. 247. ИСБН 978-0-262-01802-9.
  31. ^ Амемия, Такеши (1985). Продвинутая эконометрика. Кембридж: Издательство Гарвардского университета. стр. 137–138. ISBN 0-674-00560-0.
  32. ^ Сарган, Денис (1988). «Методы численной оптимизации». Конспект лекций по продвинутой эконометрической теории . Оксфорд: Бэзил Блэквелл. стр. 161–169. ISBN 0-631-14956-2.
  33. ^ См. теорему 10.1 у Авриэля, Мордекая (1976). Нелинейное программирование: анализ и методы. Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. стр. 293–294. ISBN 978-0-486-43227-4.
  34. ^ Гилл, Филип Э.; Мюррей, Уолтер; Райт, Маргарет Х. (1981). Практическая оптимизация . Лондон, Великобритания: Академическая пресса. стр. 312–313. ISBN 0-12-283950-1.
  35. ^ Эджворт, Фрэнсис Ю. (сентябрь 1908 г.). «О возможных погрешностях частотных констант». Журнал Королевского статистического общества . 71 (3): 499–512. дои : 10.2307/2339293. JSTOR  2339293.
  36. ^ Эджворт, Фрэнсис Ю. (декабрь 1908 г.). «О возможных погрешностях частотных констант». Журнал Королевского статистического общества . 71 (4): 651–678. дои : 10.2307/2339378. JSTOR  2339378.
  37. ^ Пфанзагль, Иоганн (1994). Параметрическая статистическая теория . Вальтер де Грюйтер . стр. 207–208. дои : 10.1515/9783110889765. ISBN 978-3-11-013863-4. МР  1291393.
  38. ^ Уилкс, СС (1938). «Распределение отношения правдоподобия по большой выборке для проверки сложных гипотез». Анналы математической статистики . 9 : 60–62. дои : 10.1214/aoms/1177732360 .
  39. ^ Оуэн, Арт Б. (2001). Эмпирическая вероятность . Лондон, Великобритания; Бока-Ратон, Флорида: Chapman & Hall; ЦРК Пресс. ISBN 978-1-58488-071-4.
  40. ^ Уилкс, Сэмюэл С. (1962). Математическая статистика . Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. ISBN 978-0-471-94650-2.
  41. ^ Сэвидж, Леонард Дж. (1976). «О перечитывании Р. А. Фишера». Анналы статистики . 4 (3): 441–500. дои : 10.1214/aos/1176343456 . JSTOR  2958221.
  42. ^ Пратт, Джон В. (1976). «Ф. Я. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия». Анналы статистики . 4 (3): 501–514. дои : 10.1214/aos/1176343457 . JSTOR  2958222.
  43. ^ Стиглер, Стивен М. (1978). «Фрэнсис Исидро Эджворт, статистик». Журнал Королевского статистического общества, серия A. 141 (3): 287–322. дои : 10.2307/2344804. JSTOR  2344804.
  44. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года. Издательство Гарвардского университета. ISBN 978-0-674-40340-6.
  45. ^ Стиглер, Стивен М. (1999). Статистика на столе: история статистических понятий и методов . Издательство Гарвардского университета. ISBN 978-0-674-83601-3.
  46. ^ Хальд, Андерс (1998). История математической статистики с 1750 по 1930 годы . Нью-Йорк, штат Нью-Йорк: Уайли. ISBN 978-0-471-17912-2.
  47. ^ Хальд, Андерс (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам». Статистическая наука . 14 (2): 214–222. дои : 10.1214/ss/1009212248 . JSTOR  2676741.
  48. ^ Олдрич, Джон (1997). «РА Фишер и создание максимальной вероятности 1912–1922». Статистическая наука . 12 (3): 162–176. дои : 10.1214/ss/1030037906 . МР  1617519.

дальнейшее чтение

Внешние ссылки