Функция правдоподобия (часто называемая просто правдоподобием ) измеряет, насколько хорошо статистическая модель объясняет наблюдаемые данные , вычисляя вероятность увидеть эти данные при различных значениях параметров модели. Она строится на основе совместного распределения вероятностей случайной величины , которая (предположительно) сгенерировала наблюдения. [1] [2] [3] При оценке на фактических точках данных она становится функцией исключительно параметров модели.
При оценке максимального правдоподобия аргумент, который максимизирует функцию правдоподобия, служит точечной оценкой для неизвестного параметра, в то время как информация Фишера (часто аппроксимируемая матрицей Гессе правдоподобия в максимуме) дает представление о точности оценки .
Напротив, в байесовской статистике оценка интереса является обратной величиной правдоподобия, так называемой апостериорной вероятностью параметра с учетом наблюдаемых данных, которая вычисляется с помощью правила Байеса . [4]
Функция правдоподобия, параметризованная (возможно, многомерным) параметром , обычно определяется по-разному для дискретных и непрерывных распределений вероятностей (более общее определение обсуждается ниже). При наличии плотности вероятности или функции массы
где - реализация случайной величины , функция правдоподобия часто записывается
Другими словами, когда рассматривается как функция от с фиксированным, это функция плотности вероятности, а когда рассматривается как функция от с фиксированным, это функция правдоподобия. В частотной парадигме обозначение часто избегается и вместо этого или используется для указания того, что рассматривается как фиксированная неизвестная величина, а не как случайная переменная, обусловленная.
Функция правдоподобия не определяет вероятность того, что является правдой, учитывая наблюдаемую выборку . Такая интерпретация является распространенной ошибкой, с потенциально катастрофическими последствиями (см. Ошибка прокурора ).
Пусть — дискретная случайная величина с функцией вероятности массы, зависящей от параметра . Тогда функция
рассматриваемая как функция от , является функцией правдоподобия , учитывая результат случайной величины . Иногда вероятность "значения для значения параметра " записывается как P ( X = x | θ ) или P ( X = x ; θ ) . Правдоподобие - это вероятность того, что определенный результат наблюдается, когда истинное значение параметра равно , эквивалентно массе вероятности на ; это не плотность вероятности по параметру . Правдоподобие , , не следует путать с , которое является апостериорной вероятностью при данных .
Рассмотрим простую статистическую модель подбрасывания монеты: один параметр , который выражает «честность» монеты. Параметр — это вероятность того, что монета упадет орлом вверх («H») при подбрасывании. может принимать любое значение в диапазоне от 0,0 до 1,0. Для совершенно честной монеты , .
Представьте себе, что вы подбрасываете честную монету дважды и наблюдаете два выпадения орла в двух бросках («HH»). Если предположить, что каждое последующее подбрасывание монеты является iid , то вероятность наблюдения HH равна
Эквивалентно, вероятность наблюдения "HH" при условии , что
Это не то же самое, что сказать, что , вывод, к которому можно прийти только с помощью теоремы Байеса, учитывая знания о предельных вероятностях и .
Теперь предположим, что монета не является честной монетой, а вместо этого . Тогда вероятность выпадения двух орлов при двух подбрасываниях равна
Следовательно
В более общем смысле, для каждого значения мы можем вычислить соответствующее правдоподобие. Результат таких вычислений показан на рисунке 1. Интеграл по [0, 1] равен 1/3; правдоподобия не обязательно должны интегрироваться или суммироваться до единицы по пространству параметров.
Пусть будет случайной величиной, следующей абсолютно непрерывному распределению вероятностей с функцией плотности (функцией от ), которая зависит от параметра . Тогда функция
рассматриваемая как функция от , является функцией правдоподобия (от , учитывая результат ). Опять же, не является функцией плотности вероятности или массовой функцией над , несмотря на то, что является функцией от , учитывая наблюдение .
Использование плотности вероятности при указании функции правдоподобия выше оправдано следующим образом. При наличии наблюдения вероятность для интервала , где — константа, определяется выражением . Заметим, что поскольку — положительно и постоянно. Поскольку
где - функция плотности вероятности, следует, что
Первая фундаментальная теорема исчисления гласит, что
Затем
Следовательно, и, таким образом, максимизация плотности вероятности при равносильна максимизации вероятности конкретного наблюдения .
В теории вероятностей с мерой функция плотности определяется как производная Радона–Никодима распределения вероятностей относительно общей доминирующей меры. [5] Функция правдоподобия — это эта плотность, интерпретируемая как функция параметра, а не случайной величины. [6] Таким образом, мы можем построить функцию правдоподобия для любого распределения, будь то дискретное, непрерывное, смешанное или иное. (Вероятности сравнимы, например, для оценки параметров, только если они являются производными Радона–Никодима относительно одной и той же доминирующей меры.)
Приведенное выше обсуждение вероятности для дискретных случайных величин использует меру подсчета , при которой плотность вероятности любого результата равна вероятности этого результата.
Вышесказанное можно расширить простым способом, чтобы рассмотреть распределения, которые содержат как дискретные, так и непрерывные компоненты. Предположим, что распределение состоит из ряда дискретных вероятностных масс и плотности , где сумма всех ' , добавленных к интегралу от , всегда равна единице. Предполагая, что можно отличить наблюдение, соответствующее одной из дискретных вероятностных масс, от наблюдения, соответствующего компоненту плотности, с функцией правдоподобия для наблюдения из непрерывного компонента можно работать так, как показано выше. Для наблюдения из дискретного компонента функция правдоподобия для наблюдения из дискретного компонента просто равна , где - индекс дискретной вероятностной массы, соответствующей наблюдению , поскольку максимизация вероятностной массы (или вероятности) при означает максимизацию правдоподобия конкретного наблюдения.
Тот факт, что функция правдоподобия может быть определена таким образом, что включает в себя несоизмеримые вклады (плотность и масса вероятности), вытекает из способа, которым функция правдоподобия определяется с точностью до константы пропорциональности, где эта «константа» может изменяться вместе с наблюдением , но не вместе с параметром .
В контексте оценки параметров обычно предполагается, что функция правдоподобия подчиняется определенным условиям, известным как условия регулярности. Эти условия предполагаются в различных доказательствах, включающих функции правдоподобия, и должны быть проверены в каждом конкретном приложении. Для оценки максимального правдоподобия существование глобального максимума функции правдоподобия имеет первостепенное значение. По теореме об экстремальном значении достаточно, чтобы функция правдоподобия была непрерывной на компактном пространстве параметров для существования оценки максимального правдоподобия. [7] В то время как предположение о непрерывности обычно выполняется, предположение о компактности пространства параметров часто не выполняется, поскольку границы истинных значений параметров могут быть неизвестны. В этом случае вогнутость функции правдоподобия играет ключевую роль.
Более конкретно, если функция правдоподобия дважды непрерывно дифференцируема на k -мерном пространстве параметров, которое предполагается открытым связным подмножеством , то существует единственный максимум, если матрица вторых парциальных функций отрицательно определена для каждого , при котором градиент обращается в нуль, и если функция правдоподобия стремится к константе на границе пространства параметров, т. е. которая может включать точки на бесконечности, если неограничена. Мякеляйнен и соавторы доказывают этот результат, используя теорию Морса , неформально апеллируя к свойству горного перевала. [8] Маскаренхас переформулирует свое доказательство, используя теорему о горном перевале . [9]
В доказательствах согласованности и асимптотической нормальности оценки максимального правдоподобия делаются дополнительные предположения о плотностях вероятности, которые формируют основу конкретной функции правдоподобия. Эти условия были впервые установлены Чандой. [10] В частности, для почти всех и для всех существуют для всех , чтобы гарантировать существование разложения Тейлора . Во-вторых, для почти всех и для каждого должно быть так, что где таково, что Эта ограниченность производных необходима для того, чтобы разрешить дифференцирование под знаком интеграла . И, наконец, предполагается, что информационная матрица , положительно определена и конечна. Это гарантирует, что оценка имеет конечную дисперсию. [11]
Вышеуказанные условия достаточны, но не необходимы. То есть модель, которая не удовлетворяет этим условиям регулярности, может иметь или не иметь оценку максимального правдоподобия свойств, упомянутых выше. Кроме того, в случае ненезависимо или неидентично распределенных наблюдений может потребоваться предположить дополнительные свойства.
В байесовской статистике почти идентичные условия регулярности налагаются на функцию правдоподобия, чтобы доказать асимптотическую нормальность апостериорной вероятности , [12] [13] и, следовательно, оправдать приближение Лапласа апостериорной вероятности в больших выборках. [14]
Отношение правдоподобия — это отношение любых двух указанных вероятностей, часто записываемое как:
Отношение правдоподобия играет центральную роль в статистике правдоподобия : закон правдоподобия гласит, что степень, в которой данные (рассматриваемые как доказательства) подтверждают одно значение параметра по сравнению с другим, измеряется отношением правдоподобия.
В частотном выводе отношение правдоподобия является основой для тестовой статистики , так называемого теста отношения правдоподобия . Согласно лемме Неймана–Пирсона , это самый мощный тест для сравнения двух простых гипотез на заданном уровне значимости . Многочисленные другие тесты можно рассматривать как тесты отношения правдоподобия или их приближения. [15] Асимптотическое распределение логарифмического отношения правдоподобия, рассматриваемого как тестовая статистика, задается теоремой Уилкса .
Отношение правдоподобия также имеет центральное значение в байесовском выводе , где оно известно как фактор Байеса и используется в правиле Байеса . Выражаясь в терминах шансов , правило Байеса гласит, что апостериорные шансы двух альтернатив, и , при данном событии , равны априорным шансам, умноженным на отношение правдоподобия. Как уравнение:
Отношение правдоподобия не используется напрямую в статистике на основе AIC. Вместо этого используется относительное правдоподобие моделей (см. ниже).
В доказательной медицине отношения правдоподобия используются в диагностических тестах для оценки ценности проведения диагностического теста .
Поскольку фактическое значение функции правдоподобия зависит от выборки, часто бывает удобно работать со стандартизированной мерой. Предположим, что максимальная оценка правдоподобия для параметра θ равна . Относительные правдоподобия других значений θ можно найти, сравнив правдоподобия этих других значений с правдоподобием . Относительное правдоподобие θ определяется как [16] [17] [18] [19] [20] Таким образом, относительное правдоподобие — это отношение правдоподобия (обсуждавшееся выше) с фиксированным знаменателем . Это соответствует стандартизации правдоподобия, чтобы иметь максимум 1.
Область правдоподобия — это множество всех значений θ , относительная вероятность которых больше или равна заданному порогу. В процентном отношении область правдоподобия p % для θ определяется как [16] [18] [21]
Если θ — это один действительный параметр, область правдоподобия p % обычно будет включать интервал действительных значений. Если область включает интервал, то она называется интервалом правдоподобия . [16] [18] [22]
Интервалы правдоподобия и, в более общем смысле, области правдоподобия используются для оценки интервалов в статистике правдоподобия: они похожи на доверительные интервалы в частотной статистике и достоверные интервалы в байесовской статистике. Интервалы правдоподобия интерпретируются непосредственно в терминах относительного правдоподобия, а не в терминах вероятности покрытия (частотности) или апостериорной вероятности (байесианства).
При наличии модели интервалы правдоподобия можно сравнить с доверительными интервалами. Если θ — один действительный параметр, то при определенных условиях интервал правдоподобия 14,65% (вероятность около 1:7) для θ будет таким же, как доверительный интервал 95% (вероятность покрытия 19/20). [16] [21] В несколько иной формулировке, подходящей для использования логарифмических правдоподобий (см. теорему Уилкса ), тестовая статистика в два раза больше разницы в логарифмических правдоподобиях, а распределение вероятностей тестовой статистики приблизительно равно распределению хи-квадрат со степенями свободы (df), равными разнице в df между двумя моделями (следовательно, интервал правдоподобия e −2 такой же, как доверительный интервал 0,954; предполагая, что разница в df равна 1). [21] [22]
Во многих случаях вероятность является функцией более чем одного параметра, но интерес сосредоточен на оценке только одного или, самое большее, нескольких из них, а остальные рассматриваются как мешающие параметры . Было разработано несколько альтернативных подходов для устранения таких мешающих параметров, так что вероятность может быть записана как функция только интересующего параметра (или параметров): основными подходами являются профильные, условные и предельные вероятности. [23] [24] Эти подходы также полезны, когда высокоразмерную поверхность вероятности необходимо свести к одному или двум интересующим параметрам, чтобы построить график .
Можно уменьшить размерность, концентрируя функцию правдоподобия для подмножества параметров, выражая мешающие параметры как функции интересующих параметров и заменяя их в функции правдоподобия. [25] [26] В общем случае, для функции правдоподобия, зависящей от вектора параметров , который может быть разделен на , и где соответствие может быть определено явно, концентрация уменьшает вычислительную нагрузку исходной задачи максимизации. [27]
Например, в линейной регрессии с нормально распределенными ошибками, вектор коэффициентов может быть разделен на (и, следовательно, матрица плана ). Максимизация относительно дает оптимальную функцию значения . Используя этот результат, можно вывести оценку максимального правдоподобия для как , где — матрица проекции . Этот результат известен как теорема Фриша–Во–Ловелла .
Поскольку графически процедура концентрации эквивалентна разрезанию поверхности правдоподобия вдоль хребта значений мешающего параметра , который максимизирует функцию правдоподобия, создавая изометрический профиль функции правдоподобия для заданного , результат этой процедуры также известен как профильное правдоподобие . [28] [29] Помимо графического представления, профильное правдоподобие также может использоваться для вычисления доверительных интервалов , которые часто обладают лучшими свойствами для малых выборок, чем те, которые основаны на асимптотических стандартных ошибках, вычисленных из полного правдоподобия. [30] [31]
Иногда можно найти достаточную статистику для мешающих параметров, и обусловливание этой статистики приводит к вероятности, которая не зависит от мешающих параметров. [32]
Один из примеров встречается в таблицах 2×2, где обусловливание всех четырех маргинальных итогов приводит к условному правдоподобию, основанному на нецентральном гипергеометрическом распределении . Эта форма обусловливания также является основой для точного теста Фишера .
Иногда мы можем удалить мешающие параметры, рассматривая вероятность, основанную только на части информации в данных, например, используя набор рангов, а не числовые значения. Другой пример возникает в линейных смешанных моделях , где рассмотрение вероятности для остатков только после подгонки фиксированных эффектов приводит к оценке максимального остаточного правдоподобия компонентов дисперсии.
Частичное правдоподобие представляет собой адаптацию полного правдоподобия таким образом, что в нем присутствует только часть параметров (параметров, представляющих интерес). [33] Это ключевой компонент модели пропорциональных опасностей : при использовании ограничения на функцию опасности вероятность не содержит форму опасности с течением времени.
Вероятность, при условии двух или более независимых событий , является произведением вероятностей каждого из отдельных событий: Это следует из определения независимости в вероятности: вероятности двух независимых событий, происходящих при заданной модели, являются произведением вероятностей.
Это особенно важно, когда события происходят из независимых и одинаково распределенных случайных величин , таких как независимые наблюдения или выборка с заменой . В такой ситуации функция правдоподобия раскладывается на произведение отдельных функций правдоподобия.
Пустое произведение имеет значение 1, что соответствует вероятности, равной 1, при отсутствии события: до появления каких-либо данных вероятность всегда равна 1. Это похоже на равномерное априорное распределение в байесовской статистике, но в статистике правдоподобия это не неправильное априорное распределение , поскольку вероятности не интегрированы.
Функция логарифмического правдоподобия — это логарифм функции правдоподобия, часто обозначаемый строчной буквой l или , в отличие от заглавной буквы L или для правдоподобия. Поскольку логарифмы являются строго возрастающими функциями, максимизация правдоподобия эквивалентна максимизации логарифмического правдоподобия. Но для практических целей удобнее работать с функцией логарифмического правдоподобия при оценке максимального правдоподобия , в частности, поскольку большинство распространенных распределений вероятностей — в частности, экспоненциальное семейство — являются только логарифмически вогнутыми , [34] [35] и вогнутость целевой функции играет ключевую роль в максимизации .
Учитывая независимость каждого события, общая логарифмическая вероятность пересечения равна сумме логарифмических вероятностей отдельных событий. Это аналогично тому, что общая логарифмическая вероятность является суммой логарифмических вероятностей отдельных событий. В дополнение к математическому удобству от этого, процесс сложения логарифмической вероятности имеет интуитивную интерпретацию, часто выражаемую как «поддержка» от данных. Когда параметры оцениваются с использованием логарифмической вероятности для оценки максимального правдоподобия , каждая точка данных используется путем добавления к общей логарифмической вероятности. Поскольку данные можно рассматривать как доказательство, которое подтверждает оцененные параметры, этот процесс можно интерпретировать как «поддержка от независимых свидетельств добавляется», а логарифмическая вероятность является «весом доказательства». Интерпретируя отрицательную логарифмическую вероятность как информационное содержание или неожиданность , поддержка (логарифмическая вероятность) модели при условии события является отрицательным значением неожиданности события при условии модели: модель поддерживается событием в той степени, в которой событие не является неожиданным при условии модели.
Логарифм отношения правдоподобия равен разности логарифмов правдоподобий:
Так же как вероятность при отсутствии события равна 1, логарифм правдоподобия при отсутствии события равен 0, что соответствует значению пустой суммы: без каких-либо данных нет никакой поддержки для какой-либо модели.
График логарифмического правдоподобия называется кривой поддержки (в одномерном случае). [36] В многомерном случае концепция обобщается в опорную поверхность над пространством параметров . Она имеет отношение к поддержке распределения , но отличается от нее .
Термин был введен А. В. Ф. Эдвардсом [36] в контексте проверки статистических гипотез , то есть того, «поддерживают» ли данные одну проверяемую гипотезу (или значение параметра) больше, чем любую другую.
Построенная логарифмическая функция правдоподобия используется при вычислении оценки ( градиента логарифмической функции правдоподобия) и информации Фишера (кривизны логарифмической функции правдоподобия). Таким образом, график имеет прямую интерпретацию в контексте оценки максимального правдоподобия и тестов отношения правдоподобия .
Если функция логарифмического правдоподобия является гладкой , ее градиент относительно параметра, известный как оценка и записанный , существует и допускает применение дифференциального исчисления . Основной способ максимизации дифференцируемой функции — найти стационарные точки (точки, в которых производная равна нулю); поскольку производная суммы — это просто сумма производных, но производная произведения требует правила произведения , проще вычислить стационарные точки логарифмического правдоподобия независимых событий, чем вероятности независимых событий.
Уравнения, определяемые стационарной точкой функции оценки, служат в качестве оценочных уравнений для оценщика максимального правдоподобия. В этом смысле оценщик максимального правдоподобия неявно определяется значением в обратной функции , где — d -мерное евклидово пространство , а — пространство параметров. Используя теорему об обратной функции , можно показать, что хорошо определено в открытой окрестности около с вероятностью, стремящейся к единице, и является последовательной оценкой . Как следствие, существует последовательность такая, что асимптотически почти наверняка , и . [37] Аналогичный результат можно получить, используя теорему Ролля . [38] [39]
Вторая производная, оцененная при , известная как информация Фишера , определяет кривизну поверхности правдоподобия [40] и, таким образом, указывает на точность оценки. [41]
Логарифмическое правдоподобие также особенно полезно для экспоненциальных семейств распределений, которые включают в себя многие из общих параметрических распределений вероятностей . Функция распределения вероятностей (и, следовательно, функция правдоподобия) для экспоненциальных семейств содержит произведения факторов, включающих возведение в степень . Логарифм такой функции представляет собой сумму произведений, которую снова легче дифференцировать, чем исходную функцию.
Экспоненциальное семейство — это семейство, функция плотности вероятности которого имеет вид (для некоторых функций запись для внутреннего произведения ):
Каждый из этих терминов имеет интерпретацию, [a] , но простой переход от вероятности к правдоподобию и взятие логарифмов дает сумму:
Каждый из них и соответствует изменению координат , поэтому в этих координатах логарифм правдоподобия экспоненциального семейства определяется простой формулой:
Другими словами, логарифмическое правдоподобие экспоненциального семейства является внутренним произведением натурального параметра и достаточной статистики , за вычетом нормировочного фактора ( логарифмической функции разделения ) . Таким образом, например, оценка максимального правдоподобия может быть вычислена путем взятия производных достаточной статистики T и логарифмической функции разделения A .
Гамма -распределение представляет собой экспоненциальное семейство с двумя параметрами и . Функция правдоподобия имеет вид
Нахождение оценки максимального правдоподобия для одного наблюдаемого значения выглядит довольно устрашающе. С его логарифмом работать гораздо проще:
Чтобы максимизировать логарифмическое правдоподобие, сначала возьмем частную производную по :
Если имеется ряд независимых наблюдений , то совместная логарифмическая функция правдоподобия будет суммой индивидуальных логарифмических функций правдоподобия, а производная этой суммы будет суммой производных каждой индивидуальной логарифмической функции правдоподобия:
Для завершения процедуры максимизации совместного логарифмического правдоподобия уравнение приравнивается к нулю и решается относительно :
Здесь обозначает оценку максимального правдоподобия, а — выборочное среднее значение наблюдений.
Термин «вероятность» используется в английском языке по крайней мере с конца среднеанглийского . [42] Его формальное использование для обозначения определенной функции в математической статистике было предложено Рональдом Фишером [43] в двух исследовательских работах, опубликованных в 1921 [44] и 1922 годах . [45] В работе 1921 года было введено то, что сегодня называется «интервалом правдоподобия»; в статье 1922 года был введен термин « метод максимального правдоподобия ». Цитата Фишера:
«[В] 1922 году я предложил термин «вероятность», ввиду того, что по отношению к [параметру] это не вероятность и не подчиняется законам вероятности, и в то же время это имеет к проблеме рационального выбора среди возможных значений [параметра] отношение, подобное тому, которое вероятность имеет к проблеме предсказания событий в азартных играх. . . . Однако, в то время как по отношению к психологическому суждению вероятность имеет некоторое сходство с вероятностью, эти два понятия совершенно различны...» [46]
Понятие правдоподобия не следует путать с вероятностью, как отметил сэр Рональд Фишер.
Я подчеркиваю это, потому что, несмотря на акцент, который я всегда делал на различии между вероятностью и правдоподобием, все еще существует тенденция рассматривать вероятность так, как будто это разновидность вероятности. Первый результат заключается в том, что существуют две различные меры рациональной веры, подходящие для разных случаев. Зная совокупность, мы можем выразить наше неполное знание или ожидание относительно выборки в терминах вероятности; зная выборку, мы можем выразить наше неполное знание о совокупности в терминах правдоподобия. [47]
Изобретение Фишером статистической вероятности было реакцией на более раннюю форму рассуждения, называемую обратной вероятностью . [48] Его использование термина «вероятность» зафиксировало значение этого термина в математической статистике.
AWF Edwards (1972) установил аксиоматическую основу для использования логарифмического отношения правдоподобия как меры относительной поддержки одной гипотезы против другой. Функция поддержки тогда является натуральным логарифмом функции правдоподобия. Оба термина используются в филогенетике , но не были приняты в общей трактовке темы статистических доказательств. [49]
Среди статистиков нет единого мнения о том, какой должна быть основа статистики . Для основы были предложены четыре основные парадигмы: частотность , байесианство , правдоподобие и AIC-based . [50] Для каждой из предложенных основ интерпретация правдоподобия различна. Четыре интерпретации описаны в подразделах ниже.
В байесовском выводе , хотя можно говорить о правдоподобии любого предложения или случайной величины при заданной другой случайной величине: например, о правдоподобии значения параметра или статистической модели (см. предельное правдоподобие ) при заданных данных или других доказательствах, [51] [52] [53] [54] функция правдоподобия остается той же сущностью, с дополнительными интерпретациями (i) условной плотности данных при заданном параметре (поскольку параметр тогда является случайной величиной) и (ii) меры или количества информации, приносимой данными о значении параметра или даже модели. [51] [52] [53] [54] [55] Из-за введения вероятностной структуры в пространство параметров или в набор моделей возможно, что значение параметра или статистическая модель имеют большое значение правдоподобия для заданных данных, но при этом имеют низкую вероятность , или наоборот. [53] [55] Это часто имеет место в медицинских контекстах. [56] Согласно правилу Байеса , вероятность, рассматриваемая как условная плотность, может быть умножена на априорную плотность вероятности параметра, а затем нормализована, чтобы получить апостериорную плотность вероятности . [51] [52] [53] [54] [55] В более общем смысле, вероятность неизвестной величины при наличии другой неизвестной величины пропорциональна вероятности при наличии . [51] [52] [53] [54] [55]
В частотной статистике функция правдоподобия сама по себе является статистикой , которая суммирует одну выборку из популяции, расчетное значение которой зависит от выбора нескольких параметров θ 1 ... θ p , где p — количество параметров в некоторой уже выбранной статистической модели . Значение правдоподобия служит показателем качества выбора, используемого для параметров, а набор параметров с максимальным правдоподобием является наилучшим выбором, учитывая имеющиеся данные.
Конкретный расчет вероятности — это вероятность того, что наблюдаемая выборка будет назначена, предполагая, что выбранная модель и значения нескольких параметров θ дают точное приближение распределения частот популяции, из которой была взята наблюдаемая выборка. Эвристически имеет смысл, что хороший выбор параметров — это те, которые делают фактически наблюдаемую выборку максимально возможной post-hoc вероятностью того, что она произошла. Теорема Уилкса количественно определяет эвристическое правило, показывая, что разница в логарифме вероятности, генерируемой значениями параметров оценки, и логарифма вероятности, генерируемой «истинными» (но неизвестными) значениями параметров популяции, асимптотически распределена по закону χ 2 .
Оценка максимального правдоподобия каждой независимой выборки является отдельной оценкой «истинного» набора параметров, описывающего выбранную популяцию. Последовательные оценки из многих независимых выборок будут группироваться вместе с «истинным» набором значений параметров популяции, скрытым где-то в их середине. Разность логарифмов максимального правдоподобия и правдоподобий смежных наборов параметров может быть использована для построения доверительной области на графике, координатами которого являются параметры θ 1 ... θ p . Область окружает оценку максимального правдоподобия, и все точки (наборы параметров) внутри этой области отличаются максимум по логарифмическому правдоподобию на некоторое фиксированное значение. Распределение χ 2 , заданное теоремой Уилкса, преобразует различия логарифмического правдоподобия области в «уверенность» в том, что «истинный» набор параметров популяции находится внутри. Искусство выбора фиксированной разницы логарифмического правдоподобия заключается в том, чтобы сделать уверенность приемлемо высокой, сохраняя при этом область приемлемо малой (узкий диапазон оценок).
По мере того, как наблюдается больше данных, вместо того, чтобы использовать их для создания независимых оценок, их можно объединить с предыдущими выборками, чтобы создать одну объединенную выборку, и эту большую выборку можно использовать для новой оценки максимального правдоподобия. По мере увеличения размера объединенной выборки размер области правдоподобия с той же уверенностью уменьшается. В конце концов, либо размер области доверия становится очень близким к одной точке, либо вся популяция была опробована; в обоих случаях оцененный набор параметров по сути совпадает с набором параметров популяции.
В парадигме AIC вероятность интерпретируется в контексте теории информации . [57] [58] [59]