Принцип правдоподобия

В статистике принцип правдоподобия — это утверждение, что при наличии статистической модели все данные в выборке , относящиеся к параметрам модели, содержатся в функции правдоподобия .

Функция правдоподобия возникает из функции плотности вероятности , рассматриваемой как функция аргумента параметризации распределения. Например, рассмотрим модель, которая дает функцию плотности вероятности наблюдаемой случайной величины как функцию параметра . Тогда для конкретного значения функция является функцией правдоподобия : она дает меру того, насколько «вероятно» любое конкретное значение , если мы знаем, что оно имеет значение . Функция плотности может быть плотностью по отношению к счетной мере, т.е. функцией вероятностной массы . $\;f_{X}(x\mid \theta )\;$ $\,X\,$ $\,\theta ~$ $\,x\,$ $\,X~$ $\,{\mathcal {L}}(\theta \mid x)=f_{X}(x\mid \theta )\;$ $\,\theta ~$ $\,\theta \,$ $\,X\,$ $\,x~$

Две функции правдоподобия эквивалентны , если одна из них скалярно кратна другой. ^[a]Принцип правдоподобия заключается в следующем: вся информация из данных, которая имеет отношение к выводам о значениях параметров модели, находится в классе эквивалентности, к которому принадлежит функция правдоподобия. Принцип сильного правдоподобия применяет тот же критерий к таким случаям, как последовательные эксперименты, когда доступная выборка данных является результатом применения правила остановки к наблюдениям, сделанным ранее в эксперименте. ^[1]

Пример

Предполагать

$\,X\,$ - количество успехов в двенадцати независимых испытаниях Бернулли с вероятностью успеха в каждом испытании, и $\,\theta \,$
$\,Y\,$ — это количество независимых испытаний Бернулли, необходимых для получения трех успехов, опять же с вероятностью успеха в каждом испытании ( для подбрасывания честной монеты). $\,\theta \,$ $\,\theta ={\tfrac {1}{2}}\;$

Тогда наблюдение, которое индуцирует функцию правдоподобия $\,X=3\,$

{\mathcal {L}}(\theta \mid X=3)={\binom {12}{3}}\,\theta ^{3}\,(1-\theta )^{9}=220\,\theta ^{3}\,(1-\theta )^{9}~

в то время как наблюдение, которое индуцирует функцию правдоподобия $\,Y=12\,$

{\mathcal {L}}(\theta \mid Y=12)={\binom {11}{2}}\,\theta ^{3}\,(1-\theta )^{9}=55\,\theta ^{3}\,(1-\theta )^{9}~

Принцип правдоподобия гласит, что, поскольку данные в обоих случаях одни и те же, выводы о значении также должны быть одинаковыми. Кроме того, все содержание выводов в данных о значении содержится в двух вероятностях и является одинаковым, если они пропорциональны друг другу. Так обстоит дело и в приведенном выше примере, что отражает тот факт, что разница между наблюдением и наблюдением заключается не в фактически собранных данных и не в поведении экспериментатора, а в двух разных планах эксперимента . $\,\theta \,$ $\,\theta \,$ $\,X=3\,$ $\,Y=12\,$

В частности, в одном случае заранее было принято решение попробовать двенадцать раз, независимо от результата; в другом случае предварительное решение заключалось в том, чтобы продолжать попытки до тех пор, пока не будут зафиксированы три успеха. Если вы поддерживаете принцип правдоподобия, то вывод о должен быть одинаковым для обоих случаев, поскольку две вероятности пропорциональны друг другу: за исключением постоянного ведущего фактора 220 против 55, две функции правдоподобия одинаковы. $\,\theta \,$

Однако эта эквивалентность не всегда имеет место. Использование частотных методов, включающих p-значения, приводит к разным выводам для двух вышеперечисленных случаев, ^[2] показывая, что результат частотных методов зависит от экспериментальной процедуры и, таким образом, нарушает принцип правдоподобия.

Закон вероятности

Родственной концепцией является закон правдоподобия , представление о том, что степень, в которой доказательства поддерживают одно значение параметра или гипотезу против другого, определяется соотношением их правдоподобий, их отношением правдоподобия . То есть,

\Lambda ={{\mathcal {L}}(a\mid X=x) \over {\mathcal {L}}(b\mid X=x)}={P(X=x\mid a) \over P(X=x\mid b)}

— это степень, в которой наблюдение $x$ поддерживает значение параметра или гипотезу $a$ против $b$ . Если это соотношение равно 1, доказательства безразличны; если больше 1, доказательства подтверждают значение $a$ по сравнению с $b$ ; а если меньше, то наоборот.

В байесовской статистике это соотношение известно как фактор Байеса , а правило Байеса можно рассматривать как применение закона правдоподобия к умозаключениям.

В частотном выводе отношение правдоподобия используется в тесте отношения правдоподобия , но также используются и другие тесты на неправдоподобие. Лемма Неймана-Пирсона утверждает, что тест отношения правдоподобия столь же статистически эффективен, как и самый мощный тест для сравнения двух простых гипотез на заданном уровне значимости , что дает частотное обоснование закона правдоподобия.

Сочетание принципа правдоподобия с законом правдоподобия приводит к тому, что значение параметра, которое максимизирует функцию правдоподобия, является значением, которое наиболее убедительно подтверждается доказательствами. На этом основан широко используемый метод максимального правдоподобия .

История

Принцип правдоподобия был впервые назван под этим названием в печати в 1962 году (Барнард и др., Бирнбаум и Сэвидж и др.), но аргументы в пользу того же принципа, безымянные, и использование этого принципа в приложениях восходят к работам Р. А. Фишера в 1920-е гг. Под этим названием закон правдоподобия был назван И. Хакингом (1965). Совсем недавно принцип правдоподобия как общий принцип вывода был поддержан А.В.Ф. Эдвардсом . Принцип правдоподобия был применен к философии науки Р. Ройяллом. ^[3]

Бирнбаум (1962) первоначально утверждал, что принцип правдоподобия вытекает из двух более примитивных и, казалось бы, разумных принципов: принципа обусловленности и принципа достаточности :

Принцип обусловленности гласит, что если эксперимент выбран случайным процессом, независимым от состояний природы , то только фактически проведенный эксперимент имеет отношение к выводам о . $\,\theta \,$ $\,\theta ~$
Принцип достаточности гласит, что если является достаточной статистикой для , и если в двух экспериментах с данными и мы имеем , то доказательства, данные в двух экспериментах, одинаковы. $\,T(X)\,$ $\,\theta \,$ $x_{1}$ $\,x_{2}\,$ $\,T(x_{1})=T(x_{2})\,$ $\,\theta \,$

Однако при дальнейшем рассмотрении Бирнбаум отверг как свой принцип обусловленности, так и принцип правдоподобия. ^[4] Адекватность первоначального аргумента Бирнбаума также оспаривалась другими ( подробности см. ниже ).

Аргументы за и против

Некоторые широко используемые методы традиционной статистики, например, многие тесты значимости , не соответствуют принципу правдоподобия.

Давайте кратко рассмотрим некоторые аргументы за и против принципа правдоподобия.

Оригинальный аргумент Бирнбаума

По мнению Гиера (1977), ^[5] Бирнбаум отверг ^[4] как свой собственный принцип обусловленности, так и принцип правдоподобия, поскольку они оба были несовместимы с тем, что он называл «концепцией достоверности статистических данных», которую Бирнбаум (1970) описывает как принятие «из методов подхода Неймана-Пирсона для систематической оценки и ограничения вероятностей (при соответствующих гипотезах) серьезно вводящих в заблуждение интерпретаций данных» ( ^[4] , стр. 1033). Концепция уверенности включает лишь ограниченные аспекты концепции вероятности и лишь некоторые применения концепции обусловленности. Позднее Бирнбаум отмечает, что именно формулировка безусловной эквивалентности в его версии принципа обусловленности 1962 года привела «к чудовищной аксиоме правдоподобия» ( ^[6] , с. 263).

Первоначальный аргумент Бирнбаума в пользу принципа правдоподобия также оспаривался другими статистиками, включая Акаике ^[7] , Эванса ^[8] и философами науки, включая Дебору Мэйо . ^[9]^[10] Давид указывает на фундаментальные различия между определениями принципа обусловленности Мэйо и Бирнбаума, утверждая, что аргумент Бирнбаума не может быть так легко отвергнут. ^[11] Новое доказательство принципа правдоподобия было предоставлено Ганденбергером, в котором рассматриваются некоторые контраргументы к первоначальному доказательству. ^[12]

Аргументы планирования эксперимента по принципу правдоподобия

Нереализованные события играют роль в некоторых распространенных статистических методах. Например, результат теста значимости зависит от значения p , вероятности того, что результат окажется экстремальным или более экстремальным, чем наблюдение, и эта вероятность может зависеть от плана эксперимента. Поэтому в той степени, в которой принимается принцип правдоподобия, такие методы отвергаются.

Некоторые классические тесты значимости не основаны на вероятности. Ниже приведены простые и более сложные примеры, в которых используется часто цитируемый пример, называемый проблемой необязательной остановки .

Пример 1 – простая версия

Предположим, я говорю вам, что подбросил монету 12 раз и при этом заметил 3 орла. Вы можете сделать некоторый вывод о вероятности выпадения орла и о том, была ли монета честной.

Предположим, теперь я говорю, что подбрасывал монету до тех пор, пока не увидел 3 орла, и подбросил ее 12 раз. Сделаете ли вы теперь какой-то другой вывод?

Функция правдоподобия в обоих случаях одинакова: она пропорциональна

p^{3}(1-p)^{9}~

Итак, согласно принципу правдоподобия , в любом случае вывод должен быть одинаковым.

Пример 2 – более сложная версия той же статистики.

Предположим, несколько ученых оценивают вероятность определенного результата (который мы будем называть «успехом») в экспериментальных испытаниях. Принято считать, что если нет предвзятости к успеху или неудаче, то вероятность успеха будет равна половине. Адам, учёный, провел 12 испытаний и добился 3 успеха и 9 неудач. Одним из таких успехов стало 12-е и последнее наблюдение. Затем Адам покинул лабораторию.

Билл, коллега из той же лаборатории, продолжил работу Адама и опубликовал результаты Адама вместе с тестом значимости. Он проверил нулевую гипотезу о том, что $p$ , вероятность успеха, равна половине, а не $p < 0,5$ . Если мы проигнорируем информацию о том, что третий успех был 12-м и последним наблюдением, вероятность наблюдаемого результата, что из 12 попыток 3 или меньше (т.е. более экстремальные) были успешными, если $H$ ₀ истинно, будет равна

\left[{12 \choose 3}+{12 \choose 2}+{12 \choose 1}+{12 \choose 0}\right]\left({1 \over 2}\right)^{12}~

который $.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}299/4096= 7,3%$ . Таким образом, нулевая гипотеза не отвергается на уровне значимости 5%, если мы игнорируем знание о том, что третий успех был 12-м результатом.

Однако обратите внимание, что этот первый расчет также включает в себя 12 последовательностей длиной в токен, которые заканчиваются решкой, что противоречит постановке задачи!

Если мы повторим этот расчет, мы поймем, что вероятность согласно нулевой гипотезе должна быть равна вероятности того, что честная монета выпадет 2 или меньше орла в 11 попытках, умноженной на вероятность того, что честная монета выпадет орел в 12-м испытании:

\left[{11 \choose 2}+{11 \choose 1}+{11 \choose 0}\right]\left({1 \over 2}\right)^{11}{1 \over 2}~

который $67 / 2048 1 / 2 "=" 67 / 4096 = 1,64%$ . Сейчас результат статистически значим на уровне $5%$ .

Шарлотта, другой ученый, читает статью Билла и пишет письмо, в котором сообщает, что вполне возможно, что Адам продолжал попытки, пока не добился 3 успехов, и в этом случае вероятность необходимости проведения 12 или более экспериментов определяется выражением

\left[{11 \choose 2}+{11 \choose 1}+{11 \choose 0}\right]\left({1 \over 2}\right)^{11}{1 \over 2}~

который $134 / 4096 1 / 2 = 1,64%$ . Сейчас результат статистически значим на уровне $5%$ . Обратите внимание, что между двумя последними правильными анализами нет противоречия; оба вычисления верны и приводят к одному и тому же значению p.

Для этих ученых то, является ли результат значимым или нет, зависит не от плана эксперимента, а от вероятности (в смысле функции правдоподобия) значения параметра, 1/2 .

Краткое изложение иллюстрированных проблем

Результаты такого рода рассматриваются некоторыми как аргументы против принципа правдоподобия. Для других это иллюстрирует ценность принципа правдоподобия и является аргументом против тестов значимости.

Похожие темы возникают при сравнении точного критерия Фишера с критерием хи-квадрат Пирсона .

История с вольтметром

Аргумент в пользу принципа правдоподобия приводит Эдвардс в своей книге «Правдоподобие» . Он цитирует следующую историю Дж. У. Пратта, приведенную здесь в несколько сжатом виде. Обратите внимание, что функция правдоподобия зависит только от того, что произошло на самом деле, а не от того, что могло бы произойти.

Инженер берет случайную выборку электронных ламп и измеряет их напряжения. Диапазон измерений от 75 до 99 Вольт. Статистик вычисляет выборочное среднее значение и доверительный интервал для истинного среднего значения. Позже статистик обнаруживает, что вольтметр показывает только 100 Вольт, так что технически население выглядит « цензурированным ». Если статистик ортодоксален, это требует нового анализа.

Однако инженер говорит, что у него есть еще один счетчик, показывающий 1000 Вольт, который он бы использовал, если бы какое-либо напряжение превышало 100 В. Это облегчение для статистика, потому что это означает, что население все-таки фактически не подвергалось цензуре. Но позже статистик приходит к выводу, что второй счетчик не работал, когда проводились измерения. Инженер сообщает статистику, что он не будет поддерживать первоначальные измерения до тех пор, пока не будет отремонтирован второй счетчик, и статистик сообщает ему, что необходимы новые измерения. Инженер поражен. « Далее вы спросите о моем осциллографе! »

Возврат к примеру 2 из предыдущего раздела.

Эту историю можно перевести на приведенное выше правило остановки Адама следующим образом: Адам остановился сразу после трех успехов, потому что его босс Билл поручил ему сделать это. После публикации Биллом статистического анализа Адам понимает, что он пропустил более позднее указание Билла провести вместо этого 12 испытаний и что статья Билла основана на этой второй инструкции. Адам очень рад, что свои 3 успеха он получил ровно после 12 попыток, и объясняет своей подруге Шарлотте, что по стечению обстоятельств он выполнил вторую инструкцию. Позже Адам с удивлением узнает о письме Шарлотты, объясняя, что теперь результат значителен.

Смотрите также

Примечания

^ Геометрически, если они занимают одну и ту же точку проективного пространства .

Внешние ссылки

Энтони В. Ф. Эдвардс. "Вероятность".
Джефф Миллер. Самые ранние известные варианты использования некоторых математических слов (L)
Джон Олдрич. Правдоподобие и вероятность в статистических методах Р. А. Фишера для научных работников