Градиент функции правдоподобия
В статистике информатор [1] (или оценка ) представляет собой градиент логарифмической функции правдоподобия относительно вектора параметров . Оценка, оцениваемая в конкретной точке вектора параметров, указывает на крутизну функции логарифмического правдоподобия и, следовательно, на чувствительность к бесконечно малым изменениям значений параметров. Если функция логарифмического правдоподобия непрерывна в пространстве параметров , оценка будет равна нулю при локальном максимуме или минимуме ; этот факт используется при оценке максимального правдоподобия , чтобы найти значения параметров, которые максимизируют функцию правдоподобия.
Поскольку оценка является функцией наблюдений , которые подвержены ошибкам выборки , она поддается тестовой статистике , известной как тест оценки , в которой параметр удерживается на определенном значении. Кроме того, отношение двух функций правдоподобия , оцененных при двух различных значениях параметров, можно понимать как определенный интеграл оценочной функции. [2]
Определение
Оценка представляет собой градиент (вектор частных производных ) натурального логарифма функции правдоподобия по отношению к m -мерному вектору параметров .![{\displaystyle \log {\mathcal {L}}(\theta;x)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s(\theta;x)\equiv {\frac {\partial \log {\mathcal {L}}(\theta;x)}{\partial \theta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Это дифференцирование дает вектор-строку для каждого значения и и указывает чувствительность вероятности (ее производная, нормализованная по ее значению).![{\displaystyle (1\times м)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle х}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
В более старой литературе [ нужна ссылка ] «линейная оценка» может относиться к оценке относительно бесконечно малого перевода данной плотности. Это соглашение возникло в то время, когда основным интересующим параметром было среднее значение или медиана распределения. В этом случае вероятность наблюдения определяется плотностью формы [ нужны разъяснения ] . «Линейная оценка» тогда определяется как![{\displaystyle {\mathcal {L}}(\theta;X)=f(X+\theta)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s_{\rm {linear}}={\frac {\partial }{\partial X}}\log f(X)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Характеристики
Иметь в виду
Хотя оценка является функцией , она также зависит от наблюдений, при которых оценивается функция правдоподобия, и ввиду случайного характера выборки можно взять ее ожидаемое значение по выборочному пространству . При определенных условиях регулярности функций плотности случайных величин [3] [4] ожидаемое значение оценки, оцененное при истинном значении параметра , равно нулю. Чтобы убедиться в этом, перепишем функцию правдоподобия как функцию плотности вероятности и обозначим выборочное пространство . Затем:![{\ displaystyle \ theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {x} =(x_{1},x_{2},\ldots x_{T})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\mathcal {X}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\begin{aligned}\operatorname {E} (s\mid \theta)&=\int _ {\mathcal {X}}f(x;\theta ){\frac {\partial }{\partial \theta }}\log {\mathcal {L}}(\theta ;x)\,dx\\[6pt]&=\int _{\mathcal {X}}f(x;\theta ){\frac { 1}{f(x;\theta )}}{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx=\int _{\mathcal {X}}{\frac {\partial f(x;\theta)}{\partial \theta }}\,dx\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Предполагаемые условия регулярности допускают замену производной и интеграла (см. интегральное правило Лейбница ), поэтому приведенное выше выражение можно переписать как [ необходимы пояснения ]
![{\displaystyle {\frac {\partial }{\partial \theta }}\int _ {\mathcal {X}}f(x;\theta)\,dx={\frac {\partial }{\partial \theta }}1=0.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Стоит переформулировать приведенный выше результат словами: ожидаемое значение оценки при истинном значении параметра равно нулю. Таким образом, если бы кто-то неоднократно производил выборку из некоторого распределения и неоднократно вычислял оценку, то среднее значение оценок асимптотически стремилось бы к нулю .![{\ displaystyle \ theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Дисперсия
Дисперсия оценки может быть получена из приведенного выше выражения для ожидаемого значения.![{\displaystyle \operatorname {Var} (s(\theta))=\operatorname {E} (s(\theta)s(\theta)^{\mathsf {T}})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\begin{aligned}0&={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\operatorname {E} (s\mid \theta)\\[6pt] &={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}( \theta ;X)}{\partial \theta }}f(x;\theta )\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\left\{{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\ theta )\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}\left\{{\frac {\partial ^{2}\log {\mathcal {L}}( \theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )+{\frac {\partial \log {\mathcal {L}}(\ theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\right\}\,dx\\ [6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X )}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\,dx\\[6pt]&=\int _ {\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T} }}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx\ \[6pt]&=\operatorname {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^ {\mathsf {T}}}}\right)+\operatorname {E} \left({\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }} \left[{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\right]^{\mathsf {T}}\right)\end{aligned }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Следовательно, дисперсия оценки равна отрицательному ожидаемому значению матрицы Гессе логарифмического правдоподобия. [5]
![{\displaystyle \operatorname {E} (s(\theta)s(\theta)^{\mathsf {T}})=-\operatorname {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}}{\partial \theta \partial \theta ^{\mathsf {T}}}}\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Последняя известна как информация Фишера и записывается . Обратите внимание, что информация Фишера не является функцией какого-либо конкретного наблюдения, поскольку случайная величина усреднена. Эта концепция информации полезна при сравнении двух методов наблюдения за некоторым случайным процессом .![{\displaystyle {\mathcal {I}}(\theta)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Примеры
Процесс Бернулли
Представьте себе, что вы наблюдаете за первыми n попытками процесса Бернулли и видите, что A из них являются успешными, а остальные B — неудачными, где вероятность успеха равна θ .
Тогда вероятность![{\displaystyle {\mathcal {L}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\mathcal {L}}(\theta;A,B)={\frac {(A+B)!}{A!B!}}\theta ^{A}(1-\theta)^ {Б},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
так что оценка s равна
![{\displaystyle s={\frac {\partial \log {\mathcal {L}}}{\partial \theta }}={\frac {1}{\mathcal {L}}}{\frac {\partial { \mathcal {L}}}{\partial \theta }}={\frac {A}{\theta }}-{\frac {B}{1-\theta }}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Теперь мы можем убедиться, что математическое ожидание оценки равно нулю. Отмечая, что математическое ожидание A равно nθ , а математическое ожидание B равно n (1 − θ ) (напомним, что A и B — случайные величины), мы можем видеть, что математическое ожидание s равно
![{\displaystyle E(s)={\frac {n\theta }{\theta }}-{\frac {n(1-\theta)}{1-\theta }}=nn=0.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Мы также можем проверить дисперсию . Мы знаем, что A + B = n (поэтому B = n − A ), а дисперсия A равна nθ (1 − θ ), поэтому дисперсия s равна![{\displaystyle s}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\begin{aligned}\operatorname {var} (s)&=\operatorname {var} \left({\frac {A}{\theta }}-{\frac {nA}{1-\theta }}\right)=\operatorname {var} \left(A\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)\right)\ \&=\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)^{2}\operatorname {var} (A)={\frac {n}{\theta (1-\theta )}}.\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Модель двоичного результата
Для моделей с двоичными результатами ( Y = 1 или 0) модель можно оценить с помощью логарифма прогнозов.
![{\displaystyle S=Y\log(p)+(1-Y)(\log(1-p))}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где p — вероятность в оцениваемой модели, а S — оценка. [6]
Приложения
Алгоритм подсчета очков
Алгоритм оценки представляет собой итерационный метод численного определения оценки максимального правдоподобия .
Оценка теста
Обратите внимание, что это функция и наблюдение , так что, вообще говоря, это не статистика . Однако в некоторых приложениях, таких как тест на оценку , оценка оценивается по определенному значению (например, значению нулевой гипотезы), и в этом случае результатом является статистика. Интуитивно понятно, что если ограниченная оценка близка к максимуму функции правдоподобия, оценка не должна отличаться от нуля более чем на ошибку выборки . В 1948 году Ч.Р. Рао впервые доказал , что квадрат результата, разделенный на информационную матрицу, подчиняется асимптотическому 2 -распределению при нулевой гипотезе. [7]![{\displaystyle s}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {x} =(x_{1},x_{2},\ldots x_{T})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Также обратите внимание, что критерий отношения правдоподобия определяется выражением
![{\displaystyle -2\left[\log {\mathcal {L}}(\theta _{0})-\log {\mathcal {L}}({\hat {\theta }})\right]=2 \int _{\theta _{0}}^{\hat {\theta }}{\frac {d\,\log {\mathcal {L}}(\theta )}{d\theta }}\,d \theta =2\int _{\theta _{0}}^{\hat {\theta }}s(\theta )\,d\theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
это означает, что тест отношения правдоподобия можно понимать как область под оценочной функцией между и . [8]![{\displaystyle \theta _{0}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\hat {\theta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Сопоставление оценок (машинное обучение)
Сопоставление оценок описывает процесс применения алгоритмов машинного обучения (обычно нейронных сетей ) для аппроксимации оценочной функции неизвестного распределения на основе конечных выборок. Изученную функцию затем можно использовать в генеративном моделировании для получения новых образцов из файлов . [9]![{\displaystyle s_{\theta }\approx \nabla _{x}\log p(x)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \pi (x)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s_{\theta }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \pi (x)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Может показаться странным, что слово «оценка» использовалось для обозначения , поскольку оно не является функцией правдоподобия и не имеет производной по параметрам. Дополнительную информацию об этом определении см. в указанном документе. [10]![{\ displaystyle \ nabla _ {x} \ log p (x)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
История
Термин «оценочная функция» на первый взгляд может показаться несвязанным с его современным значением, которое сосредоточено вокруг производной логарифмической функции правдоподобия в статистических моделях. Это очевидное несоответствие можно проследить до исторического происхождения этого термина. Понятие «оценочной функции» было впервые введено британским статистиком Рональдом Фишером в его статье 1935 года под названием «Обнаружение связи с «доминантными» аномалиями». [11] Фишер использовал этот термин в контексте генетического анализа, особенно для семей, где у родителей была доминантная генетическая аномалия. Со временем применение и значение «оценочной функции» изменились, отклонившись от первоначального контекста, но сохранив свои основополагающие принципы. [12] [13]
Первоначально Фишер использовал этот термин в контексте анализа генетических признаков в семьях, где один из родителей обладал генетической аномалией. Он разделил детей таких родителей на четыре класса на основе двух бинарных признаков: унаследовали ли они аномалию или нет, а также их зиготного статуса как гомозиготного или гетерозиготного. Фишер разработал метод присвоения каждой семье «балла», рассчитанного на основе количества детей, попадающих в каждую из четырех категорий. Этот показатель использовался для оценки того, что он называл «параметром сцепления», который описывал вероятность наследования генетической аномалии. Фишер оценил эффективность своего правила оценки, сравнив его с альтернативным правилом и с тем, что он назвал «идеальным результатом». Идеальная оценка определялась как производная логарифма плотности выборки, как упоминалось на странице 193 его работы. [11]
Термин «оценка» позже развился в ходе последующих исследований, заметно выйдя за рамки конкретного применения в генетике, к которому первоначально обращался Фишер. Различные авторы адаптировали оригинальную методологию Фишера к более обобщенному статистическому контексту. В этих более широких приложениях термин «оценка» или «эффективная оценка» стал чаще относиться к производной логарифмической функции правдоподобия рассматриваемой статистической модели. На это концептуальное расширение значительное влияние оказала статья Ч.Р. Рао 1948 года, в которой были представлены «эффективные тесты оценки», в которых использовалась производная логарифмической функции правдоподобия. [14]
Таким образом, то, что начиналось как специальный термин в области генетической статистики, превратилось в фундаментальную концепцию более широкой статистической теории, часто связанную с производной логарифмической функции правдоподобия.
Смотрите также
- Информация Фишера - понятие в статистике
- Теория информации - Научное исследование цифровой информации.
- Тест на оценку - статистический тест, основанный на градиенте функции правдоподобия.
- Алгоритм подсчета очков - форма метода Ньютона, используемая в статистике.Pages displaying wikidata descriptions as a fallback
- Стандартная оценка – сколько стандартных отклонений от среднего значения имеет наблюдаемый показатель.
- Кривая поддержки - функция, связанная со статистикой и теорией вероятностей.Pages displaying short descriptions of redirect targets
Примечания
- ^ Информатор в Математической энциклопедии
- ^ Пиклз, Эндрю (1985). Введение в анализ правдоподобия. Норидж: WH Hutchins & Sons. стр. 24–29. ISBN 0-86094-190-6.
- ^ Серфлинг, Роберт Дж. (1980). Аппроксимационные теоремы математической статистики . Нью-Йорк: Джон Уайли и сыновья. п. 145. ИСБН 0-471-02403-1.
- ^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе. Нью-Йорк: Джон Уайли и сыновья. п. 25. ISBN 0-471-09077-8.
- ^ Сарган, Денис (1988). Лекции по углубленной эконометрике . Оксфорд: Бэзил Блэквелл. стр. 16–18. ISBN 0-631-14956-2.
- ^ Штайерберг, EW; Викерс, Эй Джей; Кук, Северная Каролина; Гердс, Т.; Гонен, М.; Обуховский, Н. ; Пенчина, MJ; Каттан, Миссури (2010). «Оценка эффективности моделей прогнозирования. Основа для традиционных и новых мер». Эпидемиология . 21 (1): 128–138. doi : 10.1097/EDE.0b013e3181c30fb2. ПМЦ 3575184 . ПМИД 20010215.
- ^ Рао, К. Радхакришна (1948). «Большие выборочные проверки статистических гипотез, касающихся нескольких параметров, с применением к задачам оценки». Математические труды Кембриджского философского общества . 44 (1): 50–57. Бибкод : 1948PCPS...44...50R. дои : 10.1017/S0305004100023987. S2CID 122382660.
- ^ Бусе, А. (1982). «Отношение правдоподобия, тесты Вальда и множителей Лагранжа: пояснительная записка». Американский статистик . 36 (3а): 153–157. дои : 10.1080/00031305.1982.10482817.
- ^ Ян Сун; Яша Золь-Дикштейн; Дидерик П. Кингма; Абхишек Кумар; Стефано Эрмон; Бен Пул (2020). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [cs.LG].
- ^ https://www.jmlr.org/papers/volume6/hyvarinen05a/hyvarinen05a.pdf
- ^ аб Фишер, Рональд Эйлмер. «Обнаружение связи с «доминирующими» аномалиями». Анналы евгеники 6.2 (1935): 187-201.
- ^ Бен (https://stats.stackexchange.com/users/173082/ben), Интерпретация «оценки», URL (версия: 17 апреля 2019 г.): https://stats.stackexchange.com/q/342374
- ^ Миллер, Джефф. «Самые ранние известные варианты использования некоторых математических слов (S)». Заметки по истории математики. Последняя редакция: 14 апреля 2020 г. https://mathshistory.st-andrews.ac.uk/Miller/mathword/s/.
- ^ Радхакришна Рао, К. (1948). Большие выборочные проверки статистических гипотез, касающихся нескольких параметров, с применением к задачам оценки. Математические труды Кембриджского философского общества, 44 (1), 50-57. doi:10.1017/S0305004100023987
Рекомендации