Информант (статистика)

В статистике информатор ^[1] (или оценка ) представляет собой градиент логарифмической функции правдоподобия относительно вектора параметров . Оценка, оцениваемая в конкретной точке вектора параметров, указывает на крутизну функции логарифмического правдоподобия и, следовательно, на чувствительность к бесконечно малым изменениям значений параметров. Если функция логарифмического правдоподобия непрерывна в пространстве параметров , оценка будет равна нулю при локальном максимуме или минимуме ; этот факт используется при оценке максимального правдоподобия , чтобы найти значения параметров, которые максимизируют функцию правдоподобия.

Поскольку оценка является функцией наблюдений , которые подвержены ошибкам выборки , она поддается тестовой статистике , известной как тест оценки , в которой параметр удерживается на определенном значении. Кроме того, отношение двух функций правдоподобия , оцененных при двух различных значениях параметров, можно понимать как определенный интеграл оценочной функции. ^[2]

Определение

Оценка представляет собой градиент (вектор частных производных ) натурального логарифма функции правдоподобия по отношению к m -мерному вектору параметров . $\log {\mathcal {L}}(\theta;x)$ ${\ displaystyle \ theta }$

s(\theta;x)\equiv {\frac {\partial \log {\mathcal {L}}(\theta;x)}{\partial \theta }}

Это дифференцирование дает вектор-строку для каждого значения и и указывает чувствительность вероятности (ее производная, нормализованная по ее значению). $(1\times м)$ ${\ displaystyle \ theta }$ $х$

В более старой литературе ^{[ нужна ссылка ]} «линейная оценка» может относиться к оценке относительно бесконечно малого перевода данной плотности. Это соглашение возникло в то время, когда основным интересующим параметром было среднее значение или медиана распределения. В этом случае вероятность наблюдения определяется плотностью формы ^{[ нужны разъяснения ]} . «Линейная оценка» тогда определяется как ${\mathcal {L}}(\theta;X)=f(X+\theta)$

s_{\rm {linear}}={\frac {\partial }{\partial X}}\log f(X)

Характеристики

Иметь в виду

Хотя оценка является функцией , она также зависит от наблюдений, при которых оценивается функция правдоподобия, и ввиду случайного характера выборки можно взять ее ожидаемое значение по выборочному пространству . При определенных условиях регулярности функций плотности случайных величин ^[3]^[4] ожидаемое значение оценки, оцененное при истинном значении параметра , равно нулю. Чтобы убедиться в этом, перепишем функцию правдоподобия как функцию плотности вероятности и обозначим выборочное пространство . Затем: ${\ displaystyle \ theta }$ $\mathbf {x} =(x_{1},x_{2},\ldots x_{T})$ ${\ displaystyle \ theta }$ ${\mathcal {L}}$ ${\mathcal {L}}(\theta;x)=f(x;\theta)$ ${\mathcal {X}}$

{\begin{aligned}\operatorname {E} (s\mid \theta)&=\int _ {\mathcal {X}}f(x;\theta ){\frac {\partial }{\partial \theta }}\log {\mathcal {L}}(\theta ;x)\,dx\\[6pt]&=\int _{\mathcal {X}}f(x;\theta ){\frac { 1}{f(x;\theta )}}{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx=\int _{\mathcal {X}}{\frac {\partial f(x;\theta)}{\partial \theta }}\,dx\end{aligned}}

Предполагаемые условия регулярности допускают замену производной и интеграла (см. интегральное правило Лейбница ), поэтому приведенное выше выражение можно переписать как ^{[ необходимы пояснения ]}

{\frac {\partial }{\partial \theta }}\int _ {\mathcal {X}}f(x;\theta)\,dx={\frac {\partial }{\partial \theta }}1=0.

Стоит переформулировать приведенный выше результат словами: ожидаемое значение оценки при истинном значении параметра равно нулю. Таким образом, если бы кто-то неоднократно производил выборку из некоторого распределения и неоднократно вычислял оценку, то среднее значение оценок асимптотически стремилось бы к нулю . ${\ displaystyle \ theta }$

Дисперсия

Дисперсия оценки может быть получена из приведенного выше выражения для ожидаемого значения. $\operatorname {Var} (s(\theta))=\operatorname {E} (s(\theta)s(\theta)^{\mathsf {T}})$

{\begin{aligned}0&={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\operatorname {E} (s\mid \theta )\\[6pt]&={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\theta )\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\left\{{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\theta )\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}\left\{{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )+{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx\\[6pt]&=\operatorname {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}\right)+\operatorname {E} \left({\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\left[{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\right]^{\mathsf {T}}\right)\end{aligned}}

Следовательно, дисперсия оценки равна отрицательному ожидаемому значению матрицы Гессе логарифмического правдоподобия. ^[5]

\operatorname {E} (s(\theta )s(\theta )^{\mathsf {T}})=-\operatorname {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}}{\partial \theta \partial \theta ^{\mathsf {T}}}}\right)

Последняя известна как информация Фишера и записывается . Обратите внимание, что информация Фишера не является функцией какого-либо конкретного наблюдения, поскольку случайная величина усреднена. Эта концепция информации полезна при сравнении двух методов наблюдения за некоторым случайным процессом . ${\mathcal {I}}(\theta )$ $X$

Примеры

Процесс Бернулли

Представьте себе, что вы наблюдаете за первыми n попытками процесса Бернулли и видите, что A из них являются успешными, а остальные B — неудачными, где вероятность успеха равна θ .

Тогда вероятность ${\mathcal {L}}$

{\mathcal {L}}(\theta ;A,B)={\frac {(A+B)!}{A!B!}}\theta ^{A}(1-\theta )^{B},

так что оценка s равна

s={\frac {\partial \log {\mathcal {L}}}{\partial \theta }}={\frac {1}{\mathcal {L}}}{\frac {\partial {\mathcal {L}}}{\partial \theta }}={\frac {A}{\theta }}-{\frac {B}{1-\theta }}.

Теперь мы можем убедиться, что математическое ожидание оценки равно нулю. Отмечая, что математическое ожидание A равно nθ , а математическое ожидание B равно n (1 − θ ) (напомним, что A и B — случайные величины), мы можем видеть, что математическое ожидание s равно

E(s)={\frac {n\theta }{\theta }}-{\frac {n(1-\theta )}{1-\theta }}=n-n=0.

Мы также можем проверить дисперсию . Мы знаем, что A + B = n (поэтому B = n − A ), а дисперсия A равна nθ (1 − θ ), поэтому дисперсия s равна $s$

{\begin{aligned}\operatorname {var} (s)&=\operatorname {var} \left({\frac {A}{\theta }}-{\frac {n-A}{1-\theta }}\right)=\operatorname {var} \left(A\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)\right)\\&=\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)^{2}\operatorname {var} (A)={\frac {n}{\theta (1-\theta )}}.\end{aligned}}

Модель двоичного результата

Для моделей с двоичными результатами ( Y = 1 или 0) модель можно оценить с помощью логарифма прогнозов.

S=Y\log(p)+(1-Y)(\log(1-p))

где p — вероятность в оцениваемой модели, а S — оценка. ^[6]

Приложения

Алгоритм подсчета очков

Алгоритм оценки представляет собой итерационный метод численного определения оценки максимального правдоподобия .

Оценка теста

Обратите внимание, что это функция и наблюдение , так что, вообще говоря, это не статистика . Однако в некоторых приложениях, таких как тест на оценку , оценка оценивается по определенному значению (например, значению нулевой гипотезы), и в этом случае результатом является статистика. Интуитивно понятно, что если ограниченная оценка близка к максимуму функции правдоподобия, оценка не должна отличаться от нуля более чем на ошибку выборки . В 1948 году Ч.Р. Рао впервые доказал , что квадрат результата, разделенный на информационную матрицу, подчиняется асимптотическому 2 -распределению при нулевой гипотезе. ^[7] $s$ $\theta$ $\mathbf {x} =(x_{1},x_{2},\ldots x_{T})$ $\theta$

Также обратите внимание, что критерий отношения правдоподобия определяется выражением

-2\left[\log {\mathcal {L}}(\theta _{0})-\log {\mathcal {L}}({\hat {\theta }})\right]=2\int _{\theta _{0}}^{\hat {\theta }}{\frac {d\,\log {\mathcal {L}}(\theta )}{d\theta }}\,d\theta =2\int _{\theta _{0}}^{\hat {\theta }}s(\theta )\,d\theta

это означает, что тест отношения правдоподобия можно понимать как область под оценочной функцией между и . ^[8] $\theta _{0}$ ${\hat {\theta }}$

Сопоставление оценок (машинное обучение)

Сопоставление оценок описывает процесс применения алгоритмов машинного обучения (обычно нейронных сетей ) для аппроксимации оценочной функции неизвестного распределения на основе конечных выборок. Изученную функцию затем можно использовать в генеративном моделировании для получения новых образцов из файлов . ^[9] $s_{\theta }\approx \nabla _{x}\log p(x)$ $\pi (x)$ $s_{\theta }$ $\pi (x)$

Может показаться странным, что слово «оценка» использовалось для обозначения , поскольку оно не является функцией правдоподобия и не имеет производной по параметрам. Дополнительную информацию об этом определении см. в указанном документе. ^[10] $\nabla _{x}\log p(x)$

История

Термин «оценочная функция» на первый взгляд может показаться несвязанным с его современным значением, которое сосредоточено вокруг производной логарифмической функции правдоподобия в статистических моделях. Это очевидное несоответствие можно проследить до исторического происхождения этого термина. Понятие «оценочной функции» было впервые введено британским статистиком Рональдом Фишером в его статье 1935 года под названием «Обнаружение связи с «доминантными» аномалиями». ^[11] Фишер использовал этот термин в контексте генетического анализа, особенно для семей, где у родителей была доминантная генетическая аномалия. Со временем применение и значение «оценочной функции» изменились, отклонившись от первоначального контекста, но сохранив свои основополагающие принципы. ^[12]^[13]

Первоначально Фишер использовал этот термин в контексте анализа генетических признаков в семьях, где один из родителей обладал генетической аномалией. Он разделил детей таких родителей на четыре класса на основе двух бинарных признаков: унаследовали ли они аномалию или нет, а также их зиготного статуса как гомозиготного или гетерозиготного. Фишер разработал метод присвоения каждой семье «балла», рассчитанного на основе количества детей, попадающих в каждую из четырех категорий. Этот показатель использовался для оценки того, что он называл «параметром сцепления», который описывал вероятность наследования генетической аномалии. Фишер оценил эффективность своего правила оценки, сравнив его с альтернативным правилом и с тем, что он назвал «идеальным результатом». Идеальная оценка определялась как производная логарифма плотности выборки, как упоминалось на странице 193 его работы. ^[11]

Термин «оценка» позже развился в ходе последующих исследований, заметно выйдя за рамки конкретного применения в генетике, к которому первоначально обращался Фишер. Различные авторы адаптировали оригинальную методологию Фишера к более обобщенному статистическому контексту. В этих более широких приложениях термин «оценка» или «эффективная оценка» стал чаще относиться к производной логарифмической функции правдоподобия рассматриваемой статистической модели. На это концептуальное расширение значительное влияние оказала статья Ч.Р. Рао 1948 года, в которой были представлены «эффективные тесты оценки», в которых использовалась производная логарифмической функции правдоподобия. ^[14]

Таким образом, то, что начиналось как специальный термин в области генетической статистики, превратилось в фундаментальную концепцию более широкой статистической теории, часто связанную с производной логарифмической функции правдоподобия.

Смотрите также

Информация Фишера - понятие в статистике
Теория информации - Научное исследование цифровой информации.
Тест на оценку - статистический тест, основанный на градиенте функции правдоподобия.
Алгоритм подсчета очков - форма метода Ньютона, используемая в статистике.
Стандартная оценка – сколько стандартных отклонений от среднего значения имеет наблюдаемый показатель.
Кривая поддержки - функция, связанная со статистикой и теорией вероятностей.

Примечания

^ Информатор в Математической энциклопедии
^ Пиклз, Эндрю (1985). Введение в анализ правдоподобия. Норидж: WH Hutchins & Sons. стр. 24–29. ISBN 0-86094-190-6.
^ Серфлинг, Роберт Дж. (1980). Аппроксимационные теоремы математической статистики . Нью-Йорк: Джон Уайли и сыновья. п. 145. ИСБН 0-471-02403-1.
^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе. Нью-Йорк: Джон Уайли и сыновья. п. 25. ISBN 0-471-09077-8.
^ Сарган, Денис (1988). Лекции по углубленной эконометрике . Оксфорд: Бэзил Блэквелл. стр. 16–18. ISBN 0-631-14956-2.
^ Штайерберг, EW; Викерс, Эй Джей; Кук, Северная Каролина; Гердс, Т.; Гонен, М.; Обуховский, Н. ; Пенчина, MJ; Каттан, Миссури (2010). «Оценка эффективности моделей прогнозирования. Основа для традиционных и новых мер». Эпидемиология . 21 (1): 128–138. doi : 10.1097/EDE.0b013e3181c30fb2. ПМЦ 3575184 . ПМИД 20010215.
^ Рао, К. Радхакришна (1948). «Большие выборочные проверки статистических гипотез, касающихся нескольких параметров, с применением к задачам оценки». Математические труды Кембриджского философского общества . 44 (1): 50–57. Бибкод : 1948PCPS...44...50R. дои : 10.1017/S0305004100023987. S2CID 122382660.
^ Бусе, А. (1982). «Отношение правдоподобия, тесты Вальда и множителей Лагранжа: пояснительная записка». Американский статистик . 36 (3а): 153–157. дои : 10.1080/00031305.1982.10482817.
^ Ян Сун; Яша Золь-Дикштейн; Дидерик П. Кингма; Абхишек Кумар; Стефано Эрмон; Бен Пул (2020). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [cs.LG].
^ https://www.jmlr.org/papers/volume6/hyvarinen05a/hyvarinen05a.pdf
^ аб Фишер, Рональд Эйлмер. «Обнаружение связи с «доминирующими» аномалиями». Анналы евгеники 6.2 (1935): 187-201.
^ Бен (https://stats.stackexchange.com/users/173082/ben), Интерпретация «оценки», URL (версия: 17 апреля 2019 г.): https://stats.stackexchange.com/q/342374
^ Миллер, Джефф. «Самые ранние известные варианты использования некоторых математических слов (S)». Заметки по истории математики. Последняя редакция: 14 апреля 2020 г. https://mathshistory.st-andrews.ac.uk/Miller/mathword/s/.
^ Радхакришна Рао, К. (1948). Большие выборочные проверки статистических гипотез, касающихся нескольких параметров, с применением к задачам оценки. Математические труды Кембриджского философского общества, 44 (1), 50-57. doi:10.1017/S0305004100023987