Информация о Фишере

В математической статистике информация Фишера — это способ измерения количества информации , которую несет наблюдаемая случайная величина X о неизвестном параметре θ распределения, моделирующего X. Формально это дисперсия оценки или ожидаемое значение наблюдаемой информации .

Роль информации Фишера в асимптотической теории оценки максимального правдоподобия была подчеркнута и исследована статистиком сэром Рональдом Фишером (после некоторых первоначальных результатов Фрэнсиса Исидро Эджворта ). Матрица информации Фишера используется для вычисления ковариационных матриц, связанных с оценками максимального правдоподобия . Она также может использоваться при формулировании тестовых статистик, таких как тест Вальда .

В байесовской статистике информация Фишера играет роль в выводе неинформативных априорных распределений в соответствии с правилом Джеффриса . ^[1] Она также проявляется как ковариация большой выборки апостериорного распределения , при условии, что априорное распределение достаточно гладкое (результат, известный как теорема Бернштейна-фон Мизеса , которая была предсказана Лапласом для экспоненциальных семейств ). ^[2] Тот же результат используется при аппроксимации апостериорного распределения с помощью аппроксимации Лапласа , где информация Фишера проявляется как ковариация подобранного гауссовского распределения. ^[3]

Было показано, что статистические системы научного характера (физические, биологические и т. д.), функции правдоподобия которых подчиняются сдвиговой инвариантности, подчиняются максимальной информации Фишера. ^[4] Уровень максимума зависит от характера ограничений системы.

Определение

Информация Фишера — это способ измерения количества информации, которую несет наблюдаемая случайная величина о неизвестном параметре , от которого зависит вероятность . Пусть будет функцией плотности вероятности (или функцией массы вероятности ) для , обусловленной значением . Она описывает вероятность того, что мы наблюдаем заданный результат , учитывая известное значение . Если имеет острый пик относительно изменений в , легко указать «правильное» значение из данных или, что то же самое, что данные предоставляют много информации о параметре . Если имеет плоский и разбросанный характер, то потребуется много выборок , чтобы оценить фактическое «истинное» значение , которое будет получено с использованием всей выборочной совокупности. Это предполагает изучение некоторой дисперсии относительно . $X$ $\тета$ $X$ $f(X;\theta)$ $X$ $\тета$ $X$ $\тета$ $f$ $\тета$ $\тета$ $X$ $\тета$ $f$ $X$ $\тета$ $\тета$

Формально частная производная по натуральному логарифму функции правдоподобия называется счетом . При определенных условиях регулярности, если является истинным параметром (т.е. фактически распределен как ), можно показать, что ожидаемое значение (первый момент ) счета, оцененного при истинном значении параметра , равно 0: ^[5] $\тета$ $\тета$ $X$ $f(X;\theta)$ $\тета$

{\begin{aligned}\operatorname {E} \left[\left.{\frac {\partial }{\partial \theta }}\log f(X;\theta )\,\,\right|\,\,\theta \right]={}&\int _{\mathbb {R} }{\frac {{\frac {\partial }{\partial \theta }}f(x;\theta )}{f(x;\theta )}}f(x;\theta )\,dx\\[6pt]={}&{\frac {\partial }{\partial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx\\[6pt]={}&{\frac {\partial }{\partial \theta }}1\\[6pt]={}&0.\end{align}}

Информация Фишера определяется как дисперсия оценки: ^[6]

{\mathcal {I}}(\theta )=\operatorname {E} \left[\left.\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right)^{2}\,\,\right|\,\,\theta \right]=\int _{\mathbb {R} }\left({\frac {\partial }{\partial \theta }}\log f(x;\theta )\right)^{2}f(x;\theta )\,dx,

Обратите внимание, что . Случайная величина, несущая высокую информацию Фишера, подразумевает, что абсолютное значение оценки часто высокое. Информация Фишера не является функцией конкретного наблюдения, поскольку случайная величина X была усреднена. ${\mathcal {I}}(\theta)\geq 0$

Если log f ( x ; θ ) дважды дифференцируем по θ и при определенных условиях регулярности, то информация Фишера может быть также записана как ^[7]

{\mathcal {I}}(\theta )=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )\,\,\right|\,\,\theta \right],

{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {{\frac {\partial }{\partial \theta }}f(X;\theta )}{f(X;\theta )}}\right)^{2}={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right)^{2}

\operatorname {E} \left[\left.{\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}\,\,\right|\,\,\theta \right]={\frac {\partial ^{2}}{\partial \theta ^{2}}}\int _{\mathbb {R} }f(x;\theta )\,dx=0.

Таким образом, информацию Фишера можно рассматривать как кривизну опорной кривой (график логарифмического правдоподобия). Таким образом, вблизи оценки максимального правдоподобия низкая информация Фишера указывает на то, что максимум кажется «тупым», то есть, что максимум неглубокий и есть много близлежащих значений с похожим логарифмическим правдоподобием. И наоборот, высокая информация Фишера указывает на то, что максимум острый.

Условия регулярности

Условия регулярности следующие: ^[8]

Частная производная f ( X ; θ ) по θ существует почти всюду . (Она может не существовать на нулевом множестве, если только это множество не зависит от θ .)
Интеграл от f ( X ; θ ) можно продифференцировать под знаком интеграла по θ .
Носитель f ( X ; θ ) не зависит от θ .

Если θ — вектор, то условия регулярности должны выполняться для каждого компонента θ . Легко найти пример плотности, которая не удовлетворяет условиям регулярности: плотность переменной Uniform(0, θ ) не удовлетворяет условиям 1 и 3. В этом случае, даже если информация Фишера может быть вычислена из определения, она не будет обладать свойствами, которые обычно предполагаются.

С точки зрения вероятности

Поскольку вероятность θ при заданном X всегда пропорциональна вероятности f ( X ; θ ), их логарифмы обязательно отличаются на константу, которая не зависит от θ , а производные этих логарифмов по θ обязательно равны. Таким образом $,$ можно подставить в логарифмическую вероятность l ( θ ; X ) вместо $log$ $f$ $($ $X$ ; $θ$ $)$ в определениях информации Фишера.

Образцы любого размера

Значение X может представлять собой отдельную выборку, взятую из отдельного распределения, или может представлять собой набор выборок, взятых из набора распределений. Если имеется n выборок и соответствующие n распределений статистически независимы , то информация Фишера обязательно будет суммой значений информации Фишера для отдельной выборки, по одному для каждой отдельной выборки из ее распределения. В частности, если n распределений независимы и одинаково распределены , то информация Фишера обязательно будет равна n раз информации Фишера для отдельной выборки из общего распределения. Другими словами, информация Фишера для iid наблюдений выборки размера n из популяции равна произведению n и информации Фишера для отдельной выборки из той же популяции.

Неформальный вывод границы Крамера–Рао

Граница Крамера–Рао [ ^9]^[10] утверждает, что обратная величина информации Фишера является нижней границей дисперсии любой несмещенной оценки θ . Ван Трис (1968) и Фриден (2004) предлагают следующий метод вывода границы Крамера–Рао , результат, который описывает использование информации Фишера.

Неформально, мы начинаем с рассмотрения несмещенной оценки . Математически «несмещенный» означает, что ${\hat {\theta }}(X)$

\operatorname {E} \left[\left.{\hat {\theta }}(X)-\theta \,\,\right|\,\,\theta \right]=\int \left({\hat {\theta }}(x)-\theta \right)\,f(x;\theta )\,dx=0{\text{ regardless of the value of }}\theta .

Это выражение равно нулю независимо от θ , поэтому его частная производная по θ также должна быть равна нулю. По правилу произведения эта частная производная также равна

0={\frac {\partial }{\partial \theta }}\int \left({\hat {\theta }}(x)-\theta \right)\,f(x;\theta )\,dx=\int \left({\hat {\theta }}(x)-\theta \right){\frac {\partial f}{\partial \theta }}\,dx-\int f\,dx.

Для каждого θ функция правдоподобия является функцией плотности вероятности, и, следовательно , . Используя цепное правило для частной производной и затем разделив и умножив на , можно проверить, что $\int f\,dx=1$ $\log f$ $f(x;\theta )$

{\frac {\partial f}{\partial \theta }}=f\,{\frac {\partial \log f}{\partial \theta }}.

Используя эти два факта выше, мы получаем

\int \left({\hat {\theta }}-\theta \right)f\,{\frac {\partial \log f}{\partial \theta }}\,dx=1.

Факторизация подынтегральной функции дает

\int \left(\left({\hat {\theta }}-\theta \right){\sqrt {f}}\right)\left({\sqrt {f}}\,{\frac {\partial \log f}{\partial \theta }}\right)\,dx=1.

Возводя выражение в квадрат, неравенство Коши–Шварца дает

1={\biggl (}\int \left[\left({\hat {\theta }}-\theta \right){\sqrt {f}}\right]\cdot \left[{\sqrt {f}}\,{\frac {\partial \log f}{\partial \theta }}\right]\,dx{\biggr )}^{2}\leq \left[\int \left({\hat {\theta }}-\theta \right)^{2}f\,dx\right]\cdot \left[\int \left({\frac {\partial \log f}{\partial \theta }}\right)^{2}f\,dx\right].

Второй фактор в скобках определяется как информация Фишера, в то время как первый фактор в скобках — это ожидаемая среднеквадратичная ошибка оценщика . При перестановке неравенство говорит нам, что ${\hat {\theta }}$

\operatorname {Var} \left({\hat {\theta }}\right)\geq {\frac {1}{{\mathcal {I}}\left(\theta \right)}}.

Другими словами, точность, с которой мы можем оценить θ, принципиально ограничена информацией Фишера функции правдоподобия.

В качестве альтернативы тот же вывод можно получить непосредственно из неравенства Коши–Шварца для случайных величин , , примененного к случайным величинам и , и заметив, что для несмещенных оценок мы имеем $|\operatorname {Cov} (A,B)|^{2}\leq \operatorname {Var} (A)\operatorname {Var} (B)$ ${\hat {\theta }}(X)$ $\partial _{\theta }\log f(X;\theta )$ $\operatorname {Cov} [{\hat {\theta }}(X),\partial _{\theta }\log f(X;\theta )]=\int {\hat {\theta }}(x)\,\partial _{\theta }f(x;\theta )\,dx=\partial _{\theta }\operatorname {E} [{\hat {\theta }}]=1.$

Примеры

Однопараметрический эксперимент Бернулли

Испытание Бернулли — это случайная величина с двумя возможными исходами, 0 и 1, где 1 имеет вероятность θ . Результат можно представить как определяемый подбрасыванием несимметричной монеты, при этом вероятность выпадения орла (1) равна θ , а вероятность выпадения решки (0) равна 1 − θ .

Пусть X будет испытанием Бернулли одного образца из распределения. Информация Фишера, содержащаяся в X, может быть рассчитана следующим образом:

{\begin{aligned}{\mathcal {I}}(\theta )&=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(\theta ^{X}(1-\theta )^{1-X}\right)\right|\theta \right]\\[5pt]&=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\left(X\log \theta +(1-X)\log(1-\theta )\right)\,\,\right|\,\,\theta \right]\\[5pt]&=\operatorname {E} \left[\left.{\frac {X}{\theta ^{2}}}+{\frac {1-X}{(1-\theta )^{2}}}\,\,\right|\,\,\theta \right]\\[5pt]&={\frac {\theta }{\theta ^{2}}}+{\frac {1-\theta }{(1-\theta )^{2}}}\\[5pt]&={\frac {1}{\theta (1-\theta )}}.\end{aligned}}

Поскольку информация Фишера аддитивна, информация Фишера, содержащаяся в n независимых испытаниях Бернулли , следовательно, равна

{\mathcal {I}}(\theta )={\frac {n}{\theta (1-\theta )}}.

Если — один из возможных результатов n независимых испытаний Бернулли и — j -й результат i -го испытания, то вероятность определяется по формуле: $x_{i}$ $2^{n}$ $x_{ij}$ $x_{i}$

p(x_{i},\theta )=\prod _{j=0}^{n}\theta ^{x_{ij}}(1-\theta )^{x_{ij}}

Среднее значение i -го испытания равно Ожидаемое значение среднего значения испытания равно: $\mu _{i}=(1/n)\sum _{j=1}^{n}x_{ij}$

E(\mu )=\sum _{x_{i}}\mu _{i}\,p(x_{i},\theta )=\theta

где сумма берется по всем возможным результатам испытаний. Ожидаемое значение квадрата средних значений равно: $2^{n}$

E(\mu ^{2})=\sum _{x_{i}}\mu _{i}^{2}\,p(x_{i},\theta )={\frac {(1+(n-1)\theta )\theta }{n}}

поэтому дисперсия значения среднего равна:

E(\mu ^{2})-E(\mu )^{2}=(1/n)\theta (1-\theta )

Видно, что информация Фишера является обратной величиной дисперсии среднего числа успехов в n испытаниях Бернулли . Это в целом верно. В этом случае граница Крамера–Рао является равенством.

ОцениватьθотХ∼ Берн (√θ)

В качестве другого игрушечного примера рассмотрим случайную величину с возможными результатами 0 и 1, с вероятностями и , соответственно, для некоторых . Наша цель — оценка из наблюдений . $X$ $p_{0}=1-{\sqrt {\theta }}$ $p_{1}={\sqrt {\theta }}$ $\theta \in [0,1]$ $\theta$ $X$

Информация Фишера в этом случае читается Это выражение также может быть получено непосредственно из формулы изменения репараметризации, приведенной ниже. В более общем смысле, для любой достаточно регулярной функции, такой что , информация Фишера для извлечения вычисляется аналогично, чтобы быть ${\begin{aligned}{\mathcal {I}}(\theta )&=\mathrm {E} \left[\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right)^{2}{\Bigg |}\,\theta \right]\\&=(1-{\sqrt {\theta }})\left({\frac {-1}{2{\sqrt {\theta }}(1-{\sqrt {\theta }})}}\right)^{2}+{\sqrt {\theta }}\left({\frac {1}{2\theta }}\right)^{2}\\&={\frac {1}{4\theta }}\left({\frac {1}{1-{\sqrt {\theta }}}}+{\frac {1}{\sqrt {\theta }}}\right)\end{aligned}}.$ $f$ $f(\theta )\in [0,1]$ $\theta$ $X\sim \operatorname {Bern} (f(\theta ))$ ${\mathcal {I}}(\theta )=f'(\theta )^{2}\left({\frac {1}{1-f(\theta )}}+{\frac {1}{f(\theta )}}\right).$

Матричная форма

Когда имеется N параметров, так что θ является вектором N × 1 , то информация Фишера принимает форму матрицы N × N. Эта матрица называется информационной матрицей Фишера (FIM) и имеет типичный элемент $\theta ={\begin{bmatrix}\theta _{1}&\theta _{2}&\dots &\theta _{N}\end{bmatrix}}^{\textsf {T}},$

{\bigl [}{\mathcal {I}}(\theta ){\bigr ]}_{i,j}=\operatorname {E} \left[\left.\left({\frac {\partial }{\partial \theta _{i}}}\log f(X;\theta )\right)\left({\frac {\partial }{\partial \theta _{j}}}\log f(X;\theta )\right)\,\,\right|\,\,\theta \right].

FIM — это положительно полуопределенная матрица N × N. Если она положительно определена, то она определяет риманову метрику ^[11] на N - мерном пространстве параметров . Геометрия информации о теме использует это для связи информации Фишера с дифференциальной геометрией , и в этом контексте эта метрика известна как метрика информации Фишера .

При определенных условиях регулярности информационная матрица Фишера может быть также записана в виде

{\bigl [}{\mathcal {I}}(\theta ){\bigr ]}_{i,j}=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta _{i}\,\partial \theta _{j}}}\log f(X;\theta )\,\,\right|\,\,\theta \right]\,.

Результат интересен в нескольких отношениях:

Его можно вывести как гессиан относительной энтропии .
Его можно использовать как риманову метрику для определения геометрии Фишера-Рао, когда она положительно определена. ^[12]
Ее можно понимать как метрику, полученную из евклидовой метрики после соответствующей замены переменной.
В комплекснозначной форме это метрика Фубини–Штуди .
Это ключевая часть доказательства теоремы Уилкса , которая позволяет оценивать доверительную область для оценки максимального правдоподобия (для тех условий, для которых она применима) без необходимости использования принципа правдоподобия .
В случаях, когда аналитические вычисления FIM, указанные выше, затруднительны, можно сформировать среднее значение простых оценок Монте-Карло гессиана отрицательной логарифмической функции правдоподобия в качестве оценки FIM. ^[13]^[14]^[15] Оценки могут быть основаны на значениях отрицательной логарифмической функции правдоподобия или градиенте отрицательной логарифмической функции правдоподобия; аналитический расчет гессиана отрицательной логарифмической функции правдоподобия не требуется.

Информация ортогональных параметров

Мы говорим, что два вектора компонент параметра θ ₁ и θ ₂ являются информационно ортогональными, если информационная матрица Фишера является блочно-диагональной, с этими компонентами в отдельных блоках. ^[16] С ортогональными параметрами легко иметь дело в том смысле, что их оценки максимального правдоподобия асимптотически некоррелированы. При рассмотрении того, как анализировать статистическую модель, модельеру рекомендуется потратить некоторое время на поиск ортогональной параметризации модели, в частности, когда интересующий параметр одномерен, но мешающий параметр может иметь любую размерность. ^[17]

Единичная статистическая модель

Если информационная матрица Фишера положительно определена для всех $θ$ , то соответствующая статистическая модель называется регулярной ; в противном случае статистическая модель называется сингулярной . ^[18] Примерами сингулярных статистических моделей являются следующие: нормальные смеси , биномиальные смеси, полиномиальные смеси, байесовские сети , нейронные сети , радиальные базисные функции , скрытые марковские модели , стохастические контекстно-свободные грамматики , регрессии с пониженным рангом, машины Больцмана .

В машинном обучении , если статистическая модель разработана таким образом, что она извлекает скрытую структуру из случайного явления, то она естественным образом становится сингулярной. ^[19]

Многомерное нормальное распределение

FIM для N -мерного многомерного нормального распределения имеет специальную форму. Пусть K -мерный вектор параметров равен , а вектор случайных нормальных величин равен . Предположим, что средние значения этих случайных величин равны , и пусть будет ковариационной матрицей . Тогда для , элемент ( m , n ) FIM равен: ^[20] $\,X\sim N\left(\mu (\theta ),\,\Sigma (\theta )\right)$ $\theta ={\begin{bmatrix}\theta _{1}&\dots &\theta _{K}\end{bmatrix}}^{\textsf {T}}$ $X={\begin{bmatrix}X_{1}&\dots &X_{N}\end{bmatrix}}^{\textsf {T}}$ $\,\mu (\theta )={\begin{bmatrix}\mu _{1}(\theta )&\dots &\mu _{N}(\theta )\end{bmatrix}}^{\textsf {T}}$ $\,\Sigma (\theta )$ $1\leq m,\,n\leq K$

{\mathcal {I}}_{m,n}={\frac {\partial \mu ^{\textsf {T}}}{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \theta _{n}}}+{\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right),

где обозначает транспонирование вектора, обозначает след квадратной матрицы , а: $(\cdot )^{\textsf {T}}$ $\operatorname {tr} (\cdot )$

{\begin{aligned}{\frac {\partial \mu }{\partial \theta _{m}}}&={\begin{bmatrix}{\dfrac {\partial \mu _{1}}{\partial \theta _{m}}}&{\dfrac {\partial \mu _{2}}{\partial \theta _{m}}}&\cdots &{\dfrac {\partial \mu _{N}}{\partial \theta _{m}}}\end{bmatrix}}^{\textsf {T}};\\[8pt]{\dfrac {\partial \Sigma }{\partial \theta _{m}}}&={\begin{bmatrix}{\dfrac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\dfrac {\partial \Sigma _{1,2}}{\partial \theta _{m}}}&\cdots &{\dfrac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\[5pt]{\dfrac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\dfrac {\partial \Sigma _{2,2}}{\partial \theta _{m}}}&\cdots &{\dfrac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\vdots &\vdots &\ddots &\vdots \\{\dfrac {\partial \Sigma _{N,1}}{\partial \theta _{m}}}&{\dfrac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\cdots &{\dfrac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{bmatrix}}.\end{aligned}}

Обратите внимание, что особый, но очень распространенный случай — это когда , константа. Тогда $\Sigma (\theta )=\Sigma$

{\mathcal {I}}_{m,n}={\frac {\partial \mu ^{\textsf {T}}}{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \theta _{n}}}.\

В этом случае информационная матрица Фишера может быть отождествлена с матрицей коэффициентов нормальных уравнений теории наименьших квадратов .

Другой особый случай возникает, когда среднее значение и ковариация зависят от двух различных векторных параметров, скажем, β и θ . Это особенно популярно в анализе пространственных данных, который часто использует линейную модель с коррелированными остатками. В этом случае ^[21]

{\mathcal {I}}(\beta ,\theta )=\operatorname {diag} \left({\mathcal {I}}(\beta ),{\mathcal {I}}(\theta )\right)

где

{\begin{aligned}{\mathcal {I}}{(\beta )_{m,n}}&={\frac {\partial \mu ^{\textsf {T}}}{\partial \beta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \beta _{n}}},\\[5pt]{\mathcal {I}}{(\theta )_{m,n}}&={\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}{\Sigma ^{-1}}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right)\end{aligned}}

Характеристики

Правило цепочки

Подобно энтропии или взаимной информации , информация Фишера также обладает цепным правилом разложения. В частности, если X и Y являются совместно распределенными случайными величинами, то отсюда следует, что: ^[22]

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y\mid X}(\theta ),

где и — информация Фишера Y относительно , рассчитанная относительно условной плотности Y при заданном значении X = x . ${\mathcal {I}}_{Y\mid X}(\theta )=\operatorname {E} _{X}\left[{\mathcal {I}}_{Y\mid X=x}(\theta )\right]$ ${\mathcal {I}}_{Y\mid X=x}(\theta )$ $\theta$

В частном случае, если две случайные величины независимы , информация, полученная от двух случайных величин, представляет собой сумму информации от каждой случайной величины в отдельности:

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y}(\theta ).

Следовательно, информация в случайной выборке из n независимых и одинаково распределенных наблюдений в n раз превышает информацию в выборке размером 1.

ф-расхождение

При наличии выпуклой функции , которая конечна для всех , , и , (которая может быть бесконечной), она определяет f -дивергенцию . Тогда, если строго выпукла при , то локально при , информационная матрица Фишера является метрикой, в том смысле, что ^[23] где — распределение, параметризованное . То есть, это распределение с pdf . $f:[0,\infty )\to (-\infty ,\infty ]$ $f(x)$ $x>0$ $f(1)=0$ $f(0)=\lim _{t\to 0^{+}}f(t)$ $D_{f}$ $f$ $1$ $\theta \in \Theta$ $(\delta \theta )^{T}I(\theta )(\delta \theta )={\frac {1}{f''(1)}}D_{f}(P_{\theta +\delta \theta }\parallel P_{\theta })$ $P_{\theta }$ $\theta$ $f(x;\theta )$

В этой форме становится ясно, что информационная матрица Фишера является римановой метрикой и корректно изменяется при замене переменных. (см. раздел о репараметризации.)

Достаточная статистика

Информация, предоставляемая достаточной статистикой , та же, что и у выборки X. Это можно увидеть, используя критерий факторизации Неймана для достаточной статистики. Если T ( X ) достаточно для θ , то

f(X;\theta )=g(T(X),\theta )h(X)

для некоторых функций g и h . Независимость h ( X ) от θ подразумевает

{\frac {\partial }{\partial \theta }}\log \left[f(X;\theta )\right]={\frac {\partial }{\partial \theta }}\log \left[g(T(X);\theta )\right],

и равенство информации тогда следует из определения информации Фишера. В более общем смысле, если T = t ( X ) является статистикой , то

{\mathcal {I}}_{T}(\theta )\leq {\mathcal {I}}_{X}(\theta )

с равенством тогда и только тогда, когда T является достаточной статистикой . ^[24]

Репараметризация

Информация Фишера зависит от параметризации проблемы. Если θ и η — две скалярные параметризации задачи оценки, а θ — непрерывно дифференцируемая функция η , то

{\mathcal {I}}_{\eta }(\eta )={\mathcal {I}}_{\theta }(\theta (\eta ))\left({\frac {d\theta }{d\eta }}\right)^{2}

где и являются мерами информации Фишера η и θ соответственно. ^[25] ${\mathcal {I}}_{\eta }$ ${\mathcal {I}}_{\theta }$

В векторном случае предположим, что и являются k -векторами, которые параметризуют задачу оценки, и предположим, что является непрерывно дифференцируемой функцией , тогда ^[26] ${\boldsymbol {\theta }}$ ${\boldsymbol {\eta }}$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\eta }}$

{\mathcal {I}}_{\boldsymbol {\eta }}({\boldsymbol {\eta }})={\boldsymbol {J}}^{\textsf {T}}{\mathcal {I}}_{\boldsymbol {\theta }}({\boldsymbol {\theta }}({\boldsymbol {\eta }})){\boldsymbol {J}}

где ( i , j )-й элемент матрицы Якоби размером k × k определяется как ${\boldsymbol {J}}$

J_{ij}={\frac {\partial \theta _{i}}{\partial \eta _{j}}},

и где находится транспонированная матрица ${\boldsymbol {J}}^{\textsf {T}}$ ${\boldsymbol {J}}.$

В информационной геометрии это рассматривается как изменение координат на римановом многообразии , а внутренние свойства кривизны не изменяются при различных параметризациях. В общем случае информационная матрица Фишера обеспечивает риманову метрику (точнее, метрику Фишера–Рао) для многообразия термодинамических состояний и может использоваться как информационно-геометрическая мера сложности для классификации фазовых переходов , например, скалярная кривизна термодинамического метрического тензора расходится в (и только в) точке фазового перехода. ^[27]

В термодинамическом контексте информационная матрица Фишера напрямую связана со скоростью изменения соответствующих параметров порядка . ^[28] В частности, такие соотношения идентифицируют фазовые переходы второго рода через расхождения отдельных элементов информационной матрицы Фишера.

Изопериметрическое неравенство

Матрица информации Фишера играет роль в неравенстве, подобном изопериметрическому неравенству . ^[29] Из всех распределений вероятностей с заданной энтропией, то, чья матрица информации Фишера имеет наименьший след, является распределением Гаусса. Это похоже на то, как из всех ограниченных множеств с заданным объемом сфера имеет наименьшую площадь поверхности.

Доказательство включает в себя взятие многомерной случайной величины с функцией плотности и добавление параметра местоположения для формирования семейства плотностей . Затем, по аналогии с формулой Минковского–Штайнера , «площадь поверхности» определяется как $X$ $f$ $\{f(x-\theta )\mid \theta \in \mathbb {R} ^{n}\}$ $X$

S(X)=\lim _{\varepsilon \to 0}{\frac {e^{H(X+Z_{\varepsilon })}-e^{H(X)}}{\varepsilon }}

где — гауссовская переменная с ковариационной матрицей . Название «площадь поверхности» является подходящим, поскольку мощность энтропии — это объем «эффективного набора поддержки», ^[30] так же как и «производная» объема эффективного набора поддержки, во многом похожая на формулу Минковского-Штайнера. Оставшаяся часть доказательства использует неравенство мощности энтропии , которое похоже на неравенство Брунна-Минковского . След информационной матрицы Фишера оказывается множителем . $Z_{\varepsilon }$ $\varepsilon I$ $e^{H(X)}$ $S(X)$ $S(X)$

Приложения

Оптимальный дизайн экспериментов

Информация Фишера широко используется в оптимальном экспериментальном планировании . Из-за взаимности оценочной дисперсии и информации Фишера минимизация дисперсии соответствует максимизации информации .

Когда линейная (или линеаризованная ) статистическая модель имеет несколько параметров , среднее значение оценки параметра является вектором , а его дисперсия — матрицей . Обратная матрица дисперсии называется «информационной матрицей». Поскольку дисперсия оценки вектора параметра является матрицей, проблема «минимизации дисперсии» усложняется. Используя статистическую теорию , статистики сжимают информационную матрицу, используя действительные сводные статистики ; будучи действительными функциями, эти «информационные критерии» могут быть максимизированы.

Традиционно статистики оценивали оценщики и планы, рассматривая некоторую сводную статистику матрицы ковариации (несмещенной оценки), обычно с положительными действительными значениями (например, определитель или след матрицы ). Работа с положительными действительными числами дает несколько преимуществ: если оценщик одного параметра имеет положительную дисперсию, то дисперсия и информация Фишера являются положительными действительными числами; следовательно, они являются членами выпуклого конуса неотрицательных действительных чисел (ненулевые члены которого имеют обратные величины в этом же конусе).

Для нескольких параметров ковариационные матрицы и информационные матрицы являются элементами выпуклого конуса неотрицательно-определенных симметричных матриц в частично упорядоченном векторном пространстве , под порядком Левнера (Löwner). Этот конус замкнут относительно сложения и инверсии матриц, а также относительно умножения положительных действительных чисел и матриц. Изложение теории матриц и порядка Левнера появляется в Pukelsheim. ^[31]

Традиционные критерии оптимальности являются инвариантами информационной матрицы в смысле теории инвариантов ; алгебраически традиционные критерии оптимальности являются функционалами собственных значений информационной матрицы (Фишера) (см. оптимальное проектирование ).

Джеффрис Прайор в байесовской статистике

В байесовской статистике информация Фишера используется для расчета априорной вероятности Джеффриса , которая является стандартной, неинформативной априорной вероятностью для непрерывных параметров распределения. ^[32]

Вычислительная нейронаука

Информация Фишера использовалась для поиска границ точности нейронных кодов . В этом случае X обычно представляет собой совместные ответы многих нейронов, представляющих низкоразмерную переменную θ (такую как параметр стимула ). В частности, изучалась роль корреляций в шуме нейронных ответов. ^[33]

Эпидемиология

Информация Фишера использовалась для изучения того, насколько информативны различные источники данных для оценки числа воспроизводства SARS-CoV-2. ^[34]

Вывод физических законов

Информация Фишера играет центральную роль в спорном принципе, выдвинутом Фриденом в качестве основы физических законов, утверждение, которое было оспорено. ^[35]

Машинное обучение

Информация Фишера используется в методах машинного обучения, таких как упругая консолидация веса , ^[36] , которая уменьшает катастрофическое забывание в искусственных нейронных сетях .

Информация Фишера может использоваться как альтернатива гессиану функции потерь при обучении сети градиентного спуска второго порядка. ^[37]

Цветовая дискриминация

Используя информационную метрику Фишера , да Фонсека и др. ^[38] исследовали, в какой степени эллипсы Мак-Адама (эллипсы цветового различения) могут быть получены из функций реагирования ретинальных фоторецепторов.

Отношение к относительной энтропии

Информация Фишера связана с относительной энтропией . ^[39] Относительная энтропия, или расхождение Кульбака–Лейблера , между двумя распределениями может быть записана как $p$ $q$

KL(p:q)=\int p(x)\log {\frac {p(x)}{q(x)}}\,dx.

Теперь рассмотрим семейство распределений вероятностей, параметризованное с помощью . Тогда расхождение Кульбака–Лейблера между двумя распределениями в семействе можно записать как $f(x;\theta )$ $\theta \in \Theta$

D(\theta ,\theta ')=KL(p({}\cdot {};\theta ):p({}\cdot {};\theta '))=\int f(x;\theta )\log {\frac {f(x;\theta )}{f(x;\theta ')}}\,dx.

Если фиксировано, то относительная энтропия между двумя распределениями одного семейства минимизируется при . Для близких к можно разложить предыдущее выражение в ряд до второго порядка: $\theta$ $\theta '=\theta$ $\theta '$ $\theta$

D(\theta ,\theta ')={\frac {1}{2}}(\theta '-\theta )^{\textsf {T}}\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}D(\theta ,\theta ')\right)_{\theta '=\theta }(\theta '-\theta )+o\left((\theta '-\theta )^{2}\right)

Но производную второго порядка можно записать как

\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}D(\theta ,\theta ')\right)_{\theta '=\theta }=-\int f(x;\theta )\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}\log(f(x;\theta '))\right)_{\theta '=\theta }\,dx=[{\mathcal {I}}(\theta )]_{i,j}.

Таким образом, информация Фишера представляет собой кривизну относительной энтропии условного распределения по отношению к его параметрам.

История

Информация Фишера обсуждалась несколькими ранними статистиками, в частности Ф. И. Эджвортом . ^[40] Например, Сэвидж ^[41] говорит: «В ней [информации Фишера] он [Фишер] был в некоторой степени предвосхищен (Эджворт 1908–9 в особенности 502, 507–8, 662, 677–8, 82–5 и ссылки, которые он [Эджворт] цитирует, включая Пирсона и Файлона 1898 [. . .])». Существует ряд ранних исторических источников ^[42] и ряд обзоров этой ранней работы. ^[43]^[44]^[45]

Смотрите также

Другие меры, используемые в теории информации :

Примечания

^ Роберт, Кристиан (2007). «Неинформативные априорные распределения». Байесовский выбор (2-е изд.). Springer. стр. 127–141. ISBN 978-0-387-71598-8.
^ Le Cam, Lucien (1986). Асимптотические методы в статистической теории принятия решений . Нью-Йорк: Springer. С. 618–621. ISBN 0-387-96307-3.
^ Касс, Роберт Э.; Тирни, Люк; Кадане, Джозеф Б. (1990). «Достоверность апостериорных расширений на основе метода Лапласа». В Geisser, S.; Hodges, JS; Press, SJ; Zellner, A. (ред.). Байесовские и правдоподобные методы в статистике и эконометрике . Elsevier. стр. 473–488. ISBN 0-444-88376-2.
^ Фриден и Гейтенби (2013).
^ Суба Рао. "Лекции по статистическому выводу" (PDF) . Архивировано из оригинала (PDF) 2020-09-26 . Получено 2013-04-12 .
↑ Фишер (1922).
^ Леманн и Каселла (1998), уравнение (2.5.16), Лемма 5.3, стр.116.
^ Шервиш, Марк Дж. (1995). Теория статистики. Нью-Йорк, штат Нью-Йорк: Springer New York. п. 111. ИСБН 978-1-4612-4250-5. OCLC 852790658.
^ Крамер (1946).
^ Рао (1945).
^ Нильсен, Франк (2023). "Простой метод аппроксимации расстояния Фишера–Рао между многомерными нормальными распределениями". Энтропия . 25 (4): 654. arXiv : 2302.08175 . Bibcode :2023Entrp..25..654N. doi : 10.3390/e25040654 . PMC 10137715 . PMID 37190442.
^ Нильсен, Франк (2013). «Нижняя граница Крамера-Рао и информационная геометрия». Связанные на бесконечности II . Тексты и чтения по математике. Том 67. С. 18–37. arXiv : 1301.3578 . doi :10.1007/978-93-86279-56-9_2. ISBN 978-93-80250-51-9. S2CID 16759683.
^ Сполл, Дж. К. (2005). «Вычисление Монте-Карло информационной матрицы Фишера в нестандартных условиях». Журнал вычислительной и графической статистики . 14 (4): 889–909. doi :10.1198/106186005X78800. S2CID 16090098.
^ Сполл, Дж. К. (2008), «Улучшенные методы оценки Монте-Карло информационной матрицы Фишера», Труды Американской конференции по контролю , Сиэтл, Вашингтон, 11–13 июня 2008 г., стр. 2395–2400. https://doi.org/10.1109/ACC.2008.4586850
^ Das, S.; Spall, JC; Ghanem, R. (2010). «Эффективное вычисление Монте-Карло информационной матрицы Фишера с использованием априорной информации». Computational Statistics and Data Analysis . 54 (2): 272–289. doi :10.1016/j.csda.2009.09.018.
^ Barndorff-Nielsen, OE; Cox, DR (1994). Вывод и асимптотика . Chapman & Hall. ISBN 9780412494406.
^ Кокс, DR; Рейд, Н. (1987). «Ортогональность параметров и приближенный условный вывод (с обсуждением)». J. Royal Statistical Soc. B . 49 : 1–39. doi :10.1111/j.2517-6161.1987.tb01422.x.
^ Ватанабэ, С. (2008), Аккарди, Л.; Фройденберг, В.; Ойя, М. (ред.), «Алгебро-геометрический метод в сингулярной статистической оценке», Квантовая биоинформатика , World Scientific : 325–336, Bibcode : 2008qbi..conf..325W, doi : 10.1142/9789812793171_0024, ISBN 978-981-279-316-4.
^ Ватанабе, С. (2013). «Широко применимый байесовский информационный критерий». Журнал исследований машинного обучения . 14 : 867–897.
^ Малаго, Луиджи; Пистоне, Джованни (2015). «Информационная геометрия гауссовского распределения с учетом стохастической оптимизации». Труды конференции ACM 2015 года по основам генетических алгоритмов XIII . С. 150–162. doi :10.1145/2725494.2725510. ISBN 9781450334341. S2CID 693896.
^ Мардиа, К. В.; Маршалл, Р. Дж. (1984). «Оценка максимального правдоподобия моделей для остаточной ковариации в пространственной регрессии». Biometrika . 71 (1): 135–46. doi :10.1093/biomet/71.1.135.
^ Замир, Р. (1998). «Доказательство информационного неравенства Фишера с помощью аргумента обработки данных». Труды IEEE по теории информации . 44 (3): 1246–1250. CiteSeerX 10.1.1.49.6628 . doi :10.1109/18.669301.
^ Полянский, Юрий (2017). "Lecture notes on information theory, chapter 29, ECE563 (UIUC)" (PDF) . Lecture notes on information theory . Архивировано (PDF) из оригинала 2022-05-24 . Получено 2022-05-24 .
^ Шервиш, Марк Дж. (1995). Теория статистики . Спрингер-Верлаг. п. 113.
^ Леманн и Каселла (1998), уравнение (2.5.11).
^ Леманн и Каселла (1998), уравнение (2.6.16).
^ Janke, W.; Johnston, DA; Kenna, R. (2004). «Информационная геометрия и фазовые переходы». Physica A. 336 ( 1–2): 181. arXiv : cond-mat/0401092 . Bibcode : 2004PhyA..336..181J. doi : 10.1016/j.physa.2004.01.023. S2CID 119085942.
^ Прокопенко, М.; Лизье, Джозеф Т.; Лизье, Дж. Т.; Обст, О.; Ванг, X. Р. (2011). «Связь информации Фишера с параметрами порядка». Physical Review E. 84 ( 4): 041116. Bibcode : 2011PhRvE..84d1116P. doi : 10.1103/PhysRevE.84.041116. PMID 22181096. S2CID 18366894.
^ Коста, М.; Кавер, Т. (ноябрь 1984). «О сходстве неравенства энтропийной мощности и неравенства Брунна-Минковского». Труды IEEE по теории информации . 30 (6): 837–839. doi :10.1109/TIT.1984.1056983. ISSN 1557-9654.
^ Обложка, Томас М. (2006). Элементы теории информации. Джой А. Томас (2-е изд.). Хобокен, Нью-Джерси: Wiley-Interscience. стр. 256. ISBN 0-471-24195-4. OCLC 59879802.
^ Пукельсхайм, Фридрих (1993). Оптимальный дизайн экспериментов . Нью-Йорк: Wiley. ISBN 978-0-471-61971-0.
^ Бернардо, Хосе М.; Смит, Адриан Ф.М. (1994). Байесовская теория . Нью-Йорк: John Wiley & Sons. ISBN 978-0-471-92416-6.
^ Эбботт, Ларри Ф.; Даян, Питер (1999). «Влияние коррелированной изменчивости на точность популяционного кода». Neural Computation . 11 (1): 91–101. doi :10.1162/089976699300016827. PMID 9950724. S2CID 2958438.
^ Параг, К. В.; Доннелли, К. А.; Заребски, А. Е. (2022). «Количественная оценка информации в зашумленных эпидемических кривых». Nature Computational Science . 2 (9): 584–594. doi : 10.1038/s43588-022-00313-1 . hdl : 10044/1/100205 . PMID 38177483. S2CID 248811793.
^ Стритер, РФ (2007). Проигранные дела в физике и за ее пределами . Springer. стр. 69. ISBN 978-3-540-36581-5.
^ Киркпатрик, Джеймс; Паскану, Разван; Рабинович, Нил; Венесс, Джоэл; Дежарденс, Гийом; Русу, Андрей А.; Милан, Киран; Куан, Джон; Рамальо, Тиаго (28.03.2017). «Преодоление катастрофического забывания в нейронных сетях». Труды Национальной академии наук . 114 (13): 3521–3526. arXiv : 1612.00796 . Bibcode : 2017PNAS..114.3521K. doi : 10.1073/pnas.1611835114 . ISSN 0027-8424. PMC 5380101. PMID 28292907 .
^ Мартенс, Джеймс (август 2020 г.). «Новые идеи и перспективы метода естественного градиента». Журнал исследований машинного обучения (21). arXiv : 1412.1193 .
^ da Fonseca, Maria; Samengo, In´es (1 декабря 2016 г.). «Вывод способности человека к хроматическому различению из информационно-теоретического понятия расстояния в цветовом пространстве». Neural Computation . 28 (12): 2628–2655. arXiv : 1611.07272 . doi :10.1162/NECO_a_00903.
^ Гурьеру и Монфор (1995), стр. 87
↑ Сэвидж (1976).
↑ Сэвидж (1976), стр. 156.
^ Эджворт (1908b); Эджворт (1908c).
^ Пратт (1976).
^ Стиглер (1978); Стиглер (1986); Стиглер (1999).
^ Хальд (1998); Хальд (1999).

Ссылки

Крамер, Харальд (1946). Математические методы статистики . Математическая серия Принстона. Принстон: Princeton University Press. ISBN 0691080046.
Edgeworth, FY (июнь 1908 г.). «О вероятных ошибках частотных констант». Журнал Королевского статистического общества . 71 (2): 381–397. doi :10.2307/2339461. JSTOR 2339461.
Edgeworth, FY (сентябрь 1908 г.). «О вероятных ошибках частотных констант (продолжение)». Журнал Королевского статистического общества . 71 (3): 499–512. doi :10.2307/2339293. JSTOR 2339293.
Edgeworth, FY (декабрь 1908 г.). «О вероятных ошибках частотных констант (продолжение)». Журнал Королевского статистического общества . 71 (4): 651–678. doi :10.2307/2339378. JSTOR 2339378.
Фишер, РА (1922-01-01). «О математических основах теоретической статистики». Philosophical Transactions of the Royal Society of London, Series A. 222 ( 594–604): 309–368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 .
Фриден, BR (2004). Наука из информации Фишера: Объединение . Cambridge Univ. Press. ISBN 0-521-00911-1.
Фриден, Б. Рой; Гейтенби, Роберт А. (2013). «Принцип максимальной информации Фишера из аксиом Харди, применяемый к статистическим системам». Physical Review E . 88 (4): 042144. arXiv : 1405.0007 . Bibcode :2013PhRvE..88d2144F. doi :10.1103/PhysRevE.88.042144. PMC 4010149 . PMID 24229152.
Hald, A. (май 1999). «Об истории максимального правдоподобия в связи с обратной вероятностью и наименьшими квадратами». Статистическая наука . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR 2676741.
Хальд, А. (1998). История математической статистики с 1750 по 1930 год . Нью-Йорк: Wiley. ISBN 978-0-471-17912-2.
Леманн, Э. Л .; Каселла, Г. (1998). Теория точечной оценки (2-е изд.). Springer. ISBN 978-0-387-98502-2.
Le Cam, Lucien (1986). Асимптотические методы в теории статистических решений . Springer-Verlag. ISBN 978-0-387-96307-5.
Пратт, Джон В. (май 1976 г.). «Ф. И. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия». Annals of Statistics . 4 (3): 501–514. doi : 10.1214/aos/1176343457 . JSTOR 2958222.
Рао, К. Радхакришна (1945). «Информация и точность, достижимая при оценке статистических параметров». Прорывы в статистике . Springer Series in Statistics. Том 37. С. 81–91. doi :10.1007/978-1-4612-0919-5_16. ISBN 978-0-387-94037-3. S2CID 117034671. {{cite book}}: |journal=проигнорировано ( помощь )
Savage, LJ (май 1976). «О перечитывании RA Fisher». Annals of Statistics . 4 (3): 441–500. doi : 10.1214/aos/1176343456 . JSTOR 2958221.
Шервиш, Марк Дж. (1995). Теория статистики . Нью-Йорк: Спрингер. ISBN 978-0-387-94546-0.
Стиглер, SM (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN 978-0-674-40340-6.^{[ нужна страница ]}
Стиглер, SM (1978). "Фрэнсис Исидро Эджворт, статистик" . Журнал Королевского статистического общества, серия A. 141 ( 3): 287–322. doi :10.2307/2344804. JSTOR 2344804.
Стиглер, SM (1999). Статистика на столе: История статистических концепций и методов . Издательство Гарвардского университета. ISBN 978-0-674-83601-3. ^{[ нужна страница ]}
Van Trees, HL (1968). Теория обнаружения, оценки и модуляции, часть I. Нью-Йорк: Wiley. ISBN 978-0-471-09517-0.