Расстояние Хеллингера

В теории вероятности и статистике расстояние Хеллингера ( тесно связанное с расстоянием Бхаттачарьи, хотя и отличающееся от него ) используется для количественной оценки сходства между двумя распределениями вероятностей . Это разновидность f -дивергенции . Расстояние Хеллингера определяется с помощью интеграла Хеллингера , который был введен Эрнстом Хеллингером в 1909 году ^{. [1]}^[2]

Иногда его называют расстоянием Джеффриса. ^[3]^[4]

Определение

Теория меры

Чтобы определить расстояние Хеллингера в терминах теории меры , пусть и обозначают две вероятностные меры в пространстве с мерой , абсолютно непрерывные относительно вспомогательной меры . Такая мера всегда существует, например . Квадрат расстояния Хеллингера между и определяется как величина $P$ $Q$ ${\mathcal {X}}$ $\lambda$ $\lambda =(P+Q)$ $P$ $Q$

H^{2}(P,Q)={\frac {1}{2}}\displaystyle \int _{\mathcal {X}}\left({\sqrt {p(x)}}-{\sqrt {q(x)}}\right)^{2}\lambda (dx).

Здесь и , т.е. и – производные Радона–Никодима от P и Q соответственно по . Это определение не зависит от , т.е. расстояние Хеллингера между P и Q не меняется, если его заменить другой вероятностной мерой, относительно которой и P , и Q абсолютно непрерывны. Для компактности приведенную выше формулу часто записывают как $P(dx)=p(x)\lambda (dx)$ $Q(dx)=q(x)\lambda (dx)$ $p$ $q$ $\lambda$ $\lambda$ $\lambda$

H^{2}(P,Q)={\frac {1}{2}}\int _{\mathcal {X}}\left({\sqrt {P(dx)}}-{\sqrt {Q(dx)}}\right)^{2}.

Теория вероятностей с использованием меры Лебега

Чтобы определить расстояние Хеллингера с точки зрения элементарной теории вероятностей, мы возьмем λ в качестве меры Лебега , так что dP / dλ и dQ / d λ являются просто функциями плотности вероятности . Если мы обозначим плотности как f и g соответственно, квадрат расстояния Хеллингера можно выразить как стандартный интеграл исчисления.

H^{2}(f,g)={\frac {1}{2}}\int \left({\sqrt {f(x)}}-{\sqrt {g(x)}}\right)^{2}\,dx=1-\int {\sqrt {f(x)g(x)}}\,dx,

где вторую форму можно получить, разложив квадрат и воспользовавшись тем фактом, что интеграл от плотности вероятности по его области определения равен 1.

Расстояние Хеллингера H ( P , Q ) удовлетворяет свойству (выводимому из неравенства Коши – Шварца )

0\leq H(P,Q)\leq 1.

Дискретные распределения

Для двух дискретных распределений вероятностей и их расстояние Хеллингера определяется как $P=(p_{1},\ldots ,p_{k})$ $Q=(q_{1},\ldots ,q_{k})$

H(P,Q)={\frac {1}{\sqrt {2}}}\;{\sqrt {\sum _{i=1}^{k}({\sqrt {p_{i}}}-{\sqrt {q_{i}}})^{2}}},

что напрямую связано с евклидовой нормой разности векторов квадратных корней, т.е.

H(P,Q)={\frac {1}{\sqrt {2}}}\;{\bigl \|}{\sqrt {P}}-{\sqrt {Q}}{\bigr \|}_{2}.

Также, $1-H^{2}(P,Q)=\sum _{i=1}^{k}{\sqrt {p_{i}q_{i}}}.$

Характеристики

Расстояние Хеллингера образует ограниченную метрику в пространстве вероятностных распределений в данном вероятностном пространстве .

Максимальное расстояние 1 достигается, когда P присваивает нулевую вероятность каждому множеству, которому Q присваивает положительную вероятность, и наоборот.

Иногда множитель перед интегралом опускается, и в этом случае расстояние Хеллингера находится в диапазоне от нуля до квадратного корня из двух. $1/2$

Расстояние Хеллингера связано с коэффициентом Бхаттачарьи , поскольку его можно определить как $BC(P,Q)$

H(P,Q)={\sqrt {1-BC(P,Q)}}.

Расстояния Хеллингера используются в теории последовательной и асимптотической статистики . ^[5]^[6]

Квадрат расстояния Хеллингера между двумя нормальными распределениями составляет : $P\sim {\mathcal {N}}(\mu _{1},\sigma _{1}^{2})$ $Q\sim {\mathcal {N}}(\mu _{2},\sigma _{2}^{2})$

H^{2}(P,Q)=1-{\sqrt {\frac {2\sigma _{1}\sigma _{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}}}}\,e^{-{\frac {1}{4}}{\frac {(\mu _{1}-\mu _{2})^{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}}}}.

Квадрат расстояния Хеллингера между двумя многомерными нормальными распределениями и равен ^[7] $P\sim {\mathcal {N}}(\mu _{1},\Sigma _{1})$ $Q\sim {\mathcal {N}}(\mu _{2},\Sigma _{2})$

H^{2}(P,Q)=1-{\frac {\det(\Sigma _{1})^{1/4}\det(\Sigma _{2})^{1/4}}{\det \left({\frac {\Sigma _{1}+\Sigma _{2}}{2}}\right)^{1/2}}}\exp \left\{-{\frac {1}{8}}(\mu _{1}-\mu _{2})^{T}\left({\frac {\Sigma _{1}+\Sigma _{2}}{2}}\right)^{-1}(\mu _{1}-\mu _{2})\right\}

Квадрат расстояния Хеллингера между двумя экспоненциальными распределениями составляет : $P\sim \mathrm {Exp} (\alpha )$ $Q\sim \mathrm {Exp} (\beta )$

H^{2}(P,Q)=1-{\frac {2{\sqrt {\alpha \beta }}}{\alpha +\beta }}.

Квадрат расстояния Хеллингера между двумя распределениями Вейбулла и (где – общий параметр формы, а – параметры масштаба соответственно): $P\sim \mathrm {W} (k,\alpha )$ $Q\sim \mathrm {W} (k,\beta )$ $k$ $\alpha \,,\beta$

H^{2}(P,Q)=1-{\frac {2(\alpha \beta )^{k/2}}{\alpha ^{k}+\beta ^{k}}}.

Квадрат расстояния Хеллингера между двумя распределениями Пуассона с параметрами скорости и , так что и , равен: $\alpha$ $\beta$ $P\sim \mathrm {Poisson} (\alpha )$ $Q\sim \mathrm {Poisson} (\beta )$

H^{2}(P,Q)=1-e^{-{\frac {1}{2}}({\sqrt {\alpha }}-{\sqrt {\beta }})^{2}}.

Квадрат расстояния Хеллингера между двумя бета-распределениями составляет : $P\sim {\text{Beta}}(a_{1},b_{1})$ $Q\sim {\text{Beta}}(a_{2},b_{2})$

H^{2}(P,Q)=1-{\frac {B\left({\frac {a_{1}+a_{2}}{2}},{\frac {b_{1}+b_{2}}{2}}\right)}{\sqrt {B(a_{1},b_{1})B(a_{2},b_{2})}}}

где бета- функция . $B$

Квадрат расстояния Хеллингера между двумя гамма-распределениями составляет : $P\sim {\text{Gamma}}(a_{1},b_{1})$ $Q\sim {\text{Gamma}}(a_{2},b_{2})$

H^{2}(P,Q)=1-\Gamma \left({\scriptstyle {\frac {a_{1}+a_{2}}{2}}}\right)\left({\frac {b_{1}+b_{2}}{2}}\right)^{-(a_{1}+a_{2})/2}{\sqrt {\frac {b_{1}^{a_{1}}b_{2}^{a_{2}}}{\Gamma (a_{1})\Gamma (a_{2})}}}

где гамма - функция . $\Gamma$

Соединение с общим расстоянием изменения

Расстояние Хеллингера и полное вариационное расстояние (или статистическое расстояние) связаны следующим образом: ^[8] $H(P,Q)$ $\delta (P,Q)$

H^{2}(P,Q)\leq \delta (P,Q)\leq {\sqrt {2}}H(P,Q)\,.

Константы в этом неравенстве могут меняться в зависимости от того, какую перенормировку вы выберете ( или ). $1/2$ $1/{\sqrt {2}}$

Эти неравенства непосредственно следуют из неравенств между 1-нормой и 2-нормой .

Смотрите также

Примечания

^ Никулин, М.С. (2001) [1994], «Расстояние Хеллингера», Математическая энциклопедия , EMS Press
^ Хеллингер, Эрнст (1909), "Neue Begründung der Theorie Quadatischer Formen von unendlichvielen Veränderlichen", Journal für die reine und angewandte Mathematik (на немецком языке), 1909 (136): 210–271, doi : 10.1515/crll.1909.136.210 , JFM 40.0393.01, S2CID 121150138
^ "Расстояние Джеффриса - Математическая энциклопедия" . энциклопедияofmath.org . Проверено 24 мая 2022 г.
^ Джеффрис, Гарольд (24 сентября 1946). «Инвариантная форма априорной вероятности в задачах оценки». Труды Лондонского королевского общества. Серия А. Математические и физические науки . 186 (1007): 453–461. Бибкод : 1946RSPSA.186..453J. дои : 10.1098/rspa.1946.0056 . ISSN 0080-4630. PMID 20998741. S2CID 19490929.
^ Торгерсон, Эрик (1991). «Сравнение статистических экспериментов». Энциклопедия математики . Том. 36. Издательство Кембриджского университета.
^ Лизе, Фридрих; Мишке, Клаус-Й. (2008). Статистическая теория принятия решений: оценка, тестирование и отбор . Спрингер. ISBN 978-0-387-73193-3.
^ Пардо, Л. (2006). Статистический вывод на основе мер расхождения . Нью-Йорк: Чепмен и Холл/CRC. п. 51. ИСБН 1-58488-600-5.
↑ Харша, Прахлад (23 сентября 2011 г.). «Конспекты лекций по сложности коммуникации» (PDF) .