Расстояние Бхаттачарья

В статистике расстояние Бхаттачарьи представляет собой величину, которая представляет собой понятие сходства между двумя распределениями вероятностей . Он тесно связан с коэффициентом Бхаттачарьи , который является мерой степени перекрытия между двумя статистическими выборками или популяциями.

Это не метрика , несмотря на то, что ее называют «расстоянием», поскольку она не подчиняется неравенству треугольника .

История

И расстояние Бхаттачарьи, и коэффициент Бхаттачарьи названы в честь Анила Кумара Бхаттачарьи , статистика , работавшего в 1930-х годах в Индийском статистическом институте . ^[1] Он разработал это в серии статей. ^[2]^[3]^[4] Он разработал метод измерения расстояния между двумя ненормальными распределениями и проиллюстрировал это на примере классических полиномиальных популяций. ^[2] эта работа, несмотря на то, что она была представлена для публикации в 1941 году, появилась почти пять лет спустя. в Санкхье . ^[2]^[1] Следовательно, профессор Бхаттачарья начал работать над разработкой метрики расстояния для распределений вероятностей, которые абсолютно непрерывны относительно меры Лебега, и опубликовал свой прогресс в 1942 году на Трудах Индийского научного конгресса ^[3] и заключительном докладе. Работа появилась в 1943 году в Бюллетене Калькуттского математического общества . ^[4]

Определение

Для распределений вероятностей и в той же области расстояние Бхаттачарьи определяется как $P$ $Q$ ${\mathcal {X}}$

D_{B}(P,Q)=-\ln \left(BC(P,Q)\right)

где

BC(P,Q)=\sum _{x\in {\mathcal {X}}}{\sqrt {P(x)Q(x)}}

— коэффициент Бхаттачарьи для дискретных распределений вероятностей .

Для непрерывных распределений вероятностей с и где и являются функциями плотности вероятности , коэффициент Бхаттачарьи определяется как $P(dx)=p(x)dx$ $Q(dx)=q(x)dx$ ${\ displaystyle p (x)}$ ${\ displaystyle q (x)}$

BC(P,Q)=\int _ {\mathcal {X}}{\sqrt {p(x)q(x)}}\,dx

В более общем смысле, учитывая две вероятностные меры на измеримом пространстве , пусть будет ( сигма конечная ) мера такая, что и абсолютно непрерывны относительно ie такие, что , и для функций плотности вероятности относительно определенных - почти всюду. Такая мера, даже такая вероятностная мера, всегда существует, например . Затем определим меру Бхаттачарьи на величине $P,Q$ $({\mathcal {X}}, {\mathcal {B}})$ $\lambda$ $P$ $Q$ $\lambda$ $P(dx)=p(x)\lambda (dx)$ $Q(dx)=q(x)\lambda (dx)$ $p,q$ $\lambda$ $\lambda$ $\lambda = {\tfrac {1}{2}}(P+Q)$ $({\mathcal {X}}, {\mathcal {B}})$

bc(dx|P,Q)={\sqrt {p(x)q(x)}}\,\lambda (dx)={\sqrt {{\frac {P(dx)}{\lambda (dx)}}(x){\frac {Q(dx)}{\lambda (dx)}}(x)}}\lambda (dx).

Это не зависит от меры , так как если мы выберем такую меру, что и другой выбор меры абсолютно непрерывен, т. е. и , то $\lambda$ $\mu$ $\lambda$ $\lambda '$ $\lambda =l(x)\mu$ $\lambda '=l'(x)\mu$

P(dx)=p(x)\lambda (dx)=p'(x)\lambda '(dx)=p(x)l(x)\mu (dx)=p'(x)l'(x)\mu (dx)

и аналогично для . Тогда у нас есть $Q$

bc(dx|P,Q)={\sqrt {p(x)q(x)}}\,\lambda (dx)={\sqrt {p(x)q(x)}}\,l(x)\mu (x)={\sqrt {p(x)l(x)q(x)\,l(x)}}\mu (dx)={\sqrt {p'(x)l'(x)q'(x)l'(x)}}\,\mu (dx)={\sqrt {p'(x)q'(x)}}\,\lambda '(dx)

Наконец, мы определим коэффициент Бхаттачарьи

BC(P,Q)=\int _{\mathcal {X}}bc(dx|P,Q)=\int _{\mathcal {X}}{\sqrt {p(x)q(x)}}\,\lambda (dx)

По вышесказанному величина не зависит от , а также по неравенству Коши . В частности, если абсолютно непрерывна относительно производной Радона Никодима , то $BC(P,Q)$ $\lambda$ $0\leq BC(P,Q)\leq 1$ $P(dx)=p(x)Q(dx)$ $Q$ $p(x)={\frac {P(dx)}{Q(dx)}}(x)$

BC(P,Q)=\int _{\mathcal {X}}{\sqrt {p(x)}}Q(dx)=\int _{\mathcal {X}}{\sqrt {\frac {P(dx)}{Q(dx)}}}Q(dx)=E_{Q}\left[{\sqrt {\frac {P(dx)}{Q(dx)}}}\right]

Гауссов случай

Пусть , , где – нормальное распределение со средним значением и дисперсией ; затем $p\sim {\mathcal {N}}(\mu _{p},\sigma _{p}^{2})$ $q\sim {\mathcal {N}}(\mu _{q},\sigma _{q}^{2})$ ${\mathcal {N}}(\mu ,\sigma ^{2})$ $\mu$ $\sigma ^{2}$

D_{B}(p,q)={\frac {1}{4}}{\frac {(\mu _{p}-\mu _{q})^{2}}{\sigma _{p}^{2}+\sigma _{q}^{2}}}+{\frac {1}{2}}\ln \left({\frac {\sigma _{p}^{2}+\sigma _{q}^{2}}{2\sigma _{p}\sigma _{q}}}\right)

И вообще, учитывая два многомерных нормальных распределения , $p_{i}={\mathcal {N}}({\boldsymbol {\mu }}_{i},\,{\boldsymbol {\Sigma }}_{i})$

D_{B}(p_{1},p_{2})={1 \over 8}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{2})^{T}{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{2})+{1 \over 2}\ln \,\left({\det {\boldsymbol {\Sigma }} \over {\sqrt {\det {\boldsymbol {\Sigma }}_{1}\,\det {\boldsymbol {\Sigma }}_{2}}}}\right)

где ^[5] Обратите внимание, что первый член представляет собой квадрат расстояния Махаланобиса . ${\boldsymbol {\Sigma }}={{\boldsymbol {\Sigma }}_{1}+{\boldsymbol {\Sigma }}_{2} \over 2}.$

Характеристики

$0\leq BC\leq 1$ и . $0\leq D_{B}\leq \infty$

$D_{B}$ не подчиняется неравенству треугольника , хотя расстояние Хеллингера подчиняется. ${\sqrt {1-BC(p,q)}}$

Границы байесовской ошибки

Расстояние Бхаттачарьи можно использовать для верхней и нижней границы частоты ошибок Байеса :

{\frac {1}{2}}-{\frac {1}{2}}{\sqrt {1-4\rho ^{2}}}\leq L^{*}\leq \rho

где и – апостериорная вероятность. ^[6] $\rho =\mathbb {E} {\sqrt {\eta (X)(1-\eta (X)}}$ $\eta (X)=\mathbb {P} (Y=1|X)$

Приложения

Коэффициент Бхаттачарьи количественно определяет «близость» двух случайных статистических выборок.

Учитывая две последовательности из распределений , разбейте их по сегментам, и пусть частота выборок из ведра равна , и аналогично для , тогда выборочный коэффициент Бхаттачарьи равен $P,Q$ $n$ $P$ $i$ $p_{i}$ $q_{i}$

BC(\mathbf {p} ,\mathbf {q} )=\sum _{i=1}^{n}{\sqrt {p_{i}q_{i}}},

что является оценкой . Качество оценки зависит от выбора сегментов; слишком мало сегментов будет переоценивать , а слишком много — недооценивать. $BC(P,Q)$ $BC(P,Q)$

Общей задачей классификации является оценка разделимости классов. С точностью до мультипликативного множителя квадрат расстояния Махаланобиса является частным случаем расстояния Бхаттачарьи, когда два класса обычно распределяются с одинаковыми дисперсиями. Когда два класса имеют схожие средние значения, но существенно разные дисперсии, расстояние Махаланобиса будет близко к нулю, а расстояние Бхаттачарьи — нет.

Коэффициент Бхаттачарьи используется при построении полярных кодов . ^[7]

Расстояние Бхаттачарья используется при извлечении и выборе признаков, ^[8] обработке изображений, ^[9] распознавании говорящего , ^[10] и кластеризации телефонов. ^[11]

Смотрите также

Внешние ссылки

«Расстояние Бхаттачарьи», Математическая энциклопедия , EMS Press , 2001 [1994]
Мера расстояния Бхаттачарьи как предшественник генетических мер расстояния, Журнал биологических наук , 2004 г.
Статистическая интуиция расстояния Бхаттачарьи