Сходство двух распределений вероятностей
В статистике расстояние Бхаттачарьи представляет собой величину, которая представляет собой понятие сходства между двумя распределениями вероятностей . Он тесно связан с коэффициентом Бхаттачарьи , который является мерой степени перекрытия между двумя статистическими выборками или популяциями.
Это не метрика , несмотря на то, что ее называют «расстоянием», поскольку она не подчиняется неравенству треугольника .
История
И расстояние Бхаттачарьи, и коэффициент Бхаттачарьи названы в честь Анила Кумара Бхаттачарьи , статистика , работавшего в 1930-х годах в Индийском статистическом институте . [1] Он разработал это в серии статей. [2] [3] [4] Он разработал метод измерения расстояния между двумя ненормальными распределениями и проиллюстрировал это на примере классических полиномиальных популяций. [2] эта работа, несмотря на то, что она была представлена для публикации в 1941 году, появилась почти пять лет спустя. в Санкхье . [2] [1] Следовательно, профессор Бхаттачарья начал работать над разработкой метрики расстояния для распределений вероятностей, которые абсолютно непрерывны относительно меры Лебега, и опубликовал свой прогресс в 1942 году на Трудах Индийского научного конгресса [3] и заключительном докладе. Работа появилась в 1943 году в Бюллетене Калькуттского математического общества . [4]
Определение
Для распределений вероятностей и в той же области расстояние Бхаттачарьи определяется как![{\displaystyle P}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\mathcal {X}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle D_{B}(P,Q)=-\ln \left(BC(P,Q)\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где
![{\displaystyle BC(P,Q)=\sum _{x\in {\mathcal {X}}}{\sqrt {P(x)Q(x)}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
— коэффициент Бхаттачарьи для дискретных распределений вероятностей .
Для непрерывных распределений вероятностей с и где и являются функциями плотности вероятности , коэффициент Бхаттачарьи определяется как![{\displaystyle P(dx)=p(x)dx}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q(dx)=q(x)dx}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle p (x)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle q (x)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
.
В более общем смысле, учитывая две вероятностные меры на измеримом пространстве , пусть будет ( сигма конечная ) мера такая, что и абсолютно непрерывны относительно ie такие, что , и для функций плотности вероятности относительно определенных - почти всюду. Такая мера, даже такая вероятностная мера, всегда существует, например . Затем определим меру Бхаттачарьи на величине![{\displaystyle P,Q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle ({\mathcal {X}}, {\mathcal {B}})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P(dx)=p(x)\lambda (dx)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q(dx)=q(x)\lambda (dx)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p,q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda = {\tfrac {1}{2}}(P+Q)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle ({\mathcal {X}}, {\mathcal {B}})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle bc(dx|P,Q)={\sqrt {p(x)q(x)}}\,\lambda (dx)={\sqrt {{\frac {P(dx)}{\lambda (dx)}}(x){\frac {Q(dx)}{\lambda (dx)}}(x)}}\lambda (dx).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Это не зависит от меры , так как если мы выберем такую меру, что и другой выбор меры абсолютно непрерывен, т. е. и , то ![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mu }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda '}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda =l (x)\mu}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda '=l'(x)\mu }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
,
и аналогично для . Тогда у нас есть![{\displaystyle Q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
.
Наконец, мы определим коэффициент Бхаттачарьи
.
По вышесказанному величина не зависит от , а также по неравенству Коши . В частности, если абсолютно непрерывна относительно производной Радона Никодима , то![{\displaystyle BC(P,Q)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle 0\leq BC(P,Q)\leq 1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle P (dx) = p (x) Q (dx)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(x)={\frac {P(dx)}{Q(dx)}}(x)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle BC(P,Q)=\int _{\mathcal {X}}{\sqrt {p(x)}}Q(dx)=\int _{\mathcal {X}}{\sqrt {\ frac {P(dx)}{Q(dx)}}}Q(dx)=E_{Q}\left[{\sqrt {\frac {P(dx)}{Q(dx)}}}\right] }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Гауссов случай
Пусть , , где – нормальное распределение со средним значением и дисперсией ; затем![{\displaystyle p\sim {\mathcal {N}}(\mu _{p},\sigma _{p}^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle q\sim {\mathcal {N}}(\mu _{q},\sigma _{q}^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\mathcal {N}}(\mu,\sigma ^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mu }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \sigma ^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
.
И вообще, учитывая два многомерных нормальных распределения ,![{\displaystyle p_{i}={\mathcal {N}}({\boldsymbol {\mu }}_{i},\, {\boldsymbol {\Sigma }}_{i})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
,
где [5] Обратите внимание, что первый член представляет собой квадрат расстояния Махаланобиса .![{\displaystyle {\boldsymbol {\Sigma }}={{\boldsymbol {\Sigma }}_{1}+{\boldsymbol {\Sigma }}_{2} \over 2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Характеристики
и .![{\displaystyle 0\leq D_ {B} \leq \infty}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
не подчиняется неравенству треугольника , хотя расстояние Хеллингера подчиняется.![{\displaystyle {\sqrt {1-BC(p,q)}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Границы байесовской ошибки
Расстояние Бхаттачарьи можно использовать для верхней и нижней границы частоты ошибок Байеса :
![{\displaystyle {\frac {1}{2}}-{\frac {1}{2}}{\sqrt {1-4\rho ^{2}}}\leq L^{*}\leq \rho }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где и – апостериорная вероятность. [6]![{\displaystyle \rho =\mathbb {E} {\sqrt {\eta (X) (1-\eta (X)}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \eta (X)=\mathbb {P} (Y=1|X)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Приложения
Коэффициент Бхаттачарьи количественно определяет «близость» двух случайных статистических выборок.
Учитывая две последовательности из распределений , разбейте их по сегментам, и пусть частота выборок из ведра равна , и аналогично для , тогда выборочный коэффициент Бхаттачарьи равен![{\displaystyle P,Q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle п}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle я}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle q_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle BC (\ mathbf {p}, \ mathbf {q}) = \ sum _ {i = 1} ^ {n} {\ sqrt {p_ {i} q_ {i}}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
что является оценкой . Качество оценки зависит от выбора сегментов; слишком мало сегментов будет переоценивать , а слишком много — недооценивать.![{\displaystyle BC(P,Q)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle BC(P,Q)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Общей задачей классификации является оценка разделимости классов. С точностью до мультипликативного множителя квадрат расстояния Махаланобиса является частным случаем расстояния Бхаттачарьи, когда два класса обычно распределяются с одинаковыми дисперсиями. Когда два класса имеют схожие средние значения, но существенно разные дисперсии, расстояние Махаланобиса будет близко к нулю, а расстояние Бхаттачарьи — нет.
Коэффициент Бхаттачарьи используется при построении полярных кодов . [7]
Расстояние Бхаттачарья используется при извлечении и выборе признаков, [8] обработке изображений, [9] распознавании говорящего , [10] и кластеризации телефонов. [11]
Смотрите также
Рекомендации
- ^ Аб Сен, Пранаб Кумар (1996). «Анил Кумар Бхаттачарья (1915–1996): благоговейное воспоминание». Бюллетень Калькуттской статистической ассоциации . 46 (3–4): 151–158. дои : 10.1177/0008068319960301. S2CID 164326977.
- ^ abc Бхаттачарья, А. (1946). «О мере расхождения между двумя многочленными популяциями». Санкхья . 7 (4): 401–406. JSTOR 25047882.
- ^ аб Бхаттачарья, А (1942). «О дискриминации и дивергенции». Материалы Индийского научного конгресса . Азиатское общество Бенгалии.
- ^ Аб Бхаттачарья, А. (март 1943 г.). «О мере расхождения между двумя статистическими совокупностями, определяемыми их распределениями вероятностей». Бюллетень Калькуттского математического общества . 35 : 99–109. МР 0010358.
- ^ Кашьяп, Рави (2019). «Идеальный брак и многое другое: сочетание уменьшения размеров, измерения расстояния и ковариации». Физика А: Статистическая механика и ее приложения . 536 : 120938. arXiv : 1603.09060 . doi :10.1016/j.physa.2019.04.174.
- ^ Деврой Л., Дьерфи Л. и Лугоши Г. Вероятностная теория распознавания образов. Дискретная прикладная математика 73, 192–194 (1997).
- ^ Арикан, Эрдал (июль 2009 г.). «Поляризация канала: метод построения кодов достижения пропускной способности для симметричных каналов без памяти с двоичным входом». Транзакции IEEE по теории информации . 55 (7): 3051–3073. arXiv : 0807.3917 . дои : 10.1109/TIT.2009.2021379. S2CID 889822.
- ^ Юисун Чой, Чулхи Ли, «Извлечение признаков на основе расстояния Бхаттачарья», Распознавание образов , Том 36, Выпуск 8, август 2003 г., Страницы 1703–1709
- ^ Франсуа Гудай, Филипп Рефрежье, Гийом Дельон, «Расстояние Бхаттачарья как параметр контрастности для статистической обработки зашумленных оптических изображений», JOSA A , Vol. 21, выпуск 7, стр. 1231−1240 (2004).
- ^ Чанг Хуай Ю, «Ядро SVM с GMM-супервектором на основе расстояния Бхаттачарья для распознавания говорящего», Signal Processing Letters , IEEE, Vol 16, Is 1, стр. 49-52
- ^ Мак, Б., «Кластеризация телефонов с использованием расстояния Бхаттачарья», Разговорный язык , 1996. ICSLP 96. Proceedings., Четвертая международная конференция, Том 4, стр. 2005–2008, том 4, 3–6 октября 1996 г.
- Нильсен, Ф.; Больц, С. (2010). «Центроиды Бурбеа – Рао и Бхаттачарья». Транзакции IEEE по теории информации . 57 (8): 5455–5466. arXiv : 1004.5049 . дои : 10.1109/TIT.2011.2159046. S2CID 14238708.
- Кайлат, Т. (1967). «Меры расхождения и расстояния Бхаттачарьи при выборе сигнала». Транзакции IEEE по коммуникационным технологиям . 15 (1): 52–60. дои : 10.1109/TCOM.1967.1089532.
- Краткий список свойств см.: http://www.mtm.ufsc.br/~taneja/book/node20.html.
Внешние ссылки