stringtranslate.com

Статистическое расстояние

В статистике , теории вероятностей и теории информации статистическое расстояние количественно определяет расстояние между двумя статистическими объектами, которые могут быть двумя случайными величинами или двумя распределениями вероятностей или выборками , или расстояние может быть между отдельной точкой выборки и совокупностью или более широкой выборкой точек.

Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей , и, следовательно, они по сути являются мерами расстояний между мерами вероятностей . Там, где статистические меры расстояния относятся к различиям между случайными величинами , они могут иметь статистическую зависимость , [1] и, следовательно, эти расстояния не связаны напрямую с мерами расстояний между мерами вероятностей. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.

Многие статистические меры расстояния не являются метриками , а некоторые не являются симметричными. Некоторые типы мер расстояния, которые обобщают квадрат расстояния, называются (статистическими) расхождениями .

Терминология

Для обозначения различных понятий расстояния используется множество терминов; они часто схожи до степени смешения и могут использоваться непоследовательно между авторами и с течением времени, как в широком смысле, так и с точным техническим значением. Помимо «расстояния», к схожим терминам относятся девиация , отклонение , расхождение , дискриминация и расхождение , а также другие, такие как функция контраста и метрика . Термины из теории информации включают кросс-энтропию , относительную энтропию , информацию о дискриминации и прирост информации .

Расстояния как метрики

Метрики

Метрика на множестве X — это функция (называемая функцией расстояния или просто расстоянием ) d  : X × XR + (где R + — множество неотрицательных действительных чисел ). Для всех x , y , z в X эта функция должна удовлетворять следующим условиям:

  1. d ( x , y ) ≥ 0 ( неотрицательность )
  2. d ( x , y ) = 0 тогда и только тогда , когда   x = y     ( тождество неразличимых . Обратите внимание , что условия 1 и 2 вместе дают положительную определенность )
  3. d ( x , y ) = d ( y , x ) ( симметрия )
  4. d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( субаддитивность / неравенство треугольника ).

Обобщенные метрики

Многие статистические расстояния не являются метриками , поскольку им не хватает одного или нескольких свойств собственных метрик. Например, псевдометрики нарушают свойство (2), тождество неразличимых; квазиметрики нарушают свойство (3), симметрию; а полуметрики нарушают свойство (4), неравенство треугольника. Статистические расстояния, которые удовлетворяют (1) и (2), называются дивергенциями .

Статистически близко

Общее расстояние вариации двух распределений и в конечном домене (часто называемое статистической разностью [2] или статистическим расстоянием [3] в криптографии) определяется как

.

Мы говорим, что два вероятностных ансамбля и статистически близки, если — пренебрежимо малая функция в .

Примеры

Метрики

Расхождения

Смотрите также

Примечания

  1. ^ Додж, И. (2003) — запись на расстояние
  2. ^ Голдрайх, Одед (2001). Основы криптографии: основные инструменты (1-е изд.). Берлин: Cambridge University Press . стр. 106. ISBN 0-521-79172-3.
  3. ^ Рейзин, Лео. (Конспект лекций) Экстракторы и лемма об оставшемся хэше

Внешние ссылки

Ссылки