stringtranslate.com

Статистическое расстояние

В статистике , теории вероятностей и теории информации статистическое расстояние количественно определяет расстояние между двумя статистическими объектами, которые могут быть двумя случайными величинами или двумя распределениями вероятностей или выборками , или расстояние может быть между отдельной точкой выборки и генеральной совокупностью или совокупностью. более широкая выборка точек.

Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей , и, следовательно, они, по сути, являются мерами расстояний между мерами вероятности . Если статистические меры расстояния связаны с различиями между случайными величинами , они могут иметь статистическую зависимость [1] и, следовательно , эти расстояния не связаны напрямую с мерами расстояний между вероятностными мерами. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.

Многие статистические меры расстояния не являются метриками , а некоторые не симметричны. Некоторые типы мер расстояния, которые обобщают квадрат расстояния, называются (статистическими) расхождениями .

Терминология

Многие термины используются для обозначения различных понятий расстояния; они часто схожи до степени смешения и могут использоваться по-разному между авторами и с течением времени, либо в общих чертах, либо с точным техническим смыслом. Помимо «расстояния», подобные термины включают отклонение , отклонение , несоответствие , дискриминацию и дивергенцию , а также другие, такие как функция контраста и метрика . Термины теории информации включают перекрестную энтропию , относительную энтропию , информацию о дискриминации и прирост информации .

Расстояния как метрики

Метрики

Метрикой на множестве X является функция (называемая функцией расстояния или просто расстоянием ) d  : X × X R + (где R + — множество неотрицательных действительных чисел ). Для всех x , y , z в X эта функция должна удовлетворять следующим условиям:

  1. d ( x , y ) ≥ 0 ( неотрицательность )
  2. d ( x , y ) = 0 тогда и только тогда, когда   x = y     ( тождество неразличимых . Обратите внимание, что условия 1 и 2 вместе производят положительную определенность )
  3. d ( Икс , y ) знак равно d ( y , Икс ) ( симметрия )
  4. d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( субаддитивность / неравенство треугольника ).

Обобщенные метрики

Многие статистические расстояния не являются метриками , поскольку им не хватает одного или нескольких свойств правильных метрик. Например, псевдометрика нарушает свойство (2) тождество неразличимых; квазиметрика нарушает свойство (3) – симметрию; а полуметрики нарушают свойство (4) — неравенство треугольника. Статистические расстояния, удовлетворяющие (1) и (2), называются дивергенциями .

Статистически близко

Общее расстояние вариации двух распределений и в конечной области (часто называемое статистической разницей [2] или статистическим расстоянием [3] в криптографии) определяется как

.

Мы говорим, что два вероятностных ансамбля и статистически близки, если – пренебрежимо малая функция в .

Примеры

Метрики

Расхождения

Смотрите также

Примечания

  1. ^ Додж, Ю. (2003) - запись на расстояние
  2. ^ Гольдрейх, Одед (2001). Основы криптографии: основные инструменты (1-е изд.). Берлин: Издательство Кембриджского университета . п. 106. ИСБН 0-521-79172-3.
  3. ^ Рейзин, Лео. (Конспекты лекций) Экстракторы и лемма об остаточном хеше

Внешние ссылки

Рекомендации