В статистике , теории вероятностей и теории информации статистическое расстояние количественно определяет расстояние между двумя статистическими объектами, которые могут быть двумя случайными величинами или двумя распределениями вероятностей или выборками , или расстояние может быть между отдельной точкой выборки и совокупностью или более широкой выборкой точек.
Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей , и, следовательно, они по сути являются мерами расстояний между мерами вероятностей . Там, где статистические меры расстояния относятся к различиям между случайными величинами , они могут иметь статистическую зависимость , [1] и, следовательно, эти расстояния не связаны напрямую с мерами расстояний между мерами вероятностей. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.
Многие статистические меры расстояния не являются метриками , а некоторые не являются симметричными. Некоторые типы мер расстояния, которые обобщают квадрат расстояния, называются (статистическими) расхождениями .
Для обозначения различных понятий расстояния используется множество терминов; они часто схожи до степени смешения и могут использоваться непоследовательно между авторами и с течением времени, как в широком смысле, так и с точным техническим значением. Помимо «расстояния», к схожим терминам относятся девиация , отклонение , расхождение , дискриминация и расхождение , а также другие, такие как функция контраста и метрика . Термины из теории информации включают кросс-энтропию , относительную энтропию , информацию о дискриминации и прирост информации .
Метрика на множестве X — это функция (называемая функцией расстояния или просто расстоянием ) d : X × X → R + (где R + — множество неотрицательных действительных чисел ). Для всех x , y , z в X эта функция должна удовлетворять следующим условиям:
Многие статистические расстояния не являются метриками , поскольку им не хватает одного или нескольких свойств собственных метрик. Например, псевдометрики нарушают свойство (2), тождество неразличимых; квазиметрики нарушают свойство (3), симметрию; а полуметрики нарушают свойство (4), неравенство треугольника. Статистические расстояния, которые удовлетворяют (1) и (2), называются дивергенциями .
Общее расстояние вариации двух распределений и в конечном домене (часто называемое статистической разностью [2] или статистическим расстоянием [3] в криптографии) определяется как
.
Мы говорим, что два вероятностных ансамбля и статистически близки, если — пренебрежимо малая функция в .