В статистике , теории вероятностей и теории информации статистическое расстояние количественно определяет расстояние между двумя статистическими объектами, которые могут быть двумя случайными величинами или двумя распределениями вероятностей или выборками , или расстояние может быть между отдельной точкой выборки и генеральной совокупностью или совокупностью. более широкая выборка точек.
Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей , и, следовательно, они, по сути, являются мерами расстояний между мерами вероятности . Если статистические меры расстояния связаны с различиями между случайными величинами , они могут иметь статистическую зависимость [1] и, следовательно , эти расстояния не связаны напрямую с мерами расстояний между вероятностными мерами. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.
Многие статистические меры расстояния не являются метриками , а некоторые не симметричны. Некоторые типы мер расстояния, которые обобщают квадрат расстояния, называются (статистическими) расхождениями .
Многие термины используются для обозначения различных понятий расстояния; они часто схожи до степени смешения и могут использоваться по-разному между авторами и с течением времени, либо в общих чертах, либо с точным техническим смыслом. Помимо «расстояния», подобные термины включают отклонение , отклонение , несоответствие , дискриминацию и дивергенцию , а также другие, такие как функция контраста и метрика . Термины теории информации включают перекрестную энтропию , относительную энтропию , информацию о дискриминации и прирост информации .
Метрикой на множестве X является функция (называемая функцией расстояния или просто расстоянием ) d : X × X → R + (где R + — множество неотрицательных действительных чисел ). Для всех x , y , z в X эта функция должна удовлетворять следующим условиям:
Многие статистические расстояния не являются метриками , поскольку им не хватает одного или нескольких свойств правильных метрик. Например, псевдометрика нарушает свойство (2) тождество неразличимых; квазиметрика нарушает свойство (3) – симметрию; а полуметрики нарушают свойство (4) — неравенство треугольника. Статистические расстояния, удовлетворяющие (1) и (2), называются дивергенциями .
Общее расстояние вариации двух распределений и в конечной области (часто называемое статистической разницей [2] или статистическим расстоянием [3] в криптографии) определяется как
.
Мы говорим, что два вероятностных ансамбля и статистически близки, если – пренебрежимо малая функция в .