Расстояние Махаланобиса — это мера расстояния между точкой и распределением , введенная П. К. Махаланобисом в 1936 году. [1] Математические подробности расстояния Махаланобиса были опубликованы в журнале The Asiatic Society of Bengal. [2] Определение Махаланобиса было вызвано проблемой выявления сходства черепов на основе измерений (самая ранняя работа, связанная со сходством черепов, датируется 1922 годом, а еще одна более поздняя работа — 1927 годом). [3] [4] Выборочное распределение расстояния Махаланобиса было получено профессором Р. К. Бозе в предположении равной дисперсии. [5]
Это многомерное обобщение квадрата стандартной оценки : сколько стандартных отклонений находится от среднего значения . Это расстояние равно нулю для среднего значения и увеличивается по мере удаления от среднего значения вдоль каждой оси главных компонент . Если каждая из этих осей масштабируется заново, чтобы иметь единичную дисперсию, то расстояние Махаланобиса соответствует стандартному евклидову расстоянию в преобразованном пространстве. Таким образом, расстояние Махаланобиса является безразмерным , масштабно-инвариантным и учитывает корреляции набора данных .
При наличии распределения вероятностей на , со средним значением и положительной полуопределенной ковариационной матрицей , расстояние Махаланобиса точки из равно [6] Для двух точек и в , расстояние Махаланобиса между ними относительно равно , что означает, что .
Так как является положительно полуопределенной , то и , поэтому квадратные корни всегда определены.
Мы можем найти полезные разложения квадрата расстояния Махаланобиса, которые помогают объяснить некоторые причины выбросов многомерных наблюдений, а также предоставляют графический инструмент для выявления выбросов. [7]
По спектральной теореме , можно разложить как для некоторой вещественной матрицы, что дает нам эквивалентное определение , где — евклидова норма. То есть, расстояние Махаланобиса — это евклидово расстояние после отбеливающего преобразования .
Существование гарантируется спектральной теоремой, но оно не является единственным. Различные варианты имеют различные теоретические и практические преимущества. [8]
На практике распределение обычно представляет собой выборочное распределение из набора выборок IID из базового неизвестного распределения, то есть выборочное среднее, а представляет собой ковариационную матрицу выборок.
Когда аффинный охват выборок не является всем , ковариационная матрица не будет положительно определенной, что означает, что приведенное выше определение не будет работать. Однако, в общем случае, расстояние Махаланобиса сохраняется при любом аффинном преобразовании полного ранга аффинного охвата выборок. Таким образом, в случае, если аффинный охват не является всем , выборки можно сначала ортогонально спроецировать на , где — размерность аффинного охвата выборок, затем расстояние Махаланобиса можно вычислить как обычно.
Рассмотрим задачу оценки вероятности того, что контрольная точка в N -мерном евклидовом пространстве принадлежит множеству, где нам даны выборочные точки, которые определенно принадлежат этому множеству. Нашим первым шагом будет нахождение центроида или центра масс выборочных точек. Интуитивно, чем ближе рассматриваемая точка к этому центру масс, тем больше вероятность того, что она принадлежит множеству.
Однако нам также необходимо знать, распределен ли набор в большом или малом диапазоне, чтобы мы могли решить, заслуживает ли внимания заданное расстояние от центра или нет. Упрощенный подход заключается в оценке стандартного отклонения расстояний точек выборки от центра масс. Если расстояние между контрольной точкой и центром масс меньше одного стандартного отклонения, то мы можем заключить, что весьма вероятно, что контрольная точка принадлежит набору. Чем она дальше, тем более вероятно, что контрольную точку не следует классифицировать как принадлежащую набору.
Этот интуитивный подход можно сделать количественным, определив нормализованное расстояние между контрольной точкой и набором как , что выглядит следующим образом: . Подставив это в нормальное распределение, мы можем вывести вероятность принадлежности контрольной точки набору.
Недостатком вышеописанного подхода было то, что мы предполагали, что точки выборки распределены вокруг центра масс сферическим образом. Если бы распределение было определенно несферическим, например, эллипсоидальным, то мы ожидали бы, что вероятность принадлежности контрольной точки набору будет зависеть не только от расстояния от центра масс, но и от направления. В тех направлениях, где эллипсоид имеет короткую ось, контрольная точка должна быть ближе, в то время как в тех, где ось длинная, контрольная точка может быть дальше от центра.
Если перевести это на математическую основу, то эллипсоид, наилучшим образом представляющий распределение вероятностей набора, можно оценить, построив ковариационную матрицу выборок. Расстояние Махаланобиса — это расстояние от контрольной точки до центра масс, деленное на ширину эллипсоида в направлении контрольной точки.
Для нормального распределения в любом количестве измерений плотность вероятности наблюдения однозначно определяется расстоянием Махаланобиса :
В частности, следует распределению хи-квадрат со степенями свободы, где — число измерений нормального распределения. Если число измерений равно 2, например, вероятность того, что определенное вычисленное значение будет меньше некоторого порогового значения, равна . Чтобы определить пороговое значение для достижения определенной вероятности, , используйте , для 2 измерений. Для числа измерений, отличных от 2, следует обратиться к кумулятивному распределению хи-квадрат.
В нормальном распределении область, где расстояние Махаланобиса меньше единицы (т. е. область внутри эллипсоида на расстоянии один), — это как раз та область, где распределение вероятностей является вогнутым .
Расстояние Махаланобиса для нормального распределения пропорционально квадратному корню отрицательного логарифма правдоподобия (после добавления константы, так что минимум равен нулю).
Матрица выборочного среднего и ковариации может быть весьма чувствительна к выбросам, поэтому другие подходы к вычислению многомерного местоположения и разброса данных также обычно используются при вычислении расстояния Махаланобиса. Подход с минимальным ковариационным детерминантом оценивает многомерное местоположение и разброс из подмножества нумерующих точек данных, которое имеет наименьший детерминант матрицы дисперсии-ковариации. [9] Подход с минимальным объемным эллипсоидом похож на подход с минимальным ковариационным детерминантом в том, что он работает с подмножеством точек данных размера, но минимальный объемный эллипсоид оценивает многомерное местоположение и разброс из эллипсоида минимального объема, который инкапсулирует точки данных. [10] Каждый метод отличается своим определением распределения данных и, следовательно, выдает разные расстояния Махаланобиса. Подходы с минимальным ковариационным детерминантом и минимальным объемным эллипсоидом более надежны для выборок, которые содержат выбросы, в то время как выборочное среднее и ковариационная матрица, как правило, более надежны с небольшими и смещенными наборами данных. [11]
В общем случае, если задана нормальная ( гауссовская ) случайная величина с дисперсией и средним значением , любая другая нормальная случайная величина (со средним значением и дисперсией ) может быть определена в терминах с помощью уравнения Наоборот, чтобы восстановить нормализованную случайную величину из любой нормальной случайной величины, обычно можно решить для . Если мы возведем обе части в квадрат и извлечем квадратный корень, мы получим уравнение для метрики, которая очень похожа на расстояние Махаланобиса:
Результирующая величина всегда неотрицательна и меняется в зависимости от расстояния данных от среднего значения, что удобно при определении модели для данных.
Расстояние Махаланобиса тесно связано со статистикой кредитного плеча , но имеет другой масштаб:
Расстояние Махаланобиса широко используется в кластерном анализе и методах классификации . Оно тесно связано с распределением Т-квадрата Хотеллинга , используемым для многомерного статистического тестирования, и линейным дискриминантным анализом Фишера , который используется для контролируемой классификации . [12]
Чтобы использовать расстояние Махаланобиса для классификации контрольной точки как принадлежащей одному из N классов, сначала оценивается ковариационная матрица каждого класса, обычно на основе образцов, известных как принадлежащие каждому классу. Затем, имея тестовый образец, вычисляется расстояние Махаланобиса для каждого класса и классифицируется контрольная точка как принадлежащая тому классу, для которого расстояние Махаланобиса минимально.
Расстояние Махаланобиса и кредитное плечо часто используются для обнаружения выбросов , особенно при разработке моделей линейной регрессии . Говорят, что точка, которая имеет большее расстояние Махаланобиса от остальной выборочной совокупности точек, имеет большее кредитное плечо, поскольку она оказывает большее влияние на наклон или коэффициенты уравнения регрессии. Расстояние Махаланобиса также используется для определения многомерных выбросов. Методы регрессии можно использовать для определения того, является ли конкретный случай в выборочной совокупности выбросом, посредством комбинации двух или более оценок переменных. Даже для нормальных распределений точка может быть многомерным выбросом, даже если она не является одномерным выбросом для какой-либо переменной ( например, рассмотрите плотность вероятности, сосредоточенную вдоль линии), что делает расстояние Махаланобиса более чувствительной мерой, чем проверка измерений по отдельности.
Расстояние Махаланобиса также использовалось в моделировании экологической ниши , [13] [14], поскольку выпуклая эллиптическая форма расстояний хорошо соответствует концепции фундаментальной ниши .
Другой пример использования — финансы, где расстояние Махаланобиса использовалось для вычисления индикатора, называемого «индексом турбулентности», [15], который является статистической мерой аномального поведения финансовых рынков. Реализация этого индикатора в виде веб-API доступна онлайн. [16]
Многие языки программирования и статистические пакеты, такие как R , Python и т. д., включают реализации расстояния Махаланобиса.