stringtranslate.com

Расстояние Махаланобиса

Расстояние Махаланобиса — это мера расстояния между точкой и распределением , введенная П. К. Махаланобисом в 1936 году. [1] Математические подробности расстояния Махаланобиса были опубликованы в журнале The Asiatic Society of Bengal. [2] Определение Махаланобиса было вызвано проблемой выявления сходства черепов на основе измерений (самая ранняя работа, связанная со сходством черепов, датируется 1922 годом, а еще одна более поздняя работа — 1927 годом). [3] [4] Выборочное распределение расстояния Махаланобиса было получено профессором Р. К. Бозе в предположении равной дисперсии. [5]

Это многомерное обобщение квадрата стандартной оценки : сколько стандартных отклонений находится от среднего значения . Это расстояние равно нулю для среднего значения и увеличивается по мере удаления от среднего значения вдоль каждой оси главных компонент . Если каждая из этих осей масштабируется заново, чтобы иметь единичную дисперсию, то расстояние Махаланобиса соответствует стандартному евклидову расстоянию в преобразованном пространстве. Таким образом, расстояние Махаланобиса является безразмерным , масштабно-инвариантным и учитывает корреляции набора данных .

Определение

При наличии распределения вероятностей на , со средним значением и положительной полуопределенной ковариационной матрицей , расстояние Махаланобиса точки из равно [6] Для двух точек и в , расстояние Махаланобиса между ними относительно равно , что означает, что .

Так как является положительно полуопределенной , то и , поэтому квадратные корни всегда определены.

Мы можем найти полезные разложения квадрата расстояния Махаланобиса, которые помогают объяснить некоторые причины выбросов многомерных наблюдений, а также предоставляют графический инструмент для выявления выбросов. [7]

По спектральной теореме , можно разложить как для некоторой вещественной матрицы, что дает нам эквивалентное определение , где — евклидова норма. То есть, расстояние Махаланобиса — это евклидово расстояние после отбеливающего преобразования .

Существование гарантируется спектральной теоремой, но оно не является единственным. Различные варианты имеют различные теоретические и практические преимущества. [8]

На практике распределение обычно представляет собой выборочное распределение из набора выборок IID из базового неизвестного распределения, то есть выборочное среднее, а представляет собой ковариационную матрицу выборок.

Когда аффинный охват выборок не является всем , ковариационная матрица не будет положительно определенной, что означает, что приведенное выше определение не будет работать. Однако, в общем случае, расстояние Махаланобиса сохраняется при любом аффинном преобразовании полного ранга аффинного охвата выборок. Таким образом, в случае, если аффинный охват не является всем , выборки можно сначала ортогонально спроецировать на , где — размерность аффинного охвата выборок, затем расстояние Махаланобиса можно вычислить как обычно.

Интуитивное объяснение

Рассмотрим задачу оценки вероятности того, что контрольная точка в N -мерном евклидовом пространстве принадлежит множеству, где нам даны выборочные точки, которые определенно принадлежат этому множеству. Нашим первым шагом будет нахождение центроида или центра масс выборочных точек. Интуитивно, чем ближе рассматриваемая точка к этому центру масс, тем больше вероятность того, что она принадлежит множеству.

Однако нам также необходимо знать, распределен ли набор в большом или малом диапазоне, чтобы мы могли решить, заслуживает ли внимания заданное расстояние от центра или нет. Упрощенный подход заключается в оценке стандартного отклонения расстояний точек выборки от центра масс. Если расстояние между контрольной точкой и центром масс меньше одного стандартного отклонения, то мы можем заключить, что весьма вероятно, что контрольная точка принадлежит набору. Чем она дальше, тем более вероятно, что контрольную точку не следует классифицировать как принадлежащую набору.

Этот интуитивный подход можно сделать количественным, определив нормализованное расстояние между контрольной точкой и набором как , что выглядит следующим образом: . Подставив это в нормальное распределение, мы можем вывести вероятность принадлежности контрольной точки набору.

Недостатком вышеописанного подхода было то, что мы предполагали, что точки выборки распределены вокруг центра масс сферическим образом. Если бы распределение было определенно несферическим, например, эллипсоидальным, то мы ожидали бы, что вероятность принадлежности контрольной точки набору будет зависеть не только от расстояния от центра масс, но и от направления. В тех направлениях, где эллипсоид имеет короткую ось, контрольная точка должна быть ближе, в то время как в тех, где ось длинная, контрольная точка может быть дальше от центра.

Если перевести это на математическую основу, то эллипсоид, наилучшим образом представляющий распределение вероятностей набора, можно оценить, построив ковариационную матрицу выборок. Расстояние Махаланобиса — это расстояние от контрольной точки до центра масс, деленное на ширину эллипсоида в направлении контрольной точки.

Нормальные распределения

Для нормального распределения в любом количестве измерений плотность вероятности наблюдения однозначно определяется расстоянием Махаланобиса :

В частности, следует распределению хи-квадрат со степенями свободы, где — число измерений нормального распределения. Если число измерений равно 2, например, вероятность того, что определенное вычисленное значение будет меньше некоторого порогового значения, равна . Чтобы определить пороговое значение для достижения определенной вероятности, , используйте , для 2 измерений. Для числа измерений, отличных от 2, следует обратиться к кумулятивному распределению хи-квадрат.

В нормальном распределении область, где расстояние Махаланобиса меньше единицы (т. е. область внутри эллипсоида на расстоянии один), — это как раз та область, где распределение вероятностей является вогнутым .

Расстояние Махаланобиса для нормального распределения пропорционально квадратному корню отрицательного логарифма правдоподобия (после добавления константы, так что минимум равен нулю).

Другие формы многомерного расположения и рассеивания

Гипотетический двумерный пример расстояния Махаланобиса с тремя различными методами определения многомерного расположения и разброса данных.

Матрица выборочного среднего и ковариации может быть весьма чувствительна к выбросам, поэтому другие подходы к вычислению многомерного местоположения и разброса данных также обычно используются при вычислении расстояния Махаланобиса. Подход с минимальным ковариационным детерминантом оценивает многомерное местоположение и разброс из подмножества нумерующих точек данных, которое имеет наименьший детерминант матрицы дисперсии-ковариации. [9] Подход с минимальным объемным эллипсоидом похож на подход с минимальным ковариационным детерминантом в том, что он работает с подмножеством точек данных размера, но минимальный объемный эллипсоид оценивает многомерное местоположение и разброс из эллипсоида минимального объема, который инкапсулирует точки данных. [10] Каждый метод отличается своим определением распределения данных и, следовательно, выдает разные расстояния Махаланобиса. Подходы с минимальным ковариационным детерминантом и минимальным объемным эллипсоидом более надежны для выборок, которые содержат выбросы, в то время как выборочное среднее и ковариационная матрица, как правило, более надежны с небольшими и смещенными наборами данных. [11]

Связь с нормальными случайными величинами

В общем случае, если задана нормальная ( гауссовская ) случайная величина с дисперсией и средним значением , любая другая нормальная случайная величина (со средним значением и дисперсией ) может быть определена в терминах с помощью уравнения Наоборот, чтобы восстановить нормализованную случайную величину из любой нормальной случайной величины, обычно можно решить для . Если мы возведем обе части в квадрат и извлечем квадратный корень, мы получим уравнение для метрики, которая очень похожа на расстояние Махаланобиса:

Результирующая величина всегда неотрицательна и меняется в зависимости от расстояния данных от среднего значения, что удобно при определении модели для данных.

Отношение к кредитному плечу

Расстояние Махаланобиса тесно связано со статистикой кредитного плеча , но имеет другой масштаб:

Приложения

Расстояние Махаланобиса широко используется в кластерном анализе и методах классификации . Оно тесно связано с распределением Т-квадрата Хотеллинга , используемым для многомерного статистического тестирования, и линейным дискриминантным анализом Фишера , который используется для контролируемой классификации . [12]

Чтобы использовать расстояние Махаланобиса для классификации контрольной точки как принадлежащей одному из N классов, сначала оценивается ковариационная матрица каждого класса, обычно на основе образцов, известных как принадлежащие каждому классу. Затем, имея тестовый образец, вычисляется расстояние Махаланобиса для каждого класса и классифицируется контрольная точка как принадлежащая тому классу, для которого расстояние Махаланобиса минимально.

Расстояние Махаланобиса и кредитное плечо часто используются для обнаружения выбросов , особенно при разработке моделей линейной регрессии . Говорят, что точка, которая имеет большее расстояние Махаланобиса от остальной выборочной совокупности точек, имеет большее кредитное плечо, поскольку она оказывает большее влияние на наклон или коэффициенты уравнения регрессии. Расстояние Махаланобиса также используется для определения многомерных выбросов. Методы регрессии можно использовать для определения того, является ли конкретный случай в выборочной совокупности выбросом, посредством комбинации двух или более оценок переменных. Даже для нормальных распределений точка может быть многомерным выбросом, даже если она не является одномерным выбросом для какой-либо переменной ( например, рассмотрите плотность вероятности, сосредоточенную вдоль линии), что делает расстояние Махаланобиса более чувствительной мерой, чем проверка измерений по отдельности.

Расстояние Махаланобиса также использовалось в моделировании экологической ниши , [13] [14], поскольку выпуклая эллиптическая форма расстояний хорошо соответствует концепции фундаментальной ниши .

Другой пример использования — финансы, где расстояние Махаланобиса использовалось для вычисления индикатора, называемого «индексом турбулентности», [15], который является статистической мерой аномального поведения финансовых рынков. Реализация этого индикатора в виде веб-API доступна онлайн. [16]

Реализации программного обеспечения

Многие языки программирования и статистические пакеты, такие как R , Python и т. д., включают реализации расстояния Махаланобиса.

Смотрите также

Ссылки

  1. ^ "Перепечатка: Махаланобиса, ПК (1936) "Об обобщенном расстоянии в статистике". Санкхья А. 80 ( 1): 1–7. 2018-12-01. doi :10.1007/s13171-019-00164-5. ISSN  0976-8378.
  2. ^ Журнал и труды Азиатского общества Бенгалии Том xxvi. Азиатское общество Бенгалии Калькутта. 1933.
  3. ^ Махаланобис, Прасанта Чандра (1922). Антропологические наблюдения над англо-индейцами Кулькутты — Анализ мужского телосложения.
  4. ^ Махаланобис, Прасанта Чандра (1927). «Анализ расового смешения в Бенгалии». Журнал и труды Азиатского общества Бенгалии . 23 : 301–333.
  5. Наука и культура (1935-36) Т. 1. Индийская ассоциация новостей науки. 1935. С. 205–206.
  6. ^ Де Мешальк, Р.; Жуан-Рембо, Д.; Массарт, DL (2000). «Расстояние Махаланобиса». Хемометрика и интеллектуальные лабораторные системы . 50 (1): 1–18. дои : 10.1016/s0169-7439(99)00047-7.
  7. ^ Ким, М. Г. (2000). «Многомерные выбросы и разложения расстояния Махаланобиса». Communications in Statistics – Theory and Methods . 29 (7): 1511–1526. doi :10.1080/03610920008832559. S2CID  218567835.
  8. ^ Кесси, Агнан; Левин, Алекс; Стриммер, Корбиниан (2018-10-02). «Оптимальное отбеливание и декорреляция». The American Statistician . 72 (4): 309–314. arXiv : 1512.00809 . doi : 10.1080/00031305.2016.1277159. ISSN  0003-1305. S2CID  55075085.
  9. ^ Хьюберт, Миа; Дебрюйн, Михиль (2010). «Минимальный ковариационный детерминант». WIREs Computational Statistics . 2 (1): 36–43. doi :10.1002/wics.61. ISSN  1939-5108. S2CID  123086172.
  10. ^ Ван Альст, Стефан; Руссью, Питер (2009). «Минимальный объемный эллипсоид». Wiley Interdisciplinary Reviews: Computational Statistics . 1 (1): 71–82. doi :10.1002/wics.19. ISSN  1939-5108. S2CID  122106661.
  11. ^ Этерингтон, Томас Р. (2021-05-11). «Расстояния Махаланобиса для моделирования экологической ниши и обнаружения выбросов: влияние размера выборки, ошибки и смещения на выбор и параметризацию многомерного метода местоположения и рассеяния». PeerJ . 9 : e11436. doi : 10.7717/peerj.11436 . ISSN  2167-8359. PMC 8121071 . PMID  34026369. 
  12. ^ Маклахлан, Джеффри (4 августа 2004 г.). Дискриминантный анализ и статистическое распознавание образов. John Wiley & Sons. стр. 13–. ISBN 978-0-471-69115-0.
  13. ^ Этерингтон, Томас Р. (2019-04-02). «Расстояния Махаланобиса и моделирование экологической ниши: исправление ошибки вероятности хи-квадрат». PeerJ . 7 : e6678. doi : 10.7717/peerj.6678 . ISSN  2167-8359. PMC 6450376 . PMID  30972255. 
  14. ^ Фарбер, Орен; Кадмон, Ронен (2003). «Оценка альтернативных подходов к биоклиматическому моделированию с особым акцентом на расстояние Махаланобиса». Экологическое моделирование . 160 (1–2): 115–130. doi :10.1016/S0304-3800(02)00327-7.
  15. ^ Крицман, М.; Ли, И. (2019-04-02). «Черепа, финансовая турбулентность и управление рисками» . Журнал финансовых аналитиков . 66 (5): 30–41. doi :10.2469/faj.v66.n5.3. S2CID  53478656.
  16. ^ "Portfolio Optimizer". portfoliooptimizer.io/ . Получено 2022-04-23 .

Внешние ссылки