stringtranslate.com

Геометрическая медиана

Пример геометрической медианы (желтого цвета) ряда точек. Синим цветом — Центр масс .

В геометрии геометрическая медиана дискретного набора точек выборки в евклидовом пространстве — это точка, минимизирующая сумму расстояний до точек выборки. Это обобщает медиану , которая имеет свойство минимизировать сумму расстояний для одномерных данных, и обеспечивает центральную тенденцию в более высоких измерениях. Она также известна как 1-медиана , пространственная медиана , [1] евклидова точка минимума , [1] или точка Торричелли . [2]

Геометрическая медиана является важным оценщиком местоположения в статистике [3], где она также известна как оценка L 1 [4] (поскольку она минимизирует норму L 1 вектора расстояний). [5] Это также стандартная задача определения местоположения объекта , где моделируется задача определения местоположения объекта для минимизации затрат на транспортировку. [6] Более общая задача k -медианы требует определения местоположения k центров кластеров, минимизирующих сумму расстояний от каждой точки выборки до ее ближайшего центра. Если точку обобщить в линию или кривую, наиболее подходящее решение находится по наименьшему абсолютному отклонению .

Частный случай проблемы для трех точек на плоскости (т. е. m = 3 и n = 2 в определении ниже) иногда также называют проблемой Ферма ; она возникает при построении минимальных деревьев Штейнера и первоначально была поставлена ​​как проблема Пьером де Ферма и решена Евангелистой Торричелли . [7] Его решение теперь известно как точка Ферма треугольника, образованного тремя точками выборки. [8] Геометрическую медиану, в свою очередь, можно обобщить на задачу минимизации суммы взвешенных расстояний, известную как проблема Вебера после обсуждения этой проблемы Альфредом Вебером в его книге 1909 года о расположении объектов. [1] Вместо этого некоторые источники называют проблему Вебера проблемой Ферма-Вебера , [9] но другие используют это название для невзвешенной геометрической медианной проблемы. [10]

Весоловский (1993) представляет обзор проблемы геометрической медианы. См. Fekete, Mitchell & Beurer (2005) для обобщения проблемы на недискретные множества точек.

Определение

Формально для данного набора из m точек с каждым геометрическая медиана определяется как

Здесь arg min означает значение аргумента , который минимизирует сумму. В данном случае это точка в n-мерном евклидовом пространстве, откуда сумма всех евклидовых расстояний до 's минимальна.

Характеристики

Особые случаи

Вычисление

Несмотря на то, что геометрическая медиана является простой для понимания концепцией, ее вычисление представляет собой сложную задачу. Центроид или центр масс , определяемый аналогично геометрической медиане как минимизация суммы квадратов расстояний до каждой точки, может быть найден по простой формуле — его координаты представляют собой средние значения координат точек — но он имеет Было показано, что для геометрической медианы вообще не может существовать ни явная формула , ни точный алгоритм, включающий только арифметические операции и корни k- й степени. Следовательно, в рамках этой модели вычислений возможны только численные или символические приближения к решению этой проблемы . [15]

Однако вычислить приближение к геометрической медиане несложно, используя итерационную процедуру, в которой каждый шаг дает более точное приближение. Процедуры этого типа можно вывести из того факта, что сумма расстояний до точек выборки является выпуклой функцией , поскольку расстояние до каждой точки выборки является выпуклым, а сумма выпуклых функций остается выпуклой. Следовательно, процедуры, уменьшающие сумму расстояний на каждом шаге, не могут попасть в ловушку локального оптимума .

Один из распространенных подходов этого типа, названный алгоритмом Вайсфельда в честь работы Эндре Вайсфельда [16] , представляет собой форму итеративно перевзвешенного метода наименьших квадратов . Этот алгоритм определяет набор весов, которые обратно пропорциональны расстояниям от текущей оценки до точек выборки, и создает новую оценку, которая представляет собой средневзвешенное значение выборки в соответствии с этими весами. То есть,

Этот метод сходится почти для всех начальных положений, но может не сходиться, когда одна из его оценок попадает в одну из заданных точек. Для обработки этих случаев его можно модифицировать, чтобы он сходился во всех начальных точках. [13]

Бозе, Махешвари и Морин (2003) описывают более сложные процедуры геометрической оптимизации для поиска приблизительно оптимальных решений этой проблемы. Коэн и др. (2016) показывают, как вычислить геометрическую медиану с произвольной точностью почти за линейное время . Отметим также, что задачу можно сформулировать как программу конуса второго порядка

которая может быть решена за полиномиальное время с использованием обычных решателей оптимизации .

Характеристика геометрической медианы

Если y отличается от всех заданных точек xi , то y является геометрической медианой тогда и только тогда, когда она удовлетворяет :

Это эквивалентно:

который тесно связан с алгоритмом Вейцфельда.

В общем, y является геометрической медианой тогда и только тогда, когда существуют векторы u i такие, что:

где для x iy ,

и для x i = y ,

Эквивалентная формулировка этого условия:

Его можно рассматривать как обобщение свойства медианы в том смысле, что любое разделение точек, в частности, индуцированное любой гиперплоскостью, проходящей через y , имеет одинаковую и противоположную сумму положительных направлений от y с каждой стороны. В одномерном случае гиперплоскостью является сама точка y , а сумма направлений упрощается до (направленной) считающей меры.

Обобщения

Геометрическую медиану можно обобщить с евклидовых пространств на общие римановы многообразия (и даже на метрические пространства ), используя ту же идею, которая используется для определения среднего значения Фреше на римановом многообразии. [17] [18] Пусть — риманово многообразие с соответствующей функцией расстояния , пусть — веса, суммирующиеся с 1, и пусть — наблюдения из . Затем мы определяем взвешенную геометрическую медиану (или взвешенную медиану Фреше) точек данных как

.

Если все веса равны, мы просто говорим, что это геометрическая медиана.

Смотрите также

Примечания

  1. ^ abc Drezner et al. (2002)
  2. ^ Чеслик (2006).
  3. ^ Лавера и Томпсон (1993).
  4. ^ abcd Lopuhaä & Rousseeuw (1991)
  5. ^ Додж и Руссон (1999).
  6. ^ Эйзельт и Марианов (2011).
  7. ^ Краруп и Вайда (1997).
  8. ^ Испания (1996).
  9. ^ Бримберг (1995).
  10. ^ Бозе, Махешвари и Морин (2003).
  11. ^ abc Холдейн (1948)
  12. ^ Утверждение 18.10, Геометрические методы и задачи оптимизации , В. Болтянски, Х. Мартини, В. Солтан, Springer, 1999.
  13. ^ Аб Варди и Чжан (2000)
  14. ^ Цеслик (2006), с. 6; Пластрия (2006). Выпуклый случай был первоначально доказан Джованни Фаньяно .
  15. ^ Баджадж (1986); Баджадж (1988). Ранее Кокейн и Мельзак (1969) доказали, что точку Штейнера для 5 точек на плоскости невозможно построить с помощью линейки и циркуля.
  16. ^ Вайсфельд (1937); Кун (1973); Чандрасекаран и Тамир (1989).
  17. ^ Флетчер, П. Томас; Венкатасубраманиан, Суреш; Джоши, Саранг (23 июня 2008 г.). «Надежная статистика римановых многообразий через геометрическую медиану». Конференция IEEE 2008 г. по компьютерному зрению и распознаванию образов . Конференция IEEE по компьютерному зрению и распознаванию образов. Анкоридж, штат Алабама, США: IEEE.
  18. ^ Флетчер, Венкатасубраманиан и Джоши (2009).

Рекомендации