Интуитивно, если каждое распределение рассматривать как единицу количества земли (почвы), сложенной на , метрика представляет собой минимальную «стоимость» превращения одной кучи в другую, которая, как предполагается, равна количеству земли, которое необходимо переместить, умноженному на среднее расстояние, на которое ее необходимо переместить. Эта задача была впервые формализована Гаспаром Монжем в 1781 году. Из-за этой аналогии метрика известна в информатике как расстояние землекопа .
Название «расстояние Вассерштейна» было придумано Р. Л. Добрушиным в 1970 году после того, как он узнал о нем из работы Леонида Васерштейна о марковских процессах, описывающих большие системы автоматов [1] (русский, 1969). Однако впервые метрика была определена Леонидом Канторовичем в «Математическом методе планирования и организации производства» [2] (русский оригинал 1939) в контексте оптимального планирования перевозок товаров и материалов. Некоторые ученые поэтому поощряют использование терминов «метрика Канторовича» и «расстояние Канторовича». Большинство англоязычных публикаций используют немецкое написание «Wasserstein» (приписывается фамилии «Васерштейн» (русский: Васерштейн ), которая имеет идишское происхождение).
Один из способов понять приведенное выше определение — рассмотреть задачу оптимальной транспортировки . То есть, для распределения массы на пространстве мы хотим переместить массу таким образом, чтобы она трансформировалась в распределение на том же пространстве; преобразуя «кучу земли» в кучу . Эта задача имеет смысл только в том случае, если создаваемая куча имеет ту же массу, что и перемещаемая куча; поэтому без потери общности предположим, что и являются распределениями вероятностей, содержащими общую массу 1. Предположим также, что задана некоторая функция стоимости
что дает стоимость транспортировки единицы массы из точки в точку . План транспортировки для перемещения в можно описать функцией , которая дает количество массы для перемещения из в . Вы можете представить себе задачу как необходимость переместить кучу земли формы в яму в земле формы таким образом, чтобы в конце и куча земли, и яма в земле полностью исчезли. Для того чтобы этот план был осмысленным, он должен удовлетворять следующим свойствам:
количество земли, перемещенной из точки, должно быть равно количеству, которое там было изначально; то есть,
и
количество земли, перемещенной в точку, должно быть равно глубине ямы, которая была там в начале; то есть,
То есть, общая масса, перемещенная из бесконечно малой области вокруг, должна быть равна , а общая масса, перемещенная в область вокруг, должна быть . Это эквивалентно требованию, чтобы было совместным распределением вероятностей с маргиналами и . Таким образом, бесконечно малая масса, перемещенная из в , равна , а стоимость перемещения равна , следуя определению функции стоимости. Таким образом, общая стоимость плана транспортировки равна
План не является уникальным; оптимальный транспортный план — это план с минимальной стоимостью из всех возможных транспортных планов. Как уже упоминалось, требование к плану, чтобы быть действительным, заключается в том, чтобы он был совместным распределением с маргиналами и ; обозначим набор всех таких мер, как в первом разделе, стоимость оптимального плана равна
Если стоимость перемещения — это просто расстояние между двумя точками, то оптимальная стоимость идентична определению расстояния .
Примеры
Точечные массы
Детерминированные распределения
Пусть и будут двумя вырожденными распределениями (т.е. дельта-распределениями Дирака ), расположенными в точках и в . Существует только одна возможная связь этих двух мер, а именно точечная масса, расположенная в . Таким образом, используя обычную функцию абсолютного значения в качестве функции расстояния на , для любого расстояние -Вассерштейна между и равно
По аналогичным рассуждениям, если и являются точечными массами, расположенными в точках и в , и мы используем обычную евклидову норму на в качестве функции расстояния, то
Эмпирические распределения
Одно измерение
Если — эмпирическая мера с выборками и — эмпирическая мера с выборками , то расстояние является простой функцией порядковой статистики :
Более высокие измерения
Если и являются эмпирическими распределениями, каждое из которых основано на наблюдениях, то
Пусть и будут двумя невырожденными гауссовыми мерами (т.е. нормальными распределениями ) на , с соответствующими ожидаемыми значениями и и симметричными положительно полуопределенными ковариационными матрицами и . Тогда, [3] относительно обычной евклидовой нормы на , расстояние Вассерштейна 2 между и равно ,
где обозначает главный квадратный корень из . Обратите внимание, что второй член (включающий след) является в точности (ненормализованной) метрикой Буреса между и . Этот результат обобщает более ранний пример расстояния Вассерштейна между двумя точечными массами (по крайней мере, в случае ), поскольку точечную массу можно рассматривать как нормальное распределение с ковариационной матрицей, равной нулю, в этом случае член следа исчезает и остается только член, включающий евклидово расстояние между средними.
Одномерные распределения
Пусть будут вероятностными мерами на , и обозначим их кумулятивные функции распределения через и . Тогда транспортная задача имеет аналитическое решение: Оптимальный транспорт сохраняет порядок элементов массы вероятности, поэтому масса в квантиле перемещается в квантиль . Таким образом, расстояние -Вассерштейна между и равно ,
где и являются функциями квантиля (обратными CDF). В случае замена переменных приводит к формуле
Приложения
Метрика Вассерштейна — это естественный способ сравнения распределений вероятностей двух переменных X и Y , где одна переменная выводится из другой посредством небольших неравномерных возмущений (случайных или детерминированных).
Метрика Вассерштейна формально связана с анализом Прокруста , с применением к мерам хиральности [5] и к анализу формы [6] .
В вычислительной биологии метрика Вассерштейна может использоваться для сравнения диаграмм устойчивости наборов данных цитометрии. [7]
Метрика Вассерштейна также использовалась в обратных задачах геофизики. [8]
Метрика Вассерштейна используется в теории интегрированной информации для вычисления разницы между концепциями и концептуальными структурами. [9]
Метрика Вассерштейна и связанные с ней формулировки также использовались для создания единой теории для анализа наблюдаемой формы в наборах данных физики высоких энергий и коллайдеров. [10] [11]
Характеристики
Метрическая структура
Можно показать, что W p удовлетворяет всем аксиомам метрики на пространстве Вассерштейна P p ( M ) , состоящем из всех борелевских вероятностных мер на M, имеющих конечный p -й момент. Более того, сходимость относительно W p эквивалентна обычной слабой сходимости мер плюс сходимость первых p -х моментов. [12]
Двойное представлениеВт1
Следующее дуальное представление W 1 является частным случаем теоремы двойственности Канторовича и Рубинштейна (1958): когда μ и ν имеют ограниченный носитель ,
Если метрика d метрического пространства ( M , d ) ограничена некоторой константой C , то
и поэтому сходимость в метрике Радона (идентичная сходимости по полной вариации, когда M — польское пространство ) подразумевает сходимость в метрике Вассерштейна, но не наоборот.
Доказательство
Ниже приведено интуитивное доказательство, которое пропускает технические моменты. Полностью строгое доказательство находится в [13] .
Дискретный случай : Когда дискретно, решение для 1-расстояния Вассерштейна является задачей линейного программирования:
где — общая «функция стоимости».
Тщательно записывая приведенные выше уравнения как матричные уравнения, мы получаем ее двойственную задачу : [14]
и по теореме двойственности линейного программирования , поскольку первичная задача является допустимой и ограниченной, то двойственная задача также является допустимой, и минимум в первой задаче равен максимуму во второй задаче. То есть, пара задач демонстрирует сильную двойственность .
Для общего случая двойственная задача находится путем преобразования сумм в интегралы:
и сильная двойственность все еще сохраняется. Это теорема двойственности Канторовича . Седрик Виллани приводит следующую интерпретацию Луиса Каффарелли : [15]
Предположим, вы хотите отправить уголь из шахт, распределенных как , на заводы, распределенные как . Функция стоимости транспортировки равна . Теперь приходит грузоотправитель и предлагает выполнить транспортировку для вас. Вы бы заплатили ему за уголь за погрузку угля в , и заплатили бы ему за уголь за разгрузку угля в .
Чтобы вы приняли сделку, ценовой график должен удовлетворять . Двойственность Канторовича гласит, что грузоотправитель может составить ценовой график, который заставит вас заплатить почти столько же, сколько вы бы отправили сами.
Этот результат можно преобразовать далее, чтобы получить:
Теорема (двойственность Канторовича-Рубенштейна) — Когда вероятностное пространство является метрическим, то для любого фиксированного ,
где — норма Липшица .
Доказательство
Достаточно доказать случай . Начнем с
Тогда для любого выбора можно поднять член выше, установив , сделав его инфимальной сверткой с конусом. Это подразумевает для любого , то есть .
Таким образом,
Next, для любого выбора , можно оптимизировать, установив . Поскольку , это подразумевает .
Два нижних шага свертки визуально понятны, когда вероятностное пространство равно .
Для удобства записи обозначим операцию инфимальной свертки.
Для первого шага, где мы использовали , постройте кривую , затем в каждой точке нарисуйте конус с наклоном 1 и возьмите нижнюю огибающую конусов как , как показано на диаграмме, затем не может увеличиваться с наклоном больше 1. Таким образом, все его секущие имеют наклон .
Для второго шага представьте себе инфимальную свертку , тогда, если все секущие имеют наклон не более 1, то нижняя огибающая — это просто сами вершины конуса, таким образом .
Пример 1D . Когда оба являются распределениями на , то интегрирование по частям дает
таким образом
интерпретация механики жидкостиВт2
Бенаму и Брениер нашли двойственное представление с помощью механики жидкости , которое допускает эффективное решение с помощью выпуклой оптимизации . [16] [17]
Даны две плотности вероятности на , где пробегает поля скорости, управляющие уравнением непрерывности с граничными условиями в поле плотности жидкости:
То есть масса должна сохраняться, а поле скорости должно переносить распределение вероятностей в течение интервала времени .
ЭквивалентностьВт2и отрицательная норма Соболева
При подходящих предположениях расстояние Вассерштейна порядка два эквивалентно Липшицу однородной норме Соболева отрицательного порядка . Точнее, если мы возьмем связное риманово многообразие , снабженное положительной мерой , то мы можем определить для полунормы
и для знаковой меры на дуальной норме
Тогда любые две вероятностные меры и на удовлетворяют верхней границе [18]
В другом направлении, если и каждая имеет плотности относительно стандартной меры объема на , которые обе ограничены сверху некоторым , и имеет неотрицательную кривизну Риччи , то [19] [20]
Отделимость и полнота
Для любого p ≥ 1 метрическое пространство ( P p ( M ), W p ) является сепарабельным и полным , если ( M , d ) является сепарабельным и полным. [21]
Расстояние Вассерштейна дляп= ∞
Также можно рассмотреть метрику Вассерштейна для . В этом случае определяющая формула становится:
где обозначает существенный супремум относительно меры . Метрическое пространство ( P ∞ ( M ), W ∞ ) является полным, если ( M , d ) является сепарабельным и полным. Здесь P ∞ — пространство всех вероятностных мер с ограниченным носителем. [22]
^ Васерштейн Л. Н. (1969). «Марковские процессы над счетными произведениями пространств, описывающие большие системы автоматов» (PDF) . Проблемы передачи информации . 5 (3): 64–72.
^ Канторович Л. В. (1939). «Математические методы организации и планирования производства». Наука управления . 6 (4): 366–422. doi :10.1287/mnsc.6.4.366. JSTOR 2627082.
^ Олкин И, Пукельсхайм Ф (октябрь 1982). «Расстояние между двумя случайными векторами с заданными матрицами дисперсии». Линейная алгебра и ее приложения . 48 : 257–263. doi : 10.1016/0024-3795(82)90112-4 . ISSN 0024-3795.
^ Arjovsky M, Chintala S, Bottou L (июль 2017 г.). «Генеративно-состязательные сети Вассерштейна». Международная конференция по машинному обучению 214-223 : 214–223.
^ Petitjean M (2002). "Хиральные смеси" (PDF) . Журнал математической физики . 43 (8): 4147–4157. Bibcode :2002JMP....43.4147P. doi :10.1063/1.1484559. S2CID 85454709.
^ Petitjean M (2004). «От сходства форм к взаимодополняемости форм: к теории стыковки». Журнал математической химии . 35 (3): 147–158. doi :10.1023/B:JOMC.0000033252.59423.6b. S2CID 121320315.
^ Мукерджи С., Уэтингтон Д., Дей ТК., Дас Дж. (март 2022 г.). «Определение клинически значимых признаков в данных цитометрии с использованием устойчивой гомологии». PLOS Computational Biology . 18 (3): e1009931. arXiv : 2203.06263 . Bibcode : 2022PLSCB..18E9931M. doi : 10.1371/journal.pcbi.1009931 . PMC 9009779. PMID 35312683 .
^ Фредерик, Кристина; Ян, Юнань (2022-05-06). «Видение сквозь камень с помощью оптимального транспорта». Снимки современной математики из Обервольфаха . doi :10.14760/SNAP-2022-004-EN.
^ Оидзуми, Масафуми; Альбантакис, Лариса; Тонони, Джулио (2014-05-08). «От феноменологии к механизмам сознания: интегрированная теория информации 3.0». PLOS Computational Biology . 10 (5): e1003588. Bibcode : 2014PLSCB..10E3588O. doi : 10.1371/journal.pcbi.1003588 . PMC 4014402. PMID 24811198 .
^ Ba, Demba; Dogra, Akshunna S.; Gambhir, Rikab; Tasissa, Abiy; Thaler, Jesse (29.06.2023). "SHAPER: можете ли вы услышать форму струи?". Journal of High Energy Physics . 2023 (6): 195. arXiv : 2302.12266 . Bibcode : 2023JHEP...06..195B. doi : 10.1007/JHEP06(2023)195. ISSN 1029-8479. S2CID 257205971.
^ "Награды, стипендии и форма физики: новости из колледжа | Imperial News | Imperial College London". Imperial News . 2023-03-29 . Получено 2023-10-31 .
^ Клемент П., Деш В. (2008). «Элементарное доказательство неравенства треугольника для метрики Вассерштейна». Труды Американского математического общества . 136 (1): 333–339. doi : 10.1090/S0002-9939-07-09020-X .
^ Матоушек, Йиржи; Гертнер, Бернд (2007), «Двойственность линейного программирования», Понимание и использование линейного программирования, Universitext, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 81–104, doi :10.1007/978-3-540-30717-4_6, ISBN978-3-540-30697-9, получено 2022-07-15
^ Виллани, Седрик (2003). "1.1.3. Проблема грузоотправителя". Темы оптимальной транспортировки. Провиденс, Род-Айленд: Американское математическое общество. ISBN0-8218-3312-X. OCLC 51477002.
^ Бенаму, Жан-Давид; Бренье, Янн (1 января 2000 г.). «Вычислительное решение проблемы массопереноса Монжа-Канторовича с помощью механики жидкости». Нумерическая математика . 84 (3): 375–393. дои : 10.1007/s002110050002. ISSN 0945-3245. S2CID 1100384.
^ Финлей, Крис; Якобсен, Йорн-Хенрик; Нурбекян, Левон; Оберман, Адам (2020-11-21). «Как обучить нейронный ОДУ: мир якобианской и кинетической регуляризации». Международная конференция по машинному обучению . PMLR: 3154–3164. arXiv : 2002.02798 .
^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W2 и нормы Ḣ−1 и локализация расстояния Вассерштейна». ESAIM: Управление, оптимизация и вариационное исчисление . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 . ISSN 1292-8119.(См. теорему 2.1.)
^ Loeper G (июль 2006 г.). «Единственность решения системы Власова–Пуассона с ограниченной плотностью». Journal de Mathématiques Pures et Appliquées . 86 (1): 68–79. arXiv : math/0504140 . doi : 10.1016/j.matpur.2006.01.005 . ISSN 1292-8119.(См. теорему 2.9.)
^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W2 и нормы Ḣ−1 и локализация расстояния Вассерштейна». ESAIM: Управление, оптимизация и вариационное исчисление . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 .(См. теорему 2.5.)
^ Богачев В.И., Колесников А.В. (октябрь 2012 г.). «Проблема Монжа – Канторовича: достижения, связи и перспективы». Российские математические обзоры . 67 (5): 785–890. Бибкод :2012РуМаС..67..785Б. doi : 10.1070/RM2012v067n05ABEH004808. S2CID 121411457.
^ Гивенс, Кларк Р.; Шорт, Рэй Майкл (1984). «Класс метрик Вассерштейна для распределений вероятностей». Michigan Mathematical Journal . 31 (2): 231–240. doi : 10.1307/mmj/1029003026 .
Дальнейшее чтение
Амброзио Л., Джильи Н., Саваре Г. (2005). Градиентные потоки в метрических пространствах и в пространстве вероятностных мер . Базель: ETH Zürich, Birkhäuser Verlag. ISBN 978-3-7643-2428-5.
Jordan R, Kinderlehrer D, Otto F (январь 1998 г.). «Вариационная формулировка уравнения Фоккера–Планка». SIAM Journal on Mathematical Analysis . 29 (1): 1–17 (электронный). CiteSeerX 10.1.1.6.8815 . doi :10.1137/S0036141096303359. ISSN 0036-1410. MR 1617171. S2CID 13890235.