stringtranslate.com

метрика Вассерштейна

В математике расстояние Вассерштейна или метрика КанторовичаРубинштейна – это функция расстояния, определённая между распределениями вероятностей на заданном метрическом пространстве . Она названа в честь Леонида Васерштейна .

Интуитивно, если каждое распределение рассматривать как единицу количества земли (почвы), сложенной на , метрика представляет собой минимальную «стоимость» превращения одной кучи в другую, которая, как предполагается, равна количеству земли, которое необходимо переместить, умноженному на среднее расстояние, на которое ее необходимо переместить. Эта задача была впервые формализована Гаспаром Монжем в 1781 году. Из-за этой аналогии метрика известна в информатике как расстояние землекопа .

Название «расстояние Вассерштейна» было придумано Р. Л. Добрушиным в 1970 году после того, как он узнал о нем из работы Леонида Васерштейна о марковских процессах, описывающих большие системы автоматов [1] (русский, 1969). Однако впервые метрика была определена Леонидом Канторовичем в «Математическом методе планирования и организации производства» [2] (русский оригинал 1939) в контексте оптимального планирования перевозок товаров и материалов. Некоторые ученые поэтому поощряют использование терминов «метрика Канторовича» и «расстояние Канторовича». Большинство англоязычных публикаций используют немецкое написание «Wasserstein» (приписывается фамилии «Васерштейн» (русский: Васерштейн ), которая имеет идишское происхождение).

Определение

Пусть будет метрическим пространством , которое является польским пространством . Для , расстояние Вассерштейна между двумя вероятностными мерами и на с конечными - моментами равно , где - множество всех связей и ; определяется как и соответствует супремум-норме . Здесь связь - это совместная вероятностная мера на которой маргиналы и на первом и втором факторах соответственно. Это означает, что для всех измеримых она удовлетворяет и .

Интуиция и связь с оптимальным транспортом

Два одномерных распределения и , нанесенные на оси x и y, и одно возможное совместное распределение, которое определяет план транспортировки между ними. Совместный план распределения/транспортировки не является уникальным

Один из способов понять приведенное выше определение — рассмотреть задачу оптимальной транспортировки . То есть, для распределения массы на пространстве мы хотим переместить массу таким образом, чтобы она трансформировалась в распределение на том же пространстве; преобразуя «кучу земли» в кучу . Эта задача имеет смысл только в том случае, если создаваемая куча имеет ту же массу, что и перемещаемая куча; поэтому без потери общности предположим, что и являются распределениями вероятностей, содержащими общую массу 1. Предположим также, что задана некоторая функция стоимости

что дает стоимость транспортировки единицы массы из точки в точку . План транспортировки для перемещения в можно описать функцией , которая дает количество массы для перемещения из в . Вы можете представить себе задачу как необходимость переместить кучу земли формы в яму в земле формы таким образом, чтобы в конце и куча земли, и яма в земле полностью исчезли. Для того чтобы этот план был осмысленным, он должен удовлетворять следующим свойствам:

  1. количество земли, перемещенной из точки, должно быть равно количеству, которое там было изначально; то есть, и
  2. количество земли, перемещенной в точку, должно быть равно глубине ямы, которая была там в начале; то есть,

То есть, общая масса, перемещенная из бесконечно малой области вокруг, должна быть равна , а общая масса, перемещенная в область вокруг, должна быть . Это эквивалентно требованию, чтобы было совместным распределением вероятностей с маргиналами и . Таким образом, бесконечно малая масса, перемещенная из в , равна , а стоимость перемещения равна , следуя определению функции стоимости. Таким образом, общая стоимость плана транспортировки равна

План не является уникальным; оптимальный транспортный план — это план с минимальной стоимостью из всех возможных транспортных планов. Как уже упоминалось, требование к плану, чтобы быть действительным, заключается в том, чтобы он был совместным распределением с маргиналами и ; обозначим набор всех таких мер, как в первом разделе, стоимость оптимального плана равна Если стоимость перемещения — это просто расстояние между двумя точками, то оптимальная стоимость идентична определению расстояния .

Примеры

Точечные массы

Детерминированные распределения

Пусть и будут двумя вырожденными распределениями (т.е. дельта-распределениями Дирака ), расположенными в точках и в . Существует только одна возможная связь этих двух мер, а именно точечная масса, расположенная в . Таким образом, используя обычную функцию абсолютного значения в качестве функции расстояния на , для любого расстояние -Вассерштейна между и равно По аналогичным рассуждениям, если и являются точечными массами, расположенными в точках и в , и мы используем обычную евклидову норму на в качестве функции расстояния, то

Эмпирические распределения

Одно измерение

Если — эмпирическая мера с выборками и — эмпирическая мера с выборками , то расстояние является простой функцией порядковой статистики :

Более высокие измерения

Если и являются эмпирическими распределениями, каждое из которых основано на наблюдениях, то

где инфимум берется по всем перестановкам элементов . Это линейная задача о назначениях , и ее можно решить венгерским алгоритмом за кубическое время .

Нормальные распределения

Пусть и будут двумя невырожденными гауссовыми мерами (т.е. нормальными распределениями ) на , с соответствующими ожидаемыми значениями и и симметричными положительно полуопределенными ковариационными матрицами и . Тогда, [3] относительно обычной евклидовой нормы на , расстояние Вассерштейна 2 между и равно , где обозначает главный квадратный корень из . Обратите внимание, что второй член (включающий след) является в точности (ненормализованной) метрикой Буреса между и . Этот результат обобщает более ранний пример расстояния Вассерштейна между двумя точечными массами (по крайней мере, в случае ), поскольку точечную массу можно рассматривать как нормальное распределение с ковариационной матрицей, равной нулю, в этом случае член следа исчезает и остается только член, включающий евклидово расстояние между средними.

Одномерные распределения

Пусть будут вероятностными мерами на , и обозначим их кумулятивные функции распределения через и . Тогда транспортная задача имеет аналитическое решение: Оптимальный транспорт сохраняет порядок элементов массы вероятности, поэтому масса в квантиле перемещается в квантиль . Таким образом, расстояние -Вассерштейна между и равно , где и являются функциями квантиля (обратными CDF). В случае замена переменных приводит к формуле

Приложения

Метрика Вассерштейна — это естественный способ сравнения распределений вероятностей двух переменных X и Y , где одна переменная выводится из другой посредством небольших неравномерных возмущений (случайных или детерминированных).

В информатике, например, метрика W 1 широко используется для сравнения дискретных распределений, например, цветовых гистограмм двух цифровых изображений ; более подробную информацию см. в разделе «Расстояние землеройной машины» .

В своей статье « Вассерштейн GAN » Арджовски и др. [4] используют метрику Вассерштейна-1 как способ улучшения исходной структуры генеративно-состязательных сетей (GAN), чтобы смягчить проблемы исчезающего градиента и коллапса мод. Частный случай нормальных распределений используется в начальной дистанции Фреше .

Метрика Вассерштейна формально связана с анализом Прокруста , с применением к мерам хиральности [5] и к анализу формы [6] .

В вычислительной биологии метрика Вассерштейна может использоваться для сравнения диаграмм устойчивости наборов данных цитометрии. [7]

Метрика Вассерштейна также использовалась в обратных задачах геофизики. [8]

Метрика Вассерштейна используется в теории интегрированной информации для вычисления разницы между концепциями и концептуальными структурами. [9]

Метрика Вассерштейна и связанные с ней формулировки также использовались для создания единой теории для анализа наблюдаемой формы в наборах данных физики высоких энергий и коллайдеров. [10] [11]

Характеристики

Метрическая структура

Можно показать, что W p удовлетворяет всем аксиомам метрики на пространстве Вассерштейна P p ( M ) , состоящем из всех борелевских вероятностных мер на M, имеющих конечный p -й момент. Более того, сходимость относительно W p эквивалентна обычной слабой сходимости мер плюс сходимость первых p -х моментов. [12]

Двойное представлениеВт1

Следующее дуальное представление W 1 является частным случаем теоремы двойственности Канторовича и Рубинштейна (1958): когда μ и ν имеют ограниченный носитель ,

где Lip( f ) обозначает минимальную константу Липшица для f . Эта форма показывает, что W 1 является интегральной вероятностной метрикой .

Сравните это с определением метрики Радона :

Если метрика d метрического пространства ( M , d ) ограничена некоторой константой C , то

и поэтому сходимость в метрике Радона (идентичная сходимости по полной вариации, когда Mпольское пространство ) подразумевает сходимость в метрике Вассерштейна, но не наоборот.

Доказательство

Ниже приведено интуитивное доказательство, которое пропускает технические моменты. Полностью строгое доказательство находится в [13] .

Дискретный случай : Когда дискретно, решение для 1-расстояния Вассерштейна является задачей линейного программирования: где — общая «функция стоимости».

Тщательно записывая приведенные выше уравнения как матричные уравнения, мы получаем ее двойственную задачу : [14] и по теореме двойственности линейного программирования , поскольку первичная задача является допустимой и ограниченной, то двойственная задача также является допустимой, и минимум в первой задаче равен максимуму во второй задаче. То есть, пара задач демонстрирует сильную двойственность .

Для общего случая двойственная задача находится путем преобразования сумм в интегралы: и сильная двойственность все еще сохраняется. Это теорема двойственности Канторовича . Седрик Виллани приводит следующую интерпретацию Луиса Каффарелли : [15]

Предположим, вы хотите отправить уголь из шахт, распределенных как , на заводы, распределенные как . Функция стоимости транспортировки равна . Теперь приходит грузоотправитель и предлагает выполнить транспортировку для вас. Вы бы заплатили ему за уголь за погрузку угля в , и заплатили бы ему за уголь за разгрузку угля в .

Чтобы вы приняли сделку, ценовой график должен удовлетворять . Двойственность Канторовича гласит, что грузоотправитель может составить ценовой график, который заставит вас заплатить почти столько же, сколько вы бы отправили сами.

Этот результат можно преобразовать далее, чтобы получить:

Теорема  (двойственность Канторовича-Рубенштейна)  —  Когда вероятностное пространство является метрическим, то для любого фиксированного , где — норма Липшица .

Доказательство

Достаточно доказать случай . Начнем с Тогда для любого выбора можно поднять член выше, установив , сделав его инфимальной сверткой с конусом. Это подразумевает для любого , то есть .

Таким образом, Next, для любого выбора , можно оптимизировать, установив . Поскольку , это подразумевает .

Инфинимальная свертка конуса с кривой. Обратите внимание, что нижняя огибающая имеет наклон , и что нижняя огибающая равна кривой на тех частях, где сама кривая имеет наклон .

Два нижних шага свертки визуально понятны, когда вероятностное пространство равно .

Для удобства записи обозначим операцию инфимальной свертки.

Для первого шага, где мы использовали , постройте кривую , затем в каждой точке нарисуйте конус с наклоном 1 и возьмите нижнюю огибающую конусов как , как показано на диаграмме, затем не может увеличиваться с наклоном больше 1. Таким образом, все его секущие имеют наклон .

Для второго шага представьте себе инфимальную свертку , тогда, если все секущие имеют наклон не более 1, то нижняя огибающая — это просто сами вершины конуса, таким образом .

Пример 1D . Когда оба являются распределениями на , то интегрирование по частям дает таким образом

интерпретация механики жидкостиВт2

Бенаму и Брениер нашли двойственное представление с помощью механики жидкости , которое допускает эффективное решение с помощью выпуклой оптимизации . [16] [17]

Даны две плотности вероятности на , где пробегает поля скорости, управляющие уравнением непрерывности с граничными условиями в поле плотности жидкости: То есть масса должна сохраняться, а поле скорости должно переносить распределение вероятностей в течение интервала времени .

ЭквивалентностьВт2и отрицательная норма Соболева

При подходящих предположениях расстояние Вассерштейна порядка два эквивалентно Липшицу однородной норме Соболева отрицательного порядка . Точнее, если мы возьмем связное риманово многообразие , снабженное положительной мерой , то мы можем определить для полунормы и для знаковой меры на дуальной норме Тогда любые две вероятностные меры и на удовлетворяют верхней границе [18] В другом направлении, если и каждая имеет плотности относительно стандартной меры объема на , которые обе ограничены сверху некоторым , и имеет неотрицательную кривизну Риччи , то [19] [20]

Отделимость и полнота

Для любого p ≥ 1 метрическое пространство ( P p ( M ), W p ) является сепарабельным и полным , если ( M , d ) является сепарабельным и полным. [21]

Расстояние Вассерштейна дляп= ∞

Также можно рассмотреть метрику Вассерштейна для . В этом случае определяющая формула становится: где обозначает существенный супремум относительно меры . Метрическое пространство ( P ( M ), W ) является полным, если ( Md ) является сепарабельным и полным. Здесь P — пространство всех вероятностных мер с ограниченным носителем. [22]

Смотрите также

Ссылки

  1. ^ Васерштейн Л. Н. (1969). «Марковские процессы над счетными произведениями пространств, описывающие большие системы автоматов» (PDF) . Проблемы передачи информации . 5 (3): 64–72.
  2. ^ Канторович Л. В. (1939). «Математические методы организации и планирования производства». Наука управления . 6 (4): 366–422. doi :10.1287/mnsc.6.4.366. JSTOR  2627082.
  3. ^ Олкин И, Пукельсхайм Ф (октябрь 1982). «Расстояние между двумя случайными векторами с заданными матрицами дисперсии». Линейная алгебра и ее приложения . 48 : 257–263. doi : 10.1016/0024-3795(82)90112-4 . ISSN  0024-3795.
  4. ^ Arjovsky M, Chintala S, Bottou L (июль 2017 г.). «Генеративно-состязательные сети Вассерштейна». Международная конференция по машинному обучению 214-223 : 214–223.
  5. ^ Petitjean M (2002). "Хиральные смеси" (PDF) . Журнал математической физики . 43 (8): 4147–4157. Bibcode :2002JMP....43.4147P. doi :10.1063/1.1484559. S2CID  85454709.
  6. ^ Petitjean M (2004). «От сходства форм к взаимодополняемости форм: к теории стыковки». Журнал математической химии . 35 (3): 147–158. doi :10.1023/B:JOMC.0000033252.59423.6b. S2CID  121320315.
  7. ^ Мукерджи С., Уэтингтон Д., Дей ТК., Дас Дж. (март 2022 г.). «Определение клинически значимых признаков в данных цитометрии с использованием устойчивой гомологии». PLOS Computational Biology . 18 (3): e1009931. arXiv : 2203.06263 . Bibcode : 2022PLSCB..18E9931M. doi : 10.1371/journal.pcbi.1009931 . PMC 9009779. PMID  35312683 . 
  8. ^ Фредерик, Кристина; Ян, Юнань (2022-05-06). «Видение сквозь камень с помощью оптимального транспорта». Снимки современной математики из Обервольфаха . doi :10.14760/SNAP-2022-004-EN.
  9. ^ Оидзуми, Масафуми; Альбантакис, Лариса; Тонони, Джулио (2014-05-08). «От феноменологии к механизмам сознания: интегрированная теория информации 3.0». PLOS Computational Biology . 10 (5): e1003588. Bibcode : 2014PLSCB..10E3588O. doi : 10.1371/journal.pcbi.1003588 . PMC 4014402. PMID  24811198 . 
  10. ^ Ba, Demba; Dogra, Akshunna S.; Gambhir, Rikab; Tasissa, Abiy; Thaler, Jesse (29.06.2023). "SHAPER: можете ли вы услышать форму струи?". Journal of High Energy Physics . 2023 (6): 195. arXiv : 2302.12266 . Bibcode : 2023JHEP...06..195B. doi : 10.1007/JHEP06(2023)195. ISSN  1029-8479. S2CID  257205971.
  11. ^ "Награды, стипендии и форма физики: новости из колледжа | Imperial News | Imperial College London". Imperial News . 2023-03-29 . Получено 2023-10-31 .
  12. ^ Клемент П., Деш В. (2008). «Элементарное доказательство неравенства треугольника для метрики Вассерштейна». Труды Американского математического общества . 136 (1): 333–339. doi : 10.1090/S0002-9939-07-09020-X .
  13. ^ Виллани, Седрик (2003). "Глава 1: Двойственность Канторовича". Темы оптимальной транспортировки. Провиденс, Род-Айленд: Американское математическое общество. ISBN 0-8218-3312-X. OCLC  51477002.
  14. ^ Матоушек, Йиржи; Гертнер, Бернд (2007), «Двойственность линейного программирования», Понимание и использование линейного программирования, Universitext, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 81–104, doi :10.1007/978-3-540-30717-4_6, ISBN 978-3-540-30697-9, получено 2022-07-15
  15. ^ Виллани, Седрик (2003). "1.1.3. Проблема грузоотправителя". Темы оптимальной транспортировки. Провиденс, Род-Айленд: Американское математическое общество. ISBN 0-8218-3312-X. OCLC  51477002.
  16. ^ Бенаму, Жан-Давид; Бренье, Янн (1 января 2000 г.). «Вычислительное решение проблемы массопереноса Монжа-Канторовича с помощью механики жидкости». Нумерическая математика . 84 (3): 375–393. дои : 10.1007/s002110050002. ISSN  0945-3245. S2CID  1100384.
  17. ^ Финлей, Крис; Якобсен, Йорн-Хенрик; Нурбекян, Левон; Оберман, Адам (2020-11-21). «Как обучить нейронный ОДУ: мир якобианской и кинетической регуляризации». Международная конференция по машинному обучению . PMLR: 3154–3164. arXiv : 2002.02798 .
  18. ^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W2 и нормы Ḣ−1 и локализация расстояния Вассерштейна». ESAIM: Управление, оптимизация и вариационное исчисление . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 . ISSN  1292-8119.(См. теорему 2.1.)
  19. ^ Loeper G (июль 2006 г.). «Единственность решения системы Власова–Пуассона с ограниченной плотностью». Journal de Mathématiques Pures et Appliquées . 86 (1): 68–79. arXiv : math/0504140 . doi : 10.1016/j.matpur.2006.01.005 . ISSN  1292-8119.(См. теорему 2.9.)
  20. ^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W2 и нормы Ḣ−1 и локализация расстояния Вассерштейна». ESAIM: Управление, оптимизация и вариационное исчисление . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 .(См. теорему 2.5.)
  21. ^ Богачев В.И., Колесников А.В. (октябрь 2012 г.). «Проблема Монжа – Канторовича: достижения, связи и перспективы». Российские математические обзоры . 67 (5): 785–890. Бибкод :2012РуМаС..67..785Б. doi : 10.1070/RM2012v067n05ABEH004808. S2CID  121411457.
  22. ^ Гивенс, Кларк Р.; Шорт, Рэй Майкл (1984). «Класс метрик Вассерштейна для распределений вероятностей». Michigan Mathematical Journal . 31 (2): 231–240. doi : 10.1307/mmj/1029003026 .

Дальнейшее чтение

Внешние ссылки