метрика Вассерштейна

В математике расстояние Вассерштейна или метрика Канторовича – Рубинштейна – это функция расстояния, определённая между распределениями вероятностей на заданном метрическом пространстве . Она названа в честь Леонида Васерштейна . $М$

Интуитивно, если каждое распределение рассматривать как единицу количества земли (почвы), сложенной на , метрика представляет собой минимальную «стоимость» превращения одной кучи в другую, которая, как предполагается, равна количеству земли, которое необходимо переместить, умноженному на среднее расстояние, на которое ее необходимо переместить. Эта задача была впервые формализована Гаспаром Монжем в 1781 году. Из-за этой аналогии метрика известна в информатике как расстояние землекопа . $М$

Название «расстояние Вассерштейна» было придумано Р. Л. Добрушиным в 1970 году после того, как он узнал о нем из работы Леонида Васерштейна о марковских процессах, описывающих большие системы автоматов ^[1] (русский, 1969). Однако впервые метрика была определена Леонидом Канторовичем в «Математическом методе планирования и организации производства» ^[2] (русский оригинал 1939) в контексте оптимального планирования перевозок товаров и материалов. Некоторые ученые поэтому поощряют использование терминов «метрика Канторовича» и «расстояние Канторовича». Большинство англоязычных публикаций используют немецкое написание «Wasserstein» (приписывается фамилии «Васерштейн» (русский: Васерштейн ), которая имеет идишское происхождение).

Определение

Пусть будет метрическим пространством , которое является польским пространством . Для , расстояние Вассерштейна между двумя вероятностными мерами и на с конечными - моментами равно , где - множество всех связей и ; определяется как и соответствует супремум-норме . Здесь связь - это совместная вероятностная мера на которой маргиналы и на первом и втором факторах соответственно. Это означает, что для всех измеримых она удовлетворяет и . $(М,д)$ $p\in [1,+\infty]$ $p$ $\мю$ $\nu$ $М$ $p$ $W_{p}(\mu,\nu)=\inf _{\gamma \in \Gamma (\mu,\nu)}\left(\mathbf {E} _{(x,y)\sim \гамма }d(x,y)^{p}\right)^{1/p},$ $\Gamma (\mu,\nu)$ $\мю$ $\nu$ $W_ {\infty }(\mu,\nu)$ $\lim _ {p\rightarrow +\infty }W_ {p}(\mu,\nu)$ $\гамма$ $М\times М$ $\мю$ $\nu$ $A\subset M$ $\gamma (A\times M)=\mu (A)$ $\gamma (M\times A)=\nu (A)$

Интуиция и связь с оптимальным транспортом

Два одномерных распределения и , нанесенные на оси x и y, и одно возможное совместное распределение, которое определяет план транспортировки между ними. Совместный план распределения/транспортировки не является уникальным $\мю$ $\nu$

Один из способов понять приведенное выше определение — рассмотреть задачу оптимальной транспортировки . То есть, для распределения массы на пространстве мы хотим переместить массу таким образом, чтобы она трансформировалась в распределение на том же пространстве; преобразуя «кучу земли» в кучу . Эта задача имеет смысл только в том случае, если создаваемая куча имеет ту же массу, что и перемещаемая куча; поэтому без потери общности предположим, что и являются распределениями вероятностей, содержащими общую массу 1. Предположим также, что задана некоторая функция стоимости $\мю (х)$ $X$ $\nu (x)$ $\мю$ $\nu$ $\мю$ $\nu$

$c(x,y)\geq 0$

что дает стоимость транспортировки единицы массы из точки в точку . План транспортировки для перемещения в можно описать функцией , которая дает количество массы для перемещения из в . Вы можете представить себе задачу как необходимость переместить кучу земли формы в яму в земле формы таким образом, чтобы в конце и куча земли, и яма в земле полностью исчезли. Для того чтобы этот план был осмысленным, он должен удовлетворять следующим свойствам: $x$ $у$ $\мю$ $\nu$ $\гамма (x,y)$ $x$ $у$ $\мю$ $\nu$

количество земли, перемещенной из точки, должно быть равно количеству, которое там было изначально; то есть, и $x$ $\int \gamma (x,y)\,\mathrm {d} y=\mu (x),$
количество земли, перемещенной в точку, должно быть равно глубине ямы, которая была там в начале; то есть, $у$ $\int \gamma (x,y)\,\mathrm {d} x=\nu (y).$

То есть, что общая масса, перемещенная из бесконечно малой области вокруг должна быть равна , а общая масса, перемещенная в область вокруг должна быть . Это эквивалентно требованию, чтобы было совместным распределением вероятностей с маргиналами и . Таким образом, бесконечно малая масса, перемещенная из в , равна , а стоимость перемещения равна , следуя определению функции стоимости. Таким образом, общая стоимость плана транспортировки равна $x$ $\mu (x)\mathrm {d} x$ $у$ $\nu (y)\mathrm {d} y$ $\гамма$ $\мю$ $\nu$ $x$ $у$ $\gamma (x,y)\,\mathrm {d} x\,\mathrm {d} y$ $c(x,y)\gamma (x,y)\,\mathrm {d} x\,\mathrm {d} y$ $\гамма$ $\iint c(x,y)\gamma (x,y)\,\mathrm {d} x\,\mathrm {d} y = \int c(x,y)\,\mathrm {d} \гамма (x,y).$

План не является уникальным; оптимальный транспортный план — это план с минимальной стоимостью из всех возможных транспортных планов. Как уже упоминалось, требование к плану, чтобы быть действительным, заключается в том, чтобы он был совместным распределением с маргиналами и ; обозначим набор всех таких мер, как в первом разделе, стоимость оптимального плана равна Если стоимость перемещения — это просто расстояние между двумя точками, то оптимальная стоимость идентична определению расстояния . $\гамма$ $\мю$ $\nu$ $\Гамма$ $C=\inf _ {\gamma \in \Gamma (\mu,\nu)}\int c(x,y)\,\mathrm {d} \gamma (x,y).$ $W_{1}$

Примеры

Точечные массы

Детерминированные распределения

Пусть и будут двумя вырожденными распределениями (т.е. дельта-распределениями Дирака ), расположенными в точках и в . Существует только одна возможная связь этих двух мер, а именно точечная масса, расположенная в . Таким образом, используя обычную функцию абсолютного значения в качестве функции расстояния на , для любого расстояние -Вассерштейна между и равно По аналогичным рассуждениям, если и являются точечными массами, расположенными в точках и в , и мы используем обычную евклидову норму на в качестве функции расстояния, то $\mu _{1}=\delta _{a_{1}}$ $\mu _{2}=\delta _{a_{2}}$ $а_{1}$ $а_{2}$ $\mathbb {R}$ $\delta _{(a_{1},a_{2})}$ $(a_{1},a_{2})\in \mathbb {R} ^{2}$ $\mathbb {R}$ $p\geq 1$ $p$ $\mu _{1}$ $\mu _{2}$ $W_{p}(\mu _{1},\mu _{2})=|a_{1}-a_{2}|.$ $\mu _{1}=\delta _{a_{1}}$ $\mu _{2}=\delta _{a_{2}}$ $а_{1}$ $а_{2}$ $\mathbb {R} ^{n}$ $\mathbb {R} ^{n}$ $W_{p}(\mu _{1},\mu _{2})=\|a_{1}-a_{2}\|_{2}.$

Эмпирические распределения

Одно измерение

Если — эмпирическая мера с выборками и — эмпирическая мера с выборками , то расстояние является простой функцией порядковой статистики : $P$ $X_{1},\ldots ,X_{n}$ $Q$ $Y_{1},\ldots ,Y_{n}$ $W_{p}(P,Q)=\left({\frac {1}{n}}\sum _{i=1}^{n}\|X_{(i)}-Y_{(i)}\|^{p}\right)^{1/p}.$

Более высокие измерения

Если и являются эмпирическими распределениями, каждое из которых основано на наблюдениях, то $P$ $Q$ $n$

$W_{p}(P,Q)=\inf _{\pi }\left({\frac {1}{n}}\sum _{i=1}^{n}\|X_{i}-Y_{\pi (i)}\|^{p}\right)^{1/p},$

где инфимум берется по всем перестановкам элементов . Это линейная задача о назначениях , и ее можно решить венгерским алгоритмом за кубическое время . $\пи$ $n$

Нормальные распределения

Пусть и будут двумя невырожденными гауссовыми мерами (т.е. нормальными распределениями ) на , с соответствующими ожидаемыми значениями и и симметричными положительно полуопределенными ковариационными матрицами и . Тогда, ^[3] относительно обычной евклидовой нормы на , расстояние Вассерштейна 2 между и равно , где обозначает главный квадратный корень из . Обратите внимание, что второй член (включающий след) является в точности (ненормализованной) метрикой Буреса между и . Этот результат обобщает более ранний пример расстояния Вассерштейна между двумя точечными массами (по крайней мере, в случае ), поскольку точечную массу можно рассматривать как нормальное распределение с ковариационной матрицей, равной нулю, в этом случае член следа исчезает и остается только член, включающий евклидово расстояние между средними. $\mu _{1}={\mathcal {N}}(m_{1},C_{1})$ $\mu _{2}={\mathcal {N}}(m_{2},C_{2})$ $\mathbb {R} ^{n}$ $m_{1}$ $m_{2}\in \mathbb {R} ^{n}$ $C_{1}$ $C_{2}\in \mathbb {R} ^{n\times n}$ $\mathbb {R} ^{n}$ $\mu _{1}$ $\mu _{2}$ $W_{2}(\mu _{1},\mu _{2})^{2}=\|m_{1}-m_{2}\|_{2}^{2}+\mathop {\mathrm {след} } {\bigl (}C_{1}+C_{2}-2{\bigl (}C_{2}^{1/2}C_{1}C_{2}^{1/2}{\bigr )}^{1/2}{\bigr )}.$ $C^{1/2}$ $C$ $C_{1}$ $C_{2}$ $p=2$

Одномерные распределения

Пусть будут вероятностными мерами на , и обозначим их кумулятивные функции распределения через и . Тогда транспортная задача имеет аналитическое решение: Оптимальный транспорт сохраняет порядок элементов массы вероятности, поэтому масса в квантиле перемещается в квантиль . Таким образом, расстояние -Вассерштейна между и равно , где и являются функциями квантиля (обратными CDF). В случае замена переменных приводит к формуле $\mu _{1},\mu _{2}\in P_{p}(\mathbb {R} )$ $\mathbb {R}$ $F_{1}(x)$ $F_{2}(x)$ $q$ $\mu _{1}$ $q$ $\mu _{2}$ $p$ $\mu _{1}$ $\mu _{2}$ $W_{p}(\mu _{1},\mu _{2})=\left(\int _{0}^{1}\left|F_{1}^{-1}(q)-F_{2}^{-1}(q)\right|^{p}\,\mathrm {d} q\right)^{1/p},$ $F_{1}^{-1}$ $F_{2}^{-1}$ $p=1$ $W_{1}(\mu _{1},\mu _{2})=\int _{\mathbb {R} }\left|F_{1}(x)-F_{2}(x)\right|\,\mathrm {d} x.$

Приложения

Метрика Вассерштейна — это естественный способ сравнения распределений вероятностей двух переменных X и Y , где одна переменная выводится из другой посредством небольших неравномерных возмущений (случайных или детерминированных).

В информатике, например, метрика W ₁ широко используется для сравнения дискретных распределений, например, цветовых гистограмм двух цифровых изображений ; более подробную информацию см. в разделе «Расстояние землеройной машины» .

В своей статье « Вассерштейн GAN » Арджовски и др. ^[4] используют метрику Вассерштейна-1 как способ улучшения исходной структуры генеративно-состязательных сетей (GAN), чтобы смягчить проблемы исчезающего градиента и коллапса мод. Частный случай нормальных распределений используется в начальной дистанции Фреше .

Метрика Вассерштейна формально связана с анализом Прокруста , с применением к мерам хиральности ^[5] и к анализу формы ^{[6] .}

В вычислительной биологии метрика Вассерштейна может использоваться для сравнения диаграмм устойчивости наборов данных цитометрии. ^[7]

Метрика Вассерштейна также использовалась в обратных задачах геофизики. ^[8]

Метрика Вассерштейна используется в теории интегрированной информации для вычисления разницы между концепциями и концептуальными структурами. ^[9]

Метрика Вассерштейна и связанные с ней формулировки также использовались для создания единой теории для анализа наблюдаемой формы в наборах данных физики высоких энергий и коллайдеров. ^[10]^[11]

Характеристики

Метрическая структура

Можно показать, что W _p удовлетворяет всем аксиомам метрики на пространстве Вассерштейна P _p ( M ) , состоящем из всех борелевских вероятностных мер на M, имеющих конечный p -й момент. Более того, сходимость относительно W _p эквивалентна обычной слабой сходимости мер плюс сходимость первых p -х моментов. ^[12]

Двойное представлениеВт1

Следующее дуальное представление W ₁ является частным случаем теоремы двойственности Канторовича и Рубинштейна (1958): когда μ и ν имеют ограниченный носитель ,

$W_{1}(\mu ,\nu )=\sup \left\{\left.\int _{M}f(x)\,\mathrm {d} (\mu -\nu )(x)\,\right|{\text{ continuous }}f:M\to \mathbb {R} ,\operatorname {Lip} (f)\leq 1\right\},$

где Lip( f ) обозначает минимальную константу Липшица для f . Эта форма показывает, что W ₁ является интегральной вероятностной метрикой .

Сравните это с определением метрики Радона :

$\rho (\mu ,\nu ):=\sup \left\{\left.\int _{M}f(x)\,\mathrm {d} (\mu -\nu )(x)\,\right|{\text{ continuous }}f:M\to [-1,1]\right\}.$

Если метрика d метрического пространства ( M , d ) ограничена некоторой константой C , то

$2W_{1}(\mu ,\nu )\leq C\rho (\mu ,\nu ),$

и поэтому сходимость в метрике Радона (идентичная сходимости по полной вариации, когда M — польское пространство ) подразумевает сходимость в метрике Вассерштейна, но не наоборот.

Доказательство

Ниже приведено интуитивное доказательство, которое пропускает технические моменты. Полностью строгое доказательство находится в ^{[13] .}

Дискретный случай : Когда дискретно, решение для 1-расстояния Вассерштейна является задачей линейного программирования: где — общая «функция стоимости». $M$ ${\begin{cases}\min _{\gamma }\sum _{x,y}c(x,y)\gamma (x,y)\\\sum _{y}\gamma (x,y)=\mu (x)\\\sum _{x}\gamma (x,y)=\nu (y)\\\gamma \geq 0\end{cases}}$ $c:M\times M\to [0,\infty )$

Тщательно записывая приведенные выше уравнения как матричные уравнения, мы получаем ее двойственную задачу : ^[14] и по теореме двойственности линейного программирования , поскольку первичная задача является допустимой и ограниченной, то двойственная задача также является допустимой, и минимум в первой задаче равен максимуму во второй задаче. То есть, пара задач демонстрирует сильную двойственность . ${\begin{cases}\max _{f,g}\sum _{x}\mu (x)f(x)+\sum _{y}\nu (y)g(y)\\f(x)+g(y)\leq c(x,y)\end{cases}}$

Для общего случая двойственная задача находится путем преобразования сумм в интегралы: и сильная двойственность все еще сохраняется. Это теорема двойственности Канторовича . Седрик Виллани приводит следующую интерпретацию Луиса Каффарелли : ^[15] ${\begin{cases}\sup _{f,g}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)]\\f(x)+g(y)\leq c(x,y)\end{cases}}$

Предположим, вы хотите отправить уголь из шахт, распределенных как , на заводы, распределенные как . Функция стоимости транспортировки равна . Теперь приходит грузоотправитель и предлагает выполнить транспортировку для вас. Вы бы заплатили ему за уголь за погрузку угля в , и заплатили бы ему за уголь за разгрузку угля в . $\mu$ $\nu$ $c$ $f(x)$ $x$ $g(y)$ $y$
Чтобы вы приняли сделку, ценовой график должен удовлетворять . Двойственность Канторовича гласит, что грузоотправитель может составить ценовой график, который заставит вас заплатить почти столько же, сколько вы бы отправили сами. $f(x)+g(y)\leq c(x,y)$

Этот результат можно преобразовать далее, чтобы получить:

Теорема (двойственность Канторовича-Рубенштейна) — Когда вероятностное пространство является метрическим, то для любого фиксированного , где — норма Липшица . $\Omega$ $K>0$ $W_{1}(\mu ,\nu )={\frac {1}{K}}\sup _{\|f\|_{L}\leq K}\mathbb {E} _{x\sim \mu }[f(x)]-\mathbb {E} _{y\sim \nu }[f(y)]$ $\|\cdot \|_{L}$

Доказательство

Достаточно доказать случай . Начнем с Тогда для любого выбора можно поднять член выше, установив , сделав его инфимальной сверткой с конусом. Это подразумевает для любого , то есть . $K=1$ $W_{1}(\mu ,\nu )=\sup _{f(x)+g(y)\leq d(x,y)}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)].$ $g$ $f(x)=\inf _{y}d(x,y)-g(y)$ $-g$ $f(x)-f(y)\leq d(x,y)$ $x,y$ $\|f\|_{L}\leq 1$

Таким образом, Next, для любого выбора , можно оптимизировать, установив . Поскольку , это подразумевает . ${\begin{aligned}W_{1}(\mu ,\nu )&=\sup _{g}\sup _{f(x)+g(y)\leq d(x,y)}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)]\\&=\sup _{g}\sup _{\|f\|_{L}\leq 1,f(x)+g(y)\leq d(x,y)}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)]\\&=\sup _{\|f\|_{L}\leq 1}\sup _{g,f(x)+g(y)\leq d(x,y)}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)].\end{aligned}}$ $\|f\|_{L}\leq 1$ $g$ $g(y)=\inf _{x}d(x,y)-f(x)$ $\|f\|_{L}\leq 1$ $g(y)=-f(y)$

Два нижних шага свертки визуально понятны, когда вероятностное пространство равно . $\mathbb {R}$

Для удобства записи обозначим операцию инфимальной свертки. $\square$

Для первого шага, где мы использовали , постройте кривую , затем в каждой точке нарисуйте конус с наклоном 1 и возьмите нижнюю огибающую конусов как , как показано на диаграмме, затем не может увеличиваться с наклоном больше 1. Таким образом, все его секущие имеют наклон . $f={\text{cone}}\mathbin {\square } (-g)$ $-g$ $f$ $f$ ${\bigg |}{\frac {f(x)-f(y)}{x-y}}{\bigg |}\leq 1$

Для второго шага представьте себе инфимальную свертку , тогда, если все секущие имеют наклон не более 1, то нижняя огибающая — это просто сами вершины конуса, таким образом . ${\text{cone}}\mathbin {\square } (-f)$ $f$ ${\text{cone}}\mathbin {\square } (-f)$ ${\text{cone}}\mathbin {\square } (-f)=-f$

Пример 1D . Когда оба являются распределениями на , то интегрирование по частям дает таким образом $\mu ,\nu$ $\mathbb {R}$ $\mathbb {E} _{x\sim \mu }[f(x)]-\mathbb {E} _{y\sim \nu }[f(y)]=\int f'(x)(F_{\nu }(x)-F_{\mu }(x))\,\mathrm {d} x,$ $f(x)=K\cdot \operatorname {sign} (F_{\nu }(x)-F_{\mu }(x)).$

интерпретация механики жидкостиВт2

Бенаму и Брениер нашли двойственное представление с помощью механики жидкости , которое допускает эффективное решение с помощью выпуклой оптимизации . ^[16]^[17] $W_{2}$

Даны две плотности вероятности на , где пробегает поля скорости, управляющие уравнением непрерывности с граничными условиями в поле плотности жидкости: То есть масса должна сохраняться, а поле скорости должно переносить распределение вероятностей в течение интервала времени . $p,q$ $\mathbb {R} ^{n}$ $W_{2}(p,q)=\min _{\mathbf {v}}\int _{0}^{1}\int _{\mathbb {R} ^{n}}\|{\mathbf {v}}({\mathbf {x}},t)\|^{2}\rho ({\mathbf {x}},t)\,d{\mathbf {x}}\,dt$ ${\mathbf {v}}$ ${\dot {\rho }}+\nabla \cdot (\rho {\mathbf {v}})=0\quad \rho (\cdot ,0)=p,\;\rho (\cdot ,1)=q$ $p$ $q$ $[0,1]$

ЭквивалентностьВт2и отрицательная норма Соболева

При подходящих предположениях расстояние Вассерштейна порядка два эквивалентно Липшицу однородной норме Соболева отрицательного порядка . Точнее, если мы возьмем связное риманово многообразие , снабженное положительной мерой , то мы можем определить для полунормы и для знаковой меры на дуальной норме Тогда любые две вероятностные меры и на удовлетворяют верхней границе ^[18] В другом направлении, если и каждая имеет плотности относительно стандартной меры объема на , которые обе ограничены сверху некоторым , и имеет неотрицательную кривизну Риччи , то ^[19]^[20] $W_{2}$ $M$ $\pi$ $f\colon M\to \mathbb {R}$ $\|f\|_{{\dot {H}}^{1}(\pi )}^{2}=\int _{M}\|\nabla f(x)\|^{2}\,\pi (\mathrm {d} x)$ $\mu$ $M$ $\|\mu \|_{{\dot {H}}^{-1}(\pi )}=\sup {\bigg \{}|\langle f,\mu \rangle |\,{\bigg |}\,\|f\|_{{\dot {H}}^{1}(\pi )}\leq 1{\bigg \}}.$ $\mu$ $\nu$ $M$ $W_{2}(\mu ,\nu )\leq 2\,\|\mu -\nu \|_{{\dot {H}}^{-1}(\pi )}.$ $\mu$ $\nu$ $M$ $0<C<\infty$ $M$ $\|\mu -\nu \|_{{\dot {H}}^{-1}(\pi )}\leq {\sqrt {C}}\,W_{2}(\mu ,\nu ).$

Отделимость и полнота

Для любого p ≥ 1 метрическое пространство ( P _p ( M ), W _p ) является сепарабельным и полным , если ( M , d ) является сепарабельным и полным. ^[21]

Расстояние Вассерштейна дляп= ∞

Также можно рассмотреть метрику Вассерштейна для . В этом случае определяющая формула становится: где обозначает существенный супремум относительно меры . Метрическое пространство ( P_∞ ( M ), W _∞ ) является полным, если ( M , d ) является сепарабельным и полным. Здесь P_∞ — пространство всех вероятностных мер с ограниченным носителем. ^[22] $p=\infty$ $W_{\infty }(\mu ,\nu )=\lim _{p\rightarrow +\infty }W_{p}(\mu ,\nu )=\inf _{\gamma \in \Gamma (\mu ,\nu )}\gamma \operatorname {-essup} d(x,y),$ $\gamma \operatorname {-essup} d(x,y)$ $d(x,y)$ $\gamma$

Смотрите также

Ссылки

^ Васерштейн Л. Н. (1969). «Марковские процессы над счетными произведениями пространств, описывающие большие системы автоматов» (PDF) . Проблемы передачи информации . 5 (3): 64–72.
^ Канторович Л. В. (1939). «Математические методы организации и планирования производства». Наука управления . 6 (4): 366–422. doi :10.1287/mnsc.6.4.366. JSTOR 2627082.
^ Олкин И, Пукельсхайм Ф (октябрь 1982). «Расстояние между двумя случайными векторами с заданными матрицами дисперсии». Линейная алгебра и ее приложения . 48 : 257–263. doi : 10.1016/0024-3795(82)90112-4 . ISSN 0024-3795.
^ Arjovsky M, Chintala S, Bottou L (июль 2017 г.). «Генеративно-состязательные сети Вассерштейна». Международная конференция по машинному обучению 214-223 : 214–223.
^ Petitjean M (2002). "Хиральные смеси" (PDF) . Журнал математической физики . 43 (8): 4147–4157. Bibcode :2002JMP....43.4147P. doi :10.1063/1.1484559. S2CID 85454709.
^ Petitjean M (2004). «От сходства форм к взаимодополняемости форм: к теории стыковки». Журнал математической химии . 35 (3): 147–158. doi :10.1023/B:JOMC.0000033252.59423.6b. S2CID 121320315.
^ Мукерджи С., Уэтингтон Д., Дей ТК., Дас Дж. (март 2022 г.). «Определение клинически значимых признаков в данных цитометрии с использованием устойчивой гомологии». PLOS Computational Biology . 18 (3): e1009931. arXiv : 2203.06263 . Bibcode : 2022PLSCB..18E9931M. doi : 10.1371/journal.pcbi.1009931 . PMC 9009779. PMID 35312683 .
^ Фредерик, Кристина; Ян, Юнань (2022-05-06). «Видение сквозь камень с помощью оптимального транспорта». Снимки современной математики из Обервольфаха . doi :10.14760/SNAP-2022-004-EN.
^ Оидзуми, Масафуми; Альбантакис, Лариса; Тонони, Джулио (2014-05-08). «От феноменологии к механизмам сознания: интегрированная теория информации 3.0». PLOS Computational Biology . 10 (5): e1003588. Bibcode : 2014PLSCB..10E3588O. doi : 10.1371/journal.pcbi.1003588 . PMC 4014402. PMID 24811198 .
^ Ba, Demba; Dogra, Akshunna S.; Gambhir, Rikab; Tasissa, Abiy; Thaler, Jesse (29.06.2023). "SHAPER: можете ли вы услышать форму струи?". Journal of High Energy Physics . 2023 (6): 195. arXiv : 2302.12266 . Bibcode : 2023JHEP...06..195B. doi : 10.1007/JHEP06(2023)195. ISSN 1029-8479. S2CID 257205971.
^ "Награды, стипендии и форма физики: новости из колледжа | Imperial News | Imperial College London". Imperial News . 2023-03-29 . Получено 2023-10-31 .
^ Клемент П., Деш В. (2008). «Элементарное доказательство неравенства треугольника для метрики Вассерштейна». Труды Американского математического общества . 136 (1): 333–339. doi : 10.1090/S0002-9939-07-09020-X .
^ Виллани, Седрик (2003). "Глава 1: Двойственность Канторовича". Темы оптимальной транспортировки. Провиденс, Род-Айленд: Американское математическое общество. ISBN 0-8218-3312-X. OCLC 51477002.
^ Матоушек, Йиржи; Гертнер, Бернд (2007), «Двойственность линейного программирования», Понимание и использование линейного программирования, Universitext, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 81–104, doi :10.1007/978-3-540-30717-4_6, ISBN 978-3-540-30697-9, получено 2022-07-15
^ Виллани, Седрик (2003). "1.1.3. Проблема грузоотправителя". Темы оптимальной транспортировки. Провиденс, Род-Айленд: Американское математическое общество. ISBN 0-8218-3312-X. OCLC 51477002.
^ Бенаму, Жан-Давид; Бренье, Янн (1 января 2000 г.). «Решение задачи массопереноса Монжа-Канторовича с помощью вычислительной гидромеханики». Нумерическая математика . 84 (3): 375–393. дои : 10.1007/s002110050002. ISSN 0945-3245. S2CID 1100384.
^ Финлей, Крис; Якобсен, Йорн-Хенрик; Нурбекян, Левон; Оберман, Адам (2020-11-21). «Как обучить нейронный ОДУ: мир якобианской и кинетической регуляризации». Международная конференция по машинному обучению . PMLR: 3154–3164. arXiv : 2002.02798 .
^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W2 и нормы Ḣ−1 и локализация расстояния Вассерштейна». ESAIM: Управление, оптимизация и вариационное исчисление . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 . ISSN 1292-8119.(См. теорему 2.1.)
^ Loeper G (июль 2006 г.). «Единственность решения системы Власова–Пуассона с ограниченной плотностью». Journal de Mathématiques Pures et Appliquées . 86 (1): 68–79. arXiv : math/0504140 . doi : 10.1016/j.matpur.2006.01.005 . ISSN 1292-8119.(См. теорему 2.9.)
^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W2 и нормы Ḣ−1 и локализация расстояния Вассерштейна». ESAIM: Управление, оптимизация и вариационное исчисление . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 .(См. теорему 2.5.)
^ Богачев В.И., Колесников А.В. (октябрь 2012 г.). «Проблема Монжа – Канторовича: достижения, связи и перспективы». Российские математические обзоры . 67 (5): 785–890. Бибкод :2012РуМаС..67..785Б. doi : 10.1070/RM2012v067n05ABEH004808. S2CID 121411457.
^ Гивенс, Кларк Р.; Шорт, Рэй Майкл (1984). «Класс метрик Вассерштейна для распределений вероятностей». Michigan Mathematical Journal . 31 (2): 231–240. doi : 10.1307/mmj/1029003026 .

Дальнейшее чтение

Амброзио Л., Джильи Н., Саваре Г. (2005). Градиентные потоки в метрических пространствах и в пространстве вероятностных мер . Базель: ETH Zürich, Birkhäuser Verlag. ISBN 978-3-7643-2428-5.
Jordan R, Kinderlehrer D, Otto F (январь 1998 г.). «Вариационная формулировка уравнения Фоккера–Планка». SIAM Journal on Mathematical Analysis . 29 (1): 1–17 (электронный). CiteSeerX 10.1.1.6.8815 . doi :10.1137/S0036141096303359. ISSN 0036-1410. MR 1617171. S2CID 13890235.
Рюшендорф Л (2001) [1994], "Метрика Вассерштейна", Энциклопедия математики , EMS Press
Виллани С. (2008). Оптимальный транспорт, старый и новый . Springer. ISBN 978-3-540-71050-9.

Внешние ссылки

«В чем преимущества метрики Вассерштейна по сравнению с дивергенцией Кульбака–Лейблера?». Stack Exchange . 1 августа 2017 г.