Помимо того, что вариационные автокодировщики рассматриваются как архитектура нейронной сети автокодировщика , их также можно изучать в рамках математической формулировки вариационных байесовских методов , соединяя нейронную сеть кодировщика с ее декодером через вероятностное скрытое пространство (например, как многомерное гауссово распределение ), которое соответствует параметрам вариационного распределения.
Таким образом, кодер отображает каждую точку (например, изображение) из большого сложного набора данных в распределение внутри скрытого пространства, а не в одну точку в этом пространстве. Декодер имеет противоположную функцию, которая заключается в отображении из скрытого пространства во входное пространство, снова в соответствии с распределением (хотя на практике шум редко добавляется во время стадии декодирования). Отображая точку в распределение вместо одной точки, сеть может избежать переобучения обучающих данных. Обе сети обычно обучаются вместе с использованием трюка репараметризации, хотя дисперсия шумовой модели может быть изучена отдельно. [ необходима цитата ]
Вариационный автоэнкодер — это генеративная модель с априорным и шумовым распределением соответственно. Обычно такие модели обучаются с использованием метаалгоритма максимизации ожиданий (например, вероятностного PCA , (спайкового и слэбового) разреженного кодирования). Такая схема оптимизирует нижнюю границу правдоподобия данных, что обычно не поддается обработке, и при этом требует обнаружения q-распределений или вариационных апостериорных распределений . Эти q-распределения обычно параметризуются для каждой отдельной точки данных в отдельном процессе оптимизации. Однако вариационные автоэнкодеры используют нейронную сеть в качестве амортизированного подхода для совместной оптимизации по точкам данных. Эта нейронная сеть принимает в качестве входных данных сами точки данных и выводит параметры для вариационного распределения. Поскольку она отображает известное входное пространство в скрытое пространство низкой размерности, она называется кодером.
Декодер — вторая нейронная сеть этой модели. Это функция, которая отображает скрытое пространство во входное пространство, например, как средство распределения шума. Можно использовать другую нейронную сеть, которая отображает дисперсию, однако это можно опустить для простоты. В таком случае дисперсию можно оптимизировать с помощью градиентного спуска.
Для оптимизации этой модели необходимо знать два термина: «ошибка реконструкции» и расхождение Кульбака–Лейблера (KL-D). Оба термина выводятся из выражения свободной энергии вероятностной модели и, следовательно, различаются в зависимости от распределения шума и предполагаемого априорного значения данных. Например, стандартная задача VAE, такая как IMAGENET, обычно предполагает наличие гауссовского распределения шума; однако такие задачи, как бинаризированный MNIST, требуют шума Бернулли. KL-D из выражения свободной энергии максимизирует массу вероятности q-распределения, которое перекрывается с p-распределением, что, к сожалению, может привести к поведению поиска моды. Термин «реконструкция» является остатком выражения свободной энергии и требует выборочного приближения для вычисления его ожидаемого значения. [8]
С точки зрения вероятностного моделирования, мы хотим максимизировать правдоподобие данных с помощью выбранного нами параметризованного распределения вероятностей . Это распределение обычно выбирается как гауссово , параметризованное и соответственно, и как член экспоненциального семейства с ним легко работать как с шумовым распределением. Простые распределения достаточно легко максимизировать, однако распределения, в которых предполагается априорная вероятность по скрытым, приводят к трудноразрешимым интегралам. Давайте найдем с помощью маргинализации по .
где представляет собой совместное распределение под наблюдаемыми данными и их скрытым представлением или кодированием . Согласно правилу цепочки , уравнение можно переписать как
В ванильном вариационном автокодере обычно принимается конечномерный вектор действительных чисел, а распределение Гаусса . Тогда представляет собой смесь распределений Гаусса.
Теперь можно определить набор отношений между входными данными и их скрытым представлением как
Прежний
Вероятность
Задний
К сожалению, вычисление является дорогостоящим и в большинстве случаев неразрешимым. Чтобы ускорить исчисление и сделать его осуществимым, необходимо ввести дополнительную функцию для аппроксимации апостериорного распределения как
с определенным как набор действительных значений, которые параметризуют . Иногда это называют амортизированным выводом , поскольку, «инвестируя» в поиск хорошего , можно позже быстро вывести из без выполнения каких-либо интегралов.
Таким образом, проблема состоит в том, чтобы найти хороший вероятностный автокодировщик, в котором условное распределение правдоподобия вычисляется вероятностным декодером , а приближенное апостериорное распределение вычисляется вероятностным кодером .
Для вариационных автоэнкодеров идея заключается в совместной оптимизации параметров генеративной модели для уменьшения ошибки реконструкции между входом и выходом и в максимальном приближении к . В качестве потери реконструкции часто используют среднеквадратичную ошибку и перекрестную энтропию .
Поскольку расстояние между двумя распределениями уменьшается, расхождение Кульбака–Лейблера является хорошим выбором для сжатия под . [8] [9]
Потеря расстояния, определенная только что, расширяется как
Теперь определим нижнюю границу доказательств (ELBO): максимизация ELBO эквивалентна одновременной максимизации и минимизации . То есть максимизации логарифмического правдоподобия наблюдаемых данных и минимизации расхождения приблизительной апостериорной вероятности от точной апостериорной вероятности .
Приведенная форма не очень удобна для максимизации, но следующая эквивалентная форма: где реализуется как , так как это с точностью до аддитивной константы, что дает. То есть мы моделируем распределение условного на как гауссовское распределение с центром на . Распределение и часто также выбираются как гауссовы, как и , с помощью которых мы получаем по формуле для KL-дивергенции гауссовских функций : Здесь — размерность . Для более подробного вывода и дополнительных интерпретаций ELBO и его максимизации см. его главную страницу .
Его легко найти Однако, не позволяет поместить внутрь ожидания, так как появляется в самом распределении вероятностей. Трюк с репараметризацией (также известный как стохастическое обратное распространение [10] ) обходит эту трудность. [8] [11] [12]
Наиболее важным примером является случай, когда распределение является нормальным, например .
Поскольку мы перепараметризовали , нам нужно найти . Пусть будет функцией плотности вероятности для , тогда [ необходимо разъяснение ] где есть матрица Якоби для относительно . Поскольку , это
Вариации
Для адаптации архитектуры к другим областям и повышения ее производительности использовались многочисленные приложения и расширения вариационных автокодировщиков.
-VAE — это реализация с весовым членом дивергенции Кульбака–Лейблера для автоматического обнаружения и интерпретации факторизованных скрытых представлений. С этой реализацией можно принудительно распутывать многообразия для значений больше единицы. Эта архитектура может обнаруживать распутанные скрытые факторы без наблюдения. [13] [14]
Условный VAE (CVAE) вставляет информацию о метках в скрытое пространство, чтобы принудительно сформировать детерминированное ограниченное представление изученных данных. [15]
Некоторые структуры напрямую связаны с качеством сгенерированных образцов [16] [17] или реализуют более одного скрытого пространства для дальнейшего улучшения обучения представлению.
После первоначальной работы Дидерика П. Кингмы и Макса Веллинга [21] было предложено несколько процедур для более абстрактной формулировки работы VAE. В этих подходах функция потерь состоит из двух частей:
обычная часть ошибки реконструкции, которая стремится обеспечить, чтобы отображение кодер-затем-декодер было как можно ближе к карте идентичности; выборка выполняется во время выполнения из эмпирического распределения доступных объектов (например, для MNIST или IMAGENET это будет эмпирический вероятностный закон всех изображений в наборе данных). Это дает термин: .
вариационная часть, которая гарантирует, что при прохождении эмпирического распределения через кодер мы восстанавливаем целевое распределение, обозначенное здесь, которое обычно принимается как многомерное нормальное распределение . Мы обозначим эту меру pushforward , которая на практике является просто эмпирическим распределением, полученным путем пропуска всех объектов набора данных через кодер . Чтобы убедиться, что близко к цели , вызывается статистическое расстояние , и член добавляется к потере.
Получаем окончательную формулу для убытка:
Статистическое расстояние требует специальных свойств, например, оно должно иметь формулу в качестве ожидания, поскольку функция потерь должна быть оптимизирована с помощью алгоритмов стохастической оптимизации . Можно выбрать несколько расстояний, и это привело к появлению нескольких разновидностей VAE:
срезанное расстояние Вассерштейна, использованное С. Колури и др. в их VAE [22]
энергетическое расстояние , реализованное в вариационном автокодировщике Радона-Соболева [23]
Максимальное среднее расстояние расхождения, используемое в MMD-VAE [24]
^ Кингма, Дидерик П.; Веллинг, Макс (10 декабря 2022 г.). «Автокодирование вариационного Байеса». arXiv : 1312.6114 [stat.ML].
^ Пинейро Чинелли, Лукас; и др. (2021). «Вариационный автоэнкодер». Вариационные методы машинного обучения с приложениями к глубоким сетям . Springer. стр. 111–149. doi :10.1007/978-3-030-70679-1_5. ISBN978-3-030-70681-4. S2CID 240802776.
^ Дилоктанакул, Нат; Медиано, Педро AM; Гарнело, Марта; Ли, Мэтью CH; Салимбени, Хью; Арулкумаран, Кай; Шанахан, Мюррей (13 января 2017 г.). «Глубокая неконтролируемая кластеризация с помощью вариационных автоэнкодеров гауссовой смеси». arXiv : 1611.02648 [cs.LG].
^ Сюй, Вэй-Нин; Чжан, Юй; Гласс, Джеймс (декабрь 2017 г.). «Неконтролируемая адаптация домена для надежного распознавания речи с помощью вариационного автокодировщика на основе данных». Семинар IEEE по автоматическому распознаванию и пониманию речи (ASRU) 2017 г. стр. 16–23. arXiv : 1707.06265 . doi :10.1109/ASRU.2017.8268911. ISBN978-1-5090-4788-8. S2CID 22681625.
^ Эхсан Аббаснежад, М.; Дик, Энтони; ван ден Хенгель, Антон (2017). Бесконечный вариационный автоэнкодер для полуконтролируемого обучения. С. 5888–5897.
^ Сюй, Вэйди; Сан, Хаозе; Дэн, Чао; Тан, Ин (2017-02-12). "Вариационный автокодировщик для полуконтролируемой классификации текстов". Труды конференции AAAI по искусственному интеллекту . 31 (1). doi : 10.1609/aaai.v31i1.10966 . S2CID 2060721.
^ Камеока, Хироказу; Ли, Ли; Иноуэ, Шота; Макино, Шоджи (2019-09-01). «Управляемое определенное разделение источников с многоканальным вариационным автоэнкодером». Neural Computation . 31 (9): 1891–1914. doi :10.1162/neco_a_01217. PMID 31335290. S2CID 198168155.
^ Сон, Кихюк; Ли, Хонглак; Ян, Синьчэнь (2015-01-01). Обучение структурированному представлению выходных данных с использованием глубоких условных генеративных моделей (PDF) . NeurIPS.
^ Дай, Бин; Випф, Дэвид (30.10.2019). «Диагностика и улучшение моделей VAE». arXiv : 1903.05789 [cs.LG].
^ Дорта, Гаро; Висенте, Сара; Агапито, Лурдес; Кэмпбелл, Нил Д.Ф.; Симпсон, Айвор (31 июля 2018 г.). «Обучение VAE по структурированным остаткам». arXiv : 1804.01050 [stat.ML].
^ Ларсен, Андерс Боесен Линдбо; Сёндербю, Сорен Кааэ; Ларошель, Хьюго; Винтер, Оле (11 июня 2016 г.). «Автокодирование за пределами пикселей с использованием изученной метрики сходства». Международная конференция по машинному обучению . ПМЛР: 1558–1566. arXiv : 1512.09300 .
Kingma, Diederik P.; Welling, Max (2019). «Введение в вариационные автоэнкодеры». Основы и тенденции в машинном обучении . 12 (4). Now Publishers: 307–392. arXiv : 1906.02691 . doi :10.1561/2200000056. ISSN 1935-8237.