Автоэнкодер

Автоэнкодер — это тип искусственной нейронной сети , используемый для обучения эффективному кодированию немаркированных данных ( обучение без учителя ). ^[1]^[2] Автокодировщик изучает две функции: функцию кодирования, которая преобразует входные данные, и функцию декодирования, которая воссоздает входные данные из закодированного представления. Автоэнкодер изучает эффективное представление (кодирование) набора данных, обычно для уменьшения размерности .

Существуют варианты, целью которых является заставить изученные представления приобрести полезные свойства. ^[3] Примерами являются регуляризованные автоэнкодеры ( Sparse , Denoising и Contractive ), которые эффективны при обучении представлений для последующих задач классификации , ^[4] и вариационные автоэнкодеры с приложениями в качестве генеративных моделей . ^[5] Автоэнкодеры применяются для решения многих задач, включая распознавание лиц , ^[6] обнаружение особенностей, ^[7] обнаружение аномалий и определение значения слов. ^[8]^[9] Автоэнкодеры также являются генеративными моделями, которые могут случайным образом генерировать новые данные, аналогичные входным данным (обучающие данные). ^[7]

Математические принципы

Определение

Автоэнкодер определяется следующими компонентами:

Два набора: пространство декодированных сообщений ; пространство закодированных сообщений . Почти всегда оба и являются евклидовыми пространствами, т. е. для некоторых . ${\mathcal {X}}$ ${\mathcal {Z}}$ ${\mathcal {X}}$ ${\mathcal {Z}}$ ${\mathcal {X}}=\mathbb {R} ^{m},{\mathcal {Z}}=\mathbb {R} ^{n}$ $m,n$

Два параметризованных семейства функций: семейство энкодеров , параметризованное ; семейство декодеров , параметризованное . $E_{\phi }:{\mathcal {X}}\rightarrow {\mathcal {Z}}$ $\phi$ $D_{\theta }:{\mathcal {Z}}\rightarrow {\mathcal {X}}$ $\theta$

Для любого мы обычно пишем и называем его кодом, скрытой переменной , скрытым представлением, скрытым вектором и т. д. И наоборот, для любого мы обычно пишем и называем его (декодированным) сообщением. $x\in {\mathcal {X}}$ $z=E_{\phi }(x)$ $z\in {\mathcal {Z}}$ $x'=D_{\theta }(z)$

Обычно и кодер, и декодер определяются как многослойные перцептроны . Например, однослойный кодер MLP : $E_{\phi }$

E_{\phi }(\mathbf {x} )=\sigma (Wx+b)

где — поэлементная функция активации, такая как сигмовидная функция или выпрямленная линейная единица , — матрица, называемая «весом», и — вектор, называемый «смещением». $\sigma$ $W$ $b$

Обучение автоэнкодера

Автоэнкодер сам по себе представляет собой просто кортеж из двух функций. Чтобы судить о его качестве , нам нужна задача . Задача определяется эталонным распределением вероятностей по и функцией «качества реконструкции» , которая измеряет, насколько сильно отличается от . $\mu _{ref}$ ${\mathcal {X}}$ $d:{\mathcal {X}}\times {\mathcal {X}}\to [0,\infty ]$ $d(x,x')$ $x'$ $x$

С их помощью мы можем определить функцию потерь для автоэнкодера как

L(\theta ,\phi ):=\mathbb {\mathbb {E} } _{x\sim \mu _{ref}}[d(x,D_{\theta }(E_{\phi }(x)))]

автоэнкодеромградиентного спуска

(\mu _{ref},d)

\arg \min _{\theta ,\phi }L(\theta ,\phi )

В большинстве ситуаций эталонное распределение — это просто эмпирическое распределение, заданное набором данных , так что $\{x_{1},...,x_{N}\}\subset {\mathcal {X}}$

\mu _{ref}={\frac {1}{N}}\sum _{i=1}^{N}\delta _{x_{i}}

где и – мера Дирака , а функция качества – это просто потеря L2: , – евклидова норма. Тогда проблема поиска оптимального автоэнкодера — это всего лишь оптимизация методом наименьших квадратов : $\delta _{x_{i}}$ $d(x,x')=\|x-x'\|_{2}^{2}$ $\|\cdot \|_{2}$

\min _{\theta ,\phi }L(\theta ,\phi ),{\text{where }}L(\theta ,\phi )={\frac {1}{N}}\sum _{i=1}^{N}\|x_{i}-D_{\theta }(E_{\phi }(x_{i}))\|_{2}^{2}

Интерпретация

Автокодировщик состоит из двух основных частей: кодировщика, который отображает сообщение в код, и декодера, который восстанавливает сообщение из кода. Оптимальный автоэнкодер будет выполнять реконструкцию как можно более близкую к идеальной, причем «близко к идеальному» определяется функцией качества реконструкции . $d$

Самый простой способ идеально выполнить задачу копирования — это дублировать сигнал. Чтобы подавить такое поведение, пространство кода обычно имеет меньше измерений, чем пространство сообщений . ${\mathcal {Z}}$ ${\mathcal {X}}$

Такой автоэнкодер называется undercomplete . Это можно интерпретировать как сжатие сообщения или уменьшение его размерности . ^[1]^[10]

В пределе идеального неполного автокодировщика каждый возможный код в кодовом пространстве используется для кодирования сообщения , которое действительно появляется в дистрибутиве , и декодер также идеален: . Этот идеальный автокодировщик затем можно использовать для генерации сообщений, неотличимых от реальных сообщений, путем подачи в его декодер произвольного кода и получения сообщения, которое действительно появляется в рассылке . $z$ $x$ $\mu _{ref}$ $D_{\theta }(E_{\phi }(x))=x$ $z$ $D_{\theta }(z)$ $\mu _{ref}$

Если размерность пространства кода больше ( переполнения ) или равна размеру пространства сообщений или скрытым модулям предоставлена достаточная емкость, автоэнкодер может изучить идентификационную функцию и стать бесполезным. Тем не менее, экспериментальные результаты показали, что автокодировщики с переполным набором данных все равно могут обучиться полезным функциям . ^[11] ${\mathcal {Z}}$ ${\mathcal {X}}$

В идеальном случае размерность кода и емкость модели могут быть установлены на основе сложности распределения моделируемых данных. Стандартный способ сделать это — внести изменения в базовый автокодировщик, подробно описанный ниже. ^[3]

История

Автоэнкодер был впервые предложен Крамером как нелинейное обобщение анализа главных компонентов (PCA). ^[1] Автоэнкодер также называют автоассоциатором, ^[12] или сетью Diabolo. ^[13]^[11] Его первые применения датируются началом 1990-х годов. ^[3]^[14]^[15] Их наиболее традиционным применением было уменьшение размерности или обучение признакам , но эта концепция стала широко использоваться для изучения генеративных моделей данных. ^[16]^[17] Некоторые из самых мощных ИИ 2010-х годов использовали автокодировщики, встроенные в глубокие нейронные сети. ^[18]

Вариации

Регуляризованные автоэнкодеры

Существуют различные методы, позволяющие помешать автокодировщикам изучить функцию идентификации и улучшить их способность захватывать важную информацию и изучать более широкие представления.

Разреженный автоэнкодер (SAE)

Вдохновленные гипотезой разреженного кодирования в нейробиологии, разреженные автокодировщики представляют собой варианты автокодировщиков, так что коды для сообщений имеют тенденцию быть разреженными кодами , то есть в большинстве записей они близки к нулю. Разреженные автокодировщики могут включать в себя больше (а не меньше) скрытых модулей, чем входных, но только небольшому количеству скрытых модулей разрешено быть активными одновременно. ^[18] Поощрение разреженности повышает производительность задач классификации. ^[19] $E_{\phi }(x)$ $E_{\phi }(x)$

Есть два основных способа обеспечить разреженность. Один из способов — просто обнулить все активации скрытого кода, кроме самого высокого k. Это k-разреженный автоэнкодер . ^[20]

K-разреженный автокодировщик вставляет следующую «k-разреженную функцию» в скрытый уровень стандартного автокодировщика:

f_{k}(x_{1},...,x_{n})=(x_{1}b_{1},...,x_{n}b_{n})

b_{i}=1

|x_{i}|

Обратное распространение ошибки простое: установите градиент на 0 для записей и сохраните градиент для записей. По сути, это обобщенная функция ReLU . ^[20] $f_{k}$ $b_{i}=0$ $b_{i}=1$

Другой способ — это упрощенная версия k-разреженного автокодировщика. Вместо принудительной разреженности мы добавляем потерю регуляризации разреженности , а затем оптимизируем для

\min _{\theta ,\phi }L(\theta ,\phi )+\lambda L_{sparsity}(\theta ,\phi )

^[21]

\lambda >0

Пусть архитектура автоэнкодера имеет слои. Чтобы определить потерю регуляризации разреженности, нам нужна «желаемая» разреженность для каждого слоя, вес, определяющий, насколько необходимо обеспечить каждую разреженность, и функция для измерения того, насколько различаются две разреженности. $K$ ${\hat {\rho }}_{k}$ $w_{k}$ $s:[0,1]\times [0,1]\to [0,\infty ]$

Пусть для каждого входа фактическая разреженность активации в каждом слое равна $x$ $k$

\rho _{k}(x)={\frac {1}{n}}\sum _{i=1}^{n}a_{k,i}(x)

a_{k,i}(x)

i

k

x

Потери из-за разреженности при вводе для одного слоя равны , а потери из-за регуляризации разреженности для всего автокодировщика представляют собой ожидаемую взвешенную сумму потерь из-за разреженности: $x$ $s({\hat {\rho }}_{k},\rho _{k}(x))$

L_{sparsity}(\theta ,\phi )=\mathbb {\mathbb {E} } _{x\sim \mu _{X}}\left[\sum _{k\in 1:K}w_{k}s({\hat {\rho }}_{k},\rho _{k}(x))\right]

дивергенцию Кульбака-Лейблера (КЛ)^[19]^[21]^[22]^[23]

s

s(\rho ,{\hat {\rho }})=KL(\rho ||{\hat {\rho }})=\rho \log {\frac {\rho }{\hat {\rho }}}+(1-\rho )\log {\frac {1-\rho }{1-{\hat {\rho }}}}

или потери L1, как , или потери L2, как . $s(\rho ,{\hat {\rho }})=|\rho -{\hat {\rho }}|$ $s(\rho ,{\hat {\rho }})=|\rho -{\hat {\rho }}|^{2}$

Альтернативно, потери из-за регуляризации разреженности могут быть определены без ссылки на какую-либо «желаемую разреженность», а просто обеспечить как можно большую разреженность. В этом случае можно определить потерю регуляризации разреженности как

L_{sparsity}(\theta ,\phi )=\mathbb {\mathbb {E} } _{x\sim \mu _{X}}\left[\sum _{k\in 1:K}w_{k}\|h_{k}\|\right]

h_{k}

k

\|\cdot \|

Автоэнкодер шумоподавления (DAE)

Автоэнкодеры с шумоподавлением (DAE) пытаются добиться хорошего представления, изменяя критерий реконструкции . ^[3]^[4]

DAE, первоначально называвшаяся «надежной автоассоциативной сетью», ^[2] обучается путем намеренного искажения входных данных стандартного автокодировщика во время обучения. Шумовой процесс определяется распределением вероятностей по функциям . То есть функция принимает сообщение и искажает его до зашумленной версии . Функция выбирается случайно, с распределением вероятностей . $\mu _{T}$ $T:{\mathcal {X}}\to {\mathcal {X}}$ $T$ $x\in {\mathcal {X}}$ $T(x)$ $T$ $\mu _{T}$

Учитывая задачу , проблема обучения ДАУ — это задача оптимизации: $(\mu _{ref},d)$

\min _{\theta ,\phi }L(\theta ,\phi )=\mathbb {\mathbb {E} } _{x\sim \mu _{X},T\sim \mu _{T}}[d(x,(D_{\theta }\circ E_{\phi }\circ T)(x))]

Обычно шумовой процесс применяется только во время обучения и тестирования, а не во время последующего использования. $T$

Использование DAE зависит от двух предположений:

Существуют представления сообщений, которые относительно стабильны и устойчивы к типу шума, с которым мы, вероятно, столкнемся;
Указанные представления фиксируют структуры входного распределения, которые полезны для наших целей. ^[4]

Примеры шумовых процессов включают в себя:

аддитивный изотропный гауссовский шум ,
маскирующий шум (часть входных данных выбирается случайным образом и устанавливается на 0)
шум типа «соль и перец» (часть входных данных выбирается случайным образом и случайным образом устанавливается на минимальное или максимальное значение). ^[4]

Сжимающий автоэнкодер (CAE)

Сжимающий автоэнкодер добавляет потери сжимающей регуляризации к стандартным потерям автоэнкодера:

\min _{\theta ,\phi }L(\theta ,\phi )+\lambda L_{contractive}(\theta ,\phi )

норма Фробениуса Якоби

\lambda >0

L_{contractive}(\theta ,\phi )=\mathbb {E} _{x\sim \mu _{ref}}\|\nabla _{x}E_{\phi }(x)\|_{F}^{2}

L_{contractive}

\|E_{\phi }(x+\delta x)-E_{\phi }(x)\|_{2}\leq \|\nabla _{x}E_{\phi }(x)\|_{F}\|\delta x\|_{2}

x\in {\mathcal {X}}

\delta x

\|\nabla _{x}E_{\phi }(x)\|_{F}^{2}

DAE можно понимать как бесконечно малый предел CAE: в пределе небольшого гауссовского входного шума DAE заставляют функцию реконструкции сопротивляться небольшим, но конечным входным возмущениям, в то время как CAE делают извлеченные признаки устойчивыми к бесконечно малым входным возмущениям.

Автокодировщик минимальной длины описания

^[24]

Бетонный автоэнкодер

Конкретный автоэнкодер предназначен для дискретного выбора функций. ^[25] Конкретный автоэнкодер заставляет скрытое пространство состоять только из указанного пользователем количества функций. Конкретный автоэнкодер использует непрерывное расслабление категориального распределения , чтобы позволить градиентам проходить через слой выбора признаков, что позволяет использовать стандартное обратное распространение ошибки для изучения оптимального подмножества входных признаков, которые минимизируют потери при реконструкции.

Вариационный автоэнкодер (VAE)

Вариационные автоэнкодеры (VAE) относятся к семействам вариационных байесовских методов . Несмотря на архитектурное сходство с базовыми автокодировщиками, VAE представляют собой архитектуру с другими целями и совершенно другой математической формулировкой. Скрытое пространство в этом случае состоит из смеси распределений, а не фиксированного вектора.

Учитывая входной набор данных , характеризующийся неизвестной функцией вероятности и многомерным вектором скрытого кодирования , цель состоит в том, чтобы смоделировать данные как распределение , определенное как набор сетевых параметров так, чтобы : $x$ $P(x)$ $z$ $p_{\theta }(x)$ $\theta$ $p_{\theta }(x)=\int _{z}p_{\theta }(x,z)dz$

Преимущества глубины

Автоэнкодеры часто обучаются с помощью одноуровневого кодера и однослойного декодера, но использование многоуровневых (глубоких) кодеров и декодеров дает много преимуществ. ^[3]

Глубина может экспоненциально снизить вычислительные затраты на представление некоторых функций.
Глубина может экспоненциально уменьшить объем обучающих данных, необходимых для изучения некоторых функций.
Экспериментально, глубокие автокодеры обеспечивают лучшее сжатие по сравнению с поверхностными или линейными автокодировщиками. ^[10]

Обучение

Джеффри Хинтон разработал метод сети глубоких убеждений для обучения многоуровневых глубоких автокодировщиков. Его метод предполагает обработку каждого соседнего набора из двух слоев как ограниченной машины Больцмана, так что предварительное обучение аппроксимирует хорошее решение, а затем использование обратного распространения ошибки для точной настройки результатов. ^[10]

Исследователи спорят о том, будет ли совместное обучение (т.е. обучение всей архитектуры вместе с единой глобальной целью реконструкции для оптимизации) лучше для глубоких автокодировщиков. ^[26] Исследование 2015 года показало, что совместное обучение изучает лучшие модели данных, а также более репрезентативные функции для классификации по сравнению с послойным методом. ^[26] Однако их эксперименты показали, что успех совместного обучения во многом зависит от принятых стратегий регуляризации. ^[26]^[27]

Приложения

Двумя основными приложениями автоэнкодеров являются уменьшение размерности и поиск информации ^[3] , но современные варианты применяются и для других задач.

Уменьшение размерности

Снижение размерности было одним из первых приложений глубокого обучения . ^[3]

Для исследования Хинтона 2006 года ^[10] он предварительно обучил многоуровневый автокодировщик с помощью набора RBM , а затем использовал их веса для инициализации глубокого автокодировщика с постепенно уменьшающимися скрытыми слоями, пока не достиг узкого места в 30 нейронов. Полученные 30 измерений кода дали меньшую ошибку реконструкции по сравнению с первыми 30 компонентами анализа главных компонент (PCA) и получили представление, которое было качественно легче интерпретировать, четко разделяя кластеры данных. ^[3]^[10]

Представление измерений может повысить производительность при выполнении таких задач, как классификация. ^[3] Действительно, отличительной чертой уменьшения размерности является размещение семантически связанных примеров рядом друг с другом. ^[29]

Анализ главных компонентов

Реконструкция изображений размером 28x28 пикселей с помощью автоэнкодера с размером кода два (скрытый слой из двух единиц) и реконструкция из первых двух основных компонентов PCA. Изображения взяты из набора данных Fashion MNIST. ^[28]

Если используются линейные активации или только один скрытый слой сигмовидной формы, то оптимальное решение для автокодировщика тесно связано с анализом главных компонентов (PCA). ^[30]^[31] Веса автокодировщика с одним скрытым слоем размера (где меньше размера входных данных) охватывают то же векторное подпространство, что и то, которое охватывает первые главные компоненты, а выходные данные автокодировщика является ортогональной проекцией на это подпространство. Веса автоэнкодера не равны главным компонентам и, как правило, не ортогональны, однако главные компоненты могут быть восстановлены из них с помощью разложения по сингулярным значениям . ^[32] $p$ $p$ $p$

Однако потенциал автоэнкодеров заключается в их нелинейности, что позволяет модели изучать более мощные обобщения по сравнению с PCA и реконструировать входные данные со значительно меньшими потерями информации. ^[10]

Поиск информации и поисковая оптимизация

Информационный поиск выигрывает, в частности, от уменьшения размерности , поскольку поиск может стать более эффективным в определенных типах низкоразмерных пространств. Автоэнкодеры действительно применялись для семантического хеширования, предложенного Салахутдиновым и Хинтоном в 2007 году. ^[29] Путем обучения алгоритма созданию низкоразмерного двоичного кода все записи базы данных можно было хранить в хеш-таблице , сопоставляющей векторы двоичного кода с записями. Эта таблица затем будет поддерживать поиск информации, возвращая все записи с тем же двоичным кодом, что и запрос, или немного менее похожие записи, переворачивая некоторые биты из кодировки запроса.

Архитектура кодировщика-декодера, часто используемая в обработке естественного языка и нейронных сетях, может быть научно применена в области SEO (поисковая оптимизация) различными способами:

Обработка текста . Используя автокодировщик, можно сжать текст веб-страниц в более компактное векторное представление. Это может помочь сократить время загрузки страницы и улучшить ее индексацию поисковыми системами.
Шумоподавление : автоэнкодеры можно использовать для удаления шума из текстовых данных веб-страниц. Это может привести к лучшему пониманию контента поисковыми системами, тем самым повышая рейтинг на страницах результатов поисковых систем.
Генерация метатегов и фрагментов . Автоэнкодеры можно обучить автоматически генерировать метатеги, фрагменты и описания для веб-страниц, используя содержимое страницы. Это может оптимизировать представление в результатах поиска, увеличивая рейтинг кликов (CTR).
Кластеризация контента : с помощью автокодировщика веб-страницы со схожим содержанием могут быть автоматически сгруппированы вместе. Это может помочь логически организовать веб-сайт и улучшить навигацию, что потенциально положительно повлияет на пользовательский опыт и рейтинг в поисковых системах.
Генерация связанного контента : автокодировщик можно использовать для создания контента, связанного с тем, что уже присутствует на сайте. Это может повысить привлекательность веб-сайта для поисковых систем и предоставить пользователям дополнительную релевантную информацию.
Обнаружение ключевых слов . Автоэнкодеры можно обучить распознавать ключевые слова и важные понятия в содержании веб-страниц. Это может помочь оптимизировать использование ключевых слов для лучшей индексации.
Семантический поиск . Используя методы автокодирования, можно создавать модели семантического представления контента. Эти модели можно использовать для улучшения понимания поисковыми системами тем, затронутых на веб-страницах.

По сути, архитектура кодировщика-декодера или автокодировщики могут использоваться в SEO для оптимизации содержимого веб-страниц, улучшения их индексации и повышения их привлекательности как для поисковых систем, так и для пользователей.

Обнаружение аномалий

Еще одно применение автоэнкодеров — обнаружение аномалий . ^[2]^[33]^[34]^[35]^[36]^[37] Научившись воспроизводить наиболее существенные особенности обучающих данных при некоторых ограничениях, описанных ранее, модель поощряется учиться точно воспроизводить наиболее часто встречающиеся наблюдаемые характеристики. При столкновении с аномалиями модель должна ухудшать производительность реконструкции. В большинстве случаев для обучения автокодировщика используются только данные с обычными экземплярами; в других частота аномалий мала по сравнению с набором наблюдений, так что ее вклад в изученное представление можно игнорировать. После обучения автоэнкодер точно восстановит «нормальные» данные, но не сможет сделать это с незнакомыми аномальными данными. ^[35] Ошибка реконструкции (ошибка между исходными данными и их низкоразмерной реконструкцией) используется в качестве показателя аномалии для обнаружения аномалий. ^[35]

Однако недавняя литература показала, что некоторые модели автокодирования могут, как ни странно, очень хорошо реконструировать аномальные примеры и, следовательно, не способны надежно выполнять обнаружение аномалий. ^[38]^[39]

Обработка изображений

Характеристики автоэнкодеров полезны при обработке изображений.

Одним из примеров является сжатие изображений с потерями , где автокодировщики превзошли другие подходы и оказались конкурентоспособными по сравнению с JPEG 2000 . ^[40]^[41]

Еще одним полезным применением автоэнкодеров при предварительной обработке изображений является шумоподавление изображений . ^[42]^[43]^[44]

Автокодировщики нашли применение в более требовательных контекстах, таких как медицинская визуализация , где они использовались для шумоподавления изображений ^[45] , а также для обеспечения сверхвысокого разрешения . ^[46]^[47] В диагностике с использованием изображений в экспериментах применялись автокодировщики для обнаружения рака молочной железы ^[48] и для моделирования связи между снижением когнитивных функций при болезни Альцгеймера и скрытыми особенностями автокодировщика, обученного с помощью МРТ . ^[49]

Открытие лекарств

В 2019 году молекулы, созданные с помощью вариационных автоэнкодеров, были проверены экспериментально на мышах. ^[50]^[51]

Прогноз популярности

Недавно многоуровневая структура автокодирования дала многообещающие результаты в прогнозировании популярности публикаций в социальных сетях ^[52] , что полезно для стратегий онлайн-рекламы.

Машинный перевод

Автоэнкодеры были применены к машинному переводу , который обычно называют нейронным машинным переводом (NMT). ^[53]^[54] В отличие от традиционных автоэнкодеров, вывод не соответствует входу — он находится на другом языке. В NMT тексты рассматриваются как последовательности, подлежащие кодированию в процедуре обучения, в то время как на стороне декодера генерируются последовательности на целевом языке(ах). Автокодировщики, специфичные для языка , включают в процедуру обучения дополнительные лингвистические функции, такие как функции разложения китайского языка. ^[55] Машинный перевод до сих пор редко выполняется с помощью автокодировщиков из-за наличия более эффективных преобразовательных сетей.