Мультимодальное обучение

Мультимодальное обучение в контексте машинного обучения — это тип глубокого обучения , использующий комбинацию различных модальностей данных, часто возникающий в реальных приложениях. Примером мультимодальных данных являются данные, которые объединяют текст (обычно представленный как вектор признаков ) с данными изображения, состоящими из интенсивностей пикселей и тегов аннотаций. Поскольку эти модальности имеют принципиально разные статистические свойства, их объединение является нетривиальной задачей, поэтому требуются специализированные стратегии и алгоритмы моделирования. Затем модель обучается, чтобы она могла понимать и работать с несколькими формами данных.

Мотивация

Было реализовано множество моделей и алгоритмов для извлечения и классификации определенных типов данных, например изображений или текста (когда люди, взаимодействующие с машинами, могут извлекать изображения в форме изображений и текстов, которые могут быть любым сообщением и т. д.). Однако данные обычно поступают с разными модальностями (это степень, в которой компоненты системы могут быть разделены или объединены), которые несут разную информацию. Например, очень часто к изображению добавляют подпись, чтобы передать информацию, не представленную в самом изображении. Точно так же иногда проще использовать изображение для описания информации, которая может быть неочевидна из текста. В результате, если на похожих изображениях встречаются разные слова, то, скорее всего, эти слова описывают одно и то же. И наоборот, если слово используется для описания, казалось бы, непохожих изображений, то эти изображения могут представлять один и тот же объект. Таким образом, в случаях, когда речь идет о мультимодальных данных, важно использовать модель, которая способна совместно представлять информацию, чтобы модель могла отражать структуру корреляции между различными модальностями. Более того, он также должен быть способен восстанавливать недостающие модальности с учетом наблюдаемых (например, прогнозирование возможного объекта изображения в соответствии с текстовым описанием). Модель мультимодальной машины глубокого Больцмана удовлетворяет вышеуказанным целям.

Предыстория: машина Больцмана.

Машина Больцмана — это тип стохастической нейронной сети, изобретенной Джеффри Хинтоном и Терри Сейновски в 1985 году. Машины Больцмана можно рассматривать как стохастический , генеративный аналог сетей Хопфилда . Они названы в честь распределения Больцмана в статистической механике. Агрегаты в машинах Больцмана делятся на две группы: видимые агрегаты и скрытые агрегаты. Машины General Boltzmann допускают соединение между любыми агрегатами. Однако обучение с использованием обычных машин Больцмана непрактично, поскольку время вычислений экспоненциально зависит от ^{размера машины .} Более эффективная архитектура называется ограниченной машиной Больцмана , где соединение разрешено только между скрытым и видимым блоками, что описано в следующем разделе.

Ограниченная машина Больцмана

Ограниченная машина Больцмана ^[1] представляет собой модель неориентированного графа со стохастическим видимыми переменными и стохастическим скрытыми переменными. Каждая видимая переменная связана с каждой скрытой переменной. Энергетическая функция модели определяется как

E(\mathbf {v} ,\mathbf {h} ;\theta )=-\sum _{i=1}^{D}\sum _{j=1}^{F}W_{ij}v_{i}h_{j}-\sum _{i=1}^{D}b_{i}v_{i}-\sum _{j=1}^{F}a_{j}h_{j}

где параметры модели: представляет собой симметричное взаимодействие между видимым и скрытым блоком ; и являются терминами смещения. Совместное распределение системы определяется как $\theta =\{\mathbf {v} ,\mathbf {h} ;\theta \}$ $W_{ij}$ $i$ $j$ $b_{i}$ $a_{j}$

P(\mathbf {v} ;\theta )={\frac {1}{{\mathcal {Z}}(\theta )}}\sum _{\mathbf {h} }\mathrm {exp} (-E(\mathbf {v} ,\mathbf {h} ;\theta ))

где – нормировочная константа. Условное распределение по скрытым может быть получено как логистическая функция с точки зрения параметров модели. ${\mathcal {Z}}(\theta )$ $\mathbf {h}$ $\mathbf {v}$

P(\mathbf {h} |\mathbf {v} ;\theta )=\prod _{j=1}^{F}p(h_{j}|\mathbf {v} )

, с

p(h_{j}=1|\mathbf {v} )=g(\sum _{i=1}^{D}W_{ij}v_{i}+a_{j})

P(\mathbf {v} |\mathbf {h} ;\theta )=\prod _{i=1}^{D}p(v_{i}|\mathbf {h} )

, с

p(v_{i}=1|\mathbf {h} )=g(\sum _{j=1}^{F}W_{ij}h_{j}+b_{i})

где логистическая функция. $g(x)={\frac {1}{(1+\mathrm {exp} (-x))}}$

Производную логарифмического правдоподобия по параметрам модели можно разложить как разницу между ожиданием модели и ожиданием, зависящим от данных .

RBM Гаусса-Бернулли

RBM Гаусса-Бернулли ^[2] представляют собой вариант ограниченной машины Больцмана, используемой для моделирования векторов с действительными значениями, таких как интенсивности пикселей. Обычно он используется для моделирования данных изображения. Энергия системы РБМ Гаусса-Бернулли определяется как

E(\mathbf {v} ,\mathbf {h} ;\theta )=\sum _{i=1}^{D}{\frac {(v_{i}-b_{i})^{2}}{2\sigma _{i}^{2}}}-\sum _{i=1}^{D}\sum _{j=1}^{F}{\frac {v_{i}}{\sigma _{i}}}W_{ij}v_{i}h_{j}-\sum _{i=1}^{D}b_{i}v_{i}-\sum _{j=1}^{F}a_{j}h_{j}

где параметры модели. Совместное распределение определяется так же, как и в ограниченной машине Больцмана. Условные распределения теперь становятся $\theta =\{\mathbf {a} ,\mathbf {b} ,\mathbf {w} ,\mathbf {\sigma } \}$

P(\mathbf {h} |\mathbf {v} ;\theta )=\prod _{j=1}^{F}p(h_{j}|\mathbf {v} )

, с

p(h_{j}=1|\mathbf {v} )=g(\sum _{i=1}^{D}W_{ij}{\frac {v_{i}}{\sigma _{i}}}+a_{j})

P(\mathbf {v} |\mathbf {h} ;\theta )=\prod _{i=1}^{D}p(v_{i}|\mathbf {h} )

, с

p(v_{i}|\mathbf {h} )\sim {\mathcal {N}}(\sigma _{i}\sum _{j=1}^{F}W_{ij}h_{j}+b_{i},\sigma _{i}^{2})

В RBM по Гауссу-Бернулли видимая единица, обусловленная скрытыми единицами, моделируется как распределение Гаусса.

Реплицированная модель Softmax

Реплицированная модель Softmax ^[3] также является вариантом ограниченной машины Больцмана и обычно используется для моделирования векторов количества слов в документе. В типичной задаче интеллектуального анализа текста пусть — размер словаря, а — количество слов в документе. Пусть это двоичная матрица, только если слово в документе является словом в словаре. обозначает количество слов в словаре. Энергия состояния документа, содержащего слова, определяется как $K$ $M$ $\mathbf {V}$ $M\times K$ $v_{ik}=1$ $i^{th}$ $k^{th}$ ${\hat {v}}_{k}$ $k^{th}$ $\{\mathbf {V} ,\mathbf {h} \}$ $M$

E(\mathbf {V} ,\mathbf {h} )=-\sum _{j=1}^{F}\sum _{k=1}^{K}W_{jk}{\hat {v}}_{k}h_{j}-\sum _{k=1}^{K}b_{k}{\hat {v}}_{k}-M\sum _{j=1}^{F}a_{j}h_{j}

Условные распределения имеют вид

p(h_{j}=1|\mathbf {V} )=g(Ma_{j}+\sum _{k=1}^{K}{\hat {v}}_{k}W_{jk})

p(v_{ik}=1|\mathbf {h} )={\frac {\mathrm {exp} (b_{k}+\sum _{j=1}^{F}h_{j}W_{jk}}{\sum _{q=1}^{K}\mathrm {exp} (b_{q}+\sum _{j=1}^{F}h_{j}W_{jq}}})

Глубокие машины Больцмана

Глубокая машина Больцмана ^[4] имеет последовательность слоев скрытых единиц. Существуют только связи между соседними скрытыми слоями, а также между видимыми и скрытыми объектами в первом скрытом слое. Энергетическая функция системы добавляет члены взаимодействия слоев к энергетической функции общей ограниченной машины Больцмана и определяется выражением ${\begin{aligned}E({\mathbf {v} ,\mathbf {h} ;\theta })=&-\sum _{i=1}^{D}\sum _{j=1}^{F_{1}}W_{ij}^{(1)}v_{i}h_{j}^{(1)}-\sum _{j=1}^{F_{1}}\sum _{l=1}^{F_{2}}W_{jl}^{(2)}h_{j}^{(1)}h_{l}^{(2)}\\&-\sum _{l=1}^{F_{2}}\sum _{p=1}^{F_{3}}W_{lp}^{(3)}h_{l}^{(2)}h_{p}^{(3)}-\sum _{i=1}^{D}b_{i}v_{i}-\sum _{j=1}^{F_{1}}b_{j}^{(1)}h_{j}^{(1)}-\sum _{l=1}^{F_{2}}b_{l}^{(2)}h_{l}^{(2)}-\sum _{p=1}^{F_{3}}b_{p}^{(3)}h_{p}^{(3)}\end{aligned}}$

Совместное распространение

P(\mathbf {v} ;\theta )={\frac {1}{{\mathcal {Z}}(\theta )}}\sum _{\mathbf {h} }\mathrm {exp} (-E(\mathbf {v} ,\mathbf {h} ^{(1)},\mathbf {h} ^{(2)},\mathbf {h} ^{(3)};\theta ))

Мультимодальные глубинные машины Больцмана

Мультимодальная глубокая машина Больцмана ^[5]^[6] использует бимодальную DBM изображение-текст, в которой путь изображения моделируется как DBM Гаусса-Бернулли, а путь текста — как репликированный Softmax DBM, и каждый DBM имеет два скрытых слоя и один видимый слой. Два DBM объединяются на дополнительном верхнем скрытом уровне. Совместное распределение по мультимодальным входам, определяемое как ${\begin{aligned}P(\mathbf {v} ^{m},\mathbf {v} ^{t};\theta )&=\sum _{\mathbf {h} ^{(2m)},\mathbf {h} ^{(2t)},\mathbf {h} ^{(3)}}P(\mathbf {h} ^{(2m)},\mathbf {h} ^{(2t)},\mathbf {h} ^{(3)})(\sum _{\mathbf {h} ^{(1m)}}P(\mathbf {v} _{m},\mathbf {h} ^{(1m)}|\mathbf {h} ^{(2m)}))(\sum _{\mathbf {h} ^{(1t)}}P(\mathbf {v} ^{t},\mathbf {h} ^{(1t)}|\mathbf {h} ^{(2t)}))\\&={\frac {1}{{\mathcal {Z}}_{M}(\theta )}}\sum _{\mathbf {h} }\mathrm {exp} (\sum _{kj}W_{kj}^{(1t)}v_{k}^{t}h_{j}^{(1t)}\\&+\sum _{jl}W_{jl}^{(2t)}h_{j}^{(1t)}h_{l}^{(2t)}+\sum _{k}b_{k}^{t}v_{k}^{t}+M\sum _{j}b_{j}^{(1t)}h_{j}^{(1t)}+\sum _{l}b_{l}^{(2t)}h_{l}^{(2t)}\\&-\sum _{i}{\frac {(v_{i}^{m}-b_{i}^{m})^{2}}{2\sigma ^{2}}}+\sum _{ij}{\frac {v_{i}^{m}}{\sigma _{i}}}W_{ij}^{(1m)}h_{j}^{(1m)}\\&+\sum _{jl}W_{jl}^{(2m)}h_{j}^{(1m)}h_{l}^{(2m)}+\sum _{j}b_{j}^{(1m)}h_{j}^{(1m)}+\sum _{l}b_{l}^{(2m)}h_{l}{(2m)}\\&+\sum _{lp}W^{(3t)}h_{l}^{(2t)}h_{p}^{(3)}+\sum _{lp}W^{(3m)}h_{l}^{(2m)}h_{p}^{(3)}+\sum _{p}b_{p}^{(3)}h_{p}^{(3)}\end{aligned}}$

Условные распределения по видимым и скрытым единицам имеют вид

p(h_{j}^{(1m)}=1|\mathbf {v} ^{m},\mathbf {h} ^{(2m)})=g(\sum _{i=1}^{D}W_{ij}^{(1m)}{\frac {v_{i}^{m}}{\sigma _{i}}}+\sum _{l=1}^{F_{2}^{m}}W_{jl}^{(2m)}h_{l}^{(2m)}+b_{j}^{(1m)})

p(h_{l}^{(2m)}=1|\mathbf {h} ^{(1m)},\mathbf {h} ^{(3)})=g(\sum _{j=1}^{F_{1}^{m}}W_{jl}^{(2m)}h_{j}^{(1m)}+\sum _{p=1}^{F_{3}}W_{lp}^{(3m)}h_{p}^{(3)}+b_{l}^{(2m)})

p(h_{j}^{(1t)}=1|\mathbf {v} ^{t},\mathbf {h} ^{(2t)})=g(\sum _{k=1}^{K}W_{kl}^{(1t)}v_{k}^{(t)}+\sum _{l=1}^{F_{2}^{t}}W_{jl}^{(2t)}h_{l}^{(2t)}+Mb_{j}^{(1t)})

p(h_{l}^{(2t)}=1|\mathbf {h} ^{(1t)},\mathbf {h} ^{(3)})=g(\sum _{j=1}^{F_{1}^{t}}W_{jl}^{(2t)}h_{j}^{(1t)}+\sum _{p=1}^{F_{3}}W_{lp}^{(3t)}h_{p}^{(3)}+b_{l}^{(2t)})

p(h_{p}^{3)}=1|\mathbf {h} ^{(2)})=g(\sum _{l=1}^{F_{2}^{m}}W_{lp}^{(3m)}h_{l}^{(2m)}+\sum _{l=1}^{F_{2}^{t}}W_{lp}^{(3t)}h_{l}^{(2t)}+b_{p}^{(3)})

p(v_{ik}^{t}=1|\mathbf {h} ^{(1t)})={\frac {\mathrm {exp} (\sum _{j=1}^{F_{1}^{t}}h_{j}^{(1t)}W_{jk}^{(1t)}+b_{k}^{t})}{\sum _{q=1}^{K}\mathrm {exp} (\sum _{j=1}^{F_{1}^{t}}h_{j}^{(1t)}W_{jq}^{(1t)}+b_{k}^{t})}}

p(v_{i}^{m}|\mathbf {h} ^{(1m)})\sim {\mathcal {N}}(\sigma _{i}\sum _{j=1}^{F_{1}^{m}}W_{ij}^{(1m)}h_{j}^{(1m)}+b_{i}^{m},\sigma _{i}^{2})

Вывод и обучение

Точное обучение с максимальным правдоподобием в этой модели сложно, но приблизительное обучение DBM можно выполнить с помощью вариационного подхода, где вывод среднего поля используется для оценки ожиданий, зависящих от данных, а процедура стохастической аппроксимации на основе MCMC используется для аппроксимации ожидаемая достаточная статистика модели. ^[7]

Приложение

Мультимодальные глубинные машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и сеть глубоких убеждений , когда модели тестируются на данных как с модальностями изображения-текста, так и с одной модальностью. ^{[ нужна цитата ]} Мультимодальная глубокая машина Больцмана также способна предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. ^{[ нужна цитация ]} Самостоятельное обучение предлагает более интересную и мощную модель мультимодальности. OpenAI разработала модели CLIP и DALL-E , которые произвели революцию в мультимодальности.

Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере, одна разрабатываемая система объединяет такие разные типы данных. ^[8]^[9]

Мультимодальные трансформаторы

Трансформеры также могут использоваться/адаптироваться для модальностей (ввода или вывода), помимо текста, обычно путем поиска способа «токенизации» модальности.

Трансформаторы зрения ^[10] адаптируют преобразователь к компьютерному зрению, разбивая входные изображения на серию патчей, превращая их в векторы и обрабатывая их как токены в стандартном преобразователе.

Conformer ^[11] и более поздний Whisper ^[12] следуют той же схеме распознавания речи , сначала превращая речевой сигнал в спектрограмму , которая затем обрабатывается как изображение, т.е. разбивается на серию фрагментов, превращается в векторы и обрабатывается как жетоны в стандартном трансформере.

Воспринимающие , Эндрю Джегл и др. (2021) ^[13]^[14] могут учиться на больших объемах разнородных данных.

Что касается вывода изображений , Пиблс и др. представили диффузионный преобразователь (DiT), который облегчает использование архитектуры преобразователя для создания изображений на основе диффузии . ^[15] Кроме того, Google выпустила генератор изображений, ориентированный на трансформатор, под названием «Muse», основанный на технологии параллельного декодирования и генеративного преобразователя в масках. ^[16] (Трансформеры играли менее центральную роль в предыдущих технологиях создания изображений, ^[17], хотя и по-прежнему значительную. ^[18] )