Методы машинного обучения с использованием нескольких модальностей ввода
Мультимодальное обучение в контексте машинного обучения — это тип глубокого обучения , использующий комбинацию различных модальностей данных, часто возникающий в реальных приложениях. Примером мультимодальных данных являются данные, которые объединяют текст (обычно представленный как вектор признаков ) с данными изображения, состоящими из интенсивностей пикселей и тегов аннотаций. Поскольку эти модальности имеют принципиально разные статистические свойства, их объединение является нетривиальной задачей, поэтому требуются специализированные стратегии и алгоритмы моделирования. Затем модель обучается, чтобы она могла понимать и работать с несколькими формами данных.
Мотивация
Было реализовано множество моделей и алгоритмов для извлечения и классификации определенных типов данных, например изображений или текста (когда люди, взаимодействующие с машинами, могут извлекать изображения в форме изображений и текстов, которые могут быть любым сообщением и т. д.). Однако данные обычно поступают с разными модальностями (это степень, в которой компоненты системы могут быть разделены или объединены), которые несут разную информацию. Например, очень часто к изображению добавляют подпись, чтобы передать информацию, не представленную в самом изображении. Точно так же иногда проще использовать изображение для описания информации, которая может быть неочевидна из текста. В результате, если на похожих изображениях встречаются разные слова, то, скорее всего, эти слова описывают одно и то же. И наоборот, если слово используется для описания, казалось бы, непохожих изображений, то эти изображения могут представлять один и тот же объект. Таким образом, в случаях, когда речь идет о мультимодальных данных, важно использовать модель, которая способна совместно представлять информацию, чтобы модель могла отражать структуру корреляции между различными модальностями. Более того, он также должен быть способен восстанавливать недостающие модальности с учетом наблюдаемых (например, прогнозирование возможного объекта изображения в соответствии с текстовым описанием). Модель мультимодальной машины глубокого Больцмана удовлетворяет вышеуказанным целям.
Предыстория: машина Больцмана.
Машина Больцмана — это тип стохастической нейронной сети, изобретенной Джеффри Хинтоном и Терри Сейновски в 1985 году. Машины Больцмана можно рассматривать как стохастический , генеративный аналог сетей Хопфилда . Они названы в честь распределения Больцмана в статистической механике. Агрегаты в машинах Больцмана делятся на две группы: видимые агрегаты и скрытые агрегаты. Машины General Boltzmann допускают соединение между любыми агрегатами. Однако обучение с использованием обычных машин Больцмана непрактично, поскольку время вычислений экспоненциально зависит от размера машины . Более эффективная архитектура называется ограниченной машиной Больцмана , где соединение разрешено только между скрытым и видимым блоками, что описано в следующем разделе.
Ограниченная машина Больцмана
Ограниченная машина Больцмана [1] представляет собой модель неориентированного графа со стохастическим видимыми переменными и стохастическим скрытыми переменными. Каждая видимая переменная связана с каждой скрытой переменной. Энергетическая функция модели определяется как
![{\ displaystyle E (\ mathbf {v}, \ mathbf {h}; \ theta) = - \ sum _ {i = 1} ^ {D} \ sum _ {j = 1} ^ {F} W_ {ij} v_{i}h_{j}-\sum _{i=1}^{D}b_{i}v_{i}-\sum _{j=1}^{F}a_{j}h_{j} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где параметры модели: представляет собой симметричное взаимодействие между видимым и скрытым блоком ; и являются терминами смещения. Совместное распределение системы определяется как ![{\displaystyle \theta =\{\mathbf {v},\mathbf {h};\theta \}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle W_{ij}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle я}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle j}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle b_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle a_{j}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P(\mathbf {v};\theta)={\frac {1}{{\mathcal {Z}}(\theta)}}\sum _ {\mathbf {h} }\mathrm {exp} (-E(\mathbf {v},\mathbf {h};\theta))}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где – нормировочная константа. Условное распределение по скрытым может быть получено как логистическая функция с точки зрения параметров модели.![{\displaystyle {\mathcal {Z}}(\theta)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {h} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {v} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
, с![{\displaystyle p(h_{j}=1|\mathbf {v})=g(\sum _{i=1}^{D}W_{ij}v_{i}+a_{j})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
, с![{\displaystyle p(v_{i}=1|\mathbf {h})=g(\sum _{j=1}^{F}W_{ij}h_{j}+b_{i})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где логистическая функция.![{\displaystyle g(x)={\frac {1}{(1+\mathrm {exp} (-x))}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Производную логарифмического правдоподобия по параметрам модели можно разложить как разницу между ожиданием модели и ожиданием, зависящим от данных .
RBM Гаусса-Бернулли
RBM Гаусса-Бернулли [2] представляют собой вариант ограниченной машины Больцмана, используемой для моделирования векторов с действительными значениями, таких как интенсивности пикселей. Обычно он используется для моделирования данных изображения. Энергия системы РБМ Гаусса-Бернулли определяется как
![{\displaystyle E(\mathbf {v},\mathbf {h};\theta)=\sum _{i=1}^{D}{\frac {(v_{i}-b_{i})^{ 2}}{2\sigma _{i}^{2}}}-\sum _{i=1}^{D}\sum _{j=1}^{F}{\frac {v_{i} }{\sigma _{i}}}W_{ij}v_{i}h_{j}-\sum _{i=1}^{D}b_{i}v_{i}-\sum _{j= 1}^{F}a_{j}h_{j}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где параметры модели. Совместное распределение определяется так же, как и в ограниченной машине Больцмана. Условные распределения теперь становятся ![{\displaystyle \theta =\{\mathbf {a} ,\mathbf {b} ,\mathbf {w} ,\mathbf {\sigma } \}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
, с![{\ displaystyle p (h_ {j} = 1 | \ mathbf {v} ) = g (\ sum _ {i = 1} ^ {D} W_ {ij} {\ frac {v_ {i}} {\ sigma _ {i}}}+a_{j})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
, с![{\displaystyle p(v_{i}|\mathbf {h})\sim {\mathcal {N}}(\sigma _{i}\sum _{j=1}^{F}W_{ij}h_{ j}+b_{i},\sigma _{i}^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
В RBM по Гауссу-Бернулли видимая единица, обусловленная скрытыми единицами, моделируется как распределение Гаусса.
Реплицированная модель Softmax
Реплицированная модель Softmax [3] также является вариантом ограниченной машины Больцмана и обычно используется для моделирования векторов количества слов в документе. В типичной задаче интеллектуального анализа текста пусть — размер словаря, а — количество слов в документе. Пусть это двоичная матрица, только если слово в документе является словом в словаре. обозначает количество слов в словаре. Энергия состояния документа, содержащего слова, определяется как![{\displaystyle K}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle M}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {V} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle M\times K}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle v_{ik}=1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle я^{th}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k^{th}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\hat {v}}_{k}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k^{th}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \{\mathbf {V},\mathbf {h} \}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle M}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle E (\ mathbf {V}, \ mathbf {h}) = - \ sum _ {j = 1} ^ {F} \ sum _ {k = 1} ^ {K} W_ {jk} {\ шляпа {v}}_{k}h_{j}-\sum _{k=1}^{K}b_{k}{\hat {v}}_{k}-M\sum _{j=1} ^{F}a_{j}h_{j}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Условные распределения имеют вид
![{\displaystyle p(h_{j}=1|\mathbf {V})=g(Ma_{j}+\sum _{k=1}^{K}{\hat {v}}_{k}W_ {джк})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(v_{ik}=1|\mathbf {h} )={\frac {\mathrm {exp} (b_{k}+\sum _{j=1}^{F}h_{j} W_{jk}}{\sum _{q=1}^{K}\mathrm {exp} (b_{q}+\sum _{j=1}^{F}h_{j}W_{jq}} })}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Глубокие машины Больцмана
Глубокая машина Больцмана [4] имеет последовательность слоев скрытых единиц. Существуют только связи между соседними скрытыми слоями, а также между видимыми и скрытыми объектами в первом скрытом слое. Энергетическая функция системы добавляет члены взаимодействия слоев к энергетической функции общей ограниченной машины Больцмана и определяется выражением ![{\displaystyle {\begin{aligned}E({\mathbf {v},\mathbf {h};\theta})=&-\sum _{i=1}^{D}\sum _{j=1 }^{F_{1}}W_{ij}^{(1)}v_{i}h_{j}^{(1)}-\sum _{j=1}^{F_{1}}\sum _{l=1}^{F_{2}}W_{jl}^{(2)}h_{j}^{(1)}h_{l}^{(2)}\\&-\sum _ {l=1}^{F_{2}}\sum _{p=1}^{F_{3}}W_{lp}^{(3)}h_{l}^{(2)}h_{p }^{(3)}-\sum _{i=1}^{D}b_{i}v_{i}-\sum _{j=1}^{F_{1}}b_{j}^{ (1)}h_{j}^{(1)}-\sum _{l=1}^{F_{2}}b_{l}^{(2)}h_{l}^{(2)} -\sum _{p=1}^{F_{3}}b_{p}^{(3)}h_{p}^{(3)}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Совместное распространение
![{\displaystyle P(\mathbf {v};\theta)={\frac {1}{{\mathcal {Z}}(\theta)}}\sum _ {\mathbf {h} }\mathrm {exp} (-E(\mathbf {v},\mathbf {h} ^{(1)},\mathbf {h} ^{(2)},\mathbf {h} ^{(3)};\theta )) }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Мультимодальные глубинные машины Больцмана
Мультимодальная глубокая машина Больцмана [5] [6] использует бимодальную DBM изображение-текст, в которой путь изображения моделируется как DBM Гаусса-Бернулли, а путь текста — как репликированный Softmax DBM, и каждый DBM имеет два скрытых слоя и один видимый слой. Два DBM объединяются на дополнительном верхнем скрытом уровне. Совместное распределение по мультимодальным входам, определяемое как ![{\displaystyle {\begin{aligned}P(\mathbf {v} ^{m},\mathbf {v} ^{t};\theta) &=\sum _ {\mathbf {h} ^{(2m) },\mathbf {h} ^{(2t)},\mathbf {h} ^{(3)}}P(\mathbf {h} ^{(2m)},\mathbf {h} ^{(2t) },\mathbf {h} ^{(3)})(\sum _{\mathbf {h} ^{(1m)}}P(\mathbf {v} _{m},\mathbf {h} ^{ (1м)}|\mathbf {h} ^{(2m)}))(\sum _{\mathbf {h} ^{(1t)}}P(\mathbf {v} ^{t},\mathbf { h} ^{(1t)}|\mathbf {h} ^{(2t)}))\\&={\frac {1}{{\mathcal {Z}}_{M}(\theta )}} \sum _{\mathbf {h} }\mathrm {exp} (\sum _{kj}W_{kj}^{(1t)}v_{k}^{t}h_{j}^{(1t)} \\&+\sum _{jl}W_{jl}^{(2t)}h_{j}^{(1t)}h_{l}^{(2t)}+\sum _{k}b_{k }^{t}v_{k}^{t}+M\sum _{j}b_{j}^{(1t)}h_{j}^{(1t)}+\sum _{l}b_{ l}^{(2t)}h_{l}^{(2t)}\\&-\sum _{i}{\frac {(v_{i}^{m}-b_{i}^{m} )^{2}}{2\sigma ^{2}}}+\sum _{ij}{\frac {v_{i}^{m}}{\sigma _{i}}}W_{ij}^ {(1м)}h_{j}^{(1м)}\\&+\sum _{jl}W_{jl}^{(2м)}h_{j}^{(1м)}h_{l}^ {(2м)}+\sum _{j}b_{j}^{(1m)}h_{j}^{(1m)}+\sum _{l}b_{l}^{(2m)}h_ {l}{(2m)}\\&+\sum _{lp}W^{(3t)}h_{l}^{(2t)}h_{p}^{(3)}+\sum _{ lp}W^{(3m)}h_{l}^{(2m)}h_{p}^{(3)}+\sum _{p}b_{p}^{(3)}h_{p} ^{(3)}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Условные распределения по видимым и скрытым единицам имеют вид
![{\displaystyle p(h_{j}^{(1m)}=1|\mathbf {v} ^{m},\mathbf {h} ^{(2m)})=g(\sum _{i=1) }^{D}W_{ij}^{(1m)}{\frac {v_{i}^{m}}{\sigma _{i}}}+\sum _{l=1}^{F_{ 2}^{м}}W_{jl}^{(2м)}h_{l}^{(2м)}+b_{j}^{(1м)})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(h_{l}^{(2m)}=1|\mathbf {h} ^{(1m)},\mathbf {h} ^{(3)})=g(\sum _{j =1}^{F_{1}^{м}}W_{jl}^{(2м)}h_{j}^{(1м)}+\sum _{p=1}^{F_{3}} W_{lp}^{(3м)}h_{p}^{(3)}+b_{l}^{(2м)})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(h_{j}^{(1t)}=1|\mathbf {v} ^{t},\mathbf {h} ^{(2t)})=g(\sum _{k=1 }^{K}W_{kl}^{(1t)}v_{k}^{(t)}+\sum _{l=1}^{F_{2}^{t}}W_{jl}^ {(2t)}h_{l}^{(2t)}+Mb_{j}^{(1t)})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(h_{l}^{(2t)}=1|\mathbf {h} ^{(1t)},\mathbf {h} ^{(3)})=g(\sum _{j =1}^{F_{1}^{t}}W_{jl}^{(2t)}h_{j}^{(1t)}+\sum _{p=1}^{F_{3}} W_{lp}^{(3t)}h_{p}^{(3)}+b_{l}^{(2t)})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(h_{p}^{3)}=1|\mathbf {h} ^{(2)})=g(\sum _{l=1}^{F_{2}^{m} }W_{lp}^{(3м)}h_{l}^{(2m)}+\sum _{l=1}^{F_{2}^{t}}W_{lp}^{(3t) }h_{l}^{(2t)}+b_{p}^{(3)})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(v_{ik}^{t}=1|\mathbf {h} ^{(1t)})={\frac {\mathrm {exp} (\sum _{j=1}^{F_ {1}^{t}}h_{j}^{(1t)}W_{jk}^{(1t)}+b_{k}^{t})}{\sum _{q=1}^{ K}\mathrm {exp} (\sum _{j=1}^{F_{1}^{t}}h_{j}^{(1t)}W_{jq}^{(1t)}+b_{ k}^{t})}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(v_{i}^{m}|\mathbf {h} ^{(1m)})\sim {\mathcal {N}}(\sigma _{i}\sum _{j=1} ^{F_{1}^{m}}W_{ij}^{(1m)}h_{j}^{(1m)}+b_{i}^{m},\sigma _{i}^{2 })}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Вывод и обучение
Точное обучение с максимальным правдоподобием в этой модели сложно, но приблизительное обучение DBM можно выполнить с помощью вариационного подхода, где вывод среднего поля используется для оценки ожиданий, зависящих от данных, а процедура стохастической аппроксимации на основе MCMC используется для аппроксимации ожидаемая достаточная статистика модели. [7]
Приложение
Мультимодальные глубинные машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и сеть глубоких убеждений , когда модели тестируются на данных как с модальностями изображения-текста, так и с одной модальностью. [ нужна цитата ] Мультимодальная глубокая машина Больцмана также способна предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. [ нужна цитация ] Самостоятельное обучение предлагает более интересную и мощную модель мультимодальности. OpenAI разработала модели CLIP и DALL-E , которые произвели революцию в мультимодальности.
Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере, одна разрабатываемая система объединяет такие разные типы данных. [8] [9]
Мультимодальные трансформаторы
Трансформеры также могут использоваться/адаптироваться для модальностей (ввода или вывода), помимо текста, обычно путем поиска способа «токенизации» модальности.
Трансформаторы зрения [10] адаптируют преобразователь к компьютерному зрению, разбивая входные изображения на серию патчей, превращая их в векторы и обрабатывая их как токены в стандартном преобразователе.
Conformer [11] и более поздний Whisper [12] следуют той же схеме распознавания речи , сначала превращая речевой сигнал в спектрограмму , которая затем обрабатывается как изображение, т.е. разбивается на серию фрагментов, превращается в векторы и обрабатывается как жетоны в стандартном трансформере.
Воспринимающие , Эндрю Джегл и др. (2021) [13] [14] могут учиться на больших объемах разнородных данных.
Что касается
вывода изображений , Пиблс и др. представили диффузионный преобразователь (DiT), который облегчает использование архитектуры преобразователя для создания изображений на основе
диффузии .
[15] Кроме того, Google выпустила генератор изображений, ориентированный на трансформатор, под названием «Muse», основанный на технологии параллельного декодирования и генеративного преобразователя в масках.
[16] (Трансформеры играли менее центральную роль в предыдущих технологиях создания изображений,
[17], хотя и по-прежнему значительную.
[18] )
Смотрите также
Рекомендации
- ^ «Ограниченная машина Больцмана» (PDF) . 1986. Архивировано (PDF) из оригинала 3 марта 2016 г. Проверено 29 августа 2019 г.
- ^ "УПРАВЛЕНИЕ Гаусса-Бернулли" (PDF) . 1994. Архивировано (PDF) из оригинала 1 июля 2015 г. Проверено 14 июня 2015 г.
- ^ «Реплицированная модель Softmax» (PDF) . 2009а. Архивировано (PDF) из оригинала 1 октября 2015 г. Проверено 14 июня 2015 г.
- ^ "Машина Глубокого Больцмана" (PDF) . 2009б. Архивировано (PDF) из оригинала 10 марта 2016 г. Проверено 14 июня 2015 г.
- ^ «Мультимодальное обучение с помощью машины глубокого Больцмана» (PDF) . 2012. Архивировано (PDF) из оригинала 4 марта 2016 г. Проверено 14 июня 2015 г.
- ^ «Мультимодальное обучение с помощью машины глубокого Больцмана» (PDF) . 2014. Архивировано (PDF) из оригинала 21 июня 2015 г. Проверено 14 июня 2015 г.
- ^ «Приближения к градиенту правдоподобия» (PDF) . 2008. Архивировано (PDF) из оригинала 4 марта 2016 г. Проверено 14 июня 2015 г.
- ^ Куах, Катянна. «Гарвардские ученые создают мультимодальную систему искусственного интеллекта для прогнозирования рака». Регистр . Архивировано из оригинала 20 сентября 2022 года . Проверено 16 сентября 2022 г.
- ^ Чен, Ричард Дж.; Лу, Мин Ю.; Уильямсон, Дрю ФК; Чен, Тиффани Ю.; Липкова Яна; Нур, Захра; Шабан, Мухаммед; Шейди, Маха; Уильямс, Мане; Джу, Бумджин; Махмуд, Фейсал (8 августа 2022 г.). «Интегративный гистологически-геномный анализ панрака посредством мультимодального глубокого обучения». Раковая клетка . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN 1535-6108. ПМЦ 10397370 . PMID 35944502. S2CID 251456162.
- Пресс-релиз обучающей больницы: «Новая технология искусственного интеллекта объединяет несколько типов данных для прогнозирования исходов рака». Больница Бригама и Женщины черезmedicalxpress.com . Архивировано из оригинала 20 сентября 2022 года . Проверено 18 сентября 2022 г.
- ^ Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Миндерер, Матиас; Хейгольд, Георг; Гелли, Сильвен; Ушкорейт, Якоб (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [cs.CV].
- ^ Ошибка цитирования: именованная ссылка
Transformer (deep learning architecture) auto
была вызвана, но так и не определена (см. страницу справки ). - ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». arXiv : 2212.04356 [eess.AS].
- ^ Джегл, Эндрю; Гимено, Феликс; Брок, Эндрю; Зиссерман, Эндрю; Виньялс, Ориол; Каррейра, Жоау (22 июня 2021 г.). «Воспринимающий: общее восприятие с повторяющимся вниманием». arXiv : 2103.03206 [cs.CV].
- ^ Джегл, Эндрю; Боржо, Себастьян; Алайрак, Жан-Батист; Дорш, Карл; Ионеску, Каталин; Дин, Дэвид; Коппула, Сканда; Зоран, Дэниел; Брок, Эндрю; Шелхамер, Эван; Энафф, Оливье (2 августа 2021 г.). «Perceiver IO: общая архитектура структурированных входов и выходов». arXiv : 2107.14795 [cs.LG].
- ^ Пиблс, Уильям; Се, Сайнин (2 марта 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748 [cs.CV].
- ^ «Google AI представляет Muse, новую модель преобразователя текста в изображение» . ИнфоQ .
- ^ «Использование моделей диффузии для создания превосходных аватаров NeRF». 5 января 2023 г.
- ↑ Ислам, Архам (14 ноября 2022 г.). «Как работают DALL·E 2, стабильная диффузия и Midjourney?».