stringtranslate.com

Мультимодальное обучение

Мультимодальное обучение в контексте машинного обучения — это тип глубокого обучения , использующий комбинацию различных модальностей данных, часто возникающий в реальных приложениях. Примером мультимодальных данных являются данные, которые объединяют текст (обычно представленный как вектор признаков ) с данными изображения, состоящими из интенсивностей пикселей и тегов аннотаций. Поскольку эти модальности имеют принципиально разные статистические свойства, их объединение является нетривиальной задачей, поэтому требуются специализированные стратегии и алгоритмы моделирования. Затем модель обучается, чтобы она могла понимать и работать с несколькими формами данных.

Мотивация

Было реализовано множество моделей и алгоритмов для извлечения и классификации определенных типов данных, например изображений или текста (когда люди, взаимодействующие с машинами, могут извлекать изображения в форме изображений и текстов, которые могут быть любым сообщением и т. д.). Однако данные обычно поступают с разными модальностями (это степень, в которой компоненты системы могут быть разделены или объединены), которые несут разную информацию. Например, очень часто к изображению добавляют подпись, чтобы передать информацию, не представленную в самом изображении. Точно так же иногда проще использовать изображение для описания информации, которая может быть неочевидна из текста. В результате, если на похожих изображениях встречаются разные слова, то, скорее всего, эти слова описывают одно и то же. И наоборот, если слово используется для описания, казалось бы, непохожих изображений, то эти изображения могут представлять один и тот же объект. Таким образом, в случаях, когда речь идет о мультимодальных данных, важно использовать модель, которая способна совместно представлять информацию, чтобы модель могла отражать структуру корреляции между различными модальностями. Более того, он также должен быть способен восстанавливать недостающие модальности с учетом наблюдаемых (например, прогнозирование возможного объекта изображения в соответствии с текстовым описанием). Модель мультимодальной машины глубокого Больцмана удовлетворяет вышеуказанным целям.

Предыстория: машина Больцмана.

Машина Больцмана — это тип стохастической нейронной сети, изобретенной Джеффри Хинтоном и Терри Сейновски в 1985 году. Машины Больцмана можно рассматривать как стохастический , генеративный аналог сетей Хопфилда . Они названы в честь распределения Больцмана в статистической механике. Агрегаты в машинах Больцмана делятся на две группы: видимые агрегаты и скрытые агрегаты. Машины General Boltzmann допускают соединение между любыми агрегатами. Однако обучение с использованием обычных машин Больцмана непрактично, поскольку время вычислений экспоненциально зависит от размера машины . Более эффективная архитектура называется ограниченной машиной Больцмана , где соединение разрешено только между скрытым и видимым блоками, что описано в следующем разделе.

Ограниченная машина Больцмана

Ограниченная машина Больцмана [1] представляет собой модель неориентированного графа со стохастическим видимыми переменными и стохастическим скрытыми переменными. Каждая видимая переменная связана с каждой скрытой переменной. Энергетическая функция модели определяется как

где параметры модели: представляет собой симметричное взаимодействие между видимым и скрытым блоком ; и являются терминами смещения. Совместное распределение системы определяется как

где – нормировочная константа. Условное распределение по скрытым может быть получено как логистическая функция с точки зрения параметров модели.

, с
, с

где логистическая функция.

Производную логарифмического правдоподобия по параметрам модели можно разложить как разницу между ожиданием модели и ожиданием, зависящим от данных .

RBM Гаусса-Бернулли

RBM Гаусса-Бернулли [2] представляют собой вариант ограниченной машины Больцмана, используемой для моделирования векторов с действительными значениями, таких как интенсивности пикселей. Обычно он используется для моделирования данных изображения. Энергия системы РБМ Гаусса-Бернулли определяется как

где параметры модели. Совместное распределение определяется так же, как и в ограниченной машине Больцмана. Условные распределения теперь становятся

, с
, с

В RBM по Гауссу-Бернулли видимая единица, обусловленная скрытыми единицами, моделируется как распределение Гаусса.

Реплицированная модель Softmax

Реплицированная модель Softmax [3] также является вариантом ограниченной машины Больцмана и обычно используется для моделирования векторов количества слов в документе. В типичной задаче интеллектуального анализа текста пусть — размер словаря, а — количество слов в документе. Пусть это двоичная матрица, только если слово в документе является словом в словаре. обозначает количество слов в словаре. Энергия состояния документа, содержащего слова, определяется как

Условные распределения имеют вид

Глубокие машины Больцмана

Глубокая машина Больцмана [4] имеет последовательность слоев скрытых единиц. Существуют только связи между соседними скрытыми слоями, а также между видимыми и скрытыми объектами в первом скрытом слое. Энергетическая функция системы добавляет члены взаимодействия слоев к энергетической функции общей ограниченной машины Больцмана и определяется выражением

Совместное распространение

Мультимодальные глубинные машины Больцмана

Мультимодальная глубокая машина Больцмана [5] [6] использует бимодальную DBM изображение-текст, в которой путь изображения моделируется как DBM Гаусса-Бернулли, а путь текста — как репликированный Softmax DBM, и каждый DBM имеет два скрытых слоя и один видимый слой. Два DBM объединяются на дополнительном верхнем скрытом уровне. Совместное распределение по мультимодальным входам, определяемое как

Условные распределения по видимым и скрытым единицам имеют вид

Вывод и обучение

Точное обучение с максимальным правдоподобием в этой модели сложно, но приблизительное обучение DBM можно выполнить с помощью вариационного подхода, где вывод среднего поля используется для оценки ожиданий, зависящих от данных, а процедура стохастической аппроксимации на основе MCMC используется для аппроксимации ожидаемая достаточная статистика модели. [7]

Приложение

Мультимодальные глубинные машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и сеть глубоких убеждений , когда модели тестируются на данных как с модальностями изображения-текста, так и с одной модальностью. [ нужна цитата ] Мультимодальная глубокая машина Больцмана также способна предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. [ нужна цитация ] Самостоятельное обучение предлагает более интересную и мощную модель мультимодальности. OpenAI разработала модели CLIP и DALL-E , которые произвели революцию в мультимодальности.

Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере, одна разрабатываемая система объединяет такие разные типы данных. [8] [9]

Мультимодальные трансформаторы

Трансформеры также могут использоваться/адаптироваться для модальностей (ввода или вывода), помимо текста, обычно путем поиска способа «токенизации» модальности.

Трансформаторы зрения [10] адаптируют преобразователь к компьютерному зрению, разбивая входные изображения на серию патчей, превращая их в векторы и обрабатывая их как токены в стандартном преобразователе.

Conformer [11] и более поздний Whisper [12] следуют той же схеме распознавания речи , сначала превращая речевой сигнал в спектрограмму , которая затем обрабатывается как изображение, т.е. разбивается на серию фрагментов, превращается в векторы и обрабатывается как жетоны в стандартном трансформере.

Воспринимающие , Эндрю Джегл и др. (2021) [13] [14] могут учиться на больших объемах разнородных данных.

Что касается вывода изображений , Пиблс и др. представили диффузионный преобразователь (DiT), который облегчает использование архитектуры преобразователя для создания изображений на основе диффузии . [15] Кроме того, Google выпустила генератор изображений, ориентированный на трансформатор, под названием «Muse», основанный на технологии параллельного декодирования и генеративного преобразователя в масках. [16] (Трансформеры играли менее центральную роль в предыдущих технологиях создания изображений, [17], хотя и по-прежнему значительную. [18] )

Смотрите также

Рекомендации

  1. ^ «Ограниченная машина Больцмана» (PDF) . 1986. Архивировано (PDF) из оригинала 3 марта 2016 г. Проверено 29 августа 2019 г.
  2. ^ "УПРАВЛЕНИЕ Гаусса-Бернулли" (PDF) . 1994. Архивировано (PDF) из оригинала 1 июля 2015 г. Проверено 14 июня 2015 г.
  3. ^ «Реплицированная модель Softmax» (PDF) . 2009а. Архивировано (PDF) из оригинала 1 октября 2015 г. Проверено 14 июня 2015 г.
  4. ^ "Машина Глубокого Больцмана" (PDF) . 2009б. Архивировано (PDF) из оригинала 10 марта 2016 г. Проверено 14 июня 2015 г.
  5. ^ «Мультимодальное обучение с помощью машины глубокого Больцмана» (PDF) . 2012. Архивировано (PDF) из оригинала 4 марта 2016 г. Проверено 14 июня 2015 г.
  6. ^ «Мультимодальное обучение с помощью машины глубокого Больцмана» (PDF) . 2014. Архивировано (PDF) из оригинала 21 июня 2015 г. Проверено 14 июня 2015 г.
  7. ^ «Приближения к градиенту правдоподобия» (PDF) . 2008. Архивировано (PDF) из оригинала 4 марта 2016 г. Проверено 14 июня 2015 г.
  8. ^ Куах, Катянна. «Гарвардские ученые создают мультимодальную систему искусственного интеллекта для прогнозирования рака». Регистр . Архивировано из оригинала 20 сентября 2022 года . Проверено 16 сентября 2022 г.
  9. ^ Чен, Ричард Дж.; Лу, Мин Ю.; Уильямсон, Дрю ФК; Чен, Тиффани Ю.; Липкова Яна; Нур, Захра; Шабан, Мухаммед; Шейди, Маха; Уильямс, Мане; Джу, Бумджин; Махмуд, Фейсал (8 августа 2022 г.). «Интегративный гистологически-геномный анализ панрака посредством мультимодального глубокого обучения». Раковая клетка . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN  1535-6108. ПМЦ 10397370 . PMID  35944502. S2CID  251456162. 
    • Пресс-релиз обучающей больницы: «Новая технология искусственного интеллекта объединяет несколько типов данных для прогнозирования исходов рака». Больница Бригама и Женщины черезmedicalxpress.com . Архивировано из оригинала 20 сентября 2022 года . Проверено 18 сентября 2022 г.
  10. ^ Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Миндерер, Матиас; Хейгольд, Георг; Гелли, Сильвен; Ушкорейт, Якоб (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [cs.CV].
  11. ^ Ошибка цитирования: именованная ссылка Transformer (deep learning architecture) autoбыла вызвана, но так и не определена (см. страницу справки ).
  12. ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». arXiv : 2212.04356 [eess.AS].
  13. ^ Джегл, Эндрю; Гимено, Феликс; Брок, Эндрю; Зиссерман, Эндрю; Виньялс, Ориол; Каррейра, Жоау (22 июня 2021 г.). «Воспринимающий: общее восприятие с повторяющимся вниманием». arXiv : 2103.03206 [cs.CV].
  14. ^ Джегл, Эндрю; Боржо, Себастьян; Алайрак, Жан-Батист; Дорш, Карл; Ионеску, Каталин; Дин, Дэвид; Коппула, Сканда; Зоран, Дэниел; Брок, Эндрю; Шелхамер, Эван; Энафф, Оливье (2 августа 2021 г.). «Perceiver IO: общая архитектура структурированных входов и выходов». arXiv : 2107.14795 [cs.LG].
  15. ^ Пиблс, Уильям; Се, Сайнин (2 марта 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748 [cs.CV].
  16. ^ «Google AI представляет Muse, новую модель преобразователя текста в изображение» . ИнфоQ .
  17. ^ «Использование моделей диффузии для создания превосходных аватаров NeRF». 5 января 2023 г.
  18. Ислам, Архам (14 ноября 2022 г.). «Как работают DALL·E 2, стабильная диффузия и Midjourney?».