Мультимодальное обучение в контексте машинного обучения — это тип глубокого обучения , использующий несколько модальностей данных, таких как текст, аудио или изображения.
Напротив, унимодальные модели могут обрабатывать только один тип данных, например текст (обычно представленный в виде векторов признаков ) или изображения. Мультимодальное обучение отличается от объединения унимодальных моделей, обученных независимо. Оно объединяет информацию из разных модальностей, чтобы делать лучшие прогнозы. [1]
Крупные мультимодальные модели, такие как Google Gemini и GPT-4o , становятся все более популярными с 2023 года, обеспечивая большую универсальность и более широкое понимание явлений реального мира. [2]
Данные обычно поставляются с различными модальностями, которые несут различную информацию. Например, очень часто подписывают изображение, чтобы передать информацию, не представленную в самом изображении. Аналогично, иногда проще использовать изображение для описания информации, которая может быть неочевидна из текста. В результате, если разные слова появляются на похожих изображениях, то эти слова, скорее всего, описывают одно и то же. И наоборот, если слово используется для описания, казалось бы, непохожих изображений, то эти изображения могут представлять один и тот же объект. Таким образом, в случаях, связанных с многомодальными данными, важно использовать модель, которая способна совместно представлять информацию таким образом, чтобы модель могла захватывать объединенную информацию из разных модальностей.
Трансформаторы также могут быть использованы/адаптированы для модальностей (ввода или вывода), выходящих за рамки простого текста, обычно путем нахождения способа «токенизации» модальности.
Мультимодальные модели можно обучать с нуля или с помощью тонкой настройки. Исследование 2022 года показало, что трансформеры, предварительно обученные только на естественном языке, могут быть тонко настроены только на 0,03% параметров и стать конкурентоспособными с LSTM в различных логических и визуальных задачах, демонстрируя трансферное обучение . [3] LLaVA была моделью зрительно-языковой связи, состоящей из языковой модели (Vicuna-13B) [4] и зрительной модели ( ViT -L/14), соединенных линейным слоем. Тонкой настройке подвергается только линейный слой. [5]
Трансформаторы зрения [6] адаптируют трансформатор к компьютерному зрению, разбивая входные изображения на ряд фрагментов, превращая их в векторы и обрабатывая их как токены в стандартном трансформаторе.
Conformer [7] и более поздние Whisper [8] следуют той же схеме распознавания речи , сначала превращая речевой сигнал в спектрограмму , которая затем обрабатывается как изображение, т. е. разбивается на ряд фрагментов, преобразуется в векторы и обрабатывается как токены в стандартном преобразователе.
Восприниматели [9] [10] — это разновидность Трансформеров, предназначенная для мультимодальности.
Для генерации изображений примечательными архитектурами являются DALL-E 1 (2021), Parti (2022), [11] Phenaki (2023), [12] и Muse (2023). [13] В отличие от более поздних моделей, DALL-E не является диффузионной моделью. Вместо этого она использует только декодерный Transformer, который авторегрессивно генерирует текст, за которым следует токен-представление изображения, которое затем преобразуется вариационным автокодером в изображение. [14] Parti — это кодер-декодерный Transformer, где кодер обрабатывает текстовую подсказку, а декодер генерирует токен-представление изображения. [15] Muse — это кодер-только Transformer, который обучен предсказывать замаскированные токены изображения из немаскированных токенов изображения. Во время генерации все входные токены маскируются, и предсказания с наивысшей достоверностью включаются для следующей итерации, пока все токены не будут предсказаны. [13] Phenaki — это модель преобразования текста в видео. Это двунаправленный маскированный преобразователь, обусловленный предварительно вычисленными текстовыми токенами. Затем сгенерированные токены декодируются в видео. [12]Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, например, видео, изображение, аудио, текст, проприорецепция и т. д. [16] Было много моделей ИИ, специально обученных для приема одной модальности и вывода другой модальности, например, AlexNet для преобразования изображения в метку, [17] визуальный ответ на вопрос для преобразования изображения в текст, [18] и распознавание речи для преобразования речи в текст.
Распространенным методом создания мультимодальных моделей из LLM является «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения следующим образом: возьмите обученный LLM и обученный кодировщик изображений . Создайте небольшой многослойный персептрон , так что для любого изображения вектор после обработки будет иметь те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель тонко настраивается на наборе данных изображение-текст. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения может быть заморожен для повышения стабильности. [19]
Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений для более эффективного ответа на визуальные вопросы, чем модели, обученные с нуля. [20] Модель Google PaLM была настроена в мультимодальную модель PaLM-E с использованием метода токенизации и применена к роботизированному управлению. [21] Модели LLaMA также были преобразованы в мультимодальные с использованием метода токенизации, чтобы разрешить ввод изображений, [22] и видеовходов. [23]
GPT-4 может использовать как текст, так и изображение в качестве входных данных [24] (хотя компонент зрения не был представлен публике до GPT-4V [25] ); Gemini от Google DeepMind также является многомодальным. [26] Mistral представила свою собственную многомодельную модель Pixtral 12B в сентябре 2024 года. [27]Машина Больцмана — это тип стохастической нейронной сети, изобретенный Джеффри Хинтоном и Терри Сейновски в 1985 году. Машины Больцмана можно рассматривать как стохастический , генеративный аналог сетей Хопфилда . Они названы в честь распределения Больцмана в статистической механике. Блоки в машинах Больцмана делятся на две группы: видимые блоки и скрытые блоки. Каждый блок похож на нейрон с двоичным выходом, который представляет, активирован он или нет. [28] Общие машины Больцмана допускают связь между любыми блоками. Однако обучение с использованием общих машин Больцмана непрактично, поскольку время вычислений экспоненциально зависит от размера машины [ требуется ссылка ] . Более эффективная архитектура называется ограниченной машиной Больцмана , где соединение разрешено только между скрытым блоком и видимым блоком, что описано в следующем разделе.
Мультимодальные глубокие машины Больцмана могут одновременно обрабатывать и обучаться на основе различных типов информации, таких как изображения и текст. Это можно сделать, в частности, имея отдельную глубокую машину Больцмана для каждой модальности, например, одну для изображений и одну для текста, соединенных на дополнительном верхнем скрытом слое. [29]
Мультимодальные глубокие машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и глубокую сеть убеждений , когда модели тестируются на данных с модальностями изображения-текста или с одной модальностью. [ необходима цитата ] Мультимодальные глубокие машины Больцмана также способны предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. [ необходима цитата ] Самоконтролируемое обучение приносит более интересную и мощную модель для мультимодальности. OpenAI разработала модели CLIP и DALL-E , которые произвели революцию в мультимодальности.
Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере одна разрабатываемая система интегрирует такие различные типы данных. [30] [31]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )