Мультимодальное обучение — это тип глубокого обучения , который интегрирует и обрабатывает несколько типов данных, называемых модальностями , например, текст, аудио, изображения или видео. Эта интеграция обеспечивает более целостное понимание сложных данных, улучшая производительность модели в таких задачах, как визуальные ответы на вопросы, кросс-модальный поиск, [1] генерация текста в изображение, [2] эстетическое ранжирование, [3] и субтитры изображений. [4]
Крупные мультимодальные модели, такие как Google Gemini и GPT-4o , становятся все более популярными с 2023 года, обеспечивая большую универсальность и более широкое понимание явлений реального мира. [5]
Данные обычно поставляются с различными модальностями, которые несут различную информацию. Например, очень часто подписывают изображение, чтобы передать информацию, не представленную в самом изображении. Аналогично, иногда проще использовать изображение для описания информации, которая может быть неочевидна из текста. В результате, если разные слова появляются на похожих изображениях, то эти слова, скорее всего, описывают одно и то же. И наоборот, если слово используется для описания, казалось бы, непохожих изображений, то эти изображения могут представлять один и тот же объект. Таким образом, в случаях, связанных с многомодальными данными, важно использовать модель, которая способна совместно представлять информацию таким образом, чтобы модель могла захватывать объединенную информацию из разных модальностей.
Трансформаторы также могут использоваться/адаптироваться для модальностей (ввода или вывода), выходящих за рамки простого текста, обычно путем нахождения способа «токенизации» модальности.
Мультимодальные модели можно обучать с нуля или с помощью тонкой настройки. Исследование 2022 года показало, что Transformers, предварительно обученные только на естественном языке, могут быть тонко настроены только на 0,03% параметров и стать конкурентоспособными с LSTM в различных логических и визуальных задачах, демонстрируя трансферное обучение . [6] LLaVA была моделью зрительно-языковой связи, состоящей из языковой модели (Vicuna-13B) [7] и зрительной модели ( ViT -L/14), соединенных линейным слоем. Тонкой настройке подвергается только линейный слой. [8]
Трансформаторы зрения [9] адаптируют трансформатор к компьютерному зрению, разбивая входные изображения на ряд фрагментов, превращая их в векторы и обрабатывая их как токены в стандартном трансформаторе.
Conformer [10] и более поздние Whisper [11] следуют той же схеме распознавания речи , сначала превращая речевой сигнал в спектрограмму , которая затем обрабатывается как изображение, т. е. разбивается на ряд фрагментов, преобразуется в векторы и обрабатывается как токены в стандартном преобразователе.
Восприниматели [12] [13] — это разновидность Трансформеров, предназначенная для мультимодальности.
Для генерации изображений примечательными архитектурами являются DALL-E 1 (2021), Parti (2022), [14] Phenaki (2023), [15] и Muse (2023). [16] В отличие от более поздних моделей, DALL-E не является диффузионной моделью. Вместо этого она использует только декодерный Transformer, который авторегрессивно генерирует текст, за которым следует токен-представление изображения, которое затем преобразуется вариационным автокодером в изображение. [17] Parti — это кодер-декодерный Transformer, где кодер обрабатывает текстовую подсказку, а декодер генерирует токен-представление изображения. [18] Muse — это кодер-только Transformer, который обучен предсказывать замаскированные токены изображения из немаскированных токенов изображения. Во время генерации все входные токены маскируются, и предсказания с наивысшей достоверностью включаются для следующей итерации, пока все токены не будут предсказаны. [16] Phenaki — это модель «текст-видео». Это двунаправленный маскированный преобразователь, обусловленный предварительно вычисленными текстовыми токенами. Затем сгенерированные токены декодируются в видео. [15]Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, например, видео, изображение, аудио, текст, проприорецепция и т. д. [19] Было много моделей ИИ, специально обученных для приема одной модальности и вывода другой модальности, например, AlexNet для преобразования изображения в метку, [20] визуальный ответ на вопрос для преобразования изображения в текст, [21] и распознавание речи для преобразования речи в текст.
Распространенным методом создания мультимодальных моделей из LLM является «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения следующим образом: возьмите обученный LLM и обученный кодировщик изображений . Создайте небольшой многослойный персептрон , так что для любого изображения вектор после обработки будет иметь те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель тонко настраивается на наборе данных изображение-текст. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения может быть заморожен для повышения стабильности. [22]
Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений для более эффективного ответа на визуальные вопросы, чем модели, обученные с нуля. [23] Модель Google PaLM была настроена в мультимодальную модель PaLM-E с использованием метода токенизации и применена к роботизированному управлению. [24] Модели LLaMA также были преобразованы в мультимодальные с использованием метода токенизации, чтобы разрешить ввод изображений, [25] и видеовходов. [26]
GPT-4 может использовать как текст, так и изображение в качестве входных данных [27] (хотя компонент зрения не был представлен публике до GPT-4V [28] ); Gemini от Google DeepMind также является многомодальным. [29] Mistral представила свою собственную многомодельную модель Pixtral 12B в сентябре 2024 года. [30]Машина Больцмана — это тип стохастической нейронной сети, изобретенный Джеффри Хинтоном и Терри Сейновски в 1985 году. Машины Больцмана можно рассматривать как стохастический , генеративный аналог сетей Хопфилда . Они названы в честь распределения Больцмана в статистической механике. Блоки в машинах Больцмана делятся на две группы: видимые блоки и скрытые блоки. Каждый блок похож на нейрон с двоичным выходом, который представляет, активирован он или нет. [31] Общие машины Больцмана допускают связь между любыми блоками. Однако обучение с использованием общих машин Больцмана непрактично, поскольку время вычислений экспоненциально зависит от размера машины [ требуется ссылка ] . Более эффективная архитектура называется ограниченной машиной Больцмана , где соединение разрешено только между скрытым блоком и видимым блоком, что описано в следующем разделе.
Мультимодальные глубокие машины Больцмана могут одновременно обрабатывать и обучаться на основе различных типов информации, таких как изображения и текст. Это можно сделать, в частности, имея отдельную глубокую машину Больцмана для каждой модальности, например, одну для изображений и одну для текста, соединенных на дополнительном верхнем скрытом слое. [32]
Мультимодальное машинное обучение имеет множество применений в различных областях:
Кросс-модальный поиск позволяет пользователям искать данные в различных модальностях (например, извлекая изображения на основе текстовых описаний), улучшая поисковые системы мультимедиа и системы рекомендаций контента. Такие модели, как CLIP, способствуют эффективному и точному поиску путем встраивания данных в общее пространство, демонстрируя высокую производительность даже в условиях нулевого выстрела. [33]
Мультимодальные глубокие машины Больцмана превосходят традиционные модели, такие как машины опорных векторов и скрытое распределение Дирихле, в задачах классификации и могут предсказывать недостающие данные в мультимодальных наборах данных, таких как изображения и текст.
Мультимодальные модели объединяют медицинские изображения, геномные данные и истории болезни пациентов для повышения точности диагностики и раннего выявления заболеваний, особенно при скрининге рака. [34] [35] [36]
Такие модели, как DALL·E, генерируют изображения из текстовых описаний, принося пользу творческим отраслям, в то время как кросс-модальный поиск обеспечивает динамический поиск мультимедиа. [37]
Мультимодальное обучение улучшает взаимодействие в робототехнике и искусственном интеллекте за счет интеграции сенсорных данных, таких как речь, зрение и осязание, способствуя автономным системам и взаимодействию человека с компьютером.
Объединяя визуальные, аудио- и текстовые данные, мультимодальные системы улучшают анализ настроений и распознавание эмоций, применяемые в обслуживании клиентов, социальных сетях и маркетинге.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )