Мультимодальное обучение

Мультимодальное обучение в контексте машинного обучения — это тип глубокого обучения , использующий несколько модальностей данных, таких как текст, аудио или изображения.

Напротив, унимодальные модели могут обрабатывать только один тип данных, например текст (обычно представленный в виде векторов признаков ) или изображения. Мультимодальное обучение отличается от объединения унимодальных моделей, обученных независимо. Оно объединяет информацию из разных модальностей, чтобы делать лучшие прогнозы. ^[1]

Крупные мультимодальные модели, такие как Google Gemini и GPT-4o , становятся все более популярными с 2023 года, обеспечивая большую универсальность и более широкое понимание явлений реального мира. ^[2]

Мотивация

Данные обычно поставляются с различными модальностями, которые несут различную информацию. Например, очень часто подписывают изображение, чтобы передать информацию, не представленную в самом изображении. Аналогично, иногда проще использовать изображение для описания информации, которая может быть неочевидна из текста. В результате, если разные слова появляются на похожих изображениях, то эти слова, скорее всего, описывают одно и то же. И наоборот, если слово используется для описания, казалось бы, непохожих изображений, то эти изображения могут представлять один и тот же объект. Таким образом, в случаях, связанных с многомодальными данными, важно использовать модель, которая способна совместно представлять информацию таким образом, чтобы модель могла захватывать объединенную информацию из разных модальностей.

Мультимодальные трансформаторы

Трансформаторы также могут быть использованы/адаптированы для модальностей (ввода или вывода), выходящих за рамки простого текста, обычно путем нахождения способа «токенизации» модальности.

Мультимодальные модели можно обучать с нуля или с помощью тонкой настройки. Исследование 2022 года показало, что трансформеры, предварительно обученные только на естественном языке, могут быть тонко настроены только на 0,03% параметров и стать конкурентоспособными с LSTM в различных логических и визуальных задачах, демонстрируя трансферное обучение . ^[3] LLaVA была моделью зрительно-языковой связи, состоящей из языковой модели (Vicuna-13B) ^[4] и зрительной модели ( ViT -L/14), соединенных линейным слоем. Тонкой настройке подвергается только линейный слой. ^[5]

Трансформаторы зрения ^[6] адаптируют трансформатор к компьютерному зрению, разбивая входные изображения на ряд фрагментов, превращая их в векторы и обрабатывая их как токены в стандартном трансформаторе.

Conformer ^[7] и более поздние Whisper ^[8] следуют той же схеме распознавания речи , сначала превращая речевой сигнал в спектрограмму , которая затем обрабатывается как изображение, т. е. разбивается на ряд фрагментов, преобразуется в векторы и обрабатывается как токены в стандартном преобразователе.

Восприниматели ^[9]^[10] — это разновидность Трансформеров, предназначенная для мультимодальности.

Для генерации изображений примечательными архитектурами являются DALL-E 1 (2021), Parti (2022), ^[11] Phenaki (2023), ^[12] и Muse (2023). ^[13] В отличие от более поздних моделей, DALL-E не является диффузионной моделью. Вместо этого она использует только декодерный Transformer, который авторегрессивно генерирует текст, за которым следует токен-представление изображения, которое затем преобразуется вариационным автокодером в изображение. ^[14] Parti — это кодер-декодерный Transformer, где кодер обрабатывает текстовую подсказку, а декодер генерирует токен-представление изображения. ^[15] Muse — это кодер-только Transformer, который обучен предсказывать замаскированные токены изображения из немаскированных токенов изображения. Во время генерации все входные токены маскируются, и предсказания с наивысшей достоверностью включаются для следующей итерации, пока все токены не будут предсказаны. ^[13] Phenaki — это модель преобразования текста в видео. Это двунаправленный маскированный преобразователь, обусловленный предварительно вычисленными текстовыми токенами. Затем сгенерированные токены декодируются в видео. ^[12]

Мультимодальные большие языковые модели

Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, например, видео, изображение, аудио, текст, проприорецепция и т. д. ^[16] Было много моделей ИИ, специально обученных для приема одной модальности и вывода другой модальности, например, AlexNet для преобразования изображения в метку, ^[17] визуальный ответ на вопрос для преобразования изображения в текст, ^[18] и распознавание речи для преобразования речи в текст.

Распространенным методом создания мультимодальных моделей из LLM является «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения следующим образом: возьмите обученный LLM и обученный кодировщик изображений . Создайте небольшой многослойный персептрон , так что для любого изображения вектор после обработки будет иметь те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель тонко настраивается на наборе данных изображение-текст. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения может быть заморожен для повышения стабильности. ^[19] $E$ $f$ $y$ $f(E(y))$

Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений для более эффективного ответа на визуальные вопросы, чем модели, обученные с нуля. ^{[20] Модель} Google PaLM была настроена в мультимодальную модель PaLM-E с использованием метода токенизации и применена к роботизированному управлению. ^{[21] Модели} LLaMA также были преобразованы в мультимодальные с использованием метода токенизации, чтобы разрешить ввод изображений, ^[22] и видеовходов. ^[23]

GPT-4 может использовать как текст, так и изображение в качестве входных данных ^[24] (хотя компонент зрения не был представлен публике до GPT-4V ^[25] ); Gemini от Google DeepMind также является многомодальным. ^[26] Mistral представила свою собственную многомодельную модель Pixtral 12B в сентябре 2024 года. ^[27]

Мультимодальные глубокие машины Больцмана

Машина Больцмана — это тип стохастической нейронной сети, изобретенный Джеффри Хинтоном и Терри Сейновски в 1985 году. Машины Больцмана можно рассматривать как стохастический , генеративный аналог сетей Хопфилда . Они названы в честь распределения Больцмана в статистической механике. Блоки в машинах Больцмана делятся на две группы: видимые блоки и скрытые блоки. Каждый блок похож на нейрон с двоичным выходом, который представляет, активирован он или нет. ^[28] Общие машины Больцмана допускают связь между любыми блоками. Однако обучение с использованием общих машин Больцмана непрактично, поскольку время вычислений экспоненциально зависит от размера машины ^{[ требуется ссылка ]} . Более эффективная архитектура называется ограниченной машиной Больцмана , где соединение разрешено только между скрытым блоком и видимым блоком, что описано в следующем разделе.

Мультимодальные глубокие машины Больцмана могут одновременно обрабатывать и обучаться на основе различных типов информации, таких как изображения и текст. Это можно сделать, в частности, имея отдельную глубокую машину Больцмана для каждой модальности, например, одну для изображений и одну для текста, соединенных на дополнительном верхнем скрытом слое. ^[29]

Приложение

Мультимодальные глубокие машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и глубокую сеть убеждений , когда модели тестируются на данных с модальностями изображения-текста или с одной модальностью. ^{[ необходима цитата ]} Мультимодальные глубокие машины Больцмана также способны предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. ^{[ необходима цитата ]} Самоконтролируемое обучение приносит более интересную и мощную модель для мультимодальности. OpenAI разработала модели CLIP и DALL-E , которые произвели революцию в мультимодальности.

Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере одна разрабатываемая система интегрирует такие различные типы данных. ^[30]^[31]

Смотрите также

Ссылки

^ Росиди, Нейт (27 марта 2023 г.). «Объяснение мультимодальных моделей». KDnuggets . Получено 01.06.2024 .
^ Зия, Техсин (8 января 2024 г.). «Открытие крупных мультимодальных моделей: формирование ландшафта языковых моделей в 2024 году». Unite.ai . Получено 01.06.2024 .
^ Лу, Кевин; Гровер, Адитья; Аббель, Питер; Мордач, Игорь (28.06.2022). «Замороженные предварительно обученные трансформаторы как универсальные вычислительные машины». Труды конференции AAAI по искусственному интеллекту . 36 (7): 7628–7636. doi : 10.1609/aaai.v36i7.20729 . ISSN 2374-3468.
^ "Vicuna: чат-бот с открытым исходным кодом, впечатляющий GPT-4 с 90%* качеством ChatGPT | LMSYS Org". lmsys.org . Получено 2024-08-11 .
^ Лю, Хаотянь; Ли, Чуньюань; У, Циньян; Ли, Ён Чжэ (2023-12-15). «Настройка визуальных инструкций». Достижения в области нейронных систем обработки информации . 36 : 34892–34916.
^ Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Миндерер, Матиас; Хейгольд, Георг; Гелли, Сильвен; Ушкорейт, Якоб (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [cs.CV].
^ Гулати, Анмол; Цинь, Джеймс; Чиу, Чун-Ченг; Пармар, Ники; Чжан, Ю; Ю, Цзяхуэй; Хан, Вэй; Ван, Шибо; Чжан, Чжэндун; Ву, Юнхуэй; Панг, Руомин (2020). «Конформер: преобразователь с расширенной сверткой для распознавания речи». arXiv : 2005.08100 [eess.AS].
^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; Макливи, Кристин; Суцкевер, Илья (2022). «Надежное распознавание речи с помощью слабого контроля в больших масштабах». arXiv : 2212.04356 [eess.AS].
^ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). «Воспринимающий: общее восприятие с итеративным вниманием». arXiv : 2103.03206 [cs.CV].
^ Jaegle, Andrew; Borgeaud, Sebastian; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalin; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrew; Shelhamer, Evan; Hénaff, Olivier (2021-08-02). «Perceiver IO: Общая архитектура для структурированных входов и выходов». arXiv : 2107.14795 [cs.LG].
^ "Parti: Pathways Авторегрессионная модель преобразования текста в изображение". sites.research.google . Получено 2024-08-09 .
^ аб Вильегас, Рубен; Бабаизаде, Мохаммед; Киндерманс, Питер-Ян; Моральдо, Эрнан; Чжан, Хан; Саффар, Мохаммад Таги; Кастро, Сантьяго; Кунце, Юлиус; Эрхан, Дмитрий (29 сентября 2022 г.). «Фенаки: создание видео переменной длины на основе текстовых описаний открытого домена». {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ ab Чанг, Хуэйвэнь; Чжан, Хань; Барбер, Джарред; Масчинот, А. Дж.; Лезама, Хосе; Цзян, Лу; Ян, Мин-Сюань; Мерфи, Кевин; Фримен, Уильям Т. (2023-01-02). "Muse: генерация текста в изображение с помощью маскированных генеративных преобразователей". arXiv : 2301.00704 [cs.CV].
^ Рамеш, Адитья; Павлов, Михаил; Гох, Габриэль; Грей, Скотт; Восс, Челси; Рэдфорд, Алек; Чен, Марк; Суцкевер, Илья (2021-02-26), Генерация текста в изображение с нуля , arXiv : 2102.12092
^ Ю, Цзяхуэй; Сюй, Юаньчжун; Ко, Цзин Юй; Луонг, Тханг; Байд, Гунджан; Ван, Зируи; Васудеван, Виджай; Ку, Александр; Ян, Иньфэй (21 июня 2022 г.), Масштабирование авторегрессионных моделей для создания содержательного преобразования текста в изображение , arXiv : 2206.10789
^ Кирос, Райан; Салахутдинов, Руслан; Земель, Рич (2014-06-18). «Мультимодальные нейронные языковые модели». Труды 31-й Международной конференции по машинному обучению . PMLR: 595–603. Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями». Достижения в области нейронных систем обработки информации . 25. Curran Associates, Inc. Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
^ Антол, Станислав; Агравал, Айшвария; Лу, Джиасен; Митчелл, Маргарет; Батра, Дхрув; Зитник, К. Лоуренс; Парих, Деви (2015). «VQA: Визуальный ответ на вопрос». ICCV : 2425–2433. Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
^ Ли, Джуннан; Ли, Донгсю; Саварезе, Сильвио; Хой, Стивен (01.01.2023). «BLIP-2: Начальная загрузка предварительного обучения языка и изображения с помощью кодировщиков замороженных изображений и больших языковых моделей». arXiv : 2301.12597 [cs.CV].
^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (2022-12-06). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems . 35 : 23716–23736. arXiv : 2204.14198 . Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
^ Дрисс, Дэнни; Ся, Фэй; Саджади, Мехди С.М.; Линч, Кори; Чоудери, Ааканша; Ихтер, Брайан; Вахид, Айзаан; Томпсон, Джонатан; Выонг, Куан; Ю, Тяньхэ; Хуан, Вэньлун; Чеботарь, Евгений; Сермане, Пьер; Дакворт, Дэниел; Левин, Сергей (01 марта 2023 г.). «PaLM-E: воплощенная мультимодальная языковая модель». arXiv : 2303.03378 [cs.LG].
^ Лю, Хаотянь; Ли, Чунюань; У, Цинъян; Ли, Ён Джэ (01 апреля 2023 г.). «Настройка визуальных инструкций». arXiv : 2304.08485 [cs.CV].
^ Чжан, Ханг; Ли, Синь; Бин, Лидун (01.06.2023). «Видео-LLaMA: аудиовизуальная языковая модель с настройкой на инструкции для понимания видео». arXiv : 2306.02858 [cs.CL].
^ OpenAI (2023-03-27). "Технический отчет GPT-4". arXiv : 2303.08774 [cs.CL].
^ OpenAI (25 сентября 2023 г.). «Системная карта GPT-4V(ision)» (PDF) .
↑ Пичаи, Сундар (10 мая 2023 г.), Google Keynote (Google I/O '23), временная метка 15:31 , получено 2023-07-02
^ Wiggers, Kyle (11 сентября 2024 г.). «Mistral выпускает Pixtral 12B, свою первую мультимодальную модель». TechCrunch . Получено 14 сентября 2024 г. .
^ Дей, Виктор (2021-09-03). "Руководство для начинающих по машине Больцмана". Журнал Analytics India . Получено 2024-03-02 .
^ "Мультимодальное обучение с глубокой машиной Больцмана" (PDF) . 2014. Архивировано (PDF) из оригинала 2015-06-21 . Получено 2015-06-14 .
^ Куах, Катянна. «Ученые Гарварда создают мультимодальную систему искусственного интеллекта для прогнозирования рака». The Register . Архивировано из оригинала 20 сентября 2022 г. Получено 16 сентября 2022 г.
^ Чен, Ричард Дж.; Лу, Мин Й.; Уильямсон, Дрю ФК; Чен, Тиффани Й.; Липкова, Яна; Нур, Захра; Шабан, Мухаммад; Шади, Маха; Уильямс, Мане; Джу, Бумджин; Махмуд, Фейсал (8 августа 2022 г.). «Интегративный гистолого-геномный анализ рака с помощью мультимодального глубокого обучения». Cancer Cell . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN 1535-6108. PMC 10397370. PMID 35944502. S2CID 251456162 .
- Пресс-релиз учебной больницы: «Новая технология ИИ объединяет несколько типов данных для прогнозирования результатов лечения рака». Больница Brigham and Women's Hospital через medicalxpress.com . Архивировано из оригинала 20 сентября 2022 г. Получено 18 сентября 2022 г.