stringtranslate.com

Мультимодальное обучение

Мультимодальное обучение — это тип глубокого обучения , который интегрирует и обрабатывает несколько типов данных, называемых модальностями , например, текст, аудио, изображения или видео. Эта интеграция обеспечивает более целостное понимание сложных данных, улучшая производительность модели в таких задачах, как визуальные ответы на вопросы, кросс-модальный поиск, [1] генерация текста в изображение, [2] эстетическое ранжирование, [3] и субтитры изображений. [4]

Крупные мультимодальные модели, такие как Google Gemini и GPT-4o , становятся все более популярными с 2023 года, обеспечивая большую универсальность и более широкое понимание явлений реального мира. [5]

Мотивация

Данные обычно поставляются с различными модальностями, которые несут различную информацию. Например, очень часто подписывают изображение, чтобы передать информацию, не представленную в самом изображении. Аналогично, иногда проще использовать изображение для описания информации, которая может быть неочевидна из текста. В результате, если разные слова появляются на похожих изображениях, то эти слова, скорее всего, описывают одно и то же. И наоборот, если слово используется для описания, казалось бы, непохожих изображений, то эти изображения могут представлять один и тот же объект. Таким образом, в случаях, связанных с многомодальными данными, важно использовать модель, которая способна совместно представлять информацию таким образом, чтобы модель могла захватывать объединенную информацию из разных модальностей.

Мультимодальные трансформаторы

Трансформаторы также могут использоваться/адаптироваться для модальностей (ввода или вывода), выходящих за рамки простого текста, обычно путем нахождения способа «токенизации» модальности.

Мультимодальные модели можно обучать с нуля или с помощью тонкой настройки. Исследование 2022 года показало, что Transformers, предварительно обученные только на естественном языке, могут быть тонко настроены только на 0,03% параметров и стать конкурентоспособными с LSTM в различных логических и визуальных задачах, демонстрируя трансферное обучение . [6] LLaVA была моделью зрительно-языковой связи, состоящей из языковой модели (Vicuna-13B) [7] и зрительной модели ( ViT -L/14), соединенных линейным слоем. Тонкой настройке подвергается только линейный слой. [8]

Трансформаторы зрения [9] адаптируют трансформатор к компьютерному зрению, разбивая входные изображения на ряд фрагментов, превращая их в векторы и обрабатывая их как токены в стандартном трансформаторе.

Conformer [10] и более поздние Whisper [11] следуют той же схеме распознавания речи , сначала превращая речевой сигнал в спектрограмму , которая затем обрабатывается как изображение, т. е. разбивается на ряд фрагментов, преобразуется в векторы и обрабатывается как токены в стандартном преобразователе.

Восприниматели [12] [13] — это разновидность Трансформеров, предназначенная для мультимодальности.

Для генерации изображений примечательными архитектурами являются DALL-E 1 (2021), Parti (2022), [14] Phenaki (2023), [15] и Muse (2023). [16] В отличие от более поздних моделей, DALL-E не является диффузионной моделью. Вместо этого она использует только декодерный Transformer, который авторегрессивно генерирует текст, за которым следует токен-представление изображения, которое затем преобразуется вариационным автокодером в изображение. [17] Parti — это кодер-декодерный Transformer, где кодер обрабатывает текстовую подсказку, а декодер генерирует токен-представление изображения. [18] Muse — это кодер-только Transformer, который обучен предсказывать замаскированные токены изображения из немаскированных токенов изображения. Во время генерации все входные токены маскируются, и предсказания с наивысшей достоверностью включаются для следующей итерации, пока все токены не будут предсказаны. [16] Phenaki — это модель «текст-видео». Это двунаправленный маскированный преобразователь, обусловленный предварительно вычисленными текстовыми токенами. Затем сгенерированные токены декодируются в видео. [15]

Мультимодальные большие языковые модели

Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, например, видео, изображение, аудио, текст, проприорецепция и т. д. [19] Было много моделей ИИ, специально обученных для приема одной модальности и вывода другой модальности, например, AlexNet для преобразования изображения в метку, [20] визуальный ответ на вопрос для преобразования изображения в текст, [21] и распознавание речи для преобразования речи в текст.

Распространенным методом создания мультимодальных моделей из LLM является «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения следующим образом: возьмите обученный LLM и обученный кодировщик изображений . Создайте небольшой многослойный персептрон , так что для любого изображения вектор после обработки будет иметь те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель тонко настраивается на наборе данных изображение-текст. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения может быть заморожен для повышения стабильности. [22]

Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений для более эффективного ответа на визуальные вопросы, чем модели, обученные с нуля. [23] Модель Google PaLM была настроена в мультимодальную модель PaLM-E с использованием метода токенизации и применена к роботизированному управлению. [24] Модели LLaMA также были преобразованы в мультимодальные с использованием метода токенизации, чтобы разрешить ввод изображений, [25] и видеовходов. [26]

GPT-4 может использовать как текст, так и изображение в качестве входных данных [27] (хотя компонент зрения не был представлен публике до GPT-4V [28] ); Gemini от Google DeepMind также является многомодальным. [29] Mistral представила свою собственную многомодельную модель Pixtral 12B в сентябре 2024 года. [30]

Мультимодальные глубокие машины Больцмана

Машина Больцмана — это тип стохастической нейронной сети, изобретенный Джеффри Хинтоном и Терри Сейновски в 1985 году. Машины Больцмана можно рассматривать как стохастический , генеративный аналог сетей Хопфилда . Они названы в честь распределения Больцмана в статистической механике. Блоки в машинах Больцмана делятся на две группы: видимые блоки и скрытые блоки. Каждый блок похож на нейрон с двоичным выходом, который представляет, активирован он или нет. [31] Общие машины Больцмана допускают связь между любыми блоками. Однако обучение с использованием общих машин Больцмана непрактично, поскольку время вычислений экспоненциально зависит от размера машины [ требуется ссылка ] . Более эффективная архитектура называется ограниченной машиной Больцмана , где соединение разрешено только между скрытым блоком и видимым блоком, что описано в следующем разделе.

Мультимодальные глубокие машины Больцмана могут одновременно обрабатывать и обучаться на основе различных типов информации, таких как изображения и текст. Это можно сделать, в частности, имея отдельную глубокую машину Больцмана для каждой модальности, например, одну для изображений и одну для текста, соединенных на дополнительном верхнем скрытом слое. [32]

Приложения

Мультимодальное машинное обучение имеет множество применений в различных областях:

Кросс-модальный поиск

Кросс-модальный поиск позволяет пользователям искать данные в различных модальностях (например, извлекая изображения на основе текстовых описаний), улучшая поисковые системы мультимедиа и системы рекомендаций контента. Такие модели, как CLIP, способствуют эффективному и точному поиску путем встраивания данных в общее пространство, демонстрируя высокую производительность даже в условиях нулевого выстрела. [33]

Классификация и извлечение недостающих данных

Мультимодальные глубокие машины Больцмана превосходят традиционные модели, такие как машины опорных векторов и скрытое распределение Дирихле, в задачах классификации и могут предсказывать недостающие данные в мультимодальных наборах данных, таких как изображения и текст.

Диагностика в здравоохранении

Мультимодальные модели объединяют медицинские изображения, геномные данные и истории болезни пациентов для повышения точности диагностики и раннего выявления заболеваний, особенно при скрининге рака. [34] [35] [36]

Генерация контента

Такие модели, как DALL·E, генерируют изображения из текстовых описаний, принося пользу творческим отраслям, в то время как кросс-модальный поиск обеспечивает динамический поиск мультимедиа. [37]

Робототехника и HCI

Мультимодальное обучение улучшает взаимодействие в робототехнике и искусственном интеллекте за счет интеграции сенсорных данных, таких как речь, зрение и осязание, способствуя автономным системам и взаимодействию человека с компьютером.

Распознавание эмоций

Объединяя визуальные, аудио- и текстовые данные, мультимодальные системы улучшают анализ настроений и распознавание эмоций, применяемые в обслуживании клиентов, социальных сетях и маркетинге.

Смотрите также

Ссылки

  1. ^ Хендриксен, Мария; Бликер, Мауриц; Вакуленко Светлана; ван Ноорд, Нанн; Койпер, Эрнст; де Рийке, Мартен (2021). «Расширение CLIP для поиска по категориям в изображениях в электронной коммерции». arXiv : 2112.11294 [cs.CV].
  2. ^ "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 сентября 2022 г. Архивировано из оригинала 18 января 2023 г. Получено 17 сентября 2022 г.
  3. ^ LAION-AI/aesthetic-predictor, LAION AI, 2024-09-06 , получено 2024-09-08
  4. ^ Мокади, Рон; Герц, Амир; Бермано, Амит Х. (2021). «ClipCap: префикс CLIP для подписей к изображениям». arXiv : 2111.09734 [cs.CV].
  5. ^ Зия, Техсин (8 января 2024 г.). «Открытие крупных мультимодальных моделей: формирование ландшафта языковых моделей в 2024 году». Unite.ai . Получено 01.06.2024 .
  6. ^ Лу, Кевин; Гровер, Адитья; Аббель, Питер; Мордач, Игорь (28.06.2022). «Замороженные предварительно обученные трансформаторы как универсальные вычислительные машины». Труды конференции AAAI по искусственному интеллекту . 36 (7): 7628–7636. doi : 10.1609/aaai.v36i7.20729 . ISSN  2374-3468.
  7. ^ "Vicuna: чат-бот с открытым исходным кодом, впечатляющий GPT-4 с 90%* качеством ChatGPT | LMSYS Org". lmsys.org . Получено 2024-08-11 .
  8. ^ Лю, Хаотянь; Ли, Чунюань; У, Цинъян; Ли, Ён Джэ (15 декабря 2023 г.). «Настройка визуальных инструкций». Достижения в области нейронных систем обработки информации . 36 : 34892–34916.
  9. ^ Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Миндерер, Матиас; Хейгольд, Георг; Гелли, Сильвен; Ушкорейт, Якоб (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [cs.CV].
  10. ^ Гулати, Анмол; Цинь, Джеймс; Чиу, Чун-Ченг; Пармар, Ники; Чжан, Ю; Ю, Цзяхуэй; Хан, Вэй; Ван, Шибо; Чжан, Чжэндун; Ву, Юнхуэй; Панг, Руомин (2020). «Конформер: преобразователь с расширенной сверткой для распознавания речи». arXiv : 2005.08100 [eess.AS].
  11. ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; Макливи, Кристин; Суцкевер, Илья (2022). «Надежное распознавание речи с помощью слабого контроля в больших масштабах». arXiv : 2212.04356 [eess.AS].
  12. ^ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). «Воспринимающий: общее восприятие с итеративным вниманием». arXiv : 2103.03206 [cs.CV].
  13. ^ Джегл, Эндрю; Боржо, Себастьян; Алайрак, Жан-Батист; Дорш, Карл; Ионеску, Каталин; Дин, Дэвид; Коппула, Сканда; Зоран, Дэниел; Брок, Эндрю; Шелхамер, Эван; Энафф, Оливье (2 августа 2021 г.). «Perceiver IO: общая архитектура структурированных входов и выходов». arXiv : 2107.14795 [cs.LG].
  14. ^ "Parti: Pathways Авторегрессионная модель преобразования текста в изображение". sites.research.google . Получено 2024-08-09 .
  15. ^ аб Вильегас, Рубен; Бабаизаде, Мохаммед; Киндерманс, Питер-Ян; Моральдо, Эрнан; Чжан, Хан; Саффар, Мохаммад Таги; Кастро, Сантьяго; Кунце, Юлиус; Эрхан, Дмитрий (29 сентября 2022 г.). «Фенаки: создание видео переменной длины на основе текстовых описаний открытого домена». {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  16. ^ ab Чанг, Хуэйвэнь; Чжан, Хань; Барбер, Джарред; Масчинот, А. Дж.; Лезама, Хосе; Цзян, Лу; Ян, Мин-Сюань; Мерфи, Кевин; Фримен, Уильям Т. (2023-01-02). "Muse: генерация текста в изображение с помощью маскированных генеративных преобразователей". arXiv : 2301.00704 [cs.CV].
  17. ^ Рамеш, Адитья; Павлов, Михаил; Гох, Габриэль; Грей, Скотт; Восс, Челси; Рэдфорд, Алек; Чен, Марк; Суцкевер, Илья (2021-02-26), Генерация текста в изображение с нуля , arXiv : 2102.12092
  18. ^ Ю, Цзяхуэй; Сюй, Юаньчжун; Ко, Цзин Юй; Луонг, Тханг; Байд, Гунджан; Ван, Зируи; Васудеван, Виджай; Ку, Александр; Ян, Иньфэй (21 июня 2022 г.), Масштабирование авторегрессионных моделей для создания содержательного преобразования текста в изображение , arXiv : 2206.10789
  19. ^ Кирос, Райан; Салахутдинов, Руслан; Земель, Рич (2014-06-18). «Мультимодальные нейронные языковые модели». Труды 31-й Международной конференции по машинному обучению . PMLR: 595–603. Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
  20. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями». Достижения в области нейронных систем обработки информации . 25. Curran Associates, Inc. Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
  21. ^ Антол, Станислав; Агравал, Айшвария; Лу, Джиасен; Митчелл, Маргарет; Батра, Дхрув; Зитник, К. Лоуренс; Парих, Деви (2015). «VQA: Визуальный ответ на вопрос». ICCV : 2425–2433. Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
  22. ^ Ли, Джуннан; Ли, Донгсю; Саварезе, Сильвио; Хой, Стивен (01.01.2023). «BLIP-2: Начальная загрузка предварительного обучения языка и изображения с помощью кодировщиков замороженных изображений и больших языковых моделей». arXiv : 2301.12597 [cs.CV].
  23. ^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (2022-12-06). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems . 35 : 23716–23736. arXiv : 2204.14198 . Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
  24. ^ Дрисс, Дэнни; Ся, Фэй; Саджади, Мехди С.М.; Линч, Кори; Чоудери, Ааканша; Ихтер, Брайан; Вахид, Айзаан; Томпсон, Джонатан; Выонг, Куан; Ю, Тяньхэ; Хуан, Вэньлун; Чеботарь, Евгений; Сермане, Пьер; Дакворт, Дэниел; Левин, Сергей (01 марта 2023 г.). «PaLM-E: воплощенная мультимодальная языковая модель». arXiv : 2303.03378 [cs.LG].
  25. ^ Лю, Хаотянь; Ли, Чуньюань; У, Цинъян; Ли, Ён Джэ (01 апреля 2023 г.). «Настройка визуальных инструкций». arXiv : 2304.08485 [cs.CV].
  26. ^ Чжан, Ханг; Ли, Синь; Бин, Лидун (01.06.2023). «Видео-LLaMA: аудиовизуальная языковая модель с настройкой на инструкции для понимания видео». arXiv : 2306.02858 [cs.CL].
  27. ^ OpenAI (2023-03-27). "Технический отчет GPT-4". arXiv : 2303.08774 [cs.CL].
  28. ^ OpenAI (25 сентября 2023 г.). «Системная карта GPT-4V(ision)» (PDF) .
  29. Пичаи, Сундар (10 мая 2023 г.), Google Keynote (Google I/O '23), временная метка 15:31 , получено 2023-07-02
  30. ^ Wiggers, Kyle (11 сентября 2024 г.). «Mistral выпускает Pixtral 12B, свою первую мультимодальную модель». TechCrunch . Получено 14 сентября 2024 г.
  31. ^ Дей, Виктор (2021-09-03). "Руководство для начинающих по машине Больцмана". Журнал Analytics India . Получено 2024-03-02 .
  32. ^ "Мультимодальное обучение с глубокой машиной Больцмана" (PDF) . 2014. Архивировано (PDF) из оригинала 2015-06-21 . Получено 2015-06-14 .
  33. ^ Хендриксен, Мария; Вакуленко Светлана; Койпер, Эрнст; де Рийке, Мартен (2023). «Кросс-модальный поиск изображения и текста, ориентированный на сцену и объектно-ориентированный: исследование воспроизводимости». arXiv : 2301.05174 [cs.CV].
  34. ^ Куах, Катянна. «Ученые Гарварда создают мультимодальную систему искусственного интеллекта для прогнозирования рака». The Register . Архивировано из оригинала 20 сентября 2022 г. Получено 16 сентября 2022 г.
  35. ^ Чен, Ричард Дж.; Лу, Мин Й.; Уильямсон, Дрю ФК; Чен, Тиффани Й.; Липкова, Яна; Нур, Захра; Шабан, Мухаммад; Шади, Маха; Уильямс, Мане; Джу, Бумджин; Махмуд, Фейсал (8 августа 2022 г.). «Интегративный гистолого-геномный анализ рака с помощью мультимодального глубокого обучения». Cancer Cell . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN  1535-6108. PMC 10397370. PMID 35944502.  S2CID 251456162  . 
    • Пресс-релиз учебной больницы: «Новая технология искусственного интеллекта объединяет несколько типов данных для прогнозирования результатов лечения рака». Больница Brigham and Women's Hospital через medicalxpress.com . Архивировано из оригинала 20 сентября 2022 г. Получено 18 сентября 2022 г.
  36. ^ Ши, Юге; Сиддхарт, Н.; Пейдж, Брукс; Торр, Филип Х.С. (2019). «Вариационные автокодировщики на основе смеси экспертов для многомодальных глубоких генеративных моделей». arXiv : 1911.03393 [cs.LG].
  37. ^ Ши, Юге; Сиддхарт, Н.; Пейдж, Брукс; Торр, Филип Х.С. (2019). «Вариационные автокодировщики на основе смеси экспертов для многомодальных глубоких генеративных моделей». arXiv : 1911.03393 [cs.LG].