stringtranslate.com

Трансформатор зрения

Архитектура Vision Transformer. Входное изображение делится на патчи, каждый из которых линейно отображается через слой внедрения патчей, перед поступлением в стандартный кодировщик Transformer.

Трансформатор зрения ( ViT ) — это преобразователь, разработанный для компьютерного зрения . [1] ViT разлагает входное изображение на ряд фрагментов (а не текст на токены ), сериализует каждый фрагмент в вектор и отображает его в меньшее измерение с помощью одного умножения матриц . Затем эти векторные вложения обрабатываются преобразователем -кодером так, как если бы они были вложениями токенов.

ViT были разработаны как альтернативы сверточным нейронным сетям (CNN) в приложениях компьютерного зрения. Они имеют другие индуктивные смещения, стабильность обучения и эффективность данных. [2] По сравнению с CNN, ViT менее эффективны в отношении данных, но имеют большую емкость. Некоторые из крупнейших современных моделей компьютерного зрения являются ViT, например, одна с 22B параметрами. [3] [4]

После его публикации было предложено много вариантов с гибридными архитектурами с функциями как ViT, так и CNN. ViT нашли применение в распознавании изображений , сегментации изображений и автономном вождении . [5] [6]

История

Трансформеры были представлены в Attention Is All You Need (2017), [7] и нашли широкое применение в обработке естественного языка . В статье 2019 года [8] идеи Трансформера были применены к компьютерному зрению. В частности, они начали с ResNet , стандартной сверточной нейронной сети, используемой для компьютерного зрения, и заменили все сверточные ядра механизмом самовнимания, найденным в Трансформере. Это привело к превосходной производительности. Однако это не Vision Transformer.

В 2020 году Transformer, работающий только на основе кодировщика, был адаптирован для компьютерного зрения, что привело к появлению ViT, который достиг уровня искусства в классификации изображений, превзойдя предыдущее доминирование CNN. [1] Маскированный автоэнкодер (2022) расширил ViT для работы с неконтролируемым обучением. Трансформатор зрения и маскированный автоэнкодер, в свою очередь, стимулировали новые разработки в сверточных нейронных сетях. [9] [10]

Впоследствии произошло перекрестное опыление между предыдущим подходом CNN и подходом ViT.

В 2021 году были предложены некоторые важные варианты Vision Transformers. Эти варианты в основном предназначены для того, чтобы быть более эффективными, более точными или лучше подходить для определенной области. Два исследования [11] [12] повысили эффективность и надежность ViT, добавив CNN в качестве препроцессора. Swin Transformer [13] достиг самых современных результатов в некоторых наборах данных обнаружения объектов, таких как COCO , используя механизм скользящих окон внимания, подобных свертке, и процесс пирамиды в классическом компьютерном зрении.

Обзор

Архитектура Vision Transformer, демонстрирующая внутренние блоки Transformer, в которых используются только энкодеры.

Базовая архитектура, используемая в оригинальной статье 2020 года [1] , выглядит следующим образом. Вкратце, это BERT-подобный энкодер-только Transformer.

Входное изображение имеет тип , где высота, ширина, канал ( RGB ). Затем оно разбивается на квадратные участки типа .

Для каждого патча патч проталкивается через линейный оператор, чтобы получить вектор («внедрение патча»). Положение патча также преобразуется в вектор с помощью «позиционного кодирования». Два вектора складываются, затем проталкиваются через несколько кодировщиков Transformer.

Механизм внимания в ViT многократно преобразует векторы представления фрагментов изображения, включая все больше и больше семантических связей между фрагментами изображения в изображении. Это аналогично тому, как в обработке естественного языка, по мере того как векторы представления проходят через трансформатор, они включают все больше и больше семантических связей между словами, от синтаксиса до семантики.

Вышеуказанная архитектура превращает изображение в последовательность векторных представлений. Чтобы использовать их для нисходящих приложений, необходимо обучить дополнительную голову их интерпретации.

Например, чтобы использовать его для классификации, можно добавить поверх него неглубокий MLP, который выводит распределение вероятностей по классам. В оригинальной статье используется линейная- GeLU -линейная-softmax сеть. [1]

Варианты

Оригинальный ViT

Оригинальный ViT был только кодером Transformer, обученным под руководством для предсказания метки изображения из фрагментов изображения. Как и в случае BERT , он использует специальный токен <CLS>на входной стороне, а соответствующий выходной вектор используется в качестве единственного входа конечной выходной головки MLP. Специальный токен является архитектурным хаком, позволяющим модели сжимать всю информацию, относящуюся к предсказанию метки изображения, в один вектор.

Анимация ViT. 0-й токен — специальный <CLS>. Остальные 9 патчей проецируются линейным слоем перед подачей в кодер Transformer в качестве входных токенов с 1 по 9.

Трансформеры нашли свое первоначальное применение в задачах обработки естественного языка , как продемонстрировано такими языковыми моделями , как BERT и GPT-3 . Напротив, типичная система обработки изображений использует сверточную нейронную сеть (CNN). Известные проекты включают Xception, ResNet , EfficientNet , [14] DenseNet , [15] и Inception . [16]

Трансформаторы измеряют отношения между парами входных токенов (слов в случае текстовых строк), называемых вниманием . Стоимость квадратична по количеству токенов. Для изображений основной единицей анализа является пиксель . Однако вычисление отношений для каждой пары пикселей в типичном изображении является непомерно затратным с точки зрения памяти и вычислений. Вместо этого ViT вычисляет отношения между пикселями в различных небольших разделах изображения (например, 16x16 пикселей) с радикально сниженной стоимостью. Разделы (с позиционными вложениями) размещаются в последовательности. Вложения являются изучаемыми векторами. Каждый раздел организован в линейную последовательность и умножается на матрицу вложения. Результат с позиционным вложением подается в трансформатор. [16]

Архитектурные улучшения

Объединение

После того, как ViT обрабатывает изображение, он создает некоторые векторы встраивания. Они должны быть преобразованы в одноклассовое вероятностное предсказание с помощью какой-то сети. В оригинальном ViT и Masked Autoencoder они использовали фиктивный [CLS]токен в эмуляции языковой модели BERT . Выходными данными в [CLS]является токен классификации, который затем обрабатывается модулем LayerNorm -feedforward-softmax в распределение вероятностей.

Глобальное среднее объединение (GAP) не использует фиктивный токен, а просто берет среднее значение всех выходных токенов в качестве токена классификации. Это упоминалось в оригинальном ViT как одинаково хорошее. [1]

Многоголовое объединение внимания (MAP) применяет многоголовый блок внимания к объединению. В частности, он принимает в качестве входных данных список векторов , которые можно рассматривать как выходные векторы слоя ViT. Затем он применяет слой прямой связи к каждому вектору, что приводит к матрице . Затем это отправляется в многоголовое внимание, что приводит к , где — матрица обучаемых параметров. [17] Впервые это было предложено в архитектуре Set Transformer . [18]

Более поздние работы продемонстрировали, что GAP и MAP работают лучше, чем объединение по типу BERT. [17] [19] Вариант MAP был предложен как внимание к классу , который применяет MAP, затем прямую связь, затем снова MAP. [20]

Повторное внимание было предложено для обучения глубокому ViT. Оно изменяет многоголовый модуль внимания. [21]

Маскированный автоэнкодер

Архитектура маскированного автоэнкодера.

Masked Autoencoder [22] черпал вдохновение из шумоподавляющих автокодеров и контекстных кодеров. [23] Он имеет два ViT, соединенных встык. Первый («кодер») принимает фрагменты изображения с позиционным кодированием и выводит векторы, представляющие каждый фрагмент. Второй (называемый «декодером», хотя он по-прежнему является только кодирующим Transformer) принимает векторы с позиционным кодированием и снова выводит фрагменты изображения. Во время обучения используются ViT как кодера, так и декодера. Во время вывода используется только ViT кодера.

Во время обучения каждое изображение разрезается на фрагменты и к ним добавляются их позиционные вложения. Из них выбираются только 25% фрагментов. Кодер ViT обрабатывает выбранные фрагменты. Токены маски не используются. Затем токены маски добавляются обратно, а позиционные вложения добавляются снова. Они обрабатываются декодером ViT, который выводит реконструкцию полного изображения. Потеря представляет собой общую среднеквадратичную потерю в пиксельном пространстве для всех замаскированных фрагментов (потери реконструкции не вычисляются для незамаскированных фрагментов).

Подобная архитектура была BERT ViT (BEiT), опубликованная одновременно. [24]

ДИНО

Как и Masked Autoencoder, метод DINO (самостоятельная дистилляция без меток ) является способом обучения ViT с помощью самоконтроля . [25] DINO является формой самодистилляции учителя и ученика . В DINO ученик сам является моделью, а учитель — экспоненциальное среднее прошлых состояний ученика. Метод похож на предыдущие работы, такие как контраст импульса [26] и самонастройка латентности (BYOL). [27]

Функция потерь, используемая в DINO, — это кросс-энтропийная потеря между выходом сети учителя ( ) и выходом сети ученика ( ). Сеть учителя — это экспоненциально затухающее среднее прошлых параметров сети ученика: . Входы сетей — это два разных кадра одного и того же изображения, представленные как и , где — исходное изображение. Функция потерь записывается как Одна из проблем заключается в том, что сеть может «схлопнуться», всегда выдавая одно и то же значение ( ), независимо от входных данных. Чтобы предотвратить этот коллапс, DINO использует две стратегии:

В январе 2024 года Meta AI Research выпустила обновленную версию под названием DINOv2 [28] с улучшениями в архитектуре, функции потерь и методе оптимизации. Она была обучена на большем и более разнообразном наборе данных. Функции, изученные DINOv2, были более переносимыми , что означало, что она имела лучшую производительность в задачах ниже по потоку.

Свинг Трансформер

Swin TransformerСмещенные окна » ) [13] черпал вдохновение из стандартных CNN:

Он улучшен с помощью Swin Transformer V2 [29] , который модифицирует ViT с помощью другого механизма внимания [13] : Рисунок 1  :

TimeSformer

TimeSformer [30] был разработан для задач понимания видео, и он применял факторизованное внутреннее внимание, похожее на факторизованные ядра свертки, найденные в архитектуре Inception CNN. [31] Схематически, он делит видео на кадры, а каждый кадр на квадратную сетку патчей (такую ​​же, как ViT). Пусть каждая координата патча будет обозначена как , обозначая горизонталь, вертикаль и время.

TimeSformer также рассматривал другие конструкции слоев внимания, такие как «высотный слой внимания», где требованием является . Однако они эмпирически обнаружили, что лучшая конструкция чередует один пространственный слой внимания и один временной слой внимания.

ВиТ-ВКГАН

В ViT-VQGAN [ 32] есть два кодировщика ViT и дискриминатор. Один кодирует 8x8 фрагментов изображения в список векторов, по одному для каждого фрагмента. Векторы могут поступать только из дискретного набора «кодовой книги», как при векторном квантовании . Другой кодирует квантованные векторы обратно в фрагменты изображения. Цель обучения пытается сделать изображение реконструкции (выходное изображение) верным входному изображению. Дискриминатор (обычно сверточная сеть, но разрешены и другие сети) пытается решить, является ли изображение исходным реальным изображением или изображением, реконструированным ViT.

Идея по сути та же самая, что и у векторного квантованного вариационного автокодировщика (VQVAE) и генеративно-состязательной сети (GAN).

После обучения такого ViT-VQGAN его можно использовать для кодирования произвольного изображения в список символов и кодирования произвольного списка символов в изображение. Список символов можно использовать для обучения в стандартный авторегрессионный преобразователь (вроде GPT) для авторегрессионной генерации изображения. Далее, можно взять список пар подпись-изображение, преобразовать изображения в строки символов и обучить стандартный преобразователь в стиле GPT. Затем во время тестирования можно просто дать подпись к изображению и заставить его авторегрессионно сгенерировать изображение. Это структура Google Parti. [33]

Другие

Другие примеры включают визуальный преобразователь, [34] CoAtNet, [35] CvT, [36] эффективный по данным ViT (DeiT) [37] и т. д.

В архитектуре Transformer in Transformer каждый слой применяет слой Vision Transformer к каждому внедрению фрагмента изображения, добавляет полученные токены обратно к внедрению, затем применяет еще один слой Vision Transformer. [38]

Сравнение с CNN

Обычно ViT использует размеры патчей больше, чем стандартные ядра CNN (от 3x3 до 7x7). ViT более чувствителен к выбору оптимизатора, гиперпараметров и глубины сети. Предварительная обработка с помощью слоя перекрывающихся сверточных фильтров меньшего размера (шаг < размер) помогает повысить производительность и стабильность. [12]

Такое различное поведение, по-видимому, обусловлено различными индуктивными предубеждениями, которыми они обладают.

CNN применяет тот же набор фильтров для обработки всего изображения. Это позволяет им быть более эффективными в отношении данных и менее чувствительными к локальным возмущениям. [2] ViT применяет внутреннее внимание, что позволяет им легко улавливать долгосрочные связи между патчами. Им также требуется больше данных для обучения, но они могут поглощать больше обучающих данных по сравнению с CNN, которая может не улучшиться после обучения на достаточно большом обучающем наборе данных. ViT также кажется более устойчивым к входным искажениям изображения, таким как состязательные патчи или перестановки. [39]

Приложения

ViT использовались во многих задачах компьютерного зрения с превосходными результатами, а в некоторых случаях даже на современном уровне. Классификация изображений , Обнаружение объектов , Обнаружение видео Deepfake , [40] Сегментация изображений , [41] Обнаружение аномалий , Синтез изображений , Кластерный анализ , Автономное вождение . [5] [6]

ViT использовался для генерации изображений в качестве основы для GAN [42] и для диффузионных моделей (диффузионный трансформатор или DiT). [43]

Было продемонстрировано, что DINO [25] изучает полезные представления для кластеризации изображений и изучения морфологических профилей в биологических наборах данных, таких как изображения, полученные с помощью анализа клеточной живописи . [44]

Смотрите также

Ссылки

  1. ^ abcde Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Миндерер, Матиас; Хейгольд, Георг; Гелли, Сильвен; Ушкорейт, Якоб (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [cs.CV].
  2. ^ ab Raghu, Maithra; Unterthiner, Thomas; Kornblith, Simon; Zhang, Chiyuan; Dosovitskiy, Alexey (2021-08-19). «Видеть ли трансформеры зрения как сверточные нейронные сети?». arXiv : 2108.08810 [cs.CV].
  3. ^ Дегани, Мостафа; Джолонга, Йосип; Мустафа, Бэзил; Падлевский, Петр; Хик, Джонатан; Гилмер, Джастин; Штайнер, Андреас; Кэрон, Матильда; Гейрос, Роберт (10 февраля 2023 г.), Масштабирование преобразователей машинного зрения до 22 миллиардов параметров , arXiv : 2302.05442
  4. ^ "Масштабирование преобразователей зрения до 22 миллиардов параметров". research.google . Получено 2024-08-07 .
  5. ^ Аб Хан, Кай; Ван, Юнхэ; Чен, Ханьтинг; Чен, Синхао; Го, Цзяньюань; Лю, Чжэньхуа; Тан, Ехуэй; Сяо, Ань; Сюй, Чуньцзин; Сюй, Исин; Ян, Чжаохуэй; Чжан, Иман; Тао, Дачэн (01 января 2023 г.). «Опрос о преобразователе зрения». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 45 (1): 87–110. arXiv : 2012.12556 . дои : 10.1109/TPAMI.2022.3152247. ISSN  0162-8828. ПМИД  35180075.
  6. ^ Аб Хан, Салман; Насир, Музаммал; Хаят, Мунавар; Замир, Сайед Вакас; Хан, Фахад Шахбаз; Шах, Мубарак (13 сентября 2022 г.). «Трансформеры в видении: обзор». АКМ Компьютер. Сурв . 54 (10 с): 200:1–200:41. arXiv : 2101.01169 . дои : 10.1145/3505244. ISSN  0360-0300.
  7. ^ Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
  8. ^ Рамачандран, Праджит; Пармар, Ники; Васвани, Ашиш; Белло, Ирван; Левская, Ансельм; Шленс, Джон (2019). «Автономное внимание к себе в моделях зрения». Достижения в области нейронных систем обработки информации . 32. Curran Associates, Inc. arXiv : 1906.05909 .
  9. ^ Лю, Чжуан; Мао, Ханьцзы; У, Чао-Юань; Файхтенхофер, Кристоф; Даррелл, Тревор; Се, Сайнинг (2022). «Сети ConvNet для 2020-х годов»: 11976–11986. arXiv : 2201.03545 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  10. ^ Ву, Сангхён; Дебнат, Шобхик; Ху, Ронгхан; Чэнь, Синлей; Лю, Чжуан; Квон, Ин Со; Се, Сайнин (2023). «ConvNeXt V2: Совместное проектирование и масштабирование сверточных сетей с помощью маскированных автоэнкодеров»: 16133–16142. arXiv : 2301.00808 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  11. ^ Ву, Бичен; Сюй, Чэньфэн; Дай, Сяолян; Ван, Элвин; Чжан, Пэйчжао; Ян, Чжичэн; Масаеши, Томизука; Гонсалес, Джозеф; Кейцер, Курт; Вайда, Питер (2020). «Визуальные преобразователи: представление и обработка изображений на основе токенов для компьютерного зрения». arXiv : 2006.03677 [cs.CV].
  12. ^ ab Сяо, Тете; Сингх, Маннат; Минтун, Эрик; Даррелл, Тревор; Доллар, Петр; Гиршик, Росс (2021-06-28). «Ранние извилины помогают трансформерам лучше видеть». arXiv : 2106.14881 [cs.CV].
  13. ^ abc Лю, Зе; Линь, Ютонг; Цао, Юэ; Ху, Хан; Вэй, Исюань; Чжан, Чжэн; Лин, Стивен; Го, Байнин (25 марта 2021 г.). «Swin Transformer: преобразователь иерархического зрения с использованием сдвинутых окон». arXiv : 2103.14030 [cs.CV].
  14. ^ Тан, Минсин; Ле, Куок (23 июня 2021 г.). «EfficientNetV2: Smaller Models and Faster Training» (PDF) . Труды 38-й Международной конференции по машинному обучению (PMLR) . 139 : 10096–10106. arXiv : 2104.00298 . Получено 31 октября 2023 г.
  15. ^ Хуан, Гао; Лю, Чжуан; ван дер Маатен, Лоренс; Q. Weinberger, Kilian (28 января 2018 г.). «Плотно связанные сверточные сети». arXiv : 1608.06993 [cs.CV].
  16. ^ ab Sarkar, Arjun (2021-05-20). «Трансформеры лучше, чем CNN в распознавании изображений?». Medium . Получено 2021-07-11 .
  17. ^ ab Zhai, Xiaohua; Kolesnikov, Alexander; Houlsby, Neil; Beyer, Lucas (июнь 2022 г.). «Масштабирование трансформеров зрения». Конференция IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) 2022 г. IEEE. стр. 1204–1213. arXiv : 2106.04560 . doi :10.1109/cvpr52688.2022.01179. ISBN 978-1-6654-6946-3.
  18. ^ Ли, Джухо; Ли, Юнхо; Ким, Чонгтек; Косиорек, Адам; Чой, Сынджин; Тех, Йи Уай (24.05.2019). «Трансформатор множеств: структура для нейронных сетей, инвариантных к перестановкам, основанных на внимании». Труды 36-й Международной конференции по машинному обучению . PMLR: 3744–3753. arXiv : 1810.00825 .
  19. ^ Карамчети, Сиддхарт; Наир, Сурадж; Чен, Энни С.; Коллар, Томас; Финн, Челси; Садиг, Дорса; Лян, Перси (2023-02-24), Обучение представлению на основе языка для робототехники , arXiv : 2302.12766
  20. ^ Туврон, Хьюго; Корд, Матье; Саблероль, Александр; Синнев, Габриэль; Жегу, Эрве (2021). «Углубляемся с преобразователями изображений»: 32–42. arXiv : 2103.17239 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  21. ^ Чжоу, Дацюань; Кан, Бинъи; Цзинь, Сяоцзе; Ян, Линьцзе; Лиан, Сяочэнь; Цзян, Цзихан; Хоу, Цибинь; Фэн, Цзяши (19 апреля 2021 г.), DeepViT: Towards Deeper Vision Transformer , arXiv : 2103.11886
  22. ^ Хе, Каймин; Чэнь, Синлей; Се, Сайнин; Ли, Янхао; Доллар, Петр; Гиршик, Росс (2021). «Маскированные автокодировщики — масштабируемые обучающиеся системы машинного зрения». arXiv : 2111.06377 [cs.CV].
  23. ^ Патак, Дипак; Краэнбюль, Филипп; Донахью, Джефф; Даррелл, Тревор; Эфрос, Алексей А. (июнь 2016 г.). «Кодировщики контекста: обучение функциям с помощью Inpainting». ИИЭР: 2536–2544. arXiv : 1604.07379 . дои :10.1109/CVPR.2016.278. ISBN 978-1-4673-8851-1. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  24. ^ Бао, Хангбо; Дун, Ли; Пяо, Сонгхао; Вэй, Фуру (2021-10-06). "BEiT: BERT Pre-Training of Image Transformers". Международная конференция по обучению представлениям . arXiv : 2106.08254 .
  25. ^ аб Карон, Матильда; Туврон, Гюго; Мишра, Ишан; Жегу, Эрве; Майрал, Жюльен; Бояновский, Петр; Жулен, Арман (октябрь 2021 г.). «Новые свойства самоуправляемых преобразователей зрения». Международная конференция IEEE/CVF по компьютерному зрению (ICCV) 2021 г. IEEE. стр. 9630–9640. arXiv : 2104.14294 . doi : 10.1109/iccv48922.2021.00951. ISBN 978-1-6654-2812-5.
  26. ^ Хэ, Каймин; Фань, Хаоци; У, Юйсинь; Се, Сайнин; Гиршик, Росс (2020). «Контраст импульса для обучения визуальному представлению без учителя»: 9729–9738. arXiv : 1911.05722 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  27. ^ Grill, Jean-Bastien; Strub, Florian; Altché, Florent; Tallec, Corentin; Richemond, Pierre; Buchatskaya, Elena; Doersch, Carl; Avila Pires, Bernardo; Guo, Zhaohan; Gheshlaghi Azar, Mohammad; Piot, Bilal; kavukcuoglu, koray; Munos, Remi; Valko, Michal (2020). «Bootstrap Your Own Latent — новый подход к самоконтролируемому обучению». Достижения в области нейронных систем обработки информации . 33. Curran Associates, Inc.: 21271–21284.
  28. ^ Окуаб, Максим; Дарсет, Тимоти; Мутаканни, Тео; Во, Хай; Шафранец, Марк; Халидов, Василь; Фернандес, Пьер; Хазиза, Дэниел; Масса, Франциско (14 апреля 2023 г.). «DINOv2: изучение надежных визуальных функций без присмотра». arXiv : 2304.07193 [cs.CV].
  29. ^ Лю, Цзе; Ху, Хан; Линь, Ютонг; Яо, Чжулян; Се, Женда; Вэй, Исюань; Нин, Цзя; Цао, Юэ; Чжан, Чжэн; Донг, Ли; Вэй, Фуру; Го, Байнин (2022). «Swin Transformer V2: увеличение мощности и разрешения». Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. стр. 12009–12019.
  30. ^ Бертасиус, Гедас; Ван, Хэн; Торресани, Лоренцо (2021-02-09). «Все ли вам нужно для понимания видео — это внимание к пространству и времени?». arXiv : 2102.05095 [cs.CV].
  31. ^ Сегеди, Кристиан; Ванхоук, Винсент; Иоффе, Сергей; Шленс, Джон; Война, Збигнев (2016). «Переосмысление начальной архитектуры компьютерного зрения»: 2818–2826. arXiv : 1512.00567 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  32. ^ Ю, Цзяхуэй; Ли, Синь; Ко, Цзин Юй; Чжан, Хан; Панг, Руомин; Цинь, Джеймс; Ку, Александр; Сюй, Юаньчжун; Болдридж, Джейсон; Ву, Юнхуэй (2021). «Моделирование векторно-квантованных изображений с помощью улучшенного VQGAN». arXiv : 2110.04627 [cs.CV].
  33. ^ "Parti: Pathways Авторегрессионная модель преобразования текста в изображение". sites.research.google . Получено 2023-11-03 .
  34. ^ Ву, Бичен; Сюй, Чэньфэн; Дай, Сяолян; Ван, Элвин; Чжан, Пэйчжао; Ян, Чжичэн; Томизука, Масаеши; Гонсалес, Джозеф; Койцер, Курт (19 ноября 2020 г.), Визуальные преобразователи: представление и обработка изображений на основе токенов для компьютерного зрения , arXiv : 2006.03677
  35. ^ Дай, Цзыхан; Лю, Ханьсяо; Ле, Куок В.; Тан, Минсин (09.06.2021). «CoAtNet: объединение свертки и внимания для данных любого размера». arXiv : 2106.04803 [cs.CV].
  36. ^ Ву, Хайпин; Сяо, Бин; Коделла, Ноэль; Лю, Мэнчен; Дай, Сиянг; Юань, Лу; Чжан, Лэй (29 марта 2021 г.). «CvT: введение сверток в преобразователи зрения». arXiv : 2103.15808 [cs.CV].
  37. ^ Туврон, Хьюго; Корд, Матье; Жегу, Эрве (2022). «ДеиТ III: Месть ВиТ». В Авидане, Шай; Бростоу, Габриэль; Сиссе, Мустафа; Фаринелла, Джованни Мария; Хасснер, Таль (ред.). Компьютерное зрение – ECCV 2022 . Конспекты лекций по информатике. Том. 13684. Чам: Springer Nature Switzerland. стр. 516–533. дои : 10.1007/978-3-031-20053-3_30. ISBN 978-3-031-20053-3.
  38. ^ Хан, Кай; Сяо, Ань; Ву, Эньхуа; Го, Цзяньюань; Сюй, Чуньцзин; Ван, Юнхэ (2021). «Трансформер в Трансформере». Достижения в области нейронных систем обработки информации . 34 . Curran Associates, Inc.: 15908–15919.
  39. ^ Насир, Музаммал; Ранасингхе, Канчана; Хан, Салман; Хаят, Мунавар; Хан, Фахад Шахбаз; Ян, Мин-Сюань (21 мая 2021 г.). «Интригующие свойства преобразователей зрения». arXiv : 2105.10497 [cs.CV].
  40. ^ Коккомини, Давиде; Мессина, Никола; Дженнаро, Клаудио; Фальчи, Фабрицио (2022). «Объединение эффективных сетевых и визуальных трансформаторов для обнаружения дипфейков на видео». Анализ и обработка изображений – ICIAP 2022. Конспект лекций по информатике. Том 13233. С. 219–229. arXiv : 2107.02612 . doi : 10.1007/978-3-031-06433-3_19. ISBN 978-3-031-06432-6. S2CID  235742764.
  41. ^ Кириллов, Александр; Минтун, Эрик; Рави, Никила; Мао, Ханзи; Роллан, Хлоя; Густафсон, Лаура; Сяо, Тете; Уайтхед, Спенсер; Берг, Александр К.; Ло, Ван-Йен; Доллар, Петр; Гиршик, Росс (2023). «Сегментируйте что угодно»: 4015–4026. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  42. ^ Цзян, Ифань; Чан, Шиюй; Ван, Чжанъян (2021). «TransGAN: два чистых трансформатора могут создать один сильный GAN, и это может масштабироваться». Достижения в области нейронных систем обработки информации . 34. Curran Associates, Inc.: 14745–14758. arXiv : 2102.07074 .
  43. ^ Пиблз, Уильям; Кси, Сэйнинг (март 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748v2 [cs.CV].
  44. ^ Дорон, Майкл; Мутаканни, Тео; Чен, Цзитонг С.; Мошков, Никита; Карон, Матильда; Туврон, Хьюго; Бояновски, Петр; Пернис, Вольфганг М.; Кайседо, Хуан К. (18.06.2023). «Непредвзятая одноклеточная морфология с самоконтролируемыми преобразователями зрения». BioRxiv: Сервер препринтов по биологии : 2023.06.16.545359. doi : 10.1101/2023.06.16.545359 . PMC 10312751. PMID  37398158. Получено 12.02.2024 . 

Дальнейшее чтение