Архитектура U-Net также использовалась в моделях диффузии для итеративного шумоподавления изображений. [3] Эта технология лежит в основе многих современных моделей генерации изображений, таких как DALL-E , Midjourney и Stable Diffusion .
Описание
Архитектура U-Net основана на так называемой «полностью сверточной сети», предложенной Лонгом, Шелхамером и Дарреллом в 2014 году. [2]
Основная идея состоит в том, чтобы дополнить обычную контрактную сеть последовательными слоями, где операции объединения заменяются операторами повышения дискретизации . Следовательно, эти слои увеличивают разрешение вывода. Затем последующий сверточный слой может научиться собирать точный результат на основе этой информации. [1]
Одним из важных изменений в U-Net является то, что в части повышающей дискретизации имеется большое количество функциональных каналов, которые позволяют сети распространять контекстную информацию на уровни с более высоким разрешением. Как следствие, расширяющийся путь более или менее симметричен сжимающейся части и имеет U-образную архитектуру. Сеть использует только действительную часть каждой свертки без каких-либо полностью связанных слоев. [2] Чтобы предсказать пиксели в граничной области изображения, недостающий контекст экстраполируется путем зеркального отображения входного изображения. Эта стратегия мозаики важна для применения сети к большим изображениям, поскольку в противном случае разрешение будет ограничено памятью графического процессора .
История
U-Net была создана Олафом Роннебергером, Филиппом Фишером и Томасом Броксом в 2015 году, о чем сообщается в статье «U-Net: сверточные сети для сегментации биомедицинских изображений». [1] Это улучшение и развитие FCN: Эван Шелхамер, Джонатан Лонг, Тревор Даррелл (2014). «Полностью сверточные сети для семантической сегментации». [2]
Сетевая архитектура
Сеть состоит из сужающегося и расширяющегося путей, что придает ей U-образную архитектуру. Путь сокращения представляет собой типичную сверточную сеть, состоящую из многократного применения сверток , за каждой из которых следует выпрямленная линейная единица (ReLU) и операция максимального объединения . Во время сжатия пространственная информация уменьшается, а информация о характеристиках увеличивается. Расширенный путь объединяет особенности и пространственную информацию посредством последовательности восходящих сверток и конкатенаций с функциями высокого разрешения из сужающегося пути. [4]
Это пример архитектуры U-Net для создания масок изображения k размером 256x256 для изображения RGB размером 256x256 пикселей.
Приложения
Существует множество приложений U-Net для сегментации биомедицинских изображений , таких как сегментация изображений мозга («BRATS» [5] ) и сегментация изображений печени («siliver07» [6] ), а также предсказание сайтов связывания белков. [7] Реализации U-Net также нашли применение в физических науках, например, при анализе микрофотографий материалов. [8] [9] [10] Варианты U-Net также применялись для реконструкции медицинских изображений. [11] Вот некоторые варианты и применения U-Net:
Пиксельная регрессия с использованием U-Net и его приложения для панорамирования; [12]
3D U-Net: обучение плотной объемной сегментации по разреженным аннотациям; [13]
TernausNet: U-Net с кодировщиком VGG11, предварительно обученным на ImageNet для сегментации изображений. [14]
Перевод изображения в изображение для оценки флуоресцентных пятен [15]
В предсказании сайта связывания структуры белка. [7]
Рекомендации
^ abc Роннебергер О, Фишер П, Брокс Т (2015). «U-Net: сверточные сети для сегментации биомедицинских изображений». arXiv : 1505.04597 [cs.CV].
^ abcd Шелхамер Э., Лонг Дж., Даррелл Т. (ноябрь 2014 г.). «Полностью сверточные сети для семантической сегментации». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 39 (4): 640–651. arXiv : 1411.4038 . дои : 10.1109/TPAMI.2016.2572683. PMID 27244717. S2CID 1629541.
^ Хо, Джонатан (2020). «Вероятностные модели диффузии с шумоподавлением». arXiv : 2006.11239 [cs.LG].
^ "Код U-Net" .
^ «MICCAI BraTS 2017: Объем | Секция анализа биомедицинских изображений (SBIA) | Медицинская школа Перельмана при Пенсильванском университете» . www.med.upenn.edu . Проверено 24 декабря 2018 г.
^ "SLIVER07: Дом" . www.sliver07.org . Проверено 24 декабря 2018 г.
^ Аб Назем Ф, Гасеми Ф, Фассихи А, Денави AM (апрель 2021 г.). «3D U-Net: основанный на вокселях метод предсказания структуры белка на сайте связывания». Журнал биоинформатики и вычислительной биологии . 19 (2): 2150006. doi :10.1142/S0219720021500062. PMID 33866960. S2CID 233300145.
^ Чен, Фу-Сян Рикудо; Линь, Чиа-Ю; Сяо, Хуэй-Ин; Цзянь, Чэн-Юань; Ян, Юн-Чэн; Линь, Чун-Лян (14 февраля 2023 г.). «Среда обнаружения атомных дефектов двумерных материалов на основе глубокого обучения». Научные данные . 10 (1): 91. дои : 10.1038/s41597-023-02004-6. ISSN 2052-4463. ПМЦ 9929095 . ПМИД 36788235.
^ Ши, Пэн; Дуань, Мэнмэн; Ян, Лифан; Фэн, Вэй; Дин, Ляньхун; Цзян, Лиу (22 июня 2022 г.). «Улучшенный метод сегментации изображений U-Net и его применение для статистики размера металлических зерен». Материалы . 15 (13): 4417. дои : 10.3390/ma15134417 . ISSN 1996-1944 гг. ПМЦ 9267311 . ПМИД 35806543.
^ Патрик, Мэтью Дж; Экстайн, Джеймс К.; Лопес, Хавьер Р.; Тодерас, Сильвия; Ашер, Сара А; Ванг, Сильвия I; Левин, Стейси; Рикман, Джеффри М; Бармак, Катаюн (15 ноября 2023 г.). «Автоматическое обнаружение границ зерен для изображений просвечивающей электронной микроскопии в светлом поле через U-Net». Микроскопия и микроанализ . arXiv : 2312.09392 . дои : 10.1093/micmic/ozad115 . ISSN 1431-9276. ПМИД 37966960.
^ Андерссон Дж., Альстрем Х., Куллберг Дж. (сентябрь 2019 г.). «Разделение сигналов воды и жира при сканировании градиентного эха всего тела с использованием сверточных нейронных сетей». Магнитный резонанс в медицине . 82 (3): 1177–1186. дои : 10.1002/mrm.27786. ПМК 6618066 . ПМИД 31033022.
^ Яо В., Цзэн З., Лянь С., Тан Х. (27 октября 2018 г.). «Пиксельная регрессия с использованием U-Net и ее применения для панорамирования». Нейрокомпьютинг . 312 : 364–371. doi : 10.1016/j.neucom.2018.05.103. ISSN 0925-2312. S2CID 207119255.
^ Чичек О, Абдулкадир А, Линкамп СС, Брокс Т, Роннебергер О (2016). «3D U-Net: изучение плотной объемной сегментации по разреженным аннотациям». arXiv : 1606.06650 [cs.CV].
^ Игловиков В, Швец А (2018). «TernausNet: U-Net с кодировщиком VGG11, предварительно обученным на ImageNet для сегментации изображений». arXiv : 1801.05746 [cs.CV].
^ Кандель М.Э., Хе Ю.Р., Ли Ю.Дж., Чен Т.Х., Салливан К.М., Айдин О. и др. (декабрь 2020 г.). «Фазовая визуализация с вычислительной специфичностью (PICS) для измерения изменений сухой массы в субклеточных компартментах». Природные коммуникации . 11 (1): 6256. arXiv : 2002.08361 . doi : 10.1038/s41467-020-20062-x. ПМЦ 7721808 . ПМИД 33288761.
Реализации
Tensorflow Unet от Дж. Акерета (2017)
Исходный код U-Net из отдела распознавания образов и обработки изображений факультета компьютерных наук Фрайбургского университета, Германия.