Ю-Нет

U-Net — это сверточная нейронная сеть , разработанная для сегментации биомедицинских изображений на факультете компьютерных наук Фрайбургского университета . ^[1] Сеть основана на полностью сверточной нейронной сети ^[2] , архитектура которой была изменена и расширена для работы с меньшим количеством обучающих изображений и для более точной сегментации . Сегментация изображения размером 512×512 на современном графическом процессоре занимает менее секунды .

Архитектура U-Net также использовалась в моделях диффузии для итеративного шумоподавления изображений. ^[3] Эта технология лежит в основе многих современных моделей генерации изображений, таких как DALL-E , Midjourney и Stable Diffusion .

Описание

Архитектура U-Net основана на так называемой «полностью сверточной сети», предложенной Лонгом, Шелхамером и Дарреллом в 2014 году. ^[2]

Основная идея состоит в том, чтобы дополнить обычную контрактную сеть последовательными слоями, где операции объединения заменяются операторами повышения дискретизации . Следовательно, эти слои увеличивают разрешение вывода. Затем последующий сверточный слой может научиться собирать точный результат на основе этой информации. ^[1]

Одним из важных изменений в U-Net является то, что в части повышающей дискретизации имеется большое количество функциональных каналов, которые позволяют сети распространять контекстную информацию на уровни с более высоким разрешением. Как следствие, расширяющийся путь более или менее симметричен сжимающейся части и имеет U-образную архитектуру. Сеть использует только действительную часть каждой свертки без каких-либо полностью связанных слоев. ^[2] Чтобы предсказать пиксели в граничной области изображения, недостающий контекст экстраполируется путем зеркального отображения входного изображения. Эта стратегия мозаики важна для применения сети к большим изображениям, поскольку в противном случае разрешение будет ограничено памятью графического процессора .

История

U-Net была создана Олафом Роннебергером, Филиппом Фишером и Томасом Броксом в 2015 году, о чем сообщается в статье «U-Net: сверточные сети для сегментации биомедицинских изображений». ^[1] Это улучшение и развитие FCN: Эван Шелхамер, Джонатан Лонг, Тревор Даррелл (2014). «Полностью сверточные сети для семантической сегментации». ^[2]

Сетевая архитектура

Сеть состоит из сужающегося и расширяющегося путей, что придает ей U-образную архитектуру. Путь сокращения представляет собой типичную сверточную сеть, состоящую из многократного применения сверток , за каждой из которых следует выпрямленная линейная единица (ReLU) и операция максимального объединения . Во время сжатия пространственная информация уменьшается, а информация о характеристиках увеличивается. Расширенный путь объединяет особенности и пространственную информацию посредством последовательности восходящих сверток и конкатенаций с функциями высокого разрешения из сужающегося пути. ^[4]

Приложения

Существует множество приложений U-Net для сегментации биомедицинских изображений , таких как сегментация изображений мозга («BRATS» ^[5] ) и сегментация изображений печени («siliver07» ^[6] ), а также предсказание сайтов связывания белков. ^[7] Реализации U-Net также нашли применение в физических науках, например, при анализе микрофотографий материалов. ^[8]^[9]^[10] Варианты U-Net также применялись для реконструкции медицинских изображений. ^[11] Вот некоторые варианты и применения U-Net:

Пиксельная регрессия с использованием U-Net и его приложения для панорамирования; ^[12]
3D U-Net: обучение плотной объемной сегментации по разреженным аннотациям; ^[13]
TernausNet: U-Net с кодировщиком VGG11, предварительно обученным на ImageNet для сегментации изображений. ^[14]
Перевод изображения в изображение для оценки флуоресцентных пятен ^[15]
В предсказании сайта связывания структуры белка. ^[7]

Реализации