Глубокое априорное изображение — это тип сверточной нейронной сети , используемой для улучшения данного изображения без каких-либо данных предварительного обучения, кроме самого изображения. Нейронная сеть инициализируется случайным образом и используется в качестве априорной для решения обратных задач, таких как шумоподавление , сверхразрешение и инрисинг . Статистика изображения фиксируется структурой генератора сверточных изображений, а не какими-либо ранее изученными возможностями.
Обратные задачи, такие как шумоподавление , суперразрешение и инрисовка, можно сформулировать как задачу оптимизации , где — изображение, искаженное представление этого изображения, — зависящий от задачи термин данных, а R(x) — регуляризатор . Это формирует задачу минимизации энергии.
Глубокие нейронные сети обучают генератор/декодер , который сопоставляет случайный кодовый вектор с изображением .
Метод генерации искажения изображения выбирается для конкретного приложения.
В этом подходе априор заменяется неявным априором, полученным нейронной сетью (где для изображений, которые могут быть получены с помощью глубокой нейронной сети и т. д.). Это дает уравнение для минимизатора и результат процесса оптимизации .
Минимизатор (обычно градиентный спуск ) начинается со случайно инициализированных параметров и спускается к локальному наилучшему результату, чтобы получить функцию восстановления.
Параметр θ может использоваться для восстановления любого изображения, включая его шум. Однако сеть неохотно принимает шум, поскольку он содержит высокий импеданс, в то время как полезный сигнал имеет низкий импеданс. Это приводит к тому, что параметр θ приближается к хорошо выглядящему локальному оптимуму , пока число итераций в процессе оптимизации остается достаточно низким, чтобы не переобучать данные.
Обычно глубокая модель нейронной сети для глубокого априорного изображения использует модель типа U-Net без пропусков соединений, которые соединяют блоки кодера с блоками декодера. Авторы в своей статье упоминают, что «Наши результаты здесь (и в других подобных сравнениях), похоже, предполагают, что наличие более глубокой архитектуры полезно, а наличие пропусков соединений, которые так хорошо работают для задач распознавания (таких как семантическая сегментация), крайне вредно». [1]
Принцип шумоподавления заключается в восстановлении изображения из зашумленного наблюдения , где . Иногда распределение известно (например, профилирующий датчик и фотонный шум [2] ) и может быть опционально включено в модель, хотя этот процесс хорошо работает при слепом шумоподавлении.
В качестве данных используется квадратичная функция энергии , включение которой в уравнение дает задачу оптимизации .
Суперразрешение используется для создания версии изображения x с более высоким разрешением. Термин данных устанавливается в значение, где d(·) — оператор понижения разрешения, такой как Ланцош , который уменьшает изображение на коэффициент t.
Inpainting используется для реконструкции отсутствующей области на изображении . Эти отсутствующие пиксели определяются как бинарная маска . Термин данных определяется как (где — произведение Адамара ).
Интуиция, лежащая в основе этого, заключается в том, что потеря вычисляется только для известных пикселей в изображении, и сеть узнает достаточно об изображении, чтобы заполнить неизвестные части изображения, даже если вычисленная потеря не включает эти пиксели. Эта стратегия используется для удаления водяных знаков изображения, рассматривая водяной знак как отсутствующие пиксели в изображении.
Этот подход может быть распространен на несколько изображений. Простой пример, упомянутый автором, — это реконструкция изображения для получения естественного освещения и четкости из пары вспышка-без вспышки. Реконструкция видео возможна, но она требует оптимизации для учета пространственных различий.
См. Астрономическую картинку дня (APOD) от 18.02.2024 [4]