Глубокое изображение до

Глубокое априорное изображение — это тип сверточной нейронной сети , используемой для улучшения данного изображения без каких-либо данных предварительного обучения, кроме самого изображения. Нейронная сеть инициализируется случайным образом и используется в качестве априорной для решения обратных задач, таких как шумоподавление , сверхразрешение и инрисинг . Статистика изображения фиксируется структурой генератора сверточных изображений, а не какими-либо ранее изученными возможностями.

Метод

Фон

Обратные задачи, такие как шумоподавление , суперразрешение и инрисовка, можно сформулировать как задачу оптимизации , где — изображение, искаженное представление этого изображения, — зависящий от задачи термин данных, а R(x) — регуляризатор . Это формирует задачу минимизации энергии. $x^{*}=min_{x}E(x;x_{0})+R(x)$ $x$ $x_{0}$ $E(x;x_{0})$

Глубокие нейронные сети обучают генератор/декодер , который сопоставляет случайный кодовый вектор с изображением . $x=f_{\theta }(z)$ $z$ $x$

Метод генерации искажения изображения выбирается для конкретного приложения. $x_{0}$

Специфика

В этом подходе априор заменяется неявным априором, полученным нейронной сетью (где для изображений, которые могут быть получены с помощью глубокой нейронной сети и т. д.). Это дает уравнение для минимизатора и результат процесса оптимизации . $R(x)$ $R(x)=0$ $R(x)=+\infty$ $\theta ^{*}=argmin_{\theta }E(f_{\theta }(z);x_{0})$ $x^{*}=f_{\theta ^{*}}(z)$

Минимизатор (обычно градиентный спуск ) начинается со случайно инициализированных параметров и спускается к локальному наилучшему результату, чтобы получить функцию восстановления. $\theta ^{*}$ $x^{*}$

Переобучение

Параметр θ может использоваться для восстановления любого изображения, включая его шум. Однако сеть неохотно принимает шум, поскольку он содержит высокий импеданс, в то время как полезный сигнал имеет низкий импеданс. Это приводит к тому, что параметр θ приближается к хорошо выглядящему локальному оптимуму , пока число итераций в процессе оптимизации остается достаточно низким, чтобы не переобучать данные.

Модель глубокой нейронной сети

Обычно глубокая модель нейронной сети для глубокого априорного изображения использует модель типа U-Net без пропусков соединений, которые соединяют блоки кодера с блоками декодера. Авторы в своей статье упоминают, что «Наши результаты здесь (и в других подобных сравнениях), похоже, предполагают, что наличие более глубокой архитектуры полезно, а наличие пропусков соединений, которые так хорошо работают для задач распознавания (таких как семантическая сегментация), крайне вредно». ^[1]

Приложения

Шумоподавление

Принцип шумоподавления заключается в восстановлении изображения из зашумленного наблюдения , где . Иногда распределение известно (например, профилирующий датчик и фотонный шум ^[2] ) и может быть опционально включено в модель, хотя этот процесс хорошо работает при слепом шумоподавлении. $x$ $x_{0}$ $x_{0}=x+\epsilon$ $\epsilon$

В качестве данных используется квадратичная функция энергии , включение которой в уравнение дает задачу оптимизации . $E(x,x_{0})=||x-x_{0}||^{2}$ $\theta ^{*}$ $min_{\theta }||f_{\theta }(z)-x_{0}||^{2}$

Супер-разрешение

Суперразрешение используется для создания версии изображения x с более высоким разрешением. Термин данных устанавливается в значение, где d(·) — оператор понижения разрешения, такой как Ланцош , который уменьшает изображение на коэффициент t. $E(x;x_{0})=||d(x)-x_{0}||^{2}$

Вписывание

Inpainting используется для реконструкции отсутствующей области на изображении . Эти отсутствующие пиксели определяются как бинарная маска . Термин данных определяется как (где — произведение Адамара ). $x_{0}$ $m\in \{0,1\}^{H\times V}$ $E(x;x_{0})=||(x-x_{0})\odot m||^{2}$ $\odot$

Интуиция, лежащая в основе этого, заключается в том, что потеря вычисляется только для известных пикселей в изображении, и сеть узнает достаточно об изображении, чтобы заполнить неизвестные части изображения, даже если вычисленная потеря не включает эти пиксели. Эта стратегия используется для удаления водяных знаков изображения, рассматривая водяной знак как отсутствующие пиксели в изображении.

Реконструкция со вспышкой и без вспышки

Этот подход может быть распространен на несколько изображений. Простой пример, упомянутый автором, — это реконструкция изображения для получения естественного освещения и четкости из пары вспышка-без вспышки. Реконструкция видео возможна, но она требует оптимизации для учета пространственных различий.

Реализации

Эталонная реализация, переписанная на Python 3.6 с библиотекой PyTorch 0.4.0, была выпущена автором под лицензией Apache 2.0 : deep-image-prior ^[3]
Реализация на основе TensorFlow, написанная на Python 2 и выпущенная под лицензией CC-SA 3.0 : deep-image-prior-tensorflow
Реализация на основе Keras , написанная на Python 2 и выпущенная под лицензией GPLv3 : machine_learning_denoising

Пример

См. Астрономическую картинку дня (APOD) от 18.02.2024 ^[4]

Ссылки

^ https://sites.skoltech.ru/app/data/uploads/sites/25/2018/04/deep_image_prior.pdf ^{[ пустой URL PDF ]}
^ jo (2012-12-11). "Профилирующий датчик и фотонный шум... и как от него избавиться". darktable.
^ "DmitryUlyanov/Deep-image-prior". GitHub . 3 июня 2021 г.
^ «Астрономическая картинка дня».

Ульянов, Дмитрий; Ведальди, Андреа; Лемпицкий, Виктор (30 ноября 2017 г.). "Deep Image Prior". arXiv : 1711.10925v2 [cs.CV].