Цифровая обработка изображений

Цифровая обработка изображений — это использование цифрового компьютера для обработки цифровых изображений с помощью алгоритма . ^[1]^[2] Как подкатегория или область цифровой обработки сигналов , цифровая обработка изображений имеет много преимуществ по сравнению с аналоговой обработкой изображений . Это позволяет применять гораздо более широкий диапазон алгоритмов к входным данным и позволяет избежать таких проблем, как накопление шума и искажений во время обработки. Поскольку изображения определяются в двух измерениях (возможно, и в большем количестве), цифровая обработка изображений может быть смоделирована в виде многомерных систем . На создание и развитие цифровой обработки изображений в основном влияют три фактора: во-первых, развитие компьютеров; во-вторых, развитие математики (особенно создание и совершенствование теории дискретной математики); в-третьих, увеличился спрос на широкий спектр применений в окружающей среде, сельском хозяйстве, военной промышленности, промышленности и медицине.

История

Многие методы цифровой обработки изображений или цифровой обработки изображений, как ее часто называли, были разработаны в 1960-х годах в Bell Laboratories , Лаборатории реактивного движения , Массачусетском технологическом институте , Университете Мэриленда и нескольких других исследовательских центрах. с применением к спутниковым изображениям , преобразованию стандартов проводной фотографии , медицинской визуализации , видеофону , распознаванию символов и улучшению фотографий. ^[3] Целью ранней обработки изображений было улучшение качества изображения. Он был нацелен на людей, чтобы улучшить визуальный эффект людей. При обработке изображений входными данными являются изображения низкого качества, а выходными — изображения улучшенного качества. Обычная обработка изображений включает в себя улучшение, восстановление, кодирование и сжатие изображений. Первой успешной заявкой стала Американская лаборатория реактивного движения (JPL). Они использовали такие методы обработки изображений, как геометрическая коррекция, преобразование градаций, удаление шума и т. д., на тысячах лунных фотографий, отправленных космическим детектором Ranger 7 в 1964 году, принимая во внимание положение Солнца и окружающую среду Луны. Результативность успешного картирования карты поверхности Луны с помощью компьютера оказалась успешной. Позже была проведена более сложная обработка изображений почти 100 000 фотографий, отправленных космическим кораблем, в результате чего были получены топографическая карта, цветная карта и панорамная мозаика Луны, что позволило добиться выдающихся результатов и заложило прочную основу для высадки человека на Землю. Луна. ^[4]

Однако стоимость обработки была довольно высокой для вычислительного оборудования той эпохи. Ситуация изменилась в 1970-х годах, когда цифровая обработка изображений получила распространение, поскольку стали доступны более дешевые компьютеры и специализированное оборудование. Это привело к тому, что изображения обрабатывались в режиме реального времени для решения некоторых специализированных задач, таких как преобразование телевизионных стандартов . По мере того, как компьютеры общего назначения становились быстрее, они начали брать на себя роль специализированного оборудования для всех операций, кроме самых специализированных и ресурсоемких. С появлением в 2000-х годах быстрых компьютеров и процессоров обработки сигналов цифровая обработка изображений стала наиболее распространенной формой обработки изображений и широко используется, поскольку это не только самый универсальный, но и самый дешевый метод.

Датчики изображения

Основой современных датчиков изображения является технология металл-оксид-полупроводник (МОП), ^[5] которая берет свое начало с изобретения МОП-транзистора (МОП-полевого транзистора) Мохамедом М. Аталлой и Давоном Кангом в Bell Labs в 1959 году ^{. 6]} Это привело к разработке цифровых полупроводниковых датчиков изображения, включая устройства с зарядовой связью (CCD), а затем и CMOS-датчик . ^[5]

Устройство с зарядовой связью было изобретено Уиллардом С. Бойлем и Джорджем Э. Смитом в Bell Labs в 1969 году. ^[7] Исследуя технологию МОП, они поняли, что электрический заряд аналогичен магнитному пузырю и что его можно хранить. на крошечном МОП-конденсаторе . Поскольку изготовить серию МОП-конденсаторов подряд было довольно просто, к ним подключили подходящее напряжение, чтобы заряд можно было поэтапно перемещать от одного к другому. ^[5] ПЗС — это полупроводниковая схема, которая позже использовалась в первых цифровых видеокамерах для телевизионного вещания . ^[8]

Датчик активных пикселей NMOS (APS) был изобретен компанией Olympus в Японии в середине 1980-х годов. Это стало возможным благодаря достижениям в производстве полупроводниковых МОП-приборов , когда масштабирование МОП-транзисторов достигло меньших микронных, а затем и субмикронных уровней. ^[9]^[10] NMOS APS был изготовлен командой Цутому Накамуры в Олимпе в 1985 году. ^[11] Датчик CMOS с активными пикселями (CMOS-сенсор) был позже разработан командой Эрика Фоссума в Лаборатории реактивного движения НАСА в 1993 году. ^[12] К 2007 году продажи датчиков CMOS превысили продажи датчиков CCD . ^[13]

МОП-датчики изображения широко используются в технологии оптических мышей . Первая оптическая мышь, изобретенная Ричардом Ф. Лайоном из Xerox в 1980 году, использовала интегральный сенсорный чип NMOS размером 5 мкм . ^[14]^[15] Начиная с первой коммерческой оптической мыши IntelliMouse , представленной в 1999 году, в большинстве оптических мышей используются датчики CMOS. ^[16]^[17]

Сжатие изображения

Важным достижением в технологии сжатия цифровых изображений стало дискретное косинусное преобразование (DCT), метод сжатия с потерями , впервые предложенный Насиром Ахмедом в 1972 году. ^[18] Сжатие DCT стало основой для JPEG , который был представлен Объединенной группой экспертов по фотографии в 1972 году. 1992. ^[19] JPEG сжимает изображения до файлов гораздо меньшего размера и стал наиболее широко используемым форматом файлов изображений в Интернете . ^[20] Его высокоэффективный алгоритм сжатия DCT во многом способствовал широкому распространению цифровых изображений и цифровых фотографий , ^[21] с несколькими миллиардами изображений JPEG, создаваемых каждый день по состоянию на 2015 год ^[update]. ^[22]

Методы медицинской визуализации позволяют получить очень большие объемы данных, особенно с помощью КТ, МРТ и ПЭТ. В результате хранение и передача данных электронного изображения без использования сжатия становятся невозможными. ^[23]^{[24] Сжатие изображений} JPEG 2000 используется стандартом DICOM для хранения и передачи медицинских изображений. Стоимость и осуществимость доступа к большим наборам данных изображений по низкой или различной полосе пропускания дополнительно решаются за счет использования другого стандарта DICOM, называемого JPIP , для обеспечения эффективной потоковой передачи сжатых данных изображения JPEG 2000 . ^[25]

Цифровой сигнальный процессор (DSP)

Электронная обработка сигналов произвела революцию благодаря широкому распространению МОП-технологии в 1970-х годах. ^{[26] Технология} МОП-интегральных схем легла в основу первых однокристальных микропроцессоров и микроконтроллеров в начале 1970-х годов, ^[27] а затем в конце 1970-х годов — первых однокристальных процессоров цифровых сигналов (DSP). ^[28]^[29] Чипы DSP с тех пор широко используются в цифровой обработке изображений. ^[28]

Алгоритм сжатия изображений с дискретным косинусным преобразованием (DCT) широко реализован в чипах DSP, при этом многие компании разрабатывают чипы DSP на основе технологии DCT. DCT широко используются для кодирования , декодирования, видеокодирования , аудиокодирования , мультиплексирования , сигналов управления, сигнализации , аналого-цифрового преобразования , форматирования яркости и цветовых различий, а также таких цветовых форматов, как YUV444 и YUV411 . DCT также используются для операций кодирования, таких как оценка движения , компенсация движения , межкадровое предсказание, квантование , перцепционное взвешивание, энтропийное кодирование , переменное кодирование и векторы движения , а также операций декодирования, таких как обратная операция между различными цветовыми форматами ( YIQ , YUV и RGB ) для отображения. DCT также широко используются в чипах кодеров/декодеров телевидения высокой четкости (HDTV). ^[30]

Медицинская визуализация

В 1972 году инженер британской компании EMI Housfield изобрел рентгеновский компьютерный томограф для диагностики головы, который обычно называют КТ (компьютерная томография). Метод ядра КТ основан на проекции сечения головы человека и обрабатывается компьютером для реконструкции изображения поперечного сечения, что называется реконструкцией изображения. В 1975 году компания EMI успешно разработала компьютерную томографию всего тела, которая позволила получить четкое томографическое изображение различных частей человеческого тела. В 1979 году этот метод диагностики получил Нобелевскую премию. ^[4] Технология цифровой обработки изображений для медицинских применений была введена в Зал славы космических технологий Космического фонда в 1994 году ^{. [31]}

По состоянию на 2010 год во всем мире было проведено 5 миллиардов медицинских визуализационных исследований. ^[32]^[33] Радиационное облучение от медицинской визуализации в 2006 году составило около 50% от общего воздействия ионизирующего излучения в Соединенных Штатах. ^[34] Медицинское оборудование для визуализации производится с использованием технологий полупроводниковой промышленности , включая интегральные микросхемы КМОП , силовые полупроводниковые устройства , датчики , такие как датчики изображения (особенно датчики КМОП ) и биосенсоры , а также процессоры, такие как микроконтроллеры , микропроцессоры , процессоры цифровых сигналов , медиапроцессоры и устройства «система-на-кристалле» . По состоянию на 2015 год ежегодные поставки чипов для медицинской визуализации составляют 46 миллионов единиц и 1,1 миллиарда долларов . ^[35]^[36]^[update]

Задания

Цифровая обработка изображений позволяет использовать гораздо более сложные алгоритмы и, следовательно, может обеспечить как более совершенную производительность при решении простых задач, так и реализацию методов, которые были бы невозможны с помощью аналоговых средств.

В частности, цифровая обработка изображений представляет собой конкретное применение и практическую технологию, основанную на:

Некоторые методы, используемые при цифровой обработке изображений, включают:

Цифровые преобразования изображений

Фильтрация

Цифровые фильтры используются для размытия и повышения резкости цифровых изображений. Фильтрация может осуществляться следующими способами:

свертка со специально разработанными ядрами (массивом фильтров) в пространственной области ^[37]
маскирование определенных частотных областей в частотной (Фурье) области

Следующие примеры демонстрируют оба метода: ^[38]

Заполнение изображений при фильтрации в области Фурье

Изображения обычно дополняются перед преобразованием в пространство Фурье. Изображения с фильтром верхних частот ниже иллюстрируют последствия различных методов заполнения:

Обратите внимание, что фильтр верхних частот показывает дополнительные края при дополнении нулями по сравнению с повторным заполнением краев.

Примеры кода фильтрации

Пример MATLAB для фильтрации верхних частот пространственной области.

img = шахматная доска ( 20 ); % генерировать шахматную доску % **************************** ПРОСТРАНСТВЕННЫЙ ДОМЕН ****************** ********* klaplace =[ 0 - 1 0 ; - 1 5 - 1 ; 0 - 1 0 ]; % Ядро фильтра Лапласа X = conv2 ( img , klaplace ); % тест свертки изображения с % 3x3 фигурой ядра Лапласа () imshow ( X ,[]) % показать заголовок , отфильтрованный по Лапласу ( «Обнаружение края Лапласа» )

Аффинные преобразования

Аффинные преобразования позволяют выполнять базовые преобразования изображений, включая масштабирование, поворот, перемещение, зеркальное отражение и сдвиг, как показано в следующих примерах: ^[38]

Чтобы применить аффинную матрицу к изображению, изображение преобразуется в матрицу, в которой каждая запись соответствует интенсивности пикселей в этом месте. Тогда местоположение каждого пикселя можно представить в виде вектора, указывающего координаты этого пикселя на изображении, [x, y], где x и y — это строка и столбец пикселя в матрице изображения. Это позволяет умножить координату на матрицу аффинного преобразования, которая дает позицию, в которую значение пикселя будет скопировано в выходном изображении.

Однако для осуществления преобразований, требующих преобразований перемещения, необходимы трехмерные однородные координаты . Третьему измерению обычно присваивается ненулевая константа, обычно 1, так что новая координата равна [x, y, 1]. Это позволяет умножить вектор координат на матрицу 3 на 3, что обеспечивает сдвиг поступательного движения. Таким образом, третье измерение, константа 1, допускает перевод.

Поскольку умножение матриц является ассоциативным, несколько аффинных преобразований можно объединить в одно аффинное преобразование путем умножения матрицы каждого отдельного преобразования в том порядке, в котором они выполняются. В результате получается одна матрица, которая при применении к точечному вектору дает тот же результат, что и все отдельные преобразования, выполняемые с вектором [x, y, 1] последовательно. Таким образом, последовательность матриц аффинного преобразования можно свести к одной матрице аффинного преобразования.

Например, двумерные координаты допускают вращение только вокруг начала координат (0, 0). Но трехмерные однородные координаты можно использовать для того, чтобы сначала перевести любую точку в (0, 0), затем выполнить поворот и, наконец, перевести начало координат (0, 0) обратно в исходную точку (противоположно первому перемещению). Эти три аффинных преобразования можно объединить в одну матрицу, что позволит осуществлять вращение вокруг любой точки изображения. ^[39]

Удаление шума изображения с помощью морфологии

Математическая морфология подходит для шумоподавления изображений. Структурирующие элементы важны в математической морфологии .

Следующие примеры посвящены элементам структурирования. Функция шумоподавления, изображение как I и элемент структурирования как B показаны ниже и в таблице.

например $(I')={\begin{bmatrix}45&50&65\\40&60&55\\25&15&5\end{bmatrix}}B={\begin{bmatrix}1&2&1\\2&1&1\\1&0&3\end{bmatrix}}$

Определим Dilation(I, B)(i,j) = . Пусть Расширение(I,B) = D(I,B) $max\{I(i+m,j+n)+B(m,n)\}$

D(I', B)(1,1) = $max(45+1,50+2,65+1,40+2,60+1,55+1,25+1,15+0,5+3)=66$

Определим Erosion(I, B)(i,j) = . Пусть Эрозия(I,B) = E(I,B) $min\{I(i+m,j+n)-B(m,n)\}$

Е(I', B)(1,1) = $min(45-1,50-2,65-1,40-2,60-1,55-1,25-1,15-0,5-3)=2$

После расширения После эрозии $(I')={\begin{bmatrix}45&50&65\\40&66&55\\25&15&5\end{bmatrix}}$ $(I')={\begin{bmatrix}45&50&65\\40&2&55\\25&15&5\end{bmatrix}}$

Метод открытия — это просто сначала эрозия, а затем расширение, а метод закрытия — наоборот. В действительности D(I,B) и E(I,B) могут быть реализованы с помощью Convolution.

Приложения

Изображения цифровой камеры

Цифровые камеры обычно включают в себя специализированное оборудование для обработки цифровых изображений — либо специальные чипы, либо дополнительные схемы на других чипах — для преобразования необработанных данных с датчика изображения в изображение с цветовой коррекцией в стандартном формате файла изображения . Дополнительные методы постобработки повышают резкость краев или насыщенность цвета, что позволяет создавать изображения более естественного вида.

Фильм

«Мир Дикого Запада» (1973) был первым художественным фильмом, в котором цифровая обработка изображений использовалась для пикселизации фотографии, чтобы имитировать точку зрения андроида. ^[40] Обработка изображений также широко используется для создания эффекта хромакей , который заменяет фон актеров естественными или художественными декорациями.

Распознавание лиц

Обнаружение лиц может быть реализовано с помощью математической морфологии , дискретного косинусного преобразования , которое обычно называется DCT, и горизонтальной проекции (математика) .

Общий метод с методом, основанным на признаках

Метод распознавания лиц на основе функций использует тон кожи, обнаружение краев, форму лица и особенности лица (например, глаза, рот и т. д.) для обнаружения лица. Тон кожи, форма лица и все уникальные элементы, которыми обладает только человеческое лицо, можно назвать чертами.

Объяснение процесса

Учитывая набор изображений лиц, сначала извлеките диапазон оттенков кожи, выбрав изображения лиц. Диапазон тона кожи — это всего лишь скин-фильтр.
1. Мера индекса структурного сходства (SSIM) может применяться для сравнения изображений с точки зрения выделения тона кожи.
2. Обычно для скин-фильтра подходят цветовые пространства HSV или RGB. Например, в режиме HSV диапазон оттенков кожи составляет [0,48,50] ~ [20,255,255]
После фильтрации изображений по тону кожи, чтобы получить края лица, используются морфология и DCT для удаления шума и заполнения недостающих участков кожи.
1. Для заполнения недостающей кожи можно использовать метод открытия или метод закрытия.
2. DCT заключается в том, чтобы избегать объектов с кожей тона. Так как человеческие лица всегда имеют более высокую фактуру.
3. Для обнаружения края грани можно применять оператор Собеля или другие операторы.
Чтобы расположить человеческие черты, такие как глаза, с помощью проекции и найти пик гистограммы проекции, можно получить такие детализированные детали, как рот, волосы и губы.
1. Проекция — это просто проецирование изображения, чтобы увидеть высокую частоту, которая обычно является положением объекта.

Метод улучшения качества изображения

На качество изображения могут влиять вибрация камеры, передержка, слишком централизованное распределение уровней серого, шум и т. д. Например, проблему шума можно решить с помощью метода сглаживания , а проблему распределения уровней серого можно улучшить с помощью выравнивания гистограммы .

Метод сглаживания

В рисовании, если есть какой-то неудовлетворительный цвет, нужно взять немного цвета вокруг неудовлетворительного цвета и усреднить их. Это простой способ думать о методе сглаживания.

Метод сглаживания можно реализовать с помощью маски и свертки . Возьмите маленькое изображение и маску, например, как показано ниже.

изображение ${\begin{bmatrix}2&5&6&5\\3&1&4&6\\1&28&30&2\\7&3&2&2\end{bmatrix}}$

маска ${\begin{bmatrix}1/9&1/9&1/9\\1/9&1/9&1/9\\1/9&1/9&1/9\end{bmatrix}}$

После свертки и сглаживания изображение ${\begin{bmatrix}2&5&6&5\\3&9&10&6\\1&9&9&2\\7&3&2&2\end{bmatrix}}$

Просмотр изображения [1, 1], изображения [1, 2], изображения [2, 1] и изображения [2, 2].

Исходный пиксель изображения имеет номера 1, 4, 28, 30. После маски сглаживания пиксель становится 9, 10, 9, 9 соответственно.

новое изображение[1, 1] = * (изображение[0,0]+изображение[0,1]+изображение[0,2]+изображение[1,0]+изображение[1,1]+изображение[1,2 ]+изображение[2,0]+изображение[2,1]+изображение[2,2]) ${\tfrac {1}{9}}$

новое изображение[1, 1] = пол( * (2+5+6+3+1+4+1+28+30)) = 9 ${\tfrac {1}{9}}$

новое изображение[1, 2] = пол({ * (5+6+5+1+4+6+28+30+2)) = 10 ${\tfrac {1}{9}}$

новое изображение[2, 1] = пол( * (3+1+4+1+28+30+7+3+2)) = 9 ${\tfrac {1}{9}}$

новое изображение[2, 2] = пол( * (1+4+6+28+30+2+3+2+2)) = 9 ${\tfrac {1}{9}}$

Метод гистограммы уровней серого

Как правило, приведена гистограмма уровней серого на изображении, как показано ниже. Изменение гистограммы на равномерное распределение изображения обычно называется тем, что мы называем выравниванием гистограммы .

В дискретное время область гистограммы уровней серого равна (см. рисунок 1), а область равномерного распределения (см. рисунок 2). Понятно, что площадь не изменится, так что . $\sum _{i=0}^{k}H(p_{i})$ $\sum _{i=0}^{k}G(q_{i})$ $\sum _{i=0}^{k}H(p_{i})=\sum _{i=0}^{k}G(q_{i})$

Судя по равномерному распределению, вероятность равна, в то время как $q_{i}$ ${\tfrac {N^{2}}{q_{k}-q_{0}}}$ $0<i<k$

В непрерывном времени уравнение имеет вид . $\displaystyle \int _{q_{0}}^{q}{\tfrac {N^{2}}{q_{k}-q_{0}}}ds=\displaystyle \int _{p_{0}}^{p}H(s)ds$

Более того, основанный на определении функции метод гистограммы уровня серого подобен поиску функции , удовлетворяющей условию f(p)=q. $f$

Смотрите также

дальнейшее чтение

Соломон, CJ; Брекон, ТП (2010). Основы цифровой обработки изображений: практический подход с примерами в Matlab . Уайли-Блэквелл. дои : 10.1002/9780470689776. ISBN 978-0-470-84473-1.
Вильгельм Бургер; Марк Дж. Бердж (2007). Цифровая обработка изображений: алгоритмический подход с использованием Java. Спрингер . ISBN 978-1-84628-379-6.
Р. Фишер; К. Доусон-Хау; А. Фитцгиббон; К. Робертсон; Э. Трукко (2005). Словарь компьютерного зрения и обработки изображений . Джон Уайли. ISBN 978-0-470-01526-1.
Рафаэль К. Гонсалес; Ричард Э. Вудс; Стивен Л. Эддинс (2004). Цифровая обработка изображений с использованием MATLAB . Пирсон Образование. ISBN 978-81-7758-898-9.
Тим Моррис (2004). Компьютерное зрение и обработка изображений . Пэлгрейв Макмиллан. ISBN 978-0-333-99451-1.
Випин Тьяги (2018). Понимание цифровой обработки изображений . Тейлор и Фрэнсис CRC Press. ISBN 978-11-3856-6842.
Милан Сонка; Вацлав Главац; Роджер Бойл (1999). Обработка изображений, анализ и машинное зрение . Издательство ПВС. ISBN 978-0-534-95393-5.
Гонсалес, Рафаэль С.; Вудс, Ричард Э. (2008). Цифровая обработка изображений . Река Аппер-Сэдл, Нью-Джерси: Прентис-Холл. ISBN 978-0-13-168728-8. ОСЛК 137312858.
Ковалевский, Владимир (2019). Современные алгоритмы обработки изображений: компьютерные изображения на примере использования C# . [Нью Йорк, Нью Йорк]. ISBN 978-1-4842-4237-7. ОСЛК 1080084533.{{cite book}}: CS1 maint: location missing publisher (link)

Внешние ссылки

Лекции по обработке изображений Алана Питерса. Университет Вандербильта. Обновлено 7 января 2016 г.
Обработка цифровых изображений с помощью компьютерных алгоритмов