В цифровой обработке изображений и компьютерном зрении сегментация изображения — это процесс разбиения цифрового изображения на несколько сегментов изображения , также известных как области изображения или объекты изображения ( наборы пикселей ). Цель сегментации — упростить и/или изменить представление изображения на что-то более осмысленное и легко анализируемое. [1] [2] Сегментация изображения обычно используется для определения местоположения объектов и границ (линий , кривых и т. д.) на изображениях. Точнее, сегментация изображения — это процесс присвоения метки каждому пикселю изображения таким образом, чтобы пиксели с одинаковой меткой имели определенные характеристики.
Результатом сегментации изображения является набор сегментов, которые в совокупности покрывают все изображение, или набор контуров, извлеченных из изображения (см. обнаружение краев ). Каждый из пикселей в области похож относительно некоторой характеристики или вычисляемого свойства, [3] например, цвета , интенсивности или текстуры . Смежные области значительно отличаются относительно той же характеристики(й). [1] При применении к стопке изображений, типичной для медицинской визуализации , полученные контуры после сегментации изображения могут быть использованы для создания 3D-реконструкций с помощью алгоритмов реконструкции геометрии, таких как marching cubes . [4]
Некоторые практические применения сегментации изображений:
Для сегментации изображений было разработано несколько универсальных алгоритмов и методов. Чтобы быть полезными, эти методы обычно должны сочетаться со специфическими знаниями домена для эффективного решения проблем сегментации домена.
Существует два класса методов сегментации.
Самый простой метод сегментации изображения называется методом порога . Этот метод основан на уровне обрезки (или пороговом значении) для преобразования изображения в оттенках серого в бинарное изображение.
Ключ этого метода — выбор порогового значения (или значений, если выбрано несколько уровней). В промышленности используется несколько популярных методов, включая метод максимальной энтропии, пороговую выборку сбалансированной гистограммы , метод Оцу (максимальная дисперсия) и кластеризацию k-средних .
Недавно были разработаны методы пороговой обработки изображений компьютерной томографии (КТ). Основная идея заключается в том, что, в отличие от метода Оцу, пороговые значения выводятся из рентгенограмм, а не из (реконструированного) изображения. [21] [22]
Новые методы предполагают использование многомерных нечетких правил, основанных на нелинейных порогах. В этих работах решение о принадлежности каждого пикселя к сегменту основывается на многомерных правилах, полученных из нечеткой логики и эволюционных алгоритмов, основанных на среде освещения изображения и приложении. [23]
Алгоритм K-средних — это итеративный метод, который используется для разбиения изображения на K кластеров. [24] Основной алгоритм :
В этом случае расстояние — это квадрат или абсолютная разница между пикселем и центром кластера. Разница обычно основана на цвете пикселя , интенсивности , текстуре и местоположении или на взвешенной комбинации этих факторов. K можно выбрать вручную, случайным образом или эвристикой . Этот алгоритм гарантированно сходится, но он может не возвращать оптимальное решение . Качество решения зависит от начального набора кластеров и значения K.
Алгоритм Mean Shift — это метод, который используется для разбиения изображения на неизвестное априори число кластеров. Преимущество этого заключается в отсутствии необходимости начинать с начального предположения такого параметра, что делает его лучшим общим решением для более разнообразных случаев.
Сегментация на основе движения — это метод, при котором для выполнения сегментации используется движение на изображении.
Идея проста: посмотрите на различия между парой изображений. Если предположить, что интересующий объект движется, то различие будет именно этим объектом.
Улучшая эту идею, Кенни и др. предложили интерактивную сегментацию [2]. Они используют робота для тыкания в объекты, чтобы сгенерировать сигнал движения, необходимый для сегментации на основе движения.
Интерактивная сегментация следует концепции интерактивного восприятия, предложенной Довом Кацем [3] и Оливером Броком [4].
Другой метод, основанный на движении, — это жесткая сегментация движения .
Методы, основанные на сжатии, постулируют, что оптимальная сегментация — это та, которая минимизирует, среди всех возможных сегментаций, длину кодирования данных. [25] [26] Связь между этими двумя концепциями заключается в том, что сегментация пытается найти закономерности в изображении, и любая закономерность в изображении может быть использована для его сжатия. Метод описывает каждый сегмент его текстурой и формой границы. Каждый из этих компонентов моделируется функцией распределения вероятностей, а его длина кодирования вычисляется следующим образом:
Для любой заданной сегментации изображения эта схема выдает количество бит, необходимое для кодирования этого изображения на основе заданной сегментации. Таким образом, среди всех возможных сегментаций изображения цель состоит в том, чтобы найти сегментацию, которая дает самую короткую длину кодирования. Этого можно достичь с помощью простого метода агломеративной кластеризации. Искажение при сжатии с потерями определяет грубость сегментации, и его оптимальное значение может отличаться для каждого изображения. Этот параметр можно оценить эвристически по контрасту текстур на изображении. Например, когда текстуры на изображении похожи, как в изображениях камуфляжа, требуется более высокая чувствительность и, следовательно, более низкое квантование.
Методы на основе гистограммы очень эффективны по сравнению с другими методами сегментации изображений, поскольку они обычно требуют только одного прохода по пикселям . В этом методе гистограмма вычисляется из всех пикселей изображения, а пики и спады в гистограмме используются для определения кластеров на изображении. [1] В качестве меры можно использовать цвет или интенсивность .
Усовершенствование этой техники заключается в рекурсивном применении метода поиска гистограммы к кластерам на изображении с целью их разделения на более мелкие кластеры. Эта операция повторяется с все меньшими и меньшими кластерами до тех пор, пока не перестанут формироваться кластеры. [1] [27]
Одним из недостатков метода поиска гистограммы является то, что может быть сложно определить значимые пики и спады на изображении.
Подходы на основе гистограмм также можно быстро адаптировать для применения к нескольким кадрам, сохраняя при этом эффективность их одного прохода. Гистограмму можно сделать несколькими способами, когда рассматривается несколько кадров. Тот же подход, который используется с одним кадром, можно применить к нескольким, и после объединения результатов пики и спады, которые ранее было трудно идентифицировать, с большей вероятностью будут различимы. Гистограмму также можно применять на основе каждого пикселя, где полученная информация используется для определения наиболее частого цвета для местоположения пикселя. Этот подход сегментирует на основе активных объектов и статической среды, что приводит к другому типу сегментации, полезному для отслеживания видео .
Обнаружение краев — это хорошо развитая область в обработке изображений. Границы областей и края тесно связаны, поскольку на границах областей часто наблюдается резкое изменение интенсивности. Поэтому методы обнаружения краев использовались в качестве основы для другого метода сегментации.
Края, идентифицированные с помощью обнаружения краев, часто не связаны. Однако для сегментации объекта на изображении нужны замкнутые границы областей. Желаемые края — это границы между такими объектами или пространственными таксонами. [28] [29]
Пространственные таксоны [30] — это информационные гранулы, [31] состоящие из четкой пиксельной области, размещенной на уровнях абстракции в иерархической вложенной архитектуре сцены. Они похожи на гештальт -психологическое обозначение фигуры-фона, но расширены, чтобы включать передний план, группы объектов, объекты и выступающие части объекта. Методы обнаружения краев могут быть применены к области пространственного таксона таким же образом, как они были бы применены к силуэту. Этот метод особенно полезен, когда разъединенный край является частью иллюзорного контура [32] [33]
Методы сегментации также могут применяться к краям, полученным с помощью детекторов краев. Линдеберг и Ли [34] разработали интегрированный метод, который сегментирует края на прямые и изогнутые сегменты краев для распознавания объектов на основе частей, на основе критерия минимальной длины описания (M DL ), который был оптимизирован методом, подобным разделению и слиянию, с потенциальными точками разрыва, полученными из дополнительных сигналов соединения, для получения более вероятных точек, в которых следует рассматривать разбиения на различные сегменты.
Обнаружение изолированных точек на изображении является фундаментальной частью сегментации изображения. Этот процесс в первую очередь зависит от второй производной, что указывает на использование оператора Лапласа. Лапласиан функции определяется как:
Оператор Лапласа применяется таким образом, что частные производные выводятся из определенного уравнения. Вторая частная производная по и задается как:
Эти частные производные затем используются для вычисления лапласиана следующим образом:
Это математическое выражение может быть реализовано путем свертки с соответствующей маской. Если мы расширим это уравнение до трех измерений (x, y, z), интенсивность в каждом пикселе вокруг центрального пикселя в точке (x, y, z) будет заменена их соответствующими значениями. Это уравнение становится особенно полезным, когда мы предполагаем, что все пиксели имеют единичный интервал вдоль каждой оси.
Сферическая маска была разработана для использования с трехмерными наборами данных. Сферическая маска разработана для использования только целочисленной арифметики во время вычислений, тем самым устраняя необходимость в аппаратном или программном обеспечении с плавающей точкой.
Применяя эти концепции к реальным изображениям, представленным в виде массивов чисел, нам нужно учитывать, что происходит, когда мы достигаем края или граничной области. Функция определяется как:
Это уравнение выше используется для определения того, является ли точка на изображении изолированной точкой на основе величины отклика и порогового значения . Если величина отклика больше или равна пороговому значению, функция возвращает 1, что указывает на наличие изолированной точки; в противном случае она возвращает 0. Это помогает эффективно обнаруживать и сегментировать изолированные точки на изображении. [35]
Обнаружение изолированных точек имеет важные приложения в различных областях, включая обработку рентгеновских изображений. Например, исходное рентгеновское изображение лопатки турбины может быть исследовано попиксельно для обнаружения пористости в верхнем правом квадранте лопатки. Результат применения реакции детектора края к этому рентгеновскому изображению может быть аппроксимирован. Это демонстрирует сегментацию изолированных точек на изображении с помощью однопиксельных зондов. [36]
Этот метод представляет собой комбинацию трех характеристик изображения: разбиение изображения на основе анализа гистограмм проверяется высокой компактностью кластеров (объектов) и высокими градиентами их границ. Для этого необходимо ввести два пространства: одно пространство - одномерная гистограмма яркости H = H ( B ); второе пространство - двойственное 3-мерное пространство самого исходного изображения B = B ( x , y ). Первое пространство позволяет измерить, насколько компактно распределена яркость изображения, вычислив минимальную кластеризацию kmin. Пороговая яркость T, соответствующая kmin, определяет бинарное (черно-белое) изображение - битовое изображение b = φ ( x , y ), где φ ( x , y ) = 0 , если B ( x , y ) < T , и φ ( x , y ) = 1, если B ( x , y ) ≥ T . Битовое изображение b является объектом в двойственном пространстве. На этой битовой карте должна быть определена мера, отражающая, насколько компактно распределены черные (или белые) пиксели. Таким образом, цель состоит в том, чтобы найти объекты с хорошими границами. Для всех T должна быть рассчитана мера M DC = G /( k × L ) (где k — разница в яркости между объектом и фоном, L — длина всех границ, а G — средний градиент на границах). Максимум MDC определяет сегментацию. [37]
Методы выращивания регионов в основном полагаются на предположение, что соседние пиксели в пределах одного региона имеют схожие значения. Распространенная процедура заключается в сравнении одного пикселя с его соседями. Если критерий сходства удовлетворяется, пиксель может быть установлен как принадлежащий к тому же кластеру, что и один или несколько его соседей. Выбор критерия сходства имеет важное значение, и результаты во всех случаях подвержены влиянию шума.
Метод статистического слияния областей [38] (SRM) начинается с построения графа пикселей с использованием 4-связности с ребрами, взвешенными по абсолютному значению разницы интенсивности. Первоначально каждый пиксель образует одну пиксельную область. Затем SRM сортирует эти ребра в очереди приоритетов и решает, следует ли объединять текущие области, принадлежащие краевым пикселям, с использованием статистического предиката.
Одним из методов выращивания областей является метод выращивания областей с посевом. Этот метод принимает набор семян в качестве входных данных вместе с изображением. Семена отмечают каждый из объектов, которые должны быть сегментированы. Области итеративно выращиваются путем сравнения всех нераспределенных соседних пикселей с областями. Разница между значением интенсивности пикселя и средним значением области, , используется в качестве меры сходства . Пиксель с наименьшей разницей, измеренной таким образом, назначается соответствующей области. Этот процесс продолжается до тех пор, пока все пиксели не будут назначены области. Поскольку выращивание областей с посевом требует семян в качестве дополнительных входных данных, результаты сегментации зависят от выбора семян, а шум на изображении может привести к тому, что семена будут плохо размещены.
Другой метод выращивания областей — это метод выращивания областей без посева. Это модифицированный алгоритм, который не требует явных посевов. Он начинается с одного региона — выбранный здесь пиксель не оказывает заметного влияния на конечную сегментацию. На каждой итерации он рассматривает соседние пиксели так же, как выращивание областей с посевом. Он отличается от выращивания областей с посевом тем, что если минимум меньше предопределенного порога, то он добавляется к соответствующей области . Если нет, то пиксель считается отличным от всех текущих областей , и с этим пикселем создается новая область .
Один из вариантов этой техники, предложенный Хараликом и Шапиро (1985), [1] основан на интенсивности пикселей . Среднее значение и разброс региона, а также интенсивность пикселя-кандидата используются для вычисления тестовой статистики. Если тестовая статистика достаточно мала, пиксель добавляется к региону, а среднее значение и разброс региона пересчитываются. В противном случае пиксель отбрасывается и используется для формирования нового региона.
Специальный метод роста областей называется -связанной сегментацией (см. также лямбда-связность ). Он основан на интенсивности пикселей и путях, связывающих соседние области. Степень связности (связности) вычисляется на основе пути, образованного пикселями. Для определенного значения два пикселя называются -связанными, если существует путь, связывающий эти два пикселя, и связность этого пути не менее . -связанность является отношением эквивалентности. [39]
Сегментация методом разделения и слияния основана на разбиении изображения на квадродерево . Иногда ее называют сегментацией квадродерева.
Этот метод начинается с корня дерева, представляющего все изображение. Если оно оказывается неоднородным (не однородным), то оно разбивается на четыре дочерних квадрата (процесс разбиения) и так далее. Если же, напротив, четыре дочерних квадрата однородны, то они объединяются в несколько связанных компонентов (процесс слияния). Узел в дереве является сегментированным узлом. Этот процесс продолжается рекурсивно до тех пор, пока дальнейшие разбиения или слияния не станут возможными. [40] [41] Когда в реализацию алгоритма метода вовлечена специальная структура данных, его временная сложность может достигать , оптимального алгоритма метода. [42]
Используя метод на основе уравнения в частных производных (PDE) и решая уравнение PDE с помощью численной схемы, можно сегментировать изображение. [43] Распространение кривых является популярным методом в этой категории, имеющим многочисленные приложения для извлечения объектов, отслеживания объектов, стереореконструкции и т. д. Основная идея заключается в том, чтобы развить начальную кривую к наименьшему потенциалу функции стоимости, где ее определение отражает задачу, которую необходимо решить. Как и для большинства обратных задач , минимизация функционала стоимости нетривиальна и накладывает определенные ограничения гладкости на решение, которые в данном случае могут быть выражены как геометрические ограничения на развивающуюся кривую.
Лагранжевые методы основаны на параметризации контура в соответствии с некоторой стратегией выборки и последующей эволюции каждого элемента в соответствии с изображением и внутренними условиями. Такие методы быстры и эффективны, однако исходная «чисто параметрическая» формулировка (предложенная Кассом, Виткиным и Терзопулосом в 1987 году и известная как « змеи »), как правило, критикуется за ее ограничения относительно выбора стратегии выборки, внутренних геометрических свойств кривой, изменений топологии (разделение и слияние кривой), решения проблем в более высоких измерениях и т. д. В настоящее время были разработаны эффективные «дискретизированные» формулировки для устранения этих ограничений при сохранении высокой эффективности. В обоих случаях минимизация энергии обычно проводится с использованием спуска с самым крутым градиентом, при котором производные вычисляются с использованием, например, конечных разностей.
Метод набора уровней был первоначально предложен для отслеживания движущихся интерфейсов Дервье и Томассе [44] [45] в 1979 и 1981 годах, а затем был переосмыслен Ошером и Сетианом в 1988 году . [46] Он распространился по различным областям визуализации в конце 1990-х годов. Его можно использовать для эффективного решения проблемы распространения кривой/поверхности/и т. д. неявным образом. Основная идея заключается в представлении развивающегося контура с помощью знаковой функции, ноль которой соответствует фактическому контуру. Затем, согласно уравнению движения контура, можно легко вывести аналогичный поток для неявной поверхности, который при применении к нулевому уровню будет отражать распространение контура. Метод набора уровней дает многочисленные преимущества: он неявный, не имеет параметров, обеспечивает прямой способ оценки геометрических свойств развивающейся структуры, допускает изменение топологии и является внутренним. Его можно использовать для определения оптимизационной структуры, как предложили Чжао, Мерриман и Ошер в 1996 году. Можно сделать вывод, что это очень удобная структура для решения многочисленных задач компьютерного зрения и анализа медицинских изображений. [47] Исследования различных структур данных с набором уровней привели к весьма эффективным реализациям этого метода.
Метод быстрого марширования использовался при сегментации изображений [48], и эта модель была улучшена (позволяя использовать как положительные, так и отрицательные скорости распространения) в подходе, называемом обобщенным методом быстрого марширования [49] .
Целью вариационных методов является нахождение сегментации, которая является оптимальной относительно определенного функционала энергии. Функционалы состоят из термина подгонки данных и регуляризирующих терминов. Классическим представителем является модель Поттса, определенная для изображения
Минимизатор — это кусочно-постоянное изображение, которое имеет оптимальный компромисс между квадратом расстояния L2 до данного изображения и общей длиной его множества скачков. Множество скачков определяет сегментацию. Относительный вес энергий настраивается параметром . Двоичный вариант модели Поттса, т. е. если диапазон ограничен двумя значениями, часто называют моделью Чана - Веза . [50] Важным обобщением является модель Мамфорда-Шаха [51], заданная как
Функциональное значение представляет собой сумму общей длины кривой сегментации , гладкости аппроксимации и ее расстояния до исходного изображения . Вес штрафа за гладкость регулируется с помощью . Модель Поттса часто называют кусочно-постоянной моделью Мамфорда-Шаха, поскольку ее можно рассматривать как вырожденный случай . Известно, что задачи оптимизации в целом являются NP-трудными, но на практике хорошо работают стратегии, близкие к минимизации. Классические алгоритмы — это градуированная невыпуклость и аппроксимация Амброзио-Торторелли .
Методы разбиения графа являются эффективными инструментами для сегментации изображений, поскольку они моделируют влияние окрестностей пикселей на заданный кластер пикселей или пиксель, при условии однородности изображений. В этих методах изображение моделируется как взвешенный неориентированный граф . Обычно пиксель или группа пикселей связаны с узлами , а веса ребер определяют (нес)похожесть между пикселями соседства. Затем граф (изображение) разбивается в соответствии с критерием, разработанным для моделирования «хороших» кластеров. Каждое разбиение узлов (пикселей), выведенное этими алгоритмами, считается сегментом объекта на изображении; см. Категоризация объектов на основе сегментации . Некоторые популярные алгоритмы этой категории — это нормализованные разрезы, [52] случайный блуждающий , [53] минимальный разрез, [54] изопериметрическое разбиение, [55] сегментация на основе минимального остовного дерева , [56] и категоризация объектов на основе сегментации .
Применение случайных полей Маркова (MRF) для изображений было предложено в начале 1984 года Германом и Германом. [57] Их прочная математическая основа и способность обеспечивать глобальный оптимум даже при определении на основе локальных признаков оказались основой для новых исследований в области анализа изображений, удаления шума и сегментации. MRF полностью характеризуются их априорными распределениями вероятностей, маргинальными распределениями вероятностей, кликами , ограничением сглаживания, а также критерием обновления значений. Критерий сегментации изображений с использованием MRF переформулируется как нахождение схемы маркировки, которая имеет максимальную вероятность для заданного набора признаков. Широкие категории сегментации изображений с использованием MRF — контролируемая и неконтролируемая сегментация.
С точки зрения сегментации изображения, функция, которую MRF стремятся максимизировать, — это вероятность идентификации схемы маркировки при определенном наборе признаков, обнаруженных на изображении. Это переформулировка метода оценки максимума апостериори .
Ниже представлен общий алгоритм сегментации изображений с использованием MAP:
Каждый алгоритм оптимизации представляет собой адаптацию моделей из различных областей, и они отличаются своими уникальными функциями стоимости. Общей чертой функций стоимости является штрафование изменения значения пикселя, а также разницы в метке пикселя по сравнению с метками соседних пикселей.
Алгоритм итерационных условных режимов (ICM) пытается реконструировать идеальную схему маркировки, изменяя значения каждого пикселя на каждой итерации и оценивая энергию новой схемы маркировки с использованием функции стоимости, приведенной ниже:
где α — штраф за изменение метки пикселя, а β — штраф за разницу в метке между соседними пикселями и выбранным пикселем. Здесь — окрестность пикселя i, а δ — дельта-функция Кронекера. Основная проблема ICM заключается в том, что, подобно градиентному спуску, он имеет тенденцию останавливаться на локальных максимумах и, таким образом, не получать глобально оптимальную схему маркировки.
Выведенный как аналог отжига в металлургии, имитационный отжиг (SA) использует изменение пиксельной метки в течение итераций и оценивает разницу в энергии каждого вновь сформированного графа по сравнению с исходными данными. Если вновь сформированный граф более выгоден с точки зрения низкой стоимости энергии, то:
алгоритм выбирает вновь сформированный граф. Имитация отжига требует ввода температурных графиков, которые напрямую влияют на скорость сходимости системы, а также порог энергии для минимизации.
Существует ряд других методов для решения простых и более высокого порядка MRF. Они включают максимизацию апостериорной маргинальной, многомасштабную оценку MAP, [58] сегментацию множественного разрешения [59] и другие. Помимо оценок правдоподобия, для решения MRF существуют граф-срез с использованием максимального потока [60] и другие методы на основе графов с высокой степенью ограничений [61] [62] .
Алгоритм ожиданий-максимизации используется для итеративной оценки апостериорных вероятностей и распределений маркировки, когда нет обучающих данных и не может быть сформирована оценка модели сегментации. Общий подход заключается в использовании гистограмм для представления особенностей изображения и продолжении, как кратко описано в этом трехшаговом алгоритме:
1. Используется случайная оценка параметров модели.
2. Шаг E: Оцените статистику класса на основе определенной модели случайной сегментации. Используя их, вычислите условную вероятность принадлежности к метке, учитывая, что набор признаков вычисляется с использованием наивной теоремы Байеса .
Здесь представлен набор всех возможных меток.
3. Шаг M: Установленная релевантность заданного набора признаков для схемы маркировки теперь используется для вычисления априорной оценки заданной метки во второй части алгоритма. Поскольку фактическое количество общих меток неизвестно (из обучающего набора данных), в вычислениях используется скрытая оценка количества меток, заданная пользователем.
где — набор всех возможных признаков.
Преобразование водораздела рассматривает градиентную величину изображения как топографическую поверхность. Пиксели с наивысшей интенсивностью градиентной величины (GMI) соответствуют линиям водораздела, которые представляют границы региона. Вода, помещенная на любой пиксель, заключенный в общую линию водораздела, течет вниз по склону к общему локальному минимуму интенсивности (LIM). Пиксели, стекающие в общий минимум, образуют водосборный бассейн, который представляет сегмент.
Центральным предположением подходов на основе моделей является то, что интересующие структуры имеют тенденцию к определенной форме. Поэтому можно искать вероятностную модель, которая характеризует форму и ее вариацию. При сегментации изображения ограничения могут быть наложены с использованием этой модели в качестве априорной. [63] Такая задача может включать (i) регистрацию обучающих примеров в общей позе, (ii) вероятностное представление вариации зарегистрированных образцов и (iii) статистический вывод между моделью и изображением. Другие важные методы в литературе для сегментации на основе моделей включают активные модели формы и активные модели внешнего вида .
Сегментация изображений вычисляется в нескольких масштабах в масштабном пространстве и иногда распространяется от грубых к мелким масштабам; см. сегментация в масштабном пространстве .
Критерии сегментации могут быть произвольно сложными и могут учитывать как глобальные, так и локальные критерии. Общим требованием является то, что каждый регион должен быть связан в некотором смысле.
Основополагающая работа Уиткина [64] [65] в области масштабного пространства включала представление о том, что одномерный сигнал может быть однозначно сегментирован на области, при этом один параметр масштаба управляет масштабом сегментации.
Ключевое наблюдение заключается в том, что нулевые пересечения вторых производных (минимумы и максимумы первой производной или наклона) многомасштабно сглаженных версий сигнала образуют вложенное дерево, которое определяет иерархические отношения между сегментами в разных масштабах. В частности, экстремумы наклона в грубых масштабах можно проследить до соответствующих особенностей в мелких масштабах. Когда максимум наклона и минимум наклона уничтожают друг друга в большем масштабе, три сегмента, которые они разделили, объединяются в один сегмент, тем самым определяя иерархию сегментов.
В этой области было проведено множество исследовательских работ, из которых несколько сейчас достигли состояния, когда их можно применять либо с интерактивным ручным вмешательством (обычно с применением к медицинской визуализации), либо полностью автоматически. Ниже приводится краткий обзор некоторых основных исследовательских идей, на которых основаны современные подходы.
Однако структура вложенности, описанная Виткиным, специфична для одномерных сигналов и не переносится тривиально на многомерные изображения. Тем не менее, эта общая идея вдохновила нескольких других авторов на исследование схем «от грубой к тонкой» для сегментации изображений. Кондеринк [66] предложил изучить, как изоинтенсивные контуры развиваются в зависимости от масштаба, и этот подход был более подробно исследован Лифшицем и Пайзером [67] . К сожалению, однако, интенсивность характеристик изображения меняется в зависимости от масштаба, что означает, что трудно проследить грубые характеристики изображения до более мелких масштабов, используя информацию об изоинтенсивности.
Линдеберг [68] [69] изучал проблему связывания локальных экстремумов и седловых точек по масштабам и предложил представление изображения, называемое первичным эскизом масштабного пространства, которое делает явными отношения между структурами в разных масштабах, а также делает явными, какие особенности изображения являются стабильными в больших диапазонах масштабов, включая локально подходящие масштабы для них. Бергхольм предложил обнаруживать края в грубых масштабах в масштабном пространстве, а затем прослеживать их обратно до более мелких масштабов с ручным выбором как грубого масштаба обнаружения, так и точного масштаба локализации.
Гаух и Пайзер [70] изучили дополнительную проблему хребтов и долин в нескольких масштабах и разработали инструмент для интерактивной сегментации изображений на основе многомасштабных водоразделов. Использование многомасштабного водораздела с применением к карте градиента также исследовалось Олсеном и Нильсеном [71] и было перенесено в клиническое использование Дамом. [72] Винкен и др. [73] предложили гиперстек для определения вероятностных отношений между структурами изображений в разных масштабах. Использование стабильных структур изображений в масштабах было развито Ахуджей [74] [75] и его коллегами в полностью автоматизированную систему. Полностью автоматический алгоритм сегментации мозга, основанный на тесно связанных идеях многомасштабных водоразделов, был представлен Ундеманом и Линдебергом [76] и был тщательно протестирован в базах данных мозга.
Эти идеи для сегментации многомасштабных изображений путем связывания структур изображений по масштабам также были подхвачены Флораком и Кёйпером. [77] Бижауи и Рю [78] связывают структуры, обнаруженные в масштабном пространстве выше минимального порога шума, в дерево объектов, которое охватывает несколько масштабов и соответствует типу признака в исходном сигнале. Извлеченные признаки точно реконструируются с использованием итеративного метода сопряженной матрицы градиента.
При одном из видов сегментации пользователь очерчивает интересующую область с помощью щелчков мыши, а алгоритмы применяются таким образом, чтобы отобразить путь, наилучшим образом соответствующий краю изображения.
В этом виде сегментации используются такие методы, как SIOX , Livewire , Intelligent Scissors или IT-SNAPS. В альтернативном виде полуавтоматической сегментации алгоритмы возвращают пространственный таксон (т. е. передний план, объект-группа, объект или объект-часть), выбранный пользователем или обозначенный с помощью априорных вероятностей. [79] [80]
Большинство вышеупомянутых методов сегментации основаны только на цветовой информации пикселей на изображении. Люди используют гораздо больше знаний при выполнении сегментации изображения, но реализация этих знаний потребует значительных затрат на инженерию и вычислительное время, а также огромной базы данных знаний предметной области , которая в настоящее время не существует. Обучаемые методы сегментации, такие как сегментация нейронной сети , преодолевают эти проблемы, моделируя знания предметной области из набора данных помеченных пикселей.
Нейронная сеть сегментации изображения может обрабатывать небольшие области изображения для извлечения простых признаков, таких как края. [81] Другая нейронная сеть или любой механизм принятия решений может затем объединить эти признаки для соответствующей маркировки областей изображения. Тип сети, разработанный таким образом, — карта Кохонена .
Импульсно-связанные нейронные сети (PCNN) — это нейронные модели, предложенные путем моделирования зрительной коры кошки и разработанные для высокопроизводительной биомиметической обработки изображений . В 1989 году Рейнхард Экхорн представил нейронную модель для имитации механизма зрительной коры кошки. Модель Экхорна предоставила простой и эффективный инструмент для изучения зрительной коры мелких млекопитающих и вскоре была признана имеющей значительный потенциал применения в обработке изображений. В 1994 году модель Экхорна была адаптирована в качестве алгоритма обработки изображений Джоном Л. Джонсоном, который назвал этот алгоритм импульсно-связанной нейронной сетью. [82] За последнее десятилетие PCNN использовались для различных приложений обработки изображений, включая: сегментацию изображений, генерацию признаков, извлечение лиц, обнаружение движения, выращивание областей, шумоподавление и т. д. PCNN — это двумерная нейронная сеть. Каждый нейрон в сети соответствует одному пикселю во входном изображении, получая соответствующую ему цветовую информацию пикселя (например, интенсивность) в качестве внешнего стимула. Каждый нейрон также соединяется со своими соседними нейронами, получая от них локальные стимулы. Внешние и локальные стимулы объединяются во внутреннюю систему активации, которая накапливает стимулы до тех пор, пока они не превысят динамический порог, что приводит к импульсному выходу. С помощью итеративных вычислений нейроны PCNN производят временные серии импульсных выходов. Временные серии импульсных выходов содержат информацию о входных изображениях и могут использоваться для различных приложений обработки изображений, таких как сегментация изображений и генерация признаков. По сравнению с обычными средствами обработки изображений, PCNN имеют несколько существенных преимуществ, включая устойчивость к шуму, независимость геометрических вариаций во входных шаблонах, способность преодолевать незначительные вариации интенсивности во входных шаблонах и т. д.
U-Net — это сверточная нейронная сеть , которая принимает на вход изображение и выводит метку для каждого пикселя. [83] Первоначально U-Net была разработана для обнаружения границ клеток на биомедицинских изображениях. U-Net следует классической архитектуре автокодировщика , поэтому она содержит две подструктуры. Структура кодировщика следует традиционному стеку сверточных и максимально объединяющих слоев для увеличения рецептивного поля по мере прохождения через слои. Она используется для захвата контекста на изображении. Структура декодера использует транспонированные сверточные слои для повышения частоты дискретизации, чтобы конечные размеры были близки к размерам входного изображения. Пропускные соединения размещаются между сверткой и транспонированными сверточным слоями той же формы, чтобы сохранить детали, которые в противном случае были бы потеряны.
В дополнение к задачам семантической сегментации на уровне пикселей, которые присваивают определенную категорию каждому пикселю, современные приложения сегментации включают задачи семантической сегментации на уровне экземпляра, в которых каждый индивидуум в данной категории должен быть уникально идентифицирован, а также задачи паноптической сегментации, которые объединяют эти две задачи для обеспечения более полной сегментации сцены. [20]
Связанные изображения, такие как фотоальбом или последовательность видеокадров, часто содержат семантически схожие объекты и сцены, поэтому часто бывает полезно использовать такие корреляции. [84] Задача одновременной сегментации сцен из связанных изображений или видеокадров называется совместной сегментацией , [16] которая обычно используется при локализации действий человека . В отличие от обычного обнаружения объектов на основе ограничивающего прямоугольника , методы локализации действий человека обеспечивают более детальные результаты, обычно маски сегментации для каждого изображения, описывающие интересующий человеческий объект и категорию его действий (например, Segment-Tube [17] ). Такие методы, как динамические сети Маркова , CNN и LSTM, часто используются для использования межкадровых корреляций.
Существует много других методов сегментации, таких как мультиспектральная сегментация или сегментация на основе связности, основанная на изображениях DTI . [85] [86]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )