В цифровой обработке изображений и компьютерном зрении сегментация изображения — это процесс разделения цифрового изображения на несколько сегментов изображения , также известных как области изображения или объекты изображения ( наборы пикселей ). Цель сегментации — упростить и/или изменить представление изображения на нечто более значимое и более простое для анализа. [1] [2] Сегментация изображения обычно используется для обнаружения объектов и границ (линий, кривых и т. д.) на изображениях. Точнее, сегментация изображения — это процесс присвоения метки каждому пикселю изображения таким образом, чтобы пиксели с одинаковой меткой имели определенные характеристики.
Результатом сегментации изображения является набор сегментов, которые в совокупности покрывают все изображение, или набор контуров , извлеченных из изображения (см. Обнаружение краев ). Каждый из пикселей в области аналогичен некоторой характеристике или вычисленному свойству, [3] например цвету , интенсивности или текстуре . Соседние регионы значительно различаются по цвету по одной и той же характеристике. [1] При применении к стопке изображений, что типично для медицинской визуализации , полученные контуры после сегментации изображения можно использовать для создания 3D-реконструкций с помощью алгоритмов реконструкции геометрии, таких как марширующие кубы . [4]
Некоторые из практических применений сегментации изображений:
Для сегментации изображений было разработано несколько алгоритмов и методов общего назначения . Чтобы быть полезными, эти методы обычно должны сочетаться со специфическими знаниями предметной области, чтобы эффективно решать проблемы сегментации предметной области.
Существует два класса методов сегментации.
Самый простой метод сегментации изображений называется методом пороговой обработки . Этот метод основан на уровне ограничения (или пороговом значении) для преобразования изображения в оттенках серого в двоичное изображение.
Ключевым моментом этого метода является выбор порогового значения (или значений, если выбрано несколько уровней). В промышленности используются несколько популярных методов, включая метод максимальной энтропии, пороговое определение сбалансированной гистограммы , метод Оцу (максимальной дисперсии) и кластеризацию k-средних .
Недавно были разработаны методы пороговой обработки изображений компьютерной томографии (КТ). Основная идея заключается в том, что, в отличие от метода Оцу, пороговые значения определяются на основе рентгенограмм, а не (реконструированного) изображения. [21] [22]
Новые методы предложили использовать многомерные нечеткие правила, основанные на нелинейных порогах. В этих работах решение о принадлежности каждого пикселя к сегменту основано на многомерных правилах, полученных на основе нечеткой логики, и эволюционных алгоритмах, основанных на среде освещения изображения и его применении. [23]
Алгоритм K-средних — это итеративный метод, который используется для разделения изображения на K- кластеры. [24] Основной алгоритм :
В данном случае расстояние — это квадрат или абсолютная разница между пикселем и центром кластера. Разница обычно зависит от цвета пикселя , интенсивности , текстуры и местоположения или взвешенной комбинации этих факторов. K можно выбрать вручную, случайным образом или с помощью эвристики . Этот алгоритм гарантированно сходится, но может не вернуть оптимальное решение. Качество решения зависит от исходного набора кластеров и значения K.
Алгоритм среднего сдвига — это метод, который используется для разделения изображения на неизвестное априорное количество кластеров. Преимущество этого подхода состоит в том, что ему не нужно начинать с первоначального предположения такого параметра, что делает его лучшим общим решением для более разнообразных случаев.
Сегментация на основе движения — это метод, который использует движение изображения для выполнения сегментации.
Идея проста: посмотрите на различия между парой изображений. Если предположить, что интересующий объект движется, разница будет именно в этом объекте.
Развивая эту идею, Kenney et al. предложил интерактивную сегментацию [2]. Они используют робота, который тыкает объекты, чтобы сгенерировать сигнал движения, необходимый для сегментации на основе движения.
Интерактивная сегментация следует концепции интерактивного восприятия, предложенной Дов Кацем [3] и Оливером Броком [4].
Другой метод, основанный на движении, — это сегментация жесткого движения .
Методы, основанные на сжатии, постулируют, что оптимальная сегментация — это та, которая минимизирует по всем возможным сегментациям длину кодирования данных. [25] [26] Связь между этими двумя концепциями заключается в том, что сегментация пытается найти закономерности в изображении, и любая закономерность в изображении может быть использована для его сжатия. Метод описывает каждый сегмент по его текстуре и форме границ. Каждый из этих компонентов моделируется функцией распределения вероятностей, а длина его кодирования вычисляется следующим образом:
Для любой заданной сегментации изображения эта схема дает количество битов, необходимое для кодирования этого изображения, на основе данной сегментации. Таким образом, среди всех возможных сегментаций изображения цель состоит в том, чтобы найти сегментацию, которая обеспечивает наименьшую длину кодирования. Этого можно достичь с помощью простого метода агломеративной кластеризации. Искажение при сжатии с потерями определяет грубость сегментации, и ее оптимальное значение может отличаться для каждого изображения. Этот параметр можно оценить эвристически по контрасту текстур изображения. Например, если текстуры в изображении схожи, например, в камуфляжных изображениях, требуется более высокая чувствительность и, следовательно, более низкое квантование.
Методы на основе гистограмм очень эффективны по сравнению с другими методами сегментации изображений, поскольку обычно требуют только одного прохода по пикселям . В этом методе гистограмма вычисляется на основе всех пикселей изображения, а пики и впадины гистограммы используются для определения местоположения кластеров на изображении. [1] В качестве меры можно использовать цвет или интенсивность .
Усовершенствование этого метода заключается в рекурсивном применении метода поиска по гистограмме к кластерам изображения, чтобы разделить их на более мелкие кластеры. Эту операцию повторяют с меньшими и меньшими кластерами, пока кластеры не перестанут образовываться. [1] [27]
Одним из недостатков метода поиска по гистограмме является то, что может быть сложно идентифицировать значительные пики и впадины на изображении.
Подходы на основе гистограмм также можно быстро адаптировать для применения к нескольким кадрам, сохраняя при этом эффективность за один проход. Гистограмму можно построить несколькими способами, если рассматривается несколько кадров. Тот же подход, который применяется к одному кадру, можно применить к нескольким, и после объединения результатов пики и впадины, которые раньше было трудно идентифицировать, с большей вероятностью будут различимы. Гистограмму также можно применять для каждого пикселя, где полученная информация используется для определения наиболее частого цвета для местоположения пикселя. Этот подход сегментирует на основе активных объектов и статической среды, в результате чего получается другой тип сегментации, полезный при отслеживании видео .
Обнаружение краев — это отдельная хорошо развитая область обработки изображений. Границы и края регионов тесно связаны, поскольку на границах региона часто происходит резкая регулировка интенсивности. Поэтому методы обнаружения границ были использованы в качестве основы для другого метода сегментации.
Края, идентифицированные при обнаружении краев, часто не связаны. Однако, чтобы сегментировать объект из изображения, необходимы границы замкнутой области. Желаемые края — это границы между такими объектами или пространственными таксонами. [28] [29]
Пространственные таксоны [30] представляют собой информационные гранулы, [31] состоящие из четкой пиксельной области, расположенной на уровнях абстракции внутри иерархической вложенной архитектуры сцены. Они подобны гештальт- психологическому обозначению фона фигуры, но расширены и включают передний план, группы объектов, объекты и заметные части объекта. Методы обнаружения краев можно применять к области пространственных таксонов так же, как они применяются к силуэту. Этот метод особенно полезен, когда отсоединенное ребро является частью иллюзорного контура [32] [33]
Методы сегментации также можно применять к краям, полученным с помощью детекторов краев. Линдеберг и Ли [34] разработали интегрированный метод, который сегментирует края на сегменты с прямыми и изогнутыми краями для распознавания объектов на основе частей, на основе критерия минимальной длины описания (M DL ), который был оптимизирован с помощью метода разделения и слияния. с возможными точками останова, полученными из дополнительных сигналов соединения, чтобы получить более вероятные точки, в которых можно рассматривать разделения на разные сегменты.
Этот метод представляет собой сочетание трех характеристик изображения: разделение изображения на основе анализа гистограмм проверяется по высокой компактности кластеров (объектов) и высоким градиентам их границ. Для этого необходимо ввести два пространства: одно — одномерная гистограмма яркости H = H ( B ); второе пространство — это двойственное трехмерное пространство самого исходного изображения B = B ( x , y ). Первое пространство позволяет измерить, насколько компактно распределена яркость изображения, вычисляя минимальную кластеризацию kmin. Пороговая яркость T, соответствующая kmin, определяет бинарное (черно-белое) изображение – растровое изображение b = φ ( x , y ), где φ ( x , y ) = 0, если B ( x , y ) < T , и φ ( Икс , y ) знак равно 1, если B ( Икс , y ) ≥ Т . Растровое изображение b представляет собой объект в двойном пространстве. В этом растровом изображении необходимо определить меру, отражающую компактность распределенных черных (или белых) пикселей. Итак, цель — найти объекты с хорошими границами. Для всех T необходимо вычислить меру M DC = G /( k × L ) (где k — разница в яркости между объектом и фоном, L — длина всех границ, а G — средний градиент на границах). Максимум MDC определяет сегментацию. [35]
Методы выращивания регионов основаны главным образом на предположении, что соседние пиксели внутри одного региона имеют одинаковые значения. Обычной процедурой является сравнение одного пикселя с его соседями. Если критерий сходства удовлетворен, пиксель можно отнести к тому же кластеру, что и один или несколько его соседей. Выбор критерия сходства имеет важное значение, и во всех случаях на результаты влияет шум.
Метод статистического слияния областей [36] (SRM) начинается с построения графа пикселей с использованием 4-связности с ребрами, взвешенными по абсолютному значению разности интенсивностей. Первоначально каждый пиксель образует одну пиксельную область. Затем SRM сортирует эти края в очереди приоритетов и решает, следует ли объединять текущие области, принадлежащие пикселям краев, с помощью статистического предиката.
Одним из методов выращивания региона является метод выращивания засеянного региона. Этот метод принимает на вход набор семян вместе с изображением. Семена отмечают каждый из объектов, подлежащих сегментации. Области итеративно выращиваются путем сравнения всех нераспределенных соседних пикселей с регионами. Разница между значением интенсивности пикселя и средним значением региона используется как мера сходства . Пиксель с наименьшей измеренной таким образом разницей присваивается соответствующей области. Этот процесс продолжается до тех пор, пока все пиксели не будут назначены региону. Поскольку для выращивания засеянной области требуются семена в качестве дополнительных входных данных, результаты сегментации зависят от выбора семян, а шум на изображении может привести к неправильному размещению семян.
Другой метод выращивания регионов — это метод выращивания регионов без засеивания. Это модифицированный алгоритм, не требующий явных начальных значений. Все начинается с одной области — выбранный здесь пиксель не оказывает заметного влияния на окончательную сегментацию. На каждой итерации он учитывает соседние пиксели так же, как при выращивании затравленной области. Он отличается от выращивания затравленного региона тем, что если минимум меньше заранее определенного порога, то он добавляется к соответствующему региону . Если нет, то пиксель считается отличным от всех текущих регионов и с этим пикселем создается новый регион .
Один из вариантов этого метода, предложенный Хараликом и Шапиро (1985), [1] основан на интенсивности пикселей . Среднее значение и разброс области, а также интенсивность пикселя-кандидата используются для вычисления тестовой статистики. Если статистика теста достаточно мала, пиксель добавляется к региону, а среднее значение и разброс региона вычисляются заново. В противном случае пиксель отклоняется и используется для формирования новой области.
Специальный метод выращивания регионов называется -связной сегментацией (см. также лямбда-связность ). Он основан на интенсивности пикселей и путях, связывающих окрестности. Степень связности (связности) рассчитывается на основе пути, который формируется пикселями. При определенном значении два пикселя называются -связными, если существует путь, соединяющий эти два пикселя, и связность этого пути не ниже . -связность – это отношение эквивалентности. [37]
Сегментация разделения и слияния основана на разделении изображения в виде квадродерева . Иногда это называют сегментацией квадродерева.
Этот метод начинается с корня дерева, которое представляет все изображение. Если он оказывается неоднородным (не однородным), то он разбивается на четыре дочерних квадрата (процесс разделения) и так далее. Если, напротив, четыре дочерних квадрата однородны, они объединяются как несколько связанных компонентов (процесс слияния). Узел в дереве является сегментированным узлом. Этот процесс продолжается рекурсивно до тех пор, пока дальнейшее разделение или слияние становится невозможным. [38] [39] Когда в реализации алгоритма метода участвует специальная структура данных, ее временная сложность может достигать , оптимального алгоритма метода. [40]
Используя метод на основе уравнения в частных производных (УЧП) и решая уравнение УЧП с помощью числовой схемы, можно сегментировать изображение. [41] Распространение кривой — популярный метод в этой категории, имеющий многочисленные применения для извлечения объектов, отслеживания объектов, стереореконструкции и т. д. Основная идея состоит в том, чтобы развить исходную кривую в направлении наименьшего потенциала функции стоимости, где ее определение отражает задача, которую предстоит решить. Что касается большинства обратных задач , то минимизация функционала стоимости нетривиальна и накладывает на решение определенные ограничения на гладкость, которые в данном случае могут быть выражены как геометрические ограничения на развивающуюся кривую.
Методы Лагранжа основаны на параметризации контура в соответствии с некоторой стратегией выборки и последующей эволюции каждого элемента в соответствии с изображением и внутренними условиями. Такие методы быстры и эффективны, однако первоначальная «чисто параметрическая» формулировка (придуманная Кассом, Уиткином и Терзопулосом в 1987 году и известная как « змеи ») обычно подвергается критике за ее ограничения в отношении выбора стратегии выборки, внутренних геометрических свойств кривой, изменения топологии (разделение и слияние кривых), решение проблем в более высоких измерениях и т. д. В настоящее время разработаны эффективные «дискретизированные» формулировки для устранения этих ограничений при сохранении высокой эффективности. В обоих случаях минимизация энергии обычно проводится с использованием скорейшего градиентного спуска, при котором производные вычисляются, например, с использованием конечных разностей.
Метод набора уровней был первоначально предложен для отслеживания движущихся интерфейсов Дервье и Томассетом [42] [43] в 1979 и 1981 годах, а затем был заново изобретен Ошером и Сетианом в 1988 году. [44] В последнее время он распространился на различные области визуализации. 1990-е годы. Его можно использовать для эффективного решения проблемы кривой/поверхности/и т. д. распространение неявным образом. Основная идея состоит в том, чтобы представить развивающийся контур с помощью функции со знаком, нуль которой соответствует фактическому контуру. Тогда по уравнению движения контура можно легко вывести аналогичное течение для неявной поверхности, которое при приложении к нулевому уровню будет отражать распространение контура. Метод набора уровней дает множество преимуществ: он неявный, не содержит параметров, обеспечивает прямой способ оценки геометрических свойств развивающейся структуры, позволяет изменять топологию и является внутренним. Ее можно использовать для определения структуры оптимизации, как это было предложено Чжао, Мерриманом и Ошером в 1996 году. Можно сделать вывод, что это очень удобная основа для решения многочисленных приложений компьютерного зрения и анализа медицинских изображений. [45] Исследования различных структур данных с набором уровней привели к очень эффективной реализации этого метода.
Метод быстрого марша использовался при сегментации изображений [46] , и эта модель была улучшена (допуская как положительные, так и отрицательные скорости распространения) в подходе, называемом обобщенным методом быстрого марша. [47]
Целью вариационных методов является нахождение сегментации, оптимальной по отношению к конкретному энергетическому функционалу. Функционалы состоят из термина аппроксимации данных и регуляризирующего термина. Классическим представителем является модель Поттса , определенная для изображения по формуле
Минимизатор — это кусочно-постоянное изображение, имеющее оптимальный компромисс между квадратом расстояния L2 до данного изображения и общей длиной его набора переходов. Набор переходов определяет сегментацию. Относительный вес энергий настраивается параметром . Бинарный вариант модели Поттса, т. е. когда диапазон ограничен двумя значениями, часто называют моделью Шан- Везе . [48] Важным обобщением является модель Мамфорда-Шаха [49], определяемая формулой
Функциональное значение представляет собой сумму общей длины кривой сегментации , гладкости аппроксимации и ее расстояния до исходного изображения . Вес штрафа за плавность регулируется с помощью . Модель Поттса часто называют кусочно-постоянной моделью Мамфорда-Шаха, поскольку ее можно рассматривать как вырожденный случай . Известно, что задачи оптимизации в целом NP-сложны, но стратегии, близкие к минимизации, хорошо работают на практике. Классические алгоритмы — градуированная невыпуклость и аппроксимация Амбросио-Торторелли .
Методы разделения графов являются эффективными инструментами сегментации изображений, поскольку они моделируют влияние окрестностей пикселей на заданный кластер пикселей или пиксель в предположении однородности изображений. В этих методах изображение моделируется как взвешенный неориентированный граф . Обычно пиксель или группа пикселей связаны с узлами , а веса ребер определяют (не)сходство между соседними пикселями. Затем граф (изображение) разбивается в соответствии с критерием, разработанным для моделирования «хороших» кластеров. Каждый раздел узлов (пикселей), выводимых этими алгоритмами, считается сегментом объекта на изображении; см. Категоризацию объектов на основе сегментации . Некоторыми популярными алгоритмами этой категории являются нормализованные разрезы, [50] случайное блуждание , [51] минимальный разрез, [52] изопериметрическое разбиение, [53] сегментация на основе минимального остовного дерева , [54] и категоризация объектов на основе сегментации .
Применение марковских случайных полей (MRF) для изображений было предложено в начале 1984 года Геманом и Геманом. [55] Их сильная математическая основа и способность обеспечивать глобальный оптимум, даже если он определен на локальных особенностях, оказались основой для новых исследований в области анализа изображений, шумоподавления и сегментации. MRF полностью характеризуются своими априорными распределениями вероятностей, маргинальными распределениями вероятностей, кликами , ограничением сглаживания, а также критерием обновления значений. Критерий сегментации изображений с использованием MRF переформулирован как поиск схемы маркировки, которая имеет максимальную вероятность для данного набора признаков. Широкие категории сегментации изображений с использованием MRF — это контролируемая и неконтролируемая сегментация.
С точки зрения сегментации изображения, функция, которую MRF стремятся максимизировать, — это вероятность идентификации схемы маркировки при условии, что на изображении обнаружен определенный набор функций. Это переформулировка метода максимальной апостериорной оценки .
Общий алгоритм сегментации изображений с использованием MAP приведен ниже:
Каждый алгоритм оптимизации представляет собой адаптацию моделей из различных областей и отличается своими уникальными функциями стоимости. Общей чертой функций стоимости является штраф за изменение значения пикселя, а также за разницу в метке пикселя по сравнению с метками соседних пикселей.
Алгоритм итерированных условных режимов (ICM) пытается восстановить идеальную схему маркировки, изменяя значения каждого пикселя на каждой итерации и оценивая энергию новой схемы маркировки, используя функцию стоимости, приведенную ниже:
где α — штраф за изменение метки пикселя, а β — штраф за разницу в метке между соседними пикселями и выбранным пикселем. Здесь окрестность пикселя i, а δ — дельта-функция Кронекера. Основная проблема ICM заключается в том, что, как и в случае с градиентным спуском, он имеет тенденцию останавливаться на локальных максимумах и, таким образом, не позволяет получить глобально оптимальную схему разметки.
Созданный как аналог отжига в металлургии, имитационный отжиг (SA) использует изменение метки пикселя в течение итераций и оценивает разницу в энергии каждого вновь сформированного графа с исходными данными. Если вновь сформированный график более выгоден с точки зрения низких затрат энергии, определяемый формулой:
алгоритм выбирает вновь сформированный граф. Имитация отжига требует ввода температурных графиков, которые напрямую влияют на скорость сходимости системы, а также на энергетический порог для минимизации.
Существует ряд других методов для решения как простых, так и MRF более высокого порядка. Они включают в себя максимизацию задней границы, многомасштабную оценку MAP, [56] сегментацию с множественным разрешением [57] и многое другое. Помимо оценок правдоподобия, для решения MRF существуют методы разрезания графа с использованием максимального потока [58] и другие методы, основанные на графах с сильными ограничениями [59] [60] .
Алгоритм максимизации ожидания используется для итеративной оценки апостериорных вероятностей и распределений маркировки, когда данные обучения недоступны и оценка модели сегментации не может быть сформирована. Общий подход состоит в том, чтобы использовать гистограммы для представления характеристик изображения и действовать, как кратко описано в этом трехэтапном алгоритме:
1. Используется случайная оценка параметров модели.
2. Шаг E: Оцените статистику класса на основе определенной модели случайной сегментации. Используя их, вычислите условную вероятность принадлежности к метке, учитывая, что набор функций рассчитывается с использованием наивной теоремы Байеса .
Здесь набор всех возможных меток.
3. Шаг M: установленная релевантность данного набора функций схеме маркировки теперь используется для вычисления априорной оценки данной метки во второй части алгоритма. Поскольку фактическое количество меток неизвестно (из набора обучающих данных), в вычислениях используется скрытая оценка количества меток, заданная пользователем.
где – набор всех возможных признаков.
Преобразование водораздела рассматривает величину градиента изображения как топографическую поверхность. Пиксели, имеющие самую высокую интенсивность градиента (GMI), соответствуют линиям водораздела, которые представляют границы региона. Вода, помещенная в любой пиксель, окруженный общей линией водораздела, стекает вниз к общему локальному минимуму интенсивности (LIM). Пиксели, сходящиеся к общему минимуму, образуют водосборник, который представляет собой сегмент.
Центральное предположение подходов, основанных на моделях, заключается в том, что интересующие структуры имеют тенденцию к определенной форме. Поэтому можно искать вероятностную модель, характеризующую форму и ее изменение. При сегментации изображения можно наложить ограничения, используя эту модель в качестве априорной. [61] Такая задача может включать в себя (i) регистрацию обучающих примеров в общей позе, (ii) вероятностное представление вариации зарегистрированных образцов и (iii) статистический вывод между моделью и изображением. Другие важные методы сегментации на основе моделей, описанные в литературе, включают модели активной формы и модели активного внешнего вида .
Сегментация изображения вычисляется в нескольких масштабах в масштабном пространстве и иногда распространяется от грубого к мелкому масштабу; см. сегментацию масштаба и пространства .
Критерии сегментации могут быть сколь угодно сложными и могут учитывать как глобальные, так и локальные критерии. Общим требованием является то, что каждый регион должен быть в некотором смысле связан.
Основополагающая работа Уиткина [62] [63] по масштабному пространству включала идею о том, что одномерный сигнал может быть однозначно сегментирован на области с одним параметром масштаба, управляющим масштабом сегментации.
Ключевое наблюдение заключается в том, что пересечения нуля вторых производных (минимумов и максимумов первой производной или наклона) сглаженных в нескольких масштабах версий сигнала образуют дерево вложенности, которое определяет иерархические отношения между сегментами в разных масштабах. В частности, экстремумы наклонов в крупных масштабах можно проследить до соответствующих характеристик в мелких масштабах. Когда максимум и минимум наклона аннигилируют друг друга в большем масштабе, три сегмента, которые они разделили, сливаются в один сегмент, определяя тем самым иерархию сегментов.
В этой области было проведено множество исследовательских работ, некоторые из которых сейчас достигли состояния, когда их можно применять либо с помощью интерактивного ручного вмешательства (обычно с применением к медицинской визуализации), либо полностью автоматически. Ниже приводится краткий обзор некоторых основных исследовательских идей, на которых основаны современные подходы.
Однако описанная Уиткином структура вложенности специфична для одномерных сигналов и не переносится тривиально на многомерные изображения. Тем не менее, эта общая идея вдохновила нескольких других авторов на исследование схем сегментации изображений от грубого до мелкого. Кендеринк [64] предложил изучить, как контуры изоинтенсивности развиваются по масштабам, и этот подход был более подробно исследован Лифшицем и Пайзером. [65] Однако, к сожалению, интенсивность элементов изображения меняется в зависимости от масштаба, а это означает, что трудно проследить крупномасштабные элементы изображения до более мелких масштабов, используя информацию об изоинтенсивности.
Линдеберг [66] [67] изучил проблему соединения локальных экстремумов и седловых точек в масштабах и предложил представление изображения, называемое первичным эскизом масштабного пространства, которое делает явными отношения между структурами в разных масштабах, а также показывает, какие особенности изображения стабильны в больших диапазонах масштабов, включая соответствующие локально масштабы. Бергхольм предложил обнаруживать края в крупных масштабах в масштабном пространстве, а затем отслеживать их до более мелких масштабов с ручным выбором как грубого масштаба обнаружения, так и мелкого масштаба локализации.
Гауч и Пайзер [68] изучили взаимодополняющую проблему хребтов и долин в нескольких масштабах и разработали инструмент для интерактивной сегментации изображений на основе многомасштабных водоразделов. Использование многомасштабного водораздела с применением к карте градиента также исследовалось Олсеном и Нильсеном [69] и было перенесено в клиническое использование Дамом. [70] Винкен и др. [71] предложили гиперстек для определения вероятностных отношений между структурами изображений в разных масштабах. Использование стабильных структур изображений в масштабах было развито Ахуджей [72] [73] и его коллегами в полностью автоматизированную систему. Полностью автоматический алгоритм сегментации мозга, основанный на тесно связанных идеях многомасштабных водоразделов, был представлен Ундеманом и Линдебергом [74] и тщательно протестирован в базах данных мозга.
Эти идеи многомасштабной сегментации изображений путем связывания структур изображения по масштабам также были подхвачены Флораком и Куйпером. [75] Бижауи и Рюэ [76] связывают структуры, обнаруженные в масштабном пространстве выше минимального шумового порога, с деревом объектов, которое охватывает несколько масштабов и соответствует своего рода признаку исходного сигнала. Извлеченные признаки точно реконструируются с использованием итерационного метода матрицы сопряженных градиентов.
При одном из видов сегментации пользователь выделяет интересующую область щелчками мыши, и алгоритмы применяются таким образом, чтобы отображался путь, который лучше всего соответствует краю изображения.
В этом виде сегментации используются такие методы, как SIOX , Livewire , Intelligent Scissors или IT-SNAPS. В альтернативном виде полуавтоматической сегментации алгоритмы возвращают пространственный таксон (т.е. передний план, группу объектов, объект или часть объекта), выбранный пользователем или обозначенный с помощью априорных вероятностей. [77] [78]
Большинство вышеупомянутых методов сегментации основаны только на информации о цвете пикселей изображения. Люди используют гораздо больше знаний при сегментации изображений, но реализация этих знаний потребует значительных затрат человеческого времени и вычислительного времени, а также потребует огромной базы данных предметных знаний , которой в настоящее время не существует. Обучаемые методы сегментации, такие как сегментация нейронных сетей , решают эти проблемы за счет моделирования знаний предметной области из набора данных помеченных пикселей.
Нейронная сеть сегментации изображения может обрабатывать небольшие области изображения для извлечения простых функций, таких как края. [79] Другая нейронная сеть или любой механизм принятия решений может затем объединить эти функции, чтобы соответствующим образом пометить области изображения. Типом сети, спроектированной таким образом, является карта Кохонена .
Нейронные сети с импульсной связью (PCNN) — это нейронные модели, предложенные путем моделирования зрительной коры головного мозга кошки и разработанные для высокопроизводительной биомиметической обработки изображений . В 1989 году Рейнхард Экхорн представил нейронную модель, имитирующую механизм зрительной коры кошки. Модель Экхорна предоставила простой и эффективный инструмент для изучения зрительной коры мелких млекопитающих и вскоре была признана имеющей значительный потенциал применения при обработке изображений. В 1994 году модель Экхорна была адаптирована в качестве алгоритма обработки изображений Джоном Л. Джонсоном, который назвал этот алгоритм нейронной сетью с импульсной связью. [80] За последнее десятилетие PCNN использовались для различных приложений по обработке изображений, включая: сегментацию изображений, генерацию признаков, извлечение лиц, обнаружение движения, увеличение области, уменьшение шума и так далее. PCNN — это двумерная нейронная сеть. Каждый нейрон в сети соответствует одному пикселю входного изображения, получая информацию о цвете соответствующего пикселя (например, интенсивности) в качестве внешнего стимула. Каждый нейрон также соединяется с соседними нейронами, получая от них локальные стимулы. Внешние и локальные стимулы объединяются во внутреннюю систему активации, которая накапливает стимулы до тех пор, пока они не превысят динамический порог, что приводит к импульсному выходу. Посредством итеративных вычислений нейроны PCNN создают временные серии импульсных выходных сигналов. Временная серия выходных импульсов содержит информацию о входных изображениях и может использоваться для различных приложений обработки изображений, таких как сегментация изображений и генерация признаков. По сравнению с традиционными средствами обработки изображений PCNN имеют несколько существенных преимуществ, включая устойчивость к шуму, независимость от геометрических изменений входных шаблонов, способность компенсировать незначительные изменения интенсивности входных шаблонов и т. д.
U-Net — это сверточная нейронная сеть , которая принимает на вход изображение и выводит метку для каждого пикселя. [81] Первоначально U-Net была разработана для обнаружения границ клеток на биомедицинских изображениях. U-Net следует классической архитектуре автокодировщика , поэтому он содержит две подструктуры. Структура кодера соответствует традиционному стеку сверточных слоев и слоев максимального пула для увеличения воспринимающего поля при прохождении через слои. Он используется для фиксации контекста изображения. Структура декодера использует транспонированные слои свертки для повышения дискретизации, чтобы конечные размеры были близки к размерам входного изображения. Пропускные соединения размещаются между слоями свертки и транспонированными слоями свертки одной и той же формы, чтобы сохранить детали, которые в противном случае были бы потеряны.
В дополнение к задачам семантической сегментации на уровне пикселей, которые присваивают определенную категорию каждому пикселю, современные приложения сегментации включают задачи семантической сегментации на уровне экземпляра, в которых каждый человек в данной категории должен быть однозначно идентифицирован, а также задачи паноптической сегментации, которые объединяют эти задачи. две задачи для обеспечения более полной сегментации сцены. [20]
Связанные изображения, такие как фотоальбом или последовательность видеокадров, часто содержат семантически схожие объекты и сцены, поэтому часто полезно использовать такие корреляции. [82] Задача одновременного сегментирования сцен из связанных изображений или видеокадров называется совместной сегментацией , [16] которая обычно используется при локализации действий человека . В отличие от обычного обнаружения объектов на основе ограничительной рамки , методы локализации действий человека обеспечивают более детальные результаты, как правило, маски сегментации для каждого изображения, очерчивающие интересующий человеческий объект и категорию его действия (например, Segment-Tube [17] ). Такие методы, как динамические марковские сети , CNN и LSTM , часто используются для использования межкадровых корреляций.
Существует множество других методов сегментации, таких как мультиспектральная сегментация или сегментация на основе связности на основе изображений DTI . [83] [84]
{{cite journal}}
: Требуется цитировать журнал |journal=
( помощь )