stringtranslate.com

Масштаб пространства

Теория масштабного пространства — это структура для многомасштабного представления сигнала , разработанная сообществами компьютерного зрения , обработки изображений и обработки сигналов с дополнительными мотивами из физики и биологического зрения . Это формальная теория для обработки структур изображения в разных масштабах , путем представления изображения как однопараметрического семейства сглаженных изображений, представления масштабного пространства , параметризованного размером сглаживающего ядра, используемого для подавления мелкомасштабных структур. [1] [2] [3] [4] [5] [6] [7] [8] Параметр в этом семействе называется параметром масштаба , с интерпретацией того, что структуры изображения пространственного размера, меньшего примерно, в значительной степени сглажены на уровне масштабного пространства в масштабе .

Основным типом масштабного пространства является линейное (гауссово) масштабное пространство , которое имеет широкую применимость, а также привлекательное свойство быть выведенным из небольшого набора аксиом масштабного пространства . Соответствующая структура масштабного пространства охватывает теорию для гауссовых производных операторов, которая может быть использована в качестве основы для выражения большого класса визуальных операций для компьютеризированных систем, которые обрабатывают визуальную информацию. Эта структура также позволяет сделать визуальные операции масштабно-инвариантными , что необходимо для работы с изменениями размеров, которые могут возникнуть в данных изображения, поскольку объекты реального мира могут иметь разные размеры, и, кроме того, расстояние между объектом и камерой может быть неизвестно и может меняться в зависимости от обстоятельств. [9] [10]

Определение

Понятие масштабного пространства применяется к сигналам произвольного числа переменных. Наиболее распространенный случай в литературе применяется к двумерным изображениям, что и представлено здесь. Для заданного изображения его линейное (гауссово) масштабное представление пространства представляет собой семейство производных сигналов, определяемых сверткой с двумерным гауссовым ядром

такой что

где точка с запятой в аргументе подразумевает, что свертка выполняется только над переменными , тогда как параметр масштаба после точки с запятой просто указывает, какой уровень масштаба определяется. Это определение работает для континуума масштабов , но обычно фактически рассматривается только конечный дискретный набор уровней в представлении масштабного пространства.

Параметр масштаба является дисперсией гауссовского фильтра и в качестве предела для фильтра становится импульсной функцией , так что представление масштабного пространства на уровне масштаба является самим изображением . По мере увеличения является результатом сглаживания с помощью все большего и большего фильтра, тем самым удаляя все больше и больше деталей, которые содержит изображение. Поскольку стандартное отклонение фильтра равно , детали, которые значительно меньше этого значения, в значительной степени удаляются из изображения при параметре масштаба , см. следующий рисунок и [11] для графических иллюстраций.

Почему именно фильтр Гаусса?

Столкнувшись с задачей генерации многомасштабного представления, можно спросить: может ли любой фильтр g низкочастотного типа с параметром t , определяющим его ширину, использоваться для генерации масштабного пространства? Ответ — нет, поскольку крайне важно, чтобы сглаживающий фильтр не вносил новые ложные структуры в грубых масштабах, которые не соответствуют упрощениям соответствующих структур в более мелких масштабах. В литературе по масштабному пространству было выражено несколько различных способов сформулировать этот критерий в точных математических терминах.

Вывод из нескольких различных аксиоматических выводов, которые были представлены, заключается в том, что гауссово масштабное пространство представляет собой канонический способ генерации линейного масштабного пространства, основанный на существенном требовании, что новые структуры не должны создаваться при переходе от мелкого масштаба к любому более грубому масштабу. [1] [3] [4] [6] [9] [12] [ 13 ] [14] [ 15] [ 16] [17] [18] [19] Условия, называемые аксиомами масштабного пространства , которые использовались для вывода уникальности гауссова ядра, включают линейность , инвариантность сдвига , полугрупповую структуру, неусиление локальных экстремумов , масштабную инвариантность и вращательную инвариантность . В работах [15] [20] [21] уникальность, заявленная в аргументах, основанных на масштабной инвариантности, была подвергнута критике, и были предложены альтернативные самоподобные ядра масштабного пространства. Однако гауссовское ядро ​​является уникальным выбором в соответствии с аксиоматикой масштабного пространства, основанной на причинности [3] или неусилении локальных экстремумов. [16] [18]

Альтернативное определение

Эквивалентно , семейство масштабного пространства может быть определено как решение уравнения диффузии (например, в терминах уравнения теплопроводности ),

с начальным условием . Эта формулировка масштабно-пространственного представления L означает, что можно интерпретировать значения интенсивности изображения f как «распределение температуры» в плоскости изображения и что процесс, который генерирует масштабно-пространственное представление как функцию t, соответствует диффузии тепла в плоскости изображения с течением времени t (предполагая, что теплопроводность материала равна произвольно выбранной константе 1/2 ). Хотя эта связь может показаться поверхностной для читателя, не знакомого с дифференциальными уравнениями , на самом деле основная формулировка масштабного пространства в терминах неусиления локальных экстремумов выражается в терминах знакового условия для частных производных в 2+1-мерном объеме, генерируемом масштабным пространством, таким образом, в рамках частных дифференциальных уравнений . Более того, подробный анализ дискретного случая показывает, что уравнение диффузии обеспечивает объединяющую связь между непрерывными и дискретными масштабными пространствами, которая также обобщается на нелинейные масштабные пространства, например, с использованием анизотропной диффузии . Следовательно, можно сказать, что основным способом генерации масштабного пространства является уравнение диффузии, и что гауссово ядро ​​возникает как функция Грина этого конкретного частного дифференциального уравнения.

Мотивации

Мотивация создания масштабно-пространственного представления заданного набора данных исходит из базового наблюдения, что объекты реального мира состоят из различных структур в различных масштабах . Это подразумевает, что объекты реального мира, в отличие от идеализированных математических сущностей, таких как точки или линии , могут выглядеть по-разному в зависимости от масштаба наблюдения. Например, концепция «дерева» уместна в масштабе метров, в то время как такие концепции, как листья и молекулы, более уместны в более мелких масштабах. Для системы компьютерного зрения, анализирующей неизвестную сцену, нет способа узнать априори, какие масштабы подходят для описания интересных структур в данных изображения. Следовательно, единственный разумный подход — рассматривать описания в нескольких масштабах, чтобы иметь возможность фиксировать неизвестные изменения масштаба, которые могут возникнуть. Доведенное до предела, масштабно-пространственное представление рассматривает представления во всех масштабах. [9]

Другая мотивация концепции масштабного пространства исходит из процесса выполнения физического измерения на реальных данных. Чтобы извлечь какую-либо информацию из процесса измерения, необходимо применить к данным операторы не бесконечно малого размера . Во многих разделах компьютерной науки и прикладной математики размер оператора измерения игнорируется при теоретическом моделировании проблемы. С другой стороны, теория масштабного пространства явно включает необходимость в не бесконечно малом размере операторов изображения как неотъемлемой части любого измерения, а также любой другой операции, которая зависит от реального измерения. [5]

Тесная связь между теорией масштабного пространства и биологическим зрением. Многие операции масштабного пространства показывают высокую степень сходства с рецептивными профилями полей, зарегистрированными с сетчатки млекопитающих и первых стадий в зрительной коре. В этом отношении структура масштабного пространства может рассматриваться как теоретически обоснованная парадигма для раннего зрения, которая, кроме того, была тщательно проверена алгоритмами и экспериментами. [4] [9]

Гауссовы производные

В любом масштабе в масштабном пространстве мы можем применить локальные производные операторы к представлению масштабного пространства:

Из-за коммутативного свойства между оператором производной и оператором сглаживания Гаусса такие производные масштабного пространства могут быть эквивалентно вычислены путем свертки исходного изображения с операторами производной Гаусса. По этой причине их часто также называют производными Гаусса :

Уникальность гауссовых производных операторов как локальных операций, полученных из представления масштабного пространства, может быть получена с помощью аналогичных аксиоматических выводов, которые используются для вывода уникальности гауссовского ядра для сглаживания масштабного пространства. [4] [22]

Визуальный интерфейс

Эти операторы производных Гаусса, в свою очередь, могут быть объединены линейными или нелинейными операторами в большее разнообразие различных типов детекторов признаков, которые во многих случаях могут быть хорошо смоделированы дифференциальной геометрией . В частности, инвариантность (или, что более правильно, ковариантность ) к локальным геометрическим преобразованиям, таким как вращения или локальные аффинные преобразования, может быть получена путем рассмотрения дифференциальных инвариантов в соответствующем классе преобразований или, в качестве альтернативы, путем нормализации операторов производных Гаусса к локально определенной системе координат, определяемой, например, из предпочтительной ориентации в области изображения, или путем применения предпочтительного локального аффинного преобразования к локальному фрагменту изображения (см. статью об аффинной адаптации формы для получения дополнительных сведений).

Когда операторы производной Гаусса и дифференциальные инварианты используются таким образом в качестве базовых детекторов признаков в нескольких масштабах, незафиксированные первые этапы визуальной обработки часто называют визуальным фронт-эндом . Эта общая структура была применена к большому количеству проблем в компьютерном зрении, включая обнаружение признаков , классификацию признаков , сегментацию изображений , сопоставление изображений , оценку движения , вычисление признаков формы и распознавание объектов . Набор операторов производной Гаусса до определенного порядка часто называют N-струей и составляют базовый тип признака в рамках масштабно-пространственной структуры.

Примеры детекторов

Следуя идее выражения визуальных операций в терминах дифференциальных инвариантов, вычисляемых в нескольких масштабах с использованием операторов производной Гаусса, мы можем выразить детектор краев из набора точек, которые удовлетворяют требованию, что величина градиента

следует предполагать локальный максимум в направлении градиента

Разрабатывая дифференциальную геометрию, можно показать [4] , что этот дифференциальный детектор края может быть эквивалентно выражен из нулевых пересечений дифференциального инварианта второго порядка

которые удовлетворяют следующему условию знака на дифференциальном инварианте третьего порядка:

Аналогично, многомасштабные детекторы пятен в любом заданном фиксированном масштабе [23] [9] могут быть получены из локальных максимумов и локальных минимумов оператора Лапласа (также называемого Лапласианом Гаусса )

или определитель матрицы Гессе

Аналогичным образом, детекторы углов и детекторы гребней и долин могут быть выражены как локальные максимумы, минимумы или нулевые пересечения многомасштабных дифференциальных инвариантов, определенных из гауссовых производных. Алгебраические выражения для операторов обнаружения углов и гребней, однако, несколько сложнее, и читатель отсылается к статьям об обнаружении углов и обнаружении гребней для получения более подробной информации.

Операции масштабного пространства также часто использовались для выражения методов «от грубого к точному», в частности, для таких задач, как сопоставление изображений и многомасштабная сегментация изображений .

Выбор масштаба

Представленная до сих пор теория описывает хорошо обоснованную структуру для представления структур изображений в нескольких масштабах. Во многих случаях, однако, также необходимо выбирать локально подходящие масштабы для дальнейшего анализа. Эта необходимость в выборе масштаба возникает по двум основным причинам: (i) объекты реального мира могут иметь разный размер, и этот размер может быть неизвестен системе зрения, и (ii) расстояние между объектом и камерой может меняться, и эта информация о расстоянии также может быть неизвестна априори . Очень полезным свойством представления масштабного пространства является то, что представления изображений могут быть сделаны инвариантными к масштабам, выполняя автоматический локальный выбор масштаба [9] [10] [23] [24] [25] [26] [27] [28] на основе локальных максимумов (или минимумов ) по масштабам нормализованных по масштабу производных

где - параметр, связанный с размерностью признака изображения. Это алгебраическое выражение для нормализованных по масштабу гауссовых производных операторов происходит от введения -нормализованных производных согласно

и

Теоретически можно показать, что модуль выбора масштаба, работающий по этому принципу, будет удовлетворять следующему свойству масштабной ковариации : если для определенного типа характеристики изображения предполагается локальный максимум на определенном изображении в определенном масштабе , то при изменении масштаба изображения на коэффициент масштабирования локальный максимум по масштабам в измененном масштабе будет преобразован в уровень масштаба . [23]

Масштабно-инвариантное обнаружение признаков

Следуя этому подходу гамма-нормализованных производных, можно показать, что различные типы масштабно-адаптивных и масштабно-инвариантных детекторов признаков [9] [10] [23] [24] [25] [29] [30] [27] могут быть выражены для таких задач, как обнаружение пятен , обнаружение углов , обнаружение хребтов , обнаружение краев и обнаружение пространственно-временных точек интереса (см. специальные статьи по этим темам для подробного описания того, как формулируются эти масштабно-инвариантные детекторы признаков). Кроме того, уровни масштаба, полученные из автоматического выбора масштаба, могут использоваться для определения областей интереса для последующей аффинной адаптации формы [31] для получения аффинно-инвариантных точек интереса [32] [33] или для определения уровней масштаба для вычисления связанных дескрипторов изображений , таких как локально-масштабно адаптированные N-струи .

Недавние исследования показали, что более сложные операции, такие как масштабно-инвариантное распознавание объектов , могут быть выполнены таким образом, путем вычисления локальных дескрипторов изображений (N-струй или локальных гистограмм направлений градиента) в масштабно-адаптированных точках интереса, полученных из масштабно-пространственных экстремумов нормализованного оператора Лапласа (см. также масштабно-инвариантное преобразование признаков [34] ) или определителя Гессе (см. также SURF ); [35] см. также статью Scholarpedia о масштабно-инвариантном преобразовании признаков [36] для более общего взгляда на подходы распознавания объектов, основанные на реакциях рецептивного поля [19] [37] [38] [39] в терминах гауссовых производных операторов или их приближений.

Связанные многомасштабные представления

Пирамида изображений — это дискретное представление, в котором масштабное пространство дискретизируется как в пространстве, так и в масштабе. Для масштабной инвариантности масштабные факторы должны дискретизироваться экспоненциально, например, как целые степени 2 или 2 . При правильном построении отношение частот дискретизации в пространстве и масштабе поддерживается постоянным, так что импульсный отклик идентичен на всех уровнях пирамиды. [40] [41] [42] [43] Существуют быстрые, O(N), алгоритмы для вычисления масштабно-инвариантной пирамиды изображений, в которой изображение или сигнал многократно сглаживаются, а затем подвергаются субдискретизации. Значения для масштабного пространства между образцами пирамиды можно легко оценить с помощью интерполяции внутри и между шкалами и допуская оценки масштаба и положения с точностью субразрешения. [43]

В представлении масштабного пространства существование непрерывного параметра масштаба позволяет отслеживать нулевые пересечения по масштабам, приводящие к так называемой глубокой структуре . Для признаков, определенных как нулевые пересечения дифференциальных инвариантов , теорема о неявной функции напрямую определяет траектории по масштабам, [4] [44] и в тех масштабах, где происходят бифуркации, локальное поведение может быть смоделировано теорией сингулярности . [4] [44] [45] [46] [47]

Расширения теории линейного масштабного пространства касаются формулировки нелинейных концепций масштабного пространства, более привязанных к конкретным целям. [48] [49] Эти нелинейные масштабные пространства часто начинаются с эквивалентной диффузионной формулировки концепции масштабного пространства, которая впоследствии расширяется нелинейным образом. Большое количество уравнений эволюции было сформулировано таким образом, мотивированное различными конкретными требованиями (см. вышеупомянутые ссылки на книги для получения дополнительной информации). Следует отметить, однако, что не все эти нелинейные масштабные пространства удовлетворяют таким же «хорошим» теоретическим требованиям, как и концепция линейного гауссова масштабного пространства. Следовательно, иногда могут возникать неожиданные артефакты, и следует быть очень осторожным, чтобы не использовать термин «масштабное пространство» для любого типа однопараметрического семейства изображений.

Расширение первого порядка изотропного гауссовского масштабного пространства обеспечивается аффинным (гауссовым) масштабным пространством . [4] Одна из мотиваций для этого расширения исходит из общей потребности в вычислении дескрипторов изображений, подлежащих для объектов реального мира, которые просматриваются в перспективной модели камеры. Чтобы обрабатывать такие нелинейные деформации локально, частичная инвариантность (или, правильнее сказать, ковариантность ) к локальным аффинным деформациям может быть достигнута путем рассмотрения аффинных гауссовых ядер с их формами, определяемыми локальной структурой изображения, [31] см. статью об аффинной адаптации формы для теории и алгоритмов. Действительно, это аффинное масштабное пространство также может быть выражено из неизотропного расширения линейного (изотропного) уравнения диффузии, при этом все еще находясь в классе линейных уравнений с частными производными .

Существует более общее расширение гауссовой модели масштабного пространства на аффинные и пространственно-временные масштабные пространства. [4] [31] [18] [19] [50] В дополнение к изменчивости по масштабу, для обработки которой была разработана исходная теория масштабного пространства, эта обобщенная теория масштабного пространства [19] также включает другие типы изменчивости, вызванные геометрическими преобразованиями в процессе формирования изображения, включая изменения в направлении просмотра, аппроксимированные локальными аффинными преобразованиями, и относительные движения между объектами в мире и наблюдателем, аппроксимированные локальными преобразованиями Галилея . Эта обобщенная теория масштабного пространства приводит к предсказаниям о профилях рецептивного поля в хорошем качественном согласии с профилями рецептивного поля, измеренными с помощью записей клеток в биологическом зрении. [51] [52] [50] [53]

Между теорией масштабного пространства и теорией вейвлетов существуют прочные связи , хотя эти два понятия многомасштабного представления были разработаны из несколько разных предпосылок. Также велась работа над другими многомасштабными подходами , такими как пирамиды и множество других ядер, которые не используют или не требуют тех же требований, что и истинные описания масштабного пространства.

Связь с биологическим зрением и слухом

Существуют интересные связи между масштабно-пространственным представлением и биологическим зрением и слухом. Нейрофизиологические исследования биологического зрения показали, что существуют рецептивные профили полей в сетчатке млекопитающих и зрительной коре , которые могут быть хорошо смоделированы линейными гауссовыми производными операторами, в некоторых случаях также дополненными неизотропной аффинной масштабно-пространственной моделью, пространственно-временной масштабно-пространственной моделью и/или нелинейными комбинациями таких линейных операторов. [18] [51] [52] [50] [53] [54] [55] [56] [57]

Что касается биологического слуха, то существуют рецептивные профили полей в нижнем холмике и первичной слуховой коре , которые можно хорошо смоделировать с помощью спектрально-временных рецептивных полей, которые можно хорошо смоделировать с помощью гауссовых производных по логарифмическим частотам и оконных преобразований Фурье по времени, причем оконные функции являются ядрами временного масштаба-пространства. [58] [59]

Глубокое обучение и масштабируемое пространство

В области классического компьютерного зрения теория масштабного пространства зарекомендовала себя как теоретическая основа для раннего зрения, при этом гауссовские производные составляют каноническую модель для первого слоя рецептивных полей. С введением глубокого обучения также проводилась работа по использованию гауссовых производных или гауссовых ядер в качестве общей основы для рецептивных полей в глубоких сетях. [60] [61] [62] [63] [64] Используя свойства преобразования гауссовых производных и гауссовых ядер при масштабных преобразованиях, таким образом можно получить масштабную ковариацию/эквивариантность и масштабную инвариантность глубокой сети для обработки структур изображений в разных масштабах теоретически обоснованным образом. [62] [63] Также были разработаны подходы для получения масштабной ковариации/эквивариантности и масштабной инвариантности с помощью обученных фильтров в сочетании с несколькими масштабными каналами. [65] [66] [67] [68] [69] [70] В частности, используя понятия масштабной ковариантности/эквивариантности и масштабной инвариантности, можно заставить глубокие сети работать надежно в масштабах, не охваченных обучающими данными, тем самым обеспечивая масштабное обобщение. [62] [63] [67] [69]

Временно-каузальная временная шкала пространства

Для обработки предварительно записанных временных сигналов или видео гауссовское ядро ​​также может использоваться для сглаживания и подавления мелкомасштабных структур во временной области, поскольку данные предварительно записаны и доступны во всех направлениях. Однако при обработке временных сигналов или видео в ситуациях реального времени гауссово ядро ​​не может использоваться для временного сглаживания, поскольку оно будет получать доступ к данным из будущего, которые, очевидно, не могут быть доступны. Для временного сглаживания в ситуациях реального времени можно вместо этого использовать временное ядро, называемое ядром предела причинно-следственной связи [71] , которое обладает аналогичными свойствами в причинно-следственной ситуации (несоздание новых структур в направлении увеличения масштаба и временной масштабной ковариации), как гауссово ядро ​​подчиняется в некаузальном случае. Ядро временного причинно-следственного предела соответствует свертке с бесконечным числом усеченных экспоненциальных ядер, соединенных каскадом, со специально выбранными постоянными времени для получения временной масштабной ковариации. Для дискретных данных это ядро ​​часто может быть численно хорошо аппроксимировано небольшим набором рекурсивных фильтров первого порядка, соединенных каскадом, см. [71] для получения дополнительных подробностей.

Для более раннего подхода к обработке временных шкал причинно-следственным способом, путем выполнения гауссовского сглаживания по логарифмически преобразованной временной оси, однако, не имеющего какой-либо известной эффективной по памяти рекурсивной реализации времени, как у причинно-следственного предельного ядра, см. [72]

Проблемы внедрения

При реализации сглаживания масштабного пространства на практике существует ряд различных подходов, которые могут быть приняты в терминах непрерывного или дискретного гауссовского сглаживания, реализации в области Фурье, в терминах пирамид на основе биномиальных фильтров, которые аппроксимируют гауссову или с использованием рекурсивных фильтров. Более подробно об этом дано в отдельной статье о реализации масштабного пространства .

Смотрите также

Ссылки

  1. ^ ab Ijima, T. "Основная теория нормализации рисунка (в случае типичного одномерного рисунка)". Bull. Electrotech. Lab. 26, 368– 388, 1962. (на японском языке)
  2. ^ "Виткин, А.П. "Фильтрация в масштабном пространстве", Труды 8-й Международной конференции по искусству и интеллигенции, Карлсруэ, Германия, 1919–1022, 1983" (PDF) .
  3. ^ abc Koenderink, Jan "Структура изображений", Biological Cybernetics, 50:363–370, 1984
  4. ^ abcdefghi Линдеберг, Т. (1993). Теория масштабного пространства в компьютерном зрении. Springer. doi :10.1007/978-1-4757-6465-9. ISBN 978-1-4419-5139-7.
  5. ^ ab T. Lindeberg (1994). "Теория масштабного пространства: базовый инструмент для анализа структур в разных масштабах". Журнал прикладной статистики (Дополнение к достижениям в прикладной статистике: Статистика и изображения: 2) . 21 (2): 224–270. Bibcode :1994JApSt..21..225L. doi :10.1080/757582976.
  6. ^ ab Florack, Luc, Структура изображения, Kluwer Academic Publishers, 1997.
  7. ^ "Спорринг, Джон и др. (редакторы), Гауссова теория масштабного пространства, Kluwer Academic Publishers, 1997".
  8. ^ ter Haar Romeny, Bart M. (2008). Front-End Vision и многомасштабный анализ изображений: теория и приложения многомасштабного компьютерного зрения, написанная в Mathematica. Springer Science & Business Media. ISBN 978-1-4020-8840-7.
  9. ^ abcdefg Линдеберг, Тони (2008). «Масштабное пространство». В Benjamin Wah (ред.). Энциклопедия компьютерной науки и техники . Т. IV. John Wiley and Sons. стр. 2495–2504. doi :10.1002/9780470050118.ecse609. ISBN 978-0470050118.
  10. ^ abc T. Lindeberg (2014) «Выбор масштаба», Computer Vision: A Reference Guide, (редактор K. Ikeuchi), Springer, страницы 701–713.
  11. ^ "Представление масштабного пространства: Определение и основные идеи". www.csc.kth.se .
  12. ^ J. Babaud, AP Witkin, M. Baudin и RO Duda, Уникальность гауссовского ядра для фильтрации в масштабном пространстве. IEEE Trans. Pattern Anal. Machine Intell. 8(1), 26–33, 1986.
  13. ^ Юйл, АЛ; Поджио, ТА (1 января 1986 г.). «Теоремы масштабирования для переходов через нуль». Труды IEEE по анализу шаблонов и машинному интеллекту . 8 (1): 15–25. doi : 10.1109/TPAMI.1986.4767748. hdl : 1721.1/5655 . ISSN  0162-8828. PMID  21869319. S2CID  14815630.
  14. ^ Линдеберг, Тони (1990). «Масштабное пространство для дискретных сигналов». Труды IEEE по анализу образов и машинному интеллекту . 12 (3): 234–254. doi :10.1109/34.49051.
  15. ^ ab Pauwels, Eric J.; Van Gool, Luc J.; Fiddelaers, Peter; Moons, Theo (1 июля 1995 г.). «Расширенный класс масштабно-инвариантных и рекурсивных масштабно-пространственных фильтров». Труды IEEE по анализу шаблонов и машинному интеллекту . 17 (7): 691–701. doi :10.1109/34.391411 – по июль 1995 г.
  16. ^ ab Lindeberg, Tony (7 января 1996 г.). «Об аксиоматических основах линейного масштабного пространства: объединение структуры полугруппы с причинностью против масштабной инвариантности». Теория гауссова масштабного пространства: Proc PhD School on Scale-Space Theory . Kluwer Academic Publishers: 75–97 – через kth.diva-portal.org.
  17. ^ Вайкерт, Иоахим; Ишикава, Сейджи; Имия, Ацуши (1 мая 1999 г.). «Линейное масштабное пространство впервые предложено в Японии». Журнал математической визуализации и визуализации . 10 (3): 237–252. doi :10.1023/A:1008344623873. ISSN  0924-9907. S2CID  17835046.
  18. ^ abcd Линдеберг, Тони (2011). «Обобщенная аксиоматика гауссова масштабного пространства, включающая линейное масштабное пространство, аффинное масштабное пространство и пространственно-временное масштабное пространство». Журнал математической визуализации и зрения . 40 (1): 36–81. doi :10.1007/s10851-010-0242-2. S2CID  950099.
  19. ^ abcd Линдеберг, Тони (1 января 2013 г.). Хоукс, Питер У. (ред.). Обобщенная аксиоматическая теория масштабного пространства. Достижения в области визуализации и электронной физики. Т. 178. Elsevier. С. 1–96. doi :10.1016/b978-0-12-407701-0.00001-7. ISBN 9780124077010. Получено 7 января 2023 г. .
  20. ^ М. Фельсберг и Г. Зоммер «Моногенное масштабное пространство: унифицированный подход к фазовой обработке изображений в масштабном пространстве», Журнал математической визуализации и зрения, 21(1): 5–28, 2004.
  21. ^ Р. Дуйтс, Л. Флорак, Дж. де Грааф и Б. тер Хаар Ромени «Об аксиомах теории масштабного пространства», Журнал математической визуализации и зрения, 20(3): 267–298, 2004.
  22. ^ Koenderink, JJ; van Doorn, AJ (7 июня 1992 г.). «Общие операторы соседства». IEEE Transactions on Pattern Analysis and Machine Intelligence . 14 (6): 597–605. doi :10.1109/34.141551 – через IEEE Xplore.
  23. ^ abcd Линдеберг, Тони (7 января 1998 г.). «Обнаружение признаков с автоматическим выбором масштаба». International Journal of Computer Vision . 30 (2): 79–116. doi :10.1023/A:1008045108935. S2CID  723210 – через kth.diva-portal.org.
  24. ^ ab Lindeberg, Tony (7 января 1998 г.). «Обнаружение краев и хребтов с автоматическим выбором масштаба». International Journal of Computer Vision . 30 (2): 117–154. doi :10.1023/A:1008097225773. S2CID  35328443 – через kth.diva-portal.org.
  25. ^ ab Lindeberg, Tony (7 января 1999 г.). «Принципы автоматического выбора масштаба». Справочник по компьютерному зрению и его приложениям . Academic Press: 239–274 – через kth.diva-portal.org.
  26. ^ Линдеберг, Тони (1 мая 2017 г.). «Выбор временной шкалы в пространстве временной причинно-следственной шкалы». Журнал математической визуализации и зрения . 58 (1): 57–101. arXiv : 1701.05088 . doi : 10.1007/s10851-016-0691-3 . ISSN  1573-7683. S2CID  254645013.
  27. ^ ab Lindeberg, Tony (1 мая 2018 г.). «Выбор пространственно-временного масштаба в видеоданных». Journal of Mathematical Imaging and Vision . 60 (4): 525–562. doi : 10.1007/s10851-017-0766-9 . ISSN  1573-7683. S2CID  254649837.
  28. ^ Линдеберг, Тони (2018). «Плотный выбор масштаба в пространстве, времени и пространстве-времени». SIAM Journal on Imaging Sciences . 11 (1): 407–441. arXiv : 1709.08603 . doi : 10.1137/17M114892X. S2CID  22220902.
  29. ^ Линдеберг, Тони (1 июня 2013 г.). «Свойства выбора масштаба обобщенных детекторов точек интереса масштабного пространства». Журнал математической визуализации и зрения . 46 (2): 177–210. doi : 10.1007/s10851-012-0378-3 . ISSN  1573-7683. S2CID  254653631.
  30. ^ Линдеберг, Тони (1 мая 2015 г.). «Сопоставление изображений с использованием обобщенных точек интереса масштабного пространства». Журнал математической визуализации и зрения . 52 (1): 3–36. doi : 10.1007/s10851-014-0541-0 . ISSN  1573-7683. S2CID  254657377.
  31. ^ abc Линдеберг, Тони; Гординг, Йонас (7 января 1997 г.). «Сглаживание, адаптированное к форме, при оценке трехмерных сигналов глубины на основе аффинных искажений локальной двумерной структуры яркости». Image and Vision Computing . 15 (6): 415–434. doi :10.1016/S0262-8856(97)01144-X – через kth.diva-portal.org.
  32. ^ Baumberg, A. (7 января 2000 г.). "Надежное сопоставление признаков в широко разделенных представлениях". Труды конференции IEEE по компьютерному зрению и распознаванию образов. CVPR 2000 (Cat. No.PR00662) . Том 1. IEEE Comput. Soc. стр. 774–781. doi :10.1109/CVPR.2000.855899. ISBN 0-7695-0662-3. S2CID  15626261.
  33. ^ Миколайчик, К. и Шмид, К.: Масштабные и аффинно-инвариантные детекторы точек интереса, Международный журнал компьютерного зрения, 60:1, 63–86, 2004.
  34. ^ "Lowe, DG, "Отличительные особенности изображения из масштабно-инвариантных ключевых точек", International Journal of Computer Vision, 60, 2, стр. 91–110, 2004".
  35. ^ Бэй, Герберт; Эсс, Андреас; Туйтелаарс, Тинне; Ван Гул, Люк (1 июня 2008 г.). «Ускоренные надежные функции (SURF)». Computer Vision and Image Understanding . 110 (3): 346–359. doi :10.1016/j.cviu.2007.09.014. S2CID  14777911 – через ScienceDirect.
  36. ^ Линдеберг, Тони (22 мая 2012 г.). "Преобразование инвариантных признаков масштаба". Scholarpedia . 7 (5): 10491. Bibcode :2012SchpJ...710491L. doi : 10.4249/scholarpedia.10491 .
  37. ^ Schiele, Bernt; Crowley, James L. (1 января 2000 г.). «Распознавание без соответствия с использованием многомерных рецептивных полевых гистограмм». International Journal of Computer Vision . 36 (1): 31–50. doi :10.1023/A:1008120406972. S2CID  2551159 – через Springer Link.
  38. ^ Линде, Оскар; Линдеберг, Тони (7 января 2004 г.). «Распознавание объектов с использованием составных рецептивных полевых гистограмм более высокой размерности». Международная конференция по распознаванию образов (ICPR 2004) . Труды конференции IEEE: 1–6 – через kth.diva-portal.org.
  39. ^ Линде, Оскар; Линдеберг, Тони (7 января 2012 г.). «Составные гистограммы сложных сигналов: исследование информационного содержания в рецептивных полях на основе дескрипторов изображений для распознавания объектов». Компьютерное зрение и понимание изображений . 116 (4): 538–560. doi :10.1016/j.cviu.2011.12.003 – через kth.diva-portal.org.
  40. Берт, Питер и Адельсон, Тед, «Пирамида Лапласа как компактный код изображения. Архивировано 23 января 2022 г. в Wayback Machine », IEEE Trans. Communications, 9:4, 532–540, 1983.
  41. ^ Crowley, James L.; Stern, Richard M. (март 1984). «Быстрое вычисление разности низкочастотного преобразования». Труды IEEE по анализу образов и машинному интеллекту . PAMI-6 (2): 212–222. doi :10.1109/TPAMI.1984.4767504. ISSN  1939-3539. PMID  21869184. S2CID  17032188.
  42. ^ Кроули, Дж. Л. и Сандерсон, А. С. «Представление с множественным разрешением и вероятностное сопоставление двумерной серой формы», Труды IEEE по анализу образов и машинному интеллекту, 9(1), стр. 113–121, 1987.
  43. ^ ab T. Lindeberg и L. Bretzner (2003) «Выбор масштаба в реальном времени в гибридных многомасштабных представлениях», Proc. Scale-Space'03, остров Скай, Шотландия, Springer Lecture Notes in Computer Science, том 2695, страницы 148–163.
  44. ^ ab T. Lindeberg (1992) Поведение локальных экстремумов и пятен в масштабном пространстве, J. of Mathematical Imaging and Vision, 1(1), страницы 65—99.
  45. ^ Ян Кендеринк и Андреа ван Дорн, AJ (1986), «Динамическая форма»,Значок закрытого доступаБиологическая кибернетика 53, 383–396.
  46. ^ Дэймон, Дж. (1995), «Локальная теория Морса для решений уравнения теплопроводности и гауссово размытие», Журнал дифференциальных уравнений 115(2), 386–401.
  47. ^ Флорак, Люк; Кёйпер, Арджан (1 февраля 2000 г.). «Топологическая структура изображений масштабного пространства». Журнал математической визуализации и зрения . 12 (1): 65–79. doi :10.1023/A:1008304909717. ISSN  1573-7683. S2CID  7515494.
  48. ^ тер Хаар Ромени, Барт М. (редактор), Диффузия, управляемая геометрией, в компьютерном зрении, Kluwer Academic Publishers, 1994.
  49. ^ Вайкерт, Иоахим (1998). Анизотропная диффузия при обработке изображений . Тойбнер-Верлаг.
  50. ^ abc Линдеберг, Тони (1 мая 2016 г.). «Временно-причинные и рекурсивные во времени пространственно-временные рецептивные поля». Журнал математической визуализации и зрения . 55 (1): 50–88. arXiv : 1504.02648 . doi : 10.1007/s10851-015-0613-9 . ISSN  1573-7683. S2CID  120619833.
  51. ^ ab Линдеберг, Тони (1 декабря 2013 г.). «Вычислительная теория визуальных рецептивных полей». Биологическая кибернетика . 107 (6): 589–635. doi :10.1007/s00422-013-0569-z. ISSN  1432-0770. PMC 3840297. PMID 24197240  . 
  52. ^ ab Lindeberg, Tony (19 июля 2013 г.). «Инвариантность визуальных операций на уровне рецептивных полей». PLOS ONE . ​​8 (7): e66990. arXiv : 1210.0754 . Bibcode :2013PLoSO...866990L. doi : 10.1371/journal.pone.0066990 . ISSN  1932-6203. PMC 3716821 . PMID  23894283. 
  53. ^ ab Lindeberg, Tony (1 января 2021 г.). "Нормативная теория визуальных рецептивных полей". Heliyon . 7 (1): e05897. Bibcode :2021Heliy...705897L. doi : 10.1016/j.heliyon.2021.e05897 . ISSN  2405-8440. PMC 7820928 . PMID  33521348. 
  54. ^ DeAngelis, GC, Ohzawa, I., и Freeman, RD, «Динамика рецептивного поля в центральных зрительных путях», Trends Neurosci. 18: 451–458, 1995. [ постоянная мертвая ссылка ]
  55. ^ Янг, Р.А. «Гауссова производная модель для пространственного зрения: ретинальные механизмы», Spatial Vision, 2:273–293, 1987.
  56. ^ Young, Richard; Lesperance, Ronald; Meyer, W. Weston (1 января 2001 г.). «Гауссова производная модель для пространственно-временного зрения: I. Кортикальная модель». Spatial Vision . 14 (3–4): 261–319. doi :10.1163/156856801753253582. ISSN  0169-1015. PMID  11817740.
  57. ^ Лесперанс, Рональд; Янг, Ричард (1 января 2001 г.). «Гауссова производная модель для пространственно-временного зрения: II. Корковые данные». Spatial Vision . 14 (3–4): 321–389. doi :10.1163/156856801753253591. ISSN  0169-1015. PMID  11817741.
  58. ^ Линдеберг, Тони; Фриберг, Андерс (30 марта 2015 г.). «Идеализированные вычислительные модели для слуховых рецептивных полей». PLOS ONE . 10 (3): e0119032. arXiv : 1404.2037 . Bibcode : 2015PLoSO..1019032L. doi : 10.1371/journal.pone.0119032 . ISSN  1932-6203. PMC 4379182. PMID 25822973  . 
  59. ^ Линдеберг, Тони; Фриберг, Андерс (2015). «Теория масштабного пространства для слуховых сигналов». Масштабное пространство и вариационные методы в компьютерном зрении . Конспект лекций по информатике. Том 9087. Конспект лекций Springer по информатике. С. 3–15. doi :10.1007/978-3-319-18461-6_1. ISBN 978-3-319-18460-9. {{cite book}}: |journal=проигнорировано ( помощь )
  60. ^ "Якобсен, Дж. Дж., ван Гемерт, Дж., Лу, З., Смеулдерс, А. В. М. (2016) Структурированные рецептивные поля в сверточных нейронных сетях. В: Труды компьютерного зрения и распознавания образов, стр. 2610–2619" (PDF) .
  61. ^ Уорралл, Дэниел Э.; Уэллинг, Макс (5 ноября 2019 г.). «Глубокие масштабные пространства: эквивариантность по масштабу». arXiv : 1905.11697 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  62. ^ abc Линдеберг, Тони (1 января 2020 г.). «Доказуемо масштабно-ковариантные непрерывные иерархические сети на основе масштабно-нормализованных дифференциальных выражений, связанных каскадом». Журнал математической визуализации и зрения . 62 (1): 120–148. arXiv : 1905.13555 . doi : 10.1007/s10851-019-00915-x . ISSN  1573-7683. S2CID  254646822.
  63. ^ abc Линдеберг, Тони (1 марта 2022 г.). «Масштабно-ковариантные и масштабно-инвариантные гауссовские производные сети». Журнал математической визуализации и зрения . 64 (3): 223–242. arXiv : 2011.14759 . doi : 10.1007/s10851-021-01057-9 . ISSN  1573-7683. S2CID  227227887.
  64. ^ Pintea, Silvia L.; Tomen, Nergis; Goes, Stanley F.; Loog, Marco; van Gemert, Jan C. (30 июня 2021 г.). «Обучение разрешению в глубоких сверточных сетях с использованием теории масштабного пространства». IEEE Transactions on Image Processing . 30 : 8342–8353. arXiv : 2106.03412 . Bibcode : 2021ITIP...30.8342P. doi : 10.1109/TIP.2021.3115001. PMID  34587011. S2CID  235358752.
  65. ^ Сосновик, Иван; Шмая, Михал; Смелдерс, Арнольд (8 июня 2020 г.). «Масштабно-эквивариантные управляемые сети». arXiv : 1910.11093 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  66. ^ "Беккерс, Э.Дж.: B-сплайновые сверточные нейронные сети на группах Ли (2020) В: Международная конференция по обучению представлениям".
  67. ^ ab Янссон, Илва; Линдеберг, Тони (2021). «Изучение способности CNN обобщать ранее невиданные масштабы в широких диапазонах масштабов». 2020 25-я Международная конференция по распознаванию образов (ICPR) . Институт инженеров по электротехнике и электронике (IEEE). стр. 1181–1188. arXiv : 2004.01536 . doi : 10.1109/ICPR48806.2021.9413276. ISBN 978-1-7281-8808-9. S2CID  214795413.
  68. ^ "Сосновик, И., Москалев, А., Смеулдерс, А. (2021) DISCO: Точные дискретные масштабные свертки. В: Британская конференция по машинному зрению" (PDF) .
  69. ^ ab Янссон, Илва; Линдеберг, Тони (1 июня 2022 г.). «Масштабно-инвариантные сети масштабных каналов: глубокие сети, которые обобщаются до ранее невиданных масштабов». Журнал математической визуализации и зрения . 64 (5): 506–536. arXiv : 2106.06418 . doi : 10.1007/s10851-022-01082-2 . ISSN  1573-7683. S2CID  235417440.
  70. ^ "Zhu, W., Qiu, Q., Calderbank, R., Sapiro, G., & Cheng, X. (2022) Масштабно-трансляционно-эквивариантные сети с разложенными сверточными фильтрами. Журнал исследований машинного обучения, 23(68): 1-45" (PDF) .
  71. ^ ab Lindeberg, T. (23 января 2023 г.). «Причинно-следственное и рекурсивное по времени масштабно-ковариантное масштабно-пространственное представление временных сигналов и прошедшего времени». Биологическая кибернетика . 117 (1–2): 21–59. doi : 10.1007/s00422-022-00953-6 . PMC 10160219. PMID  36689001 .  
  72. ^ Koenderink, J. (1988). «Масштаб-время». Биологическая кибернетика . 58 (3): 159–162. doi :10.1007/BF00364135. S2CID  209034116.

Дальнейшее чтение

Внешние ссылки