Компьютерное зрение

Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений , а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например, в форме решений. ^[1]^[2]^[3]^[4] Понимание в этом контексте означает преобразование визуальных образов (входных данных для сетчатки в человеческом аналоге) в описания мира, которые имеют смысл для мыслительных процессов и могут вызывать соответствующие действия. Это понимание образа можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения.

Научная дисциплина компьютерного зрения занимается теорией, лежащей в основе искусственных систем, которые извлекают информацию из изображений. Данные изображений могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер, многомерные данные с 3D-сканера, 3D-облака точек с датчиков LiDaR или медицинских сканирующих устройств. Технологическая дисциплина компьютерного зрения стремится применять свои теории и модели для построения систем компьютерного зрения.

Подобласти компьютерного зрения включают реконструкцию сцены , обнаружение объектов , обнаружение событий , распознавание активности , видеоотслеживание , распознавание объектов , трехмерную оценку позы , обучение, индексирование, оценку движения , визуальное сервоуправление , трехмерное моделирование сцен и восстановление изображений .

Внедрение технологии компьютерного зрения может быть кропотливым для организаций, поскольку для этого не существует единого решения. Очень немногие компании предоставляют унифицированную и распределенную платформу или операционную систему, где приложения компьютерного зрения могут быть легко развернуты и управляемы.

Определение

Компьютерное зрение — это междисциплинарная область , которая занимается тем, как можно заставить компьютеры получать высокоуровневое понимание из цифровых изображений или видео . С точки зрения инженерии , она стремится автоматизировать задачи, которые может выполнять зрительная система человека . ^[5]^[6]^[7] «Компьютерное зрение связано с автоматическим извлечением, анализом и пониманием полезной информации из одного изображения или последовательности изображений. Оно включает в себя разработку теоретической и алгоритмической основы для достижения автоматического визуального понимания». ^[8] Как научная дисциплина , компьютерное зрение связано с теорией, лежащей в основе искусственных систем, которые извлекают информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер или многомерные данные с медицинского сканера . ^[9] Как технологическая дисциплина, компьютерное зрение стремится применять свои теории и модели для построения систем компьютерного зрения. Машинное зрение относится к дисциплине системной инженерии, особенно в контексте автоматизации производства. В последнее время термины компьютерное зрение и машинное зрение в большей степени сблизились. ^[10]^{: 13}

История

В конце 1960-х годов компьютерное зрение началось в университетах, которые были пионерами в области искусственного интеллекта . Оно должно было имитировать человеческую зрительную систему как ступеньку к наделению роботов интеллектуальным поведением. ^[11] В 1966 году считалось, что этого можно достичь с помощью летнего студенческого проекта, ^[12] прикрепив камеру к компьютеру и заставив его «описывать то, что он видит». ^[13]^[14]

Что отличало компьютерное зрение от распространенной области цифровой обработки изображений в то время, так это желание извлечь трехмерную структуру из изображений с целью достижения полного понимания сцены. Исследования 1970-х годов сформировали ранние основы для многих алгоритмов компьютерного зрения , которые существуют сегодня, включая извлечение краев из изображений, маркировку линий, неполиэдральное и полиэдральное моделирование , представление объектов как взаимосвязей более мелких структур, оптический поток и оценку движения . ^[11]

В следующем десятилетии появились исследования, основанные на более строгом математическом анализе и количественных аспектах компьютерного зрения. К ним относятся концепция масштабного пространства , вывод формы из различных сигналов, таких как затенение , текстура и фокус, и контурные модели, известные как змеи . Исследователи также поняли, что многие из этих математических концепций можно рассматривать в той же структуре оптимизации, что и регуляризация и марковские случайные поля . ^[15] К 1990-м годам некоторые из предыдущих тем исследований стали более активными, чем другие. Исследования в области проективных 3-D реконструкций привели к лучшему пониманию калибровки камеры . С появлением методов оптимизации для калибровки камеры стало понятно, что многие идеи уже были исследованы в теории настройки пучков из области фотограмметрии . Это привело к методам для разреженных 3-D реконструкций сцен из нескольких изображений . Был достигнут прогресс в решении проблемы плотного стереосоответствия и дальнейших стереометодах с несколькими видами. В то же время для решения сегментации изображений использовались вариации разреза графа . Это десятилетие также ознаменовало первый раз, когда статистические методы обучения были использованы на практике для распознавания лиц на изображениях (см. Eigenface ). К концу 1990-х годов произошли значительные изменения с возросшим взаимодействием между областями компьютерной графики и компьютерного зрения. Это включало рендеринг на основе изображений , морфинг изображений , интерполяцию видов, панорамное сшивание изображений и ранний рендеринг светового поля . ^[11]

Недавние работы показали возрождение методов, основанных на признаках , используемых в сочетании с методами машинного обучения и сложными фреймворками оптимизации. ^[16]^[17] Развитие методов глубокого обучения вдохнуло новую жизнь в область компьютерного зрения. Точность алгоритмов глубокого обучения на нескольких эталонных наборах данных компьютерного зрения для задач, начиная от классификации, ^[18] сегментации и оптического потока, превзошла предыдущие методы. ^{[ необходима ссылка ]}^[19]

Связанные поля

Физика твердого тела

Физика твердого тела — еще одна область, тесно связанная с компьютерным зрением. Большинство систем компьютерного зрения полагаются на датчики изображения , которые обнаруживают электромагнитное излучение , которое обычно находится в форме видимого , инфракрасного или ультрафиолетового света . Датчики разработаны с использованием квантовой физики . Процесс, посредством которого свет взаимодействует с поверхностями, объясняется с помощью физики. Физика объясняет поведение оптики , которая является основной частью большинства систем формирования изображений. Сложные датчики изображения даже требуют квантовой механики для обеспечения полного понимания процесса формирования изображения. ^[11] Кроме того, различные проблемы измерения в физике могут быть решены с помощью компьютерного зрения, например, движение в жидкостях.

Нейробиология

Нейробиология оказала большое влияние на разработку алгоритмов компьютерного зрения. За последнее столетие было проведено обширное исследование глаз, нейронов и структур мозга, посвященное обработке зрительных стимулов как у людей, так и у различных животных. Это привело к грубому, но запутанному описанию того, как работают системы естественного зрения для решения определенных задач, связанных со зрением. Эти результаты привели к появлению подобласти в компьютерном зрении, где искусственные системы разрабатываются для имитации обработки и поведения биологических систем на разных уровнях сложности. Кроме того, некоторые из методов обучения, разработанных в компьютерном зрении ( например, нейронные сети и анализ и классификация изображений и признаков на основе глубокого обучения ), имеют свою основу в нейробиологии. Неокогнитрон , нейронная сеть, разработанная в 1970-х годах Кунихико Фукусимой , является ранним примером компьютерного зрения, напрямую вдохновленного нейробиологией, в частности первичной зрительной корой .

Некоторые направления исследований компьютерного зрения тесно связаны с изучением биологического зрения — действительно, так же как многие направления исследований ИИ тесно связаны с исследованиями человеческого интеллекта и использованием сохраненных знаний для интерпретации, интеграции и использования визуальной информации. Область биологического зрения изучает и моделирует физиологические процессы, лежащие в основе зрительного восприятия у людей и других животных. Компьютерное зрение, с другой стороны, разрабатывает и описывает алгоритмы, реализованные в программном обеспечении и оборудовании систем искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным зрением оказался плодотворным для обеих областей. ^[21]

Обработка сигнала

Еще одна область, связанная с компьютерным зрением, — это обработка сигналов . Многие методы обработки однопеременных сигналов, как правило, временных сигналов, могут быть естественным образом расширены до обработки двухпеременных сигналов или многопеременных сигналов в компьютерном зрении. Однако из-за специфической природы изображений в компьютерном зрении разработано много методов, которые не имеют аналогов в обработке однопеременных сигналов. Вместе с многомерностью сигнала это определяет подобласть в обработке сигналов как часть компьютерного зрения.

Роботизированная навигация

Навигация робота иногда связана с автономным планированием пути или обдумыванием для роботизированных систем, чтобы перемещаться по среде . ^[22] Для перемещения по ним требуется детальное понимание этих сред. Информация об окружающей среде может быть предоставлена системой компьютерного зрения, действующей как датчик зрения и предоставляющей высокоуровневую информацию об окружающей среде и роботе.

Визуальные вычисления

Визуальные вычисления — это общий термин для всех дисциплин компьютерных наук, связанных с изображениями и 3D-моделями , таких как компьютерная графика , обработка изображений , визуализация , компьютерное зрение, вычислительная визуализация , дополненная реальность и обработка видео , на основе которых расширяется до Design Computation . Визуальные вычисления также включают аспекты распознавания образов , взаимодействия человека и компьютера , машинного обучения , робототехники , компьютерного моделирования и визуализации безопасности. Основными задачами являются получение, обработка, анализ и рендеринг визуальной информации. Области применения включают промышленный контроль качества, обработку и визуализацию медицинских изображений , геодезию, мультимедийные системы, виртуальное наследие, спецэффекты в кино и на телевидении и, в конечном счете, компьютерные игры, для которых окончательно сосредотачивается на User Experience Design . В конечном счете, это включает расширения больших языковых моделей (LLM) , которые находятся в Generative Artificial Intelligence для разработки исследований. Это особенно касается обстоятельств с достижениями в исследованиях между Embodied Agents и Generative Artificial Intelligence , которые предназначены для Visual Computation .

Другие поля

Помимо вышеупомянутых взглядов на компьютерное зрение, многие из связанных с этим тем исследований также могут быть изучены с чисто математической точки зрения. Например, многие методы в компьютерном зрении основаны на статистике , оптимизации или геометрии . Наконец, значительная часть области посвящена аспекту внедрения компьютерного зрения; как существующие методы могут быть реализованы в различных комбинациях программного и аппаратного обеспечения, или как эти методы могут быть модифицированы для повышения скорости обработки без слишком большой потери производительности. Компьютерное зрение также используется в модной электронной коммерции, управлении запасами, патентном поиске, мебели и индустрии красоты. ^[23]

Отличия

Наиболее тесно связанными с компьютерным зрением областями являются обработка изображений , анализ изображений и машинное зрение . Существует значительное совпадение в диапазоне методов и приложений, которые они охватывают. Это означает, что основные методы, которые используются и разрабатываются в этих областях, схожи, что можно интерпретировать как то, что есть только одна область с разными названиями. С другой стороны, исследовательским группам, научным журналам, конференциям и компаниям, по-видимому, необходимо представлять или рекламировать себя как принадлежащие конкретно к одной из этих областей, и, следовательно, были представлены различные характеристики, которые отличают каждую из областей от других. В обработке изображений входными данными является изображение, и выходными данными также является изображение, тогда как в компьютерном зрении в качестве входных данных принимается изображение или видео, а выходными данными может быть улучшенное изображение, понимание содержания изображения или даже поведение компьютерной системы на основе такого понимания.

Компьютерная графика создает данные изображений из 3D-моделей, а компьютерное зрение часто создает 3D-модели из данных изображений. ^[24] Также существует тенденция к объединению двух дисциплин, например , как это было исследовано в дополненной реальности .

Следующие характеристики представляются уместными, но их не следует воспринимать как общепринятые:

Обработка и анализ изображений , как правило, фокусируются на 2D-изображениях, на том, как преобразовать одно изображение в другое, например , с помощью пиксельных операций, таких как повышение контрастности, локальных операций, таких как извлечение краев или удаление шума, или геометрических преобразований, таких как поворот изображения. Эта характеристика подразумевает, что обработка/анализ изображений не требует предположений и не производит интерпретаций о содержании изображения.
Компьютерное зрение включает 3D-анализ из 2D-изображений. Это анализирует 3D-сцену, спроецированную на одно или несколько изображений, например , как реконструировать структуру или другую информацию о 3D-сцене из одного или нескольких изображений. Компьютерное зрение часто опирается на более или менее сложные предположения о сцене, изображенной на изображении.
Машинное зрение — это процесс применения ряда технологий и методов для обеспечения автоматического контроля на основе изображений, управления процессами и управления роботами ^[25] в промышленных приложениях. ^[21] Машинное зрение, как правило, фокусируется на приложениях, в основном в производстве, например , роботы на основе зрения и системы для контроля, измерения или сбора на основе зрения (например, сбор контейнеров ^[26] ). Это подразумевает, что технологии датчиков изображений и теория управления часто интегрируются с обработкой данных изображений для управления роботом и что обработка в реальном времени подчеркивается посредством эффективных реализаций в аппаратном и программном обеспечении. Это также подразумевает, что внешние условия, такие как освещение, могут быть и часто более контролируемы в машинном зрении, чем в общем компьютерном зрении, что может позволить использовать различные алгоритмы.
Существует также область, называемая визуализацией , которая в первую очередь фокусируется на процессе создания изображений, но иногда также имеет дело с обработкой и анализом изображений. Например, медицинская визуализация включает существенную работу по анализу данных изображений в медицинских приложениях. Прогресс в сверточных нейронных сетях (CNN) улучшил точное обнаружение заболеваний на медицинских изображениях, особенно в кардиологии, патологии, дерматологии и радиологии. ^[27]
Наконец, распознавание образов — это область, которая использует различные методы для извлечения информации из сигналов в целом, в основном на основе статистических подходов и искусственных нейронных сетей . ^[28] Значительная часть этой области посвящена применению этих методов к данным изображений.

Фотограмметрия также пересекается с компьютерным зрением, например, стереофотограмметрия против компьютерного стереозрения .

Приложения

Приложения варьируются от таких задач, как промышленные системы машинного зрения , которые, скажем, проверяют бутылки, проносящиеся на производственной линии, до исследований в области искусственного интеллекта и компьютеров или роботов, которые могут понимать окружающий мир. Области компьютерного зрения и машинного зрения во многом пересекаются. Компьютерное зрение охватывает основную технологию автоматизированного анализа изображений, которая используется во многих областях. Машинное зрение обычно относится к процессу объединения автоматизированного анализа изображений с другими методами и технологиями для обеспечения автоматизированного контроля и управления роботом в промышленных приложениях. Во многих приложениях компьютерного зрения компьютеры предварительно запрограммированы для решения определенной задачи, но методы, основанные на обучении, в настоящее время становятся все более распространенными. Примерами приложений компьютерного зрения являются системы для:

Автоматический контроль, например , в производственных приложениях;
Помощь людям в задачах идентификации, например, система идентификации видов ; ^[29]
Управление процессами, например , промышленным роботом ;
Обнаружение событий , например , для визуального наблюдения или подсчета людей , например, в ресторанном бизнесе ;
Взаимодействие, например , в качестве входных данных для устройства для взаимодействия компьютера и человека ;
Мониторинг сельскохозяйственных культур, например, модель Vision Transformers с открытым исходным кодом ^[30] была разработана, чтобы помочь фермерам автоматически обнаруживать заболевания клубники с точностью 98,4%. ^[31]
Моделирование объектов или сред, например , анализ медицинских изображений или топографическое моделирование;
Навигация, например , с помощью автономного транспортного средства или мобильного робота ;
Организация информации, например , для индексации баз данных изображений и последовательностей изображений.
Отслеживание поверхностей или плоскостей в трехмерных координатах для реализации возможностей дополненной реальности.

Лекарство

Видеоролик о концепции визуального медиа-рассуждения DARPA

Одной из наиболее известных областей применения является медицинское компьютерное зрение или обработка медицинских изображений, характеризующаяся извлечением информации из данных изображения для диагностики пациента . Примером этого является обнаружение опухолей , артериосклероза или других злокачественных изменений, а также различных стоматологических патологий; измерения размеров органов, кровотока и т. д. являются еще одним примером. Оно также поддерживает медицинские исследования, предоставляя новую информацию: например , о структуре мозга или качестве медицинского лечения. Приложения компьютерного зрения в медицинской области также включают улучшение изображений, интерпретируемых людьми, например, ультразвуковых изображений или рентгеновских снимков, для уменьшения влияния шума.

Машинное зрение

Вторая область применения компьютерного зрения — промышленность, иногда называемая машинным зрением , где информация извлекается для поддержки производственного процесса. Одним из примеров является контроль качества, где детали или конечные продукты автоматически проверяются с целью обнаружения дефектов. Одной из наиболее распространенных областей для такого контроля является производство пластин , в которой каждая отдельная пластина измеряется и проверяется на наличие неточностей или дефектов, чтобы предотвратить выход компьютерного чипа на рынок в непригодном для использования виде. Другим примером является измерение положения и ориентации деталей, которые будут подобраны роботизированной рукой. Машинное зрение также широко используется в сельскохозяйственных процессах для удаления нежелательных пищевых продуктов из сыпучего материала, процесс называется оптической сортировкой . ^[32]

Военный

Военные приложения, вероятно, являются одной из крупнейших областей компьютерного зрения ^{[ требуется ссылка ]} . Очевидными примерами являются обнаружение вражеских солдат или транспортных средств и наведение ракет . Более продвинутые системы наведения ракет направляют ракету в область, а не на конкретную цель, и выбор цели производится, когда ракета достигает области, на основе локально полученных данных изображения. Современные военные концепции, такие как «осведомленность о поле боя», подразумевают, что различные датчики, включая датчики изображений, предоставляют богатый набор информации о боевой сцене, которая может использоваться для поддержки стратегических решений. В этом случае автоматическая обработка данных используется для уменьшения сложности и объединения информации с нескольких датчиков для повышения надежности.

Автономные транспортные средства

Одной из новых областей применения являются автономные транспортные средства, которые включают подводные аппараты , наземные транспортные средства (небольшие роботы с колесами, автомобили или грузовики), воздушные транспортные средства и беспилотные летательные аппараты ( БПЛА ). Уровень автономности варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системы на основе компьютерного зрения поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства обычно используют компьютерное зрение для навигации, например, для определения своего местонахождения или картирования окружающей среды ( SLAM ), для обнаружения препятствий. Его также можно использовать для обнаружения определенных событий, связанных с выполнением конкретных задач, например , беспилотный летательный аппарат, ищущий лесные пожары. Примерами вспомогательных систем являются системы предупреждения о препятствиях в автомобилях, камеры и датчики LiDAR в транспортных средствах, а также системы для автономной посадки самолетов. Несколько производителей автомобилей продемонстрировали системы для автономного вождения автомобилей . Существует множество примеров военных автономных транспортных средств, начиная от современных ракет и заканчивая беспилотными летательными аппаратами для разведывательных миссий или наведения ракет. Исследование космоса уже осуществляется с помощью автономных аппаратов, использующих компьютерное зрение, например , Curiosity ( НАСА ) и марсоход Yutu -2 (CNSA) .

Тактильная обратная связь

Такие материалы, как резина и силикон, используются для создания датчиков, которые позволяют использовать их в таких приложениях, как обнаружение микроволн и калибровка роботизированных рук. Резина может использоваться для создания формы, которую можно поместить на палец, внутри этой формы будет несколько тензодатчиков. Форма пальца и датчики затем могут быть помещены поверх небольшого листа резины, содержащего ряд резиновых штифтов. Затем пользователь может надеть форму пальца и обвести поверхность. Затем компьютер может считывать данные с тензодатчиков и измерять, выталкивается ли один или несколько штифтов вверх. Если штифт выталкивается вверх, то компьютер может распознать это как дефект поверхности. Этот вид технологии полезен для получения точных данных о дефектах на очень большой поверхности. ^[33] Другой вариант этого датчика формы пальца — это датчики, которые содержат камеру, подвешенную в кремнии. Кремний образует купол вокруг внешней части камеры, а в кремний встроены точечные маркеры, которые расположены на равном расстоянии. Эти камеры затем можно разместить на таких устройствах, как роботизированные руки, чтобы компьютер мог получать высокоточные тактильные данные. ^[34]

Другие области применения включают в себя:

Поддержка создания визуальных эффектов для кино и вещания, например , трекинг камеры (перемещение по кадру).
Наблюдение .
Обнаружение сонливости водителя ^[35]^[36]^[37]
Отслеживание и подсчет организмов в биологических науках ^[38]

Типичные задачи

Каждая из областей применения, описанных выше, использует ряд задач компьютерного зрения; более или менее четко определенные проблемы измерения или проблемы обработки, которые могут быть решены с использованием различных методов. Некоторые примеры типичных задач компьютерного зрения представлены ниже.

Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например , в форме решений. ^[1]^[2]^[3]^[4] Понимание в этом контексте означает преобразование визуальных образов (входных данных сетчатки) в описания мира, которые могут взаимодействовать с другими мыслительными процессами и вызывать соответствующие действия. Это понимание образа можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения. ^[39]

Признание

Классическая проблема в компьютерном зрении, обработке изображений и машинном зрении заключается в определении того, содержат ли данные изображения какой-либо конкретный объект, признак или активность. Различные разновидности проблемы распознавания описаны в литературе. ^[40]

Распознавание объектов (также называемое классификацией объектов ) — один или несколько заранее определенных или изученных объектов или классов объектов могут быть распознаны, обычно вместе с их 2D-позициями на изображении или 3D-позами на сцене. Blippar, Google Goggles и LikeThat предоставляют автономные программы, которые иллюстрируют эту функциональность.
Идентификация – распознается отдельный экземпляр объекта. Примерами могут служить идентификация лица или отпечатка пальца конкретного человека, идентификация рукописных цифр или идентификация конкретного транспортного средства.
Обнаружение – данные изображения сканируются на предмет наличия определенных объектов вместе с их местоположением. Примерами служат обнаружение препятствия в поле зрения автомобиля и возможных аномальных клеток или тканей на медицинских снимках или обнаружение транспортного средства в системе автоматической оплаты проезда по дорогам. Обнаружение, основанное на относительно простых и быстрых вычислениях, иногда используется для поиска меньших областей интересных данных изображения, которые могут быть дополнительно проанализированы с помощью более требовательных к вычислениям методов для получения правильной интерпретации.

В настоящее время лучшие алгоритмы для таких задач основаны на сверточных нейронных сетях . Иллюстрацией их возможностей является ImageNet Large Scale Visual Recognition Challenge ; это эталон в классификации и обнаружении объектов, в котором используются миллионы изображений и 1000 классов объектов. ^[41] Производительность сверточных нейронных сетей в тестах ImageNet теперь близка к производительности людей. ^[41] Лучшие алгоритмы все еще испытывают трудности с объектами небольшого размера или тонкими, такими как маленький муравей на стебле цветка или человек, держащий перо в руке. У них также возникают проблемы с изображениями, искаженными фильтрами (все более распространенное явление в современных цифровых камерах). Напротив, такие виды изображений редко беспокоят людей. Однако у людей, как правило, возникают проблемы с другими проблемами. Например, они не очень хороши в классификации объектов по мелкозернистым классам, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим легко. ^{[ необходима цитата ]}

Существует несколько специализированных задач, основанных на распознавании, например:

Поиск изображений на основе контента – поиск всех изображений в большем наборе изображений, имеющих определенный контент. Контент может быть указан разными способами, например, с точки зрения сходства относительно целевого изображения (дайте мне все изображения, похожие на изображение X), используя методы обратного поиска изображений , или с точки зрения критериев поиска высокого уровня, заданных в виде текстового ввода (дайте мне все изображения, которые содержат много домов, сделаны зимой и на них нет автомобилей).

Оценка позы – оценка положения или ориентации определенного объекта относительно камеры. Примером применения этой техники может быть помощь роботизированной руке в извлечении объектов с конвейерной ленты на сборочной линии или сборе деталей из контейнера.
Оптическое распознавание символов (OCR) — идентификация символов на изображениях печатного или рукописного текста, обычно с целью кодирования текста в формате, более подходящем для редактирования или индексации ( например, ASCII ). Связанной задачей является чтение 2D-кодов, таких как data matrix и QR -коды.
Распознавание лиц – технология, которая позволяет сопоставлять лица на цифровых изображениях или видеокадрах с базой данных лиц, которая в настоящее время широко используется для распознавания лиц на мобильных телефонах, интеллектуальных замков дверей и т. д.^[42]
Распознавание эмоций – подмножество распознавания лиц, распознавание эмоций относится к процессу классификации человеческих эмоций. Однако психологи предупреждают, что внутренние эмоции не могут быть надежно обнаружены по лицам. ^[43]
Технология распознавания форм (SRT) в системах подсчета людей, отличающая людей (образцы головы и плеч) от объектов.
Распознавание человеческой активности — занимается распознаванием активности по серии видеокадров, например, поднимает ли человек предмет или идет.

Анализ движения

Несколько задач связаны с оценкой движения, где последовательность изображений обрабатывается для получения оценки скорости либо в каждой точке изображения, либо в 3D-сцене, либо даже камеры, которая создает изображения. Примерами таких задач являются:

Egomotion – определение трехмерного жесткого движения (вращение и поступательное движение) камеры на основе последовательности изображений, создаваемых камерой.
Отслеживание – отслеживание движений (обычно) меньшего набора точек интереса или объектов ( например , транспортных средств, объектов, людей или других организмов^[38] ) в последовательности изображений. Это имеет обширные отраслевые приложения, поскольку большинство высокопроизводительных машин можно контролировать таким образом.
Оптический поток – для определения для каждой точки изображения, как эта точка движется относительно плоскости изображения, т. е . ее кажущееся движение. Это движение является результатом как того, как соответствующая 3D-точка движется в сцене, так и того, как камера движется относительно сцены.

Реконструкция сцены

При наличии одного или (обычно) нескольких изображений сцены или видео реконструкция сцены направлена на вычисление 3D-модели сцены. В простейшем случае модель может быть набором 3D-точек. Более сложные методы создают полную 3D-модель поверхности. Появление 3D-изображений, не требующих движения или сканирования, и связанных с ними алгоритмов обработки обеспечивает быстрый прогресс в этой области. 3D-зондирование на основе сетки может использоваться для получения 3D-изображений с разных углов. Теперь доступны алгоритмы для сшивания нескольких 3D-изображений в облака точек и 3D-модели. ^[24]

Восстановление изображения

Восстановление изображений вступает в дело, когда исходное изображение ухудшается или повреждается из-за некоторых внешних факторов, таких как неправильное позиционирование объектива, помехи при передаче, слабое освещение или размытость изображения и т. д., что называется шумом. Когда изображения ухудшаются или повреждаются, информация, которая должна быть извлечена из них, также повреждается. Поэтому нам необходимо восстановить или восстановить изображение таким, каким оно было задумано. Целью восстановления изображений является удаление шума (шума сенсора, размытости изображения и т. д.) из изображений. Самый простой возможный подход к удалению шума — это различные типы фильтров, такие как фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят локальные структуры изображения, чтобы отличить их от шума. Сначала анализируя данные изображения с точки зрения локальных структур изображения, таких как линии или края, а затем управляя фильтрацией на основе локальной информации из этапа анализа, обычно достигается лучший уровень удаления шума по сравнению с более простыми подходами.

Примером в этой области является инпаутинг .

Системные методы

Организация системы компьютерного зрения сильно зависит от приложения. Некоторые системы являются автономными приложениями, которые решают конкретную проблему измерения или обнаружения, в то время как другие представляют собой подсистему более крупной конструкции, которая, например, также содержит подсистемы для управления механическими приводами, планирования, информационных баз данных, интерфейсов человек-машина и т. д. Конкретная реализация системы компьютерного зрения также зависит от того, является ли ее функциональность заранее определенной или какая-то ее часть может быть изучена или изменена во время работы. Многие функции являются уникальными для приложения. Однако существуют типичные функции, которые встречаются во многих системах компьютерного зрения.

Получение изображения – Цифровое изображение создается одним или несколькими датчиками изображения , которые, помимо различных типов светочувствительных камер, включают датчики дальности , томографические устройства, радары, ультразвуковые камеры и т. д. В зависимости от типа датчика, результирующие данные изображения представляют собой обычное 2D-изображение, 3D-объем или последовательность изображений. Значения пикселей обычно соответствуют интенсивности света в одном или нескольких спектральных диапазонах (серые изображения или цветные изображения), но также могут быть связаны с различными физическими мерами, такими как глубина, поглощение или отражение звуковых или электромагнитных волн или магнитно-резонансная томография . ^[32]
Предварительная обработка – Перед тем, как метод компьютерного зрения может быть применен к данным изображения для извлечения определенной части информации, обычно необходимо обработать данные, чтобы убедиться, что они удовлетворяют определенным предположениям, подразумеваемым методом. Примеры:
- Повторная выборка для обеспечения правильности системы координат изображения.
- Подавление шума, гарантирующее, что шум датчика не будет вносить ложную информацию.
- Повышение контрастности для обеспечения обнаружения важной информации.
- Масштабное представление пространства для улучшения структур изображений в локально подходящих масштабах.
Извлечение признаков – из данных изображения извлекаются признаки изображения разного уровня сложности.^[32] Типичными примерами таких признаков являются:
- Линии, края и гребни .
- Локализованные точки интереса , такие как углы , пятна или точки.

Более сложные особенности могут быть связаны с текстурой, формой или движением.

Обнаружение / сегментация – в какой-то момент обработки принимается решение о том, какие точки изображения или области изображения являются релевантными для дальнейшей обработки.^[32] Примеры:
- Выбор определенного набора точек интереса.
- Сегментация одной или нескольких областей изображения, содержащих определенный интересующий объект.
- Сегментация изображения во вложенную архитектуру сцены, включающую передний план, группы объектов, отдельные объекты или части выделяющихся объектов ^[44] (также называемые пространственно-таксонной иерархией сцены) ^[45] , в то время как визуальная заметность часто реализуется как пространственное и временное внимание .
- Сегментация или совместная сегментация одного или нескольких видео в серию покадровых масок переднего плана с сохранением их временной семантической непрерывности. ^[46]^[47]
Высокоуровневая обработка – На этом этапе входные данные обычно представляют собой небольшой набор данных, например, набор точек или область изображения, которая, как предполагается, содержит определенный объект. ^[32] Оставшаяся обработка касается, например:
- Проверка того, что данные удовлетворяют предположениям, основанным на модели и на конкретных приложениях.
- Оценка параметров, специфичных для приложения, таких как поза объекта или размер объекта.
- Распознавание изображений — классификация обнаруженного объекта по различным категориям.
- Регистрация изображений – сравнение и совмещение двух разных видов одного и того же объекта.
Принятие решения Принятие окончательного решения, необходимого для заявки, ^[32] например:
- Пройдено/не пройдено по автоматическим приложениям проверки.
- Совпадение/несовпадение в приложениях распознавания.
- Отметьте для дальнейшего рассмотрения человеком в медицинских, военных, охранных и распознавательных приложениях.

Системы понимания изображений

Системы понимания изображений (IUS) включают три уровня абстракции следующим образом: низкий уровень включает примитивы изображения, такие как края, элементы текстуры или области; промежуточный уровень включает границы, поверхности и объемы; и высокий уровень включает объекты, сцены или события. Многие из этих требований являются полностью темами для дальнейшего исследования.

Требования к представлению при проектировании ИУС для этих уровней: представление прототипических концепций, организация концепций, пространственные знания, временные знания, масштабирование и описание путем сравнения и дифференциации.

В то время как вывод относится к процессу получения новых, явно не представленных фактов из известных в настоящее время фактов, контроль относится к процессу, который выбирает, какие из многочисленных методов вывода, поиска и сопоставления должны применяться на определенном этапе обработки. Требования к выводу и контролю для IUS: поиск и активация гипотез, сопоставление и проверка гипотез, генерация и использование ожиданий, изменение и фокус внимания, определенность и сила убеждения, вывод и удовлетворение цели. ^[48]

Аппаратное обеспечение

Существует множество видов систем компьютерного зрения; однако все они содержат следующие основные элементы: источник питания, по крайней мере одно устройство получения изображений (камера, ПЗС и т. д.), процессор, а также кабели управления и связи или какой-либо механизм беспроводной связи. Кроме того, практическая система зрения содержит программное обеспечение, а также дисплей для мониторинга системы. Системы зрения для внутренних помещений, как и большинство промышленных, содержат систему освещения и могут быть размещены в контролируемой среде. Кроме того, завершенная система включает в себя множество аксессуаров, таких как опоры для камер, кабели и разъемы.

Большинство систем компьютерного зрения используют камеры видимого света, пассивно просматривающие сцену с частотой кадров не более 60 кадров в секунду (обычно намного медленнее).

Некоторые системы компьютерного зрения используют оборудование для получения изображений с активным освещением или чем-то, отличным от видимого света, или и тем, и другим, например, 3D-сканеры со структурированным светом , термографические камеры , гиперспектральные формирователи изображений , радиолокационные изображения , лидарные сканеры, магнитно-резонансные изображения , гидролокаторы бокового обзора , гидролокаторы с синтезированной апертурой и т. д. Такое оборудование захватывает «изображения», которые затем обрабатываются часто с использованием тех же алгоритмов компьютерного зрения, которые используются для обработки изображений в видимом свете.

В то время как традиционные вещательные и потребительские видеосистемы работают со скоростью 30 кадров в секунду, достижения в области цифровой обработки сигналов и потребительского графического оборудования сделали возможным высокоскоростное получение, обработку и отображение изображений для систем реального времени с частотой порядка сотен или тысяч кадров в секунду. Для приложений в робототехнике быстрые системы видео реального времени критически важны и часто могут упростить обработку, необходимую для определенных алгоритмов. В сочетании с высокоскоростным проектором быстрое получение изображений позволяет реализовать 3D-измерения и отслеживание характеристик. ^[49]

Системы эгоцентрического зрения состоят из носимой камеры, которая автоматически делает снимки от первого лица.

Начиная с 2016 года, блоки обработки изображений становятся новым классом процессоров, дополняющим центральные процессоры и графические процессоры (GPU) в этой роли. ^[50]

Смотрите также

Списки

Ссылки

^ аб Рейнхард Клетте (2014). Краткое компьютерное зрение . Спрингер. ISBN 978-1-4471-6320-6.
^ ab Линда Г. Шапиро ; Джордж К. Стокман (2001). Компьютерное зрение . Prentice Hall. ISBN 978-0-13-030796-5.
^ ab Тим Моррис (2004). Компьютерное зрение и обработка изображений . Palgrave Macmillan. ISBN 978-0-333-99451-1.
^ ab Bernd Jähne; Horst Haußecker (2000). Компьютерное зрение и приложения, руководство для студентов и практиков . Academic Press. ISBN 978-0-13-085198-7.
^ Дэна Х. Баллард; Кристофер М. Браун (1982). Компьютерное зрение. Prentice Hall. ISBN 978-0-13-165316-0.
^ Хуан, Т. (1996-11-19). Вандони, Карло Э. (ред.). Компьютерное зрение: эволюция и перспективы (PDF) . 19-я ЦЕРНская школа вычислений. Женева: ЦЕРН. стр. 21–25. doi :10.5170/CERN-1996-008.21. ISBN 978-9290830955. Архивировано (PDF) из оригинала 2018-02-07.
^ Милан Сонка; Вацлав Главац; Роджер Бойл (2008). Обработка изображений, анализ и машинное зрение . Томсон. ISBN 978-0-495-08252-1.
^ http://www.bmva.org/visionoverview Архивировано 16 февраля 2017 г. на Wayback Machine Британская ассоциация машинного зрения и общество распознавания образов Получено 20 февраля 2017 г.
↑ Мерфи, Майк (13 апреля 2017 г.). «Медицинский сканер «трикодер» из «Звездного пути» стал ближе к реальности». Архивировано из оригинала 2 июля 2017 г. Получено 18 июля 2017 г.
^ Принципы компьютерного зрения , алгоритмы, приложения, обучение 5-е издание ER Davies Academic Press, Elsevier 2018 ISBN 978-0-12-809284-2
^ abcd Ричард Селиски (30 сентября 2010 г.). Компьютерное зрение: алгоритмы и приложения. Springer Science & Business Media. стр. 10–16. ISBN 978-1-84882-935-0.
^ Sejnowski, Terrence J. (2018). Революция глубокого обучения . Кембридж, Массачусетс Лондон, Англия: The MIT Press. стр. 28. ISBN 978-0-262-03803-4.
^ Паперт, Сеймур (1966-07-01). «Проект летнего видения». MIT AI Memos (1959 - 2004) . hdl :1721.1/6125.
^ Маргарет Энн Боден (2006). Разум как машина: история когнитивной науки. Clarendon Press. стр. 781. ISBN 978-0-19-954316-8.
^ Такео Канаде (6 декабря 2012 г.). Трехмерное машинное зрение. Springer Science & Business Media. ISBN 978-1-4613-1981-8.
^ Нику Себе; Айра Коэн; Ашутош Гарг; Томас С. Хуан (3 июня 2005 г.). Машинное обучение в компьютерном зрении. Springer Science & Business Media. ISBN 978-1-4020-3274-5.
^ Уильям Фримен; Пьетро Перона; Бернхард Шолькопф (2008). «Гостевая редакция: Машинное обучение для компьютерного зрения». Международный журнал компьютерного зрения . 77 (1): 1. doi : 10.1007/s11263-008-0127-7 . hdl : 21.11116/0000-0003-30FB-C . ISSN 1573-1405.
^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение» (PDF) . Nature . 521 (7553): 436–444. Bibcode : 2015Natur.521..436L. doi : 10.1038/nature14539. PMID 26017442. S2CID 3074096.
^ Цзяо, Личэн; Чжан, Фань; Лю, Фанг; Ян, Шуюань; Ли, Линлинг; Фэн, Чжиси; Цюй, Ронг (2019). «Обзор обнаружения объектов на основе глубокого обучения». Доступ IEEE . 7 : 128837–128868. arXiv : 1907.09408 . Бибкод : 2019IEEA...7l8837J. дои : 10.1109/ACCESS.2019.2939201. S2CID 198147317.
^ Ферри, К.; Кайзер, С. (2019). Нейронные сети для младенцев . Справочники. ISBN 978-1492671206.
^ аб Стегер, Карстен; Маркус Ульрих; Кристиан Видеманн (2018). Алгоритмы и приложения машинного зрения (2-е изд.). Вайнхайм: Wiley-VCH . п. 1. ISBN 978-3-527-41365-2. Архивировано из оригинала 2023-03-15 . Получено 2018-01-30 .
^ Мюррей, Дон и Каллен Дженнингс. «Картографирование и навигация на основе стереозрения для мобильных роботов. Архивировано 31 октября 2020 г. в Wayback Machine ». Труды Международной конференции по робототехнике и автоматизации. Том 2. IEEE, 1997.
^ Андраде, Норберто Алмейда. «Вычислительное зрение и бизнес-аналитика в сегменте красоты — анализ через Instagram» (PDF) . Журнал управления маркетингом . Американский исследовательский институт разработки политики . Получено 11 марта 2024 г. .
^ abc Soltani, AA; Huang, H.; Wu, J.; Kulkarni, TD; Tenenbaum, JB (2017). «Синтез 3D-фигур с помощью моделирования многовидовых карт глубины и силуэтов с помощью глубоких генеративных сетей». Конференция IEEE 2017 года по компьютерному зрению и распознаванию образов (CVPR) . стр. 1511–1519. doi : 10.1109/CVPR.2017.269. hdl : 1721.1/126644 . ISBN 978-1-5386-0457-1. S2CID 31373273.
^ Турек, Фред (июнь 2011 г.). «Основы машинного зрения. Как заставить роботов видеть». Журнал NASA Tech Briefs . 35 (6).страницы 60–62
^ "Будущее автоматизированного случайного выбора контейнеров". Архивировано из оригинала 2018-01-11 . Получено 2018-01-10 .
^ Эстева, Андре; Чоу, Кэтрин; Йенг, Серена; Наик, Нихил; Мадани, Али; Моттаги, Али; Лю, Юн; Тополь, Эрик; Дин, Джефф; Сохер, Ричард (08.01.2021). «Медицинское компьютерное зрение с поддержкой глубокого обучения». npj Digital Medicine . 4 (1): 5. doi :10.1038/s41746-020-00376-2. ISSN 2398-6352. PMC 7794558. PMID 33420381 .
^ Червяков, НИ; Ляхов, ПА; Дерябин, МА; Нагорнов, НН; Валуева, МВ; Валуев, ГВ (2020). "Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network" (Решение на основе системы остаточных чисел для снижения стоимости оборудования сверточной нейронной сети). Neurocomputing . 407 : 439–453. doi :10.1016/j.neucom.2020.04.018. S2CID 219470398. Сверточные нейронные сети (CNN) представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, идентификацию белковых последовательностей в биоинформатике, управление производством, анализ временных рядов в финансах и многие другие.
^ Вальдхен, Яна; Медер, Патрик (2017-01-07). «Идентификация видов растений с использованием методов компьютерного зрения: систематический обзор литературы». Архивы вычислительных методов в инженерии . 25 (2): 507–543. doi :10.1007/s11831-016-9206-z. ISSN 1134-3060. PMC 6003396 . PMID 29962832.
^ Aghamohammadesmaeilketabforoosh, Kimia; Nikan, Soodeh; Antonini, Giorgio; Pearce, Joshua M. (январь 2024 г.). «Оптимизация обнаружения заболеваний и качества клубники с помощью Vision Transformers и сверточных нейронных сетей на основе внимания». Foods . 13 (12): 1869. doi : 10.3390/foods13121869 . ISSN 2304-8158. PMC 11202458 . PMID 38928810.
^ «Новая модель искусственного интеллекта, разработанная в Western, обнаруживает болезни клубники и нацелена на отходы». Лондон . 2024-09-13 . Получено 2024-09-19 .
^ abcdef E. Roy Davies (2005). Машинное зрение: теория, алгоритмы, практика . Morgan Kaufmann. ISBN 978-0-12-206093-9.
^ Андо, Мицухито; Такеи, Тосинобу; Мочияма, Хироми (2020-03-03). «Резиновый искусственный слой кожи с гибкой структурой для оценки формы микроволнистых поверхностей». Журнал ROBOMECH . 7 (1): 11. doi : 10.1186/s40648-020-00159-0 . ISSN 2197-4225.
^ Чой, Сын-хён; Тахара, Кэндзи (2020-03-12). «Ловкое манипулирование объектами с помощью многопальцевой роботизированной руки с визуально-тактильными датчиками на кончиках пальцев». Журнал ROBOMECH . 7 (1): 14. doi : 10.1186/s40648-020-00162-5 . ISSN 2197-4225.
^ Гарг, Хитендра (29.02.2020). «Обнаружение сонливости водителя с использованием обычного приложения компьютерного зрения». Международная конференция 2020 года по силовой электронике и приложениям Интернета вещей в возобновляемой энергетике и ее управлении (PARC) . стр. 50–53. doi :10.1109/PARC49193.2020.236556. ISBN 978-1-7281-6575-2. S2CID 218564267. Архивировано из оригинала 2022-06-27 . Получено 2022-11-06 .
^ Хасан, Фудайл; Кашевник, Алексей (2021-05-14). «Современный анализ современных алгоритмов обнаружения сонливости на основе компьютерного зрения». 2021 29-я конференция Ассоциации открытых инноваций (FRUCT) . стр. 141–149. doi :10.23919/FRUCT52173.2021.9435480. ISBN 978-952-69244-5-8. S2CID 235207036. Архивировано из оригинала 2022-06-27 . Получено 2022-11-06 .
^ Баласундарам, А; Ашоккумар, С; Котандараман, Д; Кора, Сина Наик; Сударшан, Э; Харшавердхан, А (2020-12-01). "Обнаружение усталости на основе компьютерного зрения с использованием параметров лица". Серия конференций IOP: Материаловедение и инженерия . 981 (2): 022005. Bibcode : 2020MS&E..981b2005B. doi : 10.1088/1757-899x/981/2/022005 . ISSN 1757-899X. S2CID 230639179.
^ ab Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (2018). "trackdem: Автоматизированное отслеживание частиц для получения подсчетов популяций и распределений размеров из видео в r". Методы в экологии и эволюции . 9 (4): 965–973. Bibcode : 2018MEcEv...9..965B. doi : 10.1111/2041-210X.12975 . hdl : 2066/184075 . ISSN 2041-210X.
^ Дэвид А. Форсайт; Жан Понс (2003). Компьютерное зрение, современный подход . Prentice Hall. ISBN 978-0-13-085198-7.
^ Форсайт, Дэвид; Понсе, Жан (2012). Компьютерное зрение: современный подход . Пирсон.
^ ab Русаковски, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуан, Чжихенг; Карпати, Андрей; Хосла, Адитья; Бернстайн, Майкл; Берг, Александр К. (декабрь 2015 г.). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision . 115 (3): 211–252. arXiv : 1409.0575 . doi :10.1007/s11263-015-0816-y. hdl : 1721.1/104944 . ISSN 0920-5691. S2CID 2930547. Архивировано из оригинала 2023-03-15 . Получено 2020-11-20 .
^ Куинн, Артур (2022-10-09). «Распознавание изображений с помощью ИИ: неизбежная тенденция современного образа жизни». TopTen.ai . Архивировано из оригинала 2022-12-02 . Получено 2022-12-23 .
^ Барретт, Лиза Фельдман; Адольфс, Ральф; Марселла, Стейси; Мартинес, Алекс М.; Поллак, Сет Д. (июль 2019 г.). «Переосмысление эмоциональных выражений: проблемы вывода эмоций из движений лица человека». Психологическая наука в интересах общества . 20 (1): 1–68. doi : 10.1177/1529100619832930. ISSN 1529-1006. PMC 6640856. PMID 31313636 .
^ А. Майти (2015). «Импровизированное обнаружение и манипулирование выступающими объектами». arXiv : 1511.02999 [cs.CV].
^ Баргхаут, Лорен. «Визуальный таксометрический подход к сегментации изображений с использованием нечетко-пространственного таксонного среза позволяет получить контекстуально релевантные регионы. Архивировано 14 ноября 2018 г. в Wayback Machine ». Обработка информации и управление неопределенностью в системах, основанных на знаниях. Springer International Publishing, 2014.
^ Лю, Цзыи; Ван, Ле; Хуа, Ган; Чжан, Цилинь; Ню, Чжэньсин; У, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических марковских сетей» (PDF) . IEEE Transactions on Image Processing . 27 (12): 5840–5853. Bibcode :2018ITIP...27.5840L. doi :10.1109/tip.2018.2859622. ISSN 1057-7149. PMID 30059300. S2CID 51867241. Архивировано из оригинала (PDF) 2018-09-07 . Получено 2018-09-14 .
^ Ван, Ле; Дуань, Сюхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Ган; Чжэн, Наньнин (2018-05-22). "Segment-Tube: пространственно-временная локализация действия в необрезанных видео с покадровой сегментацией" (PDF) . Датчики . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN 1424-8220. PMC 5982167 . PMID 29789447. Архивировано (PDF) из оригинала 2018-09-07.
^ Шапиро, Стюарт С. (1992). Энциклопедия искусственного интеллекта, том 1. Нью-Йорк: John Wiley & Sons, Inc. стр. 643–646. ISBN 978-0-471-50306-4.
^ Кагами, Синго (2010). «Высокоскоростные системы зрения и проекторы для восприятия мира в реальном времени». 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops . Vol. 2010. pp. 100–107. doi :10.1109/CVPRW.2010.5543776. ISBN 978-1-4244-7029-7. S2CID 14111100.
^ Сет Коланер (3 января 2016 г.). «Третий тип процессора для виртуальной реальности/дополненной реальности: Movidius' Myriad 2 VPU». www.tomshardware.com . Архивировано из оригинала 15 марта 2023 г. . Получено 3 мая 2016 г. .

Дальнейшее чтение

Джеймс Э. Добсон (2023). Рождение компьютерного зрения. Издательство Миннесотского университета. ISBN 978-1-5179-1421-9.
Дэвид Марр (1982). Видение. WH Freeman and Company. ISBN 978-0-7167-1284-8.
Азриэль Розенфельд; Авинаш Как (1982). Цифровая обработка изображений . Academic Press. ISBN 978-0-12-597301-4.
Barghout, Lauren; Lawrence W. Lee (2003). Система обработки перцептивной информации . Заявка на патент США 10/618,543. ISBN 978-0-262-08159-7.
Бертольд К.П. Хорн (1986). Видение робота . МТИ Пресс. ISBN 978-0-262-08159-7.
Майкл К. Фэрхерст (1988). Компьютерное зрение для робототехнических систем . Prentice Hall. ISBN 978-0-13-166919-2.
Оливье Фожерас (1993). Трехмерное компьютерное зрение, геометрическая точка зрения . MIT Press. ISBN 978-0-262-06158-2.
Тони Линдеберг (1994). Теория масштабного пространства в компьютерном зрении. Springer. ISBN 978-0-7923-9418-1.
Джеймс Л. Кроули; Хенрик И. Кристенсен, ред. (1995). Видение как процесс . Springer-Verlag. ISBN 978-3-540-58143-7.
Гёста Х. Гранлунд; Ханс Кнутссон (1995). Обработка сигналов для компьютерного зрения . Академическое издательство Клювер. ISBN 978-0-7923-9530-0.
Рейнхард Клетте; Карстен Шлуенс; Андреас Кошан (1998). Компьютерное зрение – трехмерные данные из изображений. Спрингер, Сингапур. ISBN 978-981-3083-71-4.
Эмануэле Трукко; Алессандро Верри (1998). Вводные методы трехмерного компьютерного зрения. Prentice Hall. ISBN 978-0-13-261108-4.
Бернд Йен (2002). Цифровая обработка изображений . Springer. ISBN 978-3-540-67754-3.
Ричард Хартли и Эндрю Зиссерман (2003). Многомерная геометрия в компьютерном зрении . Cambridge University Press. ISBN 978-0-521-54051-3.
Gérard Medioni; Sing Bing Kang (2004). Новые темы в области компьютерного зрения . Prentice Hall. ISBN 978-0-13-101366-7.
Р. Фишер; К. Доусон-Хау; А. Фицгиббон; К. Робертсон; Э. Трукко (2005). Словарь компьютерного зрения и обработки изображений . John Wiley. ISBN 978-0-470-01526-1.
Никос Парагиос и Юнмей Чен и Оливье Фожерас (2005). Справочник по математическим моделям в компьютерном зрении. Springer. ISBN 978-0-387-26371-7.
Вильгельм Бургер; Марк Дж. Бердж (2007). Цифровая обработка изображений: алгоритмический подход с использованием Java. Springer . ISBN 978-1-84628-379-6. Архивировано из оригинала 2014-05-17 . Получено 2007-06-13 .
Педрам Азад; Тило Гокель; Рюдигер Диллманн (2008). Компьютерное зрение – принципы и практика. Электор Интернешнл Медиа Б.В. ISBN 978-0-905705-71-2.
Ричард Селиски (2010). Компьютерное зрение: алгоритмы и приложения. Springer-Verlag. ISBN 978-1848829343.
JR Parker (2011). Алгоритмы обработки изображений и компьютерного зрения (2-е изд.). Wiley. ISBN 978-0470643853.
Ричард Дж. Радке (2013). Компьютерное зрение для визуальных эффектов . Cambridge University Press. ISBN 978-0-521-76687-6.
Никсон, Марк; Агуадо, Альберто (2019). Извлечение признаков и обработка изображений для компьютерного зрения (4-е изд.). Academic Press. ISBN 978-0128149768.

Внешние ссылки

Список конференций по компьютерному зрению USC Iris
Статьи по компьютерному зрению в Интернете — полный список статей самых актуальных конференций по компьютерному зрению.
Computer Vision Online Архивировано 30.11.2011 на Wayback Machine – новости, исходный код, наборы данных и предложения работы, связанные с компьютерным зрением
CVonline – Справочник Боба Фишера по компьютерному зрению.
Британская ассоциация машинного зрения — поддержка исследований в области компьютерного зрения в Великобритании посредством конференций BMVC и MIUA , Annals of the BMVA (журнал с открытым исходным кодом), летней школы BMVA и однодневных встреч.
Computer Vision Container, Joe Hoeller GitHub: Широко используемый контейнер с открытым исходным кодом для приложений компьютерного зрения с ускорением на GPU. Используется исследователями, университетами, частными компаниями, а также правительством США.