Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений , а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например, в форме решений. [1] [2] [3] [4] Понимание в этом контексте означает преобразование визуальных образов (входных данных для сетчатки в человеческом аналоге) в описания мира, которые имеют смысл для мыслительных процессов и могут вызывать соответствующие действия. Это понимание образа можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения.
Научная дисциплина компьютерного зрения занимается теорией, лежащей в основе искусственных систем, которые извлекают информацию из изображений. Данные изображений могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер, многомерные данные с 3D-сканера, 3D-облака точек с датчиков LiDaR или медицинских сканирующих устройств. Технологическая дисциплина компьютерного зрения стремится применять свои теории и модели для построения систем компьютерного зрения.
Компьютерное зрение — это междисциплинарная область , которая занимается тем, как можно заставить компьютеры получать высокоуровневое понимание из цифровых изображений или видео . С точки зрения инженерии , она стремится автоматизировать задачи, которые может выполнять зрительная система человека . [5] [6] [7] «Компьютерное зрение связано с автоматическим извлечением, анализом и пониманием полезной информации из одного изображения или последовательности изображений. Оно включает в себя разработку теоретической и алгоритмической основы для достижения автоматического визуального понимания». [8] Как научная дисциплина , компьютерное зрение связано с теорией, лежащей в основе искусственных систем, которые извлекают информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер или многомерные данные с медицинского сканера . [9] Как технологическая дисциплина, компьютерное зрение стремится применять свои теории и модели для построения систем компьютерного зрения. Машинное зрение относится к дисциплине системной инженерии, особенно в контексте автоматизации производства. В последнее время термины компьютерное зрение и машинное зрение в большей степени сблизились. [10] : 13
История
В конце 1960-х годов компьютерное зрение началось в университетах, которые были пионерами в области искусственного интеллекта . Оно должно было имитировать человеческую зрительную систему как ступеньку к наделению роботов интеллектуальным поведением. [11] В 1966 году считалось, что этого можно достичь с помощью летнего студенческого проекта, [12] прикрепив камеру к компьютеру и заставив его «описывать то, что он видит». [13] [14]
Что отличало компьютерное зрение от распространенной области цифровой обработки изображений в то время, так это желание извлечь трехмерную структуру из изображений с целью достижения полного понимания сцены. Исследования 1970-х годов сформировали ранние основы для многих алгоритмов компьютерного зрения , которые существуют сегодня, включая извлечение краев из изображений, маркировку линий, неполиэдральное и полиэдральное моделирование , представление объектов как взаимосвязей более мелких структур, оптический поток и оценку движения . [11]
Недавние работы показали возрождение методов, основанных на признаках , используемых в сочетании с методами машинного обучения и сложными фреймворками оптимизации. [16] [17]
Развитие методов глубокого обучения вдохнуло новую жизнь в область компьютерного зрения. Точность алгоритмов глубокого обучения на нескольких эталонных наборах данных компьютерного зрения для задач, начиная от классификации, [18] сегментации и оптического потока, превзошла предыдущие методы. [ необходима ссылка ] [19]
Связанные поля
Физика твердого тела
Физика твердого тела — еще одна область, тесно связанная с компьютерным зрением. Большинство систем компьютерного зрения полагаются на датчики изображения , которые обнаруживают электромагнитное излучение , которое обычно находится в форме видимого , инфракрасного или ультрафиолетового света . Датчики разработаны с использованием квантовой физики . Процесс, посредством которого свет взаимодействует с поверхностями, объясняется с помощью физики. Физика объясняет поведение оптики , которая является основной частью большинства систем формирования изображений. Сложные датчики изображения даже требуют квантовой механики для обеспечения полного понимания процесса формирования изображения. [11] Кроме того, различные проблемы измерения в физике могут быть решены с помощью компьютерного зрения, например, движение в жидкостях.
Нейробиология
Нейробиология оказала большое влияние на разработку алгоритмов компьютерного зрения. За последнее столетие было проведено обширное исследование глаз, нейронов и структур мозга, посвященное обработке зрительных стимулов как у людей, так и у различных животных. Это привело к грубому, но запутанному описанию того, как работают системы естественного зрения для решения определенных задач, связанных со зрением. Эти результаты привели к появлению подобласти в компьютерном зрении, где искусственные системы разрабатываются для имитации обработки и поведения биологических систем на разных уровнях сложности. Кроме того, некоторые из методов обучения, разработанных в компьютерном зрении ( например, нейронные сети и анализ и классификация изображений и признаков на основе глубокого обучения ), имеют свою основу в нейробиологии. Неокогнитрон , нейронная сеть, разработанная в 1970-х годах Кунихико Фукусимой , является ранним примером компьютерного зрения, напрямую вдохновленного нейробиологией, в частности первичной зрительной корой .
Некоторые направления исследований компьютерного зрения тесно связаны с изучением биологического зрения — действительно, так же как многие направления исследований ИИ тесно связаны с исследованиями человеческого интеллекта и использованием сохраненных знаний для интерпретации, интеграции и использования визуальной информации. Область биологического зрения изучает и моделирует физиологические процессы, лежащие в основе зрительного восприятия у людей и других животных. Компьютерное зрение, с другой стороны, разрабатывает и описывает алгоритмы, реализованные в программном обеспечении и оборудовании систем искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным зрением оказался плодотворным для обеих областей. [21]
Обработка сигнала
Еще одна область, связанная с компьютерным зрением, — это обработка сигналов . Многие методы обработки однопеременных сигналов, как правило, временных сигналов, могут быть естественным образом расширены до обработки двухпеременных сигналов или многопеременных сигналов в компьютерном зрении. Однако из-за специфической природы изображений существует много методов, разработанных в компьютерном зрении, которые не имеют аналогов в обработке однопеременных сигналов. Вместе с многомерностью сигнала это определяет подобласть в обработке сигналов как часть компьютерного зрения.
Роботизированная навигация
Навигация робота иногда связана с автономным планированием пути или обдумыванием для роботизированных систем, чтобы перемещаться по среде . [22] Для перемещения по ним требуется детальное понимание этих сред. Информация об окружающей среде может быть предоставлена системой компьютерного зрения, действующей как датчик зрения и предоставляющей высокоуровневую информацию об окружающей среде и роботе.
Помимо вышеупомянутых взглядов на компьютерное зрение, многие из связанных с этим тем исследований также могут быть изучены с чисто математической точки зрения. Например, многие методы в компьютерном зрении основаны на статистике , оптимизации или геометрии . Наконец, значительная часть области посвящена аспекту внедрения компьютерного зрения; как существующие методы могут быть реализованы в различных комбинациях программного и аппаратного обеспечения, или как эти методы могут быть модифицированы для повышения скорости обработки без слишком большой потери производительности. Компьютерное зрение также используется в модной электронной коммерции, управлении запасами, патентном поиске, мебели и индустрии красоты. [23]
Различия
Наиболее тесно связанными с компьютерным зрением областями являются обработка изображений , анализ изображений и машинное зрение . Существует значительное совпадение в диапазоне методов и приложений, которые они охватывают. Это означает, что основные методы, которые используются и разрабатываются в этих областях, схожи, что можно интерпретировать как то, что есть только одна область с разными названиями. С другой стороны, исследовательским группам, научным журналам, конференциям и компаниям, по-видимому, необходимо представлять или рекламировать себя как принадлежащих конкретно к одной из этих областей, и, следовательно, были представлены различные характеристики, которые отличают каждую из областей от других. В обработке изображений входными данными является изображение, и выходными данными также является изображение, тогда как в компьютерном зрении в качестве входных данных принимается изображение или видео, а выходными данными может быть улучшенное изображение, понимание содержания изображения или даже поведение компьютерной системы на основе такого понимания.
Компьютерная графика создает данные изображений из 3D-моделей, а компьютерное зрение часто создает 3D-модели из данных изображений. [24] Также существует тенденция к объединению этих двух дисциплин, например , как это было исследовано в дополненной реальности .
Следующие характеристики представляются уместными, но их не следует воспринимать как общепринятые:
Обработка и анализ изображений , как правило, фокусируются на 2D-изображениях, на том, как преобразовать одно изображение в другое, например , с помощью пиксельных операций, таких как повышение контрастности, локальных операций, таких как извлечение краев или удаление шума, или геометрических преобразований, таких как поворот изображения. Эта характеристика подразумевает, что обработка/анализ изображений не требует предположений и не производит интерпретаций о содержании изображения.
Компьютерное зрение включает 3D-анализ из 2D-изображений. Это анализирует 3D-сцену, спроецированную на одно или несколько изображений, например , как реконструировать структуру или другую информацию о 3D-сцене из одного или нескольких изображений. Компьютерное зрение часто опирается на более или менее сложные предположения о сцене, изображенной на изображении.
Машинное зрение — это процесс применения ряда технологий и методов для обеспечения автоматического контроля на основе изображений, управления процессами и управления роботами [25] в промышленных приложениях. [21] Машинное зрение, как правило, фокусируется на приложениях, в основном в производстве, например , роботы на основе зрения и системы для контроля, измерения или сбора на основе зрения (например, сбор контейнеров [26] ). Это подразумевает, что технологии датчиков изображений и теория управления часто интегрируются с обработкой данных изображений для управления роботом и что обработка в реальном времени подчеркивается посредством эффективных реализаций в аппаратном и программном обеспечении. Это также подразумевает, что внешние условия, такие как освещение, могут быть и часто контролируются в машинном зрении больше, чем в общем компьютерном зрении, что может позволить использовать различные алгоритмы.
Существует также область, называемая визуализацией , которая в первую очередь фокусируется на процессе создания изображений, но иногда также имеет дело с обработкой и анализом изображений. Например, медицинская визуализация включает существенную работу по анализу данных изображений в медицинских приложениях. Прогресс в сверточных нейронных сетях (CNN) улучшил точное обнаружение заболеваний на медицинских изображениях, особенно в кардиологии, патологии, дерматологии и радиологии. [27]
Наконец, распознавание образов — это область, которая использует различные методы для извлечения информации из сигналов в целом, в основном на основе статистических подходов и искусственных нейронных сетей . [28] Значительная часть этой области посвящена применению этих методов к данным изображений.
Приложения варьируются от таких задач, как промышленные системы машинного зрения , которые, скажем, проверяют бутылки, проносящиеся на производственной линии, до исследований в области искусственного интеллекта и компьютеров или роботов, которые могут понимать окружающий мир. Области компьютерного зрения и машинного зрения во многом пересекаются. Компьютерное зрение охватывает основную технологию автоматизированного анализа изображений, которая используется во многих областях. Машинное зрение обычно относится к процессу объединения автоматизированного анализа изображений с другими методами и технологиями для обеспечения автоматизированного контроля и управления роботом в промышленных приложениях. Во многих приложениях компьютерного зрения компьютеры предварительно запрограммированы для решения определенной задачи, но методы, основанные на обучении, в настоящее время становятся все более распространенными. Примерами приложений компьютерного зрения являются системы для:
Автоматический контроль, например , в производственных приложениях;
Помощь людям в задачах идентификации, например, система идентификации видов ; [29]
Мониторинг сельскохозяйственных культур, например, модель Vision Transformers с открытым исходным кодом [30] была разработана, чтобы помочь фермерам автоматически обнаруживать заболевания клубники с точностью 98,4%. [31]
Моделирование объектов или сред, например , анализ медицинских изображений или топографическое моделирование;
Организация информации, например , для индексации баз данных изображений и последовательностей изображений.
Отслеживание поверхностей или плоскостей в трехмерных координатах для реализации возможностей дополненной реальности.
Лекарство
Одной из наиболее известных областей применения является медицинское компьютерное зрение или обработка медицинских изображений, характеризующаяся извлечением информации из данных изображения для диагностики пациента . Примером этого является обнаружение опухолей , артериосклероза или других злокачественных изменений, а также различных стоматологических патологий; измерения размеров органов, кровотока и т. д. являются еще одним примером. Оно также поддерживает медицинские исследования, предоставляя новую информацию: например , о структуре мозга или качестве медицинского лечения. Приложения компьютерного зрения в медицинской области также включают улучшение изображений, интерпретируемых людьми, например, ультразвуковых изображений или рентгеновских снимков, для уменьшения влияния шума.
Машинное зрение
Вторая область применения компьютерного зрения — промышленность, иногда называемая машинным зрением , где информация извлекается для поддержки производственного процесса. Одним из примеров является контроль качества, где детали или конечные продукты автоматически проверяются с целью обнаружения дефектов. Одной из наиболее распространенных областей для такого контроля является производство пластин , в которой каждая отдельная пластина измеряется и проверяется на наличие неточностей или дефектов, чтобы предотвратить выход компьютерного чипа на рынок в непригодном для использования виде. Другим примером является измерение положения и ориентации деталей, которые будут подобраны роботизированной рукой. Машинное зрение также широко используется в сельскохозяйственных процессах для удаления нежелательных пищевых продуктов из сыпучего материала, процесс называется оптической сортировкой . [32]
Военный
Военные приложения, вероятно, являются одной из крупнейших областей компьютерного зрения [ требуется ссылка ] . Очевидными примерами являются обнаружение вражеских солдат или транспортных средств и наведение ракет . Более продвинутые системы наведения ракет направляют ракету в область, а не на конкретную цель, и выбор цели производится, когда ракета достигает области, на основе локально полученных данных изображения. Современные военные концепции, такие как «осведомленность о поле боя», подразумевают, что различные датчики, включая датчики изображений, предоставляют богатый набор информации о боевой сцене, которая может использоваться для поддержки стратегических решений. В этом случае автоматическая обработка данных используется для уменьшения сложности и объединения информации с нескольких датчиков для повышения надежности.
Автономные транспортные средства
Одной из новых областей применения являются автономные транспортные средства, которые включают в себя подводные аппараты , наземные транспортные средства (небольшие роботы с колесами, автомобили или грузовики), воздушные транспортные средства и беспилотные летательные аппараты ( БПЛА ). Уровень автономности варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системы на основе компьютерного зрения поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства обычно используют компьютерное зрение для навигации, например, для определения своего местонахождения или картирования окружающей среды ( SLAM ), для обнаружения препятствий. Его также можно использовать для обнаружения определенных событий, связанных с выполнением конкретных задач, например , беспилотный летательный аппарат, ищущий лесные пожары. Примерами вспомогательных систем являются системы предупреждения о препятствиях в автомобилях, камеры и датчики LiDAR в транспортных средствах, а также системы для автономной посадки самолетов. Несколько производителей автомобилей продемонстрировали системы для автономного вождения автомобилей . Существует множество примеров военных автономных транспортных средств, начиная от современных ракет и заканчивая беспилотными летательными аппаратами для разведывательных миссий или наведения ракет. Исследование космоса уже осуществляется с помощью автономных аппаратов, использующих компьютерное зрение, например , Curiosity ( НАСА ) и марсоход Yutu -2 (CNSA) .
Тактильная обратная связь
Такие материалы, как резина и силикон, используются для создания датчиков, которые позволяют использовать их в таких приложениях, как обнаружение микроволн и калибровка роботизированных рук. Резина может использоваться для создания формы, которую можно поместить на палец, внутри этой формы будет несколько тензодатчиков. Форма пальца и датчики затем могут быть помещены поверх небольшого листа резины, содержащего ряд резиновых штифтов. Затем пользователь может надеть форму пальца и обвести поверхность. Затем компьютер может считывать данные с тензодатчиков и измерять, выталкивается ли один или несколько штифтов вверх. Если штифт выталкивается вверх, то компьютер может распознать это как дефект поверхности. Этот вид технологии полезен для получения точных данных о дефектах на очень большой поверхности. [33] Другой вариант этого датчика формы пальца — это датчики, которые содержат камеру, подвешенную в кремнии. Кремний образует купол вокруг внешней части камеры, а в кремний встроены точечные маркеры, которые расположены на равном расстоянии. Эти камеры затем можно разместить на таких устройствах, как роботизированные руки, чтобы компьютер мог получать высокоточные тактильные данные. [34]
Отслеживание и подсчет организмов в биологических науках [38]
Типичные задачи
Каждая из областей применения, описанных выше, использует ряд задач компьютерного зрения; более или менее четко определенные проблемы измерения или проблемы обработки, которые могут быть решены с использованием различных методов. Некоторые примеры типичных задач компьютерного зрения представлены ниже.
Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например , в форме решений. [1] [2] [3] [4] Понимание в этом контексте означает преобразование визуальных образов (входных данных сетчатки) в описания мира, которые могут взаимодействовать с другими мыслительными процессами и вызывать соответствующие действия. Это понимание образа можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения. [39]
Признание
Классическая проблема в компьютерном зрении, обработке изображений и машинном зрении заключается в определении того, содержат ли данные изображения какой-либо конкретный объект, признак или активность. Различные разновидности проблемы распознавания описаны в литературе. [40]
Распознавание объектов (также называемое классификацией объектов ) — один или несколько заранее определенных или изученных объектов или классов объектов могут быть распознаны, обычно вместе с их 2D-позициями на изображении или 3D-позами на сцене. Blippar, Google Goggles и LikeThat предоставляют автономные программы, которые иллюстрируют эту функциональность.
Идентификация – распознается отдельный экземпляр объекта. Примерами могут служить идентификация лица или отпечатка пальца конкретного человека, идентификация рукописных цифр или идентификация конкретного транспортного средства.
Обнаружение – данные изображения сканируются на предмет наличия определенных объектов вместе с их местоположением. Примерами служат обнаружение препятствия в поле зрения автомобиля и возможных аномальных клеток или тканей на медицинских снимках или обнаружение транспортного средства в системе автоматической оплаты проезда. Обнаружение, основанное на относительно простых и быстрых вычислениях, иногда используется для поиска меньших областей интересных данных изображения, которые могут быть дополнительно проанализированы с помощью более требовательных к вычислениям методов для получения правильной интерпретации.
В настоящее время лучшие алгоритмы для таких задач основаны на сверточных нейронных сетях . Иллюстрацией их возможностей является ImageNet Large Scale Visual Recognition Challenge ; это эталон в классификации и обнаружении объектов, в котором используются миллионы изображений и 1000 классов объектов. [41] Производительность сверточных нейронных сетей в тестах ImageNet теперь близка к производительности людей. [41] Лучшие алгоритмы все еще испытывают трудности с объектами небольшого или тонкого размера, такими как маленький муравей на стебле цветка или человек, держащий перо в руке. У них также возникают проблемы с изображениями, искаженными фильтрами (все более распространенное явление в современных цифровых камерах). Напротив, такие виды изображений редко беспокоят людей. Однако у людей, как правило, возникают проблемы с другими проблемами. Например, они не очень хороши в классификации объектов по мелкозернистым классам, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим легко. [ необходима цитата ]
Существует несколько специализированных задач, основанных на распознавании, например:
Поиск изображений на основе контента – поиск всех изображений в большем наборе изображений, имеющих определенный контент. Контент может быть указан разными способами, например, с точки зрения сходства относительно целевого изображения (дайте мне все изображения, похожие на изображение X), используя методы обратного поиска изображений , или с точки зрения критериев поиска высокого уровня, заданных в виде текстового ввода (дайте мне все изображения, которые содержат много домов, сделаны зимой и на них нет автомобилей).
Оценка позы – оценка положения или ориентации определенного объекта относительно камеры. Примером применения этой техники может быть помощь роботизированной руке в извлечении объектов с конвейерной ленты на сборочной линии или сборе деталей из контейнера.
Оптическое распознавание символов (OCR) — идентификация символов на изображениях печатного или рукописного текста, обычно с целью кодирования текста в формате, более подходящем для редактирования или индексации ( например, ASCII ). Связанной задачей является чтение 2D-кодов, таких как матрица данных и QR -коды.
Распознавание лиц – технология, которая позволяет сопоставлять лица на цифровых изображениях или видеокадрах с базой данных лиц, которая в настоящее время широко используется для распознавания лиц на мобильных телефонах, интеллектуальных замков дверей и т. д. [42]
Распознавание эмоций – подмножество распознавания лиц, распознавание эмоций относится к процессу классификации человеческих эмоций. Однако психологи предупреждают, что внутренние эмоции не могут быть надежно обнаружены по лицам. [43]
Несколько задач связаны с оценкой движения, где последовательность изображений обрабатывается для получения оценки скорости либо в каждой точке изображения, либо в 3D-сцене, либо даже камеры, которая создает изображения. Примерами таких задач являются:
Egomotion – определение трехмерного жесткого движения (вращение и поступательное движение) камеры на основе последовательности изображений, создаваемых камерой.
Отслеживание – отслеживание движений (обычно) меньшего набора точек интереса или объектов ( например , транспортных средств, объектов, людей или других организмов [38] ) в последовательности изображений. Это имеет обширные отраслевые приложения, поскольку большинство высокопроизводительных машин можно контролировать таким образом.
Оптический поток – для определения для каждой точки изображения, как эта точка движется относительно плоскости изображения, т. е . ее кажущееся движение. Это движение является результатом как того, как соответствующая 3D-точка движется в сцене, так и того, как камера движется относительно сцены.
Реконструкция сцены
При наличии одного или (обычно) нескольких изображений сцены или видео реконструкция сцены направлена на вычисление 3D-модели сцены. В простейшем случае модель может быть набором 3D-точек. Более сложные методы создают полную 3D-модель поверхности. Появление 3D-изображений, не требующих движения или сканирования, и связанных с ними алгоритмов обработки обеспечивает быстрый прогресс в этой области. 3D-зондирование на основе сетки может использоваться для получения 3D-изображений с разных углов. Теперь доступны алгоритмы для сшивания нескольких 3D-изображений в облака точек и 3D-модели. [24]
Восстановление изображения
Восстановление изображений вступает в дело, когда исходное изображение ухудшается или повреждается из-за некоторых внешних факторов, таких как неправильное позиционирование объектива, помехи при передаче, слабое освещение или размытость изображения и т. д., что называется шумом. Когда изображения ухудшаются или повреждаются, информация, которая должна быть из них извлечена, также повреждается. Поэтому нам необходимо восстановить или восстановить изображение таким, каким оно было задумано. Целью восстановления изображений является удаление шума (шума сенсора, размытости изображения и т. д.) из изображений. Самый простой возможный подход к удалению шума — это различные типы фильтров, такие как фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят локальные структуры изображения, чтобы отличить их от шума. Сначала анализируя данные изображения с точки зрения локальных структур изображения, таких как линии или края, а затем управляя фильтрацией на основе локальной информации из этапа анализа, обычно достигается лучший уровень удаления шума по сравнению с более простыми подходами.
Организация системы компьютерного зрения сильно зависит от приложения. Некоторые системы являются автономными приложениями, которые решают конкретную проблему измерения или обнаружения, в то время как другие представляют собой подсистему более крупной конструкции, которая, например, также содержит подсистемы для управления механическими приводами, планирования, информационных баз данных, интерфейсов человек-машина и т. д. Конкретная реализация системы компьютерного зрения также зависит от того, является ли ее функциональность заранее определенной или какая-то ее часть может быть изучена или изменена во время работы. Многие функции являются уникальными для приложения. Однако существуют типичные функции, которые встречаются во многих системах компьютерного зрения.
Получение изображения – Цифровое изображение создается одним или несколькими датчиками изображения , которые, помимо различных типов светочувствительных камер, включают датчики дальности , томографические устройства, радары, ультразвуковые камеры и т. д. В зависимости от типа датчика, результирующие данные изображения представляют собой обычное 2D-изображение, 3D-объем или последовательность изображений. Значения пикселей обычно соответствуют интенсивности света в одном или нескольких спектральных диапазонах (серые изображения или цветные изображения), но также могут быть связаны с различными физическими мерами, такими как глубина, поглощение или отражение звуковых или электромагнитных волн или магнитно-резонансная томография . [32]
Предварительная обработка – Перед тем, как метод компьютерного зрения может быть применен к данным изображения для извлечения определенной части информации, обычно необходимо обработать данные, чтобы убедиться, что они удовлетворяют определенным предположениям, подразумеваемым методом. Примеры:
Повторная выборка для обеспечения правильности системы координат изображения.
Подавление шума, гарантирующее, что шум датчика не будет вносить ложную информацию.
Повышение контрастности для обеспечения обнаружения важной информации.
Масштабное представление пространства для улучшения структур изображений в локально подходящих масштабах.
Извлечение признаков – из данных изображения извлекаются признаки изображения разного уровня сложности. [32] Типичными примерами таких признаков являются:
Более сложные особенности могут быть связаны с текстурой, формой или движением.
Обнаружение / сегментация – в какой-то момент обработки принимается решение о том, какие точки изображения или области изображения являются релевантными для дальнейшей обработки. [32] Примеры:
Выбор определенного набора точек интереса.
Сегментация одной или нескольких областей изображения, содержащих определенный интересующий объект.
Сегментация изображения во вложенную архитектуру сцены, включающую передний план, группы объектов, отдельные объекты или части выделяющихся объектов [44] (также называемые пространственно-таксонной иерархией сцены) [45] , в то время как визуальная заметность часто реализуется как пространственное и временное внимание .
Сегментация или совместная сегментация одного или нескольких видео в серию покадровых масок переднего плана с сохранением их временной семантической непрерывности. [46] [47]
Высокоуровневая обработка – На этом этапе входные данные обычно представляют собой небольшой набор данных, например, набор точек или область изображения, которая, как предполагается, содержит определенный объект. [32] Оставшаяся обработка касается, например:
Проверка того, что данные удовлетворяют предположениям, основанным на модели и на конкретных приложениях.
Оценка параметров, специфичных для приложения, таких как поза объекта или размер объекта.
Регистрация изображений — сравнение и совмещение двух разных видов одного и того же объекта.
Принятие решения Принятие окончательного решения, необходимого для заявки, [32] например:
Пройдено/не пройдено по автоматическим приложениям проверки.
Совпадение/несовпадение в приложениях распознавания.
Отметьте для дальнейшего рассмотрения человеком в медицинских, военных, охранных и распознавательных приложениях.
Системы понимания изображений
Системы понимания изображений (IUS) включают три уровня абстракции следующим образом: низкий уровень включает примитивы изображения, такие как края, элементы текстуры или области; промежуточный уровень включает границы, поверхности и объемы; и высокий уровень включает объекты, сцены или события. Многие из этих требований являются полностью темами для дальнейшего исследования.
Требования к представлению при проектировании ИУС для этих уровней: представление прототипических концепций, организация концепций, пространственные знания, временные знания, масштабирование и описание путем сравнения и дифференциации.
В то время как вывод относится к процессу получения новых, явно не представленных фактов из известных в настоящее время фактов, контроль относится к процессу, который выбирает, какие из многих методов вывода, поиска и сопоставления должны применяться на определенном этапе обработки. Требования к выводу и контролю для IUS: поиск и активация гипотез, сопоставление и проверка гипотез, генерация и использование ожиданий, изменение и фокус внимания, определенность и сила убеждения, вывод и удовлетворение цели. [48]
Аппаратное обеспечение
Существует множество видов систем компьютерного зрения; однако все они содержат следующие основные элементы: источник питания, по крайней мере одно устройство получения изображений (камера, ПЗС и т. д.), процессор, а также кабели управления и связи или какой-либо механизм беспроводной связи. Кроме того, практическая система зрения содержит программное обеспечение, а также дисплей для мониторинга системы. Системы зрения для внутренних помещений, как и большинство промышленных, содержат систему освещения и могут быть размещены в контролируемой среде. Кроме того, завершенная система включает в себя множество аксессуаров, таких как опоры для камер, кабели и разъемы.
Большинство систем компьютерного зрения используют камеры видимого света, пассивно просматривающие сцену с частотой кадров не более 60 кадров в секунду (обычно намного медленнее).
В то время как традиционные вещательные и потребительские видеосистемы работают со скоростью 30 кадров в секунду, достижения в области цифровой обработки сигналов и потребительского графического оборудования сделали возможным высокоскоростное получение, обработку и отображение изображений для систем реального времени с частотой порядка сотен или тысяч кадров в секунду. Для приложений в робототехнике быстрые системы видео реального времени критически важны и часто могут упростить обработку, необходимую для определенных алгоритмов. В сочетании с высокоскоростным проектором быстрое получение изображений позволяет реализовать 3D-измерения и отслеживание характеристик. [49]
^ ab Тим Моррис (2004). Компьютерное зрение и обработка изображений . Palgrave Macmillan. ISBN978-0-333-99451-1.
^ ab Bernd Jähne; Horst Haußecker (2000). Компьютерное зрение и приложения, руководство для студентов и практиков . Academic Press. ISBN978-0-13-085198-7.
^ Дэна Х. Баллард; Кристофер М. Браун (1982). Компьютерное зрение. Prentice Hall. ISBN978-0-13-165316-0.
^ Хуан, Т. (1996-11-19). Вандони, Карло Э. (ред.). Компьютерное зрение: эволюция и перспективы (PDF) . 19-я ЦЕРНская школа вычислений. Женева: ЦЕРН. стр. 21–25. doi :10.5170/CERN-1996-008.21. ISBN978-9290830955. Архивировано (PDF) из оригинала 2018-02-07.
^ Милан Сонка; Вацлав Главац; Роджер Бойл (2008). Обработка изображений, анализ и машинное зрение . Томсон. ISBN978-0-495-08252-1.
^ http://www.bmva.org/visionoverview Архивировано 16 февраля 2017 г. на Wayback Machine Британская ассоциация машинного зрения и общество распознавания образов Получено 20 февраля 2017 г.
↑ Мерфи, Майк (13 апреля 2017 г.). «Медицинский сканер «трикодер» из «Звездного пути» стал ближе к реальности». Архивировано из оригинала 2 июля 2017 г. Получено 18 июля 2017 г.
^ Принципы компьютерного зрения , алгоритмы, приложения, обучение 5-е издание ER Davies Academic Press, Elsevier 2018 ISBN 978-0-12-809284-2
^ abcd Ричард Селиски (30 сентября 2010 г.). Компьютерное зрение: алгоритмы и приложения. Springer Science & Business Media. стр. 10–16. ISBN978-1-84882-935-0.
^ Sejnowski, Terrence J. (2018). Революция глубокого обучения . Кембридж, Массачусетс Лондон, Англия: The MIT Press. стр. 28. ISBN978-0-262-03803-4.
^ Паперт, Сеймур (1966-07-01). «Проект летнего видения». MIT AI Memos (1959 - 2004) . hdl :1721.1/6125.
^ Маргарет Энн Боден (2006). Разум как машина: история когнитивной науки. Clarendon Press. стр. 781. ISBN978-0-19-954316-8.
^ Такео Канаде (6 декабря 2012 г.). Трехмерное машинное зрение. Springer Science & Business Media. ISBN978-1-4613-1981-8.
^ Нику Себе; Айра Коэн; Ашутош Гарг; Томас С. Хуан (3 июня 2005 г.). Машинное обучение в компьютерном зрении. Springer Science & Business Media. ISBN978-1-4020-3274-5.
^ Уильям Фримен; Пьетро Перона; Бернхард Шолькопф (2008). «Гостевая редакционная статья: Машинное обучение для компьютерного зрения». Международный журнал компьютерного зрения . 77 (1): 1. doi : 10.1007/s11263-008-0127-7 . hdl : 21.11116/0000-0003-30FB-C . ISSN 1573-1405.
^ Ферри, К.; Кайзер, С. (2019). Нейронные сети для младенцев . Справочники. ISBN978-1492671206.
^ аб Стегер, Карстен; Маркус Ульрих; Кристиан Видеманн (2018). Алгоритмы и приложения машинного зрения (2-е изд.). Вайнхайм: Wiley-VCH . п. 1. ISBN978-3-527-41365-2. Архивировано из оригинала 2023-03-15 . Получено 2018-01-30 .
^ Мюррей, Дон и Каллен Дженнингс. «Картографирование и навигация на основе стереозрения для мобильных роботов. Архивировано 31 октября 2020 г. в Wayback Machine ». Труды Международной конференции по робототехнике и автоматизации. Том 2. IEEE, 1997.
^ Андраде, Норберто Алмейда. «Вычислительное зрение и бизнес-аналитика в сегменте красоты — анализ через Instagram» (PDF) . Журнал по управлению маркетингом . Американский исследовательский институт по разработке политики . Получено 11 марта 2024 г. .
^ abc Soltani, AA; Huang, H.; Wu, J.; Kulkarni, TD; Tenenbaum, JB (2017). «Синтез 3D-фигур с помощью моделирования многовидовых карт глубины и силуэтов с помощью глубоких генеративных сетей». Конференция IEEE 2017 года по компьютерному зрению и распознаванию образов (CVPR) . стр. 1511–1519. doi : 10.1109/CVPR.2017.269. hdl : 1721.1/126644 . ISBN978-1-5386-0457-1. S2CID 31373273.
^ Турек, Фред (июнь 2011 г.). «Основы машинного зрения. Как заставить роботов видеть». Журнал NASA Tech Briefs . 35 (6).страницы 60–62
^ Эстева, Андре; Чоу, Кэтрин; Йенг, Серена; Наик, Нихил; Мадани, Али; Моттаги, Али; Лю, Юн; Тополь, Эрик; Дин, Джефф; Сохер, Ричард (08.01.2021). «Медицинское компьютерное зрение с поддержкой глубокого обучения». npj Digital Medicine . 4 (1): 5. doi :10.1038/s41746-020-00376-2. ISSN 2398-6352. PMC 7794558. PMID 33420381 .
^ Червяков, НИ; Ляхов, ПА; Дерябин, МА; Нагорнов, НН; Валуева, МВ; Валуев, ГВ (2020). "Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network" (Решение на основе системы остаточных чисел для снижения стоимости оборудования сверточной нейронной сети). Neurocomputing . 407 : 439–453. doi :10.1016/j.neucom.2020.04.018. S2CID 219470398. Сверточные нейронные сети (CNN) представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, идентификацию белковых последовательностей в биоинформатике, управление производством, анализ временных рядов в финансах и многие другие.
^ Вальдхен, Яна; Медер, Патрик (2017-01-07). «Идентификация видов растений с использованием методов компьютерного зрения: систематический обзор литературы». Архивы вычислительных методов в инженерии . 25 (2): 507–543. doi :10.1007/s11831-016-9206-z. ISSN 1134-3060. PMC 6003396 . PMID 29962832.
^ Aghamohammadesmaeilketabforoosh, Kimia; Nikan, Soodeh; Antonini, Giorgio; Pearce, Joshua M. (январь 2024 г.). «Оптимизация обнаружения заболеваний и качества клубники с помощью Vision Transformers и сверточных нейронных сетей на основе внимания». Foods . 13 (12): 1869. doi : 10.3390/foods13121869 . ISSN 2304-8158. PMC 11202458 . PMID 38928810.
^ «Новая модель искусственного интеллекта, разработанная в Western, обнаруживает болезни клубники и нацелена на отходы». Лондон . 2024-09-13 . Получено 2024-09-19 .
^ abcdef E. Roy Davies (2005). Машинное зрение: теория, алгоритмы, практика . Морган Кауфманн. ISBN978-0-12-206093-9.
^ Андо, Мицухито; Такеи, Тосинобу; Мочияма, Хироми (2020-03-03). «Резиновый искусственный слой кожи с гибкой структурой для оценки формы микроволнистых поверхностей». Журнал ROBOMECH . 7 (1): 11. doi : 10.1186/s40648-020-00159-0 . ISSN 2197-4225.
^ Чой, Сын-хён; Тахара, Кэндзи (2020-03-12). «Ловкое манипулирование объектами с помощью многопальцевой роботизированной руки с визуально-тактильными датчиками на кончиках пальцев». Журнал ROBOMECH . 7 (1): 14. doi : 10.1186/s40648-020-00162-5 . ISSN 2197-4225.
^ Гарг, Хитендра (29.02.2020). «Обнаружение сонливости водителя с использованием обычного приложения компьютерного зрения». Международная конференция 2020 года по силовой электронике и приложениям Интернета вещей в возобновляемой энергетике и ее управлении (PARC) . стр. 50–53. doi :10.1109/PARC49193.2020.236556. ISBN978-1-7281-6575-2. S2CID 218564267. Архивировано из оригинала 2022-06-27 . Получено 2022-11-06 .
^ Хасан, Фудайл; Кашевник, Алексей (2021-05-14). «Современный анализ современных алгоритмов обнаружения сонливости на основе компьютерного зрения». 2021 29-я конференция Ассоциации открытых инноваций (FRUCT) . стр. 141–149. doi :10.23919/FRUCT52173.2021.9435480. ISBN978-952-69244-5-8. S2CID 235207036. Архивировано из оригинала 2022-06-27 . Получено 2022-11-06 .
^ Баласундарам, А; Ашоккумар, С; Котандараман, Д; кора, СинаНайк; Сударшан, Э; Харшавердхан, А (01 декабря 2020 г.). «Обнаружение усталости на основе компьютерного зрения по параметрам лица». Серия конференций IOP: Материаловедение и инженерия . 981 (2): 022005. Бибкод : 2020MS&E..981b2005B. дои : 10.1088/1757-899x/981/2/022005 . ISSN 1757-899X. S2CID 230639179.
^ ab Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (2018). "trackdem: Автоматизированное отслеживание частиц для получения подсчетов популяций и распределений размеров из видео в r". Методы в экологии и эволюции . 9 (4): 965–973. Bibcode : 2018MEcEv...9..965B. doi : 10.1111/2041-210X.12975 . hdl : 2066/184075 . ISSN 2041-210X.
^ Дэвид А. Форсайт; Жан Понс (2003). Компьютерное зрение, современный подход . Prentice Hall. ISBN978-0-13-085198-7.
^ Форсайт, Дэвид; Понсе, Жан (2012). Компьютерное зрение: современный подход . Пирсон.
^ аб Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуан, Чжихэн; Карпаты, Андрей; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр К. (декабрь 2015 г.). «Масштабная задача визуального распознавания ImageNet». Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . дои : 10.1007/s11263-015-0816-y. hdl : 1721.1/104944 . ISSN 0920-5691. S2CID 2930547. Архивировано из оригинала 15 марта 2023 г. Получено 2020-11-20 .
^ Куинн, Артур (2022-10-09). «Распознавание изображений с помощью ИИ: неизбежная тенденция современного образа жизни». TopTen.ai . Архивировано из оригинала 2022-12-02 . Получено 2022-12-23 .
^ Барретт, Лиза Фельдман; Адольфс, Ральф; Марселла, Стейси; Мартинес, Алекс М.; Поллак, Сет Д. (июль 2019 г.). «Переосмысление эмоциональных выражений: проблемы вывода эмоций из движений лица человека». Психологическая наука в интересах общества . 20 (1): 1–68. doi : 10.1177/1529100619832930. ISSN 1529-1006. PMC 6640856. PMID 31313636 .
^ А. Майти (2015). «Импровизированное обнаружение и манипулирование выступающими объектами». arXiv : 1511.02999 [cs.CV].
^ Баргхаут, Лорен. «Визуальный таксометрический подход к сегментации изображений с использованием нечетко-пространственного таксонного среза позволяет получить контекстуально релевантные регионы. Архивировано 14 ноября 2018 г. в Wayback Machine ». Обработка информации и управление неопределенностью в системах, основанных на знаниях. Springer International Publishing, 2014.
^ Лю, Цзыи; Ван, Ле; Хуа, Ган; Чжан, Цилинь; Ню, Чжэньсин; У, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических марковских сетей» (PDF) . IEEE Transactions on Image Processing . 27 (12): 5840–5853. Bibcode :2018ITIP...27.5840L. doi :10.1109/tip.2018.2859622. ISSN 1057-7149. PMID 30059300. S2CID 51867241. Архивировано из оригинала (PDF) 2018-09-07 . Получено 2018-09-14 .
^ Ван, Ле; Дуань, Сюхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Ган; Чжэн, Наньнин (2018-05-22). "Segment-Tube: пространственно-временная локализация действия в необрезанных видео с покадровой сегментацией" (PDF) . Датчики . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN 1424-8220. PMC 5982167 . PMID 29789447. Архивировано (PDF) из оригинала 2018-09-07.
^ Шапиро, Стюарт С. (1992). Энциклопедия искусственного интеллекта, том 1. Нью-Йорк: John Wiley & Sons, Inc. стр. 643–646. ISBN978-0-471-50306-4.
^ Кагами, Синго (2010). «Высокоскоростные системы и проекторы зрения для восприятия мира в реальном времени». 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops . Vol. 2010. pp. 100–107. doi :10.1109/CVPRW.2010.5543776. ISBN978-1-4244-7029-7. S2CID 14111100.
^ Сет Коланер (3 января 2016 г.). «Третий тип процессора для виртуальной реальности/дополненной реальности: Movidius' Myriad 2 VPU». www.tomshardware.com . Архивировано из оригинала 15 марта 2023 г. . Получено 3 мая 2016 г. .
Дальнейшее чтение
Джеймс Э. Добсон (2023). Рождение компьютерного зрения. Издательство Миннесотского университета. ISBN 978-1-5179-1421-9.
Р. Фишер; К. Доусон-Хау; А. Фицгиббон; К. Робертсон; Э. Трукко (2005). Словарь компьютерного зрения и обработки изображений . John Wiley. ISBN 978-0-470-01526-1.
Вильгельм Бургер; Марк Дж. Бердж (2007). Цифровая обработка изображений: алгоритмический подход с использованием Java. Springer . ISBN 978-1-84628-379-6. Архивировано из оригинала 2014-05-17 . Получено 2007-06-13 .
Педрам Азад; Тило Гокель; Рюдигер Диллманн (2008). Компьютерное зрение – принципы и практика. Электор Интернешнл Медиа Б.В. ISBN 978-0-905705-71-2.
Ричард Селиски (2010). Компьютерное зрение: алгоритмы и приложения. Springer-Verlag. ISBN 978-1848829343.
JR Parker (2011). Алгоритмы обработки изображений и компьютерного зрения (2-е изд.). Wiley. ISBN 978-0470643853.
Ричард Дж. Радке (2013). Компьютерное зрение для визуальных эффектов . Cambridge University Press. ISBN 978-0-521-76687-6.
Никсон, Марк; Агуадо, Альберто (2019). Извлечение признаков и обработка изображений для компьютерного зрения (4-е изд.). Academic Press. ISBN 978-0128149768.
Внешние ссылки
Список конференций по компьютерному зрению USC Iris
Статьи по компьютерному зрению в Интернете — полный список статей самых актуальных конференций по компьютерному зрению.
Computer Vision Online Архивировано 30.11.2011 на Wayback Machine – новости, исходный код, наборы данных и предложения работы, связанные с компьютерным зрением
CVonline – Справочник Боба Фишера по компьютерному зрению.
Британская ассоциация машинного зрения — поддержка исследований в области компьютерного зрения в Великобритании посредством конференций BMVC и MIUA , Annals of the BMVA (журнал с открытым исходным кодом), летней школы BMVA и однодневных встреч.
Computer Vision Container, Joe Hoeller GitHub: Широко используемый контейнер с открытым исходным кодом для приложений компьютерного зрения с ускорением на GPU. Используется исследователями, университетами, частными компаниями, а также правительством США.