stringtranslate.com

Компьютерное зрение

Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений , а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например, в форме решений. [1] [2] [3] [4] Понимание в этом контексте означает преобразование визуальных образов (входных данных для сетчатки в человеческом аналоге) в описания мира, которые имеют смысл для мыслительных процессов и могут вызывать соответствующие действия. Это понимание образа можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения.

Научная дисциплина компьютерного зрения занимается теорией, лежащей в основе искусственных систем, которые извлекают информацию из изображений. Данные изображений могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер, многомерные данные с 3D-сканера, 3D-облака точек с датчиков LiDaR или медицинских сканирующих устройств. Технологическая дисциплина компьютерного зрения стремится применять свои теории и модели для построения систем компьютерного зрения.

Подобласти компьютерного зрения включают реконструкцию сцены , обнаружение объектов , обнаружение событий , распознавание активности , видеоотслеживание , распознавание объектов , трехмерную оценку позы , обучение, индексирование, оценку движения , визуальное сервоуправление , трехмерное моделирование сцен и восстановление изображений .

Внедрение технологии компьютерного зрения может быть кропотливым для организаций, поскольку для этого не существует единого решения. Очень немногие компании предоставляют унифицированную и распределенную платформу или операционную систему, где приложения компьютерного зрения могут быть легко развернуты и управляемы.

Определение

Компьютерное зрение — это междисциплинарная область , которая занимается тем, как можно заставить компьютеры получать высокоуровневое понимание из цифровых изображений или видео . С точки зрения инженерии , она стремится автоматизировать задачи, которые может выполнять зрительная система человека . [5] [6] [7] «Компьютерное зрение связано с автоматическим извлечением, анализом и пониманием полезной информации из одного изображения или последовательности изображений. Оно включает в себя разработку теоретической и алгоритмической основы для достижения автоматического визуального понимания». [8] Как научная дисциплина , компьютерное зрение связано с теорией, лежащей в основе искусственных систем, которые извлекают информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер или многомерные данные с медицинского сканера . [9] Как технологическая дисциплина, компьютерное зрение стремится применять свои теории и модели для построения систем компьютерного зрения. Машинное зрение относится к дисциплине системной инженерии, особенно в контексте автоматизации производства. В последнее время термины компьютерное зрение и машинное зрение в большей степени сблизились. [10] : 13 

История

В конце 1960-х годов компьютерное зрение началось в университетах, которые были пионерами в области искусственного интеллекта . Оно должно было имитировать человеческую зрительную систему как ступеньку к наделению роботов интеллектуальным поведением. [11] В 1966 году считалось, что этого можно достичь с помощью летнего студенческого проекта, [12] прикрепив камеру к компьютеру и заставив его «описывать то, что он видит». [13] [14]

Что отличало компьютерное зрение от распространенной области цифровой обработки изображений в то время, так это желание извлечь трехмерную структуру из изображений с целью достижения полного понимания сцены. Исследования 1970-х годов сформировали ранние основы для многих алгоритмов компьютерного зрения , которые существуют сегодня, включая извлечение краев из изображений, маркировку линий, неполиэдральное и полиэдральное моделирование , представление объектов как взаимосвязей более мелких структур, оптический поток и оценку движения . [11]

В следующем десятилетии появились исследования, основанные на более строгом математическом анализе и количественных аспектах компьютерного зрения. К ним относятся концепция масштабного пространства , вывод формы из различных сигналов, таких как затенение , текстура и фокус, и контурные модели, известные как змеи . Исследователи также поняли, что многие из этих математических концепций можно рассматривать в той же структуре оптимизации, что и регуляризация и марковские случайные поля . [15] К 1990-м годам некоторые из предыдущих тем исследований стали более активными, чем другие. Исследования в области проективных 3-D реконструкций привели к лучшему пониманию калибровки камеры . С появлением методов оптимизации для калибровки камеры стало понятно, что многие идеи уже были исследованы в теории настройки пучков из области фотограмметрии . Это привело к методам для разреженных 3-D реконструкций сцен из нескольких изображений . Был достигнут прогресс в решении проблемы плотного стереосоответствия и дальнейших стереометодах с несколькими видами. В то же время для решения сегментации изображений использовались вариации разреза графа . Это десятилетие также ознаменовало первый раз, когда статистические методы обучения были использованы на практике для распознавания лиц на изображениях (см. Eigenface ). К концу 1990-х годов произошли значительные изменения с возросшим взаимодействием между областями компьютерной графики и компьютерного зрения. Это включало рендеринг на основе изображений , морфинг изображений , интерполяцию видов, панорамное сшивание изображений и ранний рендеринг светового поля . [11]

Недавние работы показали возрождение методов, основанных на признаках , используемых в сочетании с методами машинного обучения и сложными фреймворками оптимизации. [16] [17] Развитие методов глубокого обучения вдохнуло новую жизнь в область компьютерного зрения. Точность алгоритмов глубокого обучения на нескольких эталонных наборах данных компьютерного зрения для задач, начиная от классификации, [18] сегментации и оптического потока, превзошла предыдущие методы. [ необходима ссылка ] [19]

Связанные поля

Распознавание объектов на фотографии

Физика твердого тела

Физика твердого тела — еще одна область, тесно связанная с компьютерным зрением. Большинство систем компьютерного зрения полагаются на датчики изображения , которые обнаруживают электромагнитное излучение , которое обычно находится в форме видимого , инфракрасного или ультрафиолетового света . Датчики разработаны с использованием квантовой физики . Процесс, посредством которого свет взаимодействует с поверхностями, объясняется с помощью физики. Физика объясняет поведение оптики , которая является основной частью большинства систем формирования изображений. Сложные датчики изображения даже требуют квантовой механики для обеспечения полного понимания процесса формирования изображения. [11] Кроме того, различные проблемы измерения в физике могут быть решены с помощью компьютерного зрения, например, движение в жидкостях.

Нейробиология

Нейробиология оказала большое влияние на разработку алгоритмов компьютерного зрения. За последнее столетие было проведено обширное исследование глаз, нейронов и структур мозга, посвященное обработке зрительных стимулов как у людей, так и у различных животных. Это привело к грубому, но запутанному описанию того, как работают системы естественного зрения для решения определенных задач, связанных со зрением. Эти результаты привели к появлению подобласти в компьютерном зрении, где искусственные системы разрабатываются для имитации обработки и поведения биологических систем на разных уровнях сложности. Кроме того, некоторые из методов обучения, разработанных в компьютерном зрении ( например, нейронные сети и анализ и классификация изображений и признаков на основе глубокого обучения ), имеют свою основу в нейробиологии. Неокогнитрон , нейронная сеть, разработанная в 1970-х годах Кунихико Фукусимой , является ранним примером компьютерного зрения, напрямую вдохновленного нейробиологией, в частности первичной зрительной корой .

Некоторые направления исследований компьютерного зрения тесно связаны с изучением биологического зрения — действительно, так же как многие направления исследований ИИ тесно связаны с исследованиями человеческого интеллекта и использованием сохраненных знаний для интерпретации, интеграции и использования визуальной информации. Область биологического зрения изучает и моделирует физиологические процессы, лежащие в основе зрительного восприятия у людей и других животных. Компьютерное зрение, с другой стороны, разрабатывает и описывает алгоритмы, реализованные в программном обеспечении и оборудовании систем искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным зрением оказался плодотворным для обеих областей. [21]

Обработка сигнала

Еще одна область, связанная с компьютерным зрением, — это обработка сигналов . Многие методы обработки однопеременных сигналов, как правило, временных сигналов, могут быть естественным образом расширены до обработки двухпеременных сигналов или многопеременных сигналов в компьютерном зрении. Однако из-за специфической природы изображений в компьютерном зрении разработано много методов, которые не имеют аналогов в обработке однопеременных сигналов. Вместе с многомерностью сигнала это определяет подобласть в обработке сигналов как часть компьютерного зрения.

Роботизированная навигация

Навигация робота иногда связана с автономным планированием пути или обдумыванием для роботизированных систем, чтобы перемещаться по среде . [22] Для перемещения по ним требуется детальное понимание этих сред. Информация об окружающей среде может быть предоставлена ​​системой компьютерного зрения, действующей как датчик зрения и предоставляющей высокоуровневую информацию об окружающей среде и роботе.

Визуальные вычисления

Визуальные вычисления — это общий термин для всех дисциплин компьютерных наук, связанных с изображениями и 3D-моделями , таких как компьютерная графика , обработка изображений , визуализация , компьютерное зрение, вычислительная визуализация , дополненная реальность и обработка видео , на основе которых расширяется до Design Computation . Визуальные вычисления также включают аспекты распознавания образов , взаимодействия человека и компьютера , машинного обучения , робототехники , компьютерного моделирования и визуализации безопасности. Основными задачами являются получение, обработка, анализ и рендеринг визуальной информации. Области применения включают промышленный контроль качества, обработку и визуализацию медицинских изображений , геодезию, мультимедийные системы, виртуальное наследие, спецэффекты в кино и на телевидении и, в конечном счете, компьютерные игры, для которых окончательно сосредотачивается на User Experience Design . В конечном счете, это включает расширения больших языковых моделей (LLM) , которые находятся в Generative Artificial Intelligence для разработки исследований. Это особенно касается обстоятельств с достижениями в исследованиях между Embodied Agents и Generative Artificial Intelligence , которые предназначены для Visual Computation .

Другие поля

Помимо вышеупомянутых взглядов на компьютерное зрение, многие из связанных с этим тем исследований также могут быть изучены с чисто математической точки зрения. Например, многие методы в компьютерном зрении основаны на статистике , оптимизации или геометрии . Наконец, значительная часть области посвящена аспекту внедрения компьютерного зрения; как существующие методы могут быть реализованы в различных комбинациях программного и аппаратного обеспечения, или как эти методы могут быть модифицированы для повышения скорости обработки без слишком большой потери производительности. Компьютерное зрение также используется в модной электронной коммерции, управлении запасами, патентном поиске, мебели и индустрии красоты. [23]

Отличия

Наиболее тесно связанными с компьютерным зрением областями являются обработка изображений , анализ изображений и машинное зрение . Существует значительное совпадение в диапазоне методов и приложений, которые они охватывают. Это означает, что основные методы, которые используются и разрабатываются в этих областях, схожи, что можно интерпретировать как то, что есть только одна область с разными названиями. С другой стороны, исследовательским группам, научным журналам, конференциям и компаниям, по-видимому, необходимо представлять или рекламировать себя как принадлежащие конкретно к одной из этих областей, и, следовательно, были представлены различные характеристики, которые отличают каждую из областей от других. В обработке изображений входными данными является изображение, и выходными данными также является изображение, тогда как в компьютерном зрении в качестве входных данных принимается изображение или видео, а выходными данными может быть улучшенное изображение, понимание содержания изображения или даже поведение компьютерной системы на основе такого понимания.

Компьютерная графика создает данные изображений из 3D-моделей, а компьютерное зрение часто создает 3D-модели из данных изображений. [24] Также существует тенденция к объединению двух дисциплин, например , как это было исследовано в дополненной реальности .

Следующие характеристики представляются уместными, но их не следует воспринимать как общепринятые:

Фотограмметрия также пересекается с компьютерным зрением, например, стереофотограмметрия против компьютерного стереозрения .

Приложения

Приложения варьируются от таких задач, как промышленные системы машинного зрения , которые, скажем, проверяют бутылки, проносящиеся на производственной линии, до исследований в области искусственного интеллекта и компьютеров или роботов, которые могут понимать окружающий мир. Области компьютерного зрения и машинного зрения во многом пересекаются. Компьютерное зрение охватывает основную технологию автоматизированного анализа изображений, которая используется во многих областях. Машинное зрение обычно относится к процессу объединения автоматизированного анализа изображений с другими методами и технологиями для обеспечения автоматизированного контроля и управления роботом в промышленных приложениях. Во многих приложениях компьютерного зрения компьютеры предварительно запрограммированы для решения определенной задачи, но методы, основанные на обучении, в настоящее время становятся все более распространенными. Примерами приложений компьютерного зрения являются системы для:

Изучение 3D-форм было сложной задачей в компьютерном зрении. Недавние достижения в области глубокого обучения позволили исследователям создавать модели, которые способны генерировать и реконструировать 3D-формы из одно- или многовидовых карт глубины или силуэтов бесшовно и эффективно. [24]

Лекарство

Видеоролик о концепции визуального медиа-рассуждения DARPA

Одной из наиболее известных областей применения является медицинское компьютерное зрение или обработка медицинских изображений, характеризующаяся извлечением информации из данных изображения для диагностики пациента . Примером этого является обнаружение опухолей , артериосклероза или других злокачественных изменений, а также различных стоматологических патологий; измерения размеров органов, кровотока и т. д. являются еще одним примером. Оно также поддерживает медицинские исследования, предоставляя новую информацию: например , о структуре мозга или качестве медицинского лечения. Приложения компьютерного зрения в медицинской области также включают улучшение изображений, интерпретируемых людьми, например, ультразвуковых изображений или рентгеновских снимков, для уменьшения влияния шума.

Машинное зрение

Вторая область применения компьютерного зрения — промышленность, иногда называемая машинным зрением , где информация извлекается для поддержки производственного процесса. Одним из примеров является контроль качества, где детали или конечные продукты автоматически проверяются с целью обнаружения дефектов. Одной из наиболее распространенных областей для такого контроля является производство пластин , в которой каждая отдельная пластина измеряется и проверяется на наличие неточностей или дефектов, чтобы предотвратить выход компьютерного чипа на рынок в непригодном для использования виде. Другим примером является измерение положения и ориентации деталей, которые будут подобраны роботизированной рукой. Машинное зрение также широко используется в сельскохозяйственных процессах для удаления нежелательных пищевых продуктов из сыпучего материала, процесс называется оптической сортировкой . [32]

Военный

Военные приложения, вероятно, являются одной из крупнейших областей компьютерного зрения [ требуется ссылка ] . Очевидными примерами являются обнаружение вражеских солдат или транспортных средств и наведение ракет . Более продвинутые системы наведения ракет направляют ракету в область, а не на конкретную цель, и выбор цели производится, когда ракета достигает области, на основе локально полученных данных изображения. Современные военные концепции, такие как «осведомленность о поле боя», подразумевают, что различные датчики, включая датчики изображений, предоставляют богатый набор информации о боевой сцене, которая может использоваться для поддержки стратегических решений. В этом случае автоматическая обработка данных используется для уменьшения сложности и объединения информации с нескольких датчиков для повышения надежности.

Автономные транспортные средства

Художественная концепция Curiosity , примера беспилотного наземного транспортного средства. Стереокамера установлена ​​наверху марсохода.

Одной из новых областей применения являются автономные транспортные средства, которые включают подводные аппараты , наземные транспортные средства (небольшие роботы с колесами, автомобили или грузовики), воздушные транспортные средства и беспилотные летательные аппараты ( БПЛА ). Уровень автономности варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системы на основе компьютерного зрения поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства обычно используют компьютерное зрение для навигации, например, для определения своего местонахождения или картирования окружающей среды ( SLAM ), для обнаружения препятствий. Его также можно использовать для обнаружения определенных событий, связанных с выполнением конкретных задач, например , беспилотный летательный аппарат, ищущий лесные пожары. Примерами вспомогательных систем являются системы предупреждения о препятствиях в автомобилях, камеры и датчики LiDAR в транспортных средствах, а также системы для автономной посадки самолетов. Несколько производителей автомобилей продемонстрировали системы для автономного вождения автомобилей . Существует множество примеров военных автономных транспортных средств, начиная от современных ракет и заканчивая беспилотными летательными аппаратами для разведывательных миссий или наведения ракет. Исследование космоса уже осуществляется с помощью автономных аппаратов, использующих компьютерное зрение, например , Curiosity ( НАСА ) и марсоход Yutu -2 (CNSA) .

Тактильная обратная связь

Резиновый искусственный слой кожи с гибкой структурой для оценки формы микроволнистых поверхностей
Выше представлена ​​силиконовая форма с камерой внутри, содержащей множество различных точечных маркеров. Когда этот датчик прижимается к поверхности, кремний деформируется, и положение точечных маркеров смещается. Затем компьютер может взять эти данные и определить, как именно форма прижимается к поверхности. Это можно использовать для калибровки роботизированных рук, чтобы убедиться, что они могут эффективно захватывать объекты.

Такие материалы, как резина и силикон, используются для создания датчиков, которые позволяют использовать их в таких приложениях, как обнаружение микроволн и калибровка роботизированных рук. Резина может использоваться для создания формы, которую можно поместить на палец, внутри этой формы будет несколько тензодатчиков. Форма пальца и датчики затем могут быть помещены поверх небольшого листа резины, содержащего ряд резиновых штифтов. Затем пользователь может надеть форму пальца и обвести поверхность. Затем компьютер может считывать данные с тензодатчиков и измерять, выталкивается ли один или несколько штифтов вверх. Если штифт выталкивается вверх, то компьютер может распознать это как дефект поверхности. Этот вид технологии полезен для получения точных данных о дефектах на очень большой поверхности. [33] Другой вариант этого датчика формы пальца — это датчики, которые содержат камеру, подвешенную в кремнии. Кремний образует купол вокруг внешней части камеры, а в кремний встроены точечные маркеры, которые расположены на равном расстоянии. Эти камеры затем можно разместить на таких устройствах, как роботизированные руки, чтобы компьютер мог получать высокоточные тактильные данные. [34]

Другие области применения включают в себя:

Типичные задачи

Каждая из областей применения, описанных выше, использует ряд задач компьютерного зрения; более или менее четко определенные проблемы измерения или проблемы обработки, которые могут быть решены с использованием различных методов. Некоторые примеры типичных задач компьютерного зрения представлены ниже.

Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например , в форме решений. [1] [2] [3] [4] Понимание в этом контексте означает преобразование визуальных образов (входных данных сетчатки) в описания мира, которые могут взаимодействовать с другими мыслительными процессами и вызывать соответствующие действия. Это понимание образа можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения. [39]

Признание

Классическая проблема в компьютерном зрении, обработке изображений и машинном зрении заключается в определении того, содержат ли данные изображения какой-либо конкретный объект, признак или активность. Различные разновидности проблемы распознавания описаны в литературе. [40]

В настоящее время лучшие алгоритмы для таких задач основаны на сверточных нейронных сетях . Иллюстрацией их возможностей является ImageNet Large Scale Visual Recognition Challenge ; это эталон в классификации и обнаружении объектов, в котором используются миллионы изображений и 1000 классов объектов. [41] Производительность сверточных нейронных сетей в тестах ImageNet теперь близка к производительности людей. [41] Лучшие алгоритмы все еще испытывают трудности с объектами небольшого размера или тонкими, такими как маленький муравей на стебле цветка или человек, держащий перо в руке. У них также возникают проблемы с изображениями, искаженными фильтрами (все более распространенное явление в современных цифровых камерах). Напротив, такие виды изображений редко беспокоят людей. Однако у людей, как правило, возникают проблемы с другими проблемами. Например, они не очень хороши в классификации объектов по мелкозернистым классам, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим легко. [ необходима цитата ]

Существует несколько специализированных задач, основанных на распознавании, например:

Компьютерное зрение для подсчета людей в общественных местах, торговых центрах и торговых центрах

Анализ движения

Несколько задач связаны с оценкой движения, где последовательность изображений обрабатывается для получения оценки скорости либо в каждой точке изображения, либо в 3D-сцене, либо даже камеры, которая создает изображения. Примерами таких задач являются:

Реконструкция сцены

При наличии одного или (обычно) нескольких изображений сцены или видео реконструкция сцены направлена ​​на вычисление 3D-модели сцены. В простейшем случае модель может быть набором 3D-точек. Более сложные методы создают полную 3D-модель поверхности. Появление 3D-изображений, не требующих движения или сканирования, и связанных с ними алгоритмов обработки обеспечивает быстрый прогресс в этой области. 3D-зондирование на основе сетки может использоваться для получения 3D-изображений с разных углов. Теперь доступны алгоритмы для сшивания нескольких 3D-изображений в облака точек и 3D-модели. [24]

Восстановление изображения

Восстановление изображений вступает в дело, когда исходное изображение ухудшается или повреждается из-за некоторых внешних факторов, таких как неправильное позиционирование объектива, помехи при передаче, слабое освещение или размытость изображения и т. д., что называется шумом. Когда изображения ухудшаются или повреждаются, информация, которая должна быть извлечена из них, также повреждается. Поэтому нам необходимо восстановить или восстановить изображение таким, каким оно было задумано. Целью восстановления изображений является удаление шума (шума сенсора, размытости изображения и т. д.) из изображений. Самый простой возможный подход к удалению шума — это различные типы фильтров, такие как фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят локальные структуры изображения, чтобы отличить их от шума. Сначала анализируя данные изображения с точки зрения локальных структур изображения, таких как линии или края, а затем управляя фильтрацией на основе локальной информации из этапа анализа, обычно достигается лучший уровень удаления шума по сравнению с более простыми подходами.

Примером в этой области является инпаутинг .

Системные методы

Организация системы компьютерного зрения сильно зависит от приложения. Некоторые системы являются автономными приложениями, которые решают конкретную проблему измерения или обнаружения, в то время как другие представляют собой подсистему более крупной конструкции, которая, например, также содержит подсистемы для управления механическими приводами, планирования, информационных баз данных, интерфейсов человек-машина и т. д. Конкретная реализация системы компьютерного зрения также зависит от того, является ли ее функциональность заранее определенной или какая-то ее часть может быть изучена или изменена во время работы. Многие функции являются уникальными для приложения. Однако существуют типичные функции, которые встречаются во многих системах компьютерного зрения.

Более сложные особенности могут быть связаны с текстурой, формой или движением.

Системы понимания изображений

Системы понимания изображений (IUS) включают три уровня абстракции следующим образом: низкий уровень включает примитивы изображения, такие как края, элементы текстуры или области; промежуточный уровень включает границы, поверхности и объемы; и высокий уровень включает объекты, сцены или события. Многие из этих требований являются полностью темами для дальнейшего исследования.

Требования к представлению при проектировании ИУС для этих уровней: представление прототипических концепций, организация концепций, пространственные знания, временные знания, масштабирование и описание путем сравнения и дифференциации.

В то время как вывод относится к процессу получения новых, явно не представленных фактов из известных в настоящее время фактов, контроль относится к процессу, который выбирает, какие из многочисленных методов вывода, поиска и сопоставления должны применяться на определенном этапе обработки. Требования к выводу и контролю для IUS: поиск и активация гипотез, сопоставление и проверка гипотез, генерация и использование ожиданий, изменение и фокус внимания, определенность и сила убеждения, вывод и удовлетворение цели. [48]

Аппаратное обеспечение

Модель iPad Pro 2020 года с датчиком LiDAR

Существует множество видов систем компьютерного зрения; однако все они содержат следующие основные элементы: источник питания, по крайней мере одно устройство получения изображений (камера, ПЗС и т. д.), процессор, а также кабели управления и связи или какой-либо механизм беспроводной связи. Кроме того, практическая система зрения содержит программное обеспечение, а также дисплей для мониторинга системы. Системы зрения для внутренних помещений, как и большинство промышленных, содержат систему освещения и могут быть размещены в контролируемой среде. Кроме того, завершенная система включает в себя множество аксессуаров, таких как опоры для камер, кабели и разъемы.

Большинство систем компьютерного зрения используют камеры видимого света, пассивно просматривающие сцену с частотой кадров не более 60 кадров в секунду (обычно намного медленнее).

Некоторые системы компьютерного зрения используют оборудование для получения изображений с активным освещением или чем-то, отличным от видимого света, или и тем, и другим, например, 3D-сканеры со структурированным светом , термографические камеры , гиперспектральные формирователи изображений , радиолокационные изображения , лидарные сканеры, магнитно-резонансные изображения , гидролокаторы бокового обзора , гидролокаторы с синтезированной апертурой и т. д. Такое оборудование захватывает «изображения», которые затем обрабатываются часто с использованием тех же алгоритмов компьютерного зрения, которые используются для обработки изображений в видимом свете.

В то время как традиционные вещательные и потребительские видеосистемы работают со скоростью 30 кадров в секунду, достижения в области цифровой обработки сигналов и потребительского графического оборудования сделали возможным высокоскоростное получение, обработку и отображение изображений для систем реального времени с частотой порядка сотен или тысяч кадров в секунду. Для приложений в робототехнике быстрые системы видео реального времени критически важны и часто могут упростить обработку, необходимую для определенных алгоритмов. В сочетании с высокоскоростным проектором быстрое получение изображений позволяет реализовать 3D-измерения и отслеживание характеристик. [49]

Системы эгоцентрического зрения состоят из носимой камеры, которая автоматически делает снимки от первого лица.

Начиная с 2016 года, блоки обработки изображений становятся новым классом процессоров, дополняющим центральные процессоры и графические процессоры (GPU) в этой роли. [50]

Смотрите также

Списки

Ссылки

  1. ^ аб Рейнхард Клетте (2014). Краткое компьютерное зрение . Спрингер. ISBN 978-1-4471-6320-6.
  2. ^ ab Линда Г. Шапиро ; Джордж К. Стокман (2001). Компьютерное зрение . Prentice Hall. ISBN 978-0-13-030796-5.
  3. ^ ab Тим Моррис (2004). Компьютерное зрение и обработка изображений . Palgrave Macmillan. ISBN 978-0-333-99451-1.
  4. ^ ab Bernd Jähne; Horst Haußecker (2000). Компьютерное зрение и приложения, руководство для студентов и практиков . Academic Press. ISBN 978-0-13-085198-7.
  5. ^ Дэна Х. Баллард; Кристофер М. Браун (1982). Компьютерное зрение. Prentice Hall. ISBN 978-0-13-165316-0.
  6. ^ Хуан, Т. (1996-11-19). Вандони, Карло Э. (ред.). Компьютерное зрение: эволюция и перспективы (PDF) . 19-я ЦЕРНская школа вычислений. Женева: ЦЕРН. стр. 21–25. doi :10.5170/CERN-1996-008.21. ISBN 978-9290830955. Архивировано (PDF) из оригинала 2018-02-07.
  7. ^ Милан Сонка; Вацлав Главац; Роджер Бойл (2008). Обработка изображений, анализ и машинное зрение . Томсон. ISBN 978-0-495-08252-1.
  8. ^ http://www.bmva.org/visionoverview Архивировано 16 февраля 2017 г. на Wayback Machine Британская ассоциация машинного зрения и общество распознавания образов Получено 20 февраля 2017 г.
  9. Мерфи, Майк (13 апреля 2017 г.). «Медицинский сканер «трикодер» из «Звездного пути» стал ближе к реальности». Архивировано из оригинала 2 июля 2017 г. Получено 18 июля 2017 г.
  10. ^ Принципы компьютерного зрения , алгоритмы, приложения, обучение 5-е издание ER Davies Academic Press, Elsevier 2018 ISBN 978-0-12-809284-2
  11. ^ abcd Ричард Селиски (30 сентября 2010 г.). Компьютерное зрение: алгоритмы и приложения. Springer Science & Business Media. стр. 10–16. ISBN 978-1-84882-935-0.
  12. ^ Sejnowski, Terrence J. (2018). Революция глубокого обучения . Кембридж, Массачусетс Лондон, Англия: The MIT Press. стр. 28. ISBN 978-0-262-03803-4.
  13. ^ Паперт, Сеймур (1966-07-01). «Проект летнего видения». MIT AI Memos (1959 - 2004) . hdl :1721.1/6125.
  14. ^ Маргарет Энн Боден (2006). Разум как машина: история когнитивной науки. Clarendon Press. стр. 781. ISBN 978-0-19-954316-8.
  15. ^ Такео Канаде (6 декабря 2012 г.). Трехмерное машинное зрение. Springer Science & Business Media. ISBN 978-1-4613-1981-8.
  16. ^ Нику Себе; Айра Коэн; Ашутош Гарг; Томас С. Хуан (3 июня 2005 г.). Машинное обучение в компьютерном зрении. Springer Science & Business Media. ISBN 978-1-4020-3274-5.
  17. ^ Уильям Фримен; Пьетро Перона; Бернхард Шолькопф (2008). «Гостевая редакция: Машинное обучение для компьютерного зрения». Международный журнал компьютерного зрения . 77 (1): 1. doi : 10.1007/s11263-008-0127-7 . hdl : 21.11116/0000-0003-30FB-C . ISSN  1573-1405.
  18. ^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение» (PDF) . Nature . 521 (7553): 436–444. Bibcode : 2015Natur.521..436L. doi : 10.1038/nature14539. PMID  26017442. S2CID  3074096.
  19. ^ Цзяо, Личэн; Чжан, Фань; Лю, Фанг; Ян, Шуюань; Ли, Линлинг; Фэн, Чжиси; Цюй, Ронг (2019). «Обзор обнаружения объектов на основе глубокого обучения». Доступ IEEE . 7 : 128837–128868. arXiv : 1907.09408 . Бибкод : 2019IEEA...7l8837J. дои : 10.1109/ACCESS.2019.2939201. S2CID  198147317.
  20. ^ Ферри, К.; Кайзер, С. (2019). Нейронные сети для младенцев . Справочники. ISBN 978-1492671206.
  21. ^ аб Стегер, Карстен; Маркус Ульрих; Кристиан Видеманн (2018). Алгоритмы и приложения машинного зрения (2-е изд.). Вайнхайм: Wiley-VCH . п. 1. ISBN 978-3-527-41365-2. Архивировано из оригинала 2023-03-15 . Получено 2018-01-30 .
  22. ^ Мюррей, Дон и Каллен Дженнингс. «Картографирование и навигация на основе стереозрения для мобильных роботов. Архивировано 31 октября 2020 г. в Wayback Machine ». Труды Международной конференции по робототехнике и автоматизации. Том 2. IEEE, 1997.
  23. ^ Андраде, Норберто Алмейда. «Вычислительное зрение и бизнес-аналитика в сегменте красоты — анализ через Instagram» (PDF) . Журнал управления маркетингом . Американский исследовательский институт разработки политики . Получено 11 марта 2024 г. .
  24. ^ abc Soltani, AA; Huang, H.; Wu, J.; Kulkarni, TD; Tenenbaum, JB (2017). «Синтез 3D-фигур с помощью моделирования многовидовых карт глубины и силуэтов с помощью глубоких генеративных сетей». Конференция IEEE 2017 года по компьютерному зрению и распознаванию образов (CVPR) . стр. 1511–1519. doi : 10.1109/CVPR.2017.269. hdl : 1721.1/126644 . ISBN 978-1-5386-0457-1. S2CID  31373273.
  25. ^ Турек, Фред (июнь 2011 г.). «Основы машинного зрения. Как заставить роботов видеть». Журнал NASA Tech Briefs . 35 (6).страницы 60–62
  26. ^ "Будущее автоматизированного случайного выбора контейнеров". Архивировано из оригинала 2018-01-11 . Получено 2018-01-10 .
  27. ^ Эстева, Андре; Чоу, Кэтрин; Йенг, Серена; Наик, Нихил; Мадани, Али; Моттаги, Али; Лю, Юн; Тополь, Эрик; Дин, Джефф; Сохер, Ричард (08.01.2021). «Медицинское компьютерное зрение с поддержкой глубокого обучения». npj Digital Medicine . 4 (1): 5. doi :10.1038/s41746-020-00376-2. ISSN  2398-6352. PMC 7794558. PMID 33420381  . 
  28. ^ Червяков, НИ; Ляхов, ПА; Дерябин, МА; Нагорнов, НН; Валуева, МВ; Валуев, ГВ (2020). "Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network" (Решение на основе системы остаточных чисел для снижения стоимости оборудования сверточной нейронной сети). Neurocomputing . 407 : 439–453. doi :10.1016/j.neucom.2020.04.018. S2CID  219470398. Сверточные нейронные сети (CNN) представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, идентификацию белковых последовательностей в биоинформатике, управление производством, анализ временных рядов в финансах и многие другие.
  29. ^ Вальдхен, Яна; Медер, Патрик (2017-01-07). «Идентификация видов растений с использованием методов компьютерного зрения: систематический обзор литературы». Архивы вычислительных методов в инженерии . 25 (2): 507–543. doi :10.1007/s11831-016-9206-z. ISSN  1134-3060. PMC 6003396 . PMID  29962832. 
  30. ^ Aghamohammadesmaeilketabforoosh, Kimia; Nikan, Soodeh; Antonini, Giorgio; Pearce, Joshua M. (январь 2024 г.). «Оптимизация обнаружения заболеваний и качества клубники с помощью Vision Transformers и сверточных нейронных сетей на основе внимания». Foods . 13 (12): 1869. doi : 10.3390/foods13121869 . ISSN  2304-8158. PMC 11202458 . PMID  38928810. 
  31. ^ «Новая модель искусственного интеллекта, разработанная в Western, обнаруживает болезни клубники и нацелена на отходы». Лондон . 2024-09-13 . Получено 2024-09-19 .
  32. ^ abcdef E. Roy Davies (2005). Машинное зрение: теория, алгоритмы, практика . Morgan Kaufmann. ISBN 978-0-12-206093-9.
  33. ^ Андо, Мицухито; Такеи, Тосинобу; Мочияма, Хироми (2020-03-03). «Резиновый искусственный слой кожи с гибкой структурой для оценки формы микроволнистых поверхностей». Журнал ROBOMECH . 7 (1): 11. doi : 10.1186/s40648-020-00159-0 . ISSN  2197-4225.
  34. ^ Чой, Сын-хён; Тахара, Кэндзи (2020-03-12). «Ловкое манипулирование объектами с помощью многопальцевой роботизированной руки с визуально-тактильными датчиками на кончиках пальцев». Журнал ROBOMECH . 7 (1): 14. doi : 10.1186/s40648-020-00162-5 . ISSN  2197-4225.
  35. ^ Гарг, Хитендра (29.02.2020). «Обнаружение сонливости водителя с использованием обычного приложения компьютерного зрения». Международная конференция 2020 года по силовой электронике и приложениям Интернета вещей в возобновляемой энергетике и ее управлении (PARC) . стр. 50–53. doi :10.1109/PARC49193.2020.236556. ISBN 978-1-7281-6575-2. S2CID  218564267. Архивировано из оригинала 2022-06-27 . Получено 2022-11-06 .
  36. ^ Хасан, Фудайл; Кашевник, Алексей (2021-05-14). «Современный анализ современных алгоритмов обнаружения сонливости на основе компьютерного зрения». 2021 29-я конференция Ассоциации открытых инноваций (FRUCT) . стр. 141–149. doi :10.23919/FRUCT52173.2021.9435480. ISBN 978-952-69244-5-8. S2CID  235207036. Архивировано из оригинала 2022-06-27 . Получено 2022-11-06 .
  37. ^ Баласундарам, А; Ашоккумар, С; Котандараман, Д; Кора, Сина Наик; Сударшан, Э; Харшавердхан, А (2020-12-01). "Обнаружение усталости на основе компьютерного зрения с использованием параметров лица". Серия конференций IOP: Материаловедение и инженерия . 981 (2): 022005. Bibcode : 2020MS&E..981b2005B. doi : 10.1088/1757-899x/981/2/022005 . ISSN  1757-899X. S2CID  230639179.
  38. ^ ab Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (2018). "trackdem: Автоматизированное отслеживание частиц для получения подсчетов популяций и распределений размеров из видео в r". Методы в экологии и эволюции . 9 (4): 965–973. Bibcode : 2018MEcEv...9..965B. doi : 10.1111/2041-210X.12975 . hdl : 2066/184075 . ISSN  2041-210X.
  39. ^ Дэвид А. Форсайт; Жан Понс (2003). Компьютерное зрение, современный подход . Prentice Hall. ISBN 978-0-13-085198-7.
  40. ^ Форсайт, Дэвид; Понсе, Жан (2012). Компьютерное зрение: современный подход . Пирсон.
  41. ^ ab Русаковски, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуан, Чжихенг; Карпати, Андрей; Хосла, Адитья; Бернстайн, Майкл; Берг, Александр К. (декабрь 2015 г.). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision . 115 (3): 211–252. arXiv : 1409.0575 . doi :10.1007/s11263-015-0816-y. hdl : 1721.1/104944 . ISSN  0920-5691. S2CID  2930547. Архивировано из оригинала 2023-03-15 . Получено 2020-11-20 .
  42. ^ Куинн, Артур (2022-10-09). «Распознавание изображений с помощью ИИ: неизбежная тенденция современного образа жизни». TopTen.ai . Архивировано из оригинала 2022-12-02 . Получено 2022-12-23 .
  43. ^ Барретт, Лиза Фельдман; Адольфс, Ральф; Марселла, Стейси; Мартинес, Алекс М.; Поллак, Сет Д. (июль 2019 г.). «Переосмысление эмоциональных выражений: проблемы вывода эмоций из движений лица человека». Психологическая наука в интересах общества . 20 (1): 1–68. doi : 10.1177/1529100619832930. ISSN  1529-1006. PMC 6640856. PMID 31313636  . 
  44. ^ А. Майти (2015). «Импровизированное обнаружение и манипулирование выступающими объектами». arXiv : 1511.02999 [cs.CV].
  45. ^ Баргхаут, Лорен. «Визуальный таксометрический подход к сегментации изображений с использованием нечетко-пространственного таксонного среза позволяет получить контекстуально релевантные регионы. Архивировано 14 ноября 2018 г. в Wayback Machine ». Обработка информации и управление неопределенностью в системах, основанных на знаниях. Springer International Publishing, 2014.
  46. ^ Лю, Цзыи; Ван, Ле; Хуа, Ган; Чжан, Цилинь; Ню, Чжэньсин; У, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических марковских сетей» (PDF) . IEEE Transactions on Image Processing . 27 (12): 5840–5853. Bibcode :2018ITIP...27.5840L. doi :10.1109/tip.2018.2859622. ISSN  1057-7149. PMID  30059300. S2CID  51867241. Архивировано из оригинала (PDF) 2018-09-07 . Получено 2018-09-14 .
  47. ^ Ван, Ле; Дуань, Сюхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Ган; Чжэн, Наньнин (2018-05-22). "Segment-Tube: пространственно-временная локализация действия в необрезанных видео с покадровой сегментацией" (PDF) . Датчики . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN  1424-8220. PMC 5982167 . PMID  29789447. Архивировано (PDF) из оригинала 2018-09-07. 
  48. ^ Шапиро, Стюарт С. (1992). Энциклопедия искусственного интеллекта, том 1. Нью-Йорк: John Wiley & Sons, Inc. стр. 643–646. ISBN 978-0-471-50306-4.
  49. ^ Кагами, Синго (2010). «Высокоскоростные системы зрения и проекторы для восприятия мира в реальном времени». 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops . Vol. 2010. pp. 100–107. doi :10.1109/CVPRW.2010.5543776. ISBN 978-1-4244-7029-7. S2CID  14111100.
  50. ^ Сет Коланер (3 января 2016 г.). «Третий тип процессора для виртуальной реальности/дополненной реальности: Movidius' Myriad 2 VPU». www.tomshardware.com . Архивировано из оригинала 15 марта 2023 г. . Получено 3 мая 2016 г. .

Дальнейшее чтение

Внешние ссылки