stringtranslate.com

Компьютерное зрение

Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например, в форме решений. [1] [2] [3] [4] Понимание в этом контексте означает преобразование визуальных изображений (входных данных на сетчатку глаза в человеческом аналоге) в описания мира, которые имеют смысл для мыслительных процессов и могут вызвать соответствующие действия. Такое понимание изображения можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения.

Научная дисциплина компьютерного зрения занимается теорией, лежащей в основе искусственных систем, извлекающих информацию из изображений. Данные изображения могут принимать разные формы, например, видеопоследовательности, изображения с нескольких камер, многомерные данные от 3D-сканера, 3D-облака точек от датчиков LiDaR или медицинских сканирующих устройств. Технологическая дисциплина компьютерного зрения стремится применить свои теории и модели к построению систем компьютерного зрения.

Поддомены компьютерного зрения включают реконструкцию сцены , обнаружение объектов , обнаружение событий , распознавание активности , отслеживание видео , распознавание объектов , оценку 3D-позы , обучение, индексирование, оценку движения , визуальное обслуживание , 3D-моделирование сцен и восстановление изображений .

Внедрение технологии компьютерного зрения может оказаться для организаций непростой задачей, поскольку для нее не существует единого решения. Очень немногие компании предоставляют унифицированную и распределенную платформу или операционную систему, в которой приложения компьютерного зрения можно легко развертывать и управлять ими.

Определение

Компьютерное зрение — это междисциплинарная область , которая занимается изучением того, как можно заставить компьютеры получать высокоуровневое понимание цифровых изображений или видео . С точки зрения инженерии , он стремится автоматизировать задачи, которые может выполнять зрительная система человека . [5] [6] [7] «Компьютерное зрение занимается автоматическим извлечением, анализом и пониманием полезной информации из одного изображения или последовательности изображений. Оно включает в себя разработку теоретической и алгоритмической основы для достижения автоматического визуального понимания. ." [8] Как научная дисциплина , компьютерное зрение занимается теорией, лежащей в основе искусственных систем, которые извлекают информацию из изображений. Данные изображения могут принимать различные формы, например видеопоследовательности, изображения с нескольких камер или многомерные данные медицинского сканера . [9] Как технологическая дисциплина, компьютерное зрение стремится применить свои теории и модели для построения систем компьютерного зрения. Машинное зрение относится к дисциплине системного проектирования, особенно в контексте автоматизации производства. В последнее время термины «компьютерное зрение» и «машинное зрение» стали более сближаться. [10] : 13 

История

В конце 1960-х годов компьютерное зрение началось в университетах, которые были пионерами искусственного интеллекта . Он был призван имитировать зрительную систему человека и стать ступенькой к наделению роботов разумным поведением. [11] В 1966 году считалось, что этого можно достичь с помощью летнего студенческого проекта, [12] подключив камеру к компьютеру и заставив его «описывать то, что он видел». [13] [14]

Что отличало компьютерное зрение от распространенной в то время области цифровой обработки изображений, так это желание извлечь трехмерную структуру из изображений с целью достижения полного понимания сцены. Исследования 1970-х годов заложили основу для многих алгоритмов компьютерного зрения , существующих сегодня, включая извлечение ребер из изображений, маркировку линий, неполиэдрическое и многогранное моделирование , представление объектов как взаимосвязей более мелких структур, оптический поток и оценка движения . [11]

В следующем десятилетии были проведены исследования, основанные на более строгом математическом анализе и количественных аспектах компьютерного зрения. К ним относятся концепция масштабного пространства , определение формы на основе различных сигналов, таких как затенение , текстура и фокус, а также контурные модели, известные как змеи . Исследователи также поняли, что многие из этих математических концепций можно рассматривать в рамках той же структуры оптимизации, что и регуляризацию и марковские случайные поля . [15] К 1990-м годам некоторые из предыдущих тем исследований стали более активными, чем другие. Исследования в области проекционных 3D-реконструкций привели к лучшему пониманию калибровки камеры . С появлением методов оптимизации калибровки камер стало понятно, что многие идеи уже исследованы в теории настройки связок из области фотограмметрии . Это привело к появлению методов разреженной трехмерной реконструкции сцен из нескольких изображений . Был достигнут прогресс в решении проблемы плотного стереосоответствия и дальнейших методов многоракурсного стерео. В то же время для решения сегментации изображений использовались вариации разреза графа . В этом десятилетии также впервые на практике были использованы методы статистического обучения для распознавания лиц на изображениях (см. Eigenface ). К концу 1990-х годов произошли значительные изменения в связи с усилением взаимодействия между областями компьютерной графики и компьютерного зрения. Сюда входили рендеринг на основе изображений , морфинг изображений , интерполяция видов, сшивание панорамных изображений и ранний рендеринг светового поля . [11]

В недавних работах наблюдалось возрождение методов, основанных на признаках , используемых в сочетании с методами машинного обучения и сложными структурами оптимизации. [16] [17] Развитие методов глубокого обучения вдохнуло новую жизнь в область компьютерного зрения. Точность алгоритмов глубокого обучения на нескольких эталонных наборах данных компьютерного зрения для задач, начиная от классификации, [18] сегментации и оптического потока, превзошла предыдущие методы. [ нужна ссылка ] [19]

Связанные поля

Обнаружение объекта на фотографии

Физика твердого тела

Физика твердого тела — еще одна область, тесно связанная с компьютерным зрением. Большинство систем компьютерного зрения полагаются на датчики изображения , которые обнаруживают электромагнитное излучение , которое обычно имеет форму видимого или инфракрасного света . Датчики разработаны с использованием квантовой физики . Процесс взаимодействия света с поверхностями объясняется с помощью физики. Физика объясняет поведение оптики , которая является основной частью большинства систем визуализации. Сложные датчики изображения даже требуют квантовой механики , чтобы обеспечить полное понимание процесса формирования изображения. [11] Кроме того, с помощью компьютерного зрения можно решать различные задачи измерения в физике, например, движение в жидкостях.

Нейробиология

Нейробиология оказала большое влияние на разработку алгоритмов компьютерного зрения. За последнее столетие проводились обширные исследования глаз, нейронов и структур мозга, посвященные обработке зрительных стимулов как у людей, так и у различных животных. Это привело к грубому, но запутанному описанию того, как работают системы естественного зрения для решения определенных задач, связанных со зрением. Эти результаты привели к созданию подобласти компьютерного зрения, где искусственные системы предназначены для имитации обработки и поведения биологических систем на разных уровнях сложности. Кроме того, некоторые методы, основанные на обучении, разработанные в рамках компьютерного зрения ( например, нейронные сети и анализ и классификация изображений и признаков на основе глубокого обучения ), имеют свою основу в нейробиологии. Неокогнитрон , нейронная сеть, разработанная в 1970-х годах Кунихико Фукусимой , является ранним примером компьютерного зрения, вдохновленным нейробиологией, в частности первичной зрительной корой головного мозга .

Некоторые направления исследований компьютерного зрения тесно связаны с изучением биологического зрения — на самом деле, точно так же, как многие направления исследований ИИ тесно связаны с исследованиями человеческого интеллекта и использованием накопленных знаний для интерпретации, интеграции и использования визуальной информации. Область биологического зрения изучает и моделирует физиологические процессы, лежащие в основе зрительного восприятия у людей и других животных. Компьютерное зрение, с другой стороны, разрабатывает и описывает алгоритмы, реализованные в программном и аппаратном обеспечении систем искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным зрением оказался плодотворным для обеих областей. [21]

Обработка сигнала

Еще одна область, связанная с компьютерным зрением, — это обработка сигналов . Многие методы обработки сигналов с одной переменной, обычно временных сигналов, могут быть естественным образом расширены до обработки сигналов с двумя переменными или сигналов с несколькими переменными в компьютерном зрении. Однако из-за специфической природы изображений в рамках компьютерного зрения разработано множество методов, не имеющих аналогов при обработке сигналов с одной переменной. Вместе с многомерностью сигнала это определяет подполе обработки сигналов как часть компьютерного зрения.

Роботизированная навигация

Навигация роботов иногда связана с автономным планированием пути или обдумыванием роботизированными системами навигации по окружающей среде . [22] Для навигации по ним необходимо детальное понимание этих сред. Информацию об окружающей среде может предоставлять система компьютерного зрения, действующая как датчик технического зрения и предоставляющая информацию высокого уровня об окружающей среде и роботе.

Другие поля

Помимо вышеупомянутых взглядов на компьютерное зрение, многие смежные темы исследований также можно изучать с чисто математической точки зрения. Например, многие методы компьютерного зрения основаны на статистике , оптимизации или геометрии . Наконец, значительная часть области посвящена аспекту реализации компьютерного зрения; как существующие методы можно реализовать в различных комбинациях программного и аппаратного обеспечения или как эти методы можно модифицировать, чтобы увеличить скорость обработки без слишком большой потери производительности. Компьютерное зрение также используется в электронной коммерции в сфере моды, управлении запасами, патентном поиске, производстве мебели и индустрии красоты. [ нужна цитата ]

Отличия

Областями, наиболее тесно связанными с компьютерным зрением, являются обработка изображений , анализ изображений и машинное зрение . Существует значительное совпадение в диапазоне методов и приложений, которые они охватывают. Это означает, что основные методы, которые используются и разрабатываются в этих областях, схожи, что можно интерпретировать как наличие только одного поля с разными именами. С другой стороны, представляется необходимым, чтобы исследовательские группы, научные журналы, конференции и компании представляли или рекламировали себя как принадлежащие конкретно к одной из этих областей, и, следовательно, различные характеристики, которые отличают каждую из этих областей от других, имеют важное значение. был представлен. При обработке изображений входными данными является изображение, а выходными данными также является изображение, тогда как в компьютерном зрении изображение или видео принимается в качестве входных данных, а выходными данными может быть улучшенное изображение, понимание содержания изображения. или даже поведение компьютерной системы, основанное на таком понимании.

Компьютерная графика создает данные изображения из 3D-моделей, а компьютерное зрение часто создает 3D-модели из данных изображения. [23] Существует также тенденция к сочетанию двух дисциплин, например , как это исследуется в дополненной реальности .

Следующие характеристики кажутся уместными, но их не следует воспринимать как общепринятые:

Фотограмметрия также пересекается с компьютерным зрением, например, стереофотограмметрия по сравнению с компьютерным стереозрением .

Приложения

Приложения варьируются от таких задач, как промышленные системы машинного зрения , которые, скажем, проверяют бутылки, проносящиеся на производственной линии, до исследований в области искусственного интеллекта и компьютеров или роботов, которые могут познавать мир вокруг них. Области компьютерного зрения и машинного зрения во многом совпадают. Компьютерное зрение охватывает основную технологию автоматического анализа изображений, которая используется во многих областях. Машинное зрение обычно представляет собой процесс объединения автоматизированного анализа изображений с другими методами и технологиями для обеспечения автоматического контроля и управления роботами в промышленных приложениях. Во многих приложениях компьютерного зрения компьютеры заранее запрограммированы для решения конкретной задачи, но методы, основанные на обучении, в настоящее время становятся все более распространенными. Примеры применения компьютерного зрения включают системы для:

Изучение 3D-форм было сложной задачей в компьютерном зрении. Последние достижения в области глубокого обучения позволили исследователям создавать модели, которые способны легко и эффективно генерировать и реконструировать трехмерные формы на основе карт глубины или силуэтов с одним или несколькими изображениями. [23]

Лекарство

Концептуальное видео DARPA Visual Media Reasoning

Одной из наиболее известных областей применения является медицинское компьютерное зрение или обработка медицинских изображений, характеризующаяся извлечением информации из данных изображения для диагностики пациента . Примером этого является выявление опухолей , атеросклероза или других злокачественных изменений, а также различных стоматологических патологий; Еще одним примером являются измерения размеров органов, кровотока и т. д. Он также поддерживает медицинские исследования, предоставляя новую информацию: например , о структуре мозга или качестве медицинского лечения. Применение компьютерного зрения в медицинской области также включает улучшение изображений, интерпретируемых людьми — например, ультразвуковых изображений или рентгеновских изображений — для уменьшения влияния шума.

Машинное зрение

Вторая область применения компьютерного зрения — промышленность, иногда называемая машинным зрением , где информация извлекается для поддержки производственного процесса. Одним из примеров является контроль качества, при котором детали или конечная продукция автоматически проверяются на предмет обнаружения дефектов. Одной из наиболее распространенных областей такой проверки является производство полупроводниковых пластин , в котором каждая отдельная пластина измеряется и проверяется на предмет неточностей или дефектов, чтобы предотвратить попадание компьютерного чипа на рынок в непригодном для использования виде. Другой пример — измерение положения и ориентации деталей, которые необходимо захватить манипулятором робота. Машинное зрение также широко используется в сельскохозяйственных процессах для удаления нежелательных пищевых продуктов из сыпучего материала. Этот процесс называется оптической сортировкой . [28]

Военный

Военные приложения, вероятно , являются одной из крупнейших областей компьютерного зрения . Очевидными примерами являются обнаружение вражеских солдат или транспортных средств и наведение ракет . Более совершенные системы наведения ракеты направляют ракету в определенную область, а не на конкретную цель, а выбор цели производится, когда ракета достигает этой области, на основе локально полученных данных изображения. Современные военные концепции, такие как «осведомленность о поле боя», подразумевают, что различные датчики, в том числе датчики изображения, предоставляют богатый набор информации о месте боя, которую можно использовать для поддержки стратегических решений. В этом случае используется автоматическая обработка данных для уменьшения сложности и объединения информации от нескольких датчиков для повышения надежности.

Автономные транспортные средства

Художественная концепция Curiosity , пример беспилотного наземного транспортного средства. Стереокамера установлена ​​на верхней части марсохода.

Одной из новых областей применения являются автономные транспортные средства, к которым относятся подводные аппараты , наземные транспортные средства (небольшие роботы с колесами, автомобили или грузовики), летательные аппараты и беспилотные летательные аппараты ( БПЛА ). Уровень автономности варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системы компьютерного зрения поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства обычно используют компьютерное зрение для навигации, например, для определения того, где они находятся, или для составления карты окружающей среды ( SLAM ), для обнаружения препятствий. Его также можно использовать для обнаружения определенных событий, специфичных для конкретной задачи, например , когда БПЛА ищет лесные пожары. Примерами вспомогательных систем являются системы предупреждения о препятствиях в автомобилях, камеры и датчики LiDAR в транспортных средствах, а также системы автономной посадки самолетов. Несколько автопроизводителей продемонстрировали системы автономного вождения автомобилей . Существует множество примеров военных автономных транспортных средств, начиная от современных ракет и заканчивая БПЛА для разведывательных задач или наведения ракет. Исследование космоса уже осуществляется с помощью автономных транспортных средств, использующих компьютерное зрение, например , Curiosity НАСА и марсоход Yutu -2 CNSA .

Тактильная обратная связь

Резиновая искусственная кожа с гибкой структурой для оценки формы микроволнистых поверхностей.
Выше представлена ​​силиконовая форма с камерой внутри, содержащей множество различных точечных маркеров. Когда этот датчик прижимается к поверхности, кремний деформируется и положение точечных маркеров смещается. Затем компьютер может взять эти данные и определить, как именно форма прижимается к поверхности. Это можно использовать для калибровки роботизированных рук, чтобы убедиться, что они могут эффективно захватывать объекты.

Такие материалы, как резина и кремний, используются для создания датчиков, которые позволяют выполнять такие задачи, как обнаружение микроволн и калибровка роботизированных рук. Из резины можно создать форму, которую можно надевать на палец. Внутри этой формы будет несколько тензодатчиков. Затем форму для пальца и датчики можно было разместить поверх небольшого листа резины, содержащего набор резиновых штифтов. Затем пользователь может надеть форму для пальца и обвести поверхность. Затем компьютер может считывать данные с тензорезисторов и измерять, выталкивается ли один или несколько штифтов вверх. Если штифт выталкивается вверх, компьютер может распознать это как дефект поверхности. Такая технология полезна для получения точных данных о дефектах на очень большой поверхности. [29] Еще одним вариантом датчика в форме пальца являются датчики, содержащие камеру, подвешенную в кремнии. Кремний образует купол вокруг камеры снаружи, и в него встроены точечные маркеры, расположенные на равном расстоянии друг от друга. Эти камеры затем можно разместить на таких устройствах, как роботизированные руки, чтобы компьютер мог получать высокоточные тактильные данные. [30]

Другие области применения включают в себя:

Типовые задачи

В каждой из описанных выше областей применения используется ряд задач компьютерного зрения; более или менее четко определенные задачи измерения или обработки, которые можно решить с помощью множества методов. Ниже представлены некоторые примеры типичных задач компьютерного зрения.

Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например , в форме решений. [1] [2] [3] [4] Понимание в этом контексте означает преобразование зрительных образов (вход сетчатки) в описания мира, которые могут взаимодействовать с другими мыслительными процессами и вызывать соответствующие действия. Такое понимание изображения можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения. [35]

Признание

Классическая проблема в компьютерном зрении, обработке изображений и машинном зрении заключается в определении того, содержат ли данные изображения какой-либо конкретный объект, функцию или действие. В литературе описаны различные разновидности задачи распознавания. [36]

В настоящее время лучшие алгоритмы для подобных задач основаны на сверточных нейронных сетях . Иллюстрацию их возможностей дает ImageNet Large Scale Visual Recognition Challenge ; Это эталон в области классификации и обнаружения объектов: в соревновании используются миллионы изображений и 1000 классов объектов. [37] Производительность сверточных нейронных сетей в тестах ImageNet теперь близка к человеческой. [37] Лучшие алгоритмы по-прежнему с трудом справляются с маленькими или тонкими объектами, такими как маленький муравей на стебле цветка или человек, держащий в руке перо. У них также возникают проблемы с изображениями, искаженными фильтрами (все более распространенное явление в современных цифровых камерах). Напротив, подобные изображения редко беспокоят людей. Однако у людей, как правило, возникают проблемы с другими проблемами. Например, они не умеют классифицировать объекты по мелкозернистым классам, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети легко с этим справляются. [ нужна цитата ]

Существует несколько специализированных задач, основанных на распознавании, таких как:

Компьютерное зрение для счетчиков посетителей в общественных местах, торговых центрах, торговых центрах

Анализ движения

Несколько задач связаны с оценкой движения, когда последовательность изображений обрабатывается для получения оценки скорости либо в каждой точке изображения, либо в трехмерной сцене, либо даже камеры, создающей изображения. Примеры таких задач:

Реконструкция сцены

Учитывая одно или (обычно) несколько изображений сцены или видео, реконструкция сцены направлена ​​на вычисление трехмерной модели сцены. В простейшем случае модель может представлять собой набор 3D-точек. Более сложные методы позволяют создать полную трехмерную модель поверхности. Появление 3D-изображений, не требующих движения или сканирования, а также связанных с ними алгоритмов обработки обеспечивает быстрый прогресс в этой области. 3D-зондирование на основе сетки можно использовать для получения 3D-изображений под разными углами. Теперь доступны алгоритмы для объединения нескольких 3D-изображений в облака точек и 3D-модели. [23]

Восстановление изображения

Восстановление изображения происходит, когда исходное изображение ухудшается или повреждается из-за некоторых внешних факторов, таких как неправильное расположение объектива, помехи при передаче, слабое освещение или размытость изображения и т. д., что называется шумом. Когда изображения ухудшаются или повреждаются, информация, которую нужно извлечь из них, также повреждается. Поэтому нам нужно восстановить или восстановить образ в том виде, в каком он был задуман. Целью восстановления изображения является удаление шума (шума датчика, размытости изображения и т. д.) из изображений. Самый простой подход к удалению шума — это различные типы фильтров, такие как фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят локальные структуры изображения, чтобы отличить их от шума. Сначала анализируя данные изображения с точки зрения локальных структур изображения, таких как линии или края, а затем управляя фильтрацией на основе локальной информации на этапе анализа, обычно достигается более высокий уровень удаления шума по сравнению с более простыми подходами.

Примером в этой области является inpainting .

Системные методы

Организация системы компьютерного зрения во многом зависит от приложения. Некоторые системы представляют собой автономные приложения, которые решают конкретную задачу измерения или обнаружения, тогда как другие представляют собой подсистему более крупной конструкции, которая, например, также содержит подсистемы для управления механическими приводами, планирования, информационных баз данных, управления персоналом. машинные интерфейсы и т. д. Конкретная реализация системы компьютерного зрения также зависит от того, задана ли ее функциональность заранее или какая-то ее часть может быть изучена или изменена в процессе эксплуатации. Многие функции являются уникальными для приложения. Однако существуют типичные функции, которые присутствуют во многих системах компьютерного зрения.

Более сложные функции могут быть связаны с текстурой, формой или движением.

Системы понимания изображений

Системы понимания изображений (IUS) включают три уровня абстракции: нижний уровень включает примитивы изображения, такие как края, элементы текстуры или области; промежуточный уровень включает границы, поверхности и объемы; и высокий уровень включает объекты, сцены или события. Многие из этих требований полностью представляют собой темы для дальнейших исследований.

Требования к репрезентации при разработке ИУС для этих уровней: представление прототипических концепций, организация концепций, пространственные знания, временные знания, масштабирование и описание путем сравнения и дифференциации.

В то время как вывод относится к процессу получения новых, не представленных явно фактов из известных на данный момент фактов, контроль относится к процессу, который выбирает, какой из множества методов вывода, поиска и сопоставления следует применить на определенном этапе обработки. Требованиями к выводу и контролю для IUS являются: поиск и активация гипотез, сопоставление и проверка гипотез, генерация и использование ожиданий, изменение и фокус внимания, уверенность и сила убеждения, вывод и удовлетворение цели. [44]

Аппаратное обеспечение

iPad Pro модели 2020 года с датчиком LiDAR

Существует множество видов систем компьютерного зрения; однако все они содержат следующие основные элементы: источник питания, по крайней мере одно устройство получения изображения (камера, ccd и т. д.), процессор, а также кабели управления и связи или какой-либо механизм беспроводного соединения. Кроме того, практичная система технического зрения содержит программное обеспечение, а также дисплей для наблюдения за системой. Системы обзора внутренних помещений, как и большинство промышленных, содержат систему освещения и могут размещаться в контролируемой среде. Кроме того, готовая система включает в себя множество аксессуаров, таких как опоры для камер, кабели и разъемы.

Большинство систем компьютерного зрения используют камеры видимого света, пассивно просматривающие сцену с частотой кадров не более 60 кадров в секунду (обычно намного медленнее).

Некоторые системы компьютерного зрения используют оборудование для получения изображений с активным освещением или чем-то иным, кроме видимого света, или и тем, и другим, например, 3D-сканеры со структурированным светом , термографические камеры , гиперспектральные формирователи изображений, радиолокационные изображения , лидарные сканеры, магнитно-резонансные изображения , гидролокаторы бокового обзора. , гидролокатор с синтезированной апертурой и т. д. Такое оборудование захватывает «изображения», которые затем обрабатываются часто с использованием тех же алгоритмов компьютерного зрения, которые используются для обработки изображений в видимом свете.

В то время как традиционные вещательные и бытовые видеосистемы работают со скоростью 30 кадров в секунду, достижения в области цифровой обработки сигналов и потребительского графического оборудования сделали возможным высокоскоростной сбор, обработку и отображение изображений для систем реального времени, порядка сотен и тысячи кадров в секунду. Для приложений в робототехнике критически важны быстрые видеосистемы реального времени, которые часто могут упростить обработку, необходимую для определенных алгоритмов. В сочетании с высокоскоростным проектором быстрое получение изображений позволяет осуществлять трехмерные измерения и отслеживание объектов. [45]

Системы эгоцентрического зрения состоят из носимой камеры, которая автоматически делает снимки от первого лица.

С 2016 года процессоры машинного зрения становятся новым классом процессоров, которые дополняют в этой роли центральные процессоры и графические процессоры (GPU). [46]

Смотрите также

Списки

Рекомендации

  1. ^ аб Рейнхард Клетте (2014). Краткое компьютерное зрение . Спрингер. ISBN 978-1-4471-6320-6.
  2. ^ аб Линда Г. Шапиро ; Джордж С. Стокман (2001). Компьютерное зрение . Прентис Холл. ISBN 978-0-13-030796-5.
  3. ^ аб Тим Моррис (2004). Компьютерное зрение и обработка изображений . Пэлгрейв Макмиллан. ISBN 978-0-333-99451-1.
  4. ^ аб Бернд Йене; Хорст Хауссекер (2000). Компьютерное зрение и его приложения. Руководство для студентов и практиков . Академическая пресса. ISBN 978-0-13-085198-7.
  5. ^ Дана Х. Баллард; Кристофер М. Браун (1982). Компьютерное зрение. Прентис Холл. ISBN 978-0-13-165316-0.
  6. ^ Хуанг, Т. (19 ноября 1996 г.). Вандони, Карло, Э. (ред.). Компьютерное зрение: эволюция и перспективы (PDF) . 19-я школа вычислительной техники ЦЕРН. Женева: ЦЕРН. стр. 21–25. doi : 10.5170/CERN-1996-008.21. ISBN 978-9290830955. Архивировано (PDF) из оригинала 7 февраля 2018 г.{{cite conference}}: CS1 maint: multiple names: editors list (link)
  7. ^ Милан Сонка; Вацлав Главац; Роджер Бойл (2008). Обработка изображений, анализ и машинное зрение . Томсон. ISBN 978-0-495-08252-1.
  8. ^ http://www.bmva.org/visionoverview. Архивировано 16 февраля 2017 г. в Wayback Machine. Британская ассоциация машинного зрения и общество распознавания образов. Проверено 20 февраля 2017 г.
  9. Мерфи, Майк (13 апреля 2017 г.). «Медицинский сканер «трикодер» из «Звездного пути» стал ближе к тому, чтобы стать реальностью». Архивировано из оригинала 2 июля 2017 года . Проверено 18 июля 2017 г.
  10. ^ Принципы, алгоритмы, приложения, обучение компьютерного зрения , 5-е издание, издательство ER Davies Academic Press, Elselvier, 2018 ISBN 978-0-12-809284-2
  11. ^ abcd Ричард Селиски (30 сентября 2010 г.). Компьютерное зрение: алгоритмы и приложения. Springer Science & Business Media. стр. 10–16. ISBN 978-1-84882-935-0.
  12. ^ Сейновски, Терренс Дж. (2018). Революция глубокого обучения . Кембридж, Массачусетс, Лондон, Англия: MIT Press. п. 28. ISBN 978-0-262-03803-4.
  13. ^ Паперт, Сеймур (1 июля 1966). «Проект Летнего Видения». Записки MIT AI (1959–2004) . hdl : 1721.1/6125.
  14. ^ Маргарет Энн Боден (2006). Разум как машина: история когнитивной науки. Кларендон Пресс. п. 781. ИСБН 978-0-19-954316-8.
  15. Такео Канаде (6 декабря 2012 г.). Трехмерное машинное зрение. Springer Science & Business Media. ISBN 978-1-4613-1981-8.
  16. ^ Нику Себе; Ира Коэн; Ашутош Гарг; Томас С. Хуанг (3 июня 2005 г.). Машинное обучение в компьютерном зрении. Springer Science & Business Media. ISBN 978-1-4020-3274-5.
  17. ^ Уильям Фриман; Пьетро Перона; Бернхард Шолькопф (2008). «Приглашенная редакционная статья: Машинное обучение для компьютерного зрения». Международный журнал компьютерного зрения . 77 (1): 1. дои : 10.1007/s11263-008-0127-7 . hdl : 21.11116/0000-0003-30FB-C . ISSN  1573-1405.
  18. ^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение». Природа . 521 (7553): 436–444. Бибкод : 2015Natur.521..436L. дои : 10.1038/nature14539. PMID  26017442. S2CID  3074096.
  19. ^ Цзяо, Личэн; Чжан, Фань; Лю, Фанг; Ян, Шуюань; Ли, Линлинг; Фэн, Чжиси; Цюй, Ронг (2019). «Обзор обнаружения объектов на основе глубокого обучения». Доступ IEEE . 7 : 128837–128868. arXiv : 1907.09408 . Бибкод : 2019IEEA...7l8837J. дои : 10.1109/ACCESS.2019.2939201. S2CID  198147317.
  20. ^ Ферри, К., и Кайзер, С. (2019). Нейронные сети для детей . Справочники. ISBN 978-1492671206.{{cite book}}: CS1 maint: multiple names: authors list (link)
  21. ^ аб Стегер, Карстен; Маркус Ульрих; Кристиан Видеманн (2018). Алгоритмы и приложения машинного зрения (2-е изд.). Вайнхайм: Wiley-VCH . п. 1. ISBN 978-3-527-41365-2. Архивировано из оригинала 15 марта 2023 г. Проверено 30 января 2018 г.
  22. ^ Мюррей, Дон и Каллен Дженнингс. «Картография и навигация на основе стереовидения для мобильных роботов. Архивировано 31 октября 2020 г. в Wayback Machine ». Материалы международной конференции по робототехнике и автоматизации. Том. 2. ИИЭР, 1997.
  23. ^ abc Солтани, А.А.; Хуанг, Х.; Ву, Дж.; Кулкарни, Т.Д.; Тененбаум, Дж. Б. (2017). «Синтез трехмерных фигур посредством моделирования многовидовых карт глубины и силуэтов с помощью глубоких генеративных сетей». Конференция IEEE 2017 по компьютерному зрению и распознаванию образов (CVPR) . стр. 1511–1519. дои :10.1109/CVPR.2017.269. hdl : 1721.1/126644 . ISBN 978-1-5386-0457-1. S2CID  31373273.
  24. ^ Турек, Фред (июнь 2011 г.). «Основы машинного зрения. Как заставить роботов видеть». Журнал NASA Tech Briefs . 35 (6).страницы 60–62
  25. ^ «Будущее автоматического случайного выбора корзин». Архивировано из оригинала 11 января 2018 г. Проверено 10 января 2018 г.
  26. ^ Червяков, Н.И.; Ляхов, П.А.; Дерябин, М.А.; Нагорнов Н.Н.; Валуева, М.В.; Валуев, Г.В. (2020). «Решение на основе системы остаточных чисел для снижения стоимости оборудования сверточной нейронной сети». Нейрокомпьютинг . 407 : 439–453. doi : 10.1016/j.neucom.2020.04.018. S2CID  219470398. Сверточные нейронные сети (CNN) представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, идентификацию белковых последовательностей в биоинформатике, контроль производства, анализ временных рядов в финансах и многие другие. .
  27. ^ Вельдхен, Яна; Мэдер, Патрик (07 января 2017 г.). «Идентификация видов растений с использованием методов компьютерного зрения: систематический обзор литературы». Архив вычислительных методов в технике . 25 (2): 507–543. doi : 10.1007/s11831-016-9206-z. ISSN  1134-3060. ПМК 6003396 . ПМИД  29962832. 
  28. ^ abcdef Э. Рой Дэвис (2005). Машинное зрение: теория, алгоритмы, практика . Морган Кауфманн. ISBN 978-0-12-206093-9.
  29. ^ Андо, Мицухито; Такей, Тосинобу; Мотияма, Хироми (3 марта 2020 г.). «Резиновый искусственный слой кожи с гибкой структурой для оценки формы микроволнистых поверхностей». Журнал РОБОМЕХ . 7 (1): 11. дои : 10.1186/s40648-020-00159-0 . ISSN  2197-4225.
  30. ^ Чхве, Сын Хён; Тахара, Кенджи (12 марта 2020 г.). «Ловкое манипулирование объектами многопалой роботизированной рукой с визуально-тактильными датчиками на кончиках пальцев». Журнал РОБОМЕХ . 7 (1): 14. дои : 10.1186/s40648-020-00162-5 . ISSN  2197-4225.
  31. ^ Гарг, Хитендра (29 февраля 2020 г.). «Обнаружение сонливости водителя с помощью обычного приложения компьютерного зрения». Международная конференция 2020 года по силовой электронике и приложениям IoT в возобновляемой энергетике и ее контроле (PARC) . стр. 50–53. дои : 10.1109/PARC49193.2020.236556. ISBN 978-1-7281-6575-2. S2CID  218564267. Архивировано из оригинала 27 июня 2022 г. Проверено 6 ноября 2022 г.
  32. ^ Хасан, Фудаил; Кашевник, Алексей (14 мая 2021 г.). «Современный анализ современных алгоритмов обнаружения сонливости на основе компьютерного зрения». 2021 29-я конференция Ассоциации открытых инноваций (FRUCT) . стр. 141–149. дои : 10.23919/FRUCT52173.2021.9435480. ISBN 978-952-69244-5-8. S2CID  235207036. Архивировано из оригинала 27 июня 2022 г. Проверено 6 ноября 2022 г.
  33. ^ Баласундарам, А; Ашоккумар, С; Котандараман, Д; кора, СинаНайк; Сударшан, Э; Харшавердхан, А (01 декабря 2020 г.). «Обнаружение усталости на основе компьютерного зрения по параметрам лица». Серия конференций IOP: Материаловедение и инженерия . 981 (2): 022005. Бибкод : 2020MS&E..981b2005B. дои : 10.1088/1757-899x/981/2/022005 . ISSN  1757-899X. S2CID  230639179.
  34. ^ аб Брюйнинг, Маржолейн; Виссер, Марко Д.; Халлманн, Каспар А.; Йонгеянс, Элке; Голдинг, Ник (2018). «trackdem: автоматическое отслеживание частиц для получения количества населения и распределения размеров по видео в r». Методы экологии и эволюции . 9 (4): 965–973. Бибкод : 2018MEcEv...9..965B. дои : 10.1111/2041-210X.12975 . hdl : 2066/184075 . ISSN  2041-210Х.
  35. ^ Дэвид А. Форсайт; Жан Понсе (2003). Компьютерное зрение: современный подход . Прентис Холл. ISBN 978-0-13-085198-7.
  36. ^ Форсайт, Дэвид; Понсе, Жан (2012). Компьютерное зрение: современный подход . Пирсон.
  37. ^ аб Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуан, Чжихэн; Карпаты, Андрей; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр К. (декабрь 2015 г.). «Масштабная задача визуального распознавания ImageNet». Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . doi : 10.1007/s11263-015-0816-y. hdl : 1721.1/104944 . ISSN  0920-5691. S2CID  2930547. Архивировано из оригинала 15 марта 2023 г. Проверено 20 ноября 2020 г.
  38. ^ Куинн, Артур (9 октября 2022 г.). «Распознавание изображений с помощью искусственного интеллекта: неизбежные тенденции современного образа жизни». TopTen.ai . Архивировано из оригинала 02 декабря 2022 г. Проверено 23 декабря 2022 г.
  39. ^ Барретт, Лиза Фельдман; Адольфс, Ральф; Марселла, Стейси; Мартинес, Алей М.; Поллак, Сет Д. (июль 2019 г.). «Переосмысление выражений эмоций: проблемы определения эмоций по движениям лица человека». Психологическая наука в общественных интересах . 20 (1): 1–68. дои : 10.1177/1529100619832930. ISSN  1529-1006. ПМК 6640856 . ПМИД  31313636. 
  40. ^ А. Майти (2015). «Импровизированное обнаружение заметных объектов и манипулирование ими». arXiv : 1511.02999 [cs.CV].
  41. ^ Баргоут, Лорен. «Визуальный таксометрический подход к сегментации изображений с использованием нечетко-пространственного разреза таксонов дает контекстуально релевантные регионы. Архивировано 14 ноября 2018 г. на Wayback Machine ». Обработка информации и управление неопределенностью в системах, основанных на знаниях. Международное издательство Спрингер, 2014.
  42. ^ Лю, Цзыи; Ван, Ле; Хуа, Банда; Чжан, Цилинь; Ню, Чжэньсин; Ву, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических сетей Маркова» (PDF) . Транзакции IEEE при обработке изображений . 27 (12): 5840–5853. Бибкод : 2018ITIP...27.5840L. дои : 10.1109/tip.2018.2859622. ISSN  1057-7149. PMID  30059300. S2CID  51867241. Архивировано из оригинала (PDF) 07 сентября 2018 г. Проверено 14 сентября 2018 г.
  43. ^ Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. Бибкод : 2018Senso..18.1657W. дои : 10.3390/s18051657 . ISSN  1424-8220. ПМЦ 5982167 . PMID  29789447. Архивировано (PDF) из оригинала 7 сентября 2018 г. 
  44. ^ Шапиро, Стюарт К. (1992). Энциклопедия искусственного интеллекта, Том 1 . Нью-Йорк: John Wiley & Sons, Inc., стр. 643–646. ISBN 978-0-471-50306-4.
  45. ^ Кагами, Синго (2010). «Высокоскоростные системы технического зрения и проекторы для восприятия мира в реальном времени». Конференция IEEE Computer Society 2010 по компьютерному зрению и распознаванию образов — семинары . Том. 2010. стр. 100–107. дои : 10.1109/CVPRW.2010.5543776. ISBN 978-1-4244-7029-7. S2CID  14111100.
  46. Сет Коланер (3 января 2016 г.). «Третий тип процессора для VR/AR: Myriad 2 VPU Movidius». www.tomshardware.com . Архивировано из оригинала 15 марта 2023 года . Проверено 3 мая 2016 г.

дальнейшее чтение

Внешние ссылки