Визуальное восприятие — это способность интерпретировать окружающую среду посредством фотопического зрения (дневного зрения), цветового зрения , скотопического зрения (ночного зрения) и мезопического зрения (сумеречного зрения) с использованием света в видимом спектре, отраженного объектами в окружающей среде. Это отличается от остроты зрения , которая относится к тому, насколько четко человек видит (например, «зрение 20/20»). У человека могут быть проблемы с обработкой визуального восприятия, даже если у него зрение 20/20.
Результирующее восприятие также известно как зрение , взгляд или зрение (прилагательные визуальный , оптический и глазной соответственно). Различные физиологические компоненты, участвующие в зрении, в совокупности называются зрительной системой и являются предметом многих исследований в лингвистике , психологии , когнитивной науке , нейронауке и молекулярной биологии , в совокупности называемых наукой о зрении .
У людей и ряда других млекопитающих свет проникает в глаз через роговицу и фокусируется хрусталиком на сетчатке , светочувствительной мембране в задней части глаза. Сетчатка служит преобразователем для преобразования света в нейронные сигналы. Эта трансдукция достигается специализированными фоторецепторными клетками сетчатки, также известными как палочки и колбочки, которые обнаруживают фотоны света и реагируют, производя нейронные импульсы . Эти сигналы передаются зрительным нервом от сетчатки вверх по течению к центральным ганглиям в мозге . Латеральное коленчатое ядро , которое передает информацию в зрительную кору . Сигналы от сетчатки также передаются напрямую от сетчатки к верхним холмикам . [1]
Латеральное коленчатое тело посылает сигналы в первичную зрительную кору , также называемую стриарной корой. Экстрастриарная кора , также называемая зрительной ассоциативной корой, представляет собой набор корковых структур, которые получают информацию от стриарной коры, а также друг от друга. [2] Недавние описания зрительной ассоциативной коры описывают разделение на два функциональных пути, вентральный и дорсальный . Эта гипотеза известна как гипотеза двух потоков .
Обычно считается, что зрительная система человека чувствительна к видимому свету в диапазоне длин волн от 370 до 730 нанометров электромагнитного спектра . [3] Однако некоторые исследования показывают, что люди могут воспринимать свет с длиной волны до 340 нанометров (УФ-А), особенно молодые люди. [4] При оптимальных условиях эти пределы человеческого восприятия могут простираться от 310 нм ( УФ ) до 1100 нм ( БИК ). [5] [6]
Основная проблема зрительного восприятия заключается в том, что то, что видят люди, — это не просто трансляция ретинальных стимулов (т. е. изображение на сетчатке), поскольку мозг изменяет основную полученную информацию. Поэтому люди, интересующиеся восприятием, долгое время пытались объяснить, как визуальная обработка создает то, что мы видим на самом деле.
Существовали две основные древнегреческие школы, дававшие примитивное объяснение принципа работы зрения.
Первой была « эмиссионная теория » зрения, которая утверждала, что зрение возникает, когда лучи исходят из глаз и перехватываются визуальными объектами. Если объект был виден непосредственно, то это было «посредством лучей», выходящих из глаз и снова падающих на объект. Однако преломленное изображение также было видно «посредством лучей», которые выходили из глаз, проходили через воздух и после преломления падали на видимый объект, который был увиден в результате движения лучей из глаза. Эту теорию отстаивали ученые, которые были последователями Оптики Евклида и Оптики Птолемея .
Вторая школа отстаивала так называемый подход «интромиссии», который рассматривает зрение как результат проникновения в глаза чего-то, представляющего объект. С его главным пропагандистом Аристотелем ( De Sensu ) [7] и его последователями [7] эта теория, по-видимому, имеет некоторую связь с современными теориями того, что такое зрение на самом деле, но она оставалась лишь предположением, лишенным какой-либо экспериментальной основы. (В Англии восемнадцатого века Исаак Ньютон , Джон Локк и другие развили теорию интромиссии зрения, настаивая на том, что зрение включает в себя процесс, в котором лучи, состоящие из реальной телесной материи, исходят от видимых объектов и входят в разум/сенсориум видящего через глазное отверстие.) [8]
Обе школы мысли опирались на принцип, что «подобное познается только подобным», и, таким образом, на представление о том, что глаз состоит из некоего «внутреннего огня», который взаимодействует с «внешним огнем» видимого света и делает возможным зрение. Платон делает это утверждение в своем диалоге «Тимей» (45b и 46b), как и Эмпедокл (как сообщает Аристотель в своем De Sensu , DK frag. B17). [7]
Альхазен (965 – ок. 1040) провел множество исследований и экспериментов по зрительному восприятию, расширил работу Птолемея по бинокулярному зрению и прокомментировал анатомические труды Галена. [9] [10] Он был первым человеком, который объяснил, что зрение возникает, когда свет отражается от объекта, а затем направляется в глаза. [11]
Леонардо да Винчи (1452–1519) считается первым, кто осознал особые оптические качества глаза. Он писал: «Функция человеческого глаза... была описана большим количеством авторов определенным образом. Но я обнаружил, что это совершенно иное». Его главное экспериментальное открытие состояло в том, что существует только отчетливое и ясное зрение на линии зрения — оптической линии, которая заканчивается в фовеа . Хотя он не использовал эти слова буквально, он на самом деле является отцом современного различия между фовеальным и периферическим зрением . [12]
Исаак Ньютон (1642–1726/27) был первым, кто экспериментально обнаружил, выделяя отдельные цвета спектра света, проходящего через призму , что визуально воспринимаемый цвет объектов появляется из-за характера света, отражаемого объектами, и что эти разделенные цвета не могут быть преобразованы в какой-либо другой цвет, что противоречило научным ожиданиям того времени. [3]
Герману фон Гельмгольцу часто приписывают первое современное исследование зрительного восприятия. Гельмгольц исследовал человеческий глаз и пришел к выводу, что он не способен создавать высококачественное изображение. Недостаточная информация, казалось, делала зрение невозможным. Поэтому он пришел к выводу, что зрение может быть только результатом некоторой формы «бессознательного вывода», придумав этот термин в 1867 году. Он предположил, что мозг делает предположения и выводы из неполных данных, основанных на предыдущем опыте. [13]
Вывод требует предшествующего опыта мира.
Примерами известных предположений, основанных на визуальном опыте, являются:
Изучение зрительных иллюзий (случаев, когда процесс вывода дает сбой) дало много информации о том, какие предположения делает зрительная система.
Другой тип гипотезы бессознательного вывода (основанной на вероятностях) недавно был возрожден в так называемых байесовских исследованиях зрительного восприятия. [15] Сторонники этого подхода считают, что зрительная система выполняет некоторую форму байесовского вывода , чтобы вывести восприятие из сенсорных данных. Однако неясно, как сторонники этой точки зрения в принципе выводят соответствующие вероятности, требуемые байесовским уравнением. Модели, основанные на этой идее, использовались для описания различных функций зрительного восприятия, таких как восприятие движения , восприятие глубины и восприятие фигуры и фона . [16] [17] «Полностью эмпирическая теория восприятия» является связанным и более новым подходом, который рационализирует зрительное восприятие без явного использования байесовского формализма. [ требуется ссылка ]
Гештальт-психологи, работавшие в основном в 1930-х и 1940-х годах, подняли многие исследовательские вопросы, которые сегодня изучают ученые, изучающие зрение. [18]
Гештальт-законы организации направляли изучение того, как люди воспринимают визуальные компоненты как организованные шаблоны или целые, а не как множество различных частей. «Гештальт» — немецкое слово, которое частично переводится как «конфигурация или шаблон» вместе с «целой или возникающей структурой». Согласно этой теории, существует восемь основных факторов, которые определяют, как визуальная система автоматически группирует элементы в шаблоны: Близость, Сходство, Закрытость, Симметрия, Общая судьба (т. е. общее движение), Непрерывность, а также Хороший Гештальт (шаблон, который является регулярным, простым и упорядоченным) и Прошлый Опыт. [ необходима цитата ]
В 1960-х годах техническое развитие позволило осуществлять непрерывную регистрацию движения глаз во время чтения [19] , при просмотре изображений [20] , а позднее — при решении визуальных задач [21], а когда стали доступны гарнитуры с камерами, то и во время вождения [22] .
На рисунке справа показано, что может произойти в течение первых двух секунд визуального осмотра. Пока фон не в фокусе, представляя периферическое зрение , первое движение глаз направлено на ботинки человека (просто потому, что они находятся очень близко к начальной фиксации и имеют разумный контраст). Движения глаз выполняют функцию отбора внимания , т. е. отбора части всех визуальных входов для более глубокой обработки мозгом. [ необходима цитата ]
Следующие фиксации перескакивают с лица на лицо. Они даже могут позволить сравнения между лицами. [ необходима цитата ]
Можно сделать вывод, что иконка лица является очень привлекательной иконкой поиска в пределах периферического поля зрения. Фовеальное зрение добавляет подробную информацию к периферическому первому впечатлению .
Также можно отметить, что существуют различные типы движений глаз: фиксационные движения глаз ( микросаккады , дрейф глаз и тремор), вергентные движения, саккадические движения и движения преследования. Фиксации — это сравнительно статичные точки, в которых глаз отдыхает. Однако глаз никогда не бывает полностью неподвижен, и положение взгляда будет дрейфовать. Эти дрейфы, в свою очередь, корректируются микросаккадами, очень небольшими фиксационными движениями глаз. Движения вергентности включают сотрудничество обоих глаз, чтобы изображение попадало на одну и ту же область обеих сетчаток. Это приводит к единому сфокусированному изображению. Саккадические движения — это тип движения глаз, который совершает скачки из одного положения в другое и используется для быстрого сканирования определенной сцены/изображения. Наконец, движение преследования — это плавное движение глаз, используемое для слежения за движущимися объектами. [23]
Существуют весомые доказательства того, что распознавание лиц и объектов осуществляется различными системами. Например, пациенты с прозопагнозией демонстрируют дефицит в обработке лиц, но не объектов, в то время как пациенты с объектной агнозией (в частности, пациент CK ) демонстрируют дефицит в обработке объектов с сохраненной обработкой лиц. [24] С точки зрения поведения было показано, что лица, но не объекты, подвержены эффектам инверсии, что приводит к утверждению, что лица являются «особенными». [24] [25] Кроме того, обработка лиц и объектов задействует различные нейронные системы. [26] В частности, некоторые утверждают, что очевидная специализация человеческого мозга для обработки лиц не отражает истинную специфичность домена, а скорее более общий процесс экспертного уровня различения в пределах данного класса стимулов, [27] хотя это последнее утверждение является предметом существенных споров . Используя фМРТ и электрофизиологию, Дорис Цао и коллеги описали области мозга и механизм распознавания лиц у макак. [28]
Нижневисочная кора играет ключевую роль в задаче распознавания и дифференциации различных объектов. Исследование Массачусетского технологического института показывает, что подмножества областей ИТ-коры отвечают за различные объекты. [29] Избирательно отключая нейронную активность многих небольших областей коры, животное попеременно становится неспособным различать определенные конкретные пары объектов. Это показывает, что ИТ-кора разделена на области, которые реагируют на различные и конкретные визуальные особенности. Аналогичным образом, определенные конкретные участки и области коры больше вовлечены в распознавание лиц, чем в распознавание других объектов.
Некоторые исследования, как правило, показывают, что вместо однородного глобального изображения, некоторые особые черты и области интереса объектов являются ключевыми элементами, когда мозгу необходимо распознать объект на изображении. [30] [31] Таким образом, человеческое зрение уязвимо к небольшим частным изменениям изображения, таким как нарушение краев объекта, изменение текстуры или любое небольшое изменение в важной области изображения. [32]
Исследования людей, чье зрение было восстановлено после длительной слепоты, показывают, что они не всегда могут распознавать объекты и лица (в отличие от цвета, движения и простых геометрических фигур). Некоторые предполагают, что слепота в детстве препятствует правильному развитию некоторой части зрительной системы, необходимой для этих задач более высокого уровня. [33] Общее мнение о том, что критический период длится до 5 или 6 лет, было поставлено под сомнение исследованием 2007 года, которое показало, что пациенты старшего возраста могут улучшить эти способности с годами воздействия. [34]
В 1970-х годах Дэвид Марр разработал многоуровневую теорию зрения, которая анализировала процесс зрения на разных уровнях абстракции. Чтобы сосредоточиться на понимании конкретных проблем в зрении, он выделил три уровня анализа: вычислительный , алгоритмический и имплементационный . Многие ученые, изучающие зрение, включая Томазо Поджо , приняли эти уровни анализа и использовали их для дальнейшей характеристики зрения с вычислительной точки зрения. [35]
Вычислительный уровень рассматривает на высоком уровне абстракции проблемы, которые должна преодолеть зрительная система. Алгоритмический уровень пытается определить стратегию, которая может быть использована для решения этих проблем. Наконец, уровень реализации пытается объяснить, как решения этих проблем реализуются в нейронной схеме.
Марр предположил, что возможно исследовать зрение на любом из этих уровней независимо. Марр описал зрение как переход от двумерной визуальной матрицы (на сетчатке) к трехмерному описанию мира в качестве выходного сигнала. Его стадии зрения включают:
Эскиз Марра 2 1 ⁄ 2 D предполагает, что карта глубины построена, и что эта карта является основой восприятия трехмерной формы . Однако и стереоскопическое, и изобразительное восприятие, а также монокулярное наблюдение ясно показывают, что восприятие трехмерной формы предшествует восприятию глубины точек и не зависит от него. Неясно, как в принципе может быть построена предварительная карта глубины, и как это решит вопрос организации фигуры и фона или группировки. Роль ограничений перцептивной организации, упущенная Марром, в создании восприятий трехмерной формы из трехмерных объектов, наблюдаемых бинокулярно, была продемонстрирована эмпирически для случая трехмерных проволочных объектов, например, [37] [38] Более подробное обсуждение см. в Pizlo (2008). [39]
Более поздняя альтернативная структура предполагает, что зрение состоит из следующих трех стадий: кодирование, выбор и декодирование. [40] Кодирование заключается в отборе и представлении визуальных входов (например, для представления визуальных входов как нейронной активности в сетчатке). Выбор, или выбор внимания , заключается в выборе небольшой доли входной информации для дальнейшей обработки, например, путем перемещения взгляда на объект или визуальное местоположение для лучшей обработки визуальных сигналов в этом месте. Декодирование заключается в выводе или распознавании выбранных входных сигналов, например, для распознавания объекта в центре взгляда как чьего-то лица. В этой структуре [41] выбор внимания начинается в первичной зрительной коре вдоль зрительного пути, а ограничения внимания накладывают дихотомию между центральными и периферическими визуальными полями для визуального распознавания или декодирования.
Трансдукция — это процесс, посредством которого энергия от внешних стимулов преобразуется в нейронную активность. Сетчатка содержит три различных слоя клеток: слой фоторецепторов, слой биполярных клеток и слой ганглиозных клеток. Слой фоторецепторов, где происходит трансдукция, находится дальше всего от хрусталика. Он содержит фоторецепторы с различной чувствительностью, называемые палочками и колбочками. Колбочки отвечают за восприятие цвета и бывают трех различных типов: красный, зеленый и синий. Палочки отвечают за восприятие объектов при слабом освещении. [42] Фоторецепторы содержат внутри себя особое химическое вещество, называемое фотопигментом, которое встроено в мембрану ламелл; один человеческий стержень содержит около 10 миллионов таких молекул. Молекулы фотопигмента состоят из двух частей: опсина ( белка) и ретиналя (липида). [43] Существует 3 определенных фотопигмента (каждый со своей собственной чувствительностью к длине волны), которые реагируют по всему спектру видимого света. Когда соответствующие длины волн (те, к которым чувствителен определенный фотопигмент) попадают на фоторецептор, фотопигмент разделяется на два, что посылает сигнал в биполярный клеточный слой, который в свою очередь посылает сигнал в ганглиозные клетки, аксоны которых образуют зрительный нерв и передают информацию в мозг. Если определенный тип колбочек отсутствует или ненормален из-за генетической аномалии, возникнет дефицит цветового зрения , иногда называемый цветовой слепотой. [44]
Трансдукция включает химические сообщения, отправляемые от фоторецепторов к биполярным клеткам и ганглиозным клеткам. Несколько фоторецепторов могут отправлять свою информацию одной ганглиозной клетке. Существует два типа ганглиозных клеток: красно-зеленые и желто-синие. Эти нейроны постоянно активизируются — даже если они не стимулируются. Мозг интерпретирует различные цвета (и с большим количеством информации — изображение), когда скорость активации этих нейронов изменяется. Красный свет стимулирует красную колбочку, которая, в свою очередь, стимулирует красно-зеленую ганглиозную клетку. Аналогично, зеленый свет стимулирует зеленую колбочку, которая стимулирует зелено-красную ганглиозную клетку, а синий свет стимулирует синюю колбочку, которая стимулирует сине-желтую ганглиозную клетку. Скорость активации ганглиозных клеток увеличивается, когда она получает сигнал от одной колбочки, и уменьшается (тормозится), когда она получает сигнал от другой колбочки. Первый цвет в названии ганглиозной клетки — это цвет, который ее возбуждает, а второй — это цвет, который ее тормозит. т.е.: красный колбочек будет возбуждать красно-зеленую ганглиозную клетку, а зеленый колбочек будет тормозить красно-зеленую ганглиозную клетку. Это оппонирующий процесс . Если скорость активации красно-зеленой ганглиозной клетки увеличивается, мозг будет знать, что свет красный, если скорость уменьшается, мозг будет знать, что цвет света зеленый. [44]
Теории и наблюдения визуального восприятия были основным источником вдохновения для компьютерного зрения (также называемого машинным зрением или вычислительным зрением). Специальные аппаратные структуры и программные алгоритмы предоставляют машинам возможность интерпретировать изображения, поступающие с камеры или датчика.
Например, Toyota 86 2022 года выпуска использует систему Subaru EyeSight для технологий помощи водителю . [45]