Зрительное восприятие — это способность интерпретировать окружающую среду посредством фотопического зрения (дневное зрение), цветового зрения , скотопического зрения (ночное зрение) и мезопического зрения (сумеречное зрение), используя свет видимого спектра , отраженный объектами в окружающей среде. Это отличается от остроты зрения , которая показывает, насколько четко человек видит (например, «зрение 20/20»). У человека могут возникнуть проблемы с обработкой зрительного восприятия, даже если у него зрение 20/20.
Полученное в результате восприятие также известно как видение , зрение или зрение (прилагательные визуальное , оптическое и окулярное соответственно). Различные физиологические компоненты, участвующие в зрении, называются зрительной системой и являются предметом многих исследований в области лингвистики , психологии , когнитивной науки , нейробиологии и молекулярной биологии , которые в совокупности называются наукой о зрении .
У человека и ряда других млекопитающих свет попадает в глаз через роговицу и фокусируется хрусталиком на сетчатке — светочувствительной мембране в задней части глаза. Сетчатка служит преобразователем света в сигналы нейронов . Эта трансдукция достигается специализированными фоторецепторными клетками сетчатки, также известными как палочки и колбочки, которые обнаруживают фотоны света и реагируют, производя нервные импульсы . Эти сигналы передаются зрительным нервом от сетчатки к центральным ганглиям головного мозга . Латеральное коленчатое ядро , передающее информацию в зрительную кору . Сигналы от сетчатки также передаются непосредственно от сетчатки к верхним бугоркам . [1]
Латеральное коленчатое ядро посылает сигналы в первичную зрительную кору , также называемую стриарной корой. Экстрастриатная кора , также называемая корой зрительных ассоциаций, представляет собой набор корковых структур, которые получают информацию от полосатой коры, а также друг от друга. [2] Недавние описания коры зрительных ассоциаций описывают разделение на два функциональных пути: вентральный и дорсальный . Эта гипотеза известна как гипотеза двух потоков .
Обычно считается, что зрительная система человека чувствительна к видимому свету в диапазоне длин волн от 370 до 730 нанометров электромагнитного спектра . [3] Однако некоторые исследования показывают, что люди могут воспринимать свет с длиной волны до 340 нанометров (УФ-А), особенно молодые люди. [4] В оптимальных условиях эти пределы человеческого восприятия могут простираться от 310 нм ( УФ ) до 1100 нм ( БИК ). [5] [6]
Основная проблема зрительного восприятия заключается в том, что то, что видят люди, — это не просто трансляция стимулов сетчатки (т. е. изображения на сетчатке). Таким образом, люди, интересующиеся восприятием, долгое время пытались объяснить, как визуальная обработка создает то, что на самом деле видно.
Существовали две основные древнегреческие школы, дающие примитивное объяснение того, как работает зрение.
Первой была « эмиссионная теория » зрения, которая утверждала, что зрение возникает, когда лучи исходят из глаз и перехватываются зрительными объектами. Если объект был виден непосредственно, то это происходило «посредством лучей», выходящих из глаз и снова падающих на объект. Однако «с помощью лучей» было видно и преломленное изображение, которое выходило из глаз, проходило через воздух и после преломления попадало на видимый объект, который был виден в результате движения лучей. из глаза. Эту теорию отстаивали ученые, последователи оптики Евклида и оптики Птолемея .
Вторая школа отстаивала так называемый подход «интромиссии», согласно которому зрение исходит от чего-то, попадающего в глаза и представляющего объект. Эта теория со своим главным распространителем Аристотелем ( Де Сенсу ) [7] и его последователями [7] кажется, имеет некоторый контакт с современными теориями о том, что такое зрение на самом деле, но она осталась лишь предположением, лишенным какого-либо экспериментального обоснования. (В Англии восемнадцатого века Исаак Ньютон , Джон Локк и другие выдвинули теорию интромиссии зрения, настаивая на том, что зрение включает в себя процесс, в котором лучи, состоящие из реальной телесной материи, исходят от видимых объектов и проникают в разум видящего. сенсориум через апертуру глаза.) [8]
Обе школы мысли опирались на принцип, согласно которому «подобное познается только подобным», и, таким образом, на представление о том, что глаз состоит из некоего «внутреннего огня», который взаимодействует с «внешним огнем» видимого света и делает зрение возможным. Платон делает это утверждение в своем диалоге «Тимей» (45b и 46b), как и Эмпедокл (как сообщает Аристотель в его De Sensu , DK frag. B17). [7]
Альхазен (965 – ок. 1040) провел множество исследований и экспериментов по зрительному восприятию, расширил работы Птолемея по бинокулярному зрению , комментировал анатомические труды Галена. [9] [10] Он был первым человеком, который объяснил, что зрение возникает, когда свет отражается от объекта, а затем направляется в глаза. [11]
Считается, что Леонардо да Винчи (1452–1519) первым осознал особые оптические свойства глаза. Он писал: «Функция человеческого глаза... была описана большим количеством авторов определенным образом. Но я нашел ее совершенно иной». Его главным экспериментальным открытием было то, что существует только отчетливое и четкое зрение на луче зрения — оптической линии, которая заканчивается в ямке . Хотя он не использовал эти слова буквально, на самом деле он является отцом современного различия между фовеальным и периферическим зрением . [12]
Исаак Ньютон (1642–1726/27) был первым, кто путем экспериментов, выделив отдельные цвета спектра света, проходящего через призму , обнаружил, что зрительно воспринимаемый цвет предметов возникает благодаря характеру света, отражаемого предметами, и что эти разделенные цвета нельзя было превратить в какой-либо другой цвет, что противоречило научным ожиданиям того времени. [3]
Герману фон Гельмгольцу часто приписывают первое современное исследование зрительного восприятия. Гельмгольц исследовал человеческий глаз и пришел к выводу, что он не способен воспроизводить изображение высокого качества. Недостаточная информация, казалось, делала видение невозможным. Поэтому он пришел к выводу, что зрение может быть только результатом некоторой формы «бессознательного вывода», введя этот термин в 1867 году. Он предположил, что мозг делает предположения и выводы на основе неполных данных, основанных на предыдущем опыте. [13]
Вывод требует предварительного опыта мира.
Примерами известных предположений, основанных на визуальном опыте, являются:
Изучение зрительных иллюзий (случаев, когда процесс вывода идет не так) позволило лучше понять, какие предположения делает зрительная система.
Другой тип гипотезы бессознательного вывода (основанный на вероятностях) недавно был возрожден в так называемых байесовских исследованиях зрительного восприятия. [15] Сторонники этого подхода считают, что зрительная система выполняет некоторую форму байесовского вывода , чтобы получить восприятие на основе сенсорных данных. Однако неясно, как сторонники этой точки зрения в принципе получают соответствующие вероятности, необходимые для байесовского уравнения. Модели, основанные на этой идее, использовались для описания различных функций зрительного восприятия, таких как восприятие движения , восприятие глубины и восприятие фигуры и фона . [16] [17] «Полностью эмпирическая теория восприятия» — это родственный и новый подход, который рационализирует визуальное восприятие без явного обращения к байесовским формализмам. [ нужна цитата ]
Гештальт-психологи , работавшие в основном в 1930-х и 1940-х годах, подняли многие исследовательские вопросы, которые сегодня изучаются учеными-зрителями. [18]
Гештальт-законы организации послужили основой для изучения того, как люди воспринимают визуальные компоненты как организованные закономерности или целые структуры, а не как множество различных частей. «Гештальт» — это немецкое слово, которое частично переводится как «конфигурация или образец», а также «целая или возникающая структура». Согласно этой теории, существует восемь основных факторов, которые определяют, как зрительная система автоматически группирует элементы в шаблоны: близость, сходство, замкнутость, симметрия, общая судьба (т.е. общее движение), непрерывность, а также хороший гештальт (паттерн, который является регулярным, просто и упорядоченно) и Прошлый опыт. [ нужна цитата ]
В 1960-х годах техническое развитие позволило непрерывно регистрировать движения глаз во время чтения, [19] при просмотре изображений, [20] и позже, при решении зрительных задач, [21] , а когда стали доступны камеры-гарнитуры, также во время вождения. [22]
На рисунке справа показано, что может произойти в течение первых двух секунд визуального осмотра. Пока фон не в фокусе, представляя собой периферийное зрение , первое движение глаз направлено на ботинки мужчины (просто потому, что они находятся очень близко к начальной точке фиксации и имеют разумный контраст). Движения глаз выполняют функцию отбора внимания , то есть выбирают часть всех визуальных сигналов для более глубокой обработки мозгом. [ нужна цитата ]
Следующие фиксации перескакивают с лица на лицо. Они могут даже позволить сравнивать лица. [ нужна цитата ]
Можно сделать вывод, что лицевая сторона значка представляет собой очень привлекательный значок поиска в периферийном поле зрения. Фовеальное зрение добавляет подробную информацию к периферическому первому впечатлению .
Также можно отметить, что существуют разные типы движений глаз: фиксационные движения глаз ( микросаккады , дрейф глаз и тремор), вергентные движения, саккадические движения и движения преследования. Фиксации — это сравнительно статичные точки, в которых глаз отдыхает. Однако глаз никогда не бывает полностью неподвижным, и положение взгляда будет меняться. Эти дрейфы, в свою очередь, корректируются микросаккадами — очень маленькими фиксационными движениями глаз. Движения вергенции предполагают сотрудничество обоих глаз, позволяющее изображению попасть на одну и ту же область обеих сетчаток. В результате получается одно сфокусированное изображение. Саккадические движения — это тип движения глаз, который совершает скачки из одной позиции в другую и используется для быстрого сканирования определенной сцены/изображения. Наконец, преследующее движение представляет собой плавное движение глаз и используется для отслеживания движущихся объектов. [23]
Имеются убедительные доказательства того, что распознавание лиц и объектов осуществляется разными системами. Например, пациенты с прозопагнозией демонстрируют дефицит в обработке лица, но не в обработке объектов, в то время как пациенты, не страдающие объектом (особенно пациент CK ), демонстрируют дефицит в обработке объектов при сохраненной обработке лица. [24] С точки зрения поведения было показано, что лица, но не объекты, подвержены эффектам инверсии, что привело к утверждению, что лица «особенные». [24] [25] Кроме того, обработка лиц и объектов задействует разные нейронные системы. [26] Примечательно, что некоторые утверждают, что очевидная специализация человеческого мозга на обработке лиц отражает не истинную специфику предметной области, а, скорее, более общий процесс распознавания на экспертном уровне внутри данного класса стимулов, [27] хотя последнее Претензия является предметом серьезных дискуссий . Используя фМРТ и электрофизиологию, Дорис Цао и ее коллеги описали области мозга и механизм распознавания лиц у макак. [28]
Нижневисочная кора играет ключевую роль в задаче распознавания и дифференциации различных объектов. Исследование Массачусетского технологического института показывает, что подмножества областей ИТ-коры отвечают за разные объекты. [29] Избирательно отключая нейронную активность многих небольших участков коры, животное поочередно становится неспособным различать определенные пары объектов. Это показывает, что ИТ-кора разделена на области, которые реагируют на разные и определенные визуальные особенности. Аналогичным образом, определенные участки и области коры головного мозга более активно участвуют в распознавании лиц, чем в распознавании других объектов.
Некоторые исследования показывают, что ключевыми элементами, когда мозгу необходимо распознать объект на изображении, являются не единообразное глобальное изображение, а некоторые конкретные особенности и области интереса объектов. [30] [31] Таким образом, человеческое зрение уязвимо к небольшим конкретным изменениям изображения, таким как нарушение краев объекта, изменение текстуры или любое небольшое изменение в важной области изображения. [32]
Исследования людей, зрение которых восстановилось после длительной слепоты, показывают, что они не обязательно могут распознавать предметы и лица (в отличие от цвета, движения и простых геометрических форм). Некоторые предполагают, что слепота в детстве препятствует правильному развитию некоторой части зрительной системы, необходимой для выполнения задач более высокого уровня. [33] Общее мнение о том, что критический период длится до 5 или 6 лет, было поставлено под сомнение исследованием 2007 года, которое показало, что пожилые пациенты могут улучшить эти способности с годами воздействия. [34]
В 1970-х годах Дэвид Марр разработал многоуровневую теорию зрения, в которой анализировался процесс зрения на разных уровнях абстракции. Чтобы сосредоточиться на понимании конкретных проблем видения, он выделил три уровня анализа: вычислительный , алгоритмический и уровень реализации . Многие ученые, изучающие зрение, в том числе Томазо Поджо , приняли эти уровни анализа и использовали их для дальнейшей характеристики зрения с вычислительной точки зрения. [35]
Вычислительный уровень на высоком уровне абстракции решает проблемы, которые должна преодолеть зрительная система. Алгоритмический уровень пытается определить стратегию, которая может быть использована для решения этих проблем. Наконец, уровень реализации пытается объяснить, как решения этих проблем реализуются в нейронных схемах.
Марр предположил, что можно исследовать зрение на любом из этих уровней независимо. Марр описал зрение как переход от двумерного зрительного массива (на сетчатке) к трехмерному описанию мира на выходе. Его этапы видения включают в себя:
Эскиз Марра размером 2 1 ⁄ 2 D предполагает, что построена карта глубины и что эта карта является основой восприятия трехмерной формы . Однако как стереоскопическое, так и графическое восприятие, а также монокулярное наблюдение ясно показывают, что восприятие трехмерной формы предшествует восприятию глубины точек, а не зависит от него. Неясно, как в принципе можно построить предварительную карту глубины и как это решит вопрос организации или группировки фигур и фона. Роль перцептивных организационных ограничений, упущенных Марром, в создании восприятия трехмерной формы из трехмерных объектов, рассматриваемых в бинокль, была продемонстрирована эмпирически на примере трехмерных проволочных объектов, например, [37] [38] . Более подробное обсуждение см. Пизло (2008). [39]
Более поздняя альтернативная концепция предполагает, что видение состоит из следующих трех этапов: кодирование, выбор и декодирование. [40] Кодирование предназначено для выборки и представления визуальных входных данных (например, для представления визуальных входных данных в виде нейронной активности сетчатки). Отбор, или отбор внимания , заключается в выборе крошечной части входной информации для дальнейшей обработки, например, путем перемещения взгляда на объект или визуальное местоположение, чтобы лучше обрабатывать зрительные сигналы в этом месте. Декодирование заключается в выводе или распознавании выбранных входных сигналов, например, в распознавании объекта в центре взгляда как чьего-то лица. В этой схеме [41] отбор внимания начинается в первичной зрительной коре вдоль зрительного пути, а ограничения внимания налагают дихотомию между центральными и периферическими зрительными полями для визуального распознавания или декодирования.
Трансдукция — это процесс, посредством которого энергия раздражителей окружающей среды преобразуется в нейронную активность. Сетчатка содержит три различных слоя клеток : слой фоторецепторов, слой биполярных клеток и слой ганглиозных клеток. Слой фоторецепторов, где происходит трансдукция, находится дальше всего от хрусталика. Он содержит фоторецепторы с разной чувствительностью, называемые палочками и колбочками. Колбочки отвечают за восприятие цвета и делятся на три типа: красный, зеленый и синий. Палочки отвечают за восприятие предметов при слабом освещении. [42] Фоторецепторы содержат в себе особое химическое вещество, называемое фотопигментом, которое встроено в мембрану пластинок; в одном человеческом стержне их содержится около 10 миллионов. Молекулы фотопигмента состоят из двух частей: опсина (белка) и ретиналя (липида). [43] Существует три конкретных фотопигмента (каждый со своей чувствительностью к длине волны), которые реагируют на весь спектр видимого света. Когда соответствующие длины волн (те, к которым чувствителен конкретный фотопигмент) попадают на фоторецептор, фотопигмент расщепляется на две части, что посылает сигнал слою биполярных клеток, который, в свою очередь, посылает сигнал ганглиозным клеткам, аксоны которых образуют зрительный нерв и передают информацию в мозг. Если определенный тип колбочек отсутствует или является ненормальным из-за генетической аномалии, возникает дефицит цветового зрения , иногда называемый дальтонизмом. [44]
Трансдукция включает в себя химические сообщения, отправляемые от фоторецепторов к биполярным клеткам и ганглиозным клеткам. Несколько фоторецепторов могут отправлять информацию в одну ганглиозную клетку. Существует два типа ганглиозных клеток: красные/зеленые и желтые/синие. Эти нейроны постоянно активируются, даже если их не стимулировать. Мозг интерпретирует разные цвета (и изображение с большим количеством информации), когда меняется частота срабатывания этих нейронов. Красный свет стимулирует красный конус, который, в свою очередь, стимулирует красные/зеленые ганглиозные клетки. Аналогичным образом, зеленый свет стимулирует зеленый конус, который стимулирует зелено-красные ганглиозные клетки, а синий свет стимулирует синий конус, который стимулирует сине-желтые ганглиозные клетки. Скорость активации ганглиозных клеток увеличивается, когда об этом сигнализирует одна колбочка, и снижается (ингибируется), когда об этом сигнализирует другая колбочка. Первый цвет в названии ганглиозной клетки — это цвет, который ее возбуждает, а второй — цвет, который ее тормозит. то есть: красный конус будет возбуждать красную/зеленую ганглиозную клетку, а зеленый конус будет подавлять красную/зеленую ганглиозную клетку. Это процесс противника . Если скорость возбуждения красной/зеленой ганглиозной клетки увеличивается, мозг будет знать, что свет красный; если скорость уменьшить, мозг будет знать, что цвет света зеленый. [44]
Теории и наблюдения за зрительным восприятием были основным источником вдохновения для компьютерного зрения (также называемого машинным зрением или вычислительным зрением). Специальные аппаратные структуры и программные алгоритмы дают машинам возможность интерпретировать изображения, поступающие с камеры или датчика.
Например, Toyota 86 2022 года использует систему Subaru EyeSight для помощи водителю . [45]
{{cite book}}
: CS1 maint: multiple names: authors list (link){{cite book}}
: CS1 maint: multiple names: authors list (link)