Восприятие глубины — это способность воспринимать расстояние до объектов в мире с помощью зрительной системы и зрительного восприятия . Это основной фактор в восприятии мира в трех измерениях.
Ощущение глубины — соответствующий термин для животных, не являющихся людьми, поскольку, хотя известно, что они могут ощущать расстояние до объекта, неизвестно, воспринимают ли они его так же, как люди. [1]
Восприятие глубины возникает из множества глубинных сигналов. Они обычно классифицируются на бинокулярные сигналы и монокулярные сигналы. Бинокулярные сигналы основаны на получении сенсорной информации в трех измерениях от обоих глаз, а монокулярные сигналы можно наблюдать только одним глазом. [2] [3] Бинокулярные сигналы включают в себя ретинальную диспаратность , которая использует параллакс и вергенцию . Стереоскопическое зрение становится возможным благодаря бинокулярному зрению . Монокулярные сигналы включают в себя относительный размер (удаленные объекты охватывают меньшие углы зрения, чем близкие объекты), градиент текстуры, окклюзию, линейную перспективу, контрастные различия и параллакс движения . [4]
Монокулярные сигналы предоставляют информацию о глубине даже при наблюдении за сценой только одним глазом.
Когда наблюдатель движется, кажущееся относительное движение нескольких неподвижных объектов на фоне дает подсказки об их относительном расстоянии. Если известна информация о направлении и скорости движения, параллакс движения может предоставить абсолютную информацию о глубине. [5] Этот эффект можно ясно увидеть при вождении автомобиля. Близкие предметы быстро пролетают, в то время как далекие объекты кажутся неподвижными. Некоторые животные, у которых отсутствует бинокулярное зрение из-за того, что их глаза имеют мало общего поля зрения, используют параллакс движения более явно, чем люди, для определения глубины (например, некоторые виды птиц, которые кивают головой, чтобы достичь параллакса движения, и белки, которые движутся по линиям, ортогональным интересующему объекту, чтобы сделать то же самое [6] ). [примечание 1]
Когда объект движется к наблюдателю, проекция объекта на сетчатку глаза расширяется в течение определенного периода времени, что приводит к восприятию движения по линии к наблюдателю. Другое название этого явления — глубина от оптического расширения . [7] Динамическое изменение стимула позволяет наблюдателю не только видеть объект движущимся, но и воспринимать расстояние до движущегося объекта. Таким образом, в этом контексте изменяющийся размер служит сигналом расстояния. [8] Связанным явлением является способность зрительной системы рассчитывать время до контакта (TTC) приближающегося объекта по скорости оптического расширения — полезная способность в различных контекстах, от вождения автомобиля до игры в мяч . Однако расчет TTC, строго говоря, является восприятием скорости, а не глубины.
Если неподвижную жесткую фигуру (например, проволочный куб) поместить перед точечным источником света так, чтобы ее тень падала на полупрозрачный экран, наблюдатель по другую сторону экрана увидит двумерный рисунок линий. Но если куб вращается, зрительная система извлечет необходимую информацию для восприятия третьего измерения из движений линий, и будет виден куб. Это пример эффекта кинетической глубины . [9] Эффект также возникает, когда вращающийся объект является твердым (а не контурной фигурой), при условии, что проецируемая тень состоит из линий, которые имеют определенные углы или конечные точки, и что эти линии изменяют как длину, так и ориентацию во время вращения. [10]
Свойство параллельных линий, сходящихся на расстоянии, в бесконечности, позволяет нам реконструировать относительное расстояние двух частей объекта или особенностей ландшафта. Примером может служить ситуация, когда вы стоите на прямой дороге, смотрите на дорогу и замечаете, что дорога сужается по мере удаления вдаль. Визуальное восприятие перспективы в реальном пространстве, например, в помещениях, в поселениях и на природе, является результатом нескольких оптических впечатлений и интерпретации зрительной системой . Угол зрения важен для видимого размера . Близлежащий объект отображается на большей площади сетчатки , тот же объект или объект того же размера, находящийся дальше, — на меньшей площади. [11] Восприятие перспективы возможно при взгляде только одним глазом, но стереоскопическое зрение усиливает впечатление пространственного. Независимо от того, исходят ли световые лучи, попадающие в глаз, из трехмерного пространства или из двумерного изображения, они попадают внутрь глаза на сетчатку как на поверхность. То, что видит человек, основано на реконструкции его зрительной системы, в которой одно и то же изображение на сетчатке может быть интерпретировано как двумерно, так и трехмерно. Если трехмерная интерпретация была распознана, она получает предпочтение и определяет восприятие. [12]
В пространственном зрении горизонтальная линия взгляда может играть роль. На снимке, сделанном из окна дома, горизонтальная линия взгляда находится на уровне второго этажа (желтая линия). Ниже этой линии, чем дальше находятся объекты, тем выше в поле зрения они кажутся. Выше горизонтальной линии взгляда объекты, которые находятся дальше, кажутся ниже тех, которые находятся ближе. Для представления пространственных впечатлений в графической перспективе можно использовать точку схода . [13] При взгляде на большие географические расстояния эффекты перспективы также частично возникают из-за угла зрения, но не только из-за этого. На снимке 5 серии на заднем плане находится Монблан , самая высокая гора в Альпах. Она кажется ниже, чем гора впереди в центре снимка. Измерения и расчеты могут быть использованы для определения доли кривизны Земли в субъективно воспринимаемых пропорциях.
Если известно, что два объекта имеют одинаковый размер (например, два дерева), но их абсолютный размер неизвестен, сигналы относительного размера могут предоставить информацию об относительной глубине двух объектов. Если один из них охватывает больший угол зрения на сетчатке, чем другой, объект, охватывающий больший угол зрения, кажется ближе.
Поскольку угол зрения объекта, проецируемого на сетчатку, уменьшается с расстоянием, эту информацию можно объединить с предыдущими знаниями о размере объекта, чтобы определить абсолютную глубину объекта. Например, люди, как правило, знакомы с размером среднего автомобиля. Эти предыдущие знания можно объединить с информацией об угле, который он образует на сетчатке, чтобы определить абсолютную глубину автомобиля в сцене.
Даже если фактический размер объекта неизвестен и виден только один объект, меньший объект кажется дальше, чем большой объект, находящийся в том же месте. [14]
Из-за рассеивания света атмосферой объекты, которые находятся на большом расстоянии, имеют меньший контраст яркости и меньшую насыщенность цвета . Из-за этого изображения кажутся размытыми, чем дальше они находятся от точки зрения человека. В компьютерной графике это часто называют « туманом расстояния ». Передний план имеет высокий контраст; фон имеет низкий контраст. Объекты, отличающиеся только своим контрастом с фоном, кажутся находящимися на разной глубине. [15] Цвет удаленных объектов также смещен в сторону синего конца спектра ( например, далекие горы). Некоторые художники, в частности Сезанн , используют «теплые» пигменты (красный, желтый и оранжевый), чтобы выдвинуть черты вперед к зрителю, и «холодные» (синий, фиолетовый и сине-зеленый), чтобы обозначить часть формы, которая изгибается от плоскости изображения .
Аккомодация — это глазодвигательный сигнал для восприятия глубины. Когда люди пытаются сфокусироваться на удаленных объектах, цилиарные мышцы расслабляются, позволяя хрусталику глаза стать тоньше, что увеличивает фокусное расстояние . Восприятие глубины удаленных объектов возможно и другими методами, помимо аккомодации. Кинестетические ощущения сокращающихся и расслабляющихся цилиарных мышц (внутриглазных мышц) отправляются в зрительную кору, где они используются для интерпретации расстояния и глубины. Аккомодация эффективна только для расстояний менее 2 метров.
Оккультация (также называемая интерпозицией ) происходит, когда близкие поверхности перекрывают дальние поверхности. [16] Если один объект частично закрывает вид на другой объект, люди воспринимают его как более близкий. Однако эта информация позволяет наблюдателю только сделать «ранжирование» относительной близости. Наличие монокулярных окружающих окклюзий состоит из текстуры и геометрии объекта. Эти явления способны уменьшить задержку восприятия глубины как в естественных, так и в искусственных стимулах. [17] [18]
На внешних границах поля зрения параллельные линии становятся искривленными, как на фотографии, сделанной через объектив «рыбий глаз» . Этот эффект, хотя он обычно устраняется как в искусстве, так и в фотографиях путем кадрирования или обрамления изображения, значительно усиливает у зрителя ощущение нахождения в реальном трехмерном пространстве. (Классическая перспектива не использует это так называемое «искажение», хотя на самом деле «искажения» строго подчиняются оптическим законам и предоставляют совершенно действительную визуальную информацию, так же как классическая перспектива делает это для части поля зрения, которая попадает в ее рамку.)
Мелкие детали на близлежащих объектах видны четко, тогда как на далеких объектах такие детали не видны. Градиенты текстуры — это зерна предмета. Например, на длинной гравийной дороге гравий рядом с наблюдателем можно четко различить по форме, размеру и цвету. На расстоянии текстура дороги не может быть четко различима.
То, как свет падает на объект и отражается от его поверхности, а также тени, отбрасываемые объектами, дают мозгу эффективный сигнал для определения формы объектов и их положения в пространстве. [19]
Выборочное размытие изображения очень часто используется в фотографии и видео для создания впечатления глубины. Это может действовать как монокулярный сигнал, даже если все другие сигналы удалены. Это может способствовать восприятию глубины в естественных ретинальных изображениях, поскольку глубина фокуса человеческого глаза ограничена. Кроме того, существует несколько алгоритмов оценки глубины, основанных на расфокусировке и размытии. [20] Известно, что некоторые пауки-скакуны используют расфокусировку изображения для оценки глубины. [21]
Когда объект виден относительно горизонта, люди склонны воспринимать объекты, которые находятся ближе к горизонту, как находящиеся дальше от них, а объекты, которые находятся дальше от горизонта, как находящиеся ближе к ним. [22] Кроме того, если объект перемещается из положения, близкого к горизонту, в положение выше или ниже горизонта, он будет казаться приближающимся к наблюдателю.
Глазной параллакс — это перцептивный эффект, при котором вращение глаза вызывает сдвиги изображения, зависящие от перспективы. Это происходит, потому что оптический центр и центр вращения глаза не совпадают. [23] Глазной параллакс не требует движения головы. Он отделен и отличен от параллакса движения.
Бинокулярные сигналы обеспечивают информацию о глубине при наблюдении за сценой обоими глазами.
Животные, у которых глаза расположены фронтально, также могут использовать информацию, полученную из различных проекций объектов на каждую сетчатку, чтобы судить о глубине. Используя два изображения одной и той же сцены, полученные под немного разными углами, можно триангулировать расстояние до объекта с высокой степенью точности. Каждый глаз видит немного разный угол объекта, видимого левым и правым глазом. Это происходит из-за горизонтального параллакса разделения глаз. Если объект находится далеко, диспаратность этого изображения, падающего на обе сетчатки, будет небольшой. Если объект находится близко или близко, диспаратность будет большой. Именно стереопсис обманывает людей, заставляя думать, что они воспринимают глубину при просмотре Magic Eyes , автостереограмм , 3-D фильмов и стереоскопических фотографий .
Конвергенция — это бинокулярный глазодвигательный сигнал для восприятия расстояния и глубины. Благодаря стереопсису два глазных яблока фокусируются на одном и том же объекте; при этом они сходятся. Конвергенция растягивает экстраокулярные мышцы — рецепторами для этого являются мышечные веретена . Как и в случае с монокулярным аккомодационным сигналом, кинестетические ощущения от этих экстраокулярных мышц также помогают в восприятии расстояния и глубины. Угол конвергенции меньше, когда глаз фиксируется на объектах, которые находятся далеко. Конвергенция эффективна на расстояниях менее 10 метров. [24]
Антонио Медина Пуэрта продемонстрировал, что ретинальные изображения без параллаксной диспаратности, но с разными тенями были стереоскопически объединены, придавая глубинное восприятие изображенной сцене. Он назвал это явление «теневым стереопсисом». Таким образом, тени являются важным стереоскопическим сигналом для восприятия глубины. [25]
Из этих различных сигналов только конвергенция, аккомодация и знакомый размер предоставляют абсолютную информацию о расстоянии. Все остальные сигналы относительны (то есть их можно использовать только для того, чтобы определить, какие объекты находятся ближе относительно других). Стереоскопическое зрение является просто относительным, поскольку большая или меньшая диспаратность для близлежащих объектов может означать либо то, что эти объекты различаются более или менее существенно по относительной глубине, либо то, что фовеальный объект находится ближе или дальше (чем дальше сцена, тем меньше ретинальная диспаратность, указывающая на ту же разницу в глубине).
Исаак Ньютон предположил, что зрительный нерв человека и других приматов имеет особую архитектуру на своем пути от глаза к мозгу. Почти половина волокон сетчатки человека проецируется в полушарие мозга с той же стороны, что и глаз, из которого они исходят. Такая архитектура называется геми-перекрестом или ипсилатеральными (односторонними) зрительными проекциями (IVP). У большинства других животных эти нервные волокна переходят на противоположную сторону мозга.
Бернхард фон Гудден показал, что OC содержит как перекрещенные, так и неперекрещенные волокна сетчатки, а Рамон-и-Кахаль [26] заметил, что степень гемидекуссии различается между видами. [27] [26] Гордон Линн Уоллс формализовал общепринятое понятие в закон Ньютона-Мюллера-Гуддена (NGM), сказав: что степень перекреста зрительных волокон в зрительном перекресте обратно пропорциональна степени фронтальной ориентации оптических осей глаз. [28] [ нужна страница ] Другими словами, что количество волокон, которые не пересекают среднюю линию, пропорционально размеру бинокулярного поля зрения. Однако проблемой закона Ньютона-Мюллера-Гуддена является значительная межвидовая вариация IVP, наблюдаемая у видов, не относящихся к млекопитающим. Эта вариация не связана с образом жизни, таксономической ситуацией и перекрытием полей зрения. [29]
Таким образом, долгое время считалось, что расположение нервных волокон в зрительном перекресте у приматов и людей развилось в первую очередь для создания точного восприятия глубины, стереопсиса, или, выражаясь точнее, что глаза наблюдают за объектом под несколько разными углами, и что эта разница в углах помогает мозгу оценивать расстояние.
Гипотеза глаз-передняя конечность (EF) предполагает, что необходимость точного контроля глаз-руки была ключевой в эволюции стереопсиса. Согласно гипотезе EF, стереопсис является эволюционным побочным продуктом более важного процесса: конструкция зрительного перекреста и положение глаз (степень бокового или фронтального направления) сформированы эволюцией, чтобы помочь животному координировать конечности (руки, когти, крылья или плавники). [30]
Гипотеза EF постулирует, что имеет селективную ценность наличие коротких нейронных путей между областями мозга, которые получают визуальную информацию о руке, и двигательными ядрами, которые контролируют координацию руки. Суть гипотезы EF заключается в том, что эволюционная трансформация в OC повлияет на длину и, следовательно, скорость этих нейронных путей. [31] Наличие приматного типа OC означает, что двигательные нейроны, контролирующие/выполняющие, скажем, движение правой руки, нейроны, получающие сенсорную, например, тактильную информацию о правой руке, и нейроны, получающие визуальную информацию о правой руке, все будут расположены в одном и том же (левом) полушарии мозга. Обратное верно для левой руки, обработки визуальной, тактильной информации и двигательной команды — все это происходит в правом полушарии. Кошки и древесные (лазающие по деревьям) сумчатые имеют аналогичное расположение (от 30 до 45% IVP и направленные вперед глаза). Результатом будет то, что визуальная информация их передних конечностей достигнет соответствующего (исполняющего) полушария. Эволюция привела к небольшим и постепенным колебаниям в направлении нервных путей в OC. Это преобразование может происходить в любом направлении. [30] [32] Змеи, круглоротые и другие животные, у которых нет конечностей, имеют относительно много IVP. Примечательно, что у этих животных нет конечностей (рук, лап, плавников или крыльев), которые можно было бы направлять. Кроме того, левая и правая части тела змееподобных животных не могут двигаться независимо друг от друга. Например, если змея сворачивается по часовой стрелке, ее левый глаз видит только левую часть тела, а в положении против часовой стрелки тот же глаз будет видеть только правую часть тела. По этой причине для змей функционально иметь некоторое количество IVP в OC (голом). Потомки круглоротых (другими словами, большинство позвоночных), которые в результате эволюции перестали скручиваться и вместо этого развили передние конечности, будут иметь преимущество, достигая полностью перекрещенных путей, пока передние конечности в основном заняты в боковом направлении. Рептилии, такие как змеи, которые потеряли свои конечности, выиграют, вспомнив кластер неперекрещенных волокон в своей эволюции. Похоже, что это и произошло, что еще раз подтверждает гипотезу EF. [30] [32]
Лапки мышей обычно заняты только в боковых полях зрения. Таким образом, в соответствии с гипотезой EF у мышей латерально расположенные глаза и очень мало пересечений в OC. Список из животного мира, поддерживающий гипотезу EF, длинный (BBE). Гипотеза EF применима практически ко всем позвоночным, в то время как закон NGM и гипотеза стереопсиса в основном применимы только к млекопитающим. Даже некоторые млекопитающие демонстрируют важные исключения, например, у дельфинов есть только непересекающиеся пути, хотя они являются хищниками. [32]
Распространено предположение, что у хищных животных глаза, как правило, расположены спереди, поскольку это позволяет им оценивать расстояние до добычи, тогда как у животных, на которых охотятся, глаза расположены сбоку, поскольку это позволяет им вовремя сканировать и обнаруживать врага. Однако многие хищные животные также могут стать добычей, а у некоторых хищников, например, у крокодила, глаза расположены сбоку и вообще нет IVP. Такая архитектура OC обеспечит короткие нервные связи и оптимальный контроль глаз над передней ногой крокодила. [32]
Птицы, как правило, имеют латерально расположенные глаза, несмотря на это, они умудряются пролетать, например, через густой лес. В заключение, гипотеза EF не отрицает значительную роль стереопсиса, но предполагает, что превосходное восприятие глубины (стереопсис) приматов эволюционировало, чтобы служить руке; что особая архитектура зрительной системы приматов в значительной степени эволюционировала, чтобы установить быстрые нейронные пути между нейронами, участвующими в координации руки, помогая руке захватывать нужную ветку [31]
Большинство травоядных животных открытых равнин , особенно копытные, не обладают бинокулярным зрением, поскольку их глаза расположены по бокам головы, обеспечивая панорамный, почти 360°, обзор горизонта, что позволяет им замечать приближение хищников практически с любого направления. Однако у большинства хищников оба глаза смотрят вперед, что обеспечивает бинокулярное восприятие глубины и помогает им оценивать расстояния, когда они набрасываются или пикируют на свою добычу. Животные, которые проводят много времени на деревьях, используют бинокулярное зрение, чтобы точно оценивать расстояния при быстром перемещении с ветки на ветку.
Мэтт Картмилл, физический антрополог и анатом из Бостонского университета , раскритиковал эту теорию, сославшись на другие древесные виды, у которых отсутствует бинокулярное зрение, такие как белки и некоторые птицы . Вместо этого он предлагает «Гипотезу визуального хищничества», которая утверждает, что предковые приматы были насекомоядными хищниками, похожими на долгопятов , подверженными тому же давлению отбора на фронтальное зрение, что и другие хищные виды. Он также использует эту гипотезу для объяснения специализации рук приматов, которые, как он предполагает, стали приспособленными для хватания добычи, несколько похоже на то, как хищники используют свои когти .
Фотографии, фиксирующие перспективу, представляют собой двумерные изображения, которые часто иллюстрируют иллюзию глубины. Фотография использует размер, контекст окружающей среды, освещение, текстурный градиент и другие эффекты для фиксации иллюзии глубины. [33] Стереоскопы и Viewmasters , а также 3D-фильмы используют бинокулярное зрение, заставляя зрителя видеть два изображения, созданных с немного разных позиций (точек зрения). Чарльз Уитстон был первым, кто обсуждал восприятие глубины как признак бинокулярного неравенства. [34] Он изобрел стереоскоп, который представляет собой прибор с двумя окулярами, который отображает две фотографии одного и того же места/сцены, снятые под относительно разными углами. При наблюдении по отдельности каждым глазом пары изображений вызывали четкое ощущение глубины. [35] Напротив, телеобъектив , используемый в телевизионных спортивных состязаниях, например, для фокусировки на членах аудитории стадиона, имеет противоположный эффект. Зритель видит размер и детали сцены так, как будто она находится достаточно близко, чтобы дотронуться до нее, но перспектива камеры по-прежнему определяется ее фактическим положением в ста метрах, поэтому лица и объекты на заднем плане кажутся примерно того же размера, что и на переднем плане.
Опытные художники прекрасно знают различные методы указания пространственной глубины (цветовая штриховка, туман на расстоянии , перспектива и относительный размер) и пользуются ими, чтобы их работы казались «реальными». Зритель чувствует, что можно было бы протянуть руку и схватить нос на портрете Рембрандта или яблоко на натюрморте Сезанна — или шагнуть внутрь пейзажа и пройтись среди его деревьев и камней.
Кубизм был основан на идее включения нескольких точек зрения в живописное изображение, как будто для имитации визуального опыта физического присутствия в присутствии объекта и видения его с разных сторон. Радикальные эксперименты Жоржа Брака , Пабло Пикассо , «Обнаженная на стене » Жана Метценже [36], «Женщина с флоксом » Альбера Глеза [37] [ 38] или виды Эйфелевой башни Робера Делоне [39] [40] используют взрывную угловатость кубизма, чтобы преувеличить традиционную иллюзию трехмерного пространства. Тонкое использование нескольких точек зрения можно найти в пионерских поздних работах Сезанна, которые одновременно предвосхитили и вдохновили первых настоящих кубистов. Пейзажи и натюрморты Сезанна убедительно свидетельствуют о собственном высокоразвитом восприятии глубины художника. В то же время, как и другие постимпрессионисты , Сезанн усвоил из японского искусства важность уважения к плоскому (двумерному) прямоугольнику самой картины; Хокусай и Хиросигэ игнорировали или даже переворачивали линейную перспективу и тем самым напоминали зрителю, что картина может быть «истинной» только тогда, когда она признает истину своей собственной плоской поверхности. Напротив, европейская «академическая» живопись была посвящена своего рода Большой Лжи о том, что поверхность холста — это всего лишь зачарованный проход в «реальную» сцену, разворачивающуюся за ее пределами, и что главная задача художника — отвлечь зрителя от любого разочаровывающего осознания присутствия нарисованного холста. Кубизм , как и большая часть современного искусства , — это попытка противостоять, если не разрешить, парадоксу предположения пространственной глубины на плоской поверхности и исследовать это неотъемлемое противоречие с помощью инновационных способов видения, а также новых методов рисунка и живописи.
В робототехнике и компьютерном зрении восприятие глубины часто достигается с помощью таких датчиков, как камеры RGBD . [41]
{{cite journal}}
: CS1 maint: unfit URL (link)