Естественное восприятие сцены

Естественное восприятие сцены относится к процессу, посредством которого агент (например, человек) визуально воспринимает и интерпретирует сцены , с которыми он обычно сталкивается в естественных условиях (например, оживленные улицы, луга, жилые комнаты). ^[1] Этот процесс был смоделирован несколькими различными способами, которые руководствуются различными концепциями.

Дебаты о роли внимания

Одним из основных разделительных линий между теориями, объясняющими восприятие естественной сцены, является роль внимания . Некоторые теории поддерживают необходимость сосредоточенного внимания, в то время как другие утверждают, что сосредоточенное внимание не участвует.

Сосредоточенное внимание играло частичную роль в ранних моделях восприятия естественной сцены. Такие модели включали две стадии визуальной обработки. ^[2] Согласно этим моделям, первая стадия не требует внимания и параллельно регистрирует низкоуровневые характеристики, такие как градиенты яркости , движение и ориентация. Между тем, вторая стадия требует сосредоточенного внимания. Она регистрирует высокоуровневые описания объектов, имеет ограниченную емкость и работает последовательно. Эти модели были эмпирически обоснованы исследованиями, демонстрирующими слепоту к изменениям , невнимательную слепоту и моргание внимания . Такие исследования показывают, что когда визуально сфокусированное внимание человека занято задачей, значительные изменения в его окружении, которые не имеют прямого отношения к задаче, могут ускользнуть от осознания. Обычно считалось, что естественное восприятие сцены также подвержено слепоте к изменениям, невнимательной слепоте и морганию внимания, и что эти психологические явления происходят из-за того, что вовлечение в задачу отвлекает ресурсы внимания, которые в противном случае были бы использованы для восприятия естественной сцены.

Доказательства против необходимости сосредоточенного внимания

Вскоре появилась гипотеза отсутствия внимания, которая бросила вызов ранним моделям. Первоначальным основанием для гипотезы отсутствия внимания было открытие того, что при визуальном поиске основные визуальные особенности объектов немедленно и автоматически выскакивают перед человеком, выполняющим визуальный поиск. ^[3] Дальнейшие эксперименты, казалось, подтверждали это: Поттер (цитируется Эвансом и Трейсманом, 2005) показал, что к представлениям высокого порядка можно быстро получить доступ из естественных сцен, представленных со скоростью до 10 в секунду. Кроме того, Торп, Файз и Марлот (цитируется Эвансом и Трейсманом) обнаружили, что люди и приматы могут быстро и точно классифицировать естественные изображения (т. е. животных в повседневных внутренних и внешних сценах) даже после кратковременных экспозиций. ^[3] Основная идея этих исследований заключается в том, что экспозиция каждой отдельной сцены слишком кратковременна для возникновения процессов внимания, однако люди способны интерпретировать и классифицировать эти сцены.

Более слабые версии гипотезы отсутствия внимания также были нацелены на определенные компоненты процесса восприятия естественной сцены, а не на процесс в целом. Кихара и Такеда (2012) ограничивают свое утверждение утверждением, что именно интеграция информации, основанной на пространственной частоте, в естественных сценах (подпроцесс восприятия естественной сцены) является свободной от внимания. ^[4] Это утверждение основано на их исследовании, в котором использовались задачи, требующие внимания, для изучения способностей участников точно классифицировать изображения, которые были отфильтрованы для получения широкого диапазона пространственных частот. Логика этого эксперимента заключалась в том, что если интеграция визуальной информации по пространственным частотам (измеренная задачей категоризации) является преаттентивной, то задачи, требующие внимания, не должны влиять на производительность в задаче категоризации. Это действительно оказалось так.

Более поздние данные подтверждают необходимость сосредоточенного внимания

Недавнее исследование Коэна, Альвареса и Накаямы (2011) ставит под сомнение обоснованность доказательств, подтверждающих гипотезу отсутствия внимания. Они обнаружили, что участники демонстрировали слепоту невнимания при выполнении определенных видов задач слежения за несколькими объектами (MOT) и быстрой последовательной визуальной презентации (RSVP). ^[5] Кроме того, Коэн и др. обнаружили, что естественное восприятие сцены участниками было нарушено в условиях двойной задачи, но что это нарушение двойной задачи происходило только тогда, когда основная задача участников была достаточно сложной. Авторы пришли к выводу, что предыдущие исследования, показывающие отсутствие необходимости в сосредоточенном внимании, не использовали задачи, которые были достаточно сложными для полного вовлечения внимания.

В исследовании Коэна и др. задача MOT включала просмотр восьми черных движущихся дисков, представленных на изменяющемся фоне, который состоял из случайно окрашенных масок шахматной доски. Четыре из этих дисков были выбраны, и участники были проинструктированы отслеживать эти четыре диска. Задача RSVP включала просмотр потока букв и цифр, представленных на фоне серии изменяющихся шахматных досок, и подсчет количества раз, когда была представлена цифра. В обоих экспериментах критический тест включал естественную сцену, внезапно заменяющую предпоследнюю шахматную доску, и участников сразу же после этого спрашивали, заметили ли они что-нибудь другое, а также предлагали шесть вопросов, чтобы определить, классифицировали ли они сцену. Условие двойной задачи просто включало в себя выполнение участниками задачи MOT, упомянутой выше, и задачи классификации сцены одновременно. Авторы варьировали сложность задачи (то есть насколько сложной была задача), увеличивая или уменьшая скорость движущихся дисков.

Модели

Вот некоторые из моделей, которые были предложены для объяснения восприятия естественной сцены.

Гипотеза Эванса и Трейсмана

Эванс и Трейсман (2005) предложили гипотезу о том, что люди быстро обнаруживают дизъюнктивные наборы несвязанных признаков целевых категорий параллельным образом , а затем используют эти признаки для различения сцен, которые содержат или не содержат цель, не обязательно полностью идентифицируя ее. ^[3] Примером такой особенности могут служить расправленные крылья, которые можно использовать для определения того, есть ли на изображении птица, даже до того, как система идентифицировала объект как птицу. Эванс и Трейсман предполагают, что естественное восприятие сцены включает в себя первый проход через иерархию визуальной обработки до узлов в сети визуальной идентификации, а затем необязательное повторное посещение более ранних уровней для более детального анализа. На этапе «первого прохода» система формирует глобальное представление естественной сцены, которое включает в себя схему глобальных границ и потенциальных объектов. На этапе «повторного посещения» сфокусированное внимание используется для последовательного выбора локальных объектов интереса, а затем связывания их признаков с их представлениями.

Эта гипотеза согласуется с результатами их исследования, в котором участники были проинструктированы обнаружить животных-целей в последовательностях RSVP, а затем сообщить их личности и местонахождения. Хотя участники смогли обнаружить цели в большинстве испытаний, они часто впоследствии не могли идентифицировать или локализовать их. Кроме того, когда две цели были представлены в быстрой последовательности, участники демонстрировали значительное моргание внимания, когда требовалось идентифицировать цели, но моргание внимания в основном устранялось среди участников, которым требовалось только обнаружить их. ^[3] Эванс и Трейсман объясняют эти результаты гипотезой о том, что моргание внимания происходит, потому что стадия идентификации требует ресурсов внимания, в то время как стадия обнаружения — нет.

Сверхбыстрая визуальная категоризация

Сверхбыстрая визуальная категоризация — это модель, предлагающая автоматический механизм прямой связи , который формирует высокоуровневые представления объектов параллельно без сосредоточенного внимания. В этой модели механизм не может быть ускорен путем обучения. Доказательства механизма прямой связи можно найти в исследованиях, которые показали, что многие нейроны уже высокоизбирательны в начале визуальной реакции, таким образом предполагая, что механизмы обратной связи не требуются для увеличения избирательности реакции. ^[6] Кроме того, недавние исследования фМРТ и ERP показали, что замаскированные визуальные стимулы, которые участники не воспринимают сознательно, могут значительно модулировать активность в двигательной системе, таким образом предполагая несколько сложную визуальную обработку. ^[7] ВанРаллен (2006) провел моделирование, показывающее, что прямое распространение одной волны спайков через высокоуровневые нейроны, генерируемые в ответ на стимул, может быть достаточным для грубого распознавания и категоризации, которое происходит за 150 мс или меньше. ^[8]

Теория нейронно-объектного файла

Сюй и Чунь (2009) предлагают теорию нейронного объектного файла, которая утверждает, что человеческая зрительная система изначально выбирает фиксированное количество примерно из четырех объектов из многолюдной сцены на основе их пространственной информации (индивидуализация объекта) перед кодированием их деталей (идентификация объекта). ^[9] В рамках этой структуры, индивидуация объекта, как правило, контролируется нижней интрапариетальной бороздой (IPS), в то время как идентификация объекта включает верхнюю IPS и визуальные области более высокого уровня. На этапе индивидуации объекта представления объектов являются грубыми и содержат минимальную информацию о признаках. Однако, как только эти представления объектов (или объектные файлы, если использовать язык теории) были «настроены» на этапе индивидуации объекта, они могут быть разработаны с течением времени на этапе идентификации объекта, на котором получена дополнительная информация о признаках и идентичности.

Теория нейронно-объектного файла рассматривает проблему внимания, предлагая две различные системы обработки. Одна из них отслеживает общую иерархическую структуру визуального отображения и не требует внимания, в то время как другая обрабатывает текущие объекты выбора внимания. Текущая гипотеза заключается в том, что область парагиппокампального места (PPA) играет роль в переключении визуального внимания на различные части сцены и включении информации из нескольких кадров для формирования интегрированного представления сцены.

Разделение между индивидуализацией и идентификацией объектов в теории нейронного объектного файла подтверждается доказательствами, такими как исследование фМРТ Сю и Чуна (цитируется в Xu & Chun, 2009). В этом исследовании они изучали задние мозговые механизмы, которые поддерживают зрительную кратковременную память (VSTM). ФМРТ показала, что представления в нижней IPS были зафиксированы примерно на четырех объектах независимо от сложности объекта, но представления в верхней IPS и латеральном затылочном комплексе (LOC) различались в зависимости от сложности. ^[10]

Статистика природных сцен

Ссылки

^ Geisler, WS, Perry, JS и Ing, AD (2008) Анализ природных систем. В: B. Rogowitz и T. Pappas (ред.), Зрение человека и электронная визуализация. Труды SPIE, том 6806, 68060M
^ Эванс, К. и Трейсман, А. (2005). Восприятие объектов в естественных сценах: действительно ли оно свободно от внимания? Журнал экспериментальной психологии: восприятие и производительность человека, 31(6) , 1476-1492.
^ abcd См. 2.
^ Кихара, К. и Такеда, Й. (2012). Интеграция пространственной частотной информации в естественных сценах без привлечения внимания. Vision Research, 65, 38-44.
^ Коэн, МА, Альварес, ГА и Накаяма, К. (2011). Восприятие естественной сцены требует внимания. Психологическая наука, 22(9), 1165-1172.
^ Фабр-Торп, М., Делорм, А., Марло, К. и Торп, С. (2001). Ограничение скорости обработки при сверхбыстрой визуальной категоризации новых природных сцен. Журнал когнитивной нейронауки, 13(2), стр. 171-180.
^ См. 9.
^ ВанРаллен, Р. (2007). Сила прямой связи. Достижения когнитивной психологии, 3(1), 167-176.
^ Сюй, И. и Чун, ММ (2009). Выбор и восприятие множественных визуальных объектов. Тенденции в когнитивных науках , 13(4), 167-173.
^ См. 12.