Визуальное распознавание объектов относится к способности идентифицировать объекты в поле зрения на основе визуального ввода. Одной из важных характеристик визуального распознавания объектов является «инвариантность объекта» или способность идентифицировать объекты при изменениях в подробном контексте, в котором рассматриваются объекты, включая изменения в освещении, позе объекта и фоновом контексте. [1]
Нейропсихологические данные подтверждают, что в процессе распознавания объектов выделяют четыре конкретных этапа. [2] [3] [4] Эти этапы следующие:
В рамках этих этапов существуют более конкретные процессы, которые происходят для завершения различных компонентов обработки. Кроме того, другие существующие модели предложили интегративные иерархии (сверху вниз и снизу вверх), а также параллельную обработку, в отличие от этой общей иерархии снизу вверх.
Обработка визуального распознавания обычно рассматривается как иерархия снизу вверх, в которой информация обрабатывается последовательно с возрастающей сложностью. Во время этого процесса корковые процессоры более низкого уровня, такие как первичная зрительная кора , находятся в нижней части иерархии. Корковые процессоры более высокого уровня, такие как нижневисочная кора (IT), находятся наверху, где облегчается визуальное распознавание. [5] Широко признанной иерархической теорией снизу вверх является описание «Распутывания» Джеймса ДиКарло [6], согласно которому каждый этап иерархически организованного вентрального зрительного пути выполняет операции для постепенного преобразования представлений объектов в легко извлекаемый формат. Напротив, все более популярной теорией обработки распознавания является теория обработки сверху вниз. Одна из моделей, предложенная Моше Баром (2003), описывает метод «сокращения», в котором ранние визуальные входы отправляются, частично анализируются, из ранней зрительной коры в префронтальную кору (PFC). Возможные интерпретации грубого визуального ввода генерируются в ПФК, а затем отправляются в нижневисочную кору (ИТ), впоследствии активируя соответствующие представления объектов, которые затем включаются в более медленный, восходящий процесс. Этот «сокращенный путь» призван минимизировать количество представлений объектов, необходимых для сопоставления, тем самым облегчая распознавание объектов. [5] Исследования поражений подтвердили это предложение, обнаружив более медленное время реакции у людей с поражениями ПФК, что предполагает использование только восходящей обработки. [7]
Важным аспектом распознавания объектов является постоянство объекта: способность распознавать объект в различных условиях просмотра. Эти изменяющиеся условия включают ориентацию объекта, освещение и изменчивость объекта (размер, цвет и другие различия внутри категории). Чтобы зрительная система достигла постоянства объекта, она должна быть способна извлекать общность в описании объекта с разных точек зрения и описаний сетчатки.[9] Участники, которые выполняли задания по категоризации и распознаванию во время прохождения функционального магнитного поля, обнаружили увеличение притока крови, указывающее на активацию в определенных областях мозга. Задача категоризации состояла в том, что участники помещали объекты из канонических или необычных видов как внутренние или внешние объекты. Задача распознавания выполняется путем представления участникам изображений, которые они видели ранее. Половина этих изображений была в той же ориентации, что и ранее показанные, в то время как другая половина была представлена в противоположной точке зрения. Области мозга, вовлеченные в ментальное вращение, такие как вентральные и дорсальные зрительные пути и префронтальная кора, показали наибольшее увеличение кровотока во время выполнения этих задач, что свидетельствует о том, что они имеют решающее значение для способности рассматривать объекты с разных углов. [8] Было создано несколько теорий, чтобы дать представление о том, как можно достичь постоянства объекта для целей распознавания объектов, включая теории, инвариантные к точке зрения, зависящие от точки зрения и теории множественных видов.
Теории инвариантности точки зрения предполагают, что распознавание объектов основано на структурной информации, такой как отдельные части, что позволяет распознаванию происходить независимо от точки зрения объекта. Соответственно, распознавание возможно с любой точки зрения, поскольку отдельные части объекта могут быть повернуты, чтобы соответствовать любому конкретному виду.[10] [ необходима цитата ] Эта форма аналитического распознавания требует мало памяти, поскольку необходимо кодировать только структурные части, что может создавать несколько представлений объектов через взаимосвязи этих частей и мысленное вращение.[10] [ необходима цитата ] Участникам исследования было представлено одно кодированное представление от каждого из 24 предварительно выбранных объектов, а также пять изображений-заполнителей. Затем объекты были представлены в центральном поле зрения либо в той же ориентации, либо в другой ориентации, чем исходное изображение. Затем участников попросили назвать, были ли представлены одинаковые или разные виды глубинной ориентации этих объектов. [9] Затем та же процедура была выполнена при представлении изображений в левом или правом поле зрения. Зависимое от точки зрения праймирование наблюдалось, когда тестовые виды предъявлялись непосредственно правому полушарию, но не когда тестовые виды предъявлялись непосредственно левому полушарию. Результаты подтверждают модель, согласно которой объекты хранятся в зависимости от точки зрения, поскольку результаты не зависели от того, можно ли восстановить тот же или другой набор частей из видов с разной ориентацией. [9]
Эта модель, предложенная Марром и Нисихарой (1978), утверждает, что распознавание объекта достигается путем сопоставления представлений трехмерной модели, полученных от визуального объекта, с представлениями трехмерной модели, хранящимися в памяти в качестве вертикальных предписаний формы. [ необходимо разъяснение ] [10] Благодаря использованию компьютерных программ и алгоритмов, И Юнфэн (2009) смог продемонстрировать способность человеческого мозга мысленно конструировать трехмерные изображения, используя только двухмерные изображения, которые появляются на сетчатке. Их модель также демонстрирует высокую степень постоянства формы, сохраняющуюся между двухмерными изображениями, что позволяет распознавать трехмерное изображение. [10] Представления трехмерной модели, полученные от объекта, формируются путем первоначального определения вогнутостей объекта, которые разделяют стимул на отдельные части. Недавние исследования показывают, что область мозга, известная как каудальная интрапариетальная область (CIP), отвечает за хранение наклона и уклона плоской поверхности, что позволяет распознавать вогнутость. [11] Розенбург и др. имплантировали обезьянам склеральную поисковую катушку для контроля положения глаз, одновременно регистрируя активацию отдельных нейронов из нейронов в CIP. Во время эксперимента обезьяны сидели на расстоянии 30 см от ЖК-экрана, на котором отображались визуальные стимулы. Сигналы бинокулярного несоответствия отображались на экране путем визуализации стимулов в виде зелено-красных анаглифов, а кривые наклона-наклона варьировались от 0 до 330. Один эксперимент состоял из точки фиксации, а затем предъявления стимула в течение 1 секунды. Затем активация нейронов регистрировалась с помощью хирургически вставленных микроэлектродов. Эта активация отдельных нейронов для определенных вогнутостей объектов привела к открытию того, что каждая ось отдельной части объекта, содержащей вогнутость, находится в хранилищах памяти. [11] Определение главной оси объекта помогает в процессе нормализации посредством мысленного вращения, которое требуется, поскольку в памяти хранится только каноническое описание объекта. Распознавание приобретается, когда точка зрения наблюдаемого объекта мысленно вращается, чтобы соответствовать сохраненному каноническому описанию. [ необходима цитата ]
Расширение модели Марра и Нишихары, теория распознавания по компонентам , предложенная Бидерманом (1987), предполагает, что визуальная информация, полученная от объекта, делится на простые геометрические компоненты, такие как блоки и цилиндры, также известные как « геоны » (геометрические ионы), а затем сопоставляется с наиболее похожим представлением объекта, которое хранится в памяти, чтобы обеспечить идентификацию объекта (см. рисунок 1). [12]
Теории, зависящие от точки зрения, предполагают, что распознавание объекта зависит от точки зрения, с которой он виден, подразумевая, что объекты, увиденные в новых точках зрения, снижают точность и скорость идентификации объекта. [13] Эта теория распознавания основана на более целостной системе, а не на частях, предполагая, что объекты хранятся в памяти с несколькими точками зрения и углами. Эта форма распознавания требует большого объема памяти, поскольку каждая точка зрения должна быть сохранена. Точность распознавания также зависит от того, насколько знакома наблюдаемая точка зрения объекта. [14]
Эта теория предполагает, что распознавание объектов лежит в континууме точек зрения, где каждая точка зрения задействована для различных типов распознавания. На одном полюсе этого континуума механизмы, зависящие от точки зрения, используются для внутрикатегорийных различий, в то время как на другом полюсе механизмы, не зависящие от точки зрения, используются для категоризации объектов. [13]
Визуальную обработку объектов в мозге можно разделить на два пути обработки: дорсальный поток (как/где), который простирается от зрительной коры до теменных долей , и вентральный поток (что), который простирается от зрительной коры до нижневисочной коры (IT). Существование этих двух отдельных путей визуальной обработки было впервые предложено Унгерлейдером и Мишкиным (1982), которые на основе своих исследований повреждений предположили, что дорсальный поток участвует в обработке визуальной пространственной информации, такой как локализация объекта (где), а вентральный поток участвует в обработке визуальной информации об идентификации объекта (что). [15] После этого первоначального предложения было альтернативно предложено, что дорсальный путь должен быть известен как путь «Как», поскольку визуальная пространственная информация, обрабатываемая здесь, предоставляет нам информацию о том, как взаимодействовать с объектами, [16] Для целей распознавания объектов нейронный фокус находится на вентральном потоке .
В вентральном потоке различные регионы предполагаемой функциональной специализации были обнаружены в исследованиях функциональной визуализации. Наиболее последовательно обнаруживаемые регионы мозга, демонстрирующие функциональную специализацию, — это веретенообразная область лица (FFA), которая показывает повышенную активацию для лиц по сравнению с объектами, парагиппокампальная область (PPA) для сцен по сравнению с объектами, экстрастриарная область тела (EBA) для частей тела по сравнению с объектами, MT+/V5 для движущихся стимулов по сравнению со статическими стимулами и латеральный затылочный комплекс (LOC) для различимых форм по сравнению с перемешанными стимулами. [17] (См. также: Нейронная обработка для отдельных категорий объектов )
Было обнаружено, что латеральный затылочный комплекс (LOC) особенно важен для распознавания объектов на перцептивном структурном уровне. В исследовании, связанном с событиями [fMRI-en], в котором рассматривалась адаптация нейронов, активированных при визуальной обработке объектов, было обнаружено, что сходство формы объекта необходимо для последующей адаптации в LOC, но определенные характеристики объекта, такие как края и контуры, не являются таковыми. Это говорит о том, что активация в LOC представляет собой информацию о форме объекта более высокого уровня, а не простые характеристики объекта. [18] В связанном исследовании [fMRI-en] активация LOC, которая произошла независимо от визуальных сигналов представленного объекта, таких как движение, текстура или контрасты яркости, говорит о том, что различные визуальные сигналы низкого уровня, используемые для определения объекта, сходятся в «областях, связанных с объектом», чтобы помочь в процессе восприятия и распознавания. [19] Ни одна из упомянутых высокоуровневых данных о форме объекта, по-видимому, не предоставляет никакой [семантической] информации об объекте, поскольку LOC демонстрирует нейронную реакцию на различные формы, включая незнакомые, абстрактные объекты. [20]
Дальнейшие эксперименты предположили, что LOC состоит из иерархической системы избирательности формы, указывающей на большую селективную активацию в задних областях для фрагментов объектов, тогда как [передние-en] области показывают большую активацию для полных или частичных объектов. [21] Это согласуется с предыдущими исследованиями, которые предполагают иерархическое представление в вентральной височной коре, где первичная обработка признаков происходит в задних областях, а интеграция этих признаков в целый и значимый объект происходит в [передних-en] областях. [22]
Семантические ассоциации позволяют быстрее распознавать объекты. Когда объект ранее был связан с каким-либо семантическим значением, люди более склонны правильно идентифицировать объект. Исследования показали, что семантические ассоциации позволяют гораздо быстрее распознавать объект, даже когда объект рассматривается под разными углами. Когда объекты рассматриваются под все более отклоняющимися углами от традиционной плоскости зрения, объекты, которые содержали усвоенные семантические ассоциации, имели более низкое время отклика по сравнению с объектами, которые не содержали никаких усвоенных семантических ассоциаций. [23] Таким образом, когда распознавание объектов становится все более трудным, семантические ассоциации позволяют распознавать намного легче. Аналогичным образом, субъект может быть подготовлен к распознаванию объекта, наблюдая за действием, которое просто связано с целевым объектом. Это показывает, что объекты имеют набор сенсорных, моторных и семантических ассоциаций, которые позволяют человеку правильно распознавать объект. [24] Это подтверждает утверждение о том, что мозг использует несколько частей при попытке точно идентифицировать объект.
Благодаря информации, предоставленной от [нейропсихологических-en] пациентов, была выявлена диссоциация обработки распознавания между структурной и [семантической-en] обработкой, поскольку структурная, цветовая и ассоциативная информация могут быть выборочно нарушены. В одном исследовании ПЭТ были обнаружены области, которые участвуют в ассоциативной семантической обработке, включая левую переднюю верхнюю/ среднюю височную извилину и левый височный полюс по сравнению со структурной и цветовой информацией, а также правый височный полюс по сравнению только с задачами на принятие решения о цвете. [25] Эти результаты указывают на то, что сохраненные перцептивные знания и семантические знания включают отдельные корковые области в распознавании объектов, а также указывают на то, что существуют полушарные различия в височных областях.
Исследования также предоставили доказательства, указывающие на то, что визуальная семантическая информация сходится в веретенообразной извилине нижневисочных долей. В исследовании, в котором сравнивались семантические знания категории и атрибутов, было обнаружено, что они играют разные роли в том, как они способствуют распознаванию. Для категориальных сравнений боковые области веретенообразной извилины активировались живыми объектами, в сравнении с неживыми объектами, которые активировали медиальные области. Для сравнений атрибутов было обнаружено, что правая веретенообразной извилина активировалась глобальной формой, в сравнении с локальными деталями, которые активировали левую веретенообразной извилину. Эти результаты предполагают, что тип категории объекта определяет, какой регион веретенообразной извилины активируется для обработки семантического распознавания, тогда как атрибуты объекта определяют активацию либо в левой, либо в правой веретенообразной извилине в зависимости от того, обрабатывается ли глобальная форма или локальная деталь. [26]
Кроме того, было высказано предположение, что активация в [передних-en] областях веретенообразных извилин указывает на успешное распознавание. [27] Однако было обнаружено, что уровни активации зависят от семантической релевантности объекта. Термин семантическая релевантность здесь относится к «мере вклада семантических признаков в основное значение концепции». [28] Результаты показали, что объекты с высокой семантической релевантностью, такие как артефакты , создавали увеличение активации по сравнению с объектами с низкой семантической релевантностью, такими как природные объекты. [28] Это связано с предполагаемой повышенной сложностью различения природных объектов, поскольку они имеют очень похожие структурные свойства, что затрудняет их идентификацию по сравнению с артефактами. [27] Следовательно, чем легче идентифицировать объект, тем больше вероятность того, что он будет успешно распознан.
Другим условием, влияющим на успешное распознавание объектов, является контекстное облегчение . Считается, что во время задач по распознаванию объектов объект сопровождается «контекстной рамкой», которая предлагает семантическую информацию о типичном контексте объекта. [29] Было обнаружено, что когда объект находится вне контекста, распознавание объектов затрудняется более медленным временем реакции и большими неточностями по сравнению с задачами по распознаванию, когда объект находился в соответствующем контексте. [29] На основании результатов исследования с использованием [фМРТ-en] было высказано предположение, что в мозге существует «контекстная сеть» для контекстно-ассоциированных объектов с активностью, в основном обнаруженной в парагиппокампальной коре (ПГК) и ретроспленальном комплексе (РСК). [30] В ПГК активность в области парагиппокампального места (ППА) была обнаружена как предпочтительная для сцен, а не для объектов; Однако было высказано предположение, что активность в PHC для одиночных объектов в задачах контекстной фасилитации может быть обусловлена последующим обдумыванием пространственной сцены, в которой объект контекстуально представлен. Дальнейшие эксперименты показали, что активация была обнаружена как для непространственных, так и для пространственных контекстов в PHC, хотя активация из непространственных контекстов была ограничена [передней-en] PHC и задней PHC для пространственных контекстов. [30]
Когда кто-то видит объект, он знает, что это за объект, потому что он видел его в прошлом; это память распознавания . Не только аномалии вентрального (что) потока зрительного пути влияют на нашу способность распознавать объект, но и на то, как объект нам представляется. Одной из примечательных характеристик памяти визуального распознавания является ее замечательная емкость: даже после просмотра тысяч изображений в отдельных попытках люди с высокой точностью выполняют последующие тесты на память и помнят значительные детали об изображениях, которые они видели [31]
Контекст позволяет добиться гораздо большей точности распознавания объектов. Когда идентифицируемый объект размыт, точность распознавания намного выше, когда объект помещен в знакомый контекст. В дополнение к этому, даже незнакомый контекст позволяет добиться более точного распознавания объектов по сравнению с объектом, показанным изолированно. [32] Это можно объяснить тем фактом, что объекты обычно видны в какой-то обстановке, а не без нее вообще. Когда обстановка, в которой находится объект, знакома зрителю, становится намного проще определить, что это за объект. Хотя контекст не требуется для правильного распознавания, он является частью ассоциации, которую человек создает с определенным объектом.
Контекст становится особенно важным при распознавании лиц или эмоций. Когда эмоции лица представлены без какого-либо контекста, способность, с которой кто-то может точно описать показываемую эмоцию, значительно ниже, чем когда контекст указан. Это явление остается верным для всех возрастных групп и культур, что означает, что контекст имеет важное значение для точного определения эмоций лица для всех людей. [33]
Знакомство — это механизм, который не зависит от контекста в том смысле, что то, что человек узнает, просто ощущается знакомым, не тратя время на то, чтобы выяснить, в каком контексте он знает объект. [34] Вентро-латеральная область лобной доли участвует в кодировании памяти во время случайного обучения, а затем в поддержании и извлечении семантических воспоминаний. [34] Знакомство может вызывать перцептивные процессы, отличные от процессов незнакомых объектов, что означает, что наше восприятие конечного числа знакомых объектов уникально. [35] Отклонения от типичных точек зрения и контекстов могут влиять на эффективность, с которой объект распознается наиболее эффективно. [35] Было обнаружено, что не только знакомые объекты распознаются более эффективно, если смотреть с знакомой точки зрения, а не с незнакомой, но этот принцип также применим к новым объектам. Это приводит к мысли, что представления объектов в нашем мозге организованы в более знакомой манере объектов, наблюдаемых в окружающей среде. [35] Распознавание в значительной степени обусловлено не только формой объекта и/или видом, но и динамической информацией. [36] Знакомство может способствовать восприятию динамических точечных световых дисплеев, движущихся объектов, пола лиц и распознаванию лиц. [35]
Воспоминание имеет много общего со знакомством; однако оно зависит от контекста и требует конкретной информации из исследуемого инцидента. [34]
Потеря распознавания объектов называется зрительной агнозией объектов . Существует две основные категории зрительной агнозии объектов : апперцептивная и ассоциативная. Когда объектная агнозия возникает из-за поражения в доминирующем полушарии, часто наблюдается глубокое связанное с этим нарушение языка, включая потерю значения слов.
Распознавание объектов — сложная задача, которая затрагивает несколько различных областей мозга, а не только одну. Если повреждена одна область, то распознавание объектов может быть нарушено. Основная область распознавания объектов находится в височной доле . Например, было обнаружено, что поражения околоносовой коры у крыс вызывают нарушения распознавания объектов, особенно при увеличении неоднозначности признаков. [37] Неонатальные аспирационные поражения миндалевидного комплекса у обезьян, по-видимому, приводят к большей потере памяти об объектах, чем ранние поражения гиппокампа. Однако у взрослых обезьян нарушение памяти об объектах лучше объясняется повреждением околоносовой и энторинальной коры , чем повреждением миндалевидных ядер. [38] Комбинированные поражения миндалевидной и гиппокампальной областей (A + H) у крыс ухудшают выполнение задачи по распознаванию объектов, когда интервалы удержания увеличиваются за пределы 0 с и когда тестовые стимулы повторяются в течение сеанса. Повреждение [амигдалы-en] или [гиппокампа-en] не влияет на распознавание объектов, тогда как повреждение A + H вызывает явные дефициты. [39] В задаче на распознавание объектов уровень различения был значительно ниже при электролитических поражениях бледного шара (часть базальных ганглиев ) у крыс по сравнению с Substantia-Innominata/Ventral Pallidum, который, в свою очередь, был хуже по сравнению с контрольной группой и медиальной перегородкой/вертикальной диагональной полосой Брока; однако, только бледный шар не различал новые и знакомые объекты. [40] Эти поражения повреждают вентральный (что) путь визуальной обработки объектов в мозге.
Агнозия встречается редко и может быть результатом инсульта, слабоумия, черепно-мозговой травмы, инфекции мозга или наследственной. [41] Апперцептивная агнозия — это дефицит восприятия объектов, создающий неспособность понимать значение объектов. [34] Аналогично, ассоциативная зрительная агнозия — это неспособность понимать значение объектов; однако на этот раз дефицит заключается в семантической памяти. [34] Обе эти агнозии могут влиять на путь распознавания объектов, как в теории зрения Марра. Более конкретно, в отличие от апперцептивной агнозии, пациенты с ассоциативной агнозией более успешны в задачах рисования, копирования и сопоставления; однако эти пациенты демонстрируют, что они могут воспринимать, но не распознавать. [41] Интегративная агнозия (подтип ассоциативной агнозии) — это неспособность интегрировать отдельные части для формирования цельного изображения. [34] При этих типах агнозии происходит повреждение вентрального (что) потока пути обработки зрительной информации. Объектно-ориентационная агнозия — это неспособность извлечь ориентацию объекта, несмотря на адекватное распознавание объекта. [34] При этом типе агнозии происходит повреждение дорсального (где) потока пути обработки зрительной информации. Это может повлиять на распознавание объектов с точки зрения знакомства и, тем более, незнакомых объектов и точек зрения. Трудность распознавания лиц можно объяснить прозопагнозией . Человек с прозопагнозией не может идентифицировать лицо, но все еще способен воспринимать возраст, пол и эмоциональное выражение. [41] Область мозга, которая отвечает за распознавание лиц, — это веретенообразная область лица . Прозопагнозия также может быть разделена на апперцептивный и ассоциативный подтипы. Распознавание отдельных стульев, автомобилей, животных также может быть нарушено; поэтому эти объекты имеют схожие перцептивные черты с лицом, которые распознаются в веретенообразной области лица. [41]
Различие между категорией и атрибутом в семантическом представлении может информировать о нашей способности оценивать семантическую функцию при старении и болезненных состояниях, влияющих на семантическую память, таких как болезнь Альцгеймера (БА). [42] Из-за дефицита семантической памяти люди с болезнью Альцгеймера испытывают трудности с распознаванием объектов, поскольку семантическая память , как известно, используется для извлечения информации для наименования и категоризации объектов. [43] Фактически, широко обсуждается, отражает ли дефицит семантической памяти при БА потерю семантических знаний для определенных категорий и концепций или потерю знаний перцептивных особенностей и атрибутов. [42]
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )