В нейронауке предиктивное кодирование (также известное как предиктивная обработка ) — это теория функционирования мозга , которая постулирует , что мозг постоянно генерирует и обновляет « ментальную модель » окружающей среды. Согласно теории, такая ментальная модель используется для прогнозирования входных сигналов от органов чувств , которые затем сравниваются с фактическими входными сигналами от этих органов чувств. Предиктивное кодирование является частью более широкого набора теорий, которые следуют байесовской гипотезе мозга .
Теоретические предшественники предиктивного кодирования появились еще в 1860 году с концепцией Гельмгольца о бессознательном выводе . [1] Бессознательное умозаключение относится к идее о том, что человеческий мозг заполняет визуальную информацию, чтобы осмыслить сцену. Например, если что-то относительно меньше другого объекта в поле зрения, мозг использует эту информацию как вероятный сигнал глубины, так что воспринимающий в конечном итоге (и непроизвольно) ощущает глубину. Понимание восприятия как взаимодействия между сенсорными стимулами (снизу вверх) и концептуальным знанием (сверху вниз) продолжил устанавливать Джером Брунер , который, начиная с 1940-х годов, изучал способы, которыми потребности, мотивы и ожидания влияют на восприятие, исследование, которое стало известно как психология «нового взгляда». В 1981 году Макклелланд и Румельхарт исследовали взаимодействие между функциями обработки (линиями и контурами), которые образуют буквы, которые, в свою очередь, образуют слова. [2] Хотя эти признаки предполагают наличие слова, они обнаружили, что когда буквы располагались в контексте слова, люди могли идентифицировать их быстрее, чем когда они располагались в неслове без семантического контекста. Модель параллельной обработки Макклелланда и Румельхарта описывает восприятие как встречу нисходящих (концептуальных) и восходящих (сенсорных) элементов.
В конце 1990-х годов идея обработки сверху вниз и снизу вверх была переведена в вычислительную модель зрения Рао и Баллардом . [3] Их статья продемонстрировала, что может быть генеративная модель сцены (обработка сверху вниз), которая будет получать обратную связь через сигналы ошибок (насколько визуальный вход отличается от прогноза), что впоследствии приведет к обновлению прогноза. Вычислительная модель смогла воспроизвести хорошо известные эффекты рецептивного поля, а также менее понятые неклассические эффекты рецептивного поля, такие как остановка конца .
В 2004 году [4] Рик Граш предложил модель нейронной перцептивной обработки, согласно которой мозг постоянно генерирует прогнозы на основе генеративной модели (то, что Граш назвал «эмулятором») и сравнивает этот прогноз с фактическим сенсорным входом. Разница, или «сенсорный остаток», затем будет использоваться для обновления модели, чтобы произвести более точную оценку воспринимаемой области. По мнению Граша, сигналы сверху вниз и снизу вверх будут объединены способом, чувствительным к ожидаемому шуму (т. е. неопределенности) в сигнале снизу вверх, так что в ситуациях, в которых сенсорный сигнал был известен как менее надежный, прогноз сверху вниз будет иметь больший вес, и наоборот. Было также показано, что структура эмуляции является иерархической, с модально-специфичными эмуляторами, обеспечивающими ожидания сверху вниз для сенсорных сигналов, а также эмуляторами более высокого уровня, обеспечивающими ожидания дистальных причин этих сигналов. Граш применил теорию к зрительному восприятию, зрительным и двигательным образам, языку и феноменам теории сознания.
Предиктивное кодирование изначально было разработано как модель сенсорной системы , где мозг решает проблему моделирования дистальных причин сенсорного ввода с помощью версии байесовского вывода . Он предполагает, что мозг поддерживает активные внутренние представления дистальных причин, которые позволяют ему предсказывать сенсорные вводы. [5] Сравнение между предсказаниями и сенсорным вводом дает меру разницы (например, ошибку предсказания, свободную энергию или удивление), которая, если она достаточно велика за пределами уровней ожидаемого статистического шума, заставит внутреннюю модель обновиться так, чтобы она лучше предсказывала сенсорный ввод в будущем.
Если же модель точно предсказывает движущие сенсорные сигналы, активность на более высоких уровнях отменяет активность на более низких уровнях, и внутренняя модель остается неизменной. Таким образом, предиктивное кодирование переворачивает общепринятый взгляд на восприятие как на преимущественно восходящий процесс, предполагая, что он в значительной степени ограничен предшествующими предсказаниями, где сигналы из внешнего мира формируют восприятие только в той степени, в которой они распространяются вверх по кортикальной иерархии в форме ошибки предсказания.
Ошибки прогнозирования могут использоваться не только для вывода дистальных причин, но и для их изучения с помощью нейронной пластичности . [3] Здесь идея заключается в том, что представления, усвоенные корковыми нейронами, отражают статистические закономерности в сенсорных данных. Эта идея также присутствует во многих других теориях нейронного обучения, таких как разреженное кодирование , с центральным отличием в том, что в предиктивном кодировании изучаются не только связи с сенсорными входами (т. е. рецептивное поле ), но и нисходящие предиктивные связи из представлений более высокого уровня. Это делает предиктивное кодирование похожим на некоторые другие модели иерархического обучения, такие как машины Гельмгольца и сети глубоких убеждений , которые, однако, используют разные алгоритмы обучения. Таким образом, двойное использование ошибок прогнозирования как для вывода, так и для обучения является одной из определяющих особенностей предиктивного кодирования. [6]
Точность входящих сенсорных данных — это их предсказуемость, основанная на шуме сигнала и других факторах. Оценки точности имеют решающее значение для эффективной минимизации ошибки прогнозирования, поскольку они позволяют взвешивать сенсорные данные и прогнозы в соответствии с их надежностью. [7] Например, шум в визуальном сигнале меняется от рассвета до заката, так что большая условная достоверность присваивается ошибкам сенсорного прогнозирования при ярком дневном свете, чем при наступлении темноты. [8] Аналогичные подходы успешно используются в других алгоритмах, выполняющих байесовский вывод , например, для байесовской фильтрации в фильтре Калмана .
Также было высказано предположение, что такое взвешивание ошибок предсказания пропорционально их оценочной точности, по сути, является вниманием [ 9] и что процесс уделения внимания может быть нейробиологически выполнен восходящими ретикулярными активирующими системами (ARAS), оптимизирующими «прирост» единиц ошибки предсказания. Однако также утверждалось, что точное взвешивание может объяснить только «эндогенное пространственное внимание», но не другие формы внимания. [10]
Тот же принцип минимизации ошибки прогнозирования использовался для описания поведения, в котором двигательные действия являются не командами, а нисходящими проприоцептивными предсказаниями. В этой схеме активного вывода классические рефлекторные дуги координируются таким образом, чтобы выборочно отбирать сенсорный входной сигнал способами, которые лучше выполняют предсказания, тем самым минимизируя ошибки проприоцептивного предсказания. [9] Действительно, Адамс и др. (2013) рассматривают доказательства, предполагающие, что этот взгляд на иерархическое предиктивное кодирование в двигательной системе обеспечивает принципиальную и нейронно правдоподобную основу для объяснения агранулярной организации двигательной коры. [11] Эта точка зрения предполагает, что «перцептивную и двигательную системы не следует рассматривать как отдельные, а вместо этого как единую активную машину вывода, которая пытается предсказать свой сенсорный входной сигнал во всех областях: зрительной, слуховой, соматосенсорной, интероцептивной и, в случае двигательной системы, проприоцептивной». [11]
Большая часть ранних работ, которые применяли структуру предиктивного кодирования к нейронным механизмам, исходила из сенсорной обработки, особенно в зрительной коре . [3] [12] Эти теории предполагают, что кортикальную архитектуру можно разделить на иерархически уложенные уровни, которые соответствуют различным кортикальным областям. Считается, что каждый уровень содержит (по крайней мере) два типа нейронов: «предиктивные нейроны», которые нацелены на предсказание восходящих входов на текущий уровень, и «нейроны ошибок», которые сигнализируют о разнице между входом и предсказанием. Считается, что эти нейроны в основном являются неповерхностными и поверхностными пирамидальными нейронами , в то время как интернейроны выполняют различные функции. [12]
В кортикальных областях есть доказательства того, что различные кортикальные слои могут способствовать интеграции проекций прямой и обратной связи между иерархиями. [12] Поэтому предполагается, что эти кортикальные слои играют центральную роль в вычислении прогнозов и ошибок прогнозирования, при этом базовой единицей является кортикальная колонка . [12] [13] Распространенное мнение заключается в том, что [12] [14]
Однако до сих пор нет единого мнения о том, как мозг, скорее всего, реализует предиктивное кодирование. Некоторые теории, например, предполагают, что надгранулярные слои содержат не только нейроны ошибок, но и нейроны предсказания. [12] Также все еще ведутся споры о том, посредством каких механизмов нейроны ошибок могут вычислять ошибку предсказания. [15] Поскольку ошибки предсказания могут быть как отрицательными, так и положительными, а биологические нейроны могут проявлять только положительную активность, требуются более сложные схемы кодирования ошибок. Чтобы обойти эту проблему, более поздние теории предположили, что вычисление ошибок может происходить в нейронных дендритах . [16] [17] Нейронная архитектура и вычисления, предложенные в этих дендритных теориях, аналогичны тем, что были предложены в Иерархической временной теории памяти коры.
Эмпирические доказательства предиктивного кодирования наиболее надежны для перцептивной обработки. Еще в 1999 году Рао и Баллард предложили иерархическую модель визуальной обработки , в которой зрительная корковая область более высокого порядка посылает вниз предсказания, а прямые связи переносят остаточные ошибки между предсказаниями и фактическими действиями более низкого уровня. [3] Согласно этой модели, каждый уровень в иерархической модельной сети (за исключением самого нижнего уровня, который представляет изображение) пытается предсказать ответы на следующем более низком уровне с помощью обратных связей, а сигнал ошибки используется для коррекции оценки входного сигнала на каждом уровне одновременно. [3] Эмберсон и др. установили нисходящую модуляцию у младенцев, используя кросс-модальную парадигму аудиовизуального упущения, определив, что даже мозг младенца имеет ожидание относительно будущего сенсорного входа, который передается вниз по течению от зрительной коры и способен к обратной связи на основе ожидания. [18] Данные функциональной ближней инфракрасной спектроскопии (fNIRS) показали, что затылочная кора головного мозга младенца отреагировала на неожиданное зрительное упущение (без поступления визуальной информации), но не на ожидаемое зрительное упущение. Эти результаты показывают, что в иерархически организованной системе восприятия нейроны более высокого порядка посылают предсказания нейронам более низкого порядка, которые, в свою очередь, посылают обратно сигнал ошибки предсказания.
Существует несколько конкурирующих моделей роли предиктивного кодирования в интероцепции .
В 2013 году Анил Сет предположил, что наши субъективные состояния чувств, также известные как эмоции, генерируются прогностическими моделями, которые активно строятся из причинных интероцептивных оценок. [19] В отношении того, как мы приписываем внутренние состояния других людей причинам, Саша Ондобака, Джеймс Килнер и Карл Фристон (2015) предположили, что принцип свободной энергии требует, чтобы мозг производил непрерывную серию предсказаний с целью уменьшения количества ошибок предсказания, которые проявляются как «свободная энергия». [20] Эти ошибки затем используются для моделирования упреждающей информации о том, каким будет состояние внешнего мира, и атрибуции причин этого состояния мира, включая понимание причин поведения других людей. Это особенно необходимо, потому что для создания этих атрибуций нашим мультимодальным сенсорным системам нужны интероцептивные предсказания для организации себя. Поэтому Ондобака утверждает, что прогностическое кодирование является ключом к пониманию внутренних состояний других людей.
В 2015 году Лиза Фельдман Барретт и У. Кайл Симмонс предложили модель кодирования воплощенной предиктивной интероцепции, которая объединяет байесовские принципы активного вывода с физиологической структурой кортикокортикальных связей. [21] Используя эту модель, они предположили, что агранулярные висцеромоторные участки коры отвечают за генерацию прогнозов относительно интероцепции, тем самым определяя опыт интероцепции.
Вопреки индуктивному представлению о том, что категории эмоций биологически различны, Барретт позже предложил теорию сконструированной эмоции, которая является объяснением того, что биологическая категория эмоций конструируется на основе концептуальной категории — накопления случаев, разделяющих цель. [22] [23] В модели предиктивного кодирования Барретт выдвигает гипотезу, что в интероцепции наш мозг регулирует наши тела, активируя «воплощенные симуляции» (полнотелые представления сенсорного опыта), чтобы предвидеть, что, по прогнозам нашего мозга, внешний мир бросит нам сенсорно и как мы ответим на это действием. Эти симуляции либо сохраняются, если, основываясь на предсказаниях нашего мозга, они хорошо готовят нас к тому, что на самом деле впоследствии происходит во внешнем мире, либо они и наши предсказания корректируются, чтобы компенсировать их ошибку по сравнению с тем, что на самом деле происходит во внешнем мире, и насколько хорошо мы были к этому подготовлены. Затем, в процессе проб-ошибок-корректировки, наши тела находят сходства в целях среди определенных успешных предвосхищающих симуляций и группируют их вместе по концептуальным категориям. Каждый раз, когда возникает новый опыт, наш мозг использует эту прошлую историю проб-ошибок-корректировки, чтобы сопоставить новый опыт с одной из категорий накопленных исправленных симуляций, с которой он имеет наибольшее сходство. Затем они применяют исправленную симуляцию этой категории к новому опыту в надежде подготовить наши тела к остальной части опыта. Если этого не происходит, прогноз, симуляция и, возможно, границы концептуальной категории пересматриваются в надежде на более высокую точность в следующий раз, и процесс продолжается. Барретт выдвигает гипотезу, что, когда ошибка прогноза для определенной категории симуляций для x-подобных опытов минимизируется, результатом является симуляция с коррекционной информацией, которую тело будет воспроизводить для каждого x-подобного опыта, что приводит к полномасштабному репрезентативному представлению сенсорного опыта с коррекционной информацией — эмоции. В этом смысле Барретт предполагает, что мы конструируем наши эмоции, поскольку концептуальная структура категорий, которую наш мозг использует для сравнения нового опыта и выбора подходящей прогностической сенсорной симуляции для активации, формируется на ходу.
С ростом популярности обучения представлениям , эта теория также активно разрабатывалась и применялась в машинном обучении и смежных областях. [24] [25] [26]
Одной из самых больших проблем при тестировании предиктивного кодирования была неточность того, как именно работает минимизация ошибок прогнозирования. [27] В некоторых исследованиях увеличение сигнала BOLD интерпретировалось как сигнал ошибки, в то время как в других оно указывает на изменения во входном представлении. [27] Важнейший вопрос, который необходимо решить, заключается в том, что именно представляет собой сигнал ошибки и как он вычисляется на каждом уровне обработки информации. [12] Еще одна поставленная проблема — это вычислительная управляемость предиктивного кодирования. По словам Квистаута и ван Рооя, подвычисление на каждом уровне структуры предиктивного кодирования потенциально скрывает вычислительно неразрешимую проблему, которая представляет собой «неразрешимые препятствия», которые еще предстоит преодолеть разработчикам вычислительных моделей. [28]
Будущие исследования могут быть сосредоточены на выяснении нейрофизиологического механизма и вычислительной модели предиктивного кодирования. [ по мнению кого? ]