Байесовские подходы к функционированию мозга исследуют способность нервной системы работать в ситуациях неопределенности способом, близким к оптимальному, предписанному байесовской статистикой . [1] [2] Этот термин используется в поведенческих науках и нейронауках , и исследования, связанные с этим термином, часто стремятся объяснить когнитивные способности мозга на основе статистических принципов. Часто предполагается, что нервная система поддерживает внутренние вероятностные модели , которые обновляются путем нейронной обработки сенсорной информации с использованием методов, приближающихся к методам байесовской вероятности . [3] [4]
Эта область исследований имеет свои исторические корни в многочисленных дисциплинах, включая машинное обучение , экспериментальную психологию и байесовскую статистику . Еще в 1860-х годах, с работами Германа Гельмгольца в экспериментальной психологии, способность мозга извлекать перцептивную информацию из сенсорных данных была смоделирована в терминах вероятностной оценки. [5] [6] Основная идея заключается в том, что нервной системе необходимо организовать сенсорные данные в точную внутреннюю модель внешнего мира.
Байесовская вероятность была разработана многими важными авторами. Пьер-Симон Лаплас , Томас Байес , Гарольд Джеффрис , Ричард Кокс и Эдвин Джейнс разработали математические методы и процедуры для рассмотрения вероятности как степени правдоподобия, которая может быть назначена данному предположению или гипотезе на основе имеющихся доказательств. [7] В 1988 году Эдвин Джейнс представил структуру для использования байесовской вероятности для моделирования ментальных процессов. [8] Таким образом, на раннем этапе было осознано, что байесовская статистическая структура имеет потенциал для понимания функций нервной системы.
Эта идея была принята в исследованиях по неконтролируемому обучению , в частности, в подходе анализа через синтез, ответвлениях машинного обучения . [9] [10] В 1983 году Джеффри Хинтон и его коллеги предположили, что мозг можно рассматривать как машину, принимающую решения на основе неопределенностей внешнего мира. [11] В 1990-х годах исследователи, включая Питера Даяна , Джеффри Хинтона и Ричарда Земеля, предположили, что мозг представляет знания о мире в терминах вероятностей, и сделали конкретные предложения для управляемых нейронных процессов, которые могли бы проявить такую машину Гельмгольца . [12] [13] [14]
Широкий спектр исследований интерпретирует результаты психофизических экспериментов в свете байесовских моделей восприятия. Многие аспекты человеческого перцептивного и двигательного поведения можно смоделировать с помощью байесовской статистики. Этот подход, с его акцентом на поведенческих результатах как на конечном выражении обработки нейронной информации, также известен моделированием сенсорных и двигательных решений с использованием байесовской теории принятия решений. Примерами являются работы Лэнди , [15] [16] Якобса, [17] [18] Джордана, Книлла, [19] [20] Кординга и Вольперта, [21] [22] и Голдрайха. [23] [24] [25]
Многие теоретические исследования задаются вопросом, как нервная система могла бы реализовать байесовские алгоритмы. Примерами являются работы Пуже, Земеля, Денева, Латама, Хинтона и Дайана. Джордж и Хокинс опубликовали статью, в которой излагается модель обработки корковой информации, называемая иерархической временной памятью , которая основана на байесовской сети цепей Маркова . Они далее сопоставляют эту математическую модель с существующими знаниями об архитектуре коры и показывают, как нейроны могут распознавать шаблоны с помощью иерархического байесовского вывода. [26]
Ряд недавних электрофизиологических исследований фокусируется на представлении вероятностей в нервной системе. Примерами являются работы Шадлена и Шульца.
Предиктивное кодирование — это нейробиологически правдоподобная схема для вывода причин сенсорного ввода на основе минимизации ошибки прогнозирования. [27] Эти схемы формально связаны с фильтрацией Калмана и другими байесовскими схемами обновления.
В 1990-х годах некоторые исследователи, такие как Джеффри Хинтон и Карл Фристон, начали изучать концепцию свободной энергии как вычислимо поддающуюся измерению меру расхождения между фактическими характеристиками мира и представлениями этих характеристик, зафиксированными моделями нейронных сетей. [28] Недавно Карл Фристон предпринял попытку синтеза [29] , в которой байесовский мозг возникает из общего принципа минимизации свободной энергии . [30] В этой структуре и действие, и восприятие рассматриваются как следствие подавления свободной энергии, что приводит к перцептивному [31] и активному выводу [32] и более воплощенному (энактивному) представлению о байесовском мозге. Используя вариационные байесовские методы, можно показать, как внутренние модели мира обновляются сенсорной информацией, чтобы минимизировать свободную энергию или расхождение между сенсорным вводом и предсказаниями этого ввода. Это можно охарактеризовать (в нейробиологически правдоподобных терминах) как предиктивное кодирование или, в более общем плане, байесовскую фильтрацию.
По словам Фристона: [33]
«Рассматриваемая здесь свободная энергия представляет собой ограничение на неожиданность, присущую любому обмену с окружающей средой, в рамках ожиданий, закодированных ее состоянием или конфигурацией. Система может минимизировать свободную энергию, изменяя свою конфигурацию, чтобы изменить способ, которым она пробует окружающую среду, или изменить свои ожидания. Эти изменения соответствуют действию и восприятию, соответственно, и приводят к адаптивному обмену с окружающей средой, который характерен для биологических систем. Такая трактовка подразумевает, что состояние и структура системы кодируют неявную и вероятностную модель окружающей среды». [33]
Эта область исследований была обобщена в терминах, понятных неспециалисту, в статье 2008 года в журнале New Scientist , в которой была предложена унифицированная теория функционирования мозга. [34] Фристон делает следующие заявления об объяснительной силе теории:
«Эта модель функционирования мозга может объяснить широкий спектр анатомических и физиологических аспектов мозговых систем; например, иерархическое развертывание корковых областей, рекуррентные архитектуры, использующие прямые и обратные связи, и функциональную асимметрию в этих связях. С точки зрения синаптической физиологии она предсказывает ассоциативную пластичность и, для динамических моделей, пластичность, зависящую от времени спайка. С точки зрения электрофизиологии она учитывает классические и неклассические эффекты рецептивного поля и долгосрочные или эндогенные компоненты вызванных корковых ответов. Она предсказывает ослабление ответов, кодирующих ошибку предсказания с перцептивным обучением, и объясняет многие явления, такие как подавление повторения, негативность несоответствия и P300 в электроэнцефалографии. С точки зрения психофизики она учитывает поведенческие корреляты этих физиологических явлений, например, прайминг и глобальное прецедентство». [33]
«Довольно легко показать, что как перцептивный вывод, так и обучение основаны на минимизации свободной энергии или подавлении ошибки предсказания». [33]