Коннекционизм (придуманный Эдвардом Торндайком в 1930-х годах) — это название подхода к изучению человеческих психических процессов и познания, который использует математические модели, известные как коннекционистские сети или искусственные нейронные сети. [1] С момента своего возникновения у коннекционизма было много «волн».
Первая волна возникла в 1950-х годах, когда Уоррен Стерджис Маккалок и Уолтер Питтс сосредоточились на понимании нейронных цепей с помощью формального и математического подхода, а также Фрэнк Розенблатт , опубликовавший в 1958 году книгу «Персептрон: вероятностная модель хранения и организации информации в мозгу». в Psychoological Review , во время работы в Корнеллской авиационной лаборатории. [2] Первая волна закончилась в 1969 году книгой об ограничениях первоначальной идеи перцептрона, написанной Марвином Мински и Пейпертом , которая способствовала отпугиванию крупных финансовых агентств в США инвестировать в коннекционистские исследования. [3] С некоторыми примечательными отклонениями большинство коннекционистских исследований вступило в период бездействия до середины 1980-х годов. Термин «коннекционистская модель» был вновь введен в начале 1980-х годов в статье по когнитивной науке Джерома Фельдмана и Даны Баллард.
Вторая волна расцвела в конце 1980-х годов, после выхода в 1987 году книги Джеймса Л. Макклелланда , Дэвида Э. Румельхарта и др. о параллельной распределенной обработке, в которой было представлено несколько улучшений в простой идее перцептрона, таких как промежуточные процессоры (известные как «скрытые слои» теперь) рядом с блоками ввода и вывода и использовала функцию активации сигмовидной формы вместо старой функции «все или ничего». Их работа, в свою очередь, основывалась на работе Джона Хопфилда , который был ключевой фигурой в исследовании математических характеристик функций активации сигмовидной кишки. [2] С конца 1980-х до середины 1990-х годов коннекционизм принял почти революционный тон, когда Шнайдер, [4] Теренс Хорган и Тинсон поставили вопрос о том, представляет ли коннекционизм фундаментальный сдвиг в психологии и GOFAI . [2] Некоторые преимущества коннекционистского подхода второй волны включали его применимость к широкому спектру функций, структурное приближение к биологическим нейронам, низкие требования к врожденной структуре и способность к постепенной деградации . [5] Некоторые недостатки коннекционистского подхода второй волны включали трудность в расшифровке того, как ИНС обрабатывают информацию или учитывают композиционность мысленных представлений, и, как следствие, трудность в объяснении явлений на более высоком уровне. [6]
Текущая (третья) волна ознаменовалась достижениями в области глубокого обучения , позволяющими создавать большие языковые модели . [2] Успех сетей глубокого обучения в последнее десятилетие значительно увеличил популярность этого подхода, но сложность и масштаб таких сетей повлекли за собой увеличение проблем с интерпретируемостью . [7]
Центральный принцип коннекционизма заключается в том, что психические явления могут быть описаны взаимосвязанными сетями простых и часто однородных единиц. Форма соединений и агрегатов может варьироваться от модели к модели. Например, элементы сети могут представлять собой нейроны , а соединения — синапсы , как в человеческом мозге . Этот принцип рассматривался как альтернатива GOFAI и классическим теориям разума , основанным на символических вычислениях, но степень совместимости этих двух подходов была предметом многочисленных споров с момента их создания. [7]
Внутренние состояния любой сети меняются со временем из-за того, что нейроны отправляют сигнал следующему слою нейронов в случае сети прямого распространения или предыдущему слою в случае рекуррентной сети. Открытие нелинейных функций активации привело к второй волне коннекционизма.
Нейронные сети следуют двум основным принципам:
Наибольшее разнообразие моделей обусловлено:
Работа коннекционистов в целом не обязательно должна быть биологически реалистичной. [9] [10] [11] [12] [13] [14] [15] Одна из областей, в которой коннекционистские модели считаются биологически неправдоподобными, — это сети распространения ошибок, которые необходимы для поддержки обучения, [16] [17] , но распространение ошибок может объяснить некоторую часть биологически генерируемой электрической активности, наблюдаемой на коже головы в связанных с событиями потенциалах, таких как N400 и P600 , [18] и это обеспечивает некоторую биологическую поддержку одного из ключевых предположений коннекционистского обучения. процедуры. Многие рекуррентные коннекционистские модели также включают теорию динамических систем . Многие исследователи, такие как коннекционист Пол Смоленский , утверждали, что коннекционистские модели будут развиваться в сторону полностью непрерывных , многомерных, нелинейных , динамических системных подходов.
Предшественниками коннекционистских принципов можно считать ранние работы в области психологии , например, работы Уильяма Джеймса . [19] Психологические теории, основанные на знаниях о человеческом мозге, были модны в конце 19 века. Еще в 1869 году невролог Джон Хьюлингс Джексон выступал за многоуровневые распределенные системы. Следуя этому примеру, « Принципы психологии » Герберта Спенсера , 3-е издание (1872 г.), и « Проект научной психологии » Зигмунда Фрейда (составленный в 1895 г.) выдвинули на обсуждение коннекционистские или протоконнекционистские теории. Это были, как правило, спекулятивные теории. Но к началу 20-го века Эдвард Торндайк экспериментировал в области обучения, постулировавшего сеть коннекционистского типа.
Сети Хопфилда имели предшественников в модели Изинга благодаря Вильгельму Ленцу (1920) и Эрнсту Изингу (1925), хотя разработанная ими модель Изинга не включала время. Моделирование модели Изинга методом Монте-Карло потребовало появления компьютеров в 1950-х годах. [20]
Первая волна началась в 1943 году, когда Уоррен Стерджис Маккалок и Уолтер Питтс сосредоточились на понимании нейронных цепей с помощью формального и математического подхода. [2] Маккалок и Питтс показали, как нейронные системы могут реализовывать логику первого порядка : их классическая статья «Логическое исчисление идей, имманентных нервной деятельности» (1943) важна в этом развитии. На них повлияло творчество Николая Рашевского 1930-х годов.
Хебб внес большой вклад в размышления о функционировании нейронов и предложил принцип обучения — обучение Хебба . Лэшли выступал за распределенные репрезентации, поскольку за годы экспериментов с повреждениями ему не удалось найти ничего похожего на локализованную инграмму . Фридрих Хайек независимо разработал модель, сначала в краткой неопубликованной рукописи в 1920 году, [21] [22], а затем в 1952 году превратившейся в книгу. [23]
Машины «Перцептрон» были предложены и построены Фрэнком Розенблаттом , который в 1958 году опубликовал в журнале «Psychological Review» статью «Персептрон: вероятностная модель для хранения и организации информации в мозгу» , работая в Корнеллской авиационной лаборатории. Он назвал Хебба, Хайека, Аттли и Эшби главными влиятельными людьми.
Другой формой коннекционистской модели была структура реляционной сети , разработанная лингвистом Сидни Лэмбом в 1960-х годах.
Исследовательская группа под руководством Уидроу эмпирически искала методы обучения двухслойных сетей ADALINE , но без особого успеха. [24] [25]
Метод обучения многослойных перцептронов с произвольными уровнями обучаемых весов был опубликован Алексеем Григорьевичем Ивахненко и Валентином Лапа в 1965 году и назван « Групповой метод обработки данных ». [26] [27] [28] Этот метод использует поэтапное обучение на основе регрессионного анализа , при котором ненужные единицы в скрытых слоях отсекаются с помощью набора проверки. В 1972 году Шуничи Амари сделал эту архитектуру адаптивной . [29] [26]
Первые многослойные перцептроны, обученные методом стохастического градиентного спуска [30], были опубликованы в 1967 году Шуничи Амари . [31] [26] В компьютерных экспериментах, проведенных учеником Амари Сайто, пятислойный MLP с двумя изменяемыми слоями изучил полезные внутренние представления для классификации нелинейно разделимых классов шаблонов. [26]
Вторая волна началась в конце 1980-х годов, после выхода в 1987 году двухтомной книги Джеймса Л. Макклелланда , Дэвида Э. Румельхарта и др. о параллельной распределенной обработке (PDP) о параллельной распределенной обработке, которая внесла несколько усовершенствований в простую идею перцептрона. такие как промежуточные процессоры (теперь известные как «скрытые уровни») наряду с блоками ввода и вывода и использование сигмовидной функции активации вместо старой функции «все или ничего». Их работа, в свою очередь, основывалась на Джоне Хопфилде , который был ключевой фигурой в исследовании математических характеристик функций активации сигмовидной кишки. [2]
Поскольку в конце 1980-х годов коннекционизм становился все более популярным, некоторые исследователи (в том числе Джерри Фодор , Стивен Пинкер и другие) выступили против него. Они утверждали, что развивающийся в то время коннекционизм угрожал уничтожить то, что они считали прогрессом, достигнутым в области когнитивной науки и психологии классическим подходом компьютерализма . Компьютерализм — это особая форма когнитивизма, которая утверждает, что умственная деятельность является вычислительной , то есть что разум действует, выполняя чисто формальные операции над символами, подобно машине Тьюринга . Некоторые исследователи утверждали, что тенденция коннекционизма представляет собой возврат к ассоциативизму и отказ от идеи языка мысли , что они считали ошибочным. Напротив, именно эти тенденции сделали коннекционизм привлекательным для других исследователей.
Коннекционизм и компьютерализм не должны противоречить друг другу, но дебаты в конце 1980-х и начале 1990-х годов привели к противостоянию между двумя подходами. На протяжении всей дискуссии некоторые исследователи утверждали, что коннекционизм и компьютерализм полностью совместимы, хотя полного консенсуса по этому вопросу достичь не удалось. Различия между этими двумя подходами заключаются в следующем:
Несмотря на эти различия, некоторые теоретики предполагают, что коннекционистская архитектура — это просто способ, которым органический мозг реализует систему манипулирования символами. Это логически возможно, поскольку хорошо известно, что коннекционистские модели могут реализовывать системы манипулирования символами, подобные тем, которые используются в вычислительных моделях [32] , и они действительно должны быть способны, если хотят объяснить способность человека выполнять задачи манипулирования символами. . Было предложено несколько когнитивных моделей, сочетающих как символьно-манипулятивную, так и коннекционистскую архитектуру. Среди них — «Интегрированная коннекционистская/символическая когнитивная архитектура» Пола Смоленского . [7] [33] и CLARION Рона Сана ( когнитивная архитектура) . Но споры ведутся вокруг того, формирует ли эта манипуляция символами основу познания в целом, так что это не является потенциальным оправданием компьютерализма. Тем не менее, вычислительные описания могут быть полезны, например, для высокоуровневых описаний познания логики.
Дебаты в основном были сосредоточены на логических аргументах о том, могут ли коннекционистские сети создать синтаксическую структуру, наблюдаемую в такого рода рассуждениях. Позже это было достигнуто, хотя и с использованием быстро изменяющихся способностей связывания, выходящих за рамки тех, которые стандартно предполагались в коннекционистских моделях. [32] [34]
Привлекательность компьютерных описаний отчасти заключается в том, что их относительно легко интерпретировать и, таким образом, можно рассматривать как способствующие нашему пониманию конкретных психических процессов, тогда как коннекционистские модели в целом более непрозрачны до такой степени, что их можно описать только в в очень общих терминах (например, указание алгоритма обучения, количества модулей и т. д.) или в бесполезных низкоуровневых терминах. В этом смысле коннекционистские модели могут воплощать и тем самым предоставлять доказательства широкой теории познания (т. е. коннекционизма), не представляя при этом полезной теории конкретного моделируемого процесса. В этом смысле дебаты можно рассматривать как в некоторой степени отражающие простую разницу в уровне анализа, на котором строятся конкретные теории. Некоторые исследователи предполагают, что пробел в анализе является следствием коннекционистских механизмов, порождающих возникающие явления , которые можно описать в вычислительных терминах. [35]
В 2000-е годы популярность динамических систем в философии сознания открыла новый взгляд на дебаты; [36] [37] некоторые авторы [ какие? ] теперь утверждают, что любой раскол между коннекционизмом и компьютерализмом более убедительно характеризуется как раскол между компьютерализмом и динамическими системами .
В 2014 году Алекс Грейвс и другие сотрудники DeepMind опубликовали серию статей, описывающих новую структуру глубокой нейронной сети, называемую нейронной машиной Тьюринга [38] , способную читать символы на ленте и сохранять символы в памяти. Реляционные сети, еще один модуль Deep Network, опубликованный DeepMind, способны создавать объектные представления и манипулировать ими для ответа на сложные вопросы. Реляционные сети и нейронные машины Тьюринга являются еще одним доказательством того, что коннекционизм и компьютерализм не обязательно должны противоречить друг другу.
Субсимволическая парадигма Смоленского [39] [40] должна ответить на вызов Фодора-Пилишина [41] [42] [43] [44] , сформулированный классической теорией символов для убедительной теории познания в современном коннекционизме. Чтобы стать адекватной альтернативной теорией познания, субсимволическая парадигма Смоленского должна была бы объяснить существование систематичности или систематических отношений в языковом познании без предположения, что когнитивные процессы каузально чувствительны к классической составной структуре ментальных представлений. Таким образом, субсимволическая парадигма или коннекционизм в целом должны были бы объяснить существование систематичности и композиционности, не полагаясь на простую реализацию классической когнитивной архитектуры. Этот вызов подразумевает дилемму: если бы субсимволическая парадигма не могла внести никакого вклада в систематичность и композиционность ментальных представлений, ее было бы недостаточно в качестве основы для альтернативной теории познания. Однако, если вклад Субсимволической парадигмы в систематичность требует психических процессов, основанных на классической конституирующей структуре ментальных репрезентаций, теория познания, которую она развивает, будет в лучшем случае архитектурой реализации классической модели теории символов и, следовательно, не будет подлинной альтернативой. (коннекционистская) теория познания. [45] Классическая модель символизма характеризуется (1) комбинаторным синтаксисом и семантикой мысленных представлений и (2) мыслительными операциями как структурно-чувствительными процессами, основанными на фундаментальном принципе синтаксической и семантической составляющей структуры мысленных представлений, как они используются. в «Языке мысли (LOT)» Фодора. [46] [47] Это можно использовать для объяснения следующих тесно связанных свойств человеческого познания, а именно его (1) продуктивности, (2) систематичности, (3) композиционности и (4) логической последовательности. [48]
Эта задача была решена в современном коннекционизме, например, не только в «Интегрированной коннекционистско-символической (ICS) когнитивной архитектуре» Смоленского [49] [50] , но также в «Колебательных сетях» Вернинга и Мэй. [51] [52] [53] Обзор этого дан, например, Бектелем и Абрахамсеном, [54] Маркусом [55] и Маурером. [56]