Коннекционизм — это название подхода к изучению человеческих ментальных процессов и познания, который использует математические модели, известные как коннекционистские сети или искусственные нейронные сети. [1] Коннекционизм пережил много «волн» с момента своего зарождения.
Первая волна появилась в 1943 году, когда Уоррен Стерджис Маккалок и Уолтер Питтс сосредоточились на понимании нейронных цепей с помощью формального и математического подхода, [2] и Фрэнк Розенблатт, который опубликовал статью 1958 года «Персептрон: вероятностная модель для хранения и организации информации в мозге» в Psychological Review , работая в Корнеллской авиационной лаборатории. [3] Первая волна закончилась книгой 1969 года об ограничениях первоначальной идеи персептрона, написанной Марвином Мински и Сеймуром Папертом , которая способствовала тому, что крупные финансирующие агентства в США отказались от инвестиций в исследования коннекционизма. [4] С несколькими примечательными отклонениями большинство исследований коннекционизма вступили в период бездействия до середины 1980-х годов. Термин « модель коннекционизма» был вновь введен в статье 1982 года в журнале Cognitive Science Джеромом Фельдманом и Даной Баллард.
Вторая волна расцвела в конце 1980-х годов после книги 1987 года о параллельной распределенной обработке Джеймса Л. Макклелланда , Дэвида Э. Рамельхарта и др., которая представила несколько улучшений простой идеи персептрона, таких как промежуточные процессоры (теперь известные как « скрытые слои ») наряду с входными и выходными блоками, и использовала сигмоидальную функцию активации вместо старой функции «все или ничего». Их работа основывалась на работе Джона Хопфилда , который был ключевой фигурой, исследующей математические характеристики сигмоидальных функций активации. [3] С конца 1980-х до середины 1990-х годов коннекционизм приобрел почти революционный тон, когда Шнайдер, [5] Теренс Хорган и Тиенсон поставили вопрос о том, представляет ли коннекционизм фундаментальный сдвиг в психологии и так называемом «старомодном добром ИИ» или GOFAI . [3] Некоторые преимущества подхода коннекционистов второй волны включали его применимость к широкому спектру функций, структурное приближение к биологическим нейронам, низкие требования к врожденной структуре и способность к постепенной деградации . [6] Его недостатки включали сложность расшифровки того, как ИНС обрабатывают информацию или учитывают композиционность ментальных представлений, и вытекающую из этого сложность объяснения явлений на более высоком уровне. [7]
Текущая (третья) волна отмечена достижениями в области глубокого обучения , которые сделали возможным создание больших языковых моделей . [3] Успех сетей глубокого обучения за последнее десятилетие значительно увеличил популярность этого подхода, но сложность и масштаб таких сетей принесли с собой возросшие проблемы интерпретируемости . [8]
Центральный принцип коннекционизма заключается в том, что ментальные явления могут быть описаны взаимосвязанными сетями простых и часто однородных единиц. Форма связей и единиц может варьироваться от модели к модели. Например, единицы в сети могут представлять нейроны , а связи могут представлять синапсы , как в человеческом мозге . Этот принцип рассматривался как альтернатива GOFAI и классическим теориям разума, основанным на символических вычислениях, но степень совместимости этих двух подходов была предметом многочисленных споров с момента их появления. [8]
Внутренние состояния любой сети со временем изменяются из-за того, что нейроны посылают сигнал на последующий слой нейронов в случае сети прямого распространения или на предыдущий слой в случае рекуррентной сети. Открытие нелинейных функций активации дало возможность второй волне коннекционизма.
Нейронные сети следуют двум основным принципам:
Большая часть разнообразия моделей приходится на:
Работа коннекциониста в целом не обязательно должна быть биологически реалистичной. [10] [11] [12] [13] [14] [15] [16] Одна из областей, где модели коннекциониста считаются биологически неправдоподобными, касается сетей распространения ошибок, которые необходимы для поддержки обучения, [17] [18] но распространение ошибок может объяснить часть биологически генерируемой электрической активности, наблюдаемой на коже головы в потенциале, связанном с событиями , таком как N400 и P600 , [19] и это обеспечивает некоторую биологическую поддержку одному из ключевых предположений процедур коннекционистского обучения. Многие рекуррентные модели коннекциониста также включают в себя теорию динамических систем . Многие исследователи, такие как коннекционист Пол Смоленский , утверждали, что модели коннекциониста будут развиваться в направлении полностью непрерывных , многомерных, нелинейных , динамических системных подходов.
Предшественники принципов коннекционизма могут быть прослежены в ранних работах по психологии , таких как работа Уильяма Джеймса . [20] Психологические теории, основанные на знаниях о человеческом мозге, были модными в конце 19-го века. Еще в 1869 году невролог Джон Хьюлингс Джексон выступал за многоуровневые, распределенные системы. Следуя этому примеру, «Принципы психологии » Герберта Спенсера , 3-е издание (1872), и «Проект научной психологии » Зигмунда Фрейда (составленный в 1895 году) выдвинули теории коннекционизма или протоконнекционизма. Они, как правило, были спекулятивными теориями. Но к началу 20-го века Эдвард Торндайк писал о человеческом обучении , постулируя сеть типа коннекционизма. [21]
Сети Хопфилда имели предшественников в модели Изинга благодаря Вильгельму Ленцу (1920) и Эрнсту Изингу (1925), хотя модель Изинга, задуманная ими, не включала время. Моделирование модели Изинга методом Монте-Карло потребовало появления компьютеров в 1950-х годах. [22]
Первая волна началась в 1943 году с Уоррена Стерджиса Маккалока и Уолтера Питтса, которые сосредоточились на понимании нейронных схем с помощью формального и математического подхода. Маккалок и Питтс показали, как нейронные системы могут реализовать логику первого порядка : их классическая работа «Логическое исчисление идей, имманентных нервной деятельности» (1943) важна в этом развитии здесь. На них повлияли работы Николаса Рашевского в 1930-х годах и символическая логика в стиле Principia Mathematica . [23] [3]
Хебб внес большой вклад в размышления о нейронном функционировании и предложил принцип обучения, Хеббовское обучение . Лэшли утверждал, что распределенные представления являются результатом его неудачи в поиске чего-либо похожего на локализованную энграмму в годы экспериментов с повреждениями . Фридрих Хайек независимо задумал эту модель, сначала в краткой неопубликованной рукописи в 1920 году, [24] [25] затем расширил ее до книги в 1952 году. [26]
Машины персептрон были предложены и построены Фрэнком Розенблаттом , который опубликовал в 1958 году статью «Персептрон: вероятностная модель для хранения и организации информации в мозге» в Psychological Review , работая в Корнеллской авиационной лаборатории. Он назвал Хебба, Хайека, Аттли и Эшби основными источниками вдохновения.
Другой формой коннекционистской модели была реляционная сетевая структура, разработанная лингвистом Сидни Лэмбом в 1960-х годах.
Исследовательская группа под руководством Видроу эмпирически искала методы обучения двухслойных сетей ADALINE (MADALINE), но успех был ограниченным. [27] [28]
Метод обучения многослойных персептронов с произвольными уровнями обучаемых весов был опубликован Алексеем Григорьевичем Ивахненко и Валентином Лапой в 1965 году и назывался Групповым методом обработки данных . Этот метод использует пошаговое обучение по слоям на основе регрессионного анализа , где бесполезные элементы в скрытых слоях отсекаются с помощью проверочного набора. [29] [30] [31]
Первые многослойные персептроны, обученные стохастическим градиентным спуском [32], были опубликованы в 1967 году Шуничи Амари . [33] В компьютерных экспериментах, проведенных учеником Амари Сайто, пятислойный многослойный персептрон с двумя модифицируемыми слоями обучился полезным внутренним представлениям для классификации нелинейно разделимых классов образов. [30]
В 1972 году Шуничи Амари создал ранний пример самоорганизующейся сети . [34]
Среди исследователей искусственного интеллекта возникли разногласия по поводу того, для чего полезны нейронные сети. Примерно в конце 1960-х годов наблюдалось широкомасштабное затишье в исследованиях и публикациях по нейронным сетям, «зима нейронных сетей», которая продолжалась до 1970-х годов, в течение которых область искусственного интеллекта обратилась к символическим методам. Публикация книги «Персептроны» (1969) обычно рассматривается как катализатор этого события. [35] [36]
Вторая волна началась в начале 1980-х годов. Некоторые ключевые публикации включали ( Джон Хопфилд , 1982) [37] , которая популяризировала сети Хопфилда , статью 1986 года, которая популяризировала обратное распространение, [38] и двухтомную книгу 1987 года о параллельной распределенной обработке (PDP) Джеймса Л. Макклелланда , Дэвида Э. Рамельхарта и др., которая представила несколько улучшений простой идеи персептрона, таких как промежуточные процессоры (теперь известные как « скрытые слои ») наряду с входными и выходными блоками и использование сигмоидальной функции активации вместо старой функции «все или ничего».
Хопфилд подошел к этой области с точки зрения статистической механики, предоставив некоторые ранние формы математической строгости, которые повысили воспринимаемую респектабельность этой области. [3] Другая важная серия публикаций доказала, что нейронные сети являются универсальными аппроксиматорами функций , что также обеспечило некоторую математическую респектабельность. [39]
В это время появились некоторые ранние популярные демонстрационные проекты. NETtalk (1987) научился произносить письменный английский. Он добился популярного успеха, появившись в шоу Today . [40] TD-Gammon (1992) достиг высшего человеческого уровня в нардах . [41]
Поскольку коннекционизм становился все более популярным в конце 1980-х годов, некоторые исследователи (включая Джерри Фодора , Стивена Пинкера и других) выступили против него. Они утверждали, что коннекционизм, как он тогда развивался, угрожал стереть то, что они считали прогрессом, достигнутым в областях когнитивной науки и психологии классическим подходом вычислительного искусства . Вычислительное искусство — это особая форма когнитивизма, которая утверждает, что умственная деятельность является вычислительной , то есть что разум действует, выполняя чисто формальные операции над символами, как машина Тьюринга . Некоторые исследователи утверждали, что тенденция в коннекционизме представляет собой возврат к ассоцианизму и отказ от идеи языка мысли , что они считали ошибочным. Напротив, именно эти тенденции сделали коннекционизм привлекательным для других исследователей.
Коннекционизм и вычислительный подход не обязательно должны быть в противоречии, но дебаты в конце 1980-х и начале 1990-х годов привели к противостоянию между двумя подходами. На протяжении всего обсуждения некоторые исследователи утверждали, что коннекционизм и вычислительный подход полностью совместимы, хотя полного консенсуса по этому вопросу достигнуто не было. Различия между двумя подходами включают следующее:
Несмотря на эти различия, некоторые теоретики предположили, что архитектура коннекционизма — это просто способ, которым органический мозг реализует систему манипуляции символами. Это логически возможно, поскольку хорошо известно, что модели коннекционизма могут реализовывать системы манипуляции символами того типа, который используется в вычислительных моделях, [42] поскольку они действительно должны быть в состоянии это сделать, если они хотят объяснить способность человека выполнять задачи по манипуляции символами. Было предложено несколько когнитивных моделей, сочетающих как символьно-манипулятивную, так и коннекционистскую архитектуру. Среди них — Интегрированная архитектура коннекционизма/символической когнитивной архитектуры (ICS) Пола Смоленского [8] [43] и CLARION (когнитивная архитектура) Рона Сана [ 43 ] . Но спор упирается в то, является ли эта манипуляция символами основой познания в целом, поэтому это не является потенциальным оправданием вычислительности. Тем не менее, вычислительные описания могут быть полезными высокоуровневыми описаниями познания логики, например.
Дискуссия в основном была сосредоточена на логических аргументах о том, могут ли коннекционистские сети производить синтаксическую структуру, наблюдаемую в этом виде рассуждений. Это было позже достигнуто, хотя и с использованием быстропеременных связывающих способностей, выходящих за рамки тех, которые стандартно предполагаются в коннекционистских моделях. [42] [44]
Часть привлекательности вычислительных описаний заключается в том, что их относительно легко интерпретировать, и, таким образом, их можно рассматривать как способствующие нашему пониманию конкретных ментальных процессов, тогда как коннекционистские модели в целом более непрозрачны, в той степени, в которой их можно описать только в очень общих терминах (таких как указание алгоритма обучения, количества единиц и т. д.) или в бесполезных низкоуровневых терминах. В этом смысле коннекционистские модели могут иллюстрировать и тем самым предоставлять доказательства для широкой теории познания (т. е. коннекционизма), не представляя полезной теории конкретного моделируемого процесса. В этом смысле спор можно рассматривать как в некоторой степени отражающий простое различие в уровне анализа, на котором сформулированы конкретные теории. Некоторые исследователи предполагают, что разрыв в анализе является следствием коннекционистских механизмов, приводящих к возникновению явлений , которые могут быть описаны в вычислительных терминах. [45]
В 2000-х годах популярность динамических систем в философии сознания добавила новую перспективу к дискуссии; [46] [47] некоторые авторы [ которые? ] теперь утверждают, что любой раскол между коннекционизмом и вычислительностью более убедительно характеризуется как раскол между вычислительностью и динамическими системами .
В 2014 году Алекс Грейвс и другие из DeepMind опубликовали серию статей, описывающих новую структуру Deep Neural Network, называемую Neural Turing Machine [48], способную считывать символы с ленты и сохранять символы в памяти. Relational Networks, еще один модуль Deep Network, опубликованный DeepMind, способен создавать объектно-подобные представления и манипулировать ими для ответа на сложные вопросы. Relational Networks и Neural Turing Machines являются еще одним доказательством того, что коннекционизм и вычислительность не обязательно должны противоречить друг другу.
Субсимволическая парадигма Смоленского [49] [50] должна ответить на вызов Фодора-Пилишина [51] [52] [53] [54], сформулированный классической теорией символов для убедительной теории познания в современном коннекционизме. Чтобы быть адекватной альтернативной теорией познания, Субсимволическая парадигма Смоленского должна была бы объяснить существование систематичности или систематических отношений в языковом познании без предположения, что когнитивные процессы каузально чувствительны к классической составной структуре ментальных представлений. Субсимволическая парадигма или коннекционизм в целом, таким образом, должны были бы объяснить существование систематичности и композиционности, не полагаясь на простую реализацию классической когнитивной архитектуры. Этот вызов подразумевает дилемму: если бы Субсимволическая парадигма не могла бы ничего внести в систематичность и композиционность ментальных представлений, она была бы недостаточной в качестве основы для альтернативной теории познания. Однако, если вклад Субсимволической парадигмы в систематичность требует ментальных процессов, основанных на классической составной структуре ментальных представлений, то теория познания, которую она развивает, будет, в лучшем случае, архитектурой реализации классической модели теории символов и, таким образом, не подлинной альтернативной (коннекционистской) теорией познания. [55] Классическая модель символизма характеризуется (1) комбинаторным синтаксисом и семантикой ментальных представлений и (2) ментальными операциями как структурно-чувствительными процессами, основанными на фундаментальном принципе синтаксической и семантической составной структуры ментальных представлений, как это используется в «Языке мысли (LOT)» Фодора. [56] [57] Это можно использовать для объяснения следующих тесно связанных свойств человеческого познания, а именно его (1) продуктивности, (2) системности, (3) композиционности и (4) выводной связности. [58]
Этот вызов был решен в современном коннекционизме, например, не только «Интегрированной коннекционистской/символической (ИКС) когнитивной архитектурой» Смоленского [59] [60] , но и «Осцилляционными сетями» Вернинга и Мэя [61] [62] [63] Обзор этого дается, например, Бехтелем и Абрахамсеном [64] , Маркусом [65] и Маурером [66] .