stringtranslate.com

сеть Хопфилда

Сеть Хопфилда (или ассоциативная память ) — это форма рекуррентной нейронной сети или системы спинового стекла , которая может служить адресно -контентной памятью . Сеть Хопфилда, названная в честь Джона Хопфилда , состоит из одного слоя нейронов, где каждый нейрон соединен с каждым другим нейроном, кроме себя самого. Эти соединения являются двунаправленными и симметричными, что означает, что вес соединения от нейрона i к нейрону j такой же, как вес от нейрона j к нейрону i . Паттерны ассоциативно вызываются путем фиксации определенных входов и динамически развивают сеть для минимизации энергетической функции в направлении локальных состояний минимальной энергии, которые соответствуют сохраненным паттернам. Паттерны ассоциативно изучаются (или «сохраняются») алгоритмом обучения Хебба .

Одной из ключевых особенностей сетей Хопфилда является их способность восстанавливать полные шаблоны из частичных или зашумленных входных данных, что делает их устойчивыми к неполным или поврежденным данным. Их связь со статистической механикой, рекуррентными сетями и когнитивной психологией человека привела к их применению в различных областях, включая физику , психологию , нейронауку , а также теорию и практику машинного обучения.

История

Одним из источников ассоциативной памяти является когнитивная психология человека , в частности ассоциативная память . Фрэнк Розенблатт изучал «перекрестно-связанные персептроны с замкнутым контуром», представляющие собой трехслойные сети персептронов , средний слой которых содержит повторяющиеся связи, изменяющиеся по правилу обучения Хебба . [1] : 73–75  [2] : Глава 19, 21 

Другая модель ассоциативной памяти — это когда выход не возвращается к входу. (Taylor, 1956) предложил такую ​​модель, обученную с помощью обучения Хебба. [3] Карл Штайнбух , который хотел понять обучение и вдохновленный наблюдением за тем, как учатся его дети, [4] опубликовал Lernmatrix в 1961 году. [5] [6] Она была переведена на английский язык в 1963 году. [7] Аналогичное исследование было проведено с коррелограммой (DJ Willshaw et al., 1969). [8] В ( Teuvo Kohonen , 1974) [9] ассоциативная память обучалась с помощью градиентного спуска.

Персептронная сеть с замкнутым контуром и перекрестными связями. Принципы нейродинамики (1961) : 403, рис. 47  .

Другим источником ассоциативной памяти была статистическая механика . Модель Изинга была опубликована в 1920-х годах как модель магнетизма, однако она изучала тепловое равновесие, которое не меняется со временем. Рой Дж. Глаубер в 1963 году изучал модель Изинга, развивающуюся во времени, как процесс к тепловому равновесию ( динамика Глаубера ), добавляя компонент времени. [10]

Вторым компонентом, который нужно было добавить, была адаптация к стимулу. Описанные независимо Каору Накано в 1971 году [11] [12] и Шуничи Амари в 1972 году [13], они предложили модифицировать веса модели Изинга с помощью правила обучения Хебба как модели ассоциативной памяти. Та же идея была опубликована Уильямом А. Литтлом  [de] в 1974 году [14], который был признан Хопфилдом в его статье 1982 года.

Техническое описание некоторых из этих ранних работ по ассоциативной памяти см. в работах Карпентера (1989) [15] и Коуэна (1990) [16].

Модель спинового стекла Шеррингтона–Киркпатрика, опубликованная в 1975 году, [ 17 ] представляет собой сеть Хопфилда со случайной инициализацией. Шеррингтон и Киркпатрик обнаружили, что весьма вероятно, что энергетическая функция модели SK будет иметь много локальных минимумов. В статье 1982 года Хопфилд применил эту недавно разработанную теорию для изучения сети Хопфилда с бинарными функциями активации. [18] В статье 1984 года он распространил ее на непрерывные функции активации. [19] Она стала стандартной моделью для изучения нейронных сетей посредством статистической механики. [20] [21]

Значительный прогресс в области емкости памяти был достигнут Дмитрием Кротовым и Хопфилдом в 2016 году [22] посредством изменения динамики сети и энергетической функции. Эта идея была дополнительно расширена Демирсигилом и его коллегами в 2017 году. [23] Непрерывная динамика моделей большой емкости памяти была разработана в серии статей между 2016 и 2020 годами. [22] [24] [25]  Большая емкость памяти Сети Хопфилда теперь называются плотными ассоциативными воспоминаниями или современными сетями Хопфилда .

В 2024 году Джон Дж. Хопфилд и Джеффри Э. Хинтон были удостоены Нобелевской премии по физике за их основополагающий вклад в машинное обучение, в том числе за сеть Хопфилда.

Структура

Сеть Хопфилда с четырьмя ячейками

Единицы в сетях Хопфилда являются бинарными пороговыми единицами, то есть единицы принимают только два различных значения для своих состояний, и значение определяется тем, превышает ли вход единицы его пороговое значение . Дискретные сети Хопфилда описывают отношения между бинарными (активизирующимися или неактивизирующимися) нейронами . [18] В определенный момент времени состояние нейронной сети описывается вектором , который записывает, какие нейроны активизируются, в двоичном слове битов.

Взаимодействия между нейронами имеют единицы, которые обычно принимают значения 1 или −1, и это соглашение будет использоваться в этой статье. Однако в другой литературе могут использоваться единицы, которые принимают значения 0 и 1. Эти взаимодействия «изучаются» с помощью закона ассоциации Хебба , так что для определенного состояния и отдельных узлов

но .

(Обратите внимание, что правило обучения Хебба принимает форму , когда единицы принимают значения в .)

После того, как сеть обучена, больше не эволюционирует. Если в нейронную сеть вводится новое состояние нейронов , сеть действует на нейроны таким образом, что

где — пороговое значение i-го нейрона (часто принимаемое за 0). [26] Таким образом, сети Хопфилда обладают способностью «запоминать» состояния, хранящиеся в матрице взаимодействия, поскольку, если новое состояние подвергается воздействию матрицы взаимодействия, каждый нейрон будет изменяться до тех пор, пока не будет соответствовать исходному состоянию (см. раздел «Обновления» ниже).

Соединения в сети Хопфилда обычно имеют следующие ограничения:

Ограничение, что веса симметричны, гарантирует, что функция энергии монотонно уменьшается при соблюдении правил активации. [27] Сеть с асимметричными весами может демонстрировать некоторое периодическое или хаотическое поведение; однако Хопфилд обнаружил, что это поведение ограничивается относительно небольшими частями фазового пространства и не ухудшает способность сети действовать как система ассоциативной памяти с адресацией по содержимому.

Хопфилд также смоделировал нейронные сети для непрерывных значений, в которых электрический выход каждого нейрона не является двоичным, а представляет собой некоторое значение от 0 до 1. [19] Он обнаружил, что этот тип сети также способен хранить и воспроизводить запомненные состояния.

Обратите внимание, что каждая пара единиц i и j в сети Хопфилда имеет связь, которая описывается весом связности . В этом смысле сеть Хопфилда можно формально описать как полный неориентированный граф , где — набор нейронов Маккалока–Питтса , а — функция, которая связывает пары единиц с действительным значением, весом связности.

Обновление

Обновление одного узла (узла в графе, моделирующем искусственный нейрон) в сети Хопфилда выполняется по следующему правилу:

где:

Обновления в сети Хопфилда могут выполняться двумя различными способами:

Нейроны «притягивают или отталкивают друг друга» в пространстве состояний

Вес между двумя единицами оказывает сильное влияние на значения нейронов. Рассмотрим вес связи между двумя нейронами i и j. Если , правило обновления подразумевает, что:

Таким образом, значения нейронов i и j будут сходиться, если вес между ними положительный. Аналогично, они будут расходиться, если вес отрицательный.

Свойства сходимости дискретных и непрерывных сетей Хопфилда

Брук в своей статье 1990 года [28]   изучал дискретные сети Хопфилда и доказал обобщенную теорему о сходимости, которая основана на связи между динамикой сети и разрезами в ассоциированном графе. Это обобщение охватывало как асинхронную, так и синхронную динамику и представляло элементарные доказательства, основанные на жадных алгоритмах для максимального разреза в графах. Последующая статья [29] дополнительно исследовала поведение любого нейрона как в дискретных, так и в непрерывных сетях Хопфилда, когда соответствующая энергетическая функция минимизируется в процессе оптимизации. Брук показал [28] , что нейрон j изменяет свое состояние тогда и только тогда, когда он дополнительно уменьшает следующий смещенный псевдоразрез. Дискретная сеть Хопфилда минимизирует следующий смещенный псевдоразрез [29] для синаптической весовой матрицы сети Хопфилда.

где и представляет собой набор нейронов, которые являются −1 и +1, соответственно, в момент времени . Для получения более подробной информации см. недавнюю статью. [29]

Дискретная сеть Хопфилда всегда минимизирует именно следующий псевдоразрез [28] [29]

Непрерывная во времени сеть Хопфилда всегда минимизирует верхнюю границу следующего взвешенного разреза [29]

где — сигмоидальная функция с нулевым центром.

С другой стороны, сложная сеть Хопфилда обычно стремится минимизировать так называемое теневое сокращение сложной весовой матрицы сети. [30]

Энергия

Энергетический ландшафт сети Хопфилда, выделяющий текущее состояние сети (вверх по холму), состояние аттрактора, к которому она в конечном итоге сойдется, минимальный уровень энергии и бассейн притяжения, закрашенный зеленым. Обратите внимание, как обновление сети Хопфилда всегда идет вниз по энергии.

Сети Хопфилда имеют скалярное значение, связанное с каждым состоянием сети, называемое «энергией» сети E , где:

Эта величина называется «энергией», потому что она либо уменьшается, либо остается неизменной при обновлении сетевых единиц. Более того, при повторном обновлении сеть в конечном итоге сходится к состоянию, которое является локальным минимумом в энергетической функции (которая считается функцией Ляпунова ). [18] Таким образом, если состояние является локальным минимумом в энергетической функции, то это устойчивое состояние для сети. Обратите внимание, что эта энергетическая функция принадлежит к общему классу моделей в физике под названием модели Изинга ; они, в свою очередь, являются частным случаем сетей Маркова , поскольку связанная с ними мера вероятности , мера Гиббса , обладает свойством Маркова .

Сеть Хопфилда в оптимизации

Хопфилд и Танк представили применение сети Хопфилда для решения классической задачи коммивояжера в 1985 году. [31] С тех пор сеть Хопфилда широко используется для оптимизации. Идея использования сети Хопфилда в задачах оптимизации проста: если ограниченная/неограниченная функция стоимости может быть записана в виде функции энергии Хопфилда E, то существует сеть Хопфилда, точки равновесия которой представляют решения ограниченной/неограниченной задачи оптимизации. Минимизация функции энергии Хопфилда одновременно минимизирует целевую функцию и удовлетворяет ограничениям, поскольку ограничения «встроены» в синаптические веса сети. Хотя включение ограничений оптимизации в синаптические веса наилучшим образом является сложной задачей, многие сложные задачи оптимизации с ограничениями в различных дисциплинах были преобразованы в функцию энергии Хопфилда: системы ассоциативной памяти, аналого-цифровое преобразование, задача планирования рабочего цеха, квадратичное назначение и другие связанные NP-полные задачи, проблема распределения каналов в беспроводных сетях, проблема маршрутизации мобильной сети ad-hoc, восстановление изображений, идентификация системы, комбинаторная оптимизация и т. д., и это лишь некоторые из них. Однако, хотя и возможно преобразовать сложные задачи оптимизации в функции энергии Хопфилда, это не гарантирует сходимости к решению (даже за экспоненциальное время). [32]

Инициализация и запуск

Инициализация сетей Хопфилда выполняется путем установки значений единиц в соответствии с желаемым начальным шаблоном. Затем выполняются повторные обновления до тех пор, пока сеть не сойдется к шаблону аттрактора. Сходимость, как правило, гарантирована, поскольку Хопфилд доказал, что аттракторы этой нелинейной динамической системы являются стабильными, а не периодическими или хаотическими, как в некоторых других системах [ требуется ссылка ] . Таким образом, в контексте сетей Хопфилда шаблон аттрактора является конечным стабильным состоянием, шаблоном, который не может изменить ни одно значение внутри себя при обновлении [ требуется ссылка ] .

Обучение

Обучение сети Хопфилда включает в себя снижение энергии состояний, которые сеть должна «запоминать». Это позволяет сети служить в качестве адресуемой по содержимому системы памяти, то есть сеть будет сходиться к «запоминаемому» состоянию, если ей дать только часть состояния. Сеть может использоваться для восстановления из искаженного входа в обученное состояние, которое наиболее похоже на этот вход. Это называется ассоциативной памятью, потому что она восстанавливает воспоминания на основе сходства. Например, если мы обучаем сеть Хопфилда с пятью единицами так, чтобы состояние (1, −1, 1, −1, 1) было минимумом энергии, и мы даём сети состояние (1, −1, −1, −1, 1), она будет сходиться к (1, −1, 1, −1, 1). Таким образом, сеть правильно обучена, когда энергия состояний, которые сеть должна помнить, является локальным минимумом. Обратите внимание, что в отличие от обучения персептрона пороги нейронов никогда не обновляются.

Правила обучения

Существуют различные правила обучения , которые можно использовать для хранения информации в памяти сети Хопфилда. Желательно, чтобы правило обучения обладало обоими из следующих двух свойств:

Эти свойства желательны, поскольку правило обучения, удовлетворяющее им, более биологически правдоподобно. Например, поскольку человеческий мозг всегда изучает новые концепции, можно предположить, что человеческое обучение является инкрементальным. Обучающаяся система, которая не является инкрементальной, обычно обучается только один раз с помощью огромного пакета обучающих данных.

Правило обучения Хебба для сетей Хопфилда

Теория Хебба была введена Дональдом Хеббом в 1949 году для объяснения «ассоциативного обучения», при котором одновременная активация нейронных клеток приводит к выраженному увеличению синаптической силы между этими клетками. [34] Ее часто обобщают так: «Нейроны, которые активируются вместе, связываются друг с другом. Нейроны, которые активируются несинхронно, не могут установить связь».

Правило Хебба является как локальным, так и инкрементальным. Для сетей Хопфилда оно реализуется следующим образом при изучении бинарных шаблонов:

где представляет бит i из шаблона .

Если биты, соответствующие нейронам i и j, равны по шаблону , то произведение будет положительным. Это, в свою очередь, окажет положительное влияние на вес , и значения i и j будут стремиться к равенству. Обратное происходит, если биты, соответствующие нейронам i и j, различны.

Правило обучения аиста

Это правило было введено Амосом Сторкеем в 1997 году и является как локальным, так и инкрементальным. Сторкеем также показал, что сеть Хопфилда, обученная с использованием этого правила, имеет большую емкость, чем соответствующая сеть, обученная с использованием правила Хебба. [35] Говорят, что матрица весов нейронной сети-аттрактора [ необходимо разъяснение ] следует правилу обучения Сторкеем, если она подчиняется:

где — форма локального поля [33] на нейроне i.

Это правило обучения локально, поскольку синапсы учитывают только нейроны по бокам. Правило использует больше информации из паттернов и весов, чем обобщенное правило Хебба, из-за эффекта локального поля.

Ложные шаблоны

Шаблоны, которые сеть использует для обучения (называемые состояниями поиска ), становятся аттракторами системы. Повторные обновления в конечном итоге приведут к сходимости к одному из состояний поиска. Однако иногда сеть будет сходиться к ложным шаблонам (отличным от обучающих шаблонов). [36] Фактически, количество ложных шаблонов может быть экспоненциальным по количеству сохраненных шаблонов, даже если сохраненные шаблоны ортогональны. [37] Энергия в этих ложных шаблонах также является локальным минимумом. Для каждого сохраненного шаблона x отрицание -x также является ложным шаблоном.

Ложное состояние также может быть линейной комбинацией нечетного числа состояний поиска. Например, при использовании 3 шаблонов можно получить следующее ложное состояние:

Ложные паттерны, имеющие четное число состояний, не могут существовать, поскольку их сумма может давать ноль [36]

Емкость

Емкость сети модели сети Хопфилда определяется количеством нейронов и связей в данной сети. Следовательно, количество воспоминаний, которые можно сохранить, зависит от нейронов и связей. Кроме того, было показано, что точность припоминания между векторами и узлами составила 0,138 (приблизительно 138 векторов можно вызвать из хранилища на каждые 1000 узлов) (Hertz et al., 1991). Следовательно, очевидно, что при попытке сохранить большое количество векторов возникнет много ошибок. Когда модель Хопфилда не воспроизводит правильный шаблон, возможно, произошло вторжение, поскольку семантически связанные элементы имеют тенденцию сбивать человека с толку, и происходит припоминание неправильного шаблона. Следовательно, показано, что модель сети Хопфилда путает один сохраненный элемент с другим при извлечении. Идеальные воспоминания и высокая емкость, >0,14, могут быть загружены в сеть с помощью метода обучения Сторки; ETAM, [38] [39] Эксперименты ETAM также в [40] Позднее были разработаны скрытые модели, вдохновленные сетью Хопфилда, чтобы увеличить предел хранения и снизить частоту ошибок поиска, некоторые из которых способны к однократному обучению . [41]

Емкость памяти можно определить по формуле, где — количество нейронов в сети.

Человеческая память

Сеть Хопфилда является моделью для ассоциативного обучения и вспоминания человека. [42] [43] Она учитывает ассоциативную память посредством включения векторов памяти. Векторы памяти могут быть немного использованы, и это вызовет извлечение наиболее похожего вектора в сети. Однако мы выясним, что из-за этого процесса могут происходить вторжения. В ассоциативной памяти для сети Хопфилда существует два типа операций: автоассоциация и гетероассоциация. Первая — когда вектор ассоциируется сам с собой, а вторая — когда два разных вектора ассоциируются в хранилище. Более того, оба типа операций можно хранить в одной матрице памяти, но только если эта заданная матрица представления не является одной или другой из операций, а скорее комбинацией (автоассоциативной и гетероассоциативной) двух.

Сетевая модель Хопфилда использует то же правило обучения, что и правило обучения Хебба (1949) , которое характеризует обучение как результат усиления весов в случаях нейронной активности.

Риццуто и Кахана (2001) смогли показать, что модель нейронной сети может учитывать повторение при точности припоминания, включив алгоритм вероятностного обучения. В процессе извлечения не происходит обучения. В результате веса сети остаются фиксированными, показывая, что модель способна переключаться с этапа обучения на этап припоминания. Добавив контекстуальный дрейф, они смогли показать быстрое забывание, которое происходит в модели Хопфилда во время задачи припоминания с подсказкой. Вся сеть вносит вклад в изменение активации любого отдельного узла.

Динамическое правило Маккалока и Питтса (1943), описывающее поведение нейронов, делает это таким образом, что показывает, как активации нескольких нейронов отображаются на активацию частоты срабатывания нового нейрона и как веса нейронов усиливают синаптические связи между новым активированным нейроном (и теми, которые его активировали). Хопфилд использовал динамическое правило Маккалока–Питтса, чтобы показать, как в сети Хопфилда возможно извлечение. Однако Хопфилд делал это повторяющимся образом. Хопфилд использовал нелинейную функцию активации вместо использования линейной функции. Таким образом, это создало бы динамическое правило Хопфилда, и с его помощью Хопфилд смог показать, что с нелинейной функцией активации динамическое правило всегда будет изменять значения вектора состояния в направлении одного из сохраненных шаблонов.

Плотная ассоциативная память или современная сеть Хопфилда

Сети Хопфилда [18] [19] являются рекуррентными нейронными сетями с динамическими траекториями, сходящимися к состояниям аттрактора фиксированной точки и описываемыми энергетической функцией. Состояние каждого модельного нейрона определяется переменной, зависящей от времени , которая может быть выбрана как дискретная или непрерывная. Полная модель описывает математику того, как будущее состояние активности каждого нейрона зависит от известной настоящей или предыдущей активности всех нейронов.

В оригинальной модели ассоциативной памяти Хопфилда [18] переменные были бинарными, а динамика описывалась обновлением состояния нейронов по одному за раз. Была определена квадратичная по энергетическая функция, а динамика состояла в изменении активности каждого отдельного нейрона только в том случае, если это приводило к снижению общей энергии системы. Эта же идея была распространена на случай, когда непрерывная переменная представляет выход нейрона , и является монотонной функцией входного тока. Динамика стала выражаться как набор дифференциальных уравнений первого порядка, для которых «энергия» системы всегда уменьшалась. [19]   Энергия в непрерывном случае имеет один член, который является квадратичным по (как в бинарной модели), и второй член, который зависит от функции усиления (функции активации нейрона). Обладая многими желательными свойствами ассоциативной памяти, обе эти классические системы страдают от небольшой емкости памяти, которая линейно масштабируется с числом входных признаков. [18] Напротив, увеличивая количество параметров в модели так, чтобы между нейронами были не только парные, но и более высокого порядка взаимодействия, можно увеличить емкость памяти. [44] [45]

Плотные ассоциативные памяти [22] (также известные как современные сети Хопфилда [24] ) являются обобщениями классических сетей Хопфилда, которые нарушают линейное соотношение масштабирования между числом входных признаков и числом сохраненных воспоминаний. Это достигается путем введения более сильных нелинейностей (либо в энергетической функции, либо в функциях активации нейронов), что приводит к сверхлинейной [22] (даже экспоненциальной [23] ) емкости памяти как функции числа нейронов признаков, по сути увеличивая порядок взаимодействий между нейронами. [44] [45] Сеть по-прежнему требует достаточного количества скрытых нейронов. [25]

Основная теоретическая идея, лежащая в основе сетей плотной ассоциативной памяти, заключается в использовании энергетической функции и правила обновления, которые имеют более острый пик вокруг сохраненных воспоминаний в пространстве конфигураций нейронов по сравнению с классической моделью [22], как показано при явном моделировании взаимодействий более высокого порядка и последующих энергетических ландшафтов. [45]

Дискретные переменные

Простой пример [22] современной сети Хопфилда можно записать в терминах бинарных переменных , которые представляют активное и неактивное состояние модельного нейрона . В этой формуле веса представляют матрицу векторов памяти (индекс перечисляет различные воспоминания, а индекс перечисляет содержимое каждого воспоминания, соответствующего -му нейрону-признаку), а функция является быстрорастущей нелинейной функцией. Правило обновления для отдельных нейронов (в асинхронном случае) можно записать в следующей форме, которая гласит, что для вычисления обновленного состояния -го нейрона сеть сравнивает две энергии: энергию сети с -м нейроном в состоянии ВКЛ и энергию сети с -м нейроном в состоянии ВЫКЛ, учитывая состояния оставшегося нейрона. Обновленное состояние -го нейрона выбирает состояние, которое имеет наименьшую из двух энергий. [22]

В предельном случае, когда нелинейная энергетическая функция является квадратичной, эти уравнения сводятся к знакомой энергетической функции и правилу обновления для классической двоичной сети Хопфилда. [18]

Емкость памяти этих сетей может быть рассчитана для случайных бинарных паттернов. Для функции мощности энергии максимальное количество воспоминаний, которые могут быть сохранены и извлечены из этой сети без ошибок, определяется как [22] Для экспоненциальной функции энергии емкость памяти экспоненциальна по числу нейронов признаков [23]

Рис. 1: Пример непрерывной современной сети Хопфилда с нейронами-функциями и нейронами памяти (скрытыми) с симметричными синаптическими связями между ними.

Непрерывные переменные

Современные сети Хопфилда или плотные ассоциативные памяти лучше всего понимать в непрерывных переменных и непрерывном времени. [24] [25] Рассмотрим архитектуру сети, показанную на рис. 1, и уравнения для эволюции состояний нейронов [25]

где токи нейронов признаков обозначены как , а токи нейронов памяти обозначены как ( обозначает скрытые нейроны). Между нейронами признаков или нейронами памяти нет синаптических связей. Матрица обозначает силу синапсов от нейрона признака к нейрону памяти . Предполагается, что синапсы симметричны, так что одно и то же значение характеризует другой физический синапс от нейрона памяти к нейрону признака . Выходы нейронов памяти и нейронов признаков обозначены как и , которые являются нелинейными функциями соответствующих токов. В общем случае эти выходы могут зависеть от токов всех нейронов в этом слое, так что и . Удобно определить эти функции активации как производные функций Лагранжа для двух групп нейронов

Таким образом, конкретная форма уравнений для состояний нейронов полностью определяется после указания функций Лагранжа. Наконец, постоянные времени для двух групп нейронов обозначаются как и , — входной ток в сеть, который может управляться представленными данными. 

Рис. 2: Эффективная теория нейронов признаков для различных общих выборов функций Лагранжа. Модель A сводится к моделям, изученным в [22] [23] в зависимости от выбора функции активации, модель B сводится к модели, изученной в [24] , модель C сводится к модели. [25] F является « достаточно гладкой » функцией. [22]

Общие системы нелинейных дифференциальных уравнений могут иметь много сложных поведений, которые могут зависеть от выбора нелинейностей и начальных условий. Однако для сетей Хопфилда это не так — динамические траектории всегда сходятся к состоянию аттрактора фиксированной точки. Это свойство достигается, поскольку эти уравнения специально спроектированы так, чтобы они имели базовую энергетическую функцию [25]

Члены, сгруппированные в квадратных скобках, представляют собой преобразование Лежандра функции Лагранжа относительно состояний нейронов. Если матрицы Гессе функций Лагранжа являются положительно полуопределенными, то функция энергии гарантированно убывает на динамической траектории [25]

Это свойство позволяет доказать, что система динамических уравнений, описывающая временную эволюцию активности нейронов, в конечном итоге достигнет состояния аттрактора фиксированной точки.

В определенных ситуациях можно предположить, что динамика скрытых нейронов уравновешивается в гораздо более быстром масштабе времени по сравнению с нейронами признаков, . В этом случае стационарное решение второго уравнения в системе ( 1 ) может быть использовано для выражения токов скрытых единиц через выходы нейронов признаков. Это позволяет свести общую теорию ( 1 ) к эффективной теории только для нейронов признаков. Результирующие эффективные правила обновления и энергии для различных общих выборов функций Лагранжа показаны на рис. 2. В случае логарифмически-суммовой экспоненциальной функции Лагранжа правило обновления (если оно применено один раз) для состояний нейронов признаков является механизмом внимания [24], обычно используемым во многих современных системах ИИ (см. ссылку [25] для вывода этого результата из непрерывной временной формулировки).

Связь с классической сетью Хопфилда с непрерывными переменными

Классическая формулировка непрерывных сетей Хопфилда [19] может быть понята [25] как особый предельный случай современных сетей Хопфилда с одним скрытым слоем. Непрерывные сети Хопфилда для нейронов с градуированным откликом обычно описываются [19] динамическими уравнениями

и энергетическая функция

где , а — обратная функция активации . Эта модель является особым пределом класса моделей, называемых моделями A, [25] со следующим выбором функций Лагранжа

что, согласно определению ( 2 ), приводит к функциям активации

Если мы интегрируем скрытые нейроны, то система уравнений ( 1 ) сводится к уравнениям для характерных нейронов ( 5 ) с , а общее выражение для энергии ( 3 ) сводится к эффективной энергии

В то время как первые два члена в уравнении ( 6 ) такие же, как в уравнении ( 9 ), третьи члены выглядят поверхностно по-другому. В уравнении ( 9 ) это преобразование Лежандра лагранжиана для нейронов признаков, тогда как в ( 6 ) третий член является интегралом обратной функции активации. Тем не менее, эти два выражения фактически эквивалентны, поскольку производные функции и ее преобразования Лежандра являются обратными функциями друг друга. Самый простой способ увидеть, что эти два члена явно равны, — это продифференцировать каждый из них по . Результаты этих дифференцирований для обоих выражений равны . Таким образом, два выражения равны с точностью до аддитивной константы. Это завершает доказательство [25] того, что классическая сеть Хопфилда с непрерывными состояниями [19] является особым предельным случаем современной сети Хопфилда ( 1 ) с энергией ( 3 ).

Общая формулировка современной сети Хопфилда

Рис. 3: Диаграмма связности полносвязной современной сети Хопфилда, состоящей из пяти нейронов. Синаптические веса описываются симметричной матрицей .

Биологические нейронные сети имеют большую степень гетерогенности с точки зрения различных типов клеток. В этом разделе описывается математическая модель полностью связанной современной сети Хопфилда, предполагающая крайнюю степень гетерогенности: каждый отдельный нейрон отличается. [46] В частности, энергетическая функция и соответствующие динамические уравнения описываются, предполагая, что каждый нейрон имеет свою собственную функцию активации и кинетическую шкалу времени. Предполагается, что сеть полностью связана, так что каждый нейрон связан с каждым другим нейроном с помощью симметричной матрицы весов , индексов и перечисления различных нейронов в сети, см. рис. 3. Самый простой способ математически сформулировать эту проблему — определить архитектуру с помощью функции Лагранжа , которая зависит от активности всех нейронов в сети. Функция активации для каждого нейрона определяется как частная производная лагранжиана относительно активности этого нейрона.

С биологической точки зрения можно рассматривать как аксональный выход нейрона . В простейшем случае, когда лагранжиан аддитивен для разных нейронов, это определение приводит к активации, которая является нелинейной функцией активности этого нейрона. Для неаддитивных лагранжианов эта функция активации может зависеть от активности группы нейронов. Например, она может содержать контрастную (softmax) или дивизионную нормализацию. Динамические уравнения, описывающие временную эволюцию данного нейрона, задаются как [46]

Это уравнение относится к классу моделей, называемых моделями частоты срабатывания в нейронауке. Каждый нейрон собирает аксональные выходы от всех нейронов, взвешивает их с помощью синаптических коэффициентов и производит свою собственную зависящую от времени активность . Временная эволюция имеет постоянную времени , которая в общем случае может быть разной для каждого нейрона. Эта сеть имеет глобальную энергетическую функцию [46]

где первые два члена представляют собой преобразование Лежандра функции Лагранжа относительно токов нейронов . Временная производная этой энергетической функции может быть вычислена на динамических траекториях, ведущих к (см. [46] для получения подробной информации)

Последний знак неравенства выполняется при условии, что матрица (или ее симметричная часть) является положительно полуопределенной. Если, в дополнение к этому, функция энергии ограничена снизу, нелинейные динамические уравнения гарантированно сходятся к состоянию аттрактора с фиксированной точкой. Преимущество формулировки этой сети в терминах функций Лагранжа состоит в том, что она позволяет легко экспериментировать с различными вариантами выбора функций активации и различными архитектурными расположениями нейронов. Для всех этих гибких вариантов условия сходимости определяются свойствами матрицы и существованием нижней границы для функции энергии.

Рис. 4: Диаграмма связей многослойной иерархической ассоциативной сети памяти. [46] Каждый слой может иметь разное количество нейронов, разную функцию активации и разные временные масштабы. Веса прямой связи и веса обратной связи равны.

Иерархическая ассоциативная сеть памяти

Нейроны могут быть организованы в слои так, что каждый нейрон в данном слое имеет одну и ту же функцию активации и одинаковую динамическую временную шкалу. Если предположить, что между нейронами внутри слоя нет горизонтальных связей (латеральных связей) и нет связей с пропусками слоев, общая полностью связанная сеть ( 11 ), ( 12 ) сводится к архитектуре, показанной на рис. 4. Она имеет слои рекуррентно связанных нейронов с состояниями, описываемыми непрерывными переменными и функциями активации , индекс перечисляет слои сети, а индекс перечисляет отдельные нейроны в этом слое. Функции активации могут зависеть от активности всех нейронов в слое. Каждый слой может иметь разное количество нейронов . Эти нейроны рекуррентно связаны с нейронами в предыдущем и последующем слоях. Матрицы весов, которые соединяют нейроны в слоях , обозначаются как (порядок верхних индексов для весов совпадает с порядком нижних индексов, в приведенном выше примере это означает, что индекс нумерует нейроны в слое , а индекс нумерует нейроны в слое ). Веса прямой связи и веса обратной связи равны. Динамические уравнения для состояний нейронов можно записать как [46]

с граничными условиями

Главное отличие этих уравнений от уравнений обычных сетей прямого распространения заключается в наличии второго члена, который отвечает за обратную связь от более высоких слоев. Эти сигналы сверху вниз помогают нейронам в нижних слоях принять решение об их реакции на представленные стимулы. Следуя общему рецепту, удобно ввести функцию Лагранжа для -го скрытого слоя, которая зависит от активности всех нейронов в этом слое. [46] Функции активации в этом слое можно определить как частные производные функции Лагранжа

При этих определениях функция энергии (Ляпунова) имеет вид [46]

Если функции Лагранжа или, что эквивалентно, функции активации выбраны таким образом, что гессианы для каждого слоя являются положительно полуопределенными, а общая энергия ограничена снизу, эта система гарантированно сходится к состоянию аттрактора с фиксированной точкой. Временная производная этой энергетической функции определяется как [46]

Таким образом, иерархическая слоистая сеть действительно является сетью аттракторов с глобальной энергетической функцией. Эта сеть описывается иерархическим набором синаптических весов, которые могут быть изучены для каждой конкретной проблемы.

Смотрите также

Ссылки

  1. ^ Ф. Розенблатт, «Обобщение восприятия по группам трансформации», стр. 63–100 в книге « Самоорганизующиеся системы: материалы междисциплинарной конференции», 5 и 6 мая 1959 г. Под редакцией Маршалла К. Йовитца и Скотта Кэмерона. Лондон, Нью-Йорк, [и т. д.], Pergamon Press, 1960. ix, 322 стр.
  2. ^ Розенблатт, Франк (1961-03-15). DTIC AD0256582: ПРИНЦИПЫ НЕЙРОДИНАМИКИ. ПЕРСЕПТРОНЫ И ТЕОРИЯ МОЗГОВЫХ МЕХАНИЗМОВ. Центр технической информации Министерства обороны.
  3. ^ WK Taylor, 1956. Электрическое моделирование некоторых функциональных активностей нервной системы . Теория информации 3, EC Cherry (ред.), стр. 314-328. Лондон: Butterworths.
  4. ^ Панегирик: 1917, Карл Штайнбух, 2005. Бернард Видроу, Райнер Хартенштейн, Роберт Хехт-Нильсен, Общество вычислительной разведки IEEE. стр. 5. Август 2005 г.
  5. ^ Штайнбух, К. (1 января 1961). «Умри Лернматрица». Кибернетик (на немецком языке). 1 (1): 36–45. дои : 10.1007/BF00293853. ISSN  1432-0770.
  6. ^ Штайнбух, Карл (1961). Automat und Mensch: сверхчеловеческая и интеллектуальная машина. Берлин: Шпрингер. ISBN 978-3-642-53168-2. ОЛ  27019478М.
  7. ^ Steinbuch, K.; Piske, UAW (декабрь 1963 г.). «Обучающие матрицы и их применение». IEEE Transactions on Electronic Computers . EC-12 (6): 846–862. doi :10.1109/PGEC.1963.263588. ISSN  0367-7508.
  8. ^ Willshaw, DJ; Buneman, OP; Longuet-Higgins, HC (июнь 1969). «Неголографическая ассоциативная память». Nature . 222 (5197): 960–962. Bibcode :1969Natur.222..960W. doi :10.1038/222960a0. ISSN  0028-0836. PMID  5789326.
  9. ^ Кохонен, Т. (апрель 1974 г.). «Принцип адаптивной ассоциативной памяти». IEEE Transactions on Computers . C-23 (4): 444–445. doi :10.1109/TC.1974.223960. ISSN  0018-9340.
  10. ^ Глаубер, Рой Дж. (февраль 1963 г.). "Рой Дж. Глаубер "Зависящая от времени статистика модели Изинга"". Журнал математической физики . 4 (2): 294–307. doi :10.1063/1.1703954 . Получено 21.03.2021 .
  11. ^ Накано, Каору (1971). «Процесс обучения в модели ассоциативной памяти». Распознавание образов и машинное обучение . стр. 172–186. doi :10.1007/978-1-4615-7566-5_15. ISBN 978-1-4615-7568-9.
  12. ^ Накано, Каору (1972). «Ассоциатрон — модель ассоциативной памяти». Труды IEEE по системам, человеку и кибернетике . SMC-2 (3): 380–388. doi :10.1109/TSMC.1972.4309133.
  13. ^ Амари, Шун-Ичи (1972). «Изучение шаблонов и последовательностей шаблонов с помощью самоорганизующихся сетей пороговых элементов». Труды IEEE . C (21): 1197–1206.
  14. ^ Little, WA (1974). «Существование устойчивых состояний в мозге». Mathematical Biosciences . 19 (1–2): 101–120. doi :10.1016/0025-5564(74)90031-5.
  15. ^ Карпентер, Гейл А. (1989-01-01). «Нейросетевые модели для распознавания образов и ассоциативной памяти». Neural Networks . 2 (4): 243–257. doi :10.1016/0893-6080(89)90035-X. ISSN  0893-6080.
  16. ^ Коуэн, Джек Д. (январь 1990 г.). «Обсуждение: Маккалок-Питтс и родственные нейронные сети с 1943 по 1989 г.». Бюллетень математической биологии . 52 (1–2): 73–97. doi :10.1007/BF02459569. ISSN  0092-8240.
  17. ^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975-12-29). «Решаемая модель спинового стекла». Physical Review Letters . 35 (26): 1792–1796. Bibcode : 1975PhRvL..35.1792S. doi : 10.1103/PhysRevLett.35.1792. ISSN  0031-9007.
  18. ^ abcdefg Хопфилд, Дж. Дж. (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями». Труды Национальной академии наук . 79 (8): 2554–2558. Bibcode : 1982PNAS...79.2554H. doi : 10.1073/pnas.79.8.2554 . PMC 346238. PMID  6953413 . 
  19. ^ abcdefg Хопфилд, Дж. Дж. (1984). «Нейроны с градуированным ответом имеют коллективные вычислительные свойства, подобные свойствам двухуровневых нейронов». Труды Национальной академии наук . 81 (10): 3088–3092. Bibcode : 1984PNAS...81.3088H. doi : 10.1073/pnas.81.10.3088 . PMC 345226. PMID  6587342 . 
  20. ^ Энгель, А.; Брок, К. ван ден (2001). Статистическая механика обучения . Кембридж, Великобритания; Нью-Йорк, Нью-Йорк: Cambridge University Press. ISBN 978-0-521-77307-2.
  21. ^ Seung, HS; Sompolinsky, H.; Tishby, N. (1992-04-01). «Статистическая механика обучения на примерах». Physical Review A. 45 ( 8): 6056–6091. Bibcode : 1992PhRvA..45.6056S. doi : 10.1103/PhysRevA.45.6056. PMID  9907706.
  22. ^ abcdefghij Кротов, Дмитрий; Хопфилд, Джон (2016). «Плотная ассоциативная память для распознавания образов». Neural Information Processing Systems . 29 : 1172–1180. arXiv : 1606.01164 .
  23. ^ abcd Мете, Демирсигил и др. (2017). «О модели ассоциативной памяти с огромной емкостью хранения». Журнал статистической физики . 168 (2): 288–299. arXiv : 1702.01929 . Bibcode : 2017JSP...168..288D. doi : 10.1007/s10955-017-1806-y. S2CID  119317128.
  24. ^ abcde Рамзауэр, Хуберт; и др. (2021). «Сети Хопфилда — это все, что вам нужно». Международная конференция по представлениям обучения . arXiv : 2008.02217 .
  25. ^ abcdefghijk Кротов, Дмитрий; Хопфилд, Джон (2021). «Проблема большой ассоциативной памяти в нейробиологии и машинном обучении». Международная конференция по представлениям обучения . arXiv : 2008.06996 .
  26. ^ Хопфилд, Дж. Дж. (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями». Труды Национальной академии наук . 79 (8): 2554–2558. Bibcode : 1982PNAS...79.2554H. doi : 10.1073/pnas.79.8.2554 . PMC 346238. PMID  6953413 . 
  27. ^ MacKay, David JC (2003). "42. Сети Хопфилда". Теория информации, вывод и алгоритмы обучения . Cambridge University Press . стр. 508. ISBN 978-0521642989. Это доказательство сходимости в решающей степени зависит от того факта, что соединения сети Хопфилда симметричны . Оно также зависит от асинхронности обновлений.
  28. ^ abc Bruck, J. (октябрь 1990 г.). «О свойствах сходимости модели Хопфилда». Proc. IEEE . 78 (10): 1579–85. doi :10.1109/5.58341.
  29. ^ abcde Uykan, Z. (сентябрь 2020 г.). «О принципе работы нейронных сетей Хопфилда и его эквивалентности GADIA в оптимизации». IEEE Transactions on Neural Networks and Learning Systems . 31 (9): 3294–3304. doi :10.1109/TNNLS.2019.2940920. PMID  31603804. S2CID  204331533.
  30. ^ Uykan, Z. (март 2021 г.). «Минимизация/максимизация теневых отсечений и сложные нейронные сети Хопфилда». Труды IEEE по нейронным сетям и системам обучения . 32 (3): 1096–1109. doi : 10.1109/TNNLS.2020.2980237 . PMID  32310787. S2CID  216047831.
  31. ^ Хопфилд, Дж. Дж.; Танк, Д. В. (1985). «Нейронные вычисления решений в задачах оптимизации». Биологическая кибернетика . 52 (3): 141–6. doi :10.1007/BF00339943. PMID  4027280. S2CID  36483354.
  32. ^ Брук, Иегошуа; Гудман, Джозеф В. (1990-06-01). «О силе нейронных сетей для решения сложных проблем». Журнал сложности . 6 (2): 129–135. doi :10.1016/0885-064X(90)90001-T. ISSN  0885-064X.
  33. ^ ab Storkey, AJ; Valabregue, R. (1999). «Области притяжения нового правила обучения Хопфилда». Neural Networks . 12 (6): 869–876. CiteSeerX 10.1.1.19.4681 . doi :10.1016/S0893-6080(99)00038-6. PMID  12662662. 
  34. ^ Хебб 1949
  35. ^ Storkey, Amos (1997). «Увеличение емкости сети Хопфилда без ущерба для функциональности». Искусственные нейронные сети – ICANN'97 . Конспект лекций по информатике. Том 1327. Springer. С. 451–6. CiteSeerX 10.1.1.33.103 . doi :10.1007/BFb0020196. ISBN  978-3-540-69620-9.
  36. ^ ab Герц 1991
  37. ^ Брук, Дж.; Ройчоудхури, В. П. (1990). «О количестве ложных воспоминаний в модели Хопфилда (нейронная сеть)». Труды IEEE по теории информации . 36 (2): 393–397. doi :10.1109/18.52486.
  38. ^ Liou, C.-Y.; Lin, S.-L. (2006). «Конечная загрузка памяти в волосатых нейронах» (PDF) . Natural Computing . 5 (1): 15–42. doi :10.1007/s11047-004-5490-x. S2CID  35025761.
  39. ^ Liou, C.-Y.; Yuan, S.-K. (1999). «Устойчивая к ошибкам ассоциативная память». Биологическая кибернетика . 81 (4): 331–342. doi :10.1007/s004220050566. PMID  10541936. S2CID  6168346.
  40. ^ Юань, С.-К. (июнь 1997 г.). Расширение областей притяжения ассоциативной памяти (магистерская диссертация). Национальный университет Тайваня. 991010725609704786.
  41. ^ ABOUDIB, Ala; GRIPON, Vincent; JIANG, Xiaoran (2014). «Исследование алгоритмов поиска разреженных сообщений в сетях нейронных клик». COGNITIVE 2014: 6-я международная конференция по передовым когнитивным технологиям и приложениям . С. 140–6. arXiv : 1308.4506 . Bibcode : 2013arXiv1308.4506A.
  42. ^ Амит, DJ (1992). Моделирование функций мозга: мир аттракторных нейронных сетей. Cambridge University Press. ISBN 978-0-521-42124-9.
  43. ^ Роллс, Эдмунд Т. (2016). Кора головного мозга: принципы работы. Oxford University Press. ISBN 978-0-19-878485-2.
  44. ^ ab Хорн, Д.; Ашер, М. (1988). «Вместимость многосвязных моделей памяти». J. Phys. France . 49 (3): 389–395. doi :10.1051/jphys:01988004903038900.
  45. ^ abc Бернс, Томас; Фукаи, Томоки (2023). "Симплициальные сети Хопфилда". Международная конференция по представлениям обучения . 11. arXiv : 2305.05179 .
  46. ^ abcdefghi Кротов, Дмитрий (2021). «Иерархическая ассоциативная память». arXiv : 2107.06446 [cs.NE].

Внешние ссылки