stringtranslate.com

Катастрофическое вмешательство

Катастрофическая интерференция , также известная как катастрофическое забывание , — это тенденция искусственной нейронной сети внезапно и радикально забывать ранее изученную информацию при получении новой информации. [1] [2]

Нейронные сети являются важной частью коннекционистского подхода к когнитивной науке . Проблема катастрофических помех при моделировании человеческой памяти с помощью коннекционистских моделей была первоначально доведена до сведения научного сообщества исследованиями Макклоски и Коэна (1989), [1] и Рэтклиффа (1990). [2] Это радикальное проявление дилеммы «чувствительность-стабильность» [3] или дилеммы «стабильность-пластичность». [4] В частности, эти проблемы относятся к задаче создания искусственной нейронной сети, которая чувствительна к новой информации, но не нарушается ею.

Таблицы поиска и коннекционистские сети лежат на противоположных сторонах спектра пластичности стабильности. [5] Первые остаются полностью стабильными при наличии новой информации, но не обладают способностью к обобщению , т. е. выведению общих принципов из новых входных данных. С другой стороны, коннекционистские сети, такие как стандартная сеть обратного распространения, могут обобщать невидимые входные данные, но они чувствительны к новой информации. Модели обратного распространения можно сравнить с человеческой памятью , поскольку они обладают схожей способностью к обобщению [ необходима цитата ] , но эти сети часто демонстрируют меньшую стабильность, чем человеческая память. В частности, эти сети обратного распространения подвержены катастрофическим помехам. Это проблема при моделировании человеческой памяти, поскольку в отличие от этих сетей люди обычно не демонстрируют катастрофического забывания. [6]

История катастрофического вмешательства

Термин «катастрофическая интерференция» был первоначально введен Макклоски и Коэном (1989), но также был представлен вниманию научного сообщества исследованиями Рэтклиффа (1990). [2]

Проблема последовательного обучения: Макклоски и Коэн (1989)

Макклоски и Коэн (1989) отметили проблему катастрофических помех во время двух различных экспериментов с моделированием нейронной сети с обратным распространением ошибки.

В своем первом эксперименте они обучили стандартную нейронную сеть обратного распространения на одном обучающем наборе, состоящем из 17 однозначных задач на единицы (т. е. от 1 + 1 до 9 + 1 и от 1 + 2 до 1 + 9), пока сеть не смогла правильно представлять и реагировать на все из них. Ошибка между фактическим выходом и желаемым выходом неуклонно снижалась в ходе обучающих сеансов, что отражало то, что сеть научилась лучше представлять целевые выходы в ходе испытаний. Затем они обучили сеть на одном обучающем наборе, состоящем из 17 однозначных задач на двоек (т. е. от 2 + 1 до 2 + 9 и от 1 + 2 до 9 + 2), пока сеть не смогла правильно представлять и реагировать на все из них. Они отметили, что их процедура была похожа на то, как ребенок изучает факты сложения. После каждого обучающего испытания фактов двоек сеть проверялась на знание фактов сложения как единиц, так и двоек. Как и факты единиц, факты двоек легко усваивались сетью. Однако Макклоски и Коэн отметили, что сеть больше не могла правильно отвечать на задачи на сложение единиц даже после одной обучающей попытки задач на сложение двоек. Выходной шаблон, полученный в ответ на факты единиц, часто напоминал выходной шаблон для неправильного числа больше, чем выходной шаблон для правильного числа. Это считается радикальной ошибкой. Более того, задачи 2+1 и 2+1, которые были включены в оба обучающих набора, даже показали резкие нарушения во время первых обучающих попыток фактов двоек.

В своей второй модели коннекционизма Макклоски и Коэн попытались повторить исследование ретроактивной интерференции у людей Барнса и Андервуда (1959). Они обучили модель на списках AB и AC и использовали шаблон контекста во входном векторе (шаблон входа), чтобы различать списки. В частности, сеть была обучена отвечать правильным ответом B при предъявлении стимула A и шаблона контекста AB и отвечать правильным ответом C при предъявлении стимула A и шаблона контекста AC. Когда модель обучалась одновременно на элементах AB и AC, то сеть легко правильно выучила все ассоциации. При последовательном обучении сначала обучался список AB, а затем список AC. После каждого предъявления списка AC измерялась производительность как для списков AB, так и для списков AC. Они обнаружили, что объем обучения на списке AC в исследовании Барнса и Андервуда, который приводит к 50% правильных ответов, приводит к почти 0% правильных ответов сети обратного распространения. Более того, они обнаружили, что сеть имела тенденцию показывать ответы, которые выглядели как шаблон ответа C, когда сети было предложено дать шаблон ответа B. Это указывало на то, что список AC, по-видимому, перезаписал список AB. Это можно сравнить с изучением слова dog, за которым следует изучение слова stool, а затем обнаружение того, что вы думаете о слове stool, когда вам предъявляют слово dog.

Макклоски и Коэн пытались уменьшить помехи с помощью ряда манипуляций, включая изменение количества скрытых единиц, изменение значения параметра скорости обучения, переобучение по списку AB, замораживание определенных весов соединений, изменение целевых значений 0 и 1 вместо 0,1 и 0,9. Однако ни одна из этих манипуляций не уменьшила катастрофические помехи, демонстрируемые сетями, удовлетворительным образом.

В целом Макклоски и Коэн (1989) пришли к выводу, что:

Ограничения, накладываемые функциями обучения и забывания: Рэтклифф (1990)

Ратклифф (1990) использовал несколько наборов моделей обратного распространения, применяемых к стандартным процедурам памяти распознавания, в которых элементы последовательно изучались. [2] После проверки моделей производительности распознавания он обнаружил две основные проблемы:

Даже одно испытание обучения с новой информацией привело к значительной потере старой информации, что соответствует выводам Макклоски и Коэна (1989). [1] Рэтклифф также обнаружил, что полученные результаты часто представляли собой смесь предыдущего ввода и нового ввода. В более крупных сетях элементы, изученные в группах (например, AB, затем CD), были более устойчивы к забыванию, чем элементы, изученные по отдельности (например, A, затем B, затем C...). Однако забывание элементов, изученных в группах, все еще было большим. Добавление новых скрытых единиц в сеть не уменьшило помех.

Это открытие противоречит исследованиям человеческой памяти, которые показали, что дискриминация увеличивается с обучением. Рэтклифф попытался облегчить эту проблему, добавив «узлы ответа», которые бы выборочно реагировали на старые и новые входы. Однако этот метод не сработал, поскольку эти узлы ответа становились активными для всех входов. Модель, которая использовала шаблон контекста, также не смогла увеличить дискриминацию между новыми и старыми элементами.

Предлагаемые решения

Основной причиной катастрофических помех, по-видимому, является перекрытие представлений на скрытом уровне распределенных нейронных сетей. [8] [9] [10] В распределенном представлении каждый вход имеет тенденцию создавать изменения в весах многих узлов. Катастрофическое забывание происходит, потому что, когда многие веса, где «хранятся знания», изменяются, маловероятно, что предыдущие знания останутся нетронутыми. Во время последовательного обучения входы смешиваются, и новые входы накладываются поверх старых. [9] Другой способ концептуализировать это — визуализировать обучение как движение через пространство весов. [11] Это пространство весов можно сравнить с пространственным представлением всех возможных комбинаций весов, которыми может обладать сеть. Когда сеть впервые учится представлять набор шаблонов, она находит точку в пространстве весов, которая позволяет ей распознавать все эти шаблоны. [10] Однако, когда сеть затем узнает новый набор шаблонов, она переместится в такое место в пространстве весов, для которого единственной заботой будет распознавание новых шаблонов. [10] Чтобы распознать оба набора шаблонов, сеть должна найти место в пространстве весов, подходящее для распознавания как новых, так и старых шаблонов.

Ниже приведен ряд методов, которые имеют эмпирическую поддержку для успешного снижения катастрофических помех в нейронных сетях обратного распространения:

Ортогональность

Многие из ранних методов снижения перекрытия представлений включали создание либо входных векторов, либо скрытых шаблонов активации единиц, ортогональных друг другу. Левандовски и Ли (1995) [12] отметили, что помехи между последовательно изученными шаблонами минимизируются, если входные векторы ортогональны друг другу. Входные векторы называются ортогональными друг другу, если попарное произведение их элементов по двум векторам в сумме равно нулю. Например, шаблоны [0,0,1,0] и [0,1,0,0] называются ортогональными, потому что (0×0 + 0×1 + 1×0 + 0×0) = 0. Один из методов, который может создавать ортогональные представления на скрытых слоях, включает биполярное кодирование признаков (т. е. кодирование с использованием -1 и 1, а не 0 и 1). [10] Ортогональные шаблоны, как правило, создают меньше помех друг другу. Однако не все проблемы обучения можно представить с использованием векторов такого типа, и некоторые исследования показывают, что степень интерференции все еще остается проблематичной при использовании ортогональных векторов. [2]

Техника заточки узлов

Согласно Френчу (1991), [8] катастрофические помехи возникают в сетях прямого распространения с обратным распространением из-за взаимодействия активаций узлов или перекрытия активаций, которое происходит в распределенных представлениях на скрытом слое. Нейронные сети , которые используют очень локализованные представления, не показывают катастрофических помех из-за отсутствия перекрытия на скрытом слое. Поэтому Френч предположил, что уменьшение значения перекрытия активаций на скрытом слое уменьшит катастрофические помехи в распределенных сетях. В частности, он предположил, что это можно сделать путем изменения распределенных представлений на скрытом слое на «полураспределенные» представления. «Полураспределенное» представление имеет меньше скрытых узлов, которые активны, и/или более низкое значение активации для этих узлов для каждого представления, что сделает представления различных входов менее перекрывающимися на скрытом слое. Френч предположил, что это можно сделать с помощью «повышения активационной резкости» — метода, который немного увеличивает активацию определенного числа наиболее активных узлов в скрытом слое, немного уменьшает активацию всех остальных узлов, а затем изменяет веса входного и скрытого слоев, чтобы отразить эти изменения активации (аналогично обратному распространению ошибки).

Правило новизны

Кортге (1990) [13] предложил правило обучения для обучения нейронных сетей, называемое «правилом новизны», чтобы помочь смягчить катастрофические помехи. Как следует из названия, это правило помогает нейронной сети изучать только те компоненты нового входа, которые отличаются от старого входа. Следовательно, правило новизны изменяет только веса, которые ранее не были предназначены для хранения информации, тем самым уменьшая перекрытие в представлениях в скрытых единицах. Чтобы применить правило новизны, во время обучения входной шаблон заменяется вектором новизны, который представляет компоненты, которые отличаются. Когда правило новизны используется в стандартной сети обратного распространения, то нет или уменьшается забывание старых элементов, когда новые элементы представляются последовательно. [13] Однако ограничение заключается в том, что это правило может использоваться только с автокодировщиками или автоассоциативными сетями, в которых целевой ответ для выходного слоя идентичен входному шаблону.

Предварительное обучение сетей

Макрей и Хетерингтон (1993) [9] утверждали, что люди, в отличие от большинства нейронных сетей, не берутся за новые задачи обучения со случайным набором весов. Скорее, люди склонны привносить в задачу множество предыдущих знаний, и это помогает избежать проблемы помех. Они показали, что когда сеть предварительно обучается на случайной выборке данных до начала последовательной задачи обучения, эти предыдущие знания естественным образом ограничивают то, как новая информация может быть включена. Это происходит потому, что случайная выборка данных из домена с высокой степенью внутренней структуры, например, английского языка, обучение будет захватывать закономерности или повторяющиеся закономерности, обнаруженные в этом домене. Поскольку домен основан на закономерностях, недавно изученный элемент будет иметь тенденцию быть похожим на ранее изученную информацию, что позволит сети включать новые данные с небольшим вмешательством в существующие данные. В частности, входной вектор, который следует той же закономерности, что и ранее обученные данные, не должен вызывать радикально иную закономерность активации на скрытом слое или радикально изменять веса.

Репетиция

Робинс (1995) [14] описал, что катастрофическое забывание можно предотвратить с помощью механизмов повторения. Это означает, что при добавлении новой информации нейронная сеть переобучается на части ранее изученной информации. Однако в общем случае ранее изученная информация может быть недоступна для такого переобучения. Решением для этого является «псевдо-репетиция», при которой сеть переобучается не на фактических предыдущих данных, а на их представлениях. Несколько методов основаны на этом общем механизме.

Рисунок 2: Архитектура псевдорекуррентной сети

Псевдо-рекуррентные сети

Френч (1997) предложил псевдорекуррентную сеть обратного распространения (см. Рисунок 2). [5] В этой модели сеть разделена на две функционально различные, но взаимодействующие подсети. Эта модель биологически вдохновлена ​​и основана на исследованиях Макклелланда и др. (1995) [15] Макклелланда и его коллеги предположили, что гиппокамп и неокортекс действуют как раздельные, но взаимодополняющие системы памяти, причем гиппокамп служит для хранения краткосрочной памяти , а неокортекс — для хранения долгосрочной памяти . Информация, изначально хранящаяся в гиппокампе, может быть «перенесена» в неокортекс посредством реактивации или воспроизведения. В псевдорекуррентной сети одна из подсетей действует как область ранней обработки, похожая на гиппокамп, и функционирует для изучения новых входных паттернов. Другая подсеть действует как область окончательного хранения, похожая на неокортекс. Однако, в отличие от Макклелланда и др. (1995) модель, область конечного хранения отправляет внутренне сгенерированное представление обратно в область ранней обработки. Это создает рекуррентную сеть. Френч предположил, что это чередование старых представлений с новыми представлениями является единственным способом уменьшить радикальное забывание. Поскольку мозг, скорее всего, не будет иметь доступа к исходным входным шаблонам, шаблоны, которые будут возвращаться в неокортекс, будут внутренне сгенерированными представлениями, называемыми псевдошаблонами . Эти псевдошаблоны являются приближениями предыдущих входных данных [14] , и их можно чередовать с изучением новых входных данных.

Самообновляющаяся память

Вдохновленные [14] и независимо от [5], Анс и Руссе (1997) [16] также предложили двухсетевую архитектуру искусственной нейронной сети с самообновлением памяти , которая преодолевает катастрофические помехи при выполнении последовательных задач обучения в распределенных сетях, обученных методом обратного распространения. Принцип заключается в том, чтобы изучать новые внешние шаблоны одновременно с внутренне сгенерированными псевдошаблонами или «псевдопамятями», которые отражают ранее изученную информацию. Что в основном отличает эту модель от тех, которые используют классическую псевдорепетицию [14] [5] в многослойных сетях прямого распространения, так это реверберирующий процесс [ необходимо дополнительное объяснение ] , который используется для генерации псевдошаблонов. После ряда повторных инъекций активности из одного случайного начального числа этот процесс имеет тенденцию подниматься до нелинейных сетевых аттракторов , которые более подходят для оптимального захвата глубокой структуры знаний, распределенных в весах связей, чем одиночный проход активности прямого распространения, используемый в псевдорепетиции. Процедура самообновления памяти оказалась очень эффективной в процессах переноса [17] и в последовательном обучении временным последовательностям паттернов без катастрофического забывания. [18]

Генеративное воспроизведение

В последние годы псевдорепетиция вновь обрела популярность благодаря прогрессу в возможностях глубоких генеративных моделей . Когда такие глубокие генеративные модели используются для генерации «псевдоданных», которые должны быть репетированы, этот метод обычно называют генеративным воспроизведением. [19] Такое генеративное воспроизведение может эффективно предотвратить катастрофическое забывание, особенно когда воспроизведение выполняется в скрытых слоях, а не на входном уровне. [20] [21]

Спонтанное воспроизведение

Понимание механизмов консолидации памяти во время процессов сна в мозге человека и животных привело к другим биологически вдохновленным подходам. В то время как декларативные воспоминания в классической картине консолидируются гиппокампально-неокортикальным диалогом во время фазы NREM сна (см. выше), было предложено, что некоторые типы процедурных воспоминаний не полагаются на гиппокамп и включают фазу REM сна (например, [22] , но см. [23] для сложности темы). Это вдохновило модели, в которых внутренние представления (воспоминания), созданные предыдущим обучением, спонтанно воспроизводятся во время периодов, подобных сну, в самой сети [24] [25] (т. е. без помощи вторичной сети, выполняемой подходами генеративного воспроизведения, упомянутыми выше).

Скрытое обучение

Латентное обучение — это метод, используемый Гутштейном и Стампом (2015) [26] для смягчения катастрофических помех с помощью трансферного обучения . Этот подход пытается найти оптимальные кодировки для любых новых классов, которые должны быть изучены, так, чтобы они с наименьшей вероятностью катастрофически мешали существующим ответам. Учитывая сеть, которая научилась различать один набор классов с помощью выходных кодов с коррекцией ошибок (ECOC) [27] (в отличие от 1 hot codes ), оптимальные кодировки для новых классов выбираются путем наблюдения за средними ответами сети на них. Поскольку эти средние ответы возникли при изучении исходного набора классов без какого-либо воздействия новых классов , их называют «латентно усвоенными кодировками». Эта терминология заимствована из концепции латентного обучения , введенной Толменом в 1930 году. [28] По сути, эта техника использует трансферное обучение, чтобы избежать катастрофических помех, делая ответы сети на новые классы максимально согласованными с существующими ответами на уже изученные классы.

Упругая консолидация веса

Киркпатрик и др. (2017) [29] предложили упругую консолидацию веса (EWC), метод последовательного обучения одной искусственной нейронной сети на нескольких задачах. Этот метод предполагает, что некоторые веса обученной нейронной сети более важны для ранее изученных задач, чем другие. Во время обучения нейронной сети на новой задаче изменения весов сети становятся менее вероятными, чем больше их важность. Для оценки важности весов сети EWC использует вероятностные механизмы, в частности информационную матрицу Фишера, но это можно сделать и другими способами. [30] [31] [32]

Смотрите также

Ссылки

  1. ^ abc Макклоски, Майкл; Коэн, Нил Дж. (1989). Катастрофическая интерференция в коннекционистских сетях: проблема последовательного обучения . Психология обучения и мотивации. Т. 24. С. 109–165. doi :10.1016/S0079-7421(08)60536-8. ISBN 978-0-12-543324-2.
  2. ^ abcde Ratcliff, Roger (1990). «Коннекционистские модели памяти распознавания: ограничения, налагаемые функциями обучения и забывания». Psychological Review . 97 (2): 285–308. doi :10.1037/0033-295x.97.2.285. PMID  2186426. S2CID  18556305.
  3. ^ Хебб, Дональд Олдинг (1949). Организация поведения: нейропсихологическая теория . Wiley. ISBN 978-0-471-36727-7. OCLC  569043119.[ нужна страница ]
  4. ^ Карпентер, Гейл А.; Гроссберг, Стивен (1 декабря 1987 г.). «ART 2: самоорганизация кодов распознавания стабильной категории для аналоговых входных паттернов». Applied Optics . 26 (23): 4919–4930. Bibcode :1987ApOpt..26.4919C. doi :10.1364/AO.26.004919. PMID  20523470.
  5. ^ abcd French, Robert M (декабрь 1997 г.). «Псевдорекуррентные коннекционистские сети: подход к дилемме «чувствительность-устойчивость»». Connection Science . 9 (4): 353–380. doi : 10.1080/095400997116595 .
  6. ^ Гонсалес, Оскар С.; Соколов, Юрий; Кришнан, Гири П.; Делануа, Жан Эрик; Баженов, Максим (4 августа 2020 г.). «Может ли сон защитить воспоминания от катастрофического забывания?». eLife . 9 : e51005. doi : 10.7554/eLife.51005 . PMC 7440920. PMID  32748786 . 
  7. ^ Барнс, Джин М.; Андервуд, Бентон Дж. (август 1959 г.).«Судьба» ассоциаций первого списка в теории переноса». Журнал экспериментальной психологии . 58 (2): 97–105. doi :10.1037/h0047507. PMID  13796886.
  8. ^ ab French, Robert M. (1991). Использование полураспределенных представлений для преодоления катастрофического забывания в коннекционистских сетях (PDF) . Труды 13-й ежегодной конференции Cognitive Science Society. Нью-Джерси: Lawrence Erlbaum. стр. 173–178. CiteSeerX 10.1.1.1040.3564 . 
  9. ^ abc "Катастрофические помехи устраняются в предварительно обученных сетях". Труды пятнадцатой ежегодной конференции Общества когнитивной науки: 18–21 июня 1993 г., Институт когнитивной науки, Университет Колорадо-Боулдер . Psychology Press. 1993. С. 723–728. ISBN 978-0-8058-1487-3.
  10. ^ abcd French, R (1 апреля 1999 г.). «Катастрофическое забывание в коннекционистских сетях». Тенденции в когнитивных науках . 3 (4): 128–135. doi :10.1016/S1364-6613(99)01294-2. PMID  10322466. S2CID  2691726.
  11. ^ Левандовски, Стефан (1991). «Постепенное отвыкание от обучения и катастрофическое вмешательство: сравнение распределенных архитектур». В Хокли, Уильям Э.; Левандовски, Стефан (ред.). Связь теории и данных: очерки о человеческой памяти в честь Беннета Б. Мердока . Psychology Press. стр. 445–476. ISBN 978-1-317-76013-9.
  12. ^ Левандовски, Стефан; Ли, Шу-Чен (1995). «Катастрофическая интерференция в нейронных сетях». Интерференция и торможение в познании . стр. 329–361. doi :10.1016/B978-012208930-5/50011-8. ISBN 978-0-12-208930-5.
  13. ^ ab Kortge, CA (1990). Эпизодическая память в коннекционистских сетях. В: Двенадцатая ежегодная конференция Общества когнитивной науки , (стр. 764-771). Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
  14. ^ abcd Робинс, Энтони (июнь 1995 г.). «Катастрофическое забывание, репетиция и псевдорепетиция». Connection Science . 7 (2): 123–146. doi :10.1080/09540099550039318. S2CID  22882861.
  15. ^ Макклелланд, Джеймс Л.; Макнотон, Брюс Л.; О'Рейли, Рэндалл К. (июль 1995 г.). «Почему существуют дополнительные системы обучения в гиппокампе и неокортексе: выводы из успехов и неудач коннекционистских моделей обучения и памяти». Psychological Review . 102 (3): 419–457. doi :10.1037/0033-295X.102.3.419. PMID  7624455. S2CID  2832081.
  16. ^ Анс, Бернард; Руссе, Стефан (декабрь 1997 г.). «Как избежать катастрофического забывания путем объединения двух реверберирующих нейронных сетей». Comptes Rendus de l'Académie des Sciences, Série III . 320 (12): 989–997. Бибкод : 1997CRASG.320..989A. дои : 10.1016/S0764-4469(97)82472-9.
  17. ^ Анс, Бернар; Руссе, Стефан (март 2000 г.). «Нейронные сети с самообновляющейся памятью: передача знаний в последовательных задачах обучения без катастрофического забывания». Connection Science . 12 (1): 1–19. doi :10.1080/095400900116177. S2CID  7019649.
  18. ^ Анс, Бернар; Руссе, Стефан; Френч, Роберт М.; Муска, Сербан (июнь 2004 г.). «Самообновляющаяся память в искусственных нейронных сетях: изучение временных последовательностей без катастрофического забывания». Connection Science . 16 (2): 71–99. doi : 10.1080/09540090412331271199 . S2CID  13462914.
  19. ^ Мокану, Дечебаль Константин; Торрес Вега, Мария; Итон, Эрик; Стоун, Питер; Лиотта, Антонио (18 октября 2016 г.). «Онлайн-контрастное расхождение с генеративным воспроизведением: воспроизведение опыта без хранения данных». arXiv : 1610.05555 [cs.LG].
  20. ^ Шин, Ханул; Ли, Чон Квон; Ким, Джехонг; Ким, Дживон (декабрь 2017 г.). Непрерывное обучение с глубоким генеративным воспроизведением. NIPS'17: Труды 31-й Международной конференции по нейронным системам обработки информации. Curran Associates. стр. 2994–3003. ISBN 978-1-5108-6096-4.
  21. ^ ван де Вен, Гидо М.; Сигельманн, Хава Т.; Толиас, Андреас С. (13 августа 2020 г.). «Воспроизведение, вдохновленное мозгом, для непрерывного обучения с помощью искусственных нейронных сетей». Nature Communications . 11 (1): 4069. Bibcode :2020NatCo..11.4069V. doi :10.1038/s41467-020-17866-2. PMC 7426273 . PMID  32792531. 
  22. ^ Макдевитт, Элизабет А.; Дагган, Кэтрин А.; Медник, Сара К. (2015-07-01). «Быстрый сон спасает обучение от помех». Нейробиология обучения и памяти . Быстрый сон и память. 122 : 51–62. doi :10.1016/j.nlm.2014.11.015. ISSN  1074-7427. PMC 4704701 . PMID  25498222. 
  23. ^ MacDonald, Kevin J.; Cote, Kimberly A. (2021-10-01). «Вклад REM- и NREM-сна после обучения в восстановление памяти». Sleep Medicine Reviews . 59 : 101453. doi : 10.1016/j.smrv.2021.101453. hdl : 10464/17792 . ISSN  1087-0792. PMID  33588273.
  24. ^ Голден, Райан; Делануа, Жан Эрик; Санда, Павел; Баженов, Максим (18.11.2022). «Сон предотвращает катастрофическое забывание в импульсных нейронных сетях, формируя совместное представление синаптического веса». PLOS Computational Biology . 18 (11): e1010628. Bibcode : 2022PLSCB..18E0628G. doi : 10.1371/journal.pcbi.1010628 . ISSN  1553-7358. PMC 9674146. PMID 36399437  . 
  25. ^ Тадрос, Тимоти; Кришнан, Гири П.; Рамьяа, Рамьяа; Баженов, Максим (2022-12-15). «Неконтролируемое воспроизведение, похожее на сон, снижает катастрофическую забывчивость в искусственных нейронных сетях». Nature Communications . 13 (1): 7742. Bibcode :2022NatCo..13.7742T. doi :10.1038/s41467-022-34938-7. ISSN  2041-1723. PMC 9755223 . PMID  36522325. 
  26. ^ Гутштейн, Стивен; Стамп, Итан (2015). «Сокращение катастрофического забывания с помощью трансферного обучения и троичных выходных кодов». Международная объединенная конференция по нейронным сетям (IJCNN) 2015 г. . стр. 1–8. doi :10.1109/IJCNN.2015.7280416. ISBN 978-1-4799-1960-4. S2CID  18745466.
  27. ^ Дитерих, TG; Бакири, G. (1 января 1995 г.). «Решение задач многоклассового обучения с помощью выходных кодов с исправлением ошибок». Журнал исследований искусственного интеллекта . 2 : 263–286. arXiv : cs/9501101 . doi : 10.1613/jair.105 . S2CID  47109072.
  28. ^ Толман, EC; Хонзик, CH (1930).«Проницательность» у крыс». Публикации по психологии . 4. Калифорнийский университет: 215–232.
  29. ^ Киркпатрик, Джеймс; Паскану, Разван; Рабинович, Нил; Венесс, Джоэл; Дежарденс, Гийом; Русу, Андрей А.; Милан, Киран; Куан, Джон; Рамальо, Тиаго; Грабска-Барвинска, Агнешка; Хассабис, Демис; Клопат, Клаудия; Кумаран, Дхаршан; Хадселл, Райя (14 марта 2017 г.). «Преодоление катастрофического забывания в нейронных сетях». Труды Национальной академии наук . 114 (13): 3521–3526. arXiv : 1612.00796 . Bibcode :2017PNAS..114.3521K. doi : 10.1073/pnas.1611835114 . PMC 5380101. PMID  28292907 . 
  30. ^ Зенке, Фридеманн; Пул, Бен; Гангули, Сурья (2017). «Непрерывное обучение посредством синаптического интеллекта». Труды исследований машинного обучения . 70 : 3987–3995. arXiv : 1703.04200 . PMC 6944509. PMID  31909397 . 
  31. ^ Aljundi, Rahaf; Babiloni, Francesca; Elhoseiny, Mohamed; Rohrbach, Marcus; Tuytelaars, Tinne (2018). «Memory Aware Synapses: Learning What (Not) to Forget» (Синапсы, осознающие память: изучение того, что (не) следует забывать). Computer Vision – ECCV 2018. Lecture Notes in Computer Science (Конспект лекций по информатике). Vol. 11207. pp. 144–161. arXiv : 1711.09601 . doi :10.1007/978-3-030-01219-9_9. ISBN 978-3-030-01218-2. S2CID  4254748.
  32. ^ Куталев, Алексей (2020). «Естественный способ преодоления катастрофического забывания в нейронных сетях». Современные информационные технологии и ИТ-образование . 16 (2): 331–337. arXiv : 2005.07107 . doi :10.25559/SITITO.16.202002.331-337. S2CID  218628670.