Катастрофическая интерференция , также известная как катастрофическое забывание , — это тенденция искусственной нейронной сети внезапно и радикально забывать ранее изученную информацию при получении новой информации. [1] [2]
Нейронные сети являются важной частью коннекционистского подхода к когнитивной науке . Проблема катастрофических помех при моделировании человеческой памяти с помощью коннекционистских моделей была первоначально доведена до сведения научного сообщества исследованиями Макклоски и Коэна (1989), [1] и Рэтклиффа (1990). [2] Это радикальное проявление дилеммы «чувствительность-стабильность» [3] или дилеммы «стабильность-пластичность». [4] В частности, эти проблемы относятся к задаче создания искусственной нейронной сети, которая чувствительна к новой информации, но не нарушается ею.
Таблицы поиска и коннекционистские сети лежат на противоположных сторонах спектра пластичности стабильности. [5] Первые остаются полностью стабильными при наличии новой информации, но не обладают способностью к обобщению , т. е. выведению общих принципов из новых входных данных. С другой стороны, коннекционистские сети, такие как стандартная сеть обратного распространения, могут обобщать невидимые входные данные, но они чувствительны к новой информации. Модели обратного распространения можно сравнить с человеческой памятью , поскольку они обладают схожей способностью к обобщению [ необходима цитата ] , но эти сети часто демонстрируют меньшую стабильность, чем человеческая память. В частности, эти сети обратного распространения подвержены катастрофическим помехам. Это проблема при моделировании человеческой памяти, поскольку в отличие от этих сетей люди обычно не демонстрируют катастрофического забывания. [6]
Термин «катастрофическая интерференция» был первоначально введен Макклоски и Коэном (1989), но также был представлен вниманию научного сообщества исследованиями Рэтклиффа (1990). [2]
Макклоски и Коэн (1989) отметили проблему катастрофических помех во время двух различных экспериментов с моделированием нейронной сети с обратным распространением ошибки.
В своем первом эксперименте они обучили стандартную нейронную сеть обратного распространения на одном обучающем наборе, состоящем из 17 однозначных задач на единицы (т. е. от 1 + 1 до 9 + 1 и от 1 + 2 до 1 + 9), пока сеть не смогла правильно представлять и реагировать на все из них. Ошибка между фактическим выходом и желаемым выходом неуклонно снижалась в ходе обучающих сеансов, что отражало то, что сеть научилась лучше представлять целевые выходы в ходе испытаний. Затем они обучили сеть на одном обучающем наборе, состоящем из 17 однозначных задач на двоек (т. е. от 2 + 1 до 2 + 9 и от 1 + 2 до 9 + 2), пока сеть не смогла правильно представлять и реагировать на все из них. Они отметили, что их процедура была похожа на то, как ребенок изучает факты сложения. После каждого обучающего испытания фактов двоек сеть проверялась на знание фактов сложения как единиц, так и двоек. Как и факты единиц, факты двоек легко усваивались сетью. Однако Макклоски и Коэн отметили, что сеть больше не могла правильно отвечать на задачи на сложение единиц даже после одной обучающей попытки задач на сложение двоек. Выходной шаблон, полученный в ответ на факты единиц, часто напоминал выходной шаблон для неправильного числа больше, чем выходной шаблон для правильного числа. Это считается радикальной ошибкой. Более того, задачи 2+1 и 2+1, которые были включены в оба обучающих набора, даже показали резкие нарушения во время первых обучающих попыток фактов двоек.
В своей второй модели коннекционизма Макклоски и Коэн попытались повторить исследование ретроактивной интерференции у людей Барнса и Андервуда (1959). Они обучили модель на списках AB и AC и использовали шаблон контекста во входном векторе (шаблон входа), чтобы различать списки. В частности, сеть была обучена отвечать правильным ответом B при предъявлении стимула A и шаблона контекста AB и отвечать правильным ответом C при предъявлении стимула A и шаблона контекста AC. Когда модель обучалась одновременно на элементах AB и AC, то сеть легко правильно выучила все ассоциации. При последовательном обучении сначала обучался список AB, а затем список AC. После каждого предъявления списка AC измерялась производительность как для списков AB, так и для списков AC. Они обнаружили, что объем обучения на списке AC в исследовании Барнса и Андервуда, который приводит к 50% правильных ответов, приводит к почти 0% правильных ответов сети обратного распространения. Более того, они обнаружили, что сеть имела тенденцию показывать ответы, которые выглядели как шаблон ответа C, когда сети было предложено дать шаблон ответа B. Это указывало на то, что список AC, по-видимому, перезаписал список AB. Это можно сравнить с изучением слова dog, за которым следует изучение слова stool, а затем обнаружение того, что вы думаете о слове stool, когда вам предъявляют слово dog.
Макклоски и Коэн пытались уменьшить помехи с помощью ряда манипуляций, включая изменение количества скрытых единиц, изменение значения параметра скорости обучения, переобучение по списку AB, замораживание определенных весов соединений, изменение целевых значений 0 и 1 вместо 0,1 и 0,9. Однако ни одна из этих манипуляций не уменьшила катастрофические помехи, демонстрируемые сетями, удовлетворительным образом.
В целом Макклоски и Коэн (1989) пришли к выводу, что:
Ратклифф (1990) использовал несколько наборов моделей обратного распространения, применяемых к стандартным процедурам памяти распознавания, в которых элементы последовательно изучались. [2] После проверки моделей производительности распознавания он обнаружил две основные проблемы:
Даже одно испытание обучения с новой информацией привело к значительной потере старой информации, что соответствует выводам Макклоски и Коэна (1989). [1] Рэтклифф также обнаружил, что полученные результаты часто представляли собой смесь предыдущего ввода и нового ввода. В более крупных сетях элементы, изученные в группах (например, AB, затем CD), были более устойчивы к забыванию, чем элементы, изученные по отдельности (например, A, затем B, затем C...). Однако забывание элементов, изученных в группах, все еще было большим. Добавление новых скрытых единиц в сеть не уменьшило помех.
Это открытие противоречит исследованиям человеческой памяти, которые показали, что дискриминация увеличивается с обучением. Рэтклифф попытался облегчить эту проблему, добавив «узлы ответа», которые бы выборочно реагировали на старые и новые входы. Однако этот метод не сработал, поскольку эти узлы ответа становились активными для всех входов. Модель, которая использовала шаблон контекста, также не смогла увеличить дискриминацию между новыми и старыми элементами.
Основной причиной катастрофических помех, по-видимому, является перекрытие представлений на скрытом уровне распределенных нейронных сетей. [8] [9] [10] В распределенном представлении каждый вход имеет тенденцию создавать изменения в весах многих узлов. Катастрофическое забывание происходит, потому что, когда многие веса, где «хранятся знания», изменяются, маловероятно, что предыдущие знания останутся нетронутыми. Во время последовательного обучения входы смешиваются, и новые входы накладываются поверх старых. [9] Другой способ концептуализировать это — визуализировать обучение как движение через пространство весов. [11] Это пространство весов можно сравнить с пространственным представлением всех возможных комбинаций весов, которыми может обладать сеть. Когда сеть впервые учится представлять набор шаблонов, она находит точку в пространстве весов, которая позволяет ей распознавать все эти шаблоны. [10] Однако, когда сеть затем узнает новый набор шаблонов, она переместится в такое место в пространстве весов, для которого единственной заботой будет распознавание новых шаблонов. [10] Чтобы распознать оба набора шаблонов, сеть должна найти место в пространстве весов, подходящее для распознавания как новых, так и старых шаблонов.
Ниже приведен ряд методов, которые имеют эмпирическую поддержку для успешного снижения катастрофических помех в нейронных сетях обратного распространения:
Многие из ранних методов снижения перекрытия представлений включали создание либо входных векторов, либо скрытых шаблонов активации единиц, ортогональных друг другу. Левандовски и Ли (1995) [12] отметили, что помехи между последовательно изученными шаблонами минимизируются, если входные векторы ортогональны друг другу. Входные векторы называются ортогональными друг другу, если попарное произведение их элементов по двум векторам в сумме равно нулю. Например, шаблоны [0,0,1,0] и [0,1,0,0] называются ортогональными, потому что (0×0 + 0×1 + 1×0 + 0×0) = 0. Один из методов, который может создавать ортогональные представления на скрытых слоях, включает биполярное кодирование признаков (т. е. кодирование с использованием -1 и 1, а не 0 и 1). [10] Ортогональные шаблоны, как правило, создают меньше помех друг другу. Однако не все проблемы обучения можно представить с использованием векторов такого типа, и некоторые исследования показывают, что степень интерференции все еще остается проблематичной при использовании ортогональных векторов. [2]
Согласно Френчу (1991), [8] катастрофические помехи возникают в сетях прямого распространения с обратным распространением из-за взаимодействия активаций узлов или перекрытия активаций, которое происходит в распределенных представлениях на скрытом слое. Нейронные сети , которые используют очень локализованные представления, не показывают катастрофических помех из-за отсутствия перекрытия на скрытом слое. Поэтому Френч предположил, что уменьшение значения перекрытия активаций на скрытом слое уменьшит катастрофические помехи в распределенных сетях. В частности, он предположил, что это можно сделать путем изменения распределенных представлений на скрытом слое на «полураспределенные» представления. «Полураспределенное» представление имеет меньше скрытых узлов, которые активны, и/или более низкое значение активации для этих узлов для каждого представления, что сделает представления различных входов менее перекрывающимися на скрытом слое. Френч предположил, что это можно сделать с помощью «повышения активационной резкости» — метода, который немного увеличивает активацию определенного числа наиболее активных узлов в скрытом слое, немного уменьшает активацию всех остальных узлов, а затем изменяет веса входного и скрытого слоев, чтобы отразить эти изменения активации (аналогично обратному распространению ошибки).
Кортге (1990) [13] предложил правило обучения для обучения нейронных сетей, называемое «правилом новизны», чтобы помочь смягчить катастрофические помехи. Как следует из названия, это правило помогает нейронной сети изучать только те компоненты нового входа, которые отличаются от старого входа. Следовательно, правило новизны изменяет только веса, которые ранее не были предназначены для хранения информации, тем самым уменьшая перекрытие в представлениях в скрытых единицах. Чтобы применить правило новизны, во время обучения входной шаблон заменяется вектором новизны, который представляет компоненты, которые отличаются. Когда правило новизны используется в стандартной сети обратного распространения, то нет или уменьшается забывание старых элементов, когда новые элементы представляются последовательно. [13] Однако ограничение заключается в том, что это правило может использоваться только с автокодировщиками или автоассоциативными сетями, в которых целевой ответ для выходного слоя идентичен входному шаблону.
Макрей и Хетерингтон (1993) [9] утверждали, что люди, в отличие от большинства нейронных сетей, не берутся за новые задачи обучения со случайным набором весов. Скорее, люди склонны привносить в задачу множество предыдущих знаний, и это помогает избежать проблемы помех. Они показали, что когда сеть предварительно обучается на случайной выборке данных до начала последовательной задачи обучения, эти предыдущие знания естественным образом ограничивают то, как новая информация может быть включена. Это происходит потому, что случайная выборка данных из домена с высокой степенью внутренней структуры, например, английского языка, обучение будет захватывать закономерности или повторяющиеся закономерности, обнаруженные в этом домене. Поскольку домен основан на закономерностях, недавно изученный элемент будет иметь тенденцию быть похожим на ранее изученную информацию, что позволит сети включать новые данные с небольшим вмешательством в существующие данные. В частности, входной вектор, который следует той же закономерности, что и ранее обученные данные, не должен вызывать радикально иную закономерность активации на скрытом слое или радикально изменять веса.
Робинс (1995) [14] описал, что катастрофическое забывание можно предотвратить с помощью механизмов повторения. Это означает, что при добавлении новой информации нейронная сеть переобучается на части ранее изученной информации. Однако в общем случае ранее изученная информация может быть недоступна для такого переобучения. Решением для этого является «псевдо-репетиция», при которой сеть переобучается не на фактических предыдущих данных, а на их представлениях. Несколько методов основаны на этом общем механизме.
Френч (1997) предложил псевдорекуррентную сеть обратного распространения (см. Рисунок 2). [5] В этой модели сеть разделена на две функционально различные, но взаимодействующие подсети. Эта модель биологически вдохновлена и основана на исследованиях Макклелланда и др. (1995) [15] Макклелланда и его коллеги предположили, что гиппокамп и неокортекс действуют как раздельные, но взаимодополняющие системы памяти, причем гиппокамп служит для хранения краткосрочной памяти , а неокортекс — для хранения долгосрочной памяти . Информация, изначально хранящаяся в гиппокампе, может быть «перенесена» в неокортекс посредством реактивации или воспроизведения. В псевдорекуррентной сети одна из подсетей действует как область ранней обработки, похожая на гиппокамп, и функционирует для изучения новых входных паттернов. Другая подсеть действует как область окончательного хранения, похожая на неокортекс. Однако, в отличие от Макклелланда и др. (1995) модель, область конечного хранения отправляет внутренне сгенерированное представление обратно в область ранней обработки. Это создает рекуррентную сеть. Френч предположил, что это чередование старых представлений с новыми представлениями является единственным способом уменьшить радикальное забывание. Поскольку мозг, скорее всего, не будет иметь доступа к исходным входным шаблонам, шаблоны, которые будут возвращаться в неокортекс, будут внутренне сгенерированными представлениями, называемыми псевдошаблонами . Эти псевдошаблоны являются приближениями предыдущих входных данных [14] , и их можно чередовать с изучением новых входных данных.
Вдохновленные [14] и независимо от [5], Анс и Руссе (1997) [16] также предложили двухсетевую архитектуру искусственной нейронной сети с самообновлением памяти , которая преодолевает катастрофические помехи при выполнении последовательных задач обучения в распределенных сетях, обученных методом обратного распространения. Принцип заключается в том, чтобы изучать новые внешние шаблоны одновременно с внутренне сгенерированными псевдошаблонами или «псевдопамятями», которые отражают ранее изученную информацию. Что в основном отличает эту модель от тех, которые используют классическую псевдорепетицию [14] [5] в многослойных сетях прямого распространения, так это реверберирующий процесс [ необходимо дополнительное объяснение ] , который используется для генерации псевдошаблонов. После ряда повторных инъекций активности из одного случайного начального числа этот процесс имеет тенденцию подниматься до нелинейных сетевых аттракторов , которые более подходят для оптимального захвата глубокой структуры знаний, распределенных в весах связей, чем одиночный проход активности прямого распространения, используемый в псевдорепетиции. Процедура самообновления памяти оказалась очень эффективной в процессах переноса [17] и в последовательном обучении временным последовательностям паттернов без катастрофического забывания. [18]
В последние годы псевдорепетиция вновь обрела популярность благодаря прогрессу в возможностях глубоких генеративных моделей . Когда такие глубокие генеративные модели используются для генерации «псевдоданных», которые должны быть репетированы, этот метод обычно называют генеративным воспроизведением. [19] Такое генеративное воспроизведение может эффективно предотвратить катастрофическое забывание, особенно когда воспроизведение выполняется в скрытых слоях, а не на входном уровне. [20] [21]
Понимание механизмов консолидации памяти во время процессов сна в мозге человека и животных привело к другим биологически вдохновленным подходам. В то время как декларативные воспоминания в классической картине консолидируются гиппокампально-неокортикальным диалогом во время фазы NREM сна (см. выше), было предложено, что некоторые типы процедурных воспоминаний не полагаются на гиппокамп и включают фазу REM сна (например, [22] , но см. [23] для сложности темы). Это вдохновило модели, в которых внутренние представления (воспоминания), созданные предыдущим обучением, спонтанно воспроизводятся во время периодов, подобных сну, в самой сети [24] [25] (т. е. без помощи вторичной сети, выполняемой подходами генеративного воспроизведения, упомянутыми выше).
Латентное обучение — это метод, используемый Гутштейном и Стампом (2015) [26] для смягчения катастрофических помех с помощью трансферного обучения . Этот подход пытается найти оптимальные кодировки для любых новых классов, которые должны быть изучены, так, чтобы они с наименьшей вероятностью катастрофически мешали существующим ответам. Учитывая сеть, которая научилась различать один набор классов с помощью выходных кодов с коррекцией ошибок (ECOC) [27] (в отличие от 1 hot codes ), оптимальные кодировки для новых классов выбираются путем наблюдения за средними ответами сети на них. Поскольку эти средние ответы возникли при изучении исходного набора классов без какого-либо воздействия новых классов , их называют «латентно усвоенными кодировками». Эта терминология заимствована из концепции латентного обучения , введенной Толменом в 1930 году. [28] По сути, эта техника использует трансферное обучение, чтобы избежать катастрофических помех, делая ответы сети на новые классы максимально согласованными с существующими ответами на уже изученные классы.
Киркпатрик и др. (2017) [29] предложили упругую консолидацию веса (EWC), метод последовательного обучения одной искусственной нейронной сети на нескольких задачах. Этот метод предполагает, что некоторые веса обученной нейронной сети более важны для ранее изученных задач, чем другие. Во время обучения нейронной сети на новой задаче изменения весов сети становятся менее вероятными, чем больше их важность. Для оценки важности весов сети EWC использует вероятностные механизмы, в частности информационную матрицу Фишера, но это можно сделать и другими способами. [30] [31] [32]