Внимание (машинное обучение)

Внимание , основанное на машинном обучении, — это механизм, который интуитивно имитирует когнитивное внимание . Он вычисляет «мягкие» веса для каждого слова, точнее для его встраивания , в окно контекста . Эти веса могут вычисляться либо параллельно (например, в трансформаторах ), либо последовательно (например, в рекуррентных нейронных сетях ). «Мягкие» веса могут меняться во время каждого выполнения, в отличие от «жестких» весов, которые (предварительно) обучаются и настраиваются, а затем остаются замороженными.

Внимание было обращено на устранение недостатков использования информации со скрытых выходов рекуррентных нейронных сетей. Рекуррентные нейронные сети отдают предпочтение более свежей информации, содержащейся в словах в конце предложения, тогда как ожидается, что информация в начале предложения будет ослаблена . Внимание позволяет вычислить скрытое представление токена, равное доступу к любой части предложения напрямую, а не только через предыдущее скрытое состояние.

Ранее использование этого механизма прикрепляло этот механизм к системе языкового перевода последовательной рекуррентной нейронной сети (ниже), но более позднее использование в больших языковых моделях Transformers удалило рекуррентную нейронную сеть и в значительной степени полагалось на более быструю схему параллельного внимания.

Предшественники

Предшественники механизма использовались в рекуррентных нейронных сетях, которые, однако, вычисляли «мягкие» веса последовательно и на каждом шаге учитывали текущее слово и другие слова в пределах контекстного окна. Они были известны как мультипликативные модули , сигма-пи - единицы ^[1] и гиперсети . ^[2] Они использовались в сетях долговременной краткосрочной памяти (LSTM), мультисенсорной обработке данных (звука, изображений, видео и текста) в воспринимающих устройствах , быстрой памяти контроллера веса, ^[3] задачах рассуждения в дифференцируемых нейронных компьютерах. и нейронные машины Тьюринга . ^[4]^[5]^[6]^[7]^[8]

Основные расчеты

Сеть внимания была разработана для выявления наиболее высоких корреляций между словами в предложении, при условии, что она усвоила эти шаблоны из обучающего корпуса. Эта корреляция фиксируется в весах нейронов посредством обратного распространения ошибки либо в результате предварительной тренировки с самоконтролем, либо в результате контролируемой точной настройки.

В приведенном ниже примере (вариант сети внимания QKV только для кодировщика) показано, как корреляции идентифицируются после того, как сеть обучена и имеет правильные веса. Глядя на слово «это» в предложении «вижу, как бежит девушка», сеть должна быть в состоянии идентифицировать «девушку» как сильно коррелированное слово. Для простоты в этом примере основное внимание уделяется слову «это», но на самом деле все слова обрабатываются параллельно, а полученные мягкие веса и векторы контекста складываются в матрицы для дальнейшего использования в конкретной задаче.

Подсети Q _w и K _w одной «головы внимания» вычисляют мягкие веса, происходящие от слова «это». (Вариант QKV только для кодера).

Предложение отправляется через три параллельных потока (слева), которые в конце появляются как вектор контекста (справа). Размер встраивания слова составляет 300, а количество нейронов — 100 в каждой подсети головы внимания.

Заглавная буква $X$ обозначает матрицу размером 4×300, состоящую из вложений всех четырех слов.
Маленькая подчеркнутая буква $x$ обозначает вектор внедрения (размером 300) слова «это».
Голова внимания включает три (расположенные на рисунке вертикально) подсети, каждая из которых имеет 100 нейронов, имеющих Wq, Wk и $Wv$ $соответствующие$ весовые $матрицы,$ $все$ они имеют размер 300 × 100 $.$
$q$ (от «запрос») — вектор размером 100, $K$ («ключ») и $V$ («значение») — матрицы 4x100.
Звездочка в скобках « $(*)$ » обозначает $softmax( qW k / \sqrt 100)$ . Результатом Softmax является вектор размером 4, который позже умножается на матрицу $V=XW v$ для получения вектора контекста.
Изменение масштаба на √ 100 предотвращает высокую дисперсию $qW k T$ , которая позволила бы одному слову чрезмерно доминировать над мягким максимумом, в результате чего внимание было бы сосредоточено только на одном слове, как это было бы при дискретном жестком максимуме.

Обозначение : широко написанная формула $softmax$ для строк, приведенная выше, предполагает, что векторы являются строками, что противоречит стандартным математическим обозначениям векторов-столбцов. Точнее, нам следует взять транспонирование вектора контекста и использовать $softmax$ по столбцам , что приведет к более правильной форме.

Контекст знак равно (XW v) Т \times softmax( (W k Икс Т) \times (Икс W q) Т / \sqrt 100)

Вектор запроса сравнивается (через скалярное произведение) с каждым словом в ключах. Это помогает модели обнаружить наиболее подходящее слово для слова запроса. В данном случае слово «девушка» было определено как наиболее подходящее слово для слова «это». Результат (в данном случае размер 4) обрабатывается функцией softmax , создавая вектор размера 4 с суммой вероятностей, равной 1. Умножение этого значения на матрицу значений эффективно усиливает сигнал для наиболее важных слов в предложении и уменьшает сигнал. для менее важных слов. ^[5]

Структура входных данных фиксируется весами $W q$ и $W k$ , а веса $W v$ выражают эту структуру с точки зрения более значимых функций для задачи, для которой проводится обучение. По этой причине компоненты «головы внимания» называются «Запрос» ( $W q$ ), «Ключ» ( $W k$ ) и «Значение» ( $W v$ ) — это неопределенная и, возможно, вводящая в заблуждение аналогия с системами реляционных баз данных .

Обратите внимание, что вектор контекста для слова «это» не зависит от векторов контекста для других слов; поэтому векторы контекста всех слов можно вычислить с использованием всей матрицы $X$ , которая включает в себя все вложения слов, вместо вектора встраивания одного слова $x$ в приведенной выше формуле, что позволяет распараллелить вычисления. Теперь softmax можно интерпретировать как softmax матрицы, действующей на отдельные строки. Это огромное преимущество перед рекуррентными сетями , которые должны работать последовательно.

Общая аналогия ключа запроса с запросами к базе данных предполагает асимметричную роль этих векторов, когда один интересующий элемент (запрос) сопоставляется со всеми возможными элементами (ключами). Однако параллельные вычисления сопоставляют все слова предложения сами с собой; поэтому роли этих векторов симметричны. Возможно, из-за того, что упрощенная аналогия с базой данных ошибочна, много усилий было потрачено на то, чтобы понять их роль в целенаправленных условиях, таких как контекстное обучение, ^[9] языковые задачи в масках, ^[10] урезанные преобразователи, ^[11] биграммы. статистика, ^[12] парные свертки, ^[13] и арифметический факторинг. ^[14]

Пример языкового перевода

Чтобы построить машину, которая переводит с английского на французский, к базовому кодировщику-декодеру прикрепляют блок внимания (схема ниже). В простейшем случае единица внимания состоит из скалярных произведений рекуррентных состояний кодера и не нуждается в обучении. На практике блок внимания состоит из трех обученных, полностью связанных слоев нейронной сети, называемых запросом, ключом и значением.

Пошаговая последовательность языкового перевода.

Кодер-декодер с вниманием. ^[15] Левая часть (черные линии) — это кодер-декодер, средняя часть (оранжевые линии) — блок внимания, а правая часть (серый и цветной) — это вычисленные данные. Серые области в матрице H и векторе w имеют нулевые значения. Числовые индексы указывают размеры векторов, а буквенные индексы i и i - 1 указывают временные шаги.

Если рассматривать их в виде матрицы, веса внимания показывают, как сеть корректирует свой фокус в зависимости от контекста. ^[17]

Этот взгляд на веса внимания решает проблему « объяснимости » нейронной сети. Сети, выполняющие дословный перевод без учета порядка слов, покажут самые высокие баллы по (доминирующей) диагонали матрицы. Недиагональное доминирование показывает, что механизм внимания более тонкий. При первом проходе через декодер 94% веса внимания приходится на первое английское слово «I», поэтому сеть предлагает слово «je». На втором проходе декодера 88% внимания приходится на третье английское слово «you», поэтому оно предлагает «t». На последнем проходе 95% внимания приходится на второе английское слово «love», поэтому оно предлагает «aime».

Варианты

Многие варианты внимания реализуют мягкие веса, такие как

«внутренние прожекторы внимания» ^[18] , генерируемые быстрыми весовыми программистами или быстрыми весовыми контроллерами (1992) ^[3] (также известные как преобразователи с «линеаризованным самовниманием» ^[19]^[20] ). Медленная нейронная сеть учится путем градиентного спуска программировать быстрые веса другой нейронной сети через внешние продукты самогенерируемых шаблонов активации, называемых «ОТ» и «ДО», которые в терминологии преобразователей называются «ключом» и «значением». Это быстрое «отображение внимания» применяется к запросам.
Внимание в стиле Богданау ^[17] , также называемое аддитивным вниманием ,
Внимание в стиле Луонг ^[21] , известное как мультипликативное внимание ,
высокопараллелизуемое самовнимание, представленное в 2016 году как разложимое внимание ^[22] и год спустя успешно использованное в трансформаторах .

Для сверточных нейронных сетей механизмы внимания можно различать по измерению, в котором они работают, а именно: пространственное внимание, ^[23] канальное внимание, ^[24] или их комбинации. ^[25]^[26]

Эти варианты рекомбинируют входные данные на стороне кодера для перераспределения этих эффектов на каждый целевой выход. Часто матрица скалярных произведений в стиле корреляции обеспечивает коэффициенты повторного взвешивания. На рисунках ниже W — это матрица весов контекстного внимания, аналогичная формуле, приведенной в разделе «Основные расчеты» выше.

Математическое представление

Внимание к стандартному масштабированному скалярному произведению

{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{T}}{\sqrt {d_{k}}}}\right)V

Q,K,V

d_{k}

V

Многоголовое внимание

{\text{MultiHead}}(Q,K,V)={\text{Concat}}({\text{head}}_{1},...,{\text{head}}_{h})W^{O}

{\text{head}}_{i}={\text{Attention}}(QW_{i}^{Q},KW_{i}^{K},VW_{i}^{V})

W_{i}^{Q},W_{i}^{K},W_{i}^{V}

W^{O}

Богданау (Присадка) Внимание

{\text{Attention}}(Q,K,V)={\text{softmax}}(e)V

^[17]

e=\tanh(W_{Q}Q+W_{K}K)

W_{Q}

W_{K}

Луонг Внимание (Общее)

{\text{Attention}}(Q,K,V)={\text{softmax}}(QW_{a}K^{T})V

^[21]

W_{a}

Смотрите также

Трансформатор (архитектура глубокого обучения) § Эффективная реализация

Внешние ссылки

Дэн Джурафски и Джеймс Х. Мартин (2022 г.) Обработка речи и языка (проект 3-го изд., январь 2022 г.), гл. 10.4 Внимание и гл. 9.7 Сети самообслуживания: преобразователи
Алекс Грейвс (4 мая 2020 г.), Внимание и память в глубоком обучении (видеолекция), DeepMind / UCL , через YouTube