Seq2seq

Seq2seq — это семейство подходов машинного обучения , используемых для обработки естественного языка . ^[1] Приложения включают языковой перевод , субтитры к изображениям , разговорные модели и обобщение текста . ^[2] Seq2seq использует преобразование последовательности : он превращает одну последовательность в другую последовательность.

История

Алгоритм был разработан Google для использования в машинном переводе . ^[2]^{[ ненадежный источник ]}

Аналогичная более ранняя работа включает докторскую диссертацию Томаша Миколова, написанную в 2012 году. ^[3]^{[ нужен неосновной источник ]} .

В 2023 году, получив награду Test of Time от NeurIPS за статью word2vec , Миколов сделал публичное заявление. ^[4] В нем он подтвердил, что идея нейронного перевода последовательности в последовательность исходит от него и была задумана еще до того, как он присоединился к Google. Он также заявил, что говорил об этой идее Илье Суцкеверу и Куок Ле и неоднократно обсуждал ее с ними. И он обвинил их в публикации статьи seq2seq без его признания.

В 2019 году Facebook объявил о его использовании для символьного интегрирования и решения дифференциальных уравнений . Компания заявила, что может решать сложные уравнения быстрее и с большей точностью, чем коммерческие решения, такие как Mathematica , MATLAB и Maple . Сначала уравнение разбирается в древовидную структуру, чтобы избежать особенностей обозначений. Затем нейронная сеть LSTM применяет свои стандартные средства распознавания образов для обработки дерева. ^[5]

В 2020 году Google выпустила Meena, чат-бот на основе seq2seq с 2,6 миллиардами параметров , обученный на наборе данных объемом 341 ГБ. Google заявил, что чат-бот имеет в 1,7 раза большую емкость модели, чем GPT-2 от OpenAI , ^{[6] чей преемник, выпущенный в мае 2020 года,}GPT-3 с 175 миллиардами параметров , обучался на «наборе данных открытого текста размером 45 ТБ (45 000 ГБ), который был ... отфильтровано до 570 ГБ». ^[7]

В 2022 году Amazon представила AlexaTM 20B, языковую модель seq2seq среднего размера (20 миллиардов параметров) . Он использует кодер-декодер для выполнения обучения за несколько кадров. Кодер выводит представление входных данных, которые декодер использует в качестве входных данных для выполнения определенной задачи, например перевода входных данных на другой язык. Модель превосходит гораздо более крупную GPT-3 в языковом переводе и обобщении. Обучение сочетает шумоподавление (соответствующая вставка недостающего текста в строки) и причинно-языковое моделирование (осмысленное расширение входного текста). Это позволяет добавлять функции на разных языках без масштабных рабочих процессов обучения. AlexaTM 20B достигла высочайшего уровня производительности при выполнении задач по небольшому обучению во всех языковых парах Flores-101, превзойдя GPT-3 в некоторых задачах. ^[8]

Архитектура

Модель seq2seq состоит из кодера и декодера, которые обычно реализуются как RNN . Кодер фиксирует контекст входной последовательности и отправляет его декодеру, который затем создает окончательную выходную последовательность. ^[9]

Кодер

Кодер отвечает за обработку входной последовательности и сбор ее важной информации, которая сохраняется как скрытое состояние сети и, в модели с механизмом внимания, как вектор контекста. Вектор контекста представляет собой взвешенную сумму входных скрытых состояний и генерируется для каждого момента времени в выходных последовательностях.

Декодер

Декодер берет вектор контекста и скрытые состояния от кодера и генерирует окончательную выходную последовательность. Декодер работает авторегрессионным способом, создавая по одному элементу выходной последовательности за раз. На каждом этапе он учитывает ранее сгенерированные элементы, вектор контекста и информацию о входной последовательности, чтобы сделать прогнозы для следующего элемента в выходной последовательности. В частности, в модели с механизмом внимания вектор контекста и скрытое состояние объединяются вместе, чтобы сформировать скрытый вектор внимания, который используется в качестве входных данных для декодера. ^[10]

Механизм внимания

Механизм внимания представляет собой усовершенствование, введенное Bahdanau et al. в 2014 году ^[11] для устранения ограничений базовой архитектуры Seq2Seq, когда более длинная входная последовательность приводит к тому, что вывод скрытого состояния кодера становится неактуальным для декодера. Это позволяет модели выборочно фокусироваться на различных частях входной последовательности в процессе декодирования. На каждом этапе декодера модель выравнивания вычисляет оценку внимания, используя текущее состояние декодера и все скрытые векторы внимания в качестве входных данных. Модель выравнивания — это еще одна модель нейронной сети, которая обучается совместно с моделью seq2seq, используемой для расчета того, насколько хорошо входные данные, представленные скрытым состоянием, совпадают с предыдущими выходными данными, представленными скрытым состоянием внимания. Затем к показателю внимания применяется функция softmax, чтобы получить вес внимания .

В некоторых моделях состояния энкодера напрямую передаются в функцию активации, что устраняет необходимость в модели выравнивания. Функция активации получает одно состояние декодера и одно состояние кодера и возвращает скалярное значение их релевантности. ^[12]

Сопутствующее программное обеспечение

Программное обеспечение, использующее аналогичные подходы, включает OpenNMT ( Torch ), Neural Monkey ( TensorFlow ) и NEMATUS ( Theano ). ^[13]

Смотрите также

Искусственная нейронная сеть

Внешние ссылки

«Десятиминутное введение в последовательное обучение в Keras». blog.keras.io . Проверено 19 декабря 2019 г.
Дугар, Пранай (24 ноября 2019 г.). «Внимание — модели Seq2Seq». Середина . Проверено 19 декабря 2019 г.
Наг, Дев (24 апреля 2019 г.). «seq2seq: клоунская машина глубокого обучения». Середина . Проверено 19 декабря 2019 г.
Адивардана, Дэниел; Луонг, Минь-Танг; Итак, Дэвид Р.; Холл, Джейми; Фидель, Ной; Топпилан, Ромал; Ян, Цзы; Кулшрешта, Апурв; Немаде, Гаурав; Лу, Ифэн; Ле, Куок В. (31 января 2020 г.). «На пути к человекоподобному чат-боту с открытым доменом». arXiv : 2001.09977 [cs.CL].