БЕРТ (языковая модель)

Двунаправленные представления кодировщиков от трансформаторов ( BERT ) — языковая модель , основанная на архитектуре преобразователя , отличающаяся значительным улучшением по сравнению с предыдущими современными моделями. Он был представлен в октябре 2018 года исследователями Google . ^[1]^[2] Исследование литературы, проведенное в 2020 году, пришло к выводу, что «чуть больше чем за год BERT стал повсеместной базой в экспериментах по обработке естественного языка (НЛП), насчитывая более 150 исследовательских публикаций, анализирующих и улучшающих модель». ^[3]

Первоначально BERT был реализован на английском языке в двух размерах модели: ^[1] (1) BERT _BASE : 12 энкодеров с 12 двунаправленными головками самообслуживания, всего 110 миллионов параметров, и (2) BERT _LARGE : 24 энкодера с 16 двунаправленными самоконтролем. Внимание направляется на общую сумму 340 миллионов параметров. Обе модели были предварительно обучены на Toronto BookCorpus ^[4] (800 миллионов слов) и английской Википедии (2500 миллионов слов).

Дизайн

BERT — это архитектура преобразователя «только для энкодера» .

На высоком уровне BERT состоит из трех модулей:

встраивание. Этот модуль преобразует массив токенов с горячим кодированием в массив векторов, представляющих токены.
стек кодировщиков. Эти энкодеры являются энкодерами-трансформерами. Они выполняют преобразования над массивом векторов представления.
де-встраивание. Этот модуль снова преобразует окончательные векторы представления в токены с горячим кодированием.

Модуль извлечения необходим для предварительного обучения, но часто не нужен для последующих задач. Вместо этого можно было бы взять выходные данные векторов представления в конце стека кодировщиков и использовать их в качестве векторного представления входного текста, а поверх этого обучить меньшую модель.

BERT использует WordPiece для преобразования каждого английского слова в целочисленный код. Его словарный запас имеет размер 30 000. Любой токен, не встречающийся в его словаре, заменяется на [UNK] для «неизвестно».

Предварительная подготовка

BERT предварительно обучался одновременно на двух задачах: ^[5]

языковое моделирование : для прогнозирования было выбрано 15% токенов, а целью обучения было предсказать выбранный токен с учетом его контекста. Выбранный токен

заменен токеном [MASK] с вероятностью 80%,
заменен случайным словом с вероятностью 10%,
не заменяется с вероятностью 10%.

Например, в предложении «Моя собака милая» для предсказания может быть выбран 4-й токен. Модель будет иметь входной текст

«моя собака [МАСК]» с вероятностью 80%,
«моя собака счастлива» с вероятностью 10%,
«Моя собака милая» с вероятностью 10%.

После обработки входного текста четвертый выходной вектор модели передается в отдельную нейронную сеть, которая выводит распределение вероятностей по своему словарю объемом в 30 000 единиц.

предсказание следующего предложения : учитывая два фрагмента текста, модель прогнозирует, появятся ли эти два фрагмента последовательно в обучающем корпусе, выдавая либо [IsNext], либо [NotNext]. Первый диапазон начинается со специального токена [CLS] (для «классификации»). Два промежутка разделены специальным токеном [SEP] (от слова «отдельный»). После обработки двух промежутков первый выходной вектор (векторное кодирование для [CLS]) передается в отдельную нейронную сеть для бинарной классификации на [IsNext] и [NotNext].

Например, учитывая «[CLS] моя собака милая [SEP] он любит играть», модель должна вывести токен [IsNext].
Учитывая «[CLS] моя собака милая [SEP], как работают магниты», модель должна вывести токен [NotNext].

В результате этого процесса обучения BERT изучает скрытые представления слов и предложений в контексте. После предварительного обучения BERT можно точно настроить с использованием меньшего количества ресурсов на небольших наборах данных, чтобы оптимизировать его производительность при выполнении конкретных задач, таких как задачи НЛП (вывод языка, классификация текста) и задачи генерации языка на основе последовательностей (ответы на вопросы, формирование разговорного ответа). ^[1]^[6] Этап предварительного обучения требует значительно больше вычислительных затрат, чем точная настройка.

Детали архитектуры

В этом разделе описывается BERT _BASE . Другой, BERT _LARGE , похож, только больше.

Самый нижний уровень — это уровень внедрения, который содержит три компонента: word_embeddings, Position_embeddings, token_type_embeddings.

word_embeddings принимает горячий вектор входного токена. Входной векторный вектор имеет размерность 30 000, потому что BERT имеет такой большой размер словаря.
Position_embeddings выполняет встраивание абсолютной позиции. Это похоже на word_embeddings, но в словаре, состоящем только из меток времени от 0 до 511, поскольку BERT имеет контекстное окно 512.
token_type_embeddings похож на word_embeddings, но использует словарь, состоящий только из 0 и 1. Единственными токенами типа 1 являются те, которые появляются после [SEP]. Все остальные токены имеют тип 0.

Три выхода суммируются, затем пропускаются через LayerNorm (нормализация слоев), получая массив векторов представления, каждый из которых имеет 768 измерений.

После этого векторы представления проходят через 12 кодировщиков Transformer, затем они извлекаются с помощью affine-Add & LayerNorm-linear.

Производительность

Когда BERT был опубликован, он достиг высочайшего уровня производительности при решении ряда задач по распознаванию естественного языка : ^[1]

Набор заданий GLUE ( Оценка общего понимания языка ) (состоит из 9 заданий)
SQuAD (Стэнфордский набор данных для ответов на вопросы ^[7] ) v1.1 и v2.0
SWAG (Ситуации с враждебными поколениями ^[8] )

Анализ

Причины современной производительности BERT в решении этих задач по распознаванию естественного языка еще не до конца понятны. ^[9]^[10] Текущие исследования сосредоточены на изучении взаимосвязи выходных данных BERT в результате тщательно выбранных входных последовательностей, ^[11]^[12] анализе внутренних векторных представлений с помощью пробных классификаторов, ^[13]^[14] и взаимосвязях представлены весами внимания . ^[9]^[10] Высокую производительность модели BERT также можно объяснить тем фактом, что она обучается в двух направлениях. Это означает, что BERT, основанный на архитектуре модели Transformer, применяет свой механизм самообслуживания для изучения информации из текста с левой и правой стороны во время обучения и, следовательно, достигает глубокого понимания контекста. Например, слово «хорошо» может иметь два разных значения в зависимости от контекста (« Я сегодня чувствую себя хорошо» , «У нее прекрасные светлые волосы »). BERT рассматривает слова, окружающие целевое слово , с левой и правой стороны.

Однако за это приходится платить: из-за отсутствия декодера в архитектуре, использующей только кодировщик, BERT не может быть вызван и не может генерировать текст , в то время как двунаправленные модели в целом не работают эффективно без правой стороны, ^{[ необходимы пояснения ]} , таким образом, трудно подсказать, поскольку даже генерация короткого текста требует сложных вычислительно дорогостоящих методов. ^[15]

В отличие от нейронных сетей глубокого обучения, которые требуют очень больших объемов данных, BERT уже предварительно обучен, что означает, что он изучил представления слов и предложений, а также основные семантические отношения, с которыми они связаны. Затем BERT можно точно настроить на небольших наборах данных для конкретных задач, таких как классификация настроений. Предварительно обученные модели выбираются в соответствии с содержанием используемого набора данных, а также в соответствии с целью задачи. Например, если задача представляет собой задачу классификации настроений финансовых данных, следует выбрать предварительно обученную модель для анализа настроений финансового текста. Веса оригинальных предварительно обученных моделей были опубликованы на GitHub . ^[16]

История

Первоначально BERT был опубликован исследователями Google Джейкобом Девлином, Минг-Вей Чангом, Кентоном Ли и Кристиной Тутановой. Дизайн основан на контекстных представлениях предварительного обучения, включая полуконтролируемое последовательное обучение , ^[17] генеративное предварительное обучение, ELMo , ^[18] и ULMFit. ^[19] В отличие от предыдущих моделей, BERT представляет собой глубоко двунаправленное неконтролируемое языковое представление, предварительно обученное с использованием только корпуса простого текста . Контекстно-свободные модели, такие как word2vec или GloVe, генерируют представление встраивания одного слова для каждого слова в словаре, тогда как BERT учитывает контекст для каждого появления данного слова. Например, в то время как вектор для «бега» будет иметь одно и то же векторное представление word2vec для обоих его вхождений в предложениях «Он управляет компанией» и «Он бежит марафон», BERT обеспечит контекстуализированное встраивание, которое будет разные в зависимости от предложения. ^{[ нужна цитата ]}

25 октября 2019 года Google объявила, что начала применять модели BERT для поисковых запросов на английском языке в США . ^[20] 9 декабря 2019 года сообщалось, что BERT был принят поиском Google для более чем 70 языков. ^[21] В октябре 2020 года почти каждый запрос на английском языке обрабатывался с помощью модели BERT. ^[22]

В более поздней статье предлагается RoBERTa, который сохраняет архитектуру BERT, но улучшает его обучение, изменяя ключевые гиперпараметры, удаляя задачу прогнозирования следующего предложения и используя гораздо большие размеры мини-пакетов. ^[23]

Признание

Исследовательская статья, описывающая BERT, получила награду за лучшую длинную статью на ежегодной конференции Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL) в 2019 году. ^[24]

дальнейшее чтение

Роджерс, Анна; Ковалева, Ольга; Румшиский, Анна (2020). «Букварь по BERTологии: что мы знаем о том, как работает BERT». arXiv : 2002.12327 [cs.CL].

Внешние ссылки

Официальный репозиторий GitHub
БЕРТ на Devopedia