Парафраз или перефразирование в компьютерной лингвистике — это задача обработки естественного языка по обнаружению и созданию парафраз . Приложения парафразирования разнообразны, включая поиск информации, ответы на вопросы , резюмирование текста и обнаружение плагиата . [1] Парафразирование также полезно при оценке машинного перевода , [2] а также семантического анализа [3] и генерации [4] новых образцов для расширения существующих корпусов . [5]
Барзилай и Ли [5] предложили метод генерации парафраз с использованием одноязычных параллельных корпусов , а именно новостных статей, освещающих одно и то же событие в один и тот же день. Обучение состоит из использования многопоследовательного выравнивания для генерации парафраз на уровне предложений из неаннотированного корпуса. Это делается с помощью
Это достигается путем первой кластеризации похожих предложений вместе с использованием перекрытия n-грамм . Повторяющиеся шаблоны находятся внутри кластеров с использованием выравнивания по нескольким последовательностям. Затем положение аргументных слов определяется путем поиска областей высокой изменчивости внутри каждого кластера, то есть между словами, общими для более чем 50% предложений кластера. Затем пары между шаблонами находятся путем сравнения похожих переменных слов между различными корпусами. Наконец, новые парафразы могут быть созданы путем выбора соответствующего кластера для исходного предложения, а затем подстановки аргумента исходного предложения в любое количество шаблонов в кластере.
Парафраз также может быть создан с помощью фразового перевода , как предлагают Баннард и Каллисон-Берч. [6] Основная концепция состоит в выравнивании фраз в опорном языке для создания потенциальных парафраз на исходном языке. Например, фраза «under control» в английском предложении выравнивается с фразой «unter kontrolle» в ее немецком аналоге. Затем фраза «unter kontrolle» находится в другом немецком предложении с выровненной английской фразой «in check», парафразой «under control».
Распределение вероятностей можно смоделировать как , фраза вероятности является парафразом , что эквивалентно суммированию по всем , потенциальному переводу фразы на опорном языке. Кроме того, предложение добавляется как априорное для добавления контекста к парафразу. Таким образом, оптимальный парафраз может быть смоделирован как:
и может быть аппроксимировано путем простого взятия их частот. Добавление в качестве априорной величины моделируется путем вычисления вероятности формирования , когда заменяется на .
Было достигнуто успешное использование моделей долговременной краткосрочной памяти (LSTM) для генерации парафраз. [7] Короче говоря, модель состоит из компонента кодировщика и декодера, оба реализованы с использованием вариаций стекированной остаточной LSTM. Во-первых, кодирующая LSTM принимает в качестве входных данных однократное кодирование всех слов в предложении и создает окончательный скрытый вектор, который может представлять входное предложение. Декодирующая LSTM принимает в качестве входных данных скрытый вектор и генерирует новое предложение, завершающееся токеном конца предложения. Кодер и декодер обучены брать фразу и воспроизводить однократное распределение соответствующего парафраза путем минимизации недоумения с помощью простого стохастического градиентного спуска . Новые парафразы генерируются путем ввода новой фразы в кодировщик и передачи выходных данных декодеру.
С введением моделей Transformer подходы к генерации парафраз улучшили свою способность генерировать текст путем масштабирования параметров нейронной сети и сильного распараллеливания обучения через слои прямой связи . [8] Эти модели настолько хорошо генерируют текст, что эксперты-люди не могут определить, был ли пример создан человеком или сгенерирован машиной. [9] Генерация парафраз на основе Transformer основана на методах автокодирования , авторегрессии или последовательности-в-последовательность . Модели автокодировщика предсказывают кандидатов на замену слов с помощью прямого распределения по словарному запасу, в то время как модели авторегрессии и seq2seq генерируют новый текст на основе источника, предсказывая одно слово за раз. [10] [11] Существуют также более продвинутые попытки сделать парафразирование контролируемым в соответствии с предопределенными измерениями качества, такими как семантическое сохранение или лексическое разнообразие. [12] Многие методы генерации парафраз на основе Transformer основаны на неконтролируемом обучении для использования больших объемов обучающих данных и масштабирования своих методов. [13] [14]
Распознавание парафраз было предпринято Сочером и др . [1] с помощью рекурсивных автокодировщиков . Основная концепция заключается в создании векторного представления предложения и его компонентов путем рекурсивного использования автокодировщика. Векторные представления парафраз должны иметь схожие векторные представления; они обрабатываются, а затем подаются в качестве входных данных в нейронную сеть для классификации.
При наличии предложения со словами автоэнкодер разработан для приема 2 -мерных вложений слов в качестве входных данных и создания -мерного вектора в качестве выходных данных. Тот же самый автоэнкодер применяется к каждой паре слов в для создания векторов. Затем автоэнкодер применяется рекурсивно с новыми векторами в качестве входных данных до тех пор, пока не будет создан один вектор. При наличии нечетного количества входных данных первый вектор передается как есть на следующий уровень рекурсии. Автоэнкодер обучен воспроизводить каждый вектор в полном дереве рекурсии, включая начальные вложения слов.
При наличии двух предложений и длиной 4 и 3 соответственно автокодировщики создадут 7 и 5 векторных представлений, включая начальные вложения слов. Затем берется евклидово расстояние между каждой комбинацией векторов в и для создания матрицы подобия . затем подвергается динамическому слою минимального пула для создания матрицы фиксированного размера. Поскольку не являются однородными по размеру среди всех потенциальных предложений, разбивается на примерно равные части. Затем вывод нормализуется, чтобы иметь среднее значение 0 и стандартное отклонение 1, и подается в полностью связанный слой с выходом softmax . Модель динамического пула в softmax обучается с использованием пар известных парафраз.
Векторы пропуска мыслей являются попыткой создать векторное представление семантического значения предложения, аналогично модели пропуска грамов . [15] Векторы пропуска мыслей создаются с помощью модели пропуска мыслей, которая состоит из трех ключевых компонентов: кодировщика и двух декодеров. Учитывая корпус документов, модель пропуска мыслей обучается принимать предложение в качестве входных данных и кодировать его в вектор пропуска мыслей. Вектор пропуска мыслей используется в качестве входных данных для обоих декодеров; один пытается воспроизвести предыдущее предложение, а другой — следующее предложение целиком. Кодер и декодер могут быть реализованы с помощью рекурсивной нейронной сети (RNN) или LSTM .
Поскольку парафразы несут одно и то же семантическое значение между собой, они должны иметь похожие векторы пропуска мыслей. Таким образом, простая логистическая регрессия может быть обучена для хорошей производительности с абсолютной разницей и покомпонентным произведением двух векторов пропуска мыслей в качестве входных данных.
Подобно тому, как модели Transformer повлияли на генерацию парафраз, их применение в идентификации парафраз показало большой успех. Такие модели, как BERT, можно адаптировать с помощью бинарного слоя классификации и обучить сквозным задачам идентификации. [16] [17] Transformers достигают хороших результатов при передаче между доменами и методами парафразирования по сравнению с более традиционными методами машинного обучения, такими как логистическая регрессия . Другие успешные методы, основанные на архитектуре Transformer, включают использование состязательного обучения и метаобучения . [18] [19]
Для оценки парафраз можно использовать несколько методов. Поскольку распознавание парафраз может быть поставлено как проблема классификации, большинство стандартных метрик оценки, таких как точность , оценка f1 или кривая ROC , работают относительно хорошо. Однако существуют трудности с расчетом оценок f1 из-за проблем с созданием полного списка парафраз для заданной фразы и того факта, что хорошие парафразы зависят от контекста. Метрика, разработанная для решения этих проблем, — ParaMetric. [20] ParaMetric нацелена на расчет точности и отзыва автоматической системы парафраз путем сравнения автоматического выравнивания парафраз с ручным выравниванием похожих фраз. Поскольку ParaMetric просто оценивает качество выравнивания фраз, ее можно использовать для оценки систем генерации парафраз, предполагая, что она использует выравнивание фраз как часть своего процесса генерации. Заметным недостатком ParaMetric является большой и исчерпывающий набор ручных выравниваний, которые должны быть изначально созданы, прежде чем может быть произведена оценка.
Оценка генерации парафразы имеет те же трудности, что и оценка машинного перевода . Качество парафразы зависит от ее контекста, от того, используется ли она в качестве резюме, и от того, как она генерируется, среди прочих факторов. Кроме того, хорошая парафраза обычно лексически отличается от исходной фразы. Самый простой метод, используемый для оценки генерации парафразы, — это использование человеческих судей. К сожалению, оценка с помощью человеческих судей, как правило, занимает много времени. Автоматизированные подходы к оценке оказываются сложными, поскольку по сути это такая же сложная проблема, как и распознавание парафразы. Хотя изначально она использовалась для оценки машинных переводов, двуязычный дублер оценки ( BLEU ) также успешно использовался для оценки моделей генерации парафразы. Однако парафразы часто имеют несколько лексически разных, но одинаково допустимых решений, что вредит BLEU и другим аналогичным метрикам оценки. [21]
Метрики, специально разработанные для оценки генерации парафраз, включают изменение парафразы в n-граммах (PINC) [21] и метрику оценки парафразы (PEM) [22] вместе с вышеупомянутым ParaMetric. PINC разработан для использования с BLEU и помогает покрыть его недостатки. Поскольку BLEU испытывает трудности с измерением лексического несходства, PINC является измерением отсутствия перекрытия n-грамм между исходным предложением и кандидатом на парафразу. По сути, это расстояние Жаккара между предложением, исключая n-граммы, которые появляются в исходном предложении, чтобы сохранить некоторую семантическую эквивалентность. PEM, с другой стороны, пытается оценить «адекватность, беглость и лексическое несходство» парафраз, возвращая эвристику с одним значением, рассчитанную с использованием перекрытия N-грамм в опорном языке. Однако большим недостатком PEM является то, что он должен обучаться с использованием больших параллельных корпусов в одной области и человеческих судей. [21] Это эквивалентно обучению распознавания парафраз для оценки системы генерации парафраз.
Набор данных Quora Question Pairs, содержащий сотни тысяч дубликатов вопросов, стал общим набором данных для оценки детекторов парафраз. [23] Все неизменно надежные детекторы парафраз использовали архитектуру Transformer и все они полагались на большие объемы предварительной подготовки с более общими данными перед тонкой настройкой с парами вопросов.
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка )