stringtranslate.com

Парафразирование (компьютерная лингвистика)

Парафраз или перефразирование в компьютерной лингвистике — это задача обработки естественного языка по обнаружению и созданию парафраз . Приложения парафразирования разнообразны, включая поиск информации, ответы на вопросы , резюмирование текста и обнаружение плагиата . [1] Парафразирование также полезно при оценке машинного перевода , [2] а также семантического анализа [3] и генерации [4] новых образцов для расширения существующих корпусов . [5]

Генерация парафраза

Множественное выравнивание последовательностей

Барзилай и Ли [5] предложили метод генерации парафраз с использованием одноязычных параллельных корпусов , а именно новостных статей, освещающих одно и то же событие в один и тот же день. Обучение состоит из использования многопоследовательного выравнивания для генерации парафраз на уровне предложений из неаннотированного корпуса. Это делается с помощью

Это достигается путем первой кластеризации похожих предложений вместе с использованием перекрытия n-грамм . Повторяющиеся шаблоны находятся внутри кластеров с использованием выравнивания по нескольким последовательностям. Затем положение аргументных слов определяется путем поиска областей высокой изменчивости внутри каждого кластера, то есть между словами, общими для более чем 50% предложений кластера. Затем пары между шаблонами находятся путем сравнения похожих переменных слов между различными корпусами. Наконец, новые парафразы могут быть созданы путем выбора соответствующего кластера для исходного предложения, а затем подстановки аргумента исходного предложения в любое количество шаблонов в кластере.

Машинный перевод на основе фраз

Парафраз также может быть создан с помощью фразового перевода , как предлагают Баннард и Каллисон-Берч. [6] Основная концепция состоит в выравнивании фраз в опорном языке для создания потенциальных парафраз на исходном языке. Например, фраза «under control» в английском предложении выравнивается с фразой «unter kontrolle» в ее немецком аналоге. Затем фраза «unter kontrolle» находится в другом немецком предложении с выровненной английской фразой «in check», парафразой «under control».

Распределение вероятностей можно смоделировать как , фраза вероятности является парафразом , что эквивалентно суммированию по всем , потенциальному переводу фразы на опорном языке. Кроме того, предложение добавляется как априорное для добавления контекста к парафразу. Таким образом, оптимальный парафраз может быть смоделирован как:

и может быть аппроксимировано путем простого взятия их частот. Добавление в качестве априорной величины моделируется путем вычисления вероятности формирования , когда заменяется на .

Длительная кратковременная память

Было достигнуто успешное использование моделей долговременной краткосрочной памяти (LSTM) для генерации парафраз. [7] Короче говоря, модель состоит из компонента кодировщика и декодера, оба реализованы с использованием вариаций стекированной остаточной LSTM. Во-первых, кодирующая LSTM принимает в качестве входных данных однократное кодирование всех слов в предложении и создает окончательный скрытый вектор, который может представлять входное предложение. Декодирующая LSTM принимает в качестве входных данных скрытый вектор и генерирует новое предложение, завершающееся токеном конца предложения. Кодер и декодер обучены брать фразу и воспроизводить однократное распределение соответствующего парафраза путем минимизации недоумения с помощью простого стохастического градиентного спуска . Новые парафразы генерируются путем ввода новой фразы в кодировщик и передачи выходных данных декодеру.

Трансформеры

С введением моделей Transformer подходы к генерации парафраз улучшили свою способность генерировать текст путем масштабирования параметров нейронной сети и сильного распараллеливания обучения через слои прямой связи . [8] Эти модели настолько хорошо генерируют текст, что эксперты-люди не могут определить, был ли пример создан человеком или сгенерирован машиной. [9] Генерация парафраз на основе Transformer основана на методах автокодирования , авторегрессии или последовательности-в-последовательность . Модели автокодировщика предсказывают кандидатов на замену слов с помощью прямого распределения по словарному запасу, в то время как модели авторегрессии и seq2seq генерируют новый текст на основе источника, предсказывая одно слово за раз. [10] [11] Существуют также более продвинутые попытки сделать парафразирование контролируемым в соответствии с предопределенными измерениями качества, такими как семантическое сохранение или лексическое разнообразие. [12] Многие методы генерации парафраз на основе Transformer основаны на неконтролируемом обучении для использования больших объемов обучающих данных и масштабирования своих методов. [13] [14]

Распознавание парафраза

Рекурсивные автокодировщики

Распознавание парафраз было предпринято Сочером и др . [1] с помощью рекурсивных автокодировщиков . Основная концепция заключается в создании векторного представления предложения и его компонентов путем рекурсивного использования автокодировщика. Векторные представления парафраз должны иметь схожие векторные представления; они обрабатываются, а затем подаются в качестве входных данных в нейронную сеть для классификации.

При наличии предложения со словами автоэнкодер разработан для приема 2 -мерных вложений слов в качестве входных данных и создания -мерного вектора в качестве выходных данных. Тот же самый автоэнкодер применяется к каждой паре слов в для создания векторов. Затем автоэнкодер применяется рекурсивно с новыми векторами в качестве входных данных до тех пор, пока не будет создан один вектор. При наличии нечетного количества входных данных первый вектор передается как есть на следующий уровень рекурсии. Автоэнкодер обучен воспроизводить каждый вектор в полном дереве рекурсии, включая начальные вложения слов.

При наличии двух предложений и длиной 4 и 3 соответственно автокодировщики создадут 7 и 5 векторных представлений, включая начальные вложения слов. Затем берется евклидово расстояние между каждой комбинацией векторов в и для создания матрицы подобия . затем подвергается динамическому слою минимального пула для создания матрицы фиксированного размера. Поскольку не являются однородными по размеру среди всех потенциальных предложений, разбивается на примерно равные части. Затем вывод нормализуется, чтобы иметь среднее значение 0 и стандартное отклонение 1, и подается в полностью связанный слой с выходом softmax . Модель динамического пула в softmax обучается с использованием пар известных парафраз.

Векторы пропуска мыслей

Векторы пропуска мыслей являются попыткой создать векторное представление семантического значения предложения, аналогично модели пропуска грамов . [15] Векторы пропуска мыслей создаются с помощью модели пропуска мыслей, которая состоит из трех ключевых компонентов: кодировщика и двух декодеров. Учитывая корпус документов, модель пропуска мыслей обучается принимать предложение в качестве входных данных и кодировать его в вектор пропуска мыслей. Вектор пропуска мыслей используется в качестве входных данных для обоих декодеров; один пытается воспроизвести предыдущее предложение, а другой — следующее предложение целиком. Кодер и декодер могут быть реализованы с помощью рекурсивной нейронной сети (RNN) или LSTM .

Поскольку парафразы несут одно и то же семантическое значение между собой, они должны иметь похожие векторы пропуска мыслей. Таким образом, простая логистическая регрессия может быть обучена для хорошей производительности с абсолютной разницей и покомпонентным произведением двух векторов пропуска мыслей в качестве входных данных.

Трансформеры

Подобно тому, как модели Transformer повлияли на генерацию парафраз, их применение в идентификации парафраз показало большой успех. Такие модели, как BERT, можно адаптировать с помощью бинарного слоя классификации и обучить сквозным задачам идентификации. [16] [17] Transformers достигают хороших результатов при передаче между доменами и методами парафразирования по сравнению с более традиционными методами машинного обучения, такими как логистическая регрессия . Другие успешные методы, основанные на архитектуре Transformer, включают использование состязательного обучения и метаобучения . [18] [19]

Оценка

Для оценки парафраз можно использовать несколько методов. Поскольку распознавание парафраз может быть поставлено как проблема классификации, большинство стандартных метрик оценки, таких как точность , оценка f1 или кривая ROC , работают относительно хорошо. Однако существуют трудности с расчетом оценок f1 из-за проблем с созданием полного списка парафраз для заданной фразы и того факта, что хорошие парафразы зависят от контекста. Метрика, разработанная для решения этих проблем, — ParaMetric. [20] ParaMetric нацелена на расчет точности и отзыва автоматической системы парафраз путем сравнения автоматического выравнивания парафраз с ручным выравниванием похожих фраз. Поскольку ParaMetric просто оценивает качество выравнивания фраз, ее можно использовать для оценки систем генерации парафраз, предполагая, что она использует выравнивание фраз как часть своего процесса генерации. Заметным недостатком ParaMetric является большой и исчерпывающий набор ручных выравниваний, которые должны быть изначально созданы, прежде чем может быть произведена оценка.

Оценка генерации парафразы имеет те же трудности, что и оценка машинного перевода . Качество парафразы зависит от ее контекста, от того, используется ли она в качестве резюме, и от того, как она генерируется, среди прочих факторов. Кроме того, хорошая парафраза обычно лексически отличается от исходной фразы. Самый простой метод, используемый для оценки генерации парафразы, — это использование человеческих судей. К сожалению, оценка с помощью человеческих судей, как правило, занимает много времени. Автоматизированные подходы к оценке оказываются сложными, поскольку по сути это такая же сложная проблема, как и распознавание парафразы. Хотя изначально она использовалась для оценки машинных переводов, двуязычный дублер оценки ( BLEU ) также успешно использовался для оценки моделей генерации парафразы. Однако парафразы часто имеют несколько лексически разных, но одинаково допустимых решений, что вредит BLEU и другим аналогичным метрикам оценки. [21]

Метрики, специально разработанные для оценки генерации парафраз, включают изменение парафразы в n-граммах (PINC) [21] и метрику оценки парафразы (PEM) [22] вместе с вышеупомянутым ParaMetric. PINC разработан для использования с BLEU и помогает покрыть его недостатки. Поскольку BLEU испытывает трудности с измерением лексического несходства, PINC является измерением отсутствия перекрытия n-грамм между исходным предложением и кандидатом на парафразу. По сути, это расстояние Жаккара между предложением, исключая n-граммы, которые появляются в исходном предложении, чтобы сохранить некоторую семантическую эквивалентность. PEM, с другой стороны, пытается оценить «адекватность, беглость и лексическое несходство» парафраз, возвращая эвристику с одним значением, рассчитанную с использованием перекрытия N-грамм в опорном языке. Однако большим недостатком PEM является то, что он должен обучаться с использованием больших параллельных корпусов в одной области и человеческих судей. [21] Это эквивалентно обучению распознавания парафраз для оценки системы генерации парафраз.

Набор данных Quora Question Pairs, содержащий сотни тысяч дубликатов вопросов, стал общим набором данных для оценки детекторов парафраз. [23] Все неизменно надежные детекторы парафраз использовали архитектуру Transformer и все они полагались на большие объемы предварительной подготовки с более общими данными перед тонкой настройкой с парами вопросов.

Смотрите также

Ссылки

  1. ^ ab Socher, Richard; Huang, Eric; Pennington, Jeffrey; Ng, Andrew; Manning, Christopher (2011), «Достижения в области нейронных систем обработки информации 24», Dynamic Pooling and Unfolding Recursive Autoencoders for Paraphrase Detection , заархивировано из оригинала 2018-01-06 , извлечено 2017-12-29
  2. ^ Каллисон-Берч, Крис (25–27 октября 2008 г.). Синтаксические ограничения парафраз, извлеченных из параллельных корпусов. Труды EMNLP '08 конференции по эмпирическим методам обработки естественного языка. Гонолулу, Гавайи. С. 196–205.
  3. ^ Берант, Джонатан и Перси Лян. «Семантический анализ посредством парафразирования». Труды 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). Том 1. 2014.
  4. ^ Вахле, Ян Филип; Руас, Терри; Кирстейн, Фредерик; Гипп, Бела (2022). «Как большие языковые модели преобразуют плагиат машинного парафраза». Труды конференции 2022 года по эмпирическим методам обработки естественного языка . Онлайн и Абу-Даби, Объединенные Арабские Эмираты. стр. 952–963. arXiv : 2210.03568 . doi :10.18653/v1/2022.emnlp-main.62.{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  5. ^ ab Barzilay, Regina; Lee, Lillian (май–июнь 2003 г.). Обучение перефразированию: неконтролируемый подход с использованием выравнивания множественных последовательностей. Труды HLT-NAACL 2003 г.
  6. ^ Баннард, Колин; Каллисон-Берч, Крис (2005). Перефразирование двуязычных параллельных корпусов. Труды 43-го ежегодного заседания ACL. Энн-Арбор, Мичиган. С. 597–604.
  7. ^ Пракаш, Аадитья; Хасан, Садид А.; Ли, Кэти; Датла, Вивек; Кадир, Ашекуль; Лю, Джоуи; Фарри, Оладимеджи (2016), Генерация нейронных парафразов с помощью распределенных остаточных сетей LSTM , arXiv : 1610.03098 , Bibcode : 2016arXiv161003098P
  8. ^ Чжоу, Цзяньин; Бхат, Сума (2021). «Генерация парафраза: обзор современного состояния дел». Труды конференции 2021 года по эмпирическим методам обработки естественного языка . Онлайн и Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики. стр. 5075–5086. doi : 10.18653/v1/2021.emnlp-main.414 . S2CID  243865349.
  9. ^ Доу, Яо; Форбс, Максвелл; Консель-Кедзиорски, Рик; Смит, Ноа; Чой, Йеджин (2022). «Неотличим ли текст GPT-3 от человеческого текста? Пугало: основа для изучения машинного текста». Труды 60-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи) . Дублин, Ирландия: Ассоциация компьютерной лингвистики: 7250–7274. arXiv : 2107.01294 . doi : 10.18653/v1/2022.acl-long.501 . S2CID  247315430.
  10. ^ Лю, Сянген; Моу, Лили; Мэн, Фаньдун; Чжоу, Хао; Чжоу, Цзе; Сун, Сен (2020). «Неконтролируемое парафразирование с помощью имитации отжига». Труды 58-го ежегодного собрания Ассоциации компьютерной лингвистики . Онлайн: Ассоциация компьютерной лингвистики: 302–312. arXiv : 1909.03588 . doi : 10.18653/v1/2020.acl-main.28 . S2CID  202537332.
  11. ^ Вахле, Ян Филип; Руас, Терри; Мойшке, Норман; Гипп, Бела (2021). «Являются ли нейронные языковые модели хорошими плагиаторами? Тест для обнаружения нейронного парафраза». Совместная конференция ACM/IEEE по цифровым библиотекам (JCDL) 2021 г. Шампейн, Иллинойс, США: IEEE. стр. 226–229. arXiv : 2103.12450 . doi :10.1109/JCDL52503.2021.00065. ISBN 978-1-6654-1770-9. S2CID  232320374.
  12. ^ Бандель, Элрон; Ааронов, Ранит; Шмуэли-Шойер, Михал; Шнайдерман, Илья; Слоним, Ноам; Эйн-Дор, Лиат (2022). «Генерация парафраз с контролем качества». Труды 60-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Дублин, Ирландия: Ассоциация компьютерной лингвистики: 596–609. arXiv : 2203.10940 . doi : 10.18653/v1/2022.acl-long.45 .
  13. ^ Ли, Джон Си Юэн; Лим, Хо Хунг; Кэрол Вебстер, Кэрол (2022). «Неконтролируемое предсказание парафразируемости для составных номинаций». Труды конференции 2022 года Североамериканского отделения Ассоциации компьютерной лингвистики: Технологии человеческого языка . Сиэтл, США: Ассоциация компьютерной лингвистики. стр. 3254–3263. doi : 10.18653/v1/2022.naacl-main.237 . S2CID  250390695.
  14. ^ Niu, Tong; Yavuz, Semih; Zhou, Yingbo; Keskar, Nitish Shirish; Wang, Huan; Xiong, Caiming (2021). «Неконтролируемое парафразирование с предварительно обученными языковыми моделями». Труды конференции 2021 года по эмпирическим методам обработки естественного языка . Онлайн и Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики. стр. 5136–5150. doi : 10.18653/v1/2021.emnlp-main.417 . S2CID  237497412.
  15. ^ Кирос, Райан; Чжу, Юкунь; Салахутдинов Руслан; Земель, Ричард; Торральба, Антонио; Уртасун, Ракель; Фидлер, Саня (2015), Векторы с пропуском мыслей , arXiv : 1506.06726 , Бибкод : 2015arXiv150606726K
  16. ^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (2019). «Труды конференции Севера 2019 года». Труды конференции Севера 2019 года . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 4171–4186. doi :10.18653/v1/N19-1423. S2CID  52967399.
  17. ^ Вале, Ян Филип; Руас, Терри; Фолтынек, Томаш; Мейшке, Норман; Гипп, Бела (2022), Смитс, Мальте (ред.), «Выявление плагиата, перефразированного машиной», Информация для лучшего мира: формирование глобального будущего , т. 13192, Cham: Springer International Publishing, стр. 393–413, arXiv : 2103.11909 , doi : 10.1007/978-3-030-96957-8_34, ISBN 978-3-030-96956-1, S2CID  232307572 , получено 2022-10-06
  18. ^ Nighojkar, Animesh; Licato, John (2021). «Улучшение обнаружения парафразы с помощью задачи состязательного парафразирования». Труды 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (том 1: длинные статьи) . Онлайн: Ассоциация компьютерной лингвистики. стр. 7106–7116. doi : 10.18653/v1/2021.acl-long.552 . S2CID  235436269.
  19. ^ Допьер, Томас; Гравье, Кристоф; Ложераис, Вильфрид (2021). «ProtAugment: метаобучение обнаружению намерений с помощью неконтролируемого разнообразного парафразирования». Труды 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (том 1: длинные статьи) . Онлайн: Ассоциация компьютерной лингвистики. стр. 2454–2466. doi : 10.18653/v1/2021.acl-long.191 . S2CID  236460333.
  20. ^ Каллисон-Берч, Крис; Кон, Тревор; Лапата, Мирелла (2008). ParaMetric: Автоматическая метрика оценки для парафразирования . Труды 22-й Международной конференции по компьютерной лингвистике. Манчестер. С. 97–104. doi : 10.3115/1599081.1599094 . S2CID  837398.
  21. ^ abc Чен, Дэвид; Долан, Уильям (2008). Сбор высокопараллельных данных для оценки парафраза. Труды 49-го ежегодного собрания Ассоциации компьютерной лингвистики: технологии человеческого языка. Портленд, Орегон. С. 190–200.
  22. ^ Лю, Чанг; Дальмейер, Дэниел; Нг, Хви Тоу (2010). PEM: метрика оценки парафраза, использующая параллельные тексты. Труды конференции 2010 года по эмприциальным методам в обработке естественного языка. Массачусетский технологический институт, Массачусетс. С. 923–932.
  23. ^ "Распознавание парафраза в парах вопросов Quora". Документы с кодом .

Внешние ссылки