Генерация естественного языка

Генерация естественного языка ( NLG ) — это программный процесс, который создает выходные данные на естественном языке . Широко цитируемый обзор методов NLG описывает NLG как «подобласть искусственного интеллекта и компьютерной лингвистики, которая занимается созданием компьютерных систем, которые могут создавать понятные тексты на английском или других человеческих языках на основе некоторого базового нелингвистического представления информации». . ^[1]

Хотя широко распространено мнение, что результатом любого процесса NLG является текст, существуют некоторые разногласия по поводу того, должны ли входные данные системы NLG быть нелингвистическими. ^[2] Общие применения методов NLG включают создание различных отчетов, например о погоде ^[3] и отчетах пациентов; ^[4] подписи к изображениям; ^[5] и чат-боты .

Автоматизированный NLG можно сравнить с процессом, который используют люди, когда преобразуют идеи в письменную или устную форму. Психолингвисты предпочитают для этого процесса термин « языковое производство» , который также можно описать математически или смоделировать на компьютере для психологических исследований. Системы NLG также можно сравнить с трансляторами искусственных компьютерных языков, такими как декомпиляторы или транспиляторы , которые также создают удобочитаемый код, сгенерированный из промежуточного представления . Человеческие языки, как правило, значительно сложнее и допускают гораздо большую двусмысленность и разнообразие выражений, чем языки программирования, что усложняет NLG.

NLG можно рассматривать как дополнение к пониманию естественного языка (NLU): в то время как при понимании естественного языка системе необходимо устранить неоднозначность входного предложения, чтобы создать язык машинного представления, в NLG система должна принимать решения о том, как выразить представление в словах. Практические соображения при построении систем NLU и NLG не симметричны. NLU приходится иметь дело с неоднозначным или ошибочным пользовательским вводом, тогда как идеи, которые система хочет выразить через NLG, обычно точно известны. NLG необходимо выбрать конкретное, непротиворечивое текстовое представление из множества потенциальных представлений, тогда как NLU обычно пытается создать единое, нормализованное представление выраженной идеи. ^[6]

NLG существует с момента разработки ELIZA в середине 1960-х годов, но впервые эти методы были использованы в коммерческих целях в 1990-х годах. ^[7] Методы NLG варьируются от простых систем на основе шаблонов, таких как слияние писем , генерирующих бланки писем , до систем, которые имеют сложное понимание человеческой грамматики. NLG также можно достичь путем обучения статистической модели с использованием машинного обучения , обычно на большом корпусе текстов, написанных человеком. ^[8]

Пример

Система прогноза пыльцы для Шотландии ^[9] представляет собой простой пример простой системы NLG, которая, по сути, может быть шаблоном . Эта система принимает в качестве входных данных шесть чисел, которые дают прогнозируемые уровни пыльцы в разных частях Шотландии. На основании этих чисел система генерирует краткую текстовую сводку об уровнях пыльцы.

Например, используя исторические данные за 1 июля 2005 г., программа выдает:

Уровень пыльцы трав в пятницу увеличился с умеренного до высокого вчерашнего уровня, составив от 6 до 7 на большей части территории страны. Однако в северных районах уровень пыльцы будет умеренным и составит 4.

Напротив, фактический прогноз (написанный человеком-метеорологом) на основе этих данных был:

Ожидается, что количество пыльцы останется высоким на уровне 6 на большей части территории Шотландии и даже на уровне 7 на юго-востоке. Единственный рельеф находится на Северных островах и крайнем северо-востоке материковой Шотландии со средним уровнем содержания пыльцы.

Сравнение этих двух иллюстрирует некоторые варианты выбора, которые должны сделать системы NLG; они более подробно обсуждаются ниже.

Этапы

Процесс создания текста может быть таким же простым, как сохранение списка шаблонного текста, который копируется и вставляется, возможно, связанный с каким-либо связующим текстом. Результаты могут быть удовлетворительными в простых областях, таких как гороскопы или генераторы персонализированных деловых писем. Однако сложная система NLG должна включать этапы планирования и объединения информации, чтобы обеспечить создание текста, который выглядит естественным и не повторяется. Типичными стадиями генерации естественного языка, предложенными Дейлом и Рейтером ^[6] , являются:

Определение содержания : решение о том, какую информацию упомянуть в тексте. Например, в приведенном выше примере с пыльцой мы решаем, стоит ли явно упоминать, что уровень пыльцы равен 7 на юго-востоке.

Структурирование документа : общая организация передаваемой информации. Например, решить сначала описать области с высоким уровнем пыльцы, а не области с низким уровнем пыльцы.

Агрегация : объединение похожих предложений для улучшения читаемости и естественности. Например, объединив два следующих предложения:

Уровень пыльцы трав в пятницу увеличился с умеренного до высокого уровня вчерашнего дня .
Уровень пыльцы трав составит от 6 до 7 на большей части территории страны.

в следующее единственное предложение:

Уровень пыльцы трав в пятницу увеличился с умеренного до высокого уровня вчерашнего дня и составил от 6 до 7 на большей части территории страны .

Лексический выбор : Сопоставление слов с понятиями. Например, решение о том, следует ли использовать средний или умеренный уровень пыльцы при описании уровня пыльцы 4.

Генерация ссылающихся выражений : создание ссылающихся выражений , которые идентифицируют объекты и регионы. Например, мы решили использовать его на Северных островах и крайнем северо-востоке материковой Шотландии для обозначения определенного региона Шотландии. В эту задачу также входит принятие решений относительно местоимений и других типов анафоры .

Реализация : Создание реального текста, который должен быть правильным по правилам синтаксиса , морфологии и орфографии . Например, использование will будет для будущего времени to be .

Альтернативный подход к NLG — использовать «сквозное» машинное обучение для построения системы без отдельных этапов, как указано выше. ^[10] Другими словами, мы строим систему NLG, обучая алгоритм машинного обучения (часто LSTM ) на большом наборе входных данных и соответствующих (написанных человеком) выходных текстах. Комплексный подход, пожалуй, наиболее успешен при создании подписей к изображениям ^[11] , при которых к изображению автоматически генерируется текстовая подпись.

Приложения

Автоматическое создание отчетов

С коммерческой точки зрения наиболее успешными приложениями NLG были системы преобразования данных в текст , которые генерируют текстовые сводки баз данных и наборов данных; эти системы обычно выполняют анализ данных , а также генерацию текста. Исследования показали, что текстовые резюме могут быть более эффективными, чем графики и другие визуальные средства для поддержки принятия решений, ^[12]^[13]^[14] и что тексты, созданные компьютером, могут превосходить (с точки зрения читателя) тексты, написанные человеком. ^[15]

Первые коммерческие системы преобразования данных в текст производили прогнозы погоды на основе данных о погоде. Самой ранней такой системой, которая была развернута, была FoG ^[3] , которая использовалась Министерством окружающей среды Канады для составления прогнозов погоды на французском и английском языках в начале 1990-х годов. Успех FoG положил начало другой работе, как исследовательской, так и коммерческой. Среди последних приложений — текстовый прогноз Метеорологического бюро Великобритании . ^[16]

С тех пор системы преобразования данных в текст стали применяться в самых разных условиях. После небольшого землетрясения возле Беверли-Хиллз, Калифорния, 17 марта 2014 года, газета Los Angeles Times сообщила подробную информацию о времени, месте и силе землетрясения в течение 3 минут после события. Этот отчет был автоматически создан «робожурналистом», который преобразовал входящие данные в текст по заранее заданному шаблону. ^[17]^[18] В настоящее время существует значительный коммерческий интерес к использованию NLG для обобщения финансовых и деловых данных. Действительно, Gartner заявила, что NLG станет стандартной функцией 90% современных платформ бизнес-аналитики и бизнес-аналитики. ^[19] NLG также используется в коммерческих целях в автоматизированной журналистике , чат-ботах , создании описаний продуктов для сайтов электронной коммерции, обобщении медицинских записей, ^[20]^[4] и повышении доступности (например, путем описания графиков и наборов данных для слепых людей ^{[ 19] 21]} ).

Примером интерактивного использования NLG является структура WYSIWYM . Это означает то, что вы видите, это то, что вы имели в виду, и позволяет пользователям видеть и манипулировать непрерывно отображаемым представлением (выходными данными NLG) базового документа формального языка (входными данными NLG), тем самым редактируя формальный язык, не изучая его.

Заглядывая в будущее, можно сказать, что текущий прогресс в преобразовании данных в текст открывает путь к адаптации текстов к конкретной аудитории. Например, данные о младенцах, находящихся в неонатальной помощи, могут быть по-разному преобразованы в текст в клинических условиях, с разными уровнями технической детализации и пояснительным языком, в зависимости от предполагаемого получателя текста (врач, медсестра, пациент). Ту же идею можно применить и в спортивной сфере, создавая разные отчеты для болельщиков конкретных команд. ^[22]

Подпись к изображению

За последние несколько лет возрос интерес к автоматическому созданию подписей к изображениям в рамках более широких усилий по исследованию взаимодействия между зрением и языком. В случае преобразования данных в текст алгоритм подписи изображения (или автоматического описания изображения) включает в себя взятие изображения, анализ его визуального содержания и создание текстового описания (обычно предложения), которое вербализует наиболее важные аспекты изображения. .

Система подписей к изображениям включает в себя две подзадачи. В анализе изображений особенности и атрибуты изображения обнаруживаются и помечаются, прежде чем сопоставлять эти выходные данные с лингвистическими структурами. В недавних исследованиях используются подходы глубокого обучения с использованием функций предварительно обученной сверточной нейронной сети , такой как AlexNet, VGG или Caffe, где генераторы титров используют слой активации из предварительно обученной сети в качестве входных функций. Генерация текста, вторая задача, выполняется с использованием широкого спектра методов. Например, в системе Midge входные изображения представлены в виде троек, состоящих из обнаружений объекта/вещества, обнаружения действия/ позы и пространственных отношений. Впоследствии они сопоставляются с тройками <существительное, глагол, предлог> и реализуются с использованием грамматики древовидной подстановки. ^[22]

Несмотря на достижения, в исследованиях в области захвата изображений остаются проблемы и возможности. Несмотря на то, что недавнее появление Flickr30K, MS COCO и других больших наборов данных позволило обучать более сложные модели, такие как нейронные сети, утверждается, что исследования в области подписей к изображениям могут выиграть от более крупных и разнообразных наборов данных. Разработка автоматических мер, которые могут имитировать человеческие суждения при оценке пригодности описаний изображений, является еще одной потребностью в этой области. Другие открытые проблемы включают визуальный ответ на вопросы (VQA), ^[23] , а также создание и оценку многоязычных хранилищ для описания изображений. ^[22]

Чат-боты

Еще одна область, где широко применяется NLG, — это автоматизированные диалоговые системы, часто в форме чат-ботов. Чат -бот или чат-бот — это программное приложение, используемое для ведения онлайн-чата с помощью текста или преобразования текста в речь вместо обеспечения прямого контакта с живым агентом-человеком. В то время как методы обработки естественного языка (NLP) применяются для расшифровки человеческого ввода, NLG информирует выходную часть алгоритмов чат-бота, облегчая диалоги в реальном времени.

Ранние системы чат-ботов, в том числе Cleverbot , созданный Ролло Карпентером в 1988 году и опубликованный в 1997 году, ^{отвечают}^{на вопросы} , определяя, как человек ответил на тот же вопрос в базе данных разговоров, используя ^методыпоиска информации (IR). ^{[ нужна цитата ]} Современные системы чат-ботов преимущественно полагаются на модели машинного обучения (ML), такие как последовательное обучение и обучение с подкреплением для генерации вывода на естественном языке. Также изучались гибридные модели. Например, помощник по покупкам Alibaba сначала использует IR-подход для извлечения лучших кандидатов из базы знаний, затем использует модель seq2seq на основе машинного обучения, повторно ранжируя ответы кандидатов и генерируя ответ. ^[24]

Креативное письмо и компьютерный юмор

Гипотеза о создании творческого языка с помощью NLG возникла с момента зарождения этой области. Недавним пионером в этой области является Филип Паркер, который разработал арсенал алгоритмов, способных автоматически генерировать учебники, кроссворды, стихи и книги на самые разные темы — от переплетного дела до катаракты. ^[25] Появление крупных предварительно обученных языковых моделей на основе преобразователей, таких как GPT-3, также способствовало прорывам, поскольку такие модели демонстрируют узнаваемую способность создавать письменные задачи. ^[26]

Смежной областью применения NLG является компьютерное производство юмора. JAPE (Joke Analysis and Production Engine) — одна из первых крупных автоматизированных систем производства юмора, которая использует подход на основе шаблонов с ручным кодированием для создания каламбурных загадок для детей. HAHAcronym создает юмористические интерпретации любой аббревиатуры, а также предлагает новые подходящие аббревиатуры с учетом некоторых ключевых слов. ^[27]

Несмотря на достигнутый прогресс, остается множество проблем в создании автоматизированного творческого и юмористического контента, который может конкурировать с работой человека. В эксперименте по созданию сатирических заголовков результаты лучшей модели на основе BERT были восприняты как смешные в 9,4% случаев (в то время как реальные заголовки Onion были 38,4%), а модель GPT-2, настроенная на сатирические заголовки, достигла 6,9%. ^[28] Было отмечено, что двумя основными проблемами систем генерации юмора являются отсутствие аннотированных наборов данных и отсутствие формальных методов оценки, ^[27] которые могли бы быть применимы к созданию другого творческого контента. Некоторые утверждают, что в отношении других приложений в NLG не уделялось внимания творческим аспектам языкового производства. Исследователи NLG могут извлечь выгоду из понимания того, что представляет собой творческое языковое производство, а также структурных особенностей повествования, которые могут улучшить результаты NLG даже в системах преобразования данных в текст. ^[22]

Оценка

Как и в других научных областях, исследователям NLG необходимо проверить, насколько хорошо работают их системы, модули и алгоритмы. Это называется оценкой . Существует три основных метода оценки систем NLG:

Целевая (внешняя) оценка : дайте сгенерированный текст человеку и оцените, насколько хорошо он помогает ему выполнить задачу (или иным образом достичь своей коммуникативной цели). Например, систему, которая генерирует сводные медицинские данные, можно оценить, передав эти сводки врачам и оценив, помогают ли эти сводки врачам принимать более правильные решения. ^[4]
Человеческие оценки : дайте сгенерированный текст человеку и попросите его оценить качество и полезность текста.
Метрики : сравнивайте сгенерированные тексты с текстами, написанными людьми на основе тех же входных данных, используя автоматические метрики, такие как BLEU , METEOR , ROUGE и LEPOR .

Конечная цель — насколько полезны системы NLG для помощи людям, что является первым из вышеперечисленных методов. Однако оценки, основанные на задачах, отнимают много времени и стоят денег, и их может быть сложно проводить (особенно, если для этого требуются субъекты со специальными знаниями, например врачи). Следовательно (как и в других областях НЛП) оценки, основанные на задачах, являются исключением, а не нормой.

В последнее время исследователи оценивают, насколько хорошо человеческие рейтинги и показатели коррелируют с (предсказывают) оценками, основанными на задачах. Работа ведется в рамках мероприятий по общим задачам «Вызовы поколений» ^[29] . Первоначальные результаты показывают, что человеческие рейтинги в этом отношении намного лучше, чем метрики. Другими словами, человеческие рейтинги обычно, по крайней мере в некоторой степени, предсказывают эффективность задачи (хотя есть исключения), в то время как рейтинги, полученные с помощью показателей, часто плохо предсказывают эффективность задачи. Эти результаты являются предварительными. В любом случае, человеческие рейтинги — самый популярный метод оценки в NLG; это контрастирует с машинным переводом , где широко используются метрики.

ИИ можно оценивать по верности обучающим данным или, альтернативно, по фактичности . Ответ, отражающий данные обучения, а не реальность, является достоверным, но не основанным на фактах. Уверенный, но неверный ответ – это галлюцинация . В обработке естественного языка галлюцинация часто определяется как «сгенерированный контент, который бессмысленен или не соответствует предоставленному исходному контенту». ^[30]

Смотрите также

дальнейшее чтение

Дейл, Роберт; Райтер, Эхуд (2000). Построение систем генерации естественного языка . Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-521-02451-8.
Эванс, Роджер; Пивек, Пол; Кэхилл, Линн (2002). Что такое НЛГ? . ИНЛГ2002. Нью-Йорк, США.бумага
Гатт, Альберт; Крамер, Эмиэль (2018). «Обзор современного состояния генерации естественного языка: основные задачи, приложения и оценка». Журнал исследований искусственного интеллекта . 61 : 65–170. arXiv : 1703.09902 . дои : 10.1613/jair.5477. S2CID 16946362.
Райтер, Эхуд (16 января 2018 г.). «Как мне узнать о NLG?».

Внешние ссылки

Специальная группа по интересам ACL по вопросам генерации (SIGGEN)
SIGGEN входит в антологию ACL (содержит исследовательские статьи NLG)
Портал ACL NLG (содержит список ресурсов NLG)
«Почти полный» список систем NLG Бейтмана и Зока теперь поддерживается в виде Wiki с различными визуализациями и обзорными таблицами, доступными по запросу.
Блог Эхуда Рейтера о генерации естественного языка
Интерактивное мультимедийное объяснение технического обслуживания и ремонта оборудования - статья, описывающая испытательный стенд скоординированных мультимедийных объяснений (COMET)