stringtranslate.com

Генерация естественного языка

Генерация естественного языка ( NLG ) — это программный процесс, который создает выходные данные на естественном языке . Широко цитируемый обзор методов NLG описывает NLG как «подобласть искусственного интеллекта и компьютерной лингвистики, которая занимается созданием компьютерных систем, которые могут создавать понятные тексты на английском или других человеческих языках на основе некоторого базового нелингвистического представления информации». . [1]

Хотя широко распространено мнение, что результатом любого процесса NLG является текст, существуют некоторые разногласия по поводу того, должны ли входные данные системы NLG быть нелингвистическими. [2] Общие применения методов NLG включают создание различных отчетов, например о погоде [3] и отчетах пациентов; [4] подписи к изображениям; [5] и чат-боты .

Автоматизированный NLG можно сравнить с процессом, который используют люди, когда преобразуют идеи в письменную или устную форму. Психолингвисты предпочитают для этого процесса термин « языковое производство» , который также можно описать математически или смоделировать на компьютере для психологических исследований. Системы NLG также можно сравнить с трансляторами искусственных компьютерных языков, такими как декомпиляторы или транспиляторы , которые также создают удобочитаемый код, сгенерированный из промежуточного представления . Человеческие языки, как правило, значительно сложнее и допускают гораздо большую двусмысленность и разнообразие выражений, чем языки программирования, что усложняет NLG.

NLG можно рассматривать как дополнение к пониманию естественного языка (NLU): в то время как при понимании естественного языка системе необходимо устранить неоднозначность входного предложения, чтобы создать язык машинного представления, в NLG система должна принимать решения о том, как выразить представление в словах. Практические соображения при построении систем NLU и NLG не симметричны. NLU приходится иметь дело с неоднозначным или ошибочным пользовательским вводом, тогда как идеи, которые система хочет выразить через NLG, обычно точно известны. NLG необходимо выбрать конкретное, непротиворечивое текстовое представление из множества потенциальных представлений, тогда как NLU обычно пытается создать единое, нормализованное представление выраженной идеи. [6]

NLG существует с момента разработки ELIZA в середине 1960-х годов, но впервые эти методы были использованы в коммерческих целях в 1990-х годах. [7] Методы NLG варьируются от простых систем на основе шаблонов, таких как слияние писем , генерирующих бланки писем , до систем, которые имеют сложное понимание человеческой грамматики. NLG также можно достичь путем обучения статистической модели с использованием машинного обучения , обычно на большом корпусе текстов, написанных человеком. [8]

Пример

Система прогноза пыльцы для Шотландии [9] представляет собой простой пример простой системы NLG, которая, по сути, может быть шаблоном . Эта система принимает в качестве входных данных шесть чисел, которые дают прогнозируемые уровни пыльцы в разных частях Шотландии. На основании этих чисел система генерирует краткую текстовую сводку об уровнях пыльцы.

Например, используя исторические данные за 1 июля 2005 г., программа выдает:

Уровень пыльцы трав в пятницу увеличился с умеренного до высокого вчерашнего уровня, составив от 6 до 7 на большей части территории страны. Однако в северных районах уровень пыльцы будет умеренным и составит 4.

Напротив, фактический прогноз (написанный человеком-метеорологом) на основе этих данных был:

Ожидается, что количество пыльцы останется высоким на уровне 6 на большей части территории Шотландии и даже на уровне 7 на юго-востоке. Единственный рельеф находится на Северных островах и крайнем северо-востоке материковой Шотландии со средним уровнем содержания пыльцы.

Сравнение этих двух иллюстрирует некоторые варианты выбора, которые должны сделать системы NLG; они более подробно обсуждаются ниже.

Этапы

Процесс создания текста может быть таким же простым, как сохранение списка шаблонного текста, который копируется и вставляется, возможно, связанный с каким-либо связующим текстом. Результаты могут быть удовлетворительными в простых областях, таких как гороскопы или генераторы персонализированных деловых писем. Однако сложная система NLG должна включать этапы планирования и объединения информации, чтобы обеспечить создание текста, который выглядит естественным и не повторяется. Типичными стадиями генерации естественного языка, предложенными Дейлом и Рейтером [6] , являются:

Определение содержания : решение о том, какую информацию упомянуть в тексте. Например, в приведенном выше примере с пыльцой мы решаем, стоит ли явно упоминать, что уровень пыльцы равен 7 на юго-востоке.

Структурирование документа : общая организация передаваемой информации. Например, решить сначала описать области с высоким уровнем пыльцы, а не области с низким уровнем пыльцы.

Агрегация : объединение похожих предложений для улучшения читаемости и естественности. Например, объединив два следующих предложения:

в следующее единственное предложение:

Лексический выбор : Сопоставление слов с понятиями. Например, решение о том, следует ли использовать средний или умеренный уровень пыльцы при описании уровня пыльцы 4.

Генерация ссылающихся выражений : создание ссылающихся выражений , которые идентифицируют объекты и регионы. Например, мы решили использовать его на Северных островах и крайнем северо-востоке материковой Шотландии для обозначения определенного региона Шотландии. В эту задачу также входит принятие решений относительно местоимений и других типов анафоры .

Реализация : Создание реального текста, который должен быть правильным по правилам синтаксиса , морфологии и орфографии . Например, использование will будет для будущего времени to be .

Альтернативный подход к NLG — использовать «сквозное» машинное обучение для построения системы без отдельных этапов, как указано выше. [10] Другими словами, мы строим систему NLG, обучая алгоритм машинного обучения (часто LSTM ) на большом наборе входных данных и соответствующих (написанных человеком) выходных текстах. Комплексный подход, пожалуй, наиболее успешен при создании подписей к изображениям [11] , при которых к изображению автоматически генерируется текстовая подпись.

Приложения

Автоматическое создание отчетов

С коммерческой точки зрения наиболее успешными приложениями NLG были системы преобразования данных в текст , которые генерируют текстовые сводки баз данных и наборов данных; эти системы обычно выполняют анализ данных , а также генерацию текста. Исследования показали, что текстовые резюме могут быть более эффективными, чем графики и другие визуальные средства для поддержки принятия решений, [12] [13] [14] и что тексты, созданные компьютером, могут превосходить (с точки зрения читателя) тексты, написанные человеком. [15]

Первые коммерческие системы преобразования данных в текст производили прогнозы погоды на основе данных о погоде. Самой ранней такой системой, которая была развернута, была FoG [3] , которая использовалась Министерством окружающей среды Канады для составления прогнозов погоды на французском и английском языках в начале 1990-х годов. Успех FoG положил начало другой работе, как исследовательской, так и коммерческой. Среди последних приложений — текстовый прогноз Метеорологического бюро Великобритании . [16]

С тех пор системы преобразования данных в текст стали применяться в самых разных условиях. После небольшого землетрясения возле Беверли-Хиллз, Калифорния, 17 марта 2014 года, газета Los Angeles Times сообщила подробную информацию о времени, месте и силе землетрясения в течение 3 минут после события. Этот отчет был автоматически создан «робожурналистом», который преобразовал входящие данные в текст по заранее заданному шаблону. [17] [18] В настоящее время существует значительный коммерческий интерес к использованию NLG для обобщения финансовых и деловых данных. Действительно, Gartner заявила, что NLG станет стандартной функцией 90% современных платформ бизнес-аналитики и бизнес-аналитики. [19] NLG также используется в коммерческих целях в автоматизированной журналистике , чат-ботах , создании описаний продуктов для сайтов электронной коммерции, обобщении медицинских записей, [20] [4] и повышении доступности (например, путем описания графиков и наборов данных для слепых людей [ 19] 21] ).

Примером интерактивного использования NLG является структура WYSIWYM . Это означает то, что вы видите, это то, что вы имели в виду, и позволяет пользователям видеть и манипулировать непрерывно отображаемым представлением (выходными данными NLG) базового документа формального языка (входными данными NLG), тем самым редактируя формальный язык, не изучая его.

Заглядывая в будущее, можно сказать, что текущий прогресс в преобразовании данных в текст открывает путь к адаптации текстов к конкретной аудитории. Например, данные о младенцах, находящихся в неонатальной помощи, могут быть по-разному преобразованы в текст в клинических условиях, с разными уровнями технической детализации и пояснительным языком, в зависимости от предполагаемого получателя текста (врач, медсестра, пациент). Ту же идею можно применить и в спортивной сфере, создавая разные отчеты для болельщиков конкретных команд. [22]

Подпись к изображению

За последние несколько лет возрос интерес к автоматическому созданию подписей к изображениям в рамках более широких усилий по исследованию взаимодействия между зрением и языком. В случае преобразования данных в текст алгоритм подписи изображения (или автоматического описания изображения) включает в себя взятие изображения, анализ его визуального содержания и создание текстового описания (обычно предложения), которое вербализует наиболее важные аспекты изображения. .

Система подписей к изображениям включает в себя две подзадачи. В анализе изображений особенности и атрибуты изображения обнаруживаются и помечаются, прежде чем сопоставлять эти выходные данные с лингвистическими структурами. В недавних исследованиях используются подходы глубокого обучения с использованием функций предварительно обученной сверточной нейронной сети , такой как AlexNet, VGG или Caffe, где генераторы титров используют слой активации из предварительно обученной сети в качестве входных функций. Генерация текста, вторая задача, выполняется с использованием широкого спектра методов. Например, в системе Midge входные изображения представлены в виде троек, состоящих из обнаружений объекта/вещества, обнаружения действия/ позы и пространственных отношений. Впоследствии они сопоставляются с тройками <существительное, глагол, предлог> и реализуются с использованием грамматики древовидной подстановки. [22]

Несмотря на достижения, в исследованиях в области захвата изображений остаются проблемы и возможности. Несмотря на то, что недавнее появление Flickr30K, MS COCO и других больших наборов данных позволило обучать более сложные модели, такие как нейронные сети, утверждается, что исследования в области подписей к изображениям могут выиграть от более крупных и разнообразных наборов данных. Разработка автоматических мер, которые могут имитировать человеческие суждения при оценке пригодности описаний изображений, является еще одной потребностью в этой области. Другие открытые проблемы включают визуальный ответ на вопросы (VQA), [23] , а также создание и оценку многоязычных хранилищ для описания изображений. [22]

Чат-боты

Еще одна область, где широко применяется NLG, — это автоматизированные диалоговые системы, часто в форме чат-ботов. Чат -бот или чат-бот — это программное приложение, используемое для ведения онлайн-чата с помощью текста или преобразования текста в речь вместо обеспечения прямого контакта с живым агентом-человеком. В то время как методы обработки естественного языка (NLP) применяются для расшифровки человеческого ввода, NLG информирует выходную часть алгоритмов чат-бота, облегчая диалоги в реальном времени.

Ранние системы чат-ботов, в том числе Cleverbot , созданный Ролло Карпентером в 1988 году и опубликованный в 1997 году, отвечают на вопросы , определяя, как человек ответил на тот же вопрос в базе данных разговоров, используя методы поиска информации (IR). [ нужна цитата ] Современные системы чат-ботов преимущественно полагаются на модели машинного обучения (ML), такие как последовательное обучение и обучение с подкреплением для генерации вывода на естественном языке. Также изучались гибридные модели. Например, помощник по покупкам Alibaba сначала использует IR-подход для извлечения лучших кандидатов из базы знаний, затем использует модель seq2seq на основе машинного обучения, повторно ранжируя ответы кандидатов и генерируя ответ. [24]

Креативное письмо и компьютерный юмор

Гипотеза о создании творческого языка с помощью NLG возникла с момента зарождения этой области. Недавним пионером в этой области является Филип Паркер, который разработал арсенал алгоритмов, способных автоматически генерировать учебники, кроссворды, стихи и книги на самые разные темы — от переплетного дела до катаракты. [25] Появление крупных предварительно обученных языковых моделей на основе преобразователей, таких как GPT-3, также способствовало прорывам, поскольку такие модели демонстрируют узнаваемую способность создавать письменные задачи. [26]

Смежной областью применения NLG является компьютерное производство юмора. JAPE (Joke Analysis and Production Engine) — одна из первых крупных автоматизированных систем производства юмора, которая использует подход на основе шаблонов с ручным кодированием для создания каламбурных загадок для детей. HAHAcronym создает юмористические интерпретации любой аббревиатуры, а также предлагает новые подходящие аббревиатуры с учетом некоторых ключевых слов. [27]

Несмотря на достигнутый прогресс, остается множество проблем в создании автоматизированного творческого и юмористического контента, который может конкурировать с работой человека. В эксперименте по созданию сатирических заголовков результаты лучшей модели на основе BERT были восприняты как смешные в 9,4% случаев (в то время как реальные заголовки Onion были 38,4%), а модель GPT-2, настроенная на сатирические заголовки, достигла 6,9%. [28]   Было отмечено, что двумя основными проблемами систем генерации юмора являются отсутствие аннотированных наборов данных и отсутствие формальных методов оценки, [27] которые могли бы быть применимы к созданию другого творческого контента. Некоторые утверждают, что в отношении других приложений в NLG не уделялось внимания творческим аспектам языкового производства. Исследователи NLG могут извлечь выгоду из понимания того, что представляет собой творческое языковое производство, а также структурных особенностей повествования, которые могут улучшить результаты NLG даже в системах преобразования данных в текст. [22]

Оценка

Как и в других научных областях, исследователям NLG необходимо проверить, насколько хорошо работают их системы, модули и алгоритмы. Это называется оценкой . Существует три основных метода оценки систем NLG:

Конечная цель — насколько полезны системы NLG для помощи людям, что является первым из вышеперечисленных методов. Однако оценки, основанные на задачах, отнимают много времени и стоят денег, и их может быть сложно проводить (особенно, если для этого требуются субъекты со специальными знаниями, например врачи). Следовательно (как и в других областях НЛП) оценки, основанные на задачах, являются исключением, а не нормой.

В последнее время исследователи оценивают, насколько хорошо человеческие рейтинги и показатели коррелируют с (предсказывают) оценками, основанными на задачах. Работа ведется в рамках мероприятий по общим задачам «Вызовы поколений» [29] . Первоначальные результаты показывают, что человеческие рейтинги в этом отношении намного лучше, чем метрики. Другими словами, человеческие рейтинги обычно, по крайней мере в некоторой степени, предсказывают эффективность задачи (хотя есть исключения), в то время как рейтинги, полученные с помощью показателей, часто плохо предсказывают эффективность задачи. Эти результаты являются предварительными. В любом случае, человеческие рейтинги — самый популярный метод оценки в NLG; это контрастирует с машинным переводом , где широко используются метрики.

ИИ можно оценивать по верности обучающим данным или, альтернативно, по фактичности . Ответ, отражающий данные обучения, а не реальность, является достоверным, но не основанным на фактах. Уверенный, но неверный ответ – это галлюцинация . В обработке естественного языка галлюцинация часто определяется как «сгенерированный контент, который бессмысленен или не соответствует предоставленному исходному контенту». [30]

Смотрите также

Рекомендации

  1. ^ Райтер, Эхуд; Дейл, Роберт (март 1997 г.). «Построение прикладных систем генерации естественного языка». Инженерия естественного языка . 3 (1): 57–87. дои : 10.1017/S1351324997001502. ISSN  1469-8110. S2CID  8460470.
  2. ^ Гатт А, Крамер Э (2018). «Обзор современного состояния генерации естественного языка: основные задачи, приложения и оценка». Журнал исследований искусственного интеллекта . 61 (61): 65–170. arXiv : 1703.09902 . дои : 10.1613/jair.5477. S2CID  16946362.
  3. ^ аб Голдберг Э., Дридгер Н., Киттредж Р. (1994). «Использование обработки естественного языка для составления прогнозов погоды». Эксперт IEEE . 9 (2): 45–53. дои : 10.1109/64.294135. S2CID  9709337.
  4. ^ abc Портет Ф, Рейтер Э, Гатт А, Хантер Дж, Шрипада С, Фрир Ю, Сайкс С (2009). «Автоматическое создание текстовых сводок на основе данных интенсивной терапии новорожденных» (PDF) . Искусственный интеллект . 173 (7–8): 789–816. дои : 10.1016/j.artint.2008.12.002.
  5. ^ Фархади А., Хеджрати М., Садеги М.А., Янг П., Раштчян С., Хоккенмайер Дж., Форсайт Д. (05.09.2010). Каждая картинка рассказывает историю: создание предложений из изображений (PDF) . Европейская конференция по компьютерному зрению. Берлин, Гейдельберг: Springer. стр. 15–29. дои : 10.1007/978-3-642-15561-1_2.
  6. ^ аб Дейл, Роберт; Райтер, Эхуд (2000). Построение систем генерации естественного языка . Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-521-02451-8.
  7. ^ Эхуд Рейтер (21 марта 2021 г.). История НЛГ. Архивировано из оригинала 12 декабря 2021 г.
  8. ^ Перера Р., Нанд П. (2017). «Последние достижения в области создания естественного языка: обзор и классификация эмпирической литературы». Вычисления и информатика . 36 (1): 1–32. дои : 10.4149/cai_2017_1_1. hdl : 10292/10691 .
  9. ^ Р. Тернер, С. Шрипада, Э. Рейтер, И. Дэви (2006). Создание пространственно-временных описаний в прогнозах пыльцы. Материалы EACL06
  10. ^ "Вызов E2E NLG" .
  11. ^ «DataLabCup: подпись к изображению» .
  12. ^ Лоу А, Фрир Ю., Хантер Дж., Логи Р., Макинтош Н., Куинн Дж. (2005). «Сравнение графических и текстовых представлений данных временных рядов для поддержки принятия медицинских решений в отделении интенсивной терапии новорожденных». Журнал клинического мониторинга и вычислений . 19 (3): 183–94. дои : 10.1007/s10877-005-0879-3. PMID  16244840. S2CID  5569544.
  13. ^ Гкация Д., Лемон О., Райзер В. (2017). «Преобразование данных в текст улучшает процесс принятия решений в условиях неопределенности» (PDF) . Журнал IEEE Computational Intelligence . 12 (3): 10–17. дои : 10.1109/MCI.2017.2708998. S2CID  9544295.
  14. ^ «Текст или графика?». 2016-12-26.
  15. ^ Рейтер Э., Шрипада С., Хантер Дж., Ю Дж., Дэви I (2005). «Выбор слов в компьютерных прогнозах погоды». Искусственный интеллект . 167 (1–2): 137–69. дои : 10.1016/j.artint.2005.06.006 .
  16. ^ С. Шрипада, Н. Бернетт, Р. Тернер, Дж. Мастин, Д. Эванс (2014). Создание тематического исследования: NLG удовлетворяет спрос метеорологической отрасли на качество и количество текстовых прогнозов погоды. Материалы INLG 2014
  17. ^ Швенке, Кен Швенке Кен; Журналист А.; Программист, Компьютер; в 2014 г. покинул Los Angeles Times (17 марта 2014 г.). «Афтершок землетрясения: возле Вествуда произошло землетрясение силой 2,7 балла». Лос-Анджелес Таймс . Проверено 3 июня 2022 г.{{cite web}}: CS1 maint: числовые имена: список авторов ( ссылка )
  18. ^ Левенсон, Эрик (17 марта 2014 г.). «Журналист LA Times объясняет, как бот написал для него историю о землетрясении» . Атлантический океан . Проверено 3 июня 2022 г.
  19. ^ «Нейронные сети и современные платформы BI будут развивать данные и аналитику» .
  20. ^ Харрис, доктор медицины (2008). «Создание крупномасштабной коммерческой системы NLG для EMR» (PDF) . Материалы Пятой Международной конференции по поколениям естественного языка . стр. 157–60.
  21. ^ «Добро пожаловать на страницу iGraph-Lite» . www.inf.udec.cl. _ Архивировано из оригинала 16 марта 2010 г.
  22. ^ abcd Гатт, Альберт; Крамер, Эмиэль (29 января 2018 г.). «Обзор современного состояния генерации естественного языка: основные задачи, приложения и оценка». arXiv : 1703.09902 [cs.CL].
  23. ^ Кодали, Венкат; Берлеант, Дэниел (2022). «Недавнее быстрое развитие архитектуры визуального ответа на вопросы: обзор». Материалы 22-й Международной конференции IEEE по ВНО . стр. 133–146. arXiv : 2203.01322 .
  24. ^ Мнасри, Маали (21 марта 2019 г.). «Последние достижения в разговорном НЛП: на пути к стандартизации создания чат-ботов». arXiv : 1903.09025 [cs.CL].
  25. ^ «Как написать более 1 миллиона книг» . ХаффПост . 11 февраля 2013 г. Проверено 3 июня 2022 г.
  26. ^ «Изучение GPT-3: новый прорыв в создании языков». КДнаггетс . Проверено 3 июня 2022 г.
  27. ^ Аб Уинтерс, Томас (30 апреля 2021 г.). «Компьютеры учатся юмору – это не шутка». Гарвардский обзор науки о данных . 3 (2). дои : 10.1162/99608f92.f13a2337 . S2CID  235589737.
  28. ^ Хорвиц, Закари; Делай, Нэм; Литтман, Майкл Л. (июль 2020 г.). «Генерация сатирических новостей, основанная на контексте». Материалы второго семинара по обработке образной речи . Онлайн: Ассоциация компьютерной лингвистики: 40–50. doi : 10.18653/v1/2020.figlang-1.5 . S2CID  220330989.
  29. ^ Вызовы поколения 2009 г.
  30. ^ Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Мадто, Андреа; Фунг, Паскаль (17 ноября 2022 г.). «Обзор галлюцинаций в формировании естественного языка». Обзоры вычислительной техники ACM . 55 (12): 3571730. arXiv : 2202.03629 . дои : 10.1145/3571730 . S2CID  246652372.

дальнейшее чтение

Внешние ссылки