Диалоговая система , или разговорный агент ( CA ), — это компьютерная система, предназначенная для общения с человеком. Диалоговые системы используют один или несколько из следующих режимов: текст, речь, графика, тактильные эффекты, жесты и другие для общения как на входном, так и на выходном канале.
Элементы диалоговой системы не определены, поскольку эта идея находится в стадии исследования, [ требуется ссылка ] однако они отличаются от чат-бота . [1] Типичный мастер графического интерфейса пользователя участвует в своего рода диалоге, но он включает в себя очень мало общих компонентов диалоговой системы, а состояние диалога тривиально.
Фон
После диалоговых систем, основанных только на обработке письменного текста, появившихся в начале шестидесятых годов, [2] первая система речевого диалога была выпущена в рамках проекта DARPA в США в 1977 году. [3] После окончания этого пятилетнего проекта некоторые европейские проекты выпустили первую диалоговую систему, способную говорить на многих языках (включая французский, немецкий и итальянский). [4] Эти первые системы использовались в телекоммуникационной отрасли для предоставления различных телефонных услуг в определенных областях, например, автоматизированной службы повестки дня и расписания поездов.
Компоненты
Какие наборы компонентов включены в диалоговую систему, и как эти компоненты разделяют обязанности, отличается от системы к системе. Принципиальной для любой диалоговой системы является менеджер диалога , который является компонентом, управляющим состоянием диалога и стратегией диалога. Типичный цикл активности в диалоговой системе содержит следующие фазы: [5]
Пользователь говорит, а ввод преобразуется в обычный текст распознавателем/декодером ввода системы , который может включать в себя:
Диалоговые системы, основанные на текстовом интерфейсе (например, текстовый чат), содержат только этапы 2–5.
Типы систем
Системы диалога делятся на следующие категории, которые перечислены здесь по нескольким измерениям. Многие категории пересекаются, и различия могут быть не установлены.
«Система естественного диалога — это форма диалоговой системы, которая пытается улучшить удобство использования и удовлетворенность пользователя, имитируя человеческое поведение» [6] (Берг, 2014). Она рассматривает особенности диалога между людьми (например, поддиалоги и смена тем) и стремится интегрировать их в диалоговые системы для взаимодействия человека и машины. Часто (разговорные) диалоговые системы требуют, чтобы пользователь адаптировался к системе, поскольку система способна понимать только очень ограниченный словарный запас, не способна реагировать на смену тем и не позволяет пользователю влиять на ход диалога. Смешанная инициатива — это способ дать пользователю возможность принимать активное участие в диалоге, а не только отвечать на вопросы . Однако само существование смешанной инициативы недостаточно для того, чтобы классифицировать ее как естественную диалоговую систему. Другие важные аспекты включают в себя: [6]
Адаптивность системы
Поддержка неявного подтверждения
Использование проверочных вопросов
Возможности исправления уже предоставленной информации
Излишняя информативность (предоставление большего количества информации, чем было запрошено)
Поддержка отрицаний
Понимать отсылки, анализируя дискурс и анафору
Генерация естественного языка для предотвращения монотонных и повторяющихся подсказок
Адаптивная и ситуационно-ориентированная формулировка
Социальное поведение (приветствия, тот же уровень формальности, что и у пользователя, вежливость)
Качество распознавания и синтеза речи
Хотя большинство этих аспектов являются проблемами многих различных исследовательских проектов, не хватает инструментов, которые поддерживают разработку диалоговых систем, решающих эти темы. [7] За исключением VoiceXML , который фокусируется на интерактивных системах голосового ответа и является основой для многих систем разговорного диалога в промышленности (приложения поддержки клиентов) и AIML , который известен благодаря чат-боту ALICE , ни один из них не интегрирует лингвистические функции, такие как диалоговые действия или генерация языка. Поэтому NADIA (исследовательский прототип) дает представление о том, как заполнить этот пробел, и объединяет некоторые из вышеупомянутых аспектов, такие как генерация естественного языка, адаптивная формулировка и поддиалоги.
Производительность
Некоторые авторы измеряют эффективность диалоговой системы с точки зрения процента полностью правильных предложений, сравнивая их с моделью предложений (эта мера называется точностью концептуального предложения [8] или пониманием предложения [4] ).
Приложения
Диалоговые системы могут поддерживать широкий спектр приложений в коммерческих предприятиях, образовании, государственном управлении, здравоохранении и индустрии развлечений. [9] Например:
Ответы на вопросы клиентов о продуктах и услугах через веб-сайт компании или интранет-портал
База знаний агентов по работе с клиентами : позволяет агентам вводить вопросы клиентов и помогать им с ответами.
Направляемые продажи : содействие совершению сделок путем предоставления ответов и рекомендаций в процессе продаж, особенно для сложных продуктов, продаваемых неопытным клиентам.
Справочная служба : ответы на внутренние вопросы сотрудников, например, ответы на вопросы отдела кадров
Навигация по веб-сайту: направление клиентов к соответствующим разделам сложных веб-сайтов — консьерж веб-сайта
Техническая поддержка: реагирование на технические проблемы, например, диагностика неполадок с продуктом или устройством.
Персонализированное обслуживание: операторы могут использовать внутренние и внешние базы данных для персонализации взаимодействия, например, отвечая на вопросы об остатках на счетах, предоставляя информацию о портфеле, предоставляя информацию о часто летающих пассажирах или членстве.
Обучение или образование: они могут давать советы по решению проблем, пока пользователь учится.
Простые диалоговые системы широко используются для снижения нагрузки на человека в колл-центрах . В этом и других приложениях промышленной телефонии функциональность, предоставляемая диалоговыми системами, известна как интерактивный голосовой ответ или IVR.
Оказывать поддержку ученым в задачах обработки и анализа данных, например, в области геномики. [10]
В некоторых случаях разговорные агенты могут взаимодействовать с пользователями с помощью искусственных персонажей. Такие агенты тогда называются воплощенными агентами .
Инструментарии и архитектуры
Обзор современных фреймворков, языков и технологий для определения диалоговых систем.
^ Клювер, Тина. «От чат-ботов к диалоговым системам». Разговорные агенты и взаимодействие на естественном языке: методы и эффективные практики. IGI Global, 2011. 1-22.
^ МакТир, Майкл, Зорайда Каллехас и Дэвид Гриол, Диалоговый интерфейс: общение со смарт-устройствами , Springer, 2016.
^ Джанкарло Пирани (ред.), Современные алгоритмы и архитектуры для понимания речи , т. 1. Springer Science & Business Media, 2013.
^ Альберто Чиарамелла, Отчет об оценке производительности прототипа , Рабочий пакет солнечных часов 8000 (1993).
^ Берг, Маркус М. (2015), «NADIA: упрощенный подход к разработке систем естественного диалога», Обработка естественного языка и информационные системы , Конспект лекций по информатике, т. 9103, стр. 144–150, doi :10.1007/978-3-319-19581-0_12, ISBN978-3-319-19580-3
^ Бангалор, Шринивас и Майкл Джонстон. «Надежное понимание в мультимодальных интерфейсах». Computational Linguistics 35.3 (2009): 345-397.
^ Лестер, Дж.; Брантинг, К.; Мотт, Б. (2004), «Разговорные агенты» (PDF) , Практическое руководство по Интернет-вычислениям , Chapman & Hall
^ Кровари; Пидо; Пиноли; Бернаскони; Канакоглу; Гарзотто; Чери (2021), «GeCoAgent: разговорный агент для расширения возможностей извлечения и анализа геномных данных», ACM Transactions on Computing for Healthcare , 3 , ACM New York, NY: 1–29, doi : 10.1145/3464383, hdl : 11311/1192262 , S2CID 245855725