Язык богатого представления , часто сокращенно RRL , представляет собой язык компьютерной анимации, специально разработанный для облегчения взаимодействия двух или более анимированных персонажей. [1] [2] [3] Исследование финансировалось Европейской комиссией в рамках проекта NECA . Структура NECA (Net Environment for Embodied Emotional Conversational Agents), в рамках которой был разработан RRL, была ориентирована не на анимацию фильмов, а на создание интеллектуальных «виртуальных персонажей», которые взаимодействуют в виртуальном мире и ведут разговоры с эмоциональным содержанием в сочетании с подходящее выражение лица . [3]
RRL был новаторским исследовательским проектом, который повлиял на дизайн других языков, таких как язык разметки игроков , который расширил некоторые части дизайна RRL. [4] Дизайн языка специально предназначен для уменьшения объема обучения, необходимого для моделирования взаимодействия нескольких персонажей в виртуальном мире, и для автоматического создания большей части лицевой анимации , а также скелетной анимации на основе содержания разговоров. Из-за взаимозависимости невербальных коммуникативных компонентов, таких как черты лица, от произносимых слов, анимация на языке невозможна без учета контекста сцены , в которой происходит анимация, например гнева или радости. [5]
Область применения RRL состоит из сцен с двумя и более виртуальными персонажами. Представление этих сцен требует нескольких типов информации, таких как позы тела , выражения лица , семантическое содержание и значение разговоров и т. д. Проблема проектирования заключается в том, что часто информация одного типа зависит от другого типа информации, например, позы тела, Выражение лица и смысловое содержание разговора должны согласовываться. Примером может служить то, что в гневном разговоре семантика разговора диктует позу тела и мимику, отличную от радостной беседы. Следовательно, любые команды языка для управления выражением лица должны по своей сути зависеть от контекста разговора. [3]
Различные типы информации, используемые в RRL, требуют разных форм выражения в языке, например, хотя семантическая информация представлена грамматиками , компонент выражения лица требует примитивов графического манипулирования. [3]
Ключевой целью при разработке RRL была простота разработки, чтобы сделать сцены и конструкции взаимодействия доступными для пользователей без глубоких знаний программирования. Более того, дизайн был направлен на то, чтобы обеспечить постепенную разработку в естественной форме, чтобы сцены можно было частично прототипировать, а затем дорабатывать до более естественно выглядящих изображений, например, посредством последующего добавления моргания или дыхания. [3]
Заимствуя театральную терминологию, каждый сеанс взаимодействия между синтетическими персонажами в РРЛ называется сценой . Описание сцены определяет содержание, время и эмоциональные характеристики, используемые в сцене. Специальный модуль, называемый аффективным рассуждением, вычисляет эмоциональные примитивы , задействованные в сцене, включая тип и интенсивность эмоций, а также их причины. Аффективный мыслитель использует такие измерения эмоций , как интенсивность и напористость. [3]
Хотя XML используется в качестве базового формата представления, сцены описываются на более высоком уровне в рамках объектно-ориентированной структуры. В этой структуре узлы (т.е. объекты) соединяются стрелками или ссылками. Например, сцена — это узел верхнего уровня, связанный с другими. Сцена может иметь три конкретных атрибута: агенты/люди, участвующие в сцене, репрезентация дискурса, обеспечивающая основу для разговоров, и история, фиксирующая временные отношения между различными действиями. [3]
Описания сцен передаются в модуль генерации естественного языка, который создает подходящие предложения. Создание естественного течения разговора требует высокой степени репрезентативной способности эмоциональных элементов. РРЛ использует систему репрезентации дискурса, основанную на стандартном методе референтов и условий . Аффективный мыслитель предоставляет подходящую информацию для выбора слов и структур, соответствующих конкретным предложениям. [3]
Компонент синтеза речи сильно зависит от семантической информации и поведения модуля назначения жестов. Компонент синтеза речи должен работать раньше системы назначения жестов, поскольку он включает в себя информацию о времени произнесения слов и эмоциональных междометий . После интерпретации произносимого текста на естественном языке этот компонент добавляет просодическую структуру, такую как ритм, ударение и интонации. [3]
Речевые элементы, обогащенные ударением, интонацией и эмоциональными маркерами, передаются в систему назначения жестов. [3] RRL поддерживает три отдельных аспекта управления эмоциями. Во-первых, для сцен и конкретных предложений могут быть предусмотрены определенные теги эмоций. Ряд специфических команд поддерживает отображение широкого спектра эмоций на лицах анимированных персонажей. [3]
Во-вторых, существуют встроенные механизмы согласования определенных черт лица с эмоциональными позами тела. В-третьих, определенные эмоциональные междометия, такие как вздохи, зевок, смешки и т. д., могут чередоваться с действиями, чтобы повысить правдоподобность высказываний персонажа. [3]
В RRL термин «жест» используется в общем смысле и применяется к выражению лица, позе тела и правильным жестам. При назначении жестов обрабатываются три уровня информации: [3]
Система назначения жестов имеет определенные типы жестов, такие как движения тела (например, пожимание плечами в знак безразличия против опущенных плеч печали), символические движения (жесты, которые по традиции сигнализируют да/нет), иконические (например, имитация телефона с помощью пальцев), дейктические движения. (указывающие жесты), контраст (например, с одной стороны, а с другой), черты лица (например, поднятые брови, нахмуривание, удивление или пристальный взгляд). [3]