Хотя разработка методов компьютерной графики для анимации лиц началась в начале 1970-х годов, основные достижения в этой области появились позднее и произошли с конца 1980-х годов.
Объем работ по компьютерной анимации лица можно разделить на две основные области: методы генерации данных анимации и методы применения таких данных к персонажу. Такие методы, как захват движения и ключевые кадры, относятся к первой группе, в то время как анимация morph target (более известная как blendshape-анимация) и скелетная анимация относятся ко второй. Анимация лица стала широко известной и популярной благодаря анимационным фильмам и компьютерным играм , но ее применение охватывает многие другие области, такие как общение , образование , научное моделирование и агентные системы (например, представители службы поддержки клиентов в Интернете). Благодаря недавним достижениям в вычислительной мощности персональных и мобильных устройств анимация лица перешла от появления в предварительно отрендеренном контенте к созданию во время выполнения.
История
Выражение человеческого лица является предметом научного исследования уже более ста лет. Изучение движений и выражений лица началось с биологической точки зрения. После некоторых более ранних исследований, например, Джона Бульвера в конце 1640-х годов, книгу Чарльза Дарвина «Выражение эмоций у людей и животных» можно считать важной отправной точкой для современных исследований в области поведенческой биологии .
Компьютерное моделирование и анимация выражений лица — не новое начинание. Самая ранняя работа с компьютерным представлением лица была выполнена в начале 1970-х годов. Первая трехмерная анимация лица была создана Парком в 1972 году. В 1973 году Джилленсон разработал интерактивную систему для сборки и редактирования линейных изображений лица. В 1974 году Парк разработал параметризованную трехмерную модель лица.
Одной из самых важных попыток описания движений лица была система кодирования лицевых движений (FACS). Первоначально разработанная Карлом-Германом Хьортшё [1] в 1960-х годах и обновленная Экманом и Фризеном в 1978 году, FACS определяет 46 базовых единиц лицевых движений (AU). Основная группа этих единиц действий представляет собой примитивные движения лицевых мышц при таких действиях, как поднятие бровей, подмигивание и разговор. Восемь AU предназначены для жестких трехмерных движений головы (т. е. повороты и наклоны влево и вправо, а также движения вверх, вниз, вперед и назад). FACS успешно использовалась для описания желаемых движений синтетических лиц, а также для отслеживания лицевой активности.
В начале 1980-х годов Платт разработал первую физически обоснованную модель лица, контролируемую мышцами, а Бреннан разработал методы карикатур на лица. В 1985 году короткометражный анимационный фильм «Тони де Пелтри» стал знаковым для анимации лица. Это был первый раз, когда компьютерная мимика и анимация речи стали основополагающей частью повествования истории.
В конце 1980-х годов Уотерс разработал новую модель на основе мышц , Магненат-Тальманн и его коллеги разработали абстрактную модель мышечного действия , а Льюис и Хилл разработали подходы к автоматической синхронизации речи. В 1990-х годах наблюдалась возросшая активность в разработке методов лицевой анимации и использовании компьютерной лицевой анимации в качестве ключевого компонента повествования, что было продемонстрировано в таких анимационных фильмах, как « История игрушек» (1995), «Муравей Антц» (1998), «Шрек » и «Корпорация монстров» (оба 2001 года), а также в компьютерных играх , таких как Sims . «Каспер» (1995), важная веха этого десятилетия, был первым фильмом, в котором ведущий актер был создан исключительно с использованием цифровой лицевой анимации.
Сложность фильмов возросла после 2000 года. В фильмах «Матрица: Перезагрузка» и «Матрица: Революция» для захвата реалистичного движения лица в каждой точке использовался плотный оптический поток с нескольких камер высокой четкости. В фильме «Полярный экспресс» использовалась большая система Vicon для захвата более 150 точек. Хотя эти системы автоматизированы, для того, чтобы данные можно было использовать, по-прежнему требуется большой объем ручной очистки. Еще одна веха в анимации лица была достигнута во «Властелине колец» , где была разработана базовая система для определенных персонажей. Марк Сагар был пионером в использовании FACS в развлекательной анимации лица, а системы на основе FACS, разработанные Сагаром, использовались в фильмах «Дом-монстр» , «Кинг-Конг» и других.
Захват движения использует камеры, размещенные вокруг объекта. Объект, как правило, оснащен либо отражателями (пассивный захват движения), либо источниками (активный захват движения), которые точно определяют положение объекта в пространстве. Данные, записанные камерами, затем оцифровываются и преобразуются в трехмерную компьютерную модель объекта. До недавнего времени размер детекторов/источников, используемых системами захвата движения, делал технологию неподходящей для захвата лица. Однако миниатюризация и другие достижения сделали захват движения жизнеспособным инструментом для компьютерной анимации лица. Захват движения лица широко использовался в Polar Express компанией Imageworks , где были захвачены сотни точек движения. Этот фильм был очень успешным, и хотя он пытался воссоздать реализм, его критиковали за то, что он попал в « зловещую долину », область, где анимационный реализм достаточен для человеческого распознавания и передачи эмоционального сообщения, но где персонажи не воспринимаются как реалистичные. Основными трудностями захвата движения являются качество данных, которые могут включать вибрацию, а также перенацеливание геометрии точек.
Захват движения без маркеров направлен на упрощение процесса захвата движения путем избежания обременения исполнителя маркерами. Недавно появилось несколько методов, использующих различные датчики, среди которых стандартные видеокамеры, Kinect и датчики глубины или другие устройства на основе структурированного света. Системы на основе структурированного света могут достигать производительности в реальном времени без использования каких-либо маркеров, используя высокоскоростной сканер структурированного света. Система основана на надежном этапе отслеживания лица в автономном режиме, который обучает систему с различными выражениями лица. Сопоставленные последовательности используются для построения линейной модели лица, специфичной для человека, которая впоследствии используется для отслеживания лица в режиме онлайн и передачи выражения.
Методы, основанные на аудио, особенно хорошо подходят для речевой анимации. Речь обычно обрабатывается иначе, чем анимация выражений лица, потому что простые подходы к анимации на основе ключевых кадров обычно обеспечивают плохое приближение к реальной речевой динамике. Часто виземы используются для представления ключевых поз в наблюдаемой речи (т. е. положения губ, челюсти и языка при воспроизведении определенной фонемы ), однако существует множество вариаций в реализации визем во время воспроизведения естественной речи. Источником этих вариаций является коартикуляция , которая представляет собой влияние окружающих визем на текущую визему (т. е. влияние контекста). Для учета коартикуляции современные системы либо явно учитывают контекст при смешивании ключевых кадров визем [2] , либо используют более длинные единицы, такие как дифон , трифон , слог или даже единицы длины слова и предложения . Одним из наиболее распространенных подходов к речевой анимации является использование функций доминирования, введенных Коэном и Массаро. Каждая функция доминирования представляет влияние виземы на речевое высказывание с течением времени. Обычно влияние будет наибольшим в центре виземы и будет уменьшаться с расстоянием от центра виземы. Функции доминирования смешиваются вместе для создания речевой траектории во многом таким же образом, как функции сплайнового базиса смешиваются вместе для создания кривой. Форма каждой функции доминирования будет отличаться в зависимости от того, какую визему она представляет, и какой аспект лица контролируется (например, ширина губ, поворот челюсти и т. д.). Этот подход к компьютерной анимации речи можно увидеть в говорящей голове Baldi. Другие модели речи используют базовые единицы, которые включают контекст (например, дифоны , трифоны и т. д.) вместо визем. Поскольку базовые единицы уже включают вариацию каждой виземы в соответствии с контекстом и в некоторой степени динамику каждой виземы, модель коартикуляции не требуется. Речь просто генерируется путем выбора соответствующих единиц из базы данных и смешивания единиц вместе. Это похоже на методы конкатенации в синтезе аудиоречи . Недостатком этих моделей является то, что для получения естественных результатов требуется большой объем захваченных данных, и хотя более длинные блоки дают более естественные результаты, размер требуемой базы данных увеличивается со средней длиной каждого блока. Наконец, некоторые модели напрямую генерируют речевую анимацию из аудио. Эти системы обычно используют скрытые марковские модели илинейронные сети для преобразования аудиопараметров в поток параметров управления для модели лица. Преимущество этого метода заключается в возможности обработки голосового контекста, естественного ритма, темпа, эмоциональной и динамической обработки без сложных алгоритмов аппроксимации. Базу данных обучения не нужно маркировать, поскольку не нужны фонемы или виземы; единственные необходимые данные — это голос и параметры анимации.
Анимация ключевых кадров — наименее автоматизированный из процессов создания данных анимации, хотя он обеспечивает максимальный уровень контроля над анимацией. Он часто используется в сочетании с другими методами для придания анимации окончательной полировки. Данные ключевых кадров могут быть сделаны из скалярных значений, определяющих коэффициенты целей морфинга или значения вращения и перемещения костей в моделях с оснасткой на основе костей. Часто для ускорения процесса анимации ключевых кадров анимацией используется контрольная оснастка. Контрольная оснастка представляет собой более высокий уровень абстракции, который может одновременно воздействовать на несколько коэффициентов целей морфинга или костей. Например, элемент управления «улыбка» может одновременно воздействовать на изгибание формы рта и прищуривание глаз.
Системы на основе Morph Targets (также называемых «blendshapes» ) предлагают быстрое воспроизведение, а также высокую степень точности выражений. Техника включает моделирование частей лицевой сетки для приближения выражений и визем , а затем смешивание различных подсеток, известных как morph Targets или blendshapes. Возможно, самым успешным персонажем, использующим эту технику, был Голлум из «Властелина колец» . Недостатки этой техники в том, что она требует интенсивного ручного труда и специфична для каждого персонажа. В последнее время начали появляться новые концепции в 3D-моделировании. В последнее время начинает появляться новая технология, отходящая от традиционных техник, такая как Curve Controlled Modeling [3], которая делает акцент на моделировании движения 3D-объекта вместо традиционного моделирования статической формы.
Анимация, управляемая костями, очень широко используется в играх. Настройка костей может варьироваться от нескольких костей до почти сотни, чтобы обеспечить все тонкие выражения лица. Главные преимущества анимации, управляемой костями, заключаются в том, что одну и ту же анимацию можно использовать для разных персонажей, если морфология их лиц схожа, и, во-вторых, им не требуется загружать в память все данные целей Morph . Анимация, управляемая костями, наиболее широко поддерживается 3D-игровыми движками. Анимация, управляемая костями, может использоваться как для 2D-, так и для 3D-анимации. Например, можно оснастить и анимировать с помощью костей 2D-персонажа с помощью Adobe Flash .
Анимация на основе текстур использует цвет пикселей для создания анимации на лице персонажа. 2D-анимация лица обычно основана на преобразовании изображений, включая как изображения из неподвижных фотографий, так и последовательности видео. Морфинг изображений — это метод, который позволяет генерировать промежуточные переходные изображения между парой целевых неподвижных изображений или между кадрами из последовательностей видео. Эти методы морфинга обычно состоят из комбинации метода геометрической деформации, который выравнивает целевые изображения, и кросс-фейда, который создает плавный переход в текстуре изображения. Ранний пример морфинга изображений можно увидеть в клипе Майкла Джексона «Black Or White». В 3D-анимации анимация на основе текстур может быть достигнута путем анимации самой текстуры или UV-карты. В последнем случае создается карта текстуры всех выражений лица, и анимация UV-карты используется для перехода от одного выражения к другому.
Физиологические модели , такие как скелетные мышечные системы и физически обоснованные модели головы, формируют другой подход к моделированию головы и лица . [4] Здесь физические и анатомические характеристики костей , тканей и кожи моделируются для обеспечения реалистичного внешнего вида (например, упругость, подобная пружине). Такие методы могут быть очень эффективными для создания реализма, но сложность структур лица делает их вычислительно дорогими и трудными для создания. Учитывая эффективность параметризованных моделей для коммуникативных целей (как объясняется в следующем разделе), можно утверждать, что физически обоснованные модели не являются очень эффективным выбором во многих приложениях. Это не отрицает преимуществ физически обоснованных моделей и того факта, что их даже можно использовать в контексте параметризованных моделей для предоставления локальных деталей, когда это необходимо.
Языки анимации лица
Многие языки анимации лица используются для описания содержания анимации лица. Они могут быть введены в совместимое программное обеспечение «плеера» , которое затем создает запрошенные действия. Языки анимации лица тесно связаны с другими языками представления мультимедиа, такими как SMIL и VRML . Из-за популярности и эффективности XML как механизма представления данных большинство языков анимации лица основаны на XML. Например, это пример из Virtual Human Markup Language (VHML):
<vhml> <person disposition= "angry" > Сначала я говорю сердитым голосом и выгляжу очень сердитым, < surprised intensity= "50" > но внезапно я меняюсь и выгляжу более удивленным . </surprised> </person> </vhml>
Более продвинутые языки позволяют принимать решения, обрабатывать события, а также выполнять параллельные и последовательные действия. Язык моделирования лиц (FML) — это основанный на XML язык для описания анимации лиц . [5] FML поддерживает параметры анимации лиц MPEG-4 (FAPS), принятие решений и динамическую обработку событий , а также типичные программные конструкции, такие как циклы . Он является частью системы iFACE. [5] Ниже приведен пример из FML:
^ Hjortsjö, CH (1969). Лицо человека и мимический язык Архивировано 06.08.2022 на Wayback Machine .
^ Изучение динамики визем, управляемой звуком, для 3D-анимации лиц
^ Дин, Х.; Хонг, И. (2003). «Управляемое моделирование кривой NURBS для анимации лица». Компьютеры и графика . 27 (3): 373–385. doi :10.1016/S0097-8493(03)00033-5.
^ Lucero, JC; Munhall, KG (1999). «Модель биомеханики лица для производства речи». Журнал акустического общества Америки . 106 (5): 2834–2842. Bibcode : 1999ASAJ..106.2834L. doi : 10.1121/1.428108. PMID 10573899.
^ ab "iFACE". Карлтонский университет. 6 июня 2007 г. Архивировано из оригинала 6 июня 2007 г. Получено 16 июня 2019 г.
Дальнейшее чтение
Компьютерная анимация лица Фредерика И. Парка, Кейта Уотерса 2008 ISBN 1-56881-448-8
3D-анимация лица на основе данных, созданная Чжиганом Дэном, Ульрихом Нейманом, 2007 ISBN 1-84628-906-8
Справочник виртуальных людей Надии Магненат-Тальманн и Даниэля Тальмана, 2004 ISBN 0-470-02316-3
Осипа, Джейсон (2005). Stop Staring: Facial Modeling and Animation Done Right (2-е изд.). John Wiley & Sons. ISBN 978-0-471-78920-8.
Внешние ссылки
Face/Off: Live Facial Puppetry — технология анимации лиц в реальном времени без маркеров, разработанная в ETH Zurich
Проект «Искусственные актеры» - Институт анимации
iFACE
Анимированный Балди
скачать Карл-Херман Хьортшё, «Человеческое лицо и мимический язык» Архивировано 06.08.2022 на Wayback Machine (оригинальное шведское название книги: «Människans ansikte och mimiska språket». Правильный перевод: «Человеческое лицо и мимический язык»)