Хотя разработка методов компьютерной графики для лицевой анимации началась в начале 1970-х годов, основные достижения в этой области появились позже и произошли с конца 1980-х годов.
Основу работы над компьютерной лицевой анимацией можно разделить на две основные области: методы создания данных анимации и методы применения таких данных к персонажу. Такие методы, как захват движения и создание ключевых кадров, относятся к первой группе, а анимация морфинга (более известная как анимация blendshape) и скелетная анимация — ко второй. Лицевая анимация стала хорошо известна и популярна благодаря анимационным художественным фильмам и компьютерным играм , но ее применение включает в себя гораздо больше областей, таких как общение , образование , научное моделирование и системы, основанные на агентах (например, представители онлайн-службы поддержки клиентов). Благодаря недавнему развитию вычислительной мощности персональных и мобильных устройств лицевая анимация перешла от появления в предварительно обработанном контенте к созданию во время выполнения.
История
Выражение лица человека является предметом научных исследований уже более ста лет. Изучение движений и мимики лица началось с биологической точки зрения. После некоторых более старых исследований, например Джона Бульвера в конце 1640-х годов, книгу Чарльза Дарвина «Выражение эмоций у людей и животных» можно считать важным шагом вперед в современных исследованиях в области поведенческой биологии .
Компьютерное моделирование и анимация выражений лица — не новое начинание. Самая ранняя работа по компьютерному изображению лица была проведена в начале 1970-х годов. Первая трехмерная анимация лица была создана Парком в 1972 году. В 1973 году Гилленсон разработал интерактивную систему для сборки и редактирования изображений лица, нарисованных линиями. в 1974 году Парк разработал параметризованную трехмерную модель лица.
Одной из наиболее важных попыток описания движений лица была система кодирования действий лица (FACS). Первоначально разработанная Карлом-Херманом Хьортсё [1] в 1960-х годах и обновленная Экманом и Фризеном в 1978 году, FACS определяет 46 основных единиц действия лица (ЕД). Основная группа этих Единиц Действия представляет собой примитивные движения мышц лица при таких действиях, как поднятие бровей, подмигивание и разговор. Восемь ЕД предназначены для жестких трехмерных движений головы (т.е. поворотов и наклонов влево и вправо, а также движения вверх, вниз, вперед и назад). FACS успешно используется для описания желаемых движений синтетических лиц, а также для отслеживания активности лиц.
В начале 1980-х годов Платт разработал первую физически основанную модель лица, управляемую мышцами, а Бреннан разработал методы создания карикатур на лицо. В 1985 году анимационный короткометражный фильм «Тони де Пельтри» стал знаковым для лицевой анимации. Это был первый случай, когда компьютерная мимика и речевая анимация стали фундаментальной частью повествования.
В конце 1980-х годов Уотерс разработал новую модель, основанную на мышцах , Магненат-Тальманн и его коллеги разработали абстрактную модель мышечных действий , а Льюис и Хилл разработали подходы к автоматической синхронизации речи. В 1990-е годы наблюдался рост активности в разработке техник лицевой анимации и использовании компьютерной лицевой анимации в качестве ключевого компонента повествования, как это показано в таких анимационных фильмах, как « История игрушек» (1995), «Муравей» (1998), « Шрек » и «Корпорация монстров». (обе 2001 г.) и компьютерные игры , такие как Sims . «Каспер» (1995), ставший важной вехой этого десятилетия, стал первым фильмом, в котором главный актер был снят исключительно с использованием цифровой лицевой анимации.
Сложность фильмов возросла после 2000 года. В «Матрице: Перезагрузка» и «Матрица: Революция » плотный оптический поток от нескольких камер высокой четкости использовался для захвата реалистичных движений лица в каждой точке лица. «Полярный экспресс» (фильм) использовал большую систему Vicon для захвата более 150 точек. Хотя эти системы автоматизированы, для того, чтобы данные можно было использовать, по-прежнему требуется большой объем ручной очистки. Еще одна веха в лицевой анимации была достигнута во « Властелине колец» , где была разработана базовая система форм конкретного персонажа. Марк Сагар был пионером в использовании FACS в развлекательной лицевой анимации, а системы на базе FACS, разработанные Сагаром, использовались в « Доме монстров» , «Кинг-Конге » и других фильмах.
Для захвата движения используются камеры, расположенные вокруг объекта. Объект обычно оснащен либо отражателями (пассивный захват движения), либо источниками (активный захват движения), которые точно определяют положение объекта в пространстве. Данные, записанные камерами, затем оцифровываются и преобразуются в трехмерную компьютерную модель объекта. До недавнего времени размер детекторов/источников, используемых в системах захвата движения, делал эту технологию непригодной для захвата лиц. Однако миниатюризация и другие достижения сделали захват движения жизнеспособным инструментом для компьютерной анимации лица. Захват движения лица широко использовалсякомпанией Imageworks в Polar Express , где были зафиксированы сотни точек движения. Этот фильм был очень успешным, и хотя в нем пытались воссоздать реализм, его критиковали за то, что он попал в « жуткую долину », область, где реализма анимации достаточно для человеческого распознавания и передачи эмоционального послания, но где персонажи не воспринимаются. как реалистичный. Основные трудности захвата движения — это качество данных, которые могут включать в себя вибрацию, а также перенацеливание геометрии точек.
Безмаркерный захват движения направлен на упрощение процесса захвата движения, позволяя избежать обременения исполнителя маркерами. Недавно появилось несколько технологий с использованием различных датчиков, среди которых стандартные видеокамеры, Kinect и датчики глубины или другие устройства на основе структурированного света. Системы, основанные на структурированном свете, могут достигать производительности в реальном времени без использования каких-либо маркеров, используя высокоскоростной сканер структурированного света. Система основана на надежном этапе автономного отслеживания лиц, который обучает систему различным выражениям лица. Сопоставленные последовательности используются для создания индивидуальной линейной модели лица, которая впоследствии используется для онлайн-отслеживания лица и передачи выражения лица.
Аудио-технологии особенно хорошо подходят для речевой анимации. Речь обычно обрабатывается иначе, чем анимация выражений лица, поскольку простые подходы к анимации на основе ключевых кадров обычно плохо приближаются к реальной динамике речи. Часто висемы используются для обозначения ключевых поз в наблюдаемой речи (т. е. положения губ, челюсти и языка при произнесении определенной фонемы ), однако существует множество вариаций в реализации визем во время произнесения естественной речи. Источник этой вариации называется коартикуляцией , которая представляет собой влияние окружающих визем на текущую визему (т.е. эффект контекста). Чтобы учесть коартикуляцию, современные системы либо явно учитывают контекст при смешивании ключевых кадров виземы [2] , либо используют более длинные единицы, такие как дифон , трифон , слог или даже единицы длины слова и предложения . Одним из наиболее распространенных подходов к речевой анимации является использование функций доминирования, введенных Коэном и Массаро. Каждая функция доминирования представляет собой влияние виземы на речевое высказывание с течением времени. Обычно влияние будет наибольшим в центре виземы и будет ухудшаться по мере удаления от центра виземы. Функции доминирования объединяются для создания траектории речи почти так же, как базисные функции сплайна смешиваются для создания кривой. Форма каждой доминантной функции будет разной в зависимости от того, какую визему она представляет, и от того, какой аспект лица контролируется (например, ширина губ, поворот челюсти и т. д.). Этот подход к компьютерной речевой анимации можно увидеть в говорящей голове Baldi. Другие модели речи используют базовые единицы, которые включают контекст (например, дифоны , трифоны и т. д.) вместо визем. Поскольку базисные единицы уже включают в себя вариации каждой виземы в зависимости от контекста и, в некоторой степени, динамики каждой виземы, модель коартикуляции не требуется . Речь просто генерируется путем выбора соответствующих единиц из базы данных и их смешивания. Это похоже на конкатенативные методы синтеза речи . Недостатком этих моделей является то, что для получения естественных результатов требуется большой объем собранных данных, и хотя более длинные блоки дают более естественные результаты, размер необходимой базы данных увеличивается с увеличением средней длины каждого блока. Наконец, некоторые модели напрямую генерируют речевую анимацию из звука. Эти системы обычно используют скрытые модели Маркова илинейронные сети для преобразования аудиопараметров в поток управляющих параметров для модели лица. Преимуществом этого метода является возможность обработки голосового контекста, естественного ритма, темпа, эмоциональности и динамики без сложных алгоритмов аппроксимации. Базу данных обучения не нужно маркировать, поскольку в ней нет необходимости в фонемах или виземах; единственные необходимые данные — это голос и параметры анимации.
Анимация по ключевым кадрам — наименее автоматизированный из процессов создания данных анимации, хотя она обеспечивает максимальный контроль над анимацией. Его часто используют в сочетании с другими методами для окончательной доработки анимации.ключевого кадра могут состоять из скалярных значений, определяющих целевые коэффициенты морфирования , или значений вращения и перемещения костей в моделях с оснасткой на основе костей. Часто для ускорения процесса анимации ключевых кадров анимацией используется система управления. Управляющая установка представляет собой более высокий уровень абстракции, который можетодновременно воздействовать на несколько целевых коэффициентов или костей морфинга. Например, элемент управления «улыбка» может одновременно воздействовать на форму рта, изогнутую вверх, и на прищуривание глаз.
Системы на основе морф-целей (также называемых «blendshapes» ) обеспечивают быстрое воспроизведение, а также высокую степень точности выражений. Этот метод включает в себя моделирование частей сетки лица для аппроксимации выражений и визем , а затем смешивание различных подсетей, известных как цели морфинга или формы смешивания. Пожалуй, самым опытным персонажем, использовавшим эту технику, был Голлум из « Властелина колец» . Недостатком этой техники является то, что она требует интенсивного ручного труда и специфична для каждого персонажа. В последнее время начали появляться новые концепции 3D-моделирования. В последнее время начинает появляться новая технология, отходящая от традиционных методов, такая как моделирование с управлением кривыми [3] , которая делает упор на моделирование движения трехмерного объекта вместо традиционного моделирования статической формы.
Анимация, управляемая костями , очень широко используется в играх. Настройка костей может варьироваться от нескольких костей до почти сотни, чтобы обеспечить все тонкие выражения лица. Основные преимущества анимации, управляемой костями, заключаются в том, что одну и ту же анимацию можно использовать для разных персонажей, если морфология их лиц схожа, и, во-вторых, они не требуют загрузки в память всех данных целей Morph . Анимация, управляемая костями, наиболее широко поддерживается движками 3D-игр. Анимацию, управляемую костями, можно использовать как для 2D-, так и для 3D-анимации. Например, можно оснастить и анимировать с помощью костей 2D-персонажа с помощью Adobe Flash .
Скриншот из короткометражного мультфильма «Кара» от Quantic Dream.
Анимация на основе текстур использует цвет пикселей для создания анимации лица персонажа. 2D-анимация лица обычно основана на преобразовании изображений, включая как изображения из фотографий, так и последовательности видео. Морфинг изображений — это метод, который позволяет создавать промежуточные изображения между парой целевых неподвижных изображений или между кадрами из последовательностей видео. Эти методы морфинга обычно состоят из комбинации метода геометрической деформации, который выравнивает целевые изображения, и перекрестного затухания, которое создает плавный переход в текстуре изображения. Ранний пример морфинга изображений можно увидеть в видео Майкла Джексона «Black Or White». В 3D-анимации текстурная анимация может быть достигнута путем анимации самой текстуры или UV-преобразования. В последнем случае создается текстурная карта всего выражения лица, а анимация UV-карты используется для перехода от одного выражения к другому.
Физиологические модели , такие как системы скелетных мышц и физически обоснованные модели головы, формируют другой подход к моделированию головы и лица . [4] Здесь моделируются физические и анатомические характеристики костей , тканей и кожи , чтобы обеспечить реалистичный внешний вид (например, пружинистую эластичность). Такие методы могут быть очень эффективными для создания реализма, но сложность структур лица делает их дорогостоящими в вычислительном отношении и трудными в создании. Принимая во внимание эффективность параметризованных моделей для коммуникативных целей (как объясняется в следующем разделе), можно утверждать, что физически обоснованные модели не являются очень эффективным выбором во многих приложениях. Это не отрицает преимуществ физически обоснованных моделей и того факта, что их можно использовать даже в контексте параметризованных моделей для предоставления локальных деталей, когда это необходимо.
Языки анимации лиц
Многие языки анимации лица используются для описания содержания анимации лица. Их можно ввести в совместимое программное обеспечение «плеера» , которое затем создает запрошенные действия. Языки анимации лиц тесно связаны с другими языками мультимедийных презентаций, такими как SMIL и VRML . Из-за популярности и эффективности XML как механизма представления данных большинство языков анимации лиц основаны на XML. Например, это образец из виртуального языка разметки человека (VHML):
<vhml> <person disposition= "angry" > Сначала я говорю сердитым голосом и выгляжу очень сердитым, <удивленная интенсивность = "50" > но внезапно я меняюсь и выгляжу еще более удивленным . </surprised> </person> </vhml>
Более продвинутые языки позволяют принимать решения, обрабатывать события, а также выполнять параллельные и последовательные действия. Язык моделирования лиц (FML) — это основанный на XML язык для описания анимации лица . [5] FML поддерживает параметры анимации лица MPEG-4 (FAPS), принятие решений и динамическую обработку событий , а также типичные программные конструкции, такие как циклы . Это часть системы iFACE. [5] Ниже приведен пример из FML:
^ Лусеро, JC; Мунхолл, КГ (1999). «Модель биомеханики лица для производства речи». Журнал Акустического общества Америки . 106 (5): 2834–2842. Бибкод : 1999ASAJ..106.2834L. дои : 10.1121/1.428108. ПМИД 10573899.
^ аб "iFACE". Карлтонский университет. 6 июня 2007 года. Архивировано из оригинала 6 июня 2007 года . Проверено 16 июня 2019 г.
дальнейшее чтение
Компьютерная анимация лица Фредерика И. Парка, Кейта Уотерса, 2008 ISBN 1-56881-448-8
3D-анимация лица на основе данных Чжигана Дэна, Ульриха Ноймана, 2007 ISBN 1-84628-906-8
Справочник по виртуальным людям Нади Магненат-Тальманн и Дэниела Тельманна, 2004 ISBN 0-470-02316-3
Осипа, Джейсон (2005). Хватит смотреть: правильное моделирование лица и анимация (2-е изд.). Джон Уайли и сыновья. ISBN 978-0-471-78920-8.
Внешние ссылки
Face/Off: Live Facial Puppetry — технология безмаркерной анимации лица в реальном времени, разработанная в ETH Zurich.
Проект «Искусственные актеры» - Институт Анимации
я лицо
Анимированный Балди
загрузка Карла-Хермана Хьортсё, Человеческое лицо и мимика. Архивировано 6 августа 2022 г. в Wayback Machine (оригинальное шведское название книги: «Människans ansikte och mimiska språket». Правильный перевод будет: «Мужское лицо». и язык лица")