Захват движения лица — это процесс электронного преобразования движений лица человека в цифровую базу данных с помощью камер или лазерных сканеров . Эту базу данных затем можно использовать для создания компьютерной графики (CG), компьютерной анимации для фильмов, игр или аватаров в реальном времени. Поскольку движение персонажей компьютерной графики основано на движениях реальных людей, в результате получается более реалистичная и тонкая компьютерная анимация персонажей, чем если бы анимация создавалась вручную.
База данных захвата движения лица описывает координаты или относительные положения опорных точек на лице актера. Регистрация может осуществляться в двух измерениях (в этом случае процесс регистрации иногда называют « отслеживанием экспрессии ») или в трех измерениях. Двумерный захват может быть достигнут с использованием одной камеры и программного обеспечения для захвата. Это обеспечивает менее сложное отслеживание и не позволяет полностью захватить трехмерные движения, такие как вращение головы. Трехмерная съемка осуществляется с помощью многокамерных установок или системы лазерных маркеров. Такие системы, как правило, гораздо дороже, сложнее и требуют больше времени в использовании. Существуют две преобладающие технологии: системы слежения с маркерами и без маркеров.
Захват движения лица аналогичен захвату движения тела, но является более сложным из-за требований к более высокому разрешению для обнаружения и отслеживания едва заметных выражений, возможных при небольших движениях глаз и губ. Эти движения часто составляют менее нескольких миллиметров и требуют еще большего разрешения и точности, а также других методов фильтрации, чем обычно используемые при съемке всего тела. Дополнительные ограничения лица также открывают больше возможностей для использования моделей и правил.
Захват выражения лица аналогичен захвату движения лица. Это процесс использования визуальных или механических средств для манипулирования созданными компьютером персонажами с использованием человеческих лиц или для распознавания эмоций пользователя.
Одна из первых статей, обсуждающих анимацию, основанную на производительности, была опубликована Лэнсом Уильямсом в 1990 году. Там он описывает «средства получения выражений реальных лиц и применения их к лицам, сгенерированным компьютером». [1]
Традиционные системы на основе маркеров наносят до 350 маркеров на лицо актеров и отслеживают движение маркеров с помощью камер высокого разрешения . Это использовалось в таких фильмах, как «Полярный экспресс» и «Беовульф» , чтобы позволить такому актеру, как Том Хэнкс , управлять выражениями лиц нескольких разных персонажей. К сожалению, это относительно громоздко и делает выражения актеров слишком напряжёнными после проведения сглаживания и фильтрации. Системы следующего поколения, такие как CaptiveMotion, используют ответвления традиционной системы на основе маркеров с более высоким уровнем детализации.
Технология Active LED Marker в настоящее время используется для управления лицевой анимацией в режиме реального времени, чтобы обеспечить обратную связь с пользователем.
Безмаркерные технологии используют такие особенности лица, как ноздри , уголки губ и глаз, морщины, а затем отслеживают их. Эта технология обсуждается и демонстрируется в CMU , [2] IBM , [3] Манчестерском университете (где многое из этого началось с Тима Кутса, [4] Гарета Эдвардса и Криса Тейлора) и других местах с использованием моделей активного внешнего вида , главного компонента. анализ , отслеживание собственных значений , модели деформируемой поверхности и другие методы для отслеживания желаемых черт лица от кадра к кадру. Эта технология гораздо менее громоздка и позволяет актеру лучше выразить себя.
Эти подходы, основанные на зрении, также позволяют отслеживать движение зрачков, век, окклюзию зубов губами и языком, что является очевидными проблемами в большинстве компьютерных анимационных функций. Типичными ограничениями подходов, основанных на зрении, являются разрешение и частота кадров, оба из которых уменьшаются по мере того, как быстродействующие CMOS-камеры с высоким разрешением становятся доступными из нескольких источников.
Технология безмаркерного отслеживания лиц связана с технологией в системе распознавания лиц , поскольку система распознавания лиц потенциально может применяться последовательно к каждому кадру видео, что приводит к отслеживанию лиц. Например, система Neven Vision [5] (ранее Eyematics, теперь приобретенная Google) позволяла отслеживать лица в режиме 2D в режиме реального времени без специального обучения; их система также вошла в число самых эффективных систем распознавания лиц в тесте поставщиков систем распознавания лиц, проведенном правительством США в 2002 году (FRVT). С другой стороны, некоторые системы распознавания не отслеживают явным образом выражения или даже не справляются с ненейтральными выражениями и поэтому не подходят для отслеживания. И наоборот, такие системы, как модели деформируемой поверхности, объединяют временную информацию для устранения неоднозначности и получения более надежных результатов, и поэтому их нельзя применять на основе одной фотографии.
Безмаркерное отслеживание лиц распространилось на коммерческие системы, такие как Image Metrics , которая применялась в таких фильмах, как сиквелы «Матрицы» [6] и «Загадочная история Бенджамина Баттона» . Последний использовал систему Mova для захвата деформируемой модели лица, которая затем была анимирована с помощью комбинации ручного и визуального отслеживания. [7] «Аватар» был еще одним выдающимся фильмом, посвященным перформансу, однако в нем использовались нарисованные маркеры, а не без маркеров. Dynamixyz [ постоянная мертвая ссылка ] — еще одна коммерческая система, используемая в настоящее время.
Безмаркерные системы можно классифицировать по нескольким отличительным критериям:
На сегодняшний день ни одна система не является идеальной по всем этим критериям. Например, система Neven Vision была полностью автоматической и не требовала никаких скрытых шаблонов или индивидуального обучения, а была 2D. Система Face/Off [8] является трехмерной, автоматической и работает в режиме реального времени, но требует проецируемых шаблонов.
Методы на основе цифрового видео становятся все более предпочтительными, поскольку механические системы, как правило, громоздки и сложны в использовании.
С помощью цифровых камер выражения входного пользователя обрабатываются для определения положения головы , что позволяет программному обеспечению затем находить глаза, нос и рот. Лицо изначально калибруется с использованием нейтрального выражения. Затем, в зависимости от архитектуры, брови, веки, щеки и рот могут быть обработаны как отличия от нейтрального выражения. Это делается, например, путем поиска краев губ и распознавания их как уникального объекта. Часто используются усиливающий контраст макияж, маркеры или какой-либо другой метод, ускоряющий обработку. Как и в случае с распознаванием голоса, лучшие методы работают только в 90 процентах случаев и требуют значительной ручной настройки или терпимости к ошибкам.
Поскольку созданные компьютером персонажи на самом деле не имеют мышц , для достижения тех же результатов используются разные методы. Некоторые аниматоры создают кости или объекты, которыми управляет программное обеспечение для захвата, и соответствующим образом перемещают их, что при правильном оснащении персонажа дает хорошее приближение. Поскольку лица очень эластичны, эту технику часто смешивают с другими, по-разному регулируя вес в зависимости от эластичности кожи и других факторов в зависимости от желаемого выражения лица.
Несколько коммерческих компаний разрабатывают продукты, которые бывали в употреблении, но стоят довольно дорого.
Ожидается, что это станет основным устройством ввода для компьютерных игр, как только программное обеспечение станет доступным в доступном формате, но аппаратное и программное обеспечение еще не существует, несмотря на исследования, проведенные за последние 15 лет, которые дали результаты, которые практически можно использовать.