Модель преобразования текста в видео

Модель преобразования текста в видео — это модель машинного обучения , которая принимает в качестве входных данных описание на естественном языке и создает видео , соответствующее этому описанию. ^[1]

Прогнозирование видео для создания реалистичных объектов на стабильном фоне выполняется с использованием рекуррентной нейронной сети для модели последовательности с коннектором сверточной нейронной сети, кодирующей и декодирующей каждый кадр попиксельно, ^[2] создавая видео с использованием глубокого обучения . ^[3]

Методология

Сбор данных и подготовка набора данных с использованием четкого видео из видео кинетических действий человека.
Обучение сверточной нейронной сети для создания видео.
Извлечение ключевых слов из текста с помощью программирования на естественном языке .
Тестирование набора данных в условной генеративной модели на предмет существующей статической и динамической информации из текста с помощью вариационного автокодировщика и генеративно-состязательной сети .

Модели

Существуют различные модели, включая модели с открытым исходным кодом . CogVideo представила свой код на GitHub . ^[4] Meta Platforms использует преобразование текста в видео с помощью makeavideo.studio. ^[5]^[6]^[7] Google использовал Imagen Video для преобразования текста в видео. ^[8]^[9]^[10]^[11]^[12]

Антония Антонова представила еще одну модель. ^[13]

В марте 2023 года была опубликована знаковая исследовательская работа Alibaba, в которой многие принципы, обнаруженные в моделях диффузии скрытых изображений, были применены к генерации видео. ^[14]^[15] Такие сервисы, как Kaiber или Reemix, с тех пор применили аналогичные подходы к созданию видео в своих продуктах.

Маттиас Нисснер (TUM) и Лурдес Агапито (UCL) из компании Synthesia , занимающейся искусственным интеллектом , работают над разработкой методов 3D-нейронного рендеринга, которые синтезируют реалистичное видео. Цель состоит в том, чтобы улучшить существующую модель преобразования текста в видео с помощью 2D- и 3D-нейронных представлений внешнего вида и движения форм для управляемого видеосинтеза аватаров, которые выглядят и звучат как настоящие люди. ^[16]

Хотя существуют альтернативные подходы, ^[17] модели полной латентной диффузии в настоящее время считаются современными моделями видеодиффузии.

Смотрите также

Модель преобразования текста в изображение
VideoPoet , ранний предшественник модели Google от Люмьера .
Сора , модель OpenAI
Runway — компания, разрабатывающая модели Gen-1 и Gen-2.

Модель преобразования текста в видео

Методология

Модели

Смотрите также

Рекомендации