stringtranslate.com

Модель преобразования текста в видео

Модель преобразования текста в видео — это модель машинного обучения , которая принимает в качестве входных данных описание на естественном языке и создает видео , соответствующее этому описанию. [1]

Прогнозирование видео для создания реалистичных объектов на стабильном фоне выполняется с использованием рекуррентной нейронной сети для модели последовательности с коннектором сверточной нейронной сети, кодирующей и декодирующей каждый кадр попиксельно, [2] создавая видео с использованием глубокого обучения . [3]

Методология

Модели

Существуют различные модели, включая модели с открытым исходным кодом . CogVideo представила свой код на GitHub . [4] Meta Platforms использует преобразование текста в видео с помощью makeavideo.studio. [5] [6] [7] Google использовал Imagen Video для преобразования текста в видео. [8] [9] [10] [11] [12]

Антония Антонова представила еще одну модель. [13]

В марте 2023 года была опубликована знаковая исследовательская работа Alibaba, в которой многие принципы, обнаруженные в моделях диффузии скрытых изображений, были применены к генерации видео. [14] [15] Такие сервисы, как Kaiber или Reemix, с тех пор применили аналогичные подходы к созданию видео в своих продуктах.

Маттиас Нисснер (TUM) и Лурдес Агапито (UCL) из компании Synthesia , занимающейся искусственным интеллектом , работают над разработкой методов 3D-нейронного рендеринга, которые синтезируют реалистичное видео. Цель состоит в том, чтобы улучшить существующую модель преобразования текста в видео с помощью 2D- и 3D-нейронных представлений внешнего вида и движения форм для управляемого видеосинтеза аватаров, которые выглядят и звучат как настоящие люди. [16]

Хотя существуют альтернативные подходы, [17] модели полной латентной диффузии в настоящее время считаются современными моделями видеодиффузии.

Смотрите также

Рекомендации

  1. ^ Отчет об индексе искусственного интеллекта за 2023 год (PDF) (Отчет). Стэнфордский институт человекоориентированного искусственного интеллекта. п. 98. В 2022 году было выпущено множество высококачественных моделей преобразования текста в видео, систем искусственного интеллекта, которые могут генерировать видеоклипы из подсказок текста.
  2. ^ «Ведущая Индия» (PDF) .
  3. ^ Нараин, Рохит (29 декабря 2021 г.). «Умная генерация видео из текста с использованием глубоких нейронных сетей» . Проверено 12 октября 2022 г.
  4. ^ CogVideo, THUDM, 12 октября 2022 г. , получено 12 октября 2022 г.
  5. ^ Дэвис, Тели (29 сентября 2022 г.). «Создание видео: новая модель Meta AI для преобразования текста в видео». В&Б . Проверено 12 октября 2022 г.
  6. ^ Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки». Середина . Проверено 12 октября 2022 г.
  7. ^ «ИИ Make-A-Video от Meta создает видео из текста» . www.fonearena.com . Проверено 12 октября 2022 г.
  8. ^ «Google: Google бросает вызов Meta, представляет собственный искусственный интеллект, генерирующий видео - The Economic Times» . m. Economictimes.com . Проверено 12 октября 2022 г.
  9. ^ Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки». Середина . Проверено 12 октября 2022 г.
  10. ^ «Ну-у, Мета, мы тоже можем создавать искусственный интеллект для преобразования текста в видео, - говорит Google». www.theregister.com . Проверено 12 октября 2022 г.
  11. ^ «Документы с кодом - Смотри, планируй, прогнозируй: когнитивное планирование с языковым управлением и видеопрогнозированием» . paperswithcode.com . Проверено 12 октября 2022 г.
  12. ^ «Документы с кодом - прогнозирование видео на основе текста» . paperswithcode.com . Проверено 12 октября 2022 г.
  13. ^ «Создание текста в видео» . Антония Антонова . Проверено 12 октября 2022 г.
  14. ^ "Дом - Академия ДАМО" . damo.alibaba.com . Проверено 12 августа 2023 г.
  15. ^ Ло, Чжэнсюн; Чен, Даю; Чжан, Инья; Хуан, Ян; Ван, Лян; Шен, Юджун; Чжао, Дели; Чжоу, Цзинжэнь; Тан, Тиениу (2023). «VideoFusion: разложенные модели диффузии для создания высококачественного видео». arXiv : 2303.08320 [cs.CV].
  16. ^ «Преобразование текста в речь для видео» . Проверено 17 октября 2023 г.
  17. ^ Text2Video-Zero, Picsart AI Research (PAIR), 12 августа 2023 г. , получено 12 августа 2023 г.