Mustafin Magazine Logo
loupe
  1. Главная
  2. arrow-right
  3. Контент
  4. arrow-right
  5. Диджитал
img
arrow

21.01.2025

Коллаж Mustafin Magazine

Текст: Руслан Абдряев

Нейросети для генерации видео: актуальный гайд

Рассказываем про возможности четырех популярных ИИ-моделей и несколько других полезных сервисов

За прошедший год ряд компаний в сфере генеративного искусственного интеллекта представили свои нейросети, способные создавать видео по текстовым запросам или визуальным вводным. Технологии еще не добились точного сходства с реальными изображениями, но прогресс очевиден, хотя некоторые модели все еще страдают от галлюцинаций и других проблем. 

Автор Mustafin Magazine рассказал о нескольких важных инструментах на базе ИИ для генерации видео.

Sora

В середине декабря прошлого года обладатели платных подписок чат-бота ChatGPT получили доступ к нейросети для генерации коротких видео под названием Sora. Первый выпуск этой ИИ-модели от OpenAI состоялся в феврале 2024 года. Sora остается в тестовом режиме. В зависимости от уровня подписки пользователи смогут ежемесячно генерировать от 50 до 500 видео длительностью 5-20 секунд в разрешении 720p или 1080p.

Инструмент позволяет выбирать соотношение сторон, разрешение, продолжительность и количество создаваемых видео. Нейросеть содержит шаблоны стиля роликов. В ней есть лента видео других пользователей и коллекция готовых роликов владельца аккаунта, которые можно раскидать по папкам. Как и в ChatGPT, в Sora есть окно для ввода промптов.

Функция Storyboard позволяет детально настроить генерацию видео: пользователи смогут выбрать, что будет происходить на каждой секунде ролика. Во время тестов сразу после публичного запуска Sora создание видео длительностью 5 секунд в разрешении 480p заняло полтора часа.

Использование Sora предусматривает ограничения. В ИИ-модель нельзя загружать ролики с несовершеннолетними и без согласия людей, изображенных на видео. Также запрещено использовать материалы, содержащие насилие и откровенные сцены. Кроме того, у пользователя должны быть авторские права на загружаемые файлы. Напомним, что подписки ChatGPT Plus и Pro стоят $20 и $200 ежемесячно.

Veo

К концу прошлого года состоялся релиз ИИ-модели для генерации видео по текстовым описаниям Veo 2.0 от Google. Первую версию инструмента представили еще весной 2024 года, но она так и не стала общедоступной. Veo 2.0 получила несколько новых функций по сравнению с предыдущей итерацией. В частности, она способна создавать видео в 4K и имеет улучшенное управление камерой.

Google уверяет, что Veo 2.0 значительно продвинулась в детализации, реалистичности и сокращении артефактов. Модель точно моделирует отражение и преломление света через полупрозрачную поверхность, с чем не могут справиться многие аналоги. 

Функция управления камерой позволяет корректно интерпретировать инструкции и создавать множество стилей съемки, ракурсов, движений и комбинаций этих элементов. Одной из особенностей Veo 2.0 стало перемещение камеры между сценами, что остается недоступным для аналогичных сервисов.

Воспользоваться нейросетью можно в списке доступных инструментов Google Labs через VideoFX. После нажатия на кнопку генерации ИИ-модель создаст четыре варианта видео. Процедуру можно повторить или скачать получившийся результат. Опция Text to Image to Video позволит создать изображение в Imagen 3, а затем “оживить” его в Veo 2.0.

Инструмент Google далек от идеала, он страдает от галлюцинаций и добавляет лишние детали. Однако Veo 2.0 четырехкратно превосходит Sora по параметрам разрешения и шестикратно по продолжительности видео.

В декабре основатель International Blockchain Consulting Марио Науфаль опубликовал короткометражный фильм, все сцены которого сгенерировала Veo 2.0 по текстовым промптам. Монтаж и написание звукового сопровождения оставалось за людьми. 

Kling

Летом 2024 года китайская Kuaishou запустила свою ИИ-модель для генерации видео — Kling. Нейросеть умеет создавать ролики как по тексту, так и по изображениям. Разрешение составляет максимум 1080p с частотой обновления кадров 30. В Kuaishou уверяют, что модель имеет глубокое понимание физики и способна реалистично воспроизводить сложные движения. В частности, Kling справляется с задачами временной согласованности, что лежит в основе создания реалистичных видео.

После регистрации на сайте инструмента пользователь получит доступ к интерфейсу Kling. За каждый сгенерированный ролик нужно отдать 10 кредитов, которые представляют собой внутреннюю валюту. Всего за сутки можно сделать шесть роликов длительностью 5 секунд каждый. На создание видео уходит от 3 до 10 минут. Затем результат появляется в редакторе, откуда его можно скачать.

Платная подписка на Kling стоит $10 в месяц. С ней пользователи смогут создавать видео в более высоком качестве, увеличить их продолжительность до трех минут и убрать демонстрацию водяного знака. Более того, подписка открывает доступ к управлению движением камеры. Пользователи смогут исключить то, что на видео быть не должно, однако модель в ряде случаев игнорирует такие инструкции.

Kling умеет создавать сложные текстуры и реалистичные световые эффекты с высокой детализацией. Однако некоторые ролики с движениями могут включать артефакты или иметь недостаточную плавность.

Runway

В июле состоялся общедоступный релиз модели Gen-3 Alpha от американской Runway. Нейросеть предназначена для генерации коротких видео. Разработчик указывает, что Gen-3 Alpha стала лучше справляться с обработкой сложных запросов и изображением движений по сравнению с предыдущими итерациями.

Нейросеть обучали на большом объеме изображений и видео, в том числе несанкционированно. Данные для обучения сопровождала информация с описанием происходящего, поэтому ИИ-модель позволяет генерировать видео из текста и изображений. С инструментами Gen-3 Alpha можно выделять объекты для будущих анимаций, настраивать положение камеры и редактировать результаты.

Gen-3 Alpha доступна по подписке, минимальная стоимость которой составляет $15 в месяц. С самым доступным тарифом можно генерировать видео продолжительностью 62 секунды.

Другие сервисы

Китайская Shengshu презентовала обновленную ИИ-модель для генерации видео — Vidu 1.5. С помощью этой нейросети можно объединять людей, объекты и окружение в единые композиции. Для создания видео достаточно загрузить от 1 до 3 изображений. В последней версии Vidu появилась возможность генерации видео в разрешении 720p и 1080p, скорость анимации можно настроить. Shengshu выдает бесплатным пользователям 80 кредитов в месяц, на создание 4 секунд видео уходит 4 кредита. Платная подписка увеличивает продолжительность видео, стоимость — $10 в месяц.

Осенью прошлого года стартап Genmo представил нейросеть с открытым исходным кодом Mochi 1, которая также позволяет генерировать видео по текстовым описаниям. В отличие от решений конкурентов Mochi 1 бесплатная. ИИ-модель позволяет создавать ролики в разрешении 480p, разработчик обещает увеличение качества видео в будущих версиях Mochi. Нейросеть Genmo страдает от некоторых искажений при генерации сложных движений.

В октябре специалисты китайской компании Kuaishou, Пекинского университета и Пекинского университета почты и коммуникации показали свою модель для генерации видео. Нейросеть Pyramid Flow способна создавать ролики длительностью до 10 секунд с разрешением 768p и частотой обновления кадров 24. Разработчики уверяют, что их ИИ-модель превосходит по производительности Kling и Gen-3 Alpha.

Еще один инструмент для генерации видео представила Luma AI. Нейросеть Dream Machine умеет создавать ролики до пяти секунд. Генерация такого видео занимает всего 120 секунд, что значительно меньше по сравнению с инструментами конкурентов.

Важным событием 2024 года также стало улучшение инструмента DIVID, который предназначен для обнаружения видео, созданного ИИ. Точность работы решения почти достигла 94%.