HunyuanVideo-I2V

Андрей Ракитин

ML-инженер и автор блога

Сфера: Генерация видео

Условия использования: Бесплатные

Задача:

Создать видео

Доступ к API: Нет

Попробовать

HunyuanVideo-I2V — бесплатная нейросеть для генерации видео. Модель была представлена 6 марта 2025 года. ИИ создает видео с разрешением до 720p. Присутствует возможность настройки модели с помощью технологии LoRa. Можно запустить нейросеть на локальном устройстве, если у вас есть 60 GB памяти GPU.

Особенности HunyuanVideo-I2V:

Генерация видео. Новая модель от компании Tencent создает видео в разрешении 720p. Нейросеть генерирует ролики на основе изображения и текстовой инструкции. HunyuanVideo-I2V использует технологию flow-reverse, которая улучшает плавность движения и согласованность кадров в сгенерированном видео.
Архитектура. В основе системы лежит мультимодальная языковая модель (MLLM) с архитектурой декодера, которая используется для понимания семантического содержания входного изображения и интеграции информации из изображения и сопроводительного текстового описания. Процесс генерации видео начинается с обработки входного изображения с помощью MLLM для создания семантических токенов изображения. Затем эти токены объединяются с токенами видео, что позволяет осуществить полноценный расчет внимания (full-attention computation) по всем объединенным данным.
Open Source. HunyuanVideo-I2V является моделью с открытым исходным кодом. Любой пользователь может развернуть модель на своем устройстве или сервере. Инструкция по развертыванию модели находится тут.
Системные требования. Для генерации видео в разрешении 720p требуется не менее 60 GB памяти GPU. Рекомендуется 80GB. Если требуется дообучить модель с помощью LoRa, желательно задействовать не менее 79 GB памяти.
Дальнейшее развитие. Разработчики планируют добавить ускорение инференса модели на большем количестве графических процессоров. Кроме того, будет добавлена квантизация FP8, что может снизить потребление ресурсов.

HunyuanVideo-I2V доступна бесплатно. Инструкцию по установке можно найти на странице проекта.

Похожие нейросети

Mochi 1

Mochi 1 - бесплатная нейросеть для создания видео. Модель учитывает законы физики и генерирует видеоролики с последовательными кадрами и реалистичными эмоциями в разрешении 480p. Нейросеть можно загрузить со страницы проекта в GitHub, но для запуска потребуется 4 графических процессора H100.

Stable Diffusion Video

Stable Diffusion Video - нейросеть, создающая видео из изображения. Компания Stability AI держит планку и представляет модель, способную сгенерировать качественное видео с частотой кадров от 3 до 30 в секунду. Нейросеть будет совершенствоваться разработчиками, но пока что присутствуют некоторые проблемы и ограничения.

Minimax AI

Minimax - генератор видео от китайских разработчиков, использующий AI-технологии для создания коротких роликов. Нейросеть создаёт реалистичные кадры, но длиной до 6 секунд. Модель немного отстаёт в детализации от флагманов данного направления, но в ближайшее время ожидается мощное обновление.

Video Ocean AI

Video Ocean AI - нейросеть для генерации видео. Сервис базируется на открытой модели Open Sora. Video Ocean отличается высоким уровнем детализации роликов. Доступна генерация видео разрешением до 4k и длительностью до 10 секунд. Кроме того, доступна генерация изображением и звуковых эффектов для роликов.