HunyuanVideo-I2V — бесплатная нейросеть для генерации видео. Модель была представлена 6 марта 2025 года. ИИ создает видео с разрешением до 720p. Присутствует возможность настройки модели с помощью технологии LoRa. Можно запустить нейросеть на локальном устройстве, если у вас есть 60 GB памяти GPU.
Особенности HunyuanVideo-I2V:
- Генерация видео. Новая модель от компании Tencent создает видео в разрешении 720p. Нейросеть генерирует ролики на основе изображения и текстовой инструкции. HunyuanVideo-I2V использует технологию flow-reverse, которая улучшает плавность движения и согласованность кадров в сгенерированном видео.
- Архитектура. В основе системы лежит мультимодальная языковая модель (MLLM) с архитектурой декодера, которая используется для понимания семантического содержания входного изображения и интеграции информации из изображения и сопроводительного текстового описания. Процесс генерации видео начинается с обработки входного изображения с помощью MLLM для создания семантических токенов изображения. Затем эти токены объединяются с токенами видео, что позволяет осуществить полноценный расчет внимания (full-attention computation) по всем объединенным данным.
- Open Source. HunyuanVideo-I2V является моделью с открытым исходным кодом. Любой пользователь может развернуть модель на своем устройстве или сервере. Инструкция по развертыванию модели находится тут.
- Системные требования. Для генерации видео в разрешении 720p требуется не менее 60 GB памяти GPU. Рекомендуется 80GB. Если требуется дообучить модель с помощью LoRa, желательно задействовать не менее 79 GB памяти.
- Дальнейшее развитие. Разработчики планируют добавить ускорение инференса модели на большем количестве графических процессоров. Кроме того, будет добавлена квантизация FP8, что может снизить потребление ресурсов.
HunyuanVideo-I2V доступна бесплатно. Инструкцию по установке можно найти на странице проекта.