В мае 2025 года Google DeepMind представила Veo 3 — нейросеть для генерации видео с встроенными возможностями создания аудио. Этот инструмент стал прорывом в области искусственного интеллекта, предлагая пользователям возможность создавать видеоклипы с синхронизированной звуковой дорожкой из простых текстовых описаний. С момента запуска было создано более 40 миллионов видео, что свидетельствует о колоссальном интересе сообщества к данной технологии.
Что такое Veo 3
Veo 3 — это модель от Google DeepMind для генерации видео высокого качества длительностью до 8 секунд, разрешением до 4K и встроенным аудио. Главная особенность этой модели заключается в способности создавать синхронизированный звук одновременно с видео — функция, которой не обладает большинство конкурентов.
История развития модели началась с первой версии Veo в мае 2024 года, затем последовала Veo 2 в декабре 2024 года с поддержкой 4K разрешения. Текущая версия Veo 3, анонсированная на Google I/O 2025, стала первой моделью, объединившей генерацию видео и аудио в единый процесс. Как отметил CEO Google DeepMind Демис Хассабис, это знаменует окончание «эры немого кино» в генерации видео.
Ключевые возможности Veo 3
Генерация видео из текста или изображений
Основная функция Veo 3 позволяет создавать видео длительностью до 8 секунд из простых текстовых описаний. Поддерживается разрешение от 720p до 4K. Модель демонстрирует точность в интерпретации сложных текстовых описаний, особенно кинематографических терминов.
Пользователи могут указывать:
- Специфические углы камеры и движения (съемка с дрона, панорама, отдаление, приближение);
- Художественные стили и жанры (документальный стиль BBC, акварельная анимация);
- Технические параметры (фокусное расстояние, резкость).
Доступна генерация видео по первому и последнему кадру. Если нет подходящих изображений, можно сгенерировать прямо а интерфейсе Google Flow или AI Studio.
Встроенная генерация диалогов и музыки
Киллер-фича Veo 3 — это нативная генерация аудио, включающая создание диалогов, звуковых эффектов и фоновой музыки в реальном времени. Нейросеть синхронизирует речь с движениями губ персонажей, создавая реалистичные диалоги и устраняя необходимость в использовании других инструментов.
Интеграция с Google Flow
Flow — это специализированный инструмент кинопроизводства, созданный исключительно для работы с моделями DeepMind. Он предоставляет более интересные возможности:
- Контроль движений камеры и углов съемки;
- Построение и расширение сцен;
- Организация объектов, персонажей и локаций;
- Наложение эффектов и стилей;
- Управление несколькими промптами в едином рабочем процессе.
Понимание физики объектов
Модель демонстрирует превосходное понимание физических законов, что выражается в:
- Реалистичном движении объектов и персонажей;
- Правильном отображении гравитации и столкновений;
- Естественной передаче природных явлений: воды, огня и дыма.
Консистентность персонажей и сцен
Veo 3 позволяет загружать референсные изображения персонажей, объектов или стилей, которые модель затем последовательно использует в различных сценах. Это обеспечивает визуальную согласованность между клипами и позволяет создать целый фильм из множества коротких видео.
Архитектура Veo
Veo 3 построена на базе диффузионной архитектуры с трансформерами — современном подходе к генеративному ИИ. Модель использует латентную диффузию, где процесс диффузии применяется совместно к временным аудио-латентам и пространственно-временным видео-латентам.
Gemini выступает в роли посредника между описанием, созданным пользователем, и реализацией от ИИ. Модель обрабатывает промпты на естественном языке с пониманием нюансов и контекста, обеспечивая точную передачу творческих замыслов пользователей на языке, понятном Veo 3.
Imagen 4 дополняет Veo и отвечает за создание изображений фотореалистичного качества. Модель создает реалистичные текстуры, композиционные элементы сцен и даже типографские элементы.
Обучающие данные
Уникальность архитектуры заключается в совместном обучении на видео и аудио данных. Система тренируется на обширном датасете, включающем изображения, видео и соответствующие аннотации. Данные аннотируются текстовыми описаниями различной степени детализации с использованием нескольких моделей Gemini, а также применяются фильтры для удаления небезопасного контента и персональной информации.
Условия использования Veo 3
Доступ к нейросети Veo 3 нельзя приобрести отдельно. Модель входит в состав подписки Google AI. Мы не будем перечислять все преимущества тарифных планов, а остановимся только на касающихся использования Veo.
Google AI Pro | Google AI Ultra | |
---|---|---|
Кредитов в месяц | 1000 | 25000 |
Доступная модель Veo | Veo 3 Fast | Veo 3 Quality |
Flow | ||
Стоимость | $21.99 | $274.99 |
Каждому пользователю выдаётся 100 кредитов в Google Flow. Каждое видео Veo 3 Fast использует 20 кредитов, в то время как Veo 3 Quality расходует примерно 100 кредитов. Это означает, что с подпиской Ultra можно создать максимум 250 видео высокого качества в месяц.
Для моделей Veo доступен API в рамках Gemini API. Подробная документация по началу работы и реализации различных функций находится здесь. Использование API оплачивается отдельно. Генерация 1 секунды видео с помощью Veo 3 Fast обойдётся в $0.40, а для Veo 3 Quality — $0.75.
Отзывы пользователей
Положительные моменты
Пользователи высоко оценивают кинематографическое качество и реалистичность генерируемого контента. Видео выглядят настолько естественно, что их сложно отличить от реальных съемок. Особенно впечатляет интеграция аудио, которая создает ощущение цельности клипа и снижает время подготовки контента.
Многие контент-мейкеры ценят скорость создания — сцены, которые при ручной подготовке отнимут часы и дни, генерируются за несколько минут. Даже при использовании неточных или неполных промптов нейросеть способна создавать качественный результат благодаря отличному пониманию контекста.
Замечания
Основные жалобы касаются проблем с контролем. Пользователи часто не могут управлять, будет ли генерироваться аудио или субтитры, даже если это явно указано в промпте. Система может создать беззвучное видео с субтитрами, когда требовался звук без текста, или наоборот.
Пользователи сталкиваются с техническими глюками: людей, исчезающих при прыжках в воду, морфинг объектов вместо реалистичных действий, неестественные движения в экшен-сценах. Качество лиц на средних планах часто разочаровывает.
Высокая стоимость ошибок — при цене $249.99/месяц пользователи вынуждены тратить кредиты на перегенерацию неудачных клипов, что делает сервис экономически неэффективным для многих проектов.
Заключение: стоит ли использовать Veo 3
Впервые пользователи получили возможность создавать полноценные видеоклипы со звуком без дополнительной обработки. Освещение, тени, текстуры и движение камеры достигают профессионального стандарта, что делает возможным использование Veo 3 для коммерческих проектов.
Veo 3 стоит использовать:
- Рекламным агентствам и маркетинговым командам — для создания креативов с минимальными временными затратами. Встроенный звук и кинематографическое качество оправдывают высокую стоимость при работе с крупными клиентами;
- Образовательным учреждениям — для создания визуализаций сложных концепций. Студенческая программа с бесплатным доступом делает технологию доступной для академических проектов;
- Медиа-компаниям — для производства B-roll и визуализаций. Интеграция с Google Workspace упрощает командную работу.
Veo 3 НЕ стоит использовать:
- Пользователям с ограниченным бюджетом — текущие технические проблемы и высокая стоимость делают сервис экономически нецелесообразным. Лучше рассмотреть Runway ML или Pika Labs;
- Для генерации длинного контента — ограничение в 8 секунд не подходит для полноценных видеороликов. Sora с поддержкой 60-секундных клипов будет предпочтительнее.
Google Veo 3 представляет собой технологический прорыв в области генерации видео, но нуждается в исправлении некоторых багов и корректировке ценовой политики. При устранении текущих недостатков модель имеет потенциал стать стандартом создания видеоконтента.