
Google анонсировала новую революционную модель ИИ под названием «Veo», которая позволит генерировать видео, учитывая творческие замыслы пользователей. Google также обновляет свою модель генерации изображений, выводя ее на третью версию в Imagen 3.
Bard стал одним из первых знакомств с современными большими языковыми моделями Google. Эта версия была впервые запущена около года назад, а в последние месяцы в платформу были внесены серьезные изменения. Одним из крупнейших изменений стал полный ребрендинг, переименовавший пользовательский инструмент ИИ в Gemini, который теперь интегрирован во всю продуктовую линейку компании: Gemini Nano в текущих и будущих устройствах, а также Gemini Pro.
Незадолго до переименования Bard в Gemini, Google добавила возможность запрашивать изображения через разговорную модель ИИ. Запрос изображения коровы на лодке приводил к созданию именно этого, в любом желаемом стиле. Этот процесс был реализован благодаря Imagen 2, которая стала первой общедоступной версией.
Модель Veo от Google
Сегодня Google анонсирует две модели генерации контента: Veo и Imagen 3. Veo представляет наибольший интерес, так как пользователи еще не имели возможности с ней познакомиться. Модель создана специально для генерации видео, понимает визуальную семантику и естественный язык, подобно другим современным моделям. Такой подход к генерации видео позволяет творчески настраивать результаты под определенные стили.
Google отмечает, что модель Veo сможет понимать «кинематографические термины» в запросах пользователей, такие как «аэросъемка» и «таймлапс». Veo способна генерировать видео в разрешении 1080p продолжительностью более минуты, что превосходит возможности текущих моделей, таких как Sora от OpenAI, максимальная продолжительность которой составляет 60 секунд.
Veo основана на многолетней работе нашей команды над моделями генерации видео, включая Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet и Lumiere — она объединяет архитектуру, законы масштабирования и другие новаторские методы для улучшения качества и разрешения выходных данных.
Google приглашает создателей контента и кинематографистов протестировать Veo, чтобы доработать модель и обеспечить ее соответствие широкому спектру художественных стилей и вариантов использования.
Imagen 3
Модель Imagen также получила существенное обновление. Imagen 3 позиционируется как модель Google с «самым высоким качеством» преобразования текста в изображение и предлагает несколько улучшений по сравнению с моделью Imagen 2, которую мы видели в Gemini и Bard.
Согласно заявлениям, Imagen 3 обеспечивает более высокий уровень детализации изображений с меньшим количеством визуальных артефактов и искажений. Изображения получаются более фотореалистичными и живыми при запросе.
Пожалуй, самым значительным улучшением является способность Imagen 3 рендерить текст. Это стало комичной слабостью моделей преобразования текста в изображение, таких как DALL-E и Adobe Firefly. Google позиционирует новую модель как способ создания персонализированных изображений с текстом, например, открыток или фотографий с надписями. Насколько хорошо она будет справляться с рендерингом текста, еще предстоит увидеть, но это многообещающее улучшение.
Обе модели, Veo и Imagen 3, будут доступны для частного тестирования через VideoFX от Google Labs. VideoFX будет использовать SynthID для обеспечения цифрового водяного знака на созданном контенте и ответственного подхода к генерации.
Желающие протестировать новые модели могут записаться через список ожидания Google.