
После объявления ранее в этом году Google открыла доступ к Imagen 3, своей новой модели латентной диффузии, используемой для генерации изображений по текстовым запросам.
Как заметил VentureBeat, Google недавно опубликовал исследовательскую работу, посвященную запуску Imagen 3 в США. Компания заявляет о методах Imagen 3 по минимизации потенциального вреда от генерации изображений с помощью моделей ИИ.
Мы представляем Imagen 3, модель латентной диффузии, которая генерирует высококачественные изображения по текстовым запросам. Мы описываем наши оценки качества и ответственности. Imagen 3 предпочтительнее других современных (SOTA) моделей на момент оценки. Кроме того, мы обсуждаем вопросы безопасности и представления, а также методы, которые мы использовали для минимизации потенциального вреда от наших моделей.
Фокус на «безопасности и представлении» проявляется в том, что генератор изображений Google отклоняет некоторые запросы. Это происходит на фоне того, как xAI Илона Маска запустила генерацию изображений в Grok-2, которая практически полностью не ограничена и привела к созданию и распространению бесчисленных спорных изображений в социальных сетях.
Когда Imagen 3 анонсировали на Google I/O в мае, Google назвал ее своим «самым качественным» генератором изображений на сегодняшний день, с улучшениями в отрисовке текста, а также в ограничении визуальных артефактов, которые часто встречаются в изображениях, сгенерированных ИИ. На I/O Google также анонсировал «Veo», инструмент генеративного ИИ для видео, который еще не запущен публично.
Пользователи могут получить доступ к Imagen 3 через ImageFX прямо сейчас.