Приложение Gemini: редактирование изображений становится более доступным

После анонса на прошлой неделе нативная функция редактирования изображений в приложении Gemini становится более широко доступной. 

Ранее, если вы просили Gemini сгенерировать изображение, а затем внести в него изменения, создавалось совершенно новое изображение:

Раньше (Другая собака, фон, облака и т. д.)

Нативное редактирование изображений сохраняет базовое изображение, внося конкретные изменения с помощью текстовых запросов на естественном языке. Это работает как для сгенерированных изображений, так и для тех, которые вы загружаете напрямую в Gemini. С помощью текстового запроса вы можете менять фон и стили, заменять объекты и добавлять элементы, включая текст. 

Реклама — прокрутите дальше, чтобы увидеть больше контента

На примере ниже второе изображение идентично первому (включая собаку, деревья на заднем плане, небо и т. д.), за исключением зеленой травы. 

Сейчас

Вы также заметите, что на сгенерированных изображениях теперь в правом нижнем углу присутствует визуальный водяной знак «ai». Это то, что Google тестирует, и он дополняет невидимый цифровой водяной знак SynthID.

Google также заявляет, что «вы можете загрузить личную фотографию и попросить Gemini сгенерировать изображение того, как вы будете выглядеть с разными цветами волос».

Это многоэтапное редактирование, которое сохраняет контекст на протяжении всего разговора, также делает возможным «запросы с интегрированным текстом и изображениями». Примеры этого включают пошаговые инструкции с изображениями или «первый черновик сказки на ночь о драконах и предоставление изображений к истории».

Он работает на базе Gemini 2.0 Flash, но вы можете вызвать этот инструмент/возможность в любой модели. На сегодняшний день мы наблюдаем более широкое распространение редактирования изображений в приложении Gemini в США для нескольких бесплатных аккаунтов и аккаунтов Advanced.

Для разработчиков Google анонсировал сегодня, что генерация и редактирование изображений Gemini 2.0 Flash теперь доступны в предварительной версии для разработчиков. gemini-2.0-flash-preview-image-generation доступен через Gemini API в Google AI Studio и Vertex AI уже сегодня. По сравнению с мартовским тестом, Google заявляет об улучшениях, таких как:

  • Более высокое визуальное качество (по сравнению с экспериментальной версией)
  • Более точное отображение текста (по сравнению с экспериментальной версией)
  • Значительно сниженный уровень блокировки фильтров (по сравнению с экспериментальной версией)