
Вслед за Gemma 3 и Gemini Robotics ранее сегодня, новости Google об ИИ продолжаются расширенным доступом к нативному выводу изображений в Gemini 2.0 Flash, который позволяет редактировать изображения в диалоговом режиме наряду с другими возможностями.
Когда Gemini 2.0 Flash был анонсирован в декабре, Google говорил о выводе аудио и изображений в дополнение к тексту. Это часть превращения Gemini в мультимодальную модель, способную принимать различные входные данные и генерировать аналогичные выходные данные.
Вместо того чтобы просто предоставить запрос и получить изображение, нативный вывод позволяет «редактировать изображения в ходе множества итераций диалога на естественном языке». Контекст сохраняется на протяжении всего разговора.
Между тем, 2.0 Flash лучше отображает изображения с текстом, включая длинные последовательности. Это было сложно для современных моделей.

По сравнению с другими автономными моделями генерации изображений, эта возможность в 2.0 Flash «использует мировые знания и улучшенное рассуждение для создания правильного изображения».
Это делает ее идеальной для создания детализированных изображений, которые выглядят реалистично — например, для иллюстрации рецепта. Хотя модель стремится к точности, как и все языковые модели, ее знания широки и общи, а не абсолютны или полны.
В приведенном ниже примере запрос звучит так: «Дай мне рецепт шоколадного печенья. Пожалуйста, включи изображение каждого шага».


Одним из примеров использования возможности одновременного вывода текста и изображений является запрос к 2.0 Flash рассказать историю с картинками, которые сохраняют «персонажей и окружение последовательными на протяжении всей истории».
Еще в декабре нативный вывод изображений Gemini 2.0 Flash был доступен только для доверенных тестировщиков. Теперь все разработчики/пользователи могут попробовать его в Google AI Studio с обновленной экспериментальной версией Gemini 2.0 Flash (gemini-2.0-flash-exp) или в Gemini API. В селекторе моделей справа (на рабочем столе) перейдите в раздел «предварительная версия». Установите «формат вывода»: Изображения + текст. Действуют ежедневные ограничения.