
Agentic Vision — это новая возможность модели Gemini 3 Flash, позволяющая повысить точность задач, связанных с изображениями, путем «обоснования ответов на основе визуальных доказательств».
Передовые модели искусственного интеллекта, такие как Gemini, обычно обрабатывают мир единым статичным взглядом. Если они упускают мелкие детали, такие как серийный номер на микросхеме или уличный знак вдалеке, им приходится угадывать.
Этот новый подход «рассматривает зрение как активное расследование», объединяя визуальное рассуждение с выполнением кода и другими инструментами в будущем.
Для ответов на запросы с изображениями Gemini 3 Flash будет формулировать «планы для поэтапного увеличения, проверки и манипулирования изображениями». В частности, Agentic Vision использует цикл «Думай, Действуй, Наблюдай».
- Думай: модель анализирует запрос пользователя и исходное изображение, формулируя многошаговый план.
- Действуй: модель генерирует и выполняет код Python для активного манипулирования изображениями (например, обрезка, вращение, аннотирование) или их анализа (например, выполнение вычислений, подсчет ограничивающих рамок и т. д.).
- Наблюдай: преобразованное изображение добавляется в контекстное окно модели. Это позволяет модели анализировать новые данные с лучшим контекстом перед генерацией окончательного ответа.

Вместо простого описания предоставленного изображения Gemini 3 Flash «может выполнять код для рисования непосредственно на холсте, чтобы обосновать свои рассуждения». Одним из примеров такой аннотации изображений в приложении Gemini является запрос «посчитать цифры на руке».
Чтобы избежать ошибок при подсчете, она использует Python для рисования ограничивающих рамок и числовых меток над каждым идентифицированным пальцем. Эта «визуальная черновик» гарантирует, что ее окончательный ответ основан на точном понимании пикселей.
Между тем, Gemini 3 Flash будет увеличивать масштаб, когда обнаружит мелкие детали на изображении. Agentic Vision также может «анализировать плотные таблицы и выполнять код Python для визуализации результатов».
Стандартные большие языковые модели часто галлюцинируют при многошаговой визуальной арифметике. Gemini 3 Flash обходит это, перенося вычисления в детерминированную среду Python… Это заменяет вероятностные догадки проверяемым выполнением.
Agentic Vision приводит к «стабильному повышению качества на 5-10% по большинству визуальных бенчмарков» для Gemini 3 Flash.

Эта функция начинает развертываться в приложении Gemini с моделью Thinking. Для разработчиков она доступна сегодня через Gemini API в Google AI Studio и Vertex AI.
В будущем Gemini 3 Flash будет лучше вращать изображения или выполнять визуальные расчеты без «явного запроса на активацию». Сегодня Agentic Vision будет неявно решать, когда увеличивать масштаб.
В дополнение к выполнению кода, будущие инструменты позволят Gemini использовать веб-поиск и обратный поиск изображений, чтобы «еще больше обосновать свое понимание мира». Agentic Vision также будет доступен с другими моделями Gemini.