Gemini 2.5 Flash с «бюджетом на размышления» становится доступным для разработчиков, а также для приложения Gemini

Abner Li | Четверг, 17 апреля, 2025, 21:15.

После краткого анонса на прошлой неделе, Google сегодня запускает Gemini 2.5 Flash в предварительном доступе. «Бюджет на размышления» позволяет разработчикам контролировать объем рассуждений в зависимости от запроса и сценария использования.

Все модели семейства Gemini 2.5 обладают возможностями рассуждения, которые «обдумывают свои мысли перед ответом» для «повышенной производительности и улучшенной точности». Это идеально подходит для запросов, требующих многошаговых рассуждений, таких как математические задачи и анализ исследовательских вопросов.

Вместо немедленной генерации результата модель может выполнять процесс «мышления», чтобы лучше понять запрос, разбить сложные задачи и спланировать свой ответ.

Для разработчиков

Модели Flash от Gemini известны своей скоростью и более низкой стоимостью. Это не изменится с 2.5 Flash, но Google внедряет возможности рассуждения, где разработчики могут «устанавливать бюджеты на размышления для контроля соотношения затрат и качества».

Ключевые характеристики Gemini 2.5 Flash в предварительном доступе (gemini-2.5-flash-preview-04-17):

Реклама — прокрутите для просмотра другого контента

Лимиты запросов: 1000 RPM / 10 000 RPD (платный тариф), 10 RPM / 500 RPD (бесплатный тариф)
Дата последнего обновления знаний: январь 2025 г.
Входные модальности: текст, изображения, видео, аудио
Выходные модальности: текст
Контекстное окно: 1 миллион токенов
Максимальная длина вывода: 64 тыс. токенов

В частности, разработчики могут контролировать «количество токенов, которые модель может сгенерировать во время размышления» от 0 до 24 576 токенов. Для этого предусмотрен ползунок в Google AI Studio и Vertex AI, а также параметр API. На приведенных ниже графиках видно, как улучшается качество рассуждений при увеличении бюджета.

Если бюджет на размышления установлен на ноль, эта новая модель будет соответствовать стоимости и задержке 2.0 Flash.

Если бюджет не указан, Gemini 2.5 Flash «автоматически решает, сколько размышлять, основываясь на предполагаемой сложности задачи». Google приводит примеры минимальных, средних и высоких уровней рассуждений:

Запросы с минимальными рассуждениями:

«Спасибо» по-испански
Сколько провинций в Канаде?

Запросы со средними рассуждениями:

Вы бросаете две кости. Какова вероятность, что их сумма составит 7?
Мой спортзал открыт для игры в баскетбол с 9:00 до 15:00 по понедельникам, средам и пятницам, и с 14:00 до 20:00 по вторникам и субботам. Я работаю с 9:00 до 18:00 пять дней в неделю и хочу играть в баскетбол 5 часов в будние дни. Составьте для меня расписание, чтобы все получилось.

Запросы с высокими рассуждениями:

В контексте агентов, еще один пример: быстрые сводки будут требовать низкого бюджета на размышления, в то время как детальный анализ потребует более высокого.

Gemini 2.5 Flash доступен для предварительного просмотра разработчикам в Google AI Studio и Vertex AI. Google заявляет, что «продолжит улучшать Gemini 2.5 Flash, и вскоре появятся новые возможности, прежде чем мы сделаем его общедоступным для полного производственного использования».

Приложение Gemini

2.5 Flash (экспериментальная версия) также появится в приложении Gemini с возможностью автоматической корректировки объема рассуждений в зависимости от сложности запроса. Конечные пользователи не будут иметь никаких ручных настроек в приложении.

При запуске будут поддерживаться различные возможности приложения Gemini, такие как приложения/расширения, загрузка файлов и т.д., в то время как эта модель заменит 2.0 Flash Thinking (экспериментальная версия), которая в последний раз обновлялась в марте.