Gemini 3.5 Flash вошла в рейтинг Google по написанию кода для Android, но она в 3 раза дороже и работает медленнее

Google опубликовала новые результаты тестирования, призванные определить лучшие ИИ-модели для написания кода под Android, а также стоимость использования каждой модели в расчете на токен. Gemini 3.5 Flash от Google оказалась одной из самых ресурсоемких моделей для разработки под Android и даже не попала в пятерку лидеров.

По мере того как ажиотаж вокруг обычных чат-ботов спадает, такие компании, как Google, OpenAI и Anthropic, переключаются на агентные модели, сильной стороной которых является программирование. Пользователи стали полагаться на эти модели для «vibe coding» (интуитивного программирования), что, по сути, перекладывает основную часть разработки программного обеспечения на плечи LLM.

Последние модели значительно улучшили свои навыки в написании кода для Android, и Google следит за тем, какие из них показывают лучшие результаты на протяжении последних нескольких месяцев. Рейтинг «Android Bench» регулярно обновляется по мере выпуска Google собственных моделей, таких как недавняя Gemini 3.5 Flash, и сравнивает их с конкурентами.

Главный вывод заключается в том, как именно Google оценивает эти модели. Каждая модель получает балл из 100, отражающий процент задач по написанию кода для Android, которые она успешно решает за 10 попыток. Google указывает ожидаемую производительность и дату последнего теста; некоторые высокоэффективные модели остаются в топе еще с февраля.

В последнем выпуске Android Bench результаты выглядят более затратными. Gemini 3.5 Flash занимает 6-е место в списке Android Bench, уступая таким моделям, как GPT 5.5 и Gemini 3.1 Pro Preview, протестированным еще в феврале.

Gemini 3.5 Flash позиционировалась как более дешевая и быстрая альтернатива Gemini 3.1 Pro с ожидаемым разрывом в производительности в 6,1%. Новые результаты тестирования говорят об обратном в контексте разработки под Android: у Gemini 3.5 Flash выше задержка и на 9% хуже показатель успешности выполнения задач.

Самое неприятное — новейшая модель Google потребляет в среднем 355,9 токена стоимостью 147,1 доллара за один прогон теста, в то время как Gemini 3.1 Pro Preview использует 73,3 токена, что обходится примерно в три раза дешевле.

GPT 5.5 стоит примерно столько же в расчете на прогон, но Gemini 3.5 Flash использовала в 5,5 раза больше токенов в тестах Android Bench. Предыдущая модель от Claude, Opus 4.7, заняла 4-е место с чуть меньшей стоимостью прогона и меньшим потреблением токенов, оказавшись в середине списка. Google пока не опубликовала результаты тестирования для Opus 4.8 или, кстати, Fable 5.

Вот десятка лучших моделей, ранжированных Google в последнем релизе Android Bench:

Модель Оценка Ср. задержка Ср. кол-во токенов Ср. стоимость
GPT 5.5 74 15.7 64.7 $134.2
GPT 5.4 72.4 21.2 64.2 $91.7
Gemini 3.1 Pro Preview 72.4 11.1 73.3 $47.9
Claude Opus 4.7 68.7 11.6 90.0 $124.3
Claude Opus 4.6 66.6 9.9 69.5 $84.4
Gemini 3.5 Flash 63.7 14.2 355.9 $147.1
GLM 5.1 59.7 33.4 80.2 $46.7
Kimi K2.6 58.6 29.9 94.3 $42.5
Claude Sonnet 4.6 58.4 8.2 47.9 $40.4
DeepSeek V4 Pro 55.4 35.8 132.7 $13.7
Claude Sonnet 4.5 53.7 13.1 94.2 $61.0

В список включено несколько моделей с открытыми весами наряду с хорошо известными закрытыми моделями, такими как Claude и GPT. Верхняя часть списка практически не изменилась с момента последнего выпуска Android Bench, за исключением GPT 5.3 Codex, который был удален из рейтинга.

Вы можете ознакомиться с полным рейтингом на сайте Google.

Google регулярно обновляет этот список по мере тестирования новых моделей. По сути, он является надежным индикатором производительности моделей в разработке под Android. Gemini 3.5 Flash продемонстрировала значительные улучшения в других задачах для LLM и агентных систем, даже несмотря на то, что Google меняет тарифы и лимиты использования. Однако цифры, опубликованные Google, нельзя игнорировать полностью, хотя написание кода для Android, судя по всему, не является сильной стороной Gemini 3.5 Flash.

Еще об ИИ: