
Режим Gemini Deep Think, анонсированный на I/O 2025, еще не готов, но Google сегодня подчеркивает, как он продемонстрировал производительность уровня золотой медали в соревновании по математике.
Международная математическая олимпиада («ММО») — это самое престижное соревнование для молодых математиков в мире, которое проводится ежегодно с 1959 года. Каждую страну-участницу представляют шесть элитных математиков доуниверситетского уровня, которые соревнуются в решении шести исключительно сложных задач по алгебре, комбинаторике, геометрии и теории чисел. Медали вручаются половине лучших участников, причем примерно 8% получают престижную золотую медаль.
ММО 2025 прошла на прошлой неделе, и «продвинутая версия Gemini Deep Think идеально решила пять из шести задач ММО, набрав в общей сложности 35 очков и продемонстрировав производительность уровня золотой медали». Google поделился решениями здесь (PDF).
Чтобы максимально использовать возможности глубокого мышления Deep Think, мы дополнительно обучили эту версию Gemini с использованием новых методов обучения с подкреплением, которые могут использовать больше данных о многошаговом рассуждении, решении задач и доказательстве теорем. Мы также предоставили Gemini доступ к тщательно подобранному корпусу высококачественных решений математических задач и добавили некоторые общие подсказки и советы о том, как подходить к задачам ММО, в его инструкции.
Еще в мае Google явно заявил, что Gemini 2.5 Pro является базовой моделью. В сегодняшнем посте в блоге просто говорится «продвинутая версия» или «продвинутый Gemini».
Это соревнование представляет собой серьезный вызов для передовых возможностей ИИ в области решения математических задач и рассуждений. В 2024 году Google DeepMind получил серебро («решив четыре из шести задач и набрав 28 очков»), используя AlphaGeometry и AlphaProof с 2-3 днями вычислений. Однако задачи сначала пришлось перевести с естественного языка на языки, специфичные для домена.
В этом году Gemini «работал сквозным образом на естественном языке, генерируя строгие математические доказательства непосредственно из официальных описаний задач — и все это в пределах 4,5-часового лимита времени соревнования».
Deep Think — это «улучшенный режим рассуждений», который использует «новейшие исследовательские методы», такие как параллельное мышление.
Эта настройка позволяет модели одновременно исследовать и комбинировать несколько возможных решений, прежде чем дать окончательный ответ, а не следовать одной линейной цепочке рассуждений.
Google заявляет, что предоставит «версию этой модели Deep Think для использования набором доверенных тестировщиков, включая математиков». После этого она будет доступна в Google AI Ultra, но пока неясно, когда она будет выпущена для подписчиков уровня за 250 долларов в месяц.